Baseado em um post do MeioBit (blog de tecnologia e muito mais) que aborda uma funcionalidade pouco usado em páginas de internet - que é fazer a descrição da tag ALT do HTML onde há imagens e outros elementos de mídia. A tag ALT é essencial para acessibilidade de pessoas que possuem limitações visuais. Essa tag sendo descrita os softwares que leem as páginas HTML podem descrever os conteúdos das páginas de modo muito mais detalhado e assim "enriquecer a experiência" do usuário. Mas normalmente esta tag não é descrita pois normalmente os editores não a completam, dependendo do editor é necessário inclui-la direto no código HTML (como é o caso aqui do editor do Blogspot).
Eu vi importância em preencher a tag ALT e por isso passei a sempre incluir a descrição. Mas na minha simplicidade eu fazia um texto rápido, podemos dizer até rasteiro. Então eu li este artigo no MeioBit , que apresentava uma ferramenta de IA que produz ótimos textos para a tag ALT. O texto explica o problema, mostra como é complicada a vida em redações de portais e quanto se perde em não preencher a tag ALT. A ferramenta utilizada, na verdade, um conjunto de nodes do ComfyUI. A combinação desses nodes é formada pelo Florence2 que é um modelo de visão computacional que reconhece os elementos da imagem; o ComfyUI Translator que basicamente traduz os textos entre várias linguagens; o ComfyUI Custom Scripts e para amarrar esses nodes tem o BabelPeixe que é um script que usa os nodes ComfyUI. Este conjunto forma a solução e é bem eficiente, porém o uso não é tão fácil para um usuário médio, pois é necessário fazer algumas instalações, módulos, scripts, python, etc.
Eu estava disposto a passar por todo esse processo para usar a ferramenta e verificar o quão boa ela era, mas do nada eu pensei - porque não colocar a imagem para os modelos de IA tradicionais fazerem a descrição... pois bem eis a comparação entre os resultados obtidos.
Esta é a imagem base que será avaliada:
Está é a descrição obtida pelo BabelPeixe: "A imagem mostra dois jovens, Robert Pattinson e Kristen Stewart, sentados em um banco em um parque ou jardim. Ambos estão usando jaquetas pretas e parecem estar envolvidas em uma conversa. Robert está no lado esquerdo da imagem, com as mãos apertadas na frente dele. Kristen está sentada ao lado dele, com as mãos descansando em seu colo. No fundo, há um homem vestindo um casaco preto e óculos de sol, que parece ser um personagem da saga de Twilight. O céu está nublado e há árvores ao fundo."
Submeti a imagem ao Gemini (2.5 Flash) e obtive o seguinte resultado: "A imagem mostra uma montagem de três personagens. No centro, Edward Cullen e Bella Swan, da saga "Crepúsculo", estão sentados em um ambiente de floresta, olhando um para o outro e conversando. Bella tem uma expressão séria, enquanto Edward sorri para ela. Ambos estão vestidos com casacos escuros. Ao fundo, à esquerda, o personagem Blade, do filme homônimo, está de pé, parecendo observar o casal com uma expressão séria. Ele usa seu característico casaco de couro preto e óculos escuros. A imagem é uma junção de dois universos, criando um contraste humorístico entre o romance de "Crepúsculo" e a ação de "Blade"."
Já o ChatGPT deu a seguinte resposta: "Montagem humorística em que dois personagens do filme Crepúsculo, um jovem de cabelos castanho-avermelhados sorrindo e uma jovem de cabelos longos castanhos conversando, estão sentados juntos ao ar livre, enquanto ao fundo aparece Blade, personagem de filmes de ação sobre caçadores de vampiros, observando a cena de pé com expressão séria e usando óculos escuros, sobretudo preto e armadura."
Qual o melhor ? Na minha visão o BabelPeixe não foi mal, mas tanto o Gemini quanto o ChatGPT foram melhor. A título de exemplo eis a análise de uma imagem do post anterior pelo Gemini.
"A imagem, em preto e branco, mostra uma fotografia vertical de Jorge Luis Borges. A foto foca em seu rosto e ombros. Ele está sentado, com a cabeça levemente inclinada para trás e para a direita. Seus olhos estão fechados e ele sorri de forma espontânea, parecendo rir. O escritor usa um terno escuro sobre uma camisa branca e uma gravata. Ao fundo, um borrão desfocado com listras verticais escuras e claras, que pode ser uma cortina ou a estampa de um móvel. A imagem transmite um momento de alegria e descontração do famoso autor."
Concluindo... os modelos de IA no meu parecer são mais eficientes e fácil de usar do que o BabelPeixe. Porém num cenário em que muitas imagens teriam que ser descritas, ferramentas como o BabelPeixe podem sim ser uma opção bastante válida.
=========
Link do BabelPeixe no Meiobit: https://meiobit.com/466066/babelpeixe-usando-ia-em-prol-da-acessibilidade-e-do-seo
Documentação da tag HTML <img> alt - https://www-w3schools-com.translate.goog/tags/att_img_alt.asp?_x_tr_sl=en&_x_tr_tl=pt&_x_tr_hl=pt&_x_tr_pto=tc
Nenhum comentário:
Postar um comentário