Mostrando postagens com marcador imagem. Mostrar todas as postagens
Mostrando postagens com marcador imagem. Mostrar todas as postagens

domingo, 17 de agosto de 2025

Tornando posts acessíveis com IA

Baseado em um post do MeioBit (blog de tecnologia e muito mais) que aborda uma funcionalidade pouco usado em páginas de internet - que é fazer a descrição da tag ALT do HTML onde há imagens e outros elementos de mídia. A tag ALT é essencial para acessibilidade de pessoas que possuem limitações visuais. Essa tag sendo descrita os softwares que leem as páginas HTML podem descrever os conteúdos das páginas de modo muito mais detalhado e assim "enriquecer a experiência" do usuário. Mas normalmente esta tag não é descrita pois normalmente os editores não a completam, dependendo do editor é necessário inclui-la direto no código HTML (como é o caso aqui do editor do Blogspot).

Eu vi importância em preencher a tag ALT e por isso passei a sempre incluir a descrição. Mas na minha simplicidade eu fazia um texto rápido, podemos dizer até rasteiro. Então eu li este artigo no MeioBit , que apresentava uma ferramenta de IA que produz ótimos textos para a tag ALT. O texto explica o problema, mostra como é complicada a vida em redações de portais e quanto se perde em não preencher a tag ALT. A ferramenta utilizada, na verdade, um conjunto de nodes do ComfyUI. A combinação desses nodes é formada pelo Florence2 que é um modelo de visão computacional que reconhece os elementos da imagem; o ComfyUI Translator que basicamente traduz os textos entre várias linguagens; o  ComfyUI Custom Scripts e para amarrar esses nodes tem o BabelPeixe que é um script que usa os nodes ComfyUI. Este conjunto forma a solução e é bem eficiente, porém o uso não é tão fácil para um usuário médio, pois é necessário fazer algumas instalações, módulos, scripts, python, etc. 

Eu estava disposto a passar por todo esse processo para usar a ferramenta e verificar o quão boa ela era, mas do nada eu pensei - porque não colocar a imagem para os modelos de IA tradicionais fazerem a descrição... pois bem eis a comparação entre os resultados obtidos.

Esta é a imagem base que será avaliada:

Montagem humorística em que dois personagens do filme Crepúsculo, um jovem de cabelos castanho-avermelhados sorrindo e uma jovem de cabelos longos castanhos conversando, estão sentados juntos ao ar livre, enquanto ao fundo aparece Blade, personagem de filmes de ação sobre caçadores de vampiros, observando a cena de pé com expressão séria e usando óculos escuros, sobretudo preto e armadura

Está é a descrição obtida pelo BabelPeixe: "A imagem mostra dois jovens, Robert Pattinson e Kristen Stewart, sentados em um banco em um parque ou jardim. Ambos estão usando jaquetas pretas e parecem estar envolvidas em uma conversa. Robert está no lado esquerdo da imagem, com as mãos apertadas na frente dele. Kristen está sentada ao lado dele, com as mãos descansando em seu colo. No fundo, há um homem vestindo um casaco preto e óculos de sol, que parece ser um personagem da saga de Twilight. O céu está nublado e há árvores ao fundo."

Submeti a imagem ao Gemini (2.5 Flash) e obtive o seguinte resultado: "A imagem mostra uma montagem de três personagens. No centro, Edward Cullen e Bella Swan, da saga "Crepúsculo", estão sentados em um ambiente de floresta, olhando um para o outro e conversando. Bella tem uma expressão séria, enquanto Edward sorri para ela. Ambos estão vestidos com casacos escuros. Ao fundo, à esquerda, o personagem Blade, do filme homônimo, está de pé, parecendo observar o casal com uma expressão séria. Ele usa seu característico casaco de couro preto e óculos escuros. A imagem é uma junção de dois universos, criando um contraste humorístico entre o romance de "Crepúsculo" e a ação de "Blade"."

Já o ChatGPT deu a seguinte resposta: "Montagem humorística em que dois personagens do filme Crepúsculo, um jovem de cabelos castanho-avermelhados sorrindo e uma jovem de cabelos longos castanhos conversando, estão sentados juntos ao ar livre, enquanto ao fundo aparece Blade, personagem de filmes de ação sobre caçadores de vampiros, observando a cena de pé com expressão séria e usando óculos escuros, sobretudo preto e armadura."

Qual o melhor ? Na minha visão o BabelPeixe não foi mal, mas tanto o Gemini quanto o ChatGPT foram melhor. A título de exemplo eis a análise de uma imagem do post anterior pelo Gemini.

A imagem, em preto e branco, mostra uma fotografia vertical de Jorge Luis Borges. A foto foca em seu rosto e ombros. Ele está sentado, com a cabeça levemente inclinada para trás e para a direita. Seus olhos estão fechados e ele sorri de forma espontânea, parecendo rir. O escritor usa um terno escuro sobre uma camisa branca e uma gravata. Ao fundo, um borrão desfocado com listras verticais escuras e claras, que pode ser uma cortina ou a estampa de um móvel. A imagem transmite um momento de alegria e descontração do famoso autor.

"A imagem, em preto e branco, mostra uma fotografia vertical de Jorge Luis Borges. A foto foca em seu rosto e ombros. Ele está sentado, com a cabeça levemente inclinada para trás e para a direita. Seus olhos estão fechados e ele sorri de forma espontânea, parecendo rir. O escritor usa um terno escuro sobre uma camisa branca e uma gravata. Ao fundo, um borrão desfocado com listras verticais escuras e claras, que pode ser uma cortina ou a estampa de um móvel. A imagem transmite um momento de alegria e descontração do famoso autor."

Concluindo... os modelos de IA no meu parecer são mais eficientes e fácil de usar do que o BabelPeixe. Porém num cenário em que muitas imagens teriam que ser descritas, ferramentas como o BabelPeixe podem sim ser uma opção bastante válida.

=========

Link do BabelPeixe no Meiobit: https://meiobit.com/466066/babelpeixe-usando-ia-em-prol-da-acessibilidade-e-do-seo

Documentação da tag HTML <img> alt - https://www-w3schools-com.translate.goog/tags/att_img_alt.asp?_x_tr_sl=en&_x_tr_tl=pt&_x_tr_hl=pt&_x_tr_pto=tc


segunda-feira, 6 de junho de 2022

Peça sua imagem

Você já precisou de alguma imagem da internet ? Veja bem talvez você nunca tenha precisado pois não é sua área de trabalho. Mas quem trabalha com internet, principalmente assessorias de imprensa, profissionais de marketing, produtores de conteúdo jornalístico, ficção e outras invariavelmente precisam de imagens que representem ou tenham relação com o assunto abordado.

Não é à toa que existem muitos bancos de imagens disponíveis para consulta e utilização de imagens, claro que os melhores e maiores bancos são pagos e com planos diversos. Ao final do texto, disponibilizei alguns poucos links com lista de bancos de imagens gratuitos e pagos que para quem precisa oferecerá imagens que vão atender toda e qualquer demanda.

 Pois bem, tempos atrás descobri algumas ferramentas utilizando Inteligência Artificial que vale a pena destacar devido às suas entregas. Pelo menos o que elas prometem entregar, já que nem todas estão sendo utilizadas como ferramenta comercial (ainda). São os geradores de texto-imagem. Você escreve o que você quer e gerador devolve opções de imagens a partir do seu texto. 

StyleGan2

A primeira das ferramentas que quero destacar, na verdade, não é um gerador de texto-imagem, mas entrega imagens novas geradas a partir de imagens reais. Esta ferramenta disponibiliza seus resultados no site thispersondoesnotexist.com. O site na verdade é só para mostrar os resultados obtidas pela StyleGan2 que é uma GAN - generative adversarial network (ou em português rede adversarial generativa). Uma GAN é uma rede neural para aprendizagem não supervisionada compostos por um sistema de dois modelos de rede neural que competem entre si e são capazes de analisar, capturar e copiar as variações dentro de um conjunto de dados. Apesar de os rostos de pessoas chamarem mais atenção a mesma rede neural faz o trabalho similar com trabalhos de arte, gatos, cavalos, dentre outros infinitos itens. Em todos é impressionante a fidelidade. Qualquer um diria que é uma foto de uma pessoa ou item real. 

Este vídeo aborda o StyleGan2 e seus recursos. Mais sobre o StyleGan2 veja os links desta lista

Dall-E 2 

O Dall-E 2 é um gerador de texto-imagem. O Dall-E 2 foi desenvolvido pela OpenAI.  É suficiente digitar um texto (em inglês) e a ferramenta cria várias imagens a partir do texto de entrada. O site mostra e compara os resultados do Dall-E 2 em comparação com os resultados do Dall-E 1. Aqui uma sequência das fotos geradas pelo Dall-E 2 ao se pedir um astronauta cavalgando um cavalo em estilo fotográfico.




Para se aprofundar o OpenAI disponibiliza documentação, API, exemplos, etc. O Dall-E 2 já está disponível comercialmente.

Imagen

Desenvolvido pelo o Google, o Imagen demonstra superioridade ao Dall-E 2 e várias outras GANs na geração de imagem a partir de texto. Na intenção de comprovar seus melhores resultados o site do Imagen mostra suas métricas comparativas a outros trabalhos. O Imagen apresenta variedade de estilos, texturas, compreensão maiores do que seus concorrentes. Aqui vão alguns exemplos:

 

Apesar dos resultados superiores, por enquanto o Imagen não parece estar disponível comercialmente. 

Pelo visto em um tempo não muito distante os banco de imagens vão ter que se atualizar e passar a agregar este tipo de solução  de inteligência artificial para atender seus clientes, já os fotógrafos... bem estes terão que se reinventar e os bons e persistentes encontrarão seu caminho no mundo.


========

Lista de bancos de imagens:

ProsaNova

ResultadosDigitais

DunaDesign

RockContent

=============

Lista StyleGan2

Vídeo explicativo 1 - StyleGANv2 Explained! 

Vídeo explicativo 2 - Editing Faces using Artificial Intelligence

Artigo - Analyzing and Improving the Image Quality of StyleGAN

Código da StyleGan2 no Github