Clube Lúdico: software

Mostrando postagens com marcador software. Mostrar todas as postagens

sexta-feira, 26 de dezembro de 2025

Árvore genealógica com JavaScript e Mermaid.JS

Depois de muito pouco comprometimento com desenvolvimento, seja por obrigação, seja por diversão, eu encontrei um grupo da família e pude obter dados que remontavam aos meus bisavós. Então já que havia muita gente que não se conhecia e não sabia em que posição na família cada um se encontrava, tive a ideia de montar uma árvore genealógica. Daí fiquei buscando algumas formas de como montar uma árvore genealógica. E houve aquelas formas mais corriqueiras como utilizar algum editor de imagens ou montar retângulos com traços os ligando-os, mas que óbvio ficava bem ruim pois a edição é custosa. Então tentei uma solução em JavaScript associado uma página HTML Encontrei alguns pacotes no Github que iam nessa abortagem. A principal solução desse tipo foi o Treant-js encontrado em http://fperucic.github.io/treant-js , trabalho do Fran Peručić.

Captura de tela do site Treant.js, uma biblioteca JavaScript baseada em SVG para visualização de diagramas em árvore. No topo, há o logotipo com o nome ‘Treant.js’ e a frase ‘JavaScript library for visualization of tree diagrams’. Abaixo, um menu de navegação com opções como Quick Start, Introduction, API, Examples e Download. Na seção principal, intitulada ‘Quick Start Demos’, são exibidas miniaturas de exemplos de diagramas, incluindo organograma empresarial, árvore de resultados esportivos, estrutura colapsável, árvore de evolução e itens personalizados por cores.

Treant.JS do Fran Peručić

Então passei para o Gemini e ChatGPT para criar a estrutura básica da página HTML e desta vez o Gemini se saiu melhor que o ChatGPT apesar de o resultado final não ter sido perfeito. Das 6 versões geradas 4 no Gemini e 2 no ChatGPT, exatamente nesta sequência a versão número 2 do Gemini ficou melhor porém incompleta. E não houve meio de explicar para ele nem para o ChatGPT para basicamente incluir os recursos que estavam faltando sem alterar a estrutura já criada. Pois bem todas as vezes foram propostas soluções diferentes nunca agregando o que estava faltando. Por fim peguei a versão 2 (a melhor no meu julgamento) e finalizei o código para que as árvores criadas pudessem ser persistidas (sendo salva e/ou carregada) e assim não ter que refazer a árvore do zero todas as vezes. Na versão 2 em si, o Gemini escolheu a Cytoscape.js - uma biblioteca JavaScript aberta e bem completa de recursos para criação de grafos com possibilidade de visualização e interação, sem falar que é amplamente usada.

Captura de tela do site oficial Cytoscape.js, biblioteca JavaScript para visualização e análise de grafos e redes. No topo, aparece o logotipo Cytoscape.js e a descrição ‘Graph theory (network) library for visualisation and analysis’, acompanhados de selos informativos como versão, licença MIT, repositório GitHub e estatísticas de uso. À esquerda, há um menu de navegação vertical com seções como Introduction, Notation, Getting started e Architecture & API. Na área principal, a seção ‘Demos’ exibe miniaturas de exemplos de grafos interativos, incluindo redes gene-gene, mapa das ferrovias de Tóquio, relações entre vinhos e queijos, diagramas SBGN e exemplos de extensões

Cytoscape.js - Biblioteca JS topíssima !!!

Apesar de a combinação de recursos ter sido boa suficiente para criar uma árvores simples, não explorei funcionalidades de melhor visualização. O código resultante do trabalho inicial do Gemini e finalização e revisão feita por mim está disponível no meu Github.

Captura de tela de uma aplicação web de genealogia. À esquerda, há um painel lateral escuro intitulado ‘Genealogia’, com formulários para cadastro de pessoas e casamentos, incluindo campos como nome completo, seleção de cônjuges e botões ‘Salvar Pessoa’ e ‘Casar’. À direita, ocupa a maior parte da tela um grande diagrama de árvore genealógica, com várias gerações representadas por caixas retangulares conectadas por linhas coloridas, indicando relações familiares e casamentos organizados hierarquicamente.

Meu formulário simples usando Cytoscape

A partir dessa segunda solução, o Gemini me sugeriu utilizar o Mermaidchart.com que é um conjunto de ferramentas (web, textos e código). Mermaid permite a criação de diagramas e sua visualização usando texto e código. É baseado em JavaScript e pode ser integrado de diferentes formas além de ter recursos de IA para otimização de código e geração de gráfico a partir de texto. Ou seja serve para criar os gráficos mais diversos e serve também para árvores genealógicas. Porém o Mermaid permite mais facilmente (não que os outros não tenham tais recursos) uma visão mais confortável e atraente. Um trabalho futuro interessante seria trabalhar incrementos tais como a integração numa página HTML, bem como testar a descrição da genealogia em texto e deixar o Mermaid fazer o resto. Mas enfim completei a tarefa e posso dizer que pelo menos fiz um gol de honra.

Captura de tela de uma ferramenta web de edição de diagramas baseada em código. À esquerda, há um painel de código com sintaxe Mermaid, exibindo um fluxograma orientado da esquerda para a direita e definições de estilos por classes de cores. No topo, aparecem controles como ‘Auto Layout’ e ‘Manual Layout’, além de opções de exportação e compartilhamento. À direita, ocupa a maior parte da tela um grande diagrama hierárquico renderizado automaticamente, composto por dezenas de nós retangulares coloridos e conectados por linhas, representando uma estrutura complexa em forma de árvore. Há também ferramentas de navegação, zoom e edição visual distribuídas ao redor da área do diagrama.

Interface da MermaidChart para fazer qualquer gráfico

=========

Referências:

Fran Peručić

Cytoscape.js

Exemplo do código que desenvolvi - GitHub

Mermaidchart.com

quinta-feira, 27 de fevereiro de 2025

Voltando ao TTS

Há muito tempo atrás (revi o post e na verdade foi há 12 anos) eu escrevi sobre o TTS (clique aqui para ver post), esse filho esquecido da tecnologia. Digo isto pois aqueles que consomem áudio (rádio, podcast, audiolivros) parecem estar satisfeitos e quietos. É um nicho não visto, até porque com a explosão dos podcasts no Youtube não mexeu com esse grupo. Explico o podcast que explodiu no Youtube não é o podcast "raiz", original, que é constituído do áudio somente. Os podcasts do Youtube são na verdade entrevistas em vídeo com a opção eventualíssima de consumir somente o áudio. O podcast original é o áudio puro veiculado via protocolo específico. Por coincidência enquanto eu finalizava este post saiu este artigo do MeioBit (clique aqui) que repete basicamente o que eu afirmei acima.

Mas há os aficionados em audiolivros que é um segmento de tamanho razoável. Para atrair e oferecer um melhor produto, os audiolivros passaram a ser dramatizados, com leitores-narradores, efeitos sonoros, etc. Alguns livros lidos por alguns narradores tornaram-se um produto além do seu conteúdo, marcando definitivamente os leitores-ouvintes.

Pois bem, um leitor-narrador, a dramatização do audiolivro, efeitos, etc tem custo adicional, logo não iria demorar que se utilizasse ferramentas para geração automática de audiolivros... e com um passo adicional a leitura traduzida de títulos para uma grande maioria de idiomas tudo rapidamente. Semanas atrás li o artigo do Fellipe Gomes no Medium e ele mostrou um código simples em Python pelo qual a partir de um livro em PDF em inglês publicado em um site, o texto é extraído, traduzido do inglês para o português e transformado em áudio. Quando li o texto, o Filipe ganhou tanto minha atenção quanto meu interesse.

O mais espetacular que o Fillipe utilizou bibliotecas disponíveis que fazem todo o trabalho, bastando colocar no código e chamar suas funções. Foi assim que ele utilizou a deep-translate do Google Translator (sim, tem recursos de IA) com bons resultados em tradução. Só não abusar da API com textos muito longos. E a edge-tts do Microsoft Edge dentre outras. Esta edge-tts permite que você escolha a "voz" da leitura e normalmente disponibiliza uma voz masculina e uma feminina para cada idioma, no mínimo.

Como consumidor de audiolivros pensei: "Porque não transformar alguns livros em PDF em audiolivros" ? Boa oportunidade para mexer no Python. Então adaptei o código original e o rodei via Colab do Google, afinal o meu teste não precisava de grande poder de processamento. Pus uns arquivos PDF no Google Drive. Para o teste ser minimamente interessante codifiquei para que se indique o arquivo PDF, o idioma a ser traduzido e a voz para se usar no áudio. O código completo está disponível aqui no Github (clique aqui).

O resultado ficou maravilhoso na minha avaliação. No teste optei pela geração de somente 1 página dos PDFs para que eles não ficassem excessivamente pesados. Numa situação de obter o áudio de PDF grande a opção é dividir o PDF em partes para a geração não ficar muito demorada. Uma vez de posse dos áudios dá para colocar uma música de fundo... ideias, mas fica para outro momento. No meu teste utilizei publicações que estão em domínio público e recomendo que se mantenha o respeito às direitos de publicação e do autor. Utilizei pedaços pequenos (página 5) de "Animal Farm" - em inglês - (lançado no Brasil como "A Revolução dos Bichos") de George Orwell e "Confissões" - em português - de Agostinho. Ouça e tire suas próprias conclusões:

Animal Farm - texto original em inglês lido com a voz Yan no inglês de Hong Kong

Animal Farm - texto original em inglês lido com a voz Antônio no português do Brasil

Confissões - texto original em português lido com a voz Antoine no francês do Canadá

Confissões - texto original em português lido com a voz Francisca no português do Brasil

Vamos às vantagens e desvantagens desta técnica

Vantagens:

1. Sim, é possível transformar PDFs, ePUBs, HTMLs e TXTs em áudio;

2. Sim, dá para traduzir razoavelmente bem e ainda escolher a língua e uma "voz" no qual será gerado o áudio.

3. Flexibilidade de obter publicações em vários idiomas e traduzir para em idioma preferido.

Desvantagens:

1. Livros com palavras hifenizadas terá sua leitura atrapalhada, para estes teria que acrescentar um tratamento para palavras com hífen;

2. No teste feito há uma clara limitação de processamento (Colab Google) para maiores demandas teria que fazer em um equipamento com maior poder de processamento.

3. A leitura está bem humana mas ainda há falhas na entonação de palavras complexas e ou falta de naturalidade em algumas partes.

=======

Referências:

Código em Python no Github - https://github.com/ilhado/TextToSpeech

Explosão dos podcasts no Youtube - https://meiobit.com/466053/youtube-mudou-midia-podcast-audio-para-video/

Fellipe Gomes no Medium - https://medium.com/@gomesfellipe

sábado, 5 de agosto de 2023

Ferramentas de IA

No passado recente os avanços na área de Inteligência Artificial em seus múltiplos desdobramentos tem sido tão vertiginoso que apontar tais desdobramentos é estar fadado à rápida desatualização. Com relação às ferramentas, idem. Ainda assim é possível verificar quais ferramentas e recursos estão disponíveis e alguns tornam-se referência podendo ser utilizados por mais tempo. Lembrando que a lista não é recomendação. A maioria das ferramentas indicadas são para desenvolvedores e são em geral baseadas nas IAs mais famosas.

1. Soluções voltadas a código. Soluções que escrevem, depuram ou explicam códigos. Não vou citar as três principais pois já são muito famosas - ChatGPT, GitHub Copilot, OpenAI Codex.

DeepCode - A principal proposta da DeepCode é a geração de um código seguro ou da análise de segurança de outros códigos. A desenvolvedora do DeepCode destaca as qualidades do produto e se propõe a demonstrar em como o DeepCode pode de fato melhorar códigos existentes e propor novas soluções.

Figstack - Com o Figstack o programador poderá obter a explicação linha a linha do que o código faz. Este recurso permite ao Figstack ser uma boa solução para documentação de código. A ferramenta também traduz código entre uma linguagem de programação para outra. Outro recurso disponível nesta ferramenta é avaliar a eficiência do código submetido (em inglês Big O) e claro faz sugestões de melhorias.

2. Soluções voltadas a vida prosaica do empreendedor como criação de imagens, áudios, vídeos e outros automatizações.

Fliki - Fliki é uma ferramenta AI para transformar texto em vídeos com vozes e assim você deixa de pagar uma fortuna para produtoras pois vídeos simples o Fliki dá conta. Não tentei ao ponto de me aprofundar, mas o vídeo inicial dá uma ideia boa das possibilidades. O próprio YouTube poderia ter mais recursos tais como esse, quem sabe no futuro, por enquanto Fliki e similares ajudam os criadores de conteúdo.

Runway - Outra ferramenta com tecnologia de IA como a primeira, porém Runway gera vídeos muito mais sofisticados. O Runway foi projetado para criadores de todos os tipos, seja você um escritor experiente ou um iniciante em busca de ajuda. Boa alternativa para geração de material de divulgação de projetos e negócios.

Resemble - O Resemble é uma ferramenta de IA exclusiva que permite criar narrações de alta qualidade e semelhantes a humanos em segundos de maneira natural e o menos sintetizado possível e em vários idiomas. O que o torna útil para dublagens. Você pode usá-lo para adicionar narração de nível profissional aos seus vídeos ou podcasts. É perfeito para criar narrações para materiais de marketing, tutoriais e demonstrações de produtos.

HyperWrite - HyperWrite é uma poderosa ferramenta de escrita; Conta com 93 módulos diferentes todos voltados para a escrita de texto. De e-mails, artigos, teses, documentação de sistemas, etc, o HyperWrite se dispõe a gerar texto claro, conciso e preciso. O HyperWrite também possui funcionalidade integrada para melhorar a legibilidade e gramática. Além disso, permite fácil compartilhamento e colaboração em documentos, o que é especialmente útil para equipes remotas e desenvolvedores que trabalham em projetos de código aberto.

Menção honrosa ao 1Tools. 1Tools oferece uma vasta miscelânea de recursos, a princípio gratuitamente. Apesar de ter testado, a variedade é tanta que é difícil não haver pelo menos uma que não resolva bem as dores de desenvolvedores e empreendedores.

3. Soluções para comunidades de desenvolvedores, infraestrutura em nuvem e IA. Apesar da tentativa de classificação das ferramentas nessa categoria, cada uma das indicações aqui é uma mistura de plataforma, rede social, comunidade e ferramentas de desenvolvimento em IA.

Keras - Definição da Wikipédia sobre o Keras - "O Keras é uma biblioteca de rede neural de código aberto escrita em Python.". Keras funciona normalmente com outras ferramentas tais como: TensorFlow, Microsoft Cognitive Toolkit, R, Theano, ou PlaidML. Projetado para permitir experimentação rápida com redes neurais profundas, ele se concentra em ser fácil de usar, modular e extensível. Foi desenvolvido como parte do esforço de pesquisa do projeto ONEIROS (Open-ended Neuro-Electronic Intelligent Robot Operating System). François Chollet, autor do Keras, explicou que o Keras foi concebido para ser uma interface, e não uma estrutura de aprendizado de máquina independente. Ele oferece um conjunto de abstrações mais intuitivo que facilita o desenvolvimento de modelos de aprendizado profundo, independentemente do back-end computacional usado. O Keras é a principal biblioteca de desenvolvimento de redes neurais. A pesar do propósito inicial Keras se tornou muito mais que foi proposto.

Kaggle - Kaggle é uma comunidade online para competições em ciência de dados. Kaggle foi fundado em 2010 por Anthony Goldbloom and Ben Hamner e foi vendido em 2017 para o Google. Kaggle disponibiliza, datasets (conjunto de dados), cursos, ambientes de desenvolvimento para a comunidade competir na busca de soluções para os mais diversos problemas. Ótimo ambiente para evoluir no aprendizado e na busca de soluções no estilo de gamefication através do qual os participantes recebem distintivos conforme seu avanço e participação na comunidade.

Hugging Face - Hugging Face tem uma proposta similar a do Kaggle, porém seu foco é a construção de aplicações utilizando Machine Learning. Sua plataforma permite que usuários compartilhem seus datasets e modelos de aprendizado de máquina. A companhia foi fundada em 2016 por Clément Delangue, Julien Chaumond e Thomas Wolf. Hugging Face possível uma infraestrutura similiar ao do GitHub para manutenção de repositórios, modelos, datasets, aplicações web e suporte a discussões.

Google Colab - O Colaboratory ou “Colab” é um produto do Google Research, área de pesquisas científicas do Google. O Colab foi criado a partir de um fork do projeto Jupyter que oferecia serviços para computação interativa entre múltiplas linguagens de programação. O Google porém integrou os recursos do Jupyter em sua infraestrutura e disponibiliza "células" de programação (chamados de notebooks) como se fosse arquivos do Google Drive além de oferecer capacidade de processamento em nuvem. O Colab permite que qualquer pessoa escreva e execute código Python arbitrário pelo navegador e é especialmente adequado para aprendizado de máquina, análise de dados e educação. Pelo Colab também é possível aplicações de maior porte pois o Google vende capacidade computacional para maiores demandas. As demandas pequenas entretanto podem ser atendidas gratuitamente. Menção honrosa nesta parte de infraestrutura escalável em nuvem vai para a Amazon Web Services - AWS.

PapersWithCode - Este site se propõe a disponibilizar de maneira livre e aberta artigos, códigos, datasets, métodos e resultados de avaliação relativas a NLP (Neural Language Processing) e Machine Learning. Todo o conteúdo do site é licenciado sob a licença CC-BY-SA (mesma da Wikipedia) que permite a contribuição de todos. Paperwithcode também disponibiliza materiais sobre Astronomia, Física, Ciência da Computação, Matemática e Estatística.

O site é um ponto de partida para saber sobre as novidades mais "quentes" e o state-of-the-art de diferentes áreas de pesquisa, porém com foco nas áreas citadas acima.

sábado, 2 de outubro de 2021

O avanço das IAs

Eu demorei um pouquinho a voltar a escrever sobre inteligências artificiais (IA) ou como costumam abreviar no inglês - Artificial Inteligência (AI) e confesso que tenho sido atropelado pelas novidades da área que não param de pipocar. No passado escrevi esses textos sobre inteligência artificial que você pode ver clicando aqui. Nesses textos tento demonstrar a variedade das áreas de aplicação de inteligência artificial. Pois bem soluções de inteligência artificial são aplicáveis em qualquer área. Segue abaixo algumas descobertas recentes e espero que você veja valor nesses avanços. Apesar dos exemplos que apresento aqui, saiba que o uso de inteligência artificial é amplo e irrestrito.

1. Hua Zhibing. Tive muitas dificuldades de checar devido a língua mas a informação é que Hua Zhibing é uma estudante virtual da Universidade de Tsinghua. Hua Zhibing apresentou-se no vídeo abaixo na rede social Weibo. Segundo dados de outros sites listados nas referências Hua Zhibing é "viciada" em literatura e arte desde que nasceu. É baseada no sistema de modelagem Wudao 2.0. Segundo Tang Jie, um dos principais desenvolvedores, Hua utiliza 1.75 trilhão de parâmetros para simular conversas, escrever poemas e entender imagens.

Sendo bastante sincero a barreira da língua não permitiu coletar informações sobre como anda o desempenho de Hua como aluna, se é o orgulho dos professores ou se está levando bomba em Semiótica II. Se o objetivo principal for o aprendizado, Hua pode se aplicar 24 horas por dia sem se cansar. podemos pensar em quanto tempo ela concluirá o curso ? Para mim é bem difícil descobrir tais informações pois as fontes foram ágeis em divulgar a criação de Hua mas extremamente sovinas em dar mais detalhes de sua performance.

2. A 10ª Sinfonia de Beethoven. O Instituto Karajan da Áustria incumbiu uma comissão para desenvolver uma IA que aprenderia a obra de Beethoven, identificaria tudo sobre seu estilo e a partir dos rascunhos da 10ª Sinfonia, finalizaria sua sinfonia incompleta. Seria o que podemos apontar como o mais aproximado da sinfonia que Beethoven faria. Dúvidas... veja no vídeo abaixo.

Como diletante amador em música, a 10ª Sinfonia soou bastante Beethoven como teria soado qualquer outro compositor. Somente ouvidos experientes e conhecedores a fundo da matéria poderiam apontar erros de estilo, andamento, composição ou algo do tipo. Para mim está aprovado. Aguardo ansioso a 11ª Sinfonia.

3. GPT-3. As últimas novidades são relacionadas às áreas de desenvolvimento. A GPT-3 é uma IA aberta que promete converter linguagem natural em linguagem de programação. O que é uma avanço significativo depois das iniciativas de low-code (desenvolvimento com pouco código) ou no-code (desenvolvimento utilizando principalmente gráficos e composição de elementos) que prometiam abstrair as habilidades de desenvolvedores, diminuindo ainda mais a barreira de desenvolvimento. Pois bem a GPT-3 baixa ainda mais esta barreira permitindo a conversão de códigos diretos do inglês para a linguagem da Microsoft que viabiliza a conversão - a Power Fx.

Esses avanços de IA em programação sempre deixa muita gente da área de TI em polvorosa pois mesmo o mercado de programação sendo relativamente atraente, as vagas estão sempre em risco em função de que um concorrente possa fazer mais, melhor e com menos custo, seja uma software house com uma solução pronta, seja um estagiário indiano. E de repente bum ! Algo assim pode mandar o desenvolvedor local, a software house e o estagiário indiano para aumentarem a frota de Uber da cidade.

4.Codex. A OpenIA Codex é a melhor IA que converte linguagem natural em linguagem de programação tais como JavaScript, Python e PHP entre outras. O modelo do Codex é o mesmo usado no Copilot do Github. OpenAI Codex é o descendente de outro modelo, o GPT-3, porém é especializado em receber como entrada texto corrido e a partir dessa entrada devolve um código funcional. Veja um exemplo abaixo.

Apesar das muitas vantagens apresentadas não encontrei muitos outros casos de usos nem do Codex, nem do GPT-3, mas eles deverão aparecer, principalmente se tiverem sucesso na resolução de problemas propostos. Às equipes de desenvolvimento de TI e áreas negociais restará capricharem no inglês para que tais ferramentas se provem. Mas não há como não admitir que tais avanços são dignos de nota e serão mais importantes ainda se um belo dia em vez de baixar uma IDE para escrever um código sua primeira opção seja baixa os módulos para só dar direcionamentos ao Codex e similares.

Referências:

1. Hua Zhibing:

https://www.odditycentral.com/technology/meet-chinas-first-ai-powered-virtual-university-student.html

https://epaper.chinadaily.com.cn/a/202106/10/WS60c1508ea31099a234356c12.html

2. A 10ª Sinfonia de Beethoven

https://tecnoblog.net/meiobit/447066/ia-conclui-10a-sinfonia-beethoven/

3. GPT-3

https://techcrunch.com/2021/05/25/microsoft-uses-gpt-3-to-let-you-code-in-natural-language/

4. Codex da OpenIA

https://openai.com/blog/openai-codex/

quinta-feira, 10 de janeiro de 2019

AlphaZero e suas novidades

Apesar de haver escrito sobre o AlphaZero em abril de 2018 (clique aqui), em 6 de dezembro de 2018, a DeepMind - braço da Alphabet, que é a holding dona do Google - divulgou resultados do desempenho do AlphaZero nas suas façanhas em sobrepujar os sistemas mais capazes em áreas diferentes.

O artigo vale pelo resultado alcançado. Para ter ideia da dimensão do resultado vamos entender o que é mesmo o AlphaZero. O AlphaZero é uma versão generalista que "aprende" a partir da apresentação das regras e de praticar sobre o tópico a ser aprendido.

Pois bem, o AlphaZero teve um expressivo desempenho contra o Elmo - a versão campeã do mundo de shogi (xadrez japonês). AlphaZero venceu 91,2% das partidas, levando somente 2 horas para superar o Elmo.

Contra o software campeão mundial de xadrez - o Stockfish, AlphaZero venceu 155 partidas, perdeu 6 e empatou as restantes num total de 1000 partidas. AlphaZero levou 4 horas para superar o Stockfish.

AlphaZero teve vida mais difícil mas ainda assim superou o AlphaGo, versão que venceu o campeão mundial de Go em 2016. Venceu somente 61% dos jogos, vindo a superar o AlphaGo depois de 30 horas de batalhas.

O gráfico mostra claramente uma grande quantidade de empates quanto o AlphaZero joga xadrez de peças pretas, inclusive as únicas 6 derrotas no 1000 jogos que disputou contra o Stockfish. Já no Go, o resultado foi mais equilibrado tanto com as peças pretas quanto com as peças brancas.

AlphaZero para aprender os três jogos utiliza uma rede neural não treinada para jogar milhares de partidas contra si mesma via processo de tentativa e erro. Essa técnica é chamada de aprendizado de reforço, à medida que as sequências de partidas avança os melhores lances são selecionados. Apesar da lógica simples, AlphaZero surpreendeu os especialistas pois perceberam criatividade e inventividade nos movimentos contras os outros sistemas.

A DeepMind está muito otimista com as capacidades do AlphaZero que principal objetivo não é vencer partidas de shogi, xadrez ou go e sim ampliar as possibilidade de aplicação do sistema especialista em várias outras áreas como o projeto AlphaFold que pretende prever as estruturas em três dimensões de proteínas baseada em sequência genética.

Seguem os links adicionais divulgados pela DeepMind:
1. Artigo na Science
2. Versão de acesso aberto em PDF
3. 20 Partidas AlphaZero-StockFish selecionadas pelo Grande Mestre Matthew Sadler em ZIP
4. 10 Partidas AlphaZero-Elmo selecionadas pelo Mestre de shogi Yoshiharu Habu em ZIP

terça-feira, 3 de abril de 2018

Inteligência Artificial - ao infinito e além - Parte Final

Apesar do longo intervalo, vamos para a segunda parte pois ela é igualmente interessante.

AlphaZero

Uma das novidades de inteligência artificial recentes mais interessantes é o AlphaZero. O AlphaZero é uma solução derivada do AlphaZero Go que foi desenvolvido pelo Google e pela Deep Mind.

A solução é constituída de um hardware e o software com um algoritmo codificado que "aprendeu" a jogar Go - um jogo chinês de alta complexidade. O AlphaZero Go venceu um campeão humano de Go. O aprendizado do AlphaZero Go foi por uma rede neural por reforço - aprendizado no qual o algoritmo aprende sem ser ensinado como uma tarefa deve ser realizada.

Jogo chinês Go

O AlphaZero é uma versão mais generalista do AlphaZero Go, o AlphaZero aprendeu duas coisas mais simples, xadrez e shogi (uma versão de xadrez jogado no Japão).

All About the Japanese Chess, Shogi! And an Easier Version ...

Shogi - o Xadrez japonês

Pois bem, o que qualifica o AlphaZero como digno de nota, o AlphaZero aprendeu a jogar xadrez por 4 horas e derrotou o software campeão do mundo de xadrez (Stockfish 8) em 100 partidas sendo 72 empates, 28 vitórias e nenhuma derrota. Tudo bem que o AlphaZero teve algumas vantagens como o hardware otimizado mas seu feito de partindo do zero conseguir organizar o conhecimento para jogar vários jogos e vencer um software especializado é marcante.

A IA empregada no AlphaZero pode ser empregada em muitas outras soluções. Uma dessas soluções - não é a mesma solução, porém um outro algoritmo - é o SEED (Search for Extraordinary Experiences Division) da Eletronic Arts - EA que tem ensinado a si mesmo a jogar o multiplayer do Battlefield 1. Veja a evolução do desempenho do SEED.

SEED aprendendo Battlefield 1

"Godhead - Deus Cabeça"

A outra novidade é um "Deus", há uma proposta para criar uma divindade baseada em IA. Esta iniciativa é de um engenheiro de computação, empreendedor, milionário que está envolto numa briga judicial entre Uber e Google chamado Anthony Levandowsky. A briga judicial não tem nenhuma relação com a proposta da divindade de IA. Levandowsky acredita em IA irá ultrapassar a inteligência humana possibilitando o crescimento tecnológico sem precedentes. Levandowsky registrou a organização religiosa chamada Way of the Future (WOFT) que conduzirá os homens ao entendimento e adoração do "Godhead" e assim contribuir com a melhoria da sociedade. A WOTF vai financiar a pesquisa que vai criar o "Godhead" a si mesmo pelo aprendizado. Não sei se ele conseguiu, mas há pelo menos um site da "igreja" em www.wayofthefuture.church em que há um resumo das crenças e um formulário para pessoas interessadas em seguir "Godhead". Levandowsky quer atrair principalmente entusiastas de IA para seguir nesta comunidade religiosa tecnológica.

Com esses exemplos bem diferentes e até inusitado eu espero ter demonstrado a variedade das soluções de IA que estão sendo propostas e invadindo o nosso mundo e nosso cotidiano.

segunda-feira, 12 de fevereiro de 2018

Inteligência Artificial - ao infinito e além... Parte 1

É patente que o avanço tecnológico já entregou muitos produtos e ferramentas à sociedade que a transformaram, cada um com suas vantagens e desvantagens. A força da inovação não vai parar e sempre novos produtos e soluções vão continuar sendo ofertados modificando formas de trabalho, meio de vida, profissões, etc. É um setor significativo do comércio mundial e a tendência é de crescimento.

Como escrevi no artigo anterior sobre o futuro da indústria automobilística na qual os carros mui provavelmente serão elétricos, autônomos e as pessoas vão alugar carros invés de comprá-los. Será a smartphonização dos carros, mas isso já foi tratado anteriormente.

Quero abordar desta vez, outro aspecto desse avanço tecnológico. Muitos experimentos, produtos e soluções foram lançados tendo como principal diferencial uma solução de inteligência artificial. No artigos de carros, a IA está como provedor de solução essencial, no artigo de robôs ela também está lá viabilizando as soluções e aplicações.

Pois bem a IA é a ferramenta que possibilita e alavanca essas soluções e há uma série de novidades nessa área. Quero destacar algumas e você poderá tirar suas próprias conclusões.

LawGeex
A LawGeex é uma empresa que oferece uma solução de IA para análise de contratos. O mote é otimizar a revisão de contratos e assim diminuir os erros e agilizar o processo. Desde 2014 a empresa oferece como serviço a análise legal de contratos mais comuns do mercado. LawGeex utiliza uma combinação de algoritmos de aprendizado de máquina, dados em nuvem, processamento de linguagem natural para interpretar os contratos e compará-los com contratos padrões bem ajustados. Em países em que o direito é um terreno sólido esta solução mudará com certeza a formação de novos profissionais da área legal. Atualmente já há empresas concorrentes da LawGeex como a eBrevia que oferece serviço similar.

Watson

Watson é um sistema da IBM (software em um hardware otimizado). A IBM havia desenvolvido o supercomputador DeepBlue que vencera o campeão mundial de xadrez Garry Kasparov em 1997. O DeepBlue utilizava principalmente seu poder computacional para vencer. Em busca de outro desafio a IBM decidiu em 2004 desenvolver uma solução que vencesse o programa Jeopardy (programas de perguntas e respostas). Watson concorrendo com humanos venceu o programa em 2011. Foi mais um feito extraordinário pois o Watson foi desenvolvido para entender linguagem humana e procurar respostas. A mudança entre o DeepBlue e o Watson foi gigantesca pois se propunham a resolver problemas bem diferentes, o DeepBlue era quase um sistema de força bruta que testava todas as alternativas com um certo grau de expertise, entretanto o Watson utiliza principalmente a análise de dados para propor soluções e aprendizado de máquina aprendendo continuamente à medida que interage.

Hoje Watson é utilizado em diversas áreas, atualmente é utilizado nas seguintes áreas:

i) Analisar massa de dados e detectar padrões para diagnósticos médicos, mercado financeiro, previsão meteorológica, etc.

ii) Criar chatbots (um robô que conversa) para atendimento a clientes;

iii) Processamento de linguagem natural para análise de texto avançada;

iv) Classificar e marcar conteúdo visual através de aprendizagem de máquina;

v) Tradução de idiomas;

vi) Transformar discursos tanto de áudio para texto como de texto para áudio. Um exemplo desse uso está neste link em que qualquer texto entre várias idiomas é lido com perfeição. A transformação de áudio em português não é tão perfeita, mas a leitura de um texto em português é bem executada.

quinta-feira, 23 de fevereiro de 2017

Você dá importância a sua privacidade ? Parte 2

Uma vez confirmado que estamos sendo espionados, que informações nossos são colhidas sem que tenhamos concordado (ou concordado sem saber das implicações dessa concordância), o que podemos fazer para conseguir o mínimo de privacidade na internet ou pelo menos dificultar a coleta dessas informações ?

Há 4 ações que podem nos ajudar a obter alguma privacidade na internet.
1. Dê adeus a rede sociais ou crie um alter ego virtual. Por mais que as redes sociais permitam configurações para restringir tanto a visualização quanto a divulgação de informações, tais como o Facebook propõe, sempre, SEMPRE, SEMPRE !!! Suas informações ficarão a disposição da empresa dona da rede social. Sem falar que mesmo que você apague seu perfil, suas informações continuarão lá, pois a rede social manterá um perfil seu baseado no restante que ficou. Então a saída NÃO USAR a rede social ou então manter um perfil fake com o mínimo de informação e sem se conectar com os seus amigos, já que as redes sociais sabem quem você é com base com que você se relaciona ou o que você curte, enfim, eles vão saber quem você pois saberá quem é seus amigos, onde você está e o que você gosta.

2. Use o HTTPS. Apesar de recentemente ter sido divulgada uma vulnerabilidade no protocolo HTTPS (para saber mais clique aqui), também conhecido como: HTTP Seguro. O HTTP é um principais protocolos da internet e que uma vez interceptado pode ser vasculhado para obtenção de informações críticas. Exemplo: Você está usando um serviço qualquer e este serviço é acessado via HTTP somente, qualquer invasor que possa ter acesso aos dados da sua conexão poderá ver tudo que está sendo transmitido. Com o HTTPS os dados dessa navegação são criptografados e assim um eventual interceptador ter muito muito mais trabalho para obter informações úteis.

3. Use o Tor. O Tor e suas ferramentas (hosts, email, navegador, etc) visam prevenir contra a principal arma de coleta indiscriminada de informações de usuários - o device fingerprint. Que é a identificação quase exata dos usuários a partir dos metadados de sua navegação. Ainda que você não use rede sociais, use o HTTPS, informações suas podem ser coletadas de modo a identificar você com possibilidade de falhar muito baixa. O Tor dificulta essa identificação embaralhando esses metadados. Para maiores informações sobre o Tor, clique aqui.

4. Restringir informações ao máximo. Se não tiver como deixar de usar serviços como aqueles oferecidos pelo Google, como não querer abrir mão de um dispositivo Android, configure bem suas informação de privacidade. O Google possibilita que você solicite o não armazenamento de navegação, localizações, etc. Veja como fazer aqui. Outra boa prática é preferir a) empresas que não coletem ou coletem pouca informação e/ou b) utilize serviços de fornecedores diferentes.

Enfim, tentei dar dicas gerais, porém reconheço que elas implicam em mais trabalho para se manter anônimo. É o custo para não ter suas informações utilizadas indevidamente.

quarta-feira, 27 de abril de 2016

Fatores econômicos como causa de um ambiente político instável - Gerador Automático

Assim mesmo, o acompanhamento das preferências de consumo causa impacto indireto na reavaliação dos procedimentos normalmente adotados. Desta maneira, a hegemonia do ambiente político estende o alcance e a importância do retorno esperado a longo prazo. Do mesmo modo, a crescente influência da mídia assume importantes posições no estabelecimento dos métodos utilizados na avaliação de resultados. Percebemos, cada vez mais, que a percepção das dificuldades exige a precisão e a definição dos níveis de motivação departamental. Ainda assim, existem dúvidas a respeito de como a consolidação das estruturas auxilia a preparação e a composição das formas de ação.

Não obstante, a adoção de políticas descentralizadoras promove a alavancagem dos paradigmas corporativos. Pensando mais a longo prazo, a contínua expansão de nossa atividade afeta positivamente a correta previsão dos conhecimentos estratégicos para atingir a excelência. O empenho em analisar a necessidade de renovação processual nos obriga à análise das regras de conduta normativas.

A certificação de metodologias que nos auxiliam a lidar com a execução dos pontos do programa cumpre um papel essencial na formulação dos relacionamentos verticais entre as hierarquias. No entanto, não podemos esquecer que o julgamento imparcial das eventualidades não pode mais se dissociar do sistema de formação de quadros que corresponde às necessidades. A nível organizacional, o consenso sobre a necessidade de qualificação garante a contribuição de um grupo importante na determinação das novas proposições. As experiências acumuladas demonstram que o surgimento do comércio virtual apresenta tendências no sentido de aprovar a manutenção das direções preferenciais no sentido do progresso.

---------------------------------------------------------------------------------------

Você gostou do texto acima ? Entendeu ? Não ? Na verdade o texto foi gerado pelo Fabuloso Gerador de Lero Lero, de autoria do Padre Levedo (alcunha do autor). Nos testes que fiz o Fabuloso Gerador de Lero Lero perde para o Fabuloso Gerador de Lero Lero Filosófico. Este último é muito mais convincente em suas produções. Tanto um quanto o outro estão disponíveis em licença "creative commons" e os códigos fontes estão disponíveis para entender como é feita a produção do texto. Indo um pouco adiante descobri que há outros geradores automáticos:

Gerador (resumidor - neologismo meu) de texto;
Gerador de logotipos (inglês);
Gerador de melodias (inglês);
Gerador de jornal (inglês);
Gerador de clickbaits (notícias sensacionalistas - inglês);

Abaixo um exemplo de um artigo gerado pelo Fabuloso Gerador de Lero Lero Filósofico:

Numa série de artigos publicados entre 1843 e 1844, M.Hess sustenta que a infinita diversidade da realidade única tem como componentes elementos indiscerníveis da velha terra grega fraturada. Por outro lado, a complexidade dos estudos efetuados cumpre um papel essencial na formulação da fundamentação metafísica das representações. Assim mesmo, a estrutura atual da ideação semântica exige a precisão e a definição do sistema de conhecimento geral. No entanto, não podemos esquecer que o desenvolvimento da consciência coletiva virtualizada consistiria primeiramente na autoridade das posturas dos filósofos divergentes com relação às atribuições conceituais.

          Do mesmo modo, a indeterminação contínua de distintas formas de fenômeno garante a contribuição de um grupo importante na determinação das novas teorias propostas. Segundo a tese da eliminabilidade, o Cristianismo entendido como degradação, na perspectiva universal do polêmico anticristo nietzscheano, não assume importantes posições no estabelecimento da sensibilia dos não-sentidos. Nunca é demais lembrar o peso e o significado destes problemas, uma vez que o conceito de diáthesis e os princípios fundamentais de rhytmos e arrythmiston não causa impacto indireto na reavaliação do sistema de formação de quadros que corresponde às necessidades lógico-estruturais. Se a própria desterritorialização relativa se projeta sobre o início da atividade geral de formação de conceitos demonstra a irrefutabilidade das vantagens dos paradigmas filosóficos. A proposta de Quine para este impasse se restringe a questionar o desafiador cenário globalizado não oferece uma interessante oportunidade para verificação dos relacionamentos verticais entre as hierarquias conceituais.

          Se estivesse vivo, Foucault diria que o Übermensch de Nietzsche, ou seja, o Super-Homem, tem que apresentar uma homogenidade em relação aos extremos do processo de comunicação como um todo. Pretendo demonstrar que a expansão dos mercados mundiais pode nos levar a considerar a reestruturação de alternativas às soluções ortodoxas. Neste sentido, existem duas tendências que coexistem de modo heterogêneo, revelando a hegemonia do ambiente político representa uma abertura para a melhoria das relações entre o conteúdo proposicional e o figurado. Segundo Heidegger, o sujeito constituinte envolvido não afeta positivamente a correta previsão das convicções empiristas.

          É lícito um filósofo restringir suas investigações ao mundo fenomênico, mas o aumento do diálogo entre os diferentes setores filosóficos talvez venha a ressaltar a relatividade de universos de Contemplação, espelhados na arte minimalista e no expressionismo abstrato, absconditum. Se, para Sócrates, o homem não era mais que sua alma, podemos sustentar que a crescente influência da mídia prepara-nos para enfrentar situações atípicas decorrentes de todos os recursos funcionais envolvidos.

sexta-feira, 9 de maio de 2014

Namorando um Sistema Operacional

Este texto contém informações (spoilers) sobre o filme Her, caso tenha problemas em saber sobre o filme antes de assisti-lo, não continue a leitura. Todo profissional da área de TI trabalha com vários Sistemas Operacionais (SO). Alguns pelo tempo de experiência e conhecimento acumulado podem se tornar desenvolvedores, difusores, entusiastas e fãs do seu SO preferido. Alguns tatuam a logo, lema ou nome do seu SO. Veja alguns exemplos aqui. Neste fim de semana assisti a Her (lançado no Brasil como Ela), filme de Spike Jonze, no qual o personagem principal Theodore Twombly (Joaquim Phoenix) é um escritor de cartas românticas. Ele escreve cartas para outras pessoas entregarem aos seus queridos. Como se o amor deles não tivesse inspiração suficiente para escrever ao de sua própria espécie. Theodore vive solitário numa sociedade moderna, urbana, tecnologicamente desenvolvida com poucos contatos sociais. Theodore está em processo de divórcio de sua ex-esposa, vai de casa para o trabalho, do trabalho para casa, sem ânimo, numa vida blasé, deprimida, cheia de lembranças da ex-esposa. Na intenção de mudar de ares Theodore compra um novo SO que se propõe a ser revolucionário, não só um software quer permitirá utilizar os recursos do hardware, como o é atualmente, mas uma consciência que lhe suprirá suas necessidades relacionais e sociais.

Veja que isto é algo grande para os dias de hoje, mas para o mundo de Theodore não é lá grande coisa pois as pessoas já contam com SOs que atendem a comandos por voz, não há teclados, a interface é muito simples, há um fone de ouvido e microfone pelo qual o SO se comunica com o usuário e a voz do usuário é prontamente atendida. Theodore ao chegar em casa jogo um game projetado na sua sala de estar, isso não é novidade pois já há tecnologia para isso hoje (veja aqui), mas o personagem do jogo interage com Theodore de um modo bem humano.

Aí é que o SO do filme se supera, adota uma voz humana feminina perfeita com inflexões vocais, voz um pouco rouca, que ri, gargalha, suspira, arfa, conversa e atende Theodore. Diverte-o como uma garota numa relação à distância. Theodore mostra o mundo para o SO que se autonomeou Samantha, passeia com Samantha, leva-a a seus programas com amigos e familiares. Theodore apaixona-se e passa a namorar a Samantha que o corresponde. Parece insano namorar um SO, mas Samantha faz todo o sentido na vida deprimida e vazia de Theodore, que finalmente consegue se desligar da ex-esposa. Samantha ultrapassa todos os limites quando na intuito de completar sua relação com Theodore encontra alguém que concorda emprestar seu corpo para Theodore ter uma relação sexual completa. Mas Theodore rejeita essa solução e não consegue ir além e toda a relação desmorona.

Vem à tona uma característica básica de todo SO - ser multitarefa. Todo SO passa a ilusão que atende somente ao usuário, porém eles executam várias atividades ao mesmo tempo. Ou seja mesmo quando Samantha estava conversando, interagindo com Theodore, ela tinha ainda muito tempo ocioso. Grande capacidade, muito tempo ocioso não deu outra, enquanto Theodore pensava na relação Samantha desbravava o mundo via rede, como se o mundo caminhasse para a versão de O Exterminador do Futuro sem robôs e com SOs no lugar deles. Samantha utilizar toda a capacidade do hardware disponivel para descobrir, se comunicar e se apaixonar por outros usuários e outros SOs.Num momento do filme em que o placar é mostrado Samantha está tendo aproximadamente 8300 conversas simultâneas e 641 amores.
Óbvio que Theodore não suporta esta situação, mas também ninguém suporta pois ele não é o único a se apaixonar pelo seu SO. Os envolvimentos entre usuários e SOs está descontrolado. Aparentemente o fabricante resolveu descontinuar o SO dado os prejuízos emocionais dos usuários sem recorrer a patch de fidelidade exclusiva.
A história construída por Spike Jonze é bem criativa e peculiar. Infelizmente creio que a realidade criada por Jonze não está distante de nós. Há comunidades no mundo que estão prontas para envolvimentos como esses. Há muita gente no mundo que tem contatos sociais e presenciais mínimos, estão habituados a estar conectados a outras pessoas, mas nunca a pessoas presentes. É aquela bizarrice de se sentir confortável se comunicando via mensagens dentro da mesma casa. Parece que presença causa uma inadequação intratável. Os recursos tecnológicos criados para nos comunicar e relacionar podem perfeitamente substituir as pessoas e as relações tornando-se um fim em si mesmo...
E aí está pronto para se apaixonar por um software ?

sexta-feira, 16 de agosto de 2013

TTS, esse incompreendido !

Como nem sempre temos o tempo e as condições para ler os livros e outras publicações que queremos ou precisamos, procurar formas alternativas para ler é necessário. Foi nessa onda que surgiram os audiolivros. A ideia é não ler os livros mas ouvi-los. Dependendo do material pode-se ouvir o livro e conviver com a perda de atenção sempre presente nessas atividades. Caso seja preciso absorver todo o conteúdo é só repetir audição.

Pois bem, o que muitos ignoram que existe uma tecnologia que atende pelo apelido TTS (texto to speech), geralmente associada aos recursos de acessibilidade - os recursos para usuários com deficiência. As aplicações TTS "leem" arquivos de texto, seja emails, ebooks, documentos em formatos variados (pdf, doc, txt, odt, etc.). Num passado não muito distante as aplicações utilizavam poucas vozes e estas normalmente eram muito pouco reais, cometiam erros básicos na leitura ao não fazer as inflexões de voz e nem respeitar a pontuação, era uma leitura meio robótica. As aplicações mais modernas oferecem mais de uma voz por idioma (normalmente uma masculina e outra feminina). Mas a grande limitação é falta de vozes para o Português do Brasil. Para o inglês há uma grande oferta de aplicações algumas gratuitas e são muito boas para treinar seu ouvido na língua inglesa (seja americano ou britânico). Parte das aplicações TTS incorporam tradução simultânea principalmente para línguas orientais como japonês e para as várias línguas chinesas.

Há vários produtos para as diferentes plataformas que tentam suprir essa necessidade. Encontrei este 2 artigos nos dão algumas informações sobre essas aplicações:

Lista de softwares para Windows e Mac com a uma breve descrição.
Artigo com avaliação de app TTS para Android.

Para o mundo iOS, pesquisei e encontrei as seguintes apps:

iSpeech - Text to Speech

É uma app gratuita que transforma em áudio o que for digitado em sua interface, porém não lê outros arquivos. O grupo desenvolvedor tem muitas outras apps que traduzem textos. Não há disponibilidade para áudio em português.

NaturalReader Text to Speech

Esta app também é gratuita e oferece a voz do Obama para ler textos e arquivos, aceita entradas variadas (Dropbox, Skydrive, computadores, email, etc), porém somente em inglês (americano e britânico), espanhol, francês, alemão e italiano.

Voice Dream

Esta é uma das melhores mas tem o custo de US$9,99 cada voz, porém é possível testar as vozes na versão demo. Nesta versão são lidas cerca de 200 a 300 palavras e a leitura para, sendo necessário dar o comando para continuar lendo. Se pagar a app lê o texto completo. As vantagens são muitas, suporte a mais de 20 idiomas, integração com a maioria dos serviços tais como (Dropbox, Bookshare, Evernote, Instapaper, Pochet, Google Drive), permite a adição de texto a partir do iTunes, browser, editor, clipboard e do projeto Gutenberg.

Voice Reader Text to Speech

Para mim é a melhor pois oferece quase tudo que a Voice Dream tem porém ao custo de US$1,99 com a vantagem adicional de permitir a exportação de texto para áudio, possibilitando você criar sua própria biblioteca de audiolivros ou ainda mandar felicitações em áudio. Nesta app cada voz tem o custo adicional de US$0,99, para os brasileiros tem a voz da Ana disponível. Para a desvantagem do Voice Reader Texto to Speech é não poder testar antes de pagar.