![]() |
| Treant.JS do Fran Peručić |
![]() |
| Cytoscape.js - Biblioteca JS topíssima !!! |
![]() |
| Meu formulário simples usando Cytoscape |
![]() |
| Interface da MermaidChart para fazer qualquer gráfico |
![]() |
| Treant.JS do Fran Peručić |
![]() |
| Cytoscape.js - Biblioteca JS topíssima !!! |
![]() |
| Meu formulário simples usando Cytoscape |
![]() |
| Interface da MermaidChart para fazer qualquer gráfico |
Mas há os aficionados em audiolivros que é um segmento de tamanho razoável. Para atrair e oferecer um melhor produto, os audiolivros passaram a ser dramatizados, com leitores-narradores, efeitos sonoros, etc. Alguns livros lidos por alguns narradores tornaram-se um produto além do seu conteúdo, marcando definitivamente os leitores-ouvintes.
Pois bem, um leitor-narrador, a dramatização do audiolivro, efeitos, etc tem custo adicional, logo não iria demorar que se utilizasse ferramentas para geração automática de audiolivros... e com um passo adicional a leitura traduzida de títulos para uma grande maioria de idiomas tudo rapidamente. Semanas atrás li o artigo do Fellipe Gomes no Medium e ele mostrou um código simples em Python pelo qual a partir de um livro em PDF em inglês publicado em um site, o texto é extraído, traduzido do inglês para o português e transformado em áudio. Quando li o texto, o Filipe ganhou tanto minha atenção quanto meu interesse.
O mais espetacular que o Fillipe utilizou bibliotecas disponíveis que fazem todo o trabalho, bastando colocar no código e chamar suas funções. Foi assim que ele utilizou a deep-translate do Google Translator (sim, tem recursos de IA) com bons resultados em tradução. Só não abusar da API com textos muito longos. E a edge-tts do Microsoft Edge dentre outras. Esta edge-tts permite que você escolha a "voz" da leitura e normalmente disponibiliza uma voz masculina e uma feminina para cada idioma, no mínimo.
Como consumidor de audiolivros pensei: "Porque não transformar alguns livros em PDF em audiolivros" ? Boa oportunidade para mexer no Python. Então adaptei o código original e o rodei via Colab do Google, afinal o meu teste não precisava de grande poder de processamento. Pus uns arquivos PDF no Google Drive. Para o teste ser minimamente interessante codifiquei para que se indique o arquivo PDF, o idioma a ser traduzido e a voz para se usar no áudio. O código completo está disponível aqui no Github (clique aqui).
O resultado ficou maravilhoso na minha avaliação. No teste optei pela geração de somente 1 página dos PDFs para que eles não ficassem excessivamente pesados. Numa situação de obter o áudio de PDF grande a opção é dividir o PDF em partes para a geração não ficar muito demorada. Uma vez de posse dos áudios dá para colocar uma música de fundo... ideias, mas fica para outro momento. No meu teste utilizei publicações que estão em domínio público e recomendo que se mantenha o respeito às direitos de publicação e do autor. Utilizei pedaços pequenos (página 5) de "Animal Farm" - em inglês - (lançado no Brasil como "A Revolução dos Bichos") de George Orwell e "Confissões" - em português - de Agostinho. Ouça e tire suas próprias conclusões:
Animal Farm - texto original em inglês lido com a voz Yan no inglês de Hong Kong
Confissões - texto original em português lido com a voz Francisca no português do Brasil
Vamos às vantagens e desvantagens desta técnica
Vantagens:
1. Sim, é possível transformar PDFs, ePUBs, HTMLs e TXTs em áudio;
2. Sim, dá para traduzir razoavelmente bem e ainda escolher a língua e uma "voz" no qual será gerado o áudio.
3. Flexibilidade de obter publicações em vários idiomas e traduzir para em idioma preferido.
Desvantagens:
1. Livros com palavras hifenizadas terá sua leitura atrapalhada, para estes teria que acrescentar um tratamento para palavras com hífen;
2. No teste feito há uma clara limitação de processamento (Colab Google) para maiores demandas teria que fazer em um equipamento com maior poder de processamento.
3. A leitura está bem humana mas ainda há falhas na entonação de palavras complexas e ou falta de naturalidade em algumas partes.
=======
Referências:
Código em Python no Github - https://github.com/ilhado/TextToSpeech
Explosão dos podcasts no Youtube - https://meiobit.com/466053/youtube-mudou-midia-podcast-audio-para-video/
Fellipe Gomes no Medium - https://medium.com/@gomesfellipe
1. Soluções voltadas a código. Soluções que escrevem, depuram ou explicam códigos. Não vou citar as três principais pois já são muito famosas - ChatGPT, GitHub Copilot, OpenAI Codex.
2. Soluções voltadas a vida prosaica do empreendedor como criação de imagens, áudios, vídeos e outros automatizações.
Menção honrosa ao 1Tools. 1Tools oferece uma vasta miscelânea de recursos, a princípio gratuitamente. Apesar de ter testado, a variedade é tanta que é difícil não haver pelo menos uma que não resolva bem as dores de desenvolvedores e empreendedores.
3. Soluções para comunidades de desenvolvedores, infraestrutura em nuvem e IA. Apesar da tentativa de classificação das ferramentas nessa categoria, cada uma das indicações aqui é uma mistura de plataforma, rede social, comunidade e ferramentas de desenvolvimento em IA.
Keras - Definição da Wikipédia sobre o Keras - "O Keras é uma biblioteca de rede neural de código aberto escrita em Python.". Keras funciona normalmente com outras ferramentas tais como: TensorFlow, Microsoft Cognitive Toolkit, R, Theano, ou PlaidML. Projetado para permitir experimentação rápida com redes neurais profundas, ele se concentra em ser fácil de usar, modular e extensível. Foi desenvolvido como parte do esforço de pesquisa do projeto ONEIROS (Open-ended Neuro-Electronic Intelligent Robot Operating System). François Chollet, autor do Keras, explicou que o Keras foi concebido para ser uma interface, e não uma estrutura de aprendizado de máquina independente. Ele oferece um conjunto de abstrações mais intuitivo que facilita o desenvolvimento de modelos de aprendizado profundo, independentemente do back-end computacional usado. O Keras é a principal biblioteca de desenvolvimento de redes neurais. A pesar do propósito inicial Keras se tornou muito mais que foi proposto.Kaggle - Kaggle é uma comunidade online para competições em ciência de dados. Kaggle foi fundado em 2010 por Anthony Goldbloom and Ben Hamner e foi vendido em 2017 para o Google. Kaggle disponibiliza, datasets (conjunto de dados), cursos, ambientes de desenvolvimento para a comunidade competir na busca de soluções para os mais diversos problemas. Ótimo ambiente para evoluir no aprendizado e na busca de soluções no estilo de gamefication através do qual os participantes recebem distintivos conforme seu avanço e participação na comunidade.Hugging Face - Hugging Face tem uma proposta similar a do Kaggle, porém seu foco é a construção de aplicações utilizando Machine Learning. Sua plataforma permite que usuários compartilhem seus datasets e modelos de aprendizado de máquina. A companhia foi fundada em 2016 por Clément Delangue, Julien Chaumond e Thomas Wolf. Hugging Face possível uma infraestrutura similiar ao do GitHub para manutenção de repositórios, modelos, datasets, aplicações web e suporte a discussões.Google Colab - O Colaboratory ou “Colab” é um produto do Google Research, área de pesquisas científicas do Google. O Colab foi criado a partir de um fork do projeto Jupyter que oferecia serviços para computação interativa entre múltiplas linguagens de programação. O Google porém integrou os recursos do Jupyter em sua infraestrutura e disponibiliza "células" de programação (chamados de notebooks) como se fosse arquivos do Google Drive além de oferecer capacidade de processamento em nuvem. O Colab permite que qualquer pessoa escreva e execute código Python arbitrário pelo navegador e é especialmente adequado para aprendizado de máquina, análise de dados e educação. Pelo Colab também é possível aplicações de maior porte pois o Google vende capacidade computacional para maiores demandas. As demandas pequenas entretanto podem ser atendidas gratuitamente. Menção honrosa nesta parte de infraestrutura escalável em nuvem vai para a Amazon Web Services - AWS. PapersWithCode - Este site se propõe a disponibilizar de maneira livre e aberta artigos, códigos, datasets, métodos e resultados de avaliação relativas a NLP (Neural Language Processing) e Machine Learning. Todo o conteúdo do site é licenciado sob a licença CC-BY-SA (mesma da Wikipedia) que permite a contribuição de todos. Paperwithcode também disponibiliza materiais sobre Astronomia, Física, Ciência da Computação, Matemática e Estatística.O site é um ponto de partida para saber sobre as novidades mais "quentes" e o state-of-the-art de diferentes áreas de pesquisa, porém com foco nas áreas citadas acima.
1. Hua Zhibing. Tive muitas dificuldades de checar devido a língua mas a informação é que Hua Zhibing é uma estudante virtual da Universidade de Tsinghua. Hua Zhibing apresentou-se no vídeo abaixo na rede social Weibo. Segundo dados de outros sites listados nas referências Hua Zhibing é "viciada" em literatura e arte desde que nasceu. É baseada no sistema de modelagem Wudao 2.0. Segundo Tang Jie, um dos principais desenvolvedores, Hua utiliza 1.75 trilhão de parâmetros para simular conversas, escrever poemas e entender imagens.
Sendo bastante sincero a barreira da língua não permitiu coletar informações sobre como anda o desempenho de Hua como aluna, se é o orgulho dos professores ou se está levando bomba em Semiótica II. Se o objetivo principal for o aprendizado, Hua pode se aplicar 24 horas por dia sem se cansar. podemos pensar em quanto tempo ela concluirá o curso ? Para mim é bem difícil descobrir tais informações pois as fontes foram ágeis em divulgar a criação de Hua mas extremamente sovinas em dar mais detalhes de sua performance.
2. A 10ª Sinfonia de Beethoven. O Instituto Karajan da Áustria incumbiu uma comissão para desenvolver uma IA que aprenderia a obra de Beethoven, identificaria tudo sobre seu estilo e a partir dos rascunhos da 10ª Sinfonia, finalizaria sua sinfonia incompleta. Seria o que podemos apontar como o mais aproximado da sinfonia que Beethoven faria. Dúvidas... veja no vídeo abaixo.
Como diletante amador em música, a 10ª Sinfonia soou bastante Beethoven como teria soado qualquer outro compositor. Somente ouvidos experientes e conhecedores a fundo da matéria poderiam apontar erros de estilo, andamento, composição ou algo do tipo. Para mim está aprovado. Aguardo ansioso a 11ª Sinfonia.
3. GPT-3. As últimas novidades são relacionadas às áreas de desenvolvimento. A GPT-3 é uma IA aberta que promete converter linguagem natural em linguagem de programação. O que é uma avanço significativo depois das iniciativas de low-code (desenvolvimento com pouco código) ou no-code (desenvolvimento utilizando principalmente gráficos e composição de elementos) que prometiam abstrair as habilidades de desenvolvedores, diminuindo ainda mais a barreira de desenvolvimento. Pois bem a GPT-3 baixa ainda mais esta barreira permitindo a conversão de códigos diretos do inglês para a linguagem da Microsoft que viabiliza a conversão - a Power Fx.
Esses avanços de IA em programação sempre deixa muita gente da área de TI em polvorosa pois mesmo o mercado de programação sendo relativamente atraente, as vagas estão sempre em risco em função de que um concorrente possa fazer mais, melhor e com menos custo, seja uma software house com uma solução pronta, seja um estagiário indiano. E de repente bum ! Algo assim pode mandar o desenvolvedor local, a software house e o estagiário indiano para aumentarem a frota de Uber da cidade.
4.Codex. A OpenIA Codex é a melhor IA que converte linguagem natural em linguagem de programação tais como JavaScript, Python e PHP entre outras. O modelo do Codex é o mesmo usado no Copilot do Github. OpenAI Codex é o descendente de outro modelo, o GPT-3, porém é especializado em receber como entrada texto corrido e a partir dessa entrada devolve um código funcional. Veja um exemplo abaixo.
Apesar das muitas vantagens apresentadas não encontrei muitos outros casos de usos nem do Codex, nem do GPT-3, mas eles deverão aparecer, principalmente se tiverem sucesso na resolução de problemas propostos. Às equipes de desenvolvimento de TI e áreas negociais restará capricharem no inglês para que tais ferramentas se provem. Mas não há como não admitir que tais avanços são dignos de nota e serão mais importantes ainda se um belo dia em vez de baixar uma IDE para escrever um código sua primeira opção seja baixa os módulos para só dar direcionamentos ao Codex e similares.
Referências:
1. Hua Zhibing:
https://www.odditycentral.com/technology/meet-chinas-first-ai-powered-virtual-university-student.html
https://epaper.chinadaily.com.cn/a/202106/10/WS60c1508ea31099a234356c12.html
2. A 10ª Sinfonia de Beethoven
https://tecnoblog.net/meiobit/447066/ia-conclui-10a-sinfonia-beethoven/
3. GPT-3
https://techcrunch.com/2021/05/25/microsoft-uses-gpt-3-to-let-you-code-in-natural-language/
4. Codex da OpenIA
https://openai.com/blog/openai-codex/
Shogi - o Xadrez japonês