Clube Lúdico: text to speech (TTS)

Mostrando postagens com marcador text to speech (TTS). Mostrar todas as postagens

quinta-feira, 27 de fevereiro de 2025

Voltando ao TTS

Há muito tempo atrás (revi o post e na verdade foi há 12 anos) eu escrevi sobre o TTS (clique aqui para ver post), esse filho esquecido da tecnologia. Digo isto pois aqueles que consomem áudio (rádio, podcast, audiolivros) parecem estar satisfeitos e quietos. É um nicho não visto, até porque com a explosão dos podcasts no Youtube não mexeu com esse grupo. Explico o podcast que explodiu no Youtube não é o podcast "raiz", original, que é constituído do áudio somente. Os podcasts do Youtube são na verdade entrevistas em vídeo com a opção eventualíssima de consumir somente o áudio. O podcast original é o áudio puro veiculado via protocolo específico. Por coincidência enquanto eu finalizava este post saiu este artigo do MeioBit (clique aqui) que repete basicamente o que eu afirmei acima.

Mas há os aficionados em audiolivros que é um segmento de tamanho razoável. Para atrair e oferecer um melhor produto, os audiolivros passaram a ser dramatizados, com leitores-narradores, efeitos sonoros, etc. Alguns livros lidos por alguns narradores tornaram-se um produto além do seu conteúdo, marcando definitivamente os leitores-ouvintes.

Pois bem, um leitor-narrador, a dramatização do audiolivro, efeitos, etc tem custo adicional, logo não iria demorar que se utilizasse ferramentas para geração automática de audiolivros... e com um passo adicional a leitura traduzida de títulos para uma grande maioria de idiomas tudo rapidamente. Semanas atrás li o artigo do Fellipe Gomes no Medium e ele mostrou um código simples em Python pelo qual a partir de um livro em PDF em inglês publicado em um site, o texto é extraído, traduzido do inglês para o português e transformado em áudio. Quando li o texto, o Filipe ganhou tanto minha atenção quanto meu interesse.

O mais espetacular que o Fillipe utilizou bibliotecas disponíveis que fazem todo o trabalho, bastando colocar no código e chamar suas funções. Foi assim que ele utilizou a deep-translate do Google Translator (sim, tem recursos de IA) com bons resultados em tradução. Só não abusar da API com textos muito longos. E a edge-tts do Microsoft Edge dentre outras. Esta edge-tts permite que você escolha a "voz" da leitura e normalmente disponibiliza uma voz masculina e uma feminina para cada idioma, no mínimo.

Como consumidor de audiolivros pensei: "Porque não transformar alguns livros em PDF em audiolivros" ? Boa oportunidade para mexer no Python. Então adaptei o código original e o rodei via Colab do Google, afinal o meu teste não precisava de grande poder de processamento. Pus uns arquivos PDF no Google Drive. Para o teste ser minimamente interessante codifiquei para que se indique o arquivo PDF, o idioma a ser traduzido e a voz para se usar no áudio. O código completo está disponível aqui no Github (clique aqui).

O resultado ficou maravilhoso na minha avaliação. No teste optei pela geração de somente 1 página dos PDFs para que eles não ficassem excessivamente pesados. Numa situação de obter o áudio de PDF grande a opção é dividir o PDF em partes para a geração não ficar muito demorada. Uma vez de posse dos áudios dá para colocar uma música de fundo... ideias, mas fica para outro momento. No meu teste utilizei publicações que estão em domínio público e recomendo que se mantenha o respeito às direitos de publicação e do autor. Utilizei pedaços pequenos (página 5) de "Animal Farm" - em inglês - (lançado no Brasil como "A Revolução dos Bichos") de George Orwell e "Confissões" - em português - de Agostinho. Ouça e tire suas próprias conclusões:

Animal Farm - texto original em inglês lido com a voz Yan no inglês de Hong Kong

Animal Farm - texto original em inglês lido com a voz Antônio no português do Brasil

Confissões - texto original em português lido com a voz Antoine no francês do Canadá

Confissões - texto original em português lido com a voz Francisca no português do Brasil

Vamos às vantagens e desvantagens desta técnica

Vantagens:

1. Sim, é possível transformar PDFs, ePUBs, HTMLs e TXTs em áudio;

2. Sim, dá para traduzir razoavelmente bem e ainda escolher a língua e uma "voz" no qual será gerado o áudio.

3. Flexibilidade de obter publicações em vários idiomas e traduzir para em idioma preferido.

Desvantagens:

1. Livros com palavras hifenizadas terá sua leitura atrapalhada, para estes teria que acrescentar um tratamento para palavras com hífen;

2. No teste feito há uma clara limitação de processamento (Colab Google) para maiores demandas teria que fazer em um equipamento com maior poder de processamento.

3. A leitura está bem humana mas ainda há falhas na entonação de palavras complexas e ou falta de naturalidade em algumas partes.

=======

Referências:

Código em Python no Github - https://github.com/ilhado/TextToSpeech

Explosão dos podcasts no Youtube - https://meiobit.com/466053/youtube-mudou-midia-podcast-audio-para-video/

Fellipe Gomes no Medium - https://medium.com/@gomesfellipe

sexta-feira, 16 de agosto de 2013

TTS, esse incompreendido !

Como nem sempre temos o tempo e as condições para ler os livros e outras publicações que queremos ou precisamos, procurar formas alternativas para ler é necessário. Foi nessa onda que surgiram os audiolivros. A ideia é não ler os livros mas ouvi-los. Dependendo do material pode-se ouvir o livro e conviver com a perda de atenção sempre presente nessas atividades. Caso seja preciso absorver todo o conteúdo é só repetir audição.

Pois bem, o que muitos ignoram que existe uma tecnologia que atende pelo apelido TTS (texto to speech), geralmente associada aos recursos de acessibilidade - os recursos para usuários com deficiência. As aplicações TTS "leem" arquivos de texto, seja emails, ebooks, documentos em formatos variados (pdf, doc, txt, odt, etc.). Num passado não muito distante as aplicações utilizavam poucas vozes e estas normalmente eram muito pouco reais, cometiam erros básicos na leitura ao não fazer as inflexões de voz e nem respeitar a pontuação, era uma leitura meio robótica. As aplicações mais modernas oferecem mais de uma voz por idioma (normalmente uma masculina e outra feminina). Mas a grande limitação é falta de vozes para o Português do Brasil. Para o inglês há uma grande oferta de aplicações algumas gratuitas e são muito boas para treinar seu ouvido na língua inglesa (seja americano ou britânico). Parte das aplicações TTS incorporam tradução simultânea principalmente para línguas orientais como japonês e para as várias línguas chinesas.

Há vários produtos para as diferentes plataformas que tentam suprir essa necessidade. Encontrei este 2 artigos nos dão algumas informações sobre essas aplicações:

Lista de softwares para Windows e Mac com a uma breve descrição.
Artigo com avaliação de app TTS para Android.

Para o mundo iOS, pesquisei e encontrei as seguintes apps:

iSpeech - Text to Speech

É uma app gratuita que transforma em áudio o que for digitado em sua interface, porém não lê outros arquivos. O grupo desenvolvedor tem muitas outras apps que traduzem textos. Não há disponibilidade para áudio em português.

NaturalReader Text to Speech

Esta app também é gratuita e oferece a voz do Obama para ler textos e arquivos, aceita entradas variadas (Dropbox, Skydrive, computadores, email, etc), porém somente em inglês (americano e britânico), espanhol, francês, alemão e italiano.

Voice Dream

Esta é uma das melhores mas tem o custo de US$9,99 cada voz, porém é possível testar as vozes na versão demo. Nesta versão são lidas cerca de 200 a 300 palavras e a leitura para, sendo necessário dar o comando para continuar lendo. Se pagar a app lê o texto completo. As vantagens são muitas, suporte a mais de 20 idiomas, integração com a maioria dos serviços tais como (Dropbox, Bookshare, Evernote, Instapaper, Pochet, Google Drive), permite a adição de texto a partir do iTunes, browser, editor, clipboard e do projeto Gutenberg.

Voice Reader Text to Speech

Para mim é a melhor pois oferece quase tudo que a Voice Dream tem porém ao custo de US$1,99 com a vantagem adicional de permitir a exportação de texto para áudio, possibilitando você criar sua própria biblioteca de audiolivros ou ainda mandar felicitações em áudio. Nesta app cada voz tem o custo adicional de US$0,99, para os brasileiros tem a voz da Ana disponível. Para a desvantagem do Voice Reader Texto to Speech é não poder testar antes de pagar.