Transcrição de Áudio Android

Transcrição de áudio android traz uma dica especial para você: se você não conhece o Transcrição Instantânea, um app disponível no Google Play, considere no que esse aplicativo faz. Assistao ao vídeo abaixo, que apresenta bastante eventos da oralidade com vários trejeitos de fala que precisarão ser corrigidos ou não, a depender do estilo de transcrição:

Mas não vá embora, tenho informações imporrtantes sobre ele, depois destacarei os aspectos positivos e negativos que encontrei nesse aplicativo, que no mínimo é divertido de observar.

Os erros cometidos pelo aplicativo

No vídeo acima, em pouquíssimos segundos, pude contar pelo menos 4 necessidade de ajustes, o que é muito alto se for considerar que necessitaria de 6 a 10 segundos para fazer ajustes. Senão vejamos.

A transcrição instantânea começou a funcionar exatamente às 01:12

Aos 01:18, apenas 6 segundos depois, ele havia escrito “Apertei aqui ó, tudo o que eu vou falando ele vai mostrar na tela. Olá pessoal, tudo bem¿”. Fiquei particularmente interessado pois ele começou a pontuar, o que mostra que existe uma programação dentro do Google ou dentro do aplicativo que já reconhece entonação e elevação da última sílaba quando fazemos perguntas.

Transcrição Instantânea 6 segundos

O ponto de interrogação sumiu. Ele depois grafa “Eu tô fazendo um tete aqui com um aplicativo que escreve o que a gente fala.”, a inteligência artificial achou que não era mais pergunta.

A inteligência artificial do aplicativo também trocou a palavra “transcreve” por “escreve”.

Em um vídeo tão curtinho, fica difícil analisar a qualidade da transcrição, você fica com a impressão de que o aplicativo faz maravilhas. E a verdade não é essa.

Experimentei o Transcrição Instantânea

Confesso que fiquei muito intrigado e instalei no meu dispositivo, um tablet com Android 6.0 instalado. Toquei um áudio perto dele e o reconhecimento foi péssimo. Alguns erros são clássicos. A qualquer hesitação ele interpreta como o início de uma nova frase ou usa vírgula indevidamente. Em 50% dos casos acertou.

https://play.google.com/store/apps/details?id=com.google.audio.hearing.visualization.accessibility.scribe&hl=pt_BR

Transcrever por ditado

Transcrever por ditado é uma técnica que uso quando estou cansado de digitar. Eu falo, eu declaro a pontuação. Em vez de digitar a pontuação no Google, costumava digitar, o que atrapalhava o mecanismo de reconhecimento do aplicativo. Então, a partir de dezembro de 2018 o Google Docx começou a reconhecer a pontuação em português, o que ajudou a diminuir o índice de erros. Confira os sinais gráficos de pontuação que encontrei até o momento no Google Docs.

Erros clássicos da digitação por voz

Ainda assim, quando falo “vírgula”, de vez em quando o Google Docs entende “vírcula”, “veicular” ou “ver Goulart”. É interessante que esse erro eu identifico desde 1990, desde o Via Voice, todos os aplicativos que testei até hoje cometem esse erro.

O futuro da transcrição de áudio

Fico cada vez mais animado com a inteligência artificial. Recentemente o Google Duplex começou a falar com trejeitos humanos! Na demonstração que foi feita o aplicativo conseguia simular uma conversa com uma pessoa real, para assuntos como marca de consulta médica ou reserva de lugares em restaurante. Vale a pena assistir ao vídeo abaixo. Ele simula erros, pausas silenciosas e pausas sonoras “eh… “, por exemplo. O vídeo está em inglês, mas encontrei um legendado.

Teste de Turing

O teste de turing é uma avalilação em que o computador é testado se passa por um julgamento humano, se ele fala como um ser humano. Como a inteligência artificial não é versado o suficiente para falar sobre assuntos gerais, mas situações bastante limitadas, ele não passaria no teste de turinng.

Conclusão

De qualquer maneira é muito interessante. Acredito que não vá demorar muito tempo, talvez uns 10 anos, será possível deixar a transcrição de áudio ser feita por inteligência artificial. Pelo menos a parte pesada de digitação. Quanto maior a precisão, mais o transcritor se ebeneficiará. O bom transcritor é aquele que detecta erros nas palavras transcritas e as corrige. E disso não escapa do teste de turing, já que depende de conhecimento prévio sobre o assunto tratado, ou ainda a capacidade de fazer escolhas. Ainda há muito campo para o transcritor.

Dicas extras

Visite esses dois vídeos e saiba como transformar sua máquina em uma usina de transcrição de áudio, mas prepare-se para corrigir os inúmeros erros. Toque o vídeo de duas moças falando sobre o Google Duplex, conversando animadamente.

Repare na incrível sobreposição de falas, é descomunal. E então decida se vale a pena usar a transcrição de áudio automática, ou se ainda vale a velha e boa digitação, mano a mano, dedo a dedo, palavra a palavra.

https://youtu.be/9-7dr3r8l-s

O artigo abaixo é o que considero de mais completo em transcrição por máquina, onde falo como o Excel ajuda a extrair as legendas do YouTube sem precisar ficar tirando tempo da legenda automática.