Transcrição Google, isso existe?
Transcrição Google existe, sim. E é por isso que cada vez mais gosto do Google. Hoje sou usuário do Gmail profissional, armazeno vários arquivos no Google Drive, fico xeretando no Google Play se tem novidade em transcrição automática. Mas nada melhor do que o próprio Google para transcrever áudios.
Google devia chamar coringa.
O Google tem uma característica muito especial. Ele é muito, muito polivalente e seu reinado deve durar tanto quanto durar a capacidade de inovar sem inventar muito. Inventar, no sentido de colocar muita florzinha, ser rococó, um tanto Barroco, detalhes demais. Não que isso seja ruim, afinal é no detalhe que mora o diabo. Mas, ficar remendando muito, para que? Funciona bem? Ok.
Transcrição por voz no Google.
Ok Google. Uma série de APPs fazem o que todo transcritor sonha em fazer. Fala-se alguma coisa e o Smarphone começa a escrever. Muita gente deve estar tentando transcrever usando o celular neste exato momento. Eu sei, porque eu sou de certa forma fã da transcrição automática. Uma vez assustei um transcritor, ao enviar um texto para revisar. Ele achou horrível, pois estava cheio de erros.
Qual o nível de acertos da transcrição Google?
Depende muito, muito da qualidade da gravação. Reportagens da Rede Globo em que os apresentadores âncora como Willian Boner ou programas científicos narrativos como a série O Universo do The History Channel, falado sem misturar línguas, mas uma programação pura atingem bons níveis de acertos.
Falta pontuação na transcrição Google.
Esse é o grande problema, mas muitos softwares inteligentes que funcionam com a plataforma Speech API da Google tentam trocar as palavras por sinais de pontuação de modo online. Exemplos disso são o Dictanote (que permite programar pontuações ou até mesmo frases inteiras em configurações) ou Speechnotes (que já vem definido os sinais de pontuação).
Características do Dictanote.
O que eu acho notável no
Dictanote é que pode-se programá-lo de modo a apresentar sinais diferenciados de acordo com o que desejamos. Ou seja, podemos definir a frase “pontuação ponto final” e aparece “.” ou simplesmente “ponto final”, aparece “.”. “Abrir parênteses”, “(” e etc. Mas existe um porém, o Dictanote precisa de ativação do microfone de forma constante, ou seja, depois de algumas palavras, ele para o microfone e este tem que ser reiniciado. Não sei por qual motivo.
Características do Speechnotes.
O que é notável no Speechnotes é que o microfone não sofre interrupção. Outro dia deixei ligado o microfone por seis horas seguidas e ele continuou funcionando sem ser reiniciado. O Speechnotes reiniciava o microfone sozinho. Sua desvantagem em relação ao Dictanote é que a sinalização já vem definida e portanto é mais limitado.
Dictanote e Speechnotes só funcionam no Google Chrome.
Não vai adiantar tentar rodar esses dois programas de transcrição por voz (ou transcrição automática) fora do Google Chrome. Nem no Explorer, ou outro navegador de internet. Eles usam o “motor de reconhecimento de fala” do Google. Não adianta.
Transcrição Google, por Google Drive.
Fiz vários testes gravando minha voz ou reproduzindo reportagens da Cristina Lobo, minha repórter preferida pela dicção extremamente apurada em suas falas ao vivo. Ela pouco se abala nas transmissões. Enfim, submetidos no mesmo volume, mesmo microfone, com exatamente a mesma regulagem de graves e agudos na minha modesta mesa de som analógica, nas mesmas condições, o reconhecimento da gravação de minha voz ou de reportagens da Cristina Lobo apareceram com variabilidade de reconhecimento. Ou seja, houve diferenças no nível de reconhecimento do Ditado por voz Google, que apresentou nível de reconhecimento superior aos demais.
O único porém do Google é que passado algum tempo, cerca de 15-30 segundos sem fala, o microfone para de funcionar. Então não dá para deixar o computador transcrevendo os programas que gosto e abandoná-lo. É necessário monitorar constantemente a evolução da transcrição produzida pela reprodução da gravação.
Ranking da TRANSCRICOES.Com.Br de transcrição por voz.
Nível de Acertos – (1) Transcrição Google, (2) Dictanote e (3) Speechnotes.
Microfone ativado – (1) Speechnotes, (2) Transcrição Google e (3) Dictanote.
Pontuação – (1) Dictanote, (2) Speechnotes e (3) Transcrição Google.
Transcrição Google é o preferido da TRANSCRICOES.com.br.
O quesito que consideramos mais importante é o nível alto de reconhecimento sem erros. Fico refletindo qual seria o motivo de tanta diferença entre um e outro. Penso que deva existir um processamento violento por parte do API Speech para interpretar o que está sendo falado. Percebo o esforço da máquina em reconhecer as palavras e testar várias opções entre palavras que fazem sentido juntas ou separadas.
Isso só a experiência de várias e várias horas experimentando os recursos me permite conseguir captar essas nuances. Não digo isso para me gabar, porque é feio. Trata-se apenas de um relato honesto.
Internet instável atrapalha no reconhecimento de fala.
E uma das hipóteses é o sinal de internet instável. Em certos dias a precisão dos ditados cai tanto, que é muito mais fácil transcrever. A partir de um nível de erros de 3%, acaba sendo mais fácil e rápido produzir uma transcrição por digitação do que por digitação.
Há interação entre os programas que diminuem reconhecimento.
Na minha imaginação, o Google reconhece a fala, enquanto os programas de pontuação tentam reconhecer o que está sendo digitado para trocar pelos sinais de pontuação. Além de ter que reconhecer a pontuação, a rotina dos programas Dictanote e Speechnote deve envolver a capitulação. Afinal de contas, após um “ponto final”, a primeira letra deve vir com letra maiúscula (os estudiosos chama isso de ‘capitulação’, ou ‘capitular a letra’).
Essas interações adicionais de alguma maneira interferem no reconhecimento, pois invariavelmente o reconhecimento da Digitação por Voz do Google Drive tem apresentado maior índice de reconhecimento.
Inconvenientes da Digitação por Voz do Google.
A inteligência artificial do Google deve prever a capitulação de certas palavras aceitas universalmente como capituladas. Por exemplo, as palavras ‘Deus’, ‘Universo’, ‘Planeta Terra’, ‘Império Romano’ e etc.
Nomes como ‘Clara’ e ‘Claro’ ou palavras como ‘Qual’ aparecem capituladas, na tentativa de imitar a rede neural que usamos no processo de comunicação.
Nomes próprios como ‘Cuba’ são capitulados, mas existe também o substantivo “cuba” referindo-se à parte de uma pia de cozinha ou de lavatório.
A palavra ‘porque’ aparece sempre junta, a não ser que seja ditado, falado bem separado “porrr… que”.
Mas também ele tenta capitular palavras como se fossem nome de títulos famosos como ‘E O Vento Levou’, ou obras como ‘Os Dez Mandamentos’, que podem também não ter função de nome próprio.
Outro inconveniente é a aplicação da regra de inglês, em que certas palavras como Segunda-feira, Agosto, Inverno têm como regra a capitulação, o que não ocorre no português.
O Transcritor Google não dispensa revisão.
Por todos os posts que li a respeito, existe no imaginário coletivo que se selecione um arquivo .mp3 ou .mp4 e com o pressionar de um botão executar surja como resultado um texto transcrito, de preferência com todas as palavras corretas e pontuadas, indicando novos parágrafos e novas linhas.
Segundo o Padre Quevedo, “isso non egziste”.
Fonemas são diferentes de ideias. Palavras com fonemas idênticos têm significados distintos em diferentes línguas e em diferentes situações.
Assim, por melhor que seja o reconhecimento do transcritor Google, em um horizonte de 5-10 anos não consigo vislumbrar um software capaz de fazer a pontuação automática.
O que fizemos com o Transcritor Google?
Já que o que privilegiamos é o nível de acertos, experimentamos digar a pontuação sem nenhuma interferência no motor Google de reconhecimento de fala. Isso quer dizer que o processo de interpretação de fonemas do Google age sem qualquer obstáculo, a não ser o sinal de internet. Teoricamente temos o melhor reconhecimento. Para que isso seja possível, no momento em que fazemos a transcrição por fala, somente a janela do Google Docs fica aberta.
Desconectamos o WhatsApp no Desktop, assim como o e-mail é recebido somente por Smarphone, um modesto Moto E.
A velocidade do Play é reduzida a 70 por cento (por Express Scribe ou InqScribe ou Windows Media Player).
Acompanhamos as palavras produzidas, para evitar que intervalos de silêncio desativem o microfone.
Finalmente, criamos um pontuador automático, disponível em
transcricoes.com.br/transcricoes/
Já as letras capituladas recebem um tratamento seriado de substituição de letras feita de forma automática, aplicando os rudimentos de inteligência que imitem a lógica da gramática.
Assim estão sendo produzidas as transcrições da série Transcrição Social (acesse aqui).