Transcrição de áudio
99,6%+ de acurácia

Transcrição de áudio e degravação de audiências para ata notarial, ata literal de reuniões críticas, audiências e gravações de WhatsApp. Mais de 10 anos de experiência na área. Temos também transcrição automática por robô (opção mais barata).

WhatsApp (11) 93095-9547
contato@transcricoes.com.br

Programa de transcrição de áudio é o fim do trabalho de transcritor?

Publicado por Transcricoes em

transcrição de áudio

Programa de transcrição de áudio é o fim do trabalho de transcritor?Figura - O Fim do Trabalho de Transcritor

Quais são os principais tipos de programas de transcrição de áudio que existem? São dois grupos de softwares que nos ajudam a transcrever áudio.

O grupo de transcrição por digitação

O primeiro grupo são os programas que facilitam a digitação na transcrição. O grupo de programas de transcrição de áudio basicamente reúnem recursos que facilitam a vida do transcritor de áudio. Ou seja, traz o benefício de facilitar a operação do áudio, com interfaces que permitem acoplar pedais para avançar ou retroceder áudio, sem precisar tirar as mãos do teclado, se mostram muito úteis.

Eles também contêm recursos que ajudam a administrar o áudio e o texto, concentrando os dois em arquivos com o formato “.DCT” (dictation, ou “ditado” em inglês), que são reconhecidos por outros softwares semelhantes. Enviando de volta o áudio para o cliente, o cliente recebe junto o texto, que pode ser aberto por esses e outros softwares.

Alguns permitem downloads automáticos e permitem ainda organizar trabalhos e sistemas de distribuição para uma equipe de profissionais.

Qual a real necessidade que um programa atende das necessidadess de um transcritor

Operacionalmente falando, e não administrativamente, os transcritores necessitam de um programa que varie a velocidade da fala sem distorcer a voz, de programas que rodem em paralelo (ao fundo) com editores de texto e tenham atalhos fáceis para memorização, de tal modo que permitam ao transcritor parar, voltar, pausar, retroceder e avançar áudios.

Atalhos para marcação de tempo também são fundamentais assim como recursos de formatação para legendagem e, de quebra, algum recurso para melhorar a qualidade do som. Todos esses recursos se tornam atributos especialmente desejáveis, onde o principal benefício é o ganho de produtividade aos transcritores, principalmente os que militam diariamente nessa atividade.

São programas eficientes o Express Scribe e o Inqscribe que tive oportunidade de testar. Gostei da facilidade de operação dos dois, são de interface simples e agradável, sendo que nesse quesito quem ganha é o Inqscribe. Mas a minha preferência pessoal fica a favor do Express Scribe.

Outros programas não oferecem tantos recursos ou facilidades, ou ainda não tive paciência para testar.

O grupo de transcrição por fala

O segundo grupo de programas é tecnologicamente mais sofisticado, trata-se do grupo dos softwares de reconhecimento de sons de fala.

O primeiro programa transcritor de áudio para texto que se adéqua ao que talvez o leitor de nosso blog imagina, o mais próximo talvez seja o Via Voice da IBM. Ele parou na versão 11.0 no Brasil há alguns anos atrás e fazia transcrição de áudio em português.

Você ditava um texto que ele reconhecia as palavras e aparecia em Word ou qualquer outro editor de texto.

Era possível enriquecer seu vocabulário de reconhecimento “ensinando” o programa a reconhecer sua voz. O treinamento inicial do Via Voice levava cerca de duas horas, com a leitura de textos adaptados de Machado de Assis, e quanto mais se adicionasse vocabulário a ele posteriormente, melhor ele se tornava em reconhecimento. Pessoalmente, usando por mais de dois anos o programa, cheguei a um nível de reconhecimento de 98 por cento.

O Via Voice chegou ao fim

Pena que o programa foi descontinuado. Ele foi adquirido posteriormente pela Nuance (fabricante do Dragon Speech, um dos melhores do mundo em reconhecimento de fala) mas não teve versão em português brasileiro lançado. Talvez pela falta de ganho de escala, a versão em inglês e espanhol e até alemão, ouvi dizer que funcionam bem.

O segredo dele, voltando ao português do Brasil, é ter um vocabulário extenso, o que facilitando por demais o reconhecimento.

Além disso seu vocabulário inicial continha o nome de alguns personagens como Barack Obama, Margareth Tatcher ou nomes de países e cidades relevantes. Reconhecia sinais de pontuação e capitulava (colocava em maiúscula a primeira letra de palavras que vinham atrás de sinais de pontuação ou no iníco de frase).

Reconhecia também palavras estrangeiras, desde que cadastradas se não fossem célebres. Vibrei quando ele reconheceu a palavra “zeppelinfield” depois que ensinei (soa algo como “zêpêlínfíudi”).

Infelizmente era um programa personalíssimo, apenas quem “ensinava” ao programa tinha sua voz e seu sotaque pessoal reconhecido. Outro porém, sua descontinuidade limitou seu uso ao último Win 7, versões “profissional” e “ultimate” que permitem emular um ambiente “XP”, o último que aceitava o Via Voice. Foi derradeira a pá de cal que definitivamente sepultou “the Voice”.

API do Google é novo recurso de transcrição por voz

Outro programa recente é a API do Google de reconhecimento de voz. Nesse caso, sem ensinar nada, chega-se a um reconhecimento da ordem de 80-90 por cento, o que é considerado bom em termos de transcrição de voz.

Disponibilizado somente no navegador Google Chrome, essa API é impressionante, reconhece vários tipos de sotaque brasileiro, desde o gaúcho, passando pelo paulista (meu caso) e indo para o Norte brasileiro.

É uma verdadeira façanha.

Mas por enquanto tem a limitação de não permitir pontuação, talvez pela dificuldade de atribuir comandos à pontuação. Por exemplo, a palavra “ponto” em “ponto de vista” ou “ponto de ônibus” ou “ponto a ponto” ou “ponto final” ou “ponto de interrogação”, a palavra “ponto” cabe em diversas situações. Assim como a “vírgula” e “aspas”.

Mas enfim, para uma API gratuita, ele faz muito.

O que as pessoas procuram na transcrição por fala

Transformar voz em texto de forma automática parece ser uma necessidade muito manifesta de acordo com as pesquisas que as pessoas fazem na internet e acabam entrando em nosso site.

As pessoas parecem procurar algo como reconhecimento de texto a partir de gravação de áudio. Ou seja, na imaginação das pessoas que procuram por essas informações, procurando um programa para transcrever áudio em texto, procuram um download de um programa para transcrever áudio, transformando áudio em texto em português.

O sonho de todas as pessoas, o reconhecimento de fala por softwares

Converter áudio em texto em forma automática, ou seja, no piloto automático, simplesmente adicionando um arquivo de som, apertando um botão e esperando que o programa de transcrição devolva um arquivo em texto com todo o diálogo transcrito.

A transcrição de áudio, infelizmente ou felizmente não funciona assim. E existe algum programa para transformar áudio em texto?

Por que não existe um programa para transcrever mp3 ou transcrever wav ou outros arquivos de áudio.

Principalmente em português.

Os softwares de transcrição de fala substituem o transcritor?

Mas por que os softwares de reconhecimento de voz não conseguem reconhecer a fala de uma gravação? Segue uma lista abaixo:

Eles reconhecem melhor se você fala no microfone, como-se-fosse-um-robô, falando as pausas com soquinhos, e numa disciplinada dicção quase perfeita (dica de ouro).

Quem atrapalha o reconhecimento é o próprio ser humano

Existem interações durante a entrevista (sobreposição de voz, tosse, interação de outras pessoas ou até mesmo um barulho de moto, carro ou passarinho, entre outros ruídos) que atrapalham o reconhecimento.

Mulheres tem a especial caracteristicazinha de colocarem diminutivozinho em várias coisinhas, como por exemplinho essa exageradinha frasezinha que euzinho estou digitando.

Neologismos atrapalham a transcrição, assim como sotaque

Outras nuances da comunicação como neologias instantâneas e únicas do falante não são reconhecidos. Por exemplo, um “porotãozinho” querendo dizer “pequeno portão ou portãozinho ou portalzinho”, deliciosamente saboroso em termos de riqueza linguística, mas ininterpretáveis por um robô. Nem tudo na manifestação cultural ou linguística é programável.

Finalmente, frases como “a porpaganda é a arma do negócio”. “Meu afilhadin’ do coraçãozinho é essa menininha fofin”. Pronto, o robô entra em estado mental de confusão quântica.

Às vezes se pronunciam palavras estrangeiras com sotaque brasileiro, desde o gaúcho até o paraibano (incrível, às vezes ao ouvir um paraibano falando rapidamente ao fundo, interrompendo a entrevista sem ter sido convidado a isso, e tendo informação relevante, muitas vezes tenho dificuldade em reconhecer a fala).

Dicção, distância do microfone e qualidade da gravação ou fonte sonora ruim

Sotaques, dicção, distância do microfone, do gravador, cortes no Skype, defeitos na comunicação do celular, falhas, tudo isso o computador não consegue ainda superar ouvidos bem experimentados.

Finalmente, palavras que soam parecidas mas que tem significados totalmente diferentes como “bife de caçarolinha” com “rifle de caçar rolinhas”, ou “ó o auê aí, ô”, que são frases únicas, surgidas de brincadeiras linguísticas não podem ser interpretadas.

Finalmente, transcrever é reinterpretar o que foi que se julgou ter escutado o que o nosso ouvido captou. Duvido que dois transcritores consigam colocar as vírgulas e pontuações de forma idêntica. São como as impressões digitais, nem gêmeos idênticos as têm iguais.

Conclusão

Por tudo isso, a carreira de transcritor de áudio não vai acabar. Vai sim, se tornar cada vez mais nobre e dependerá da cultura geral da pessoa, do esforço pessoal em entender o que se falou e a capacidade de discernimento, de poder afirmar que julgou ter ouvido isso tendo algum conhecimento de causa.

Por isso a transcrição da fala é tão difícil para as máquinas. A fala não é perfeita e nem a gramática, portanto, só quem é imperfeito e fala imperfeitamente consegue compreender quase que perfeitamente o discurso imperfeito de outra pessoa.

O fim do trabalho de transcritor nos parece ainda distante por isso.

A fala não é gramática, é um fenômeno de expressão impressionantemente impressionista. Experimente ir ao site www.software.transcricoes.com.br e veja o API GOOGLE em ação.

 


Transcricoes

Web aprendiz. Iniciou-se em 2012 na internet em busca de conhecimento. Desde então se encantou com transcrição de áudio.