TRANSCRICOES.com.br - WhatsApp ou Telegram (11) 94844-3344 - contato@transcricoes.com.br

Transcricoes
Transcricoes

Você está aqui: / Transcrição de áudio android
Transcrição de áudio android

Transcrição de áudio em texto pela voz é uma atividade em expansão. Acho curioso que pouca gente tenha nos procurado por ajuda nesse sentido, ou aproveitado da solução que encontramos para a falta de pontuação na ferramenta Google de ditado por voz. Para quem não conhece, vale a pena. Vá em transcricoes.com.br/transcricoes/ que será aberta uma nova janela, assim como link para o próprio Google Docs. Mas concentre-se na leitura e guarde a informação. Saiba o que chamo de transcrição de áudio android lendo até o final do artigo. Você não se arrependerá.

Transcrição por voz e o futuro da transcrição de áudio

Não existe forma melhor de armazenar informação do que o texto escrito

Não consigo pensar em forma melhor de trabalhar do que com o texto para organizar conhecimento. O mecanismo Google por exemplo, procura através de palavras-chaves a conexão entre diversos assuntos. Assim, a palavra-chave está intimamente ligada às máquinas que procuram semelhanças entre palavras parecidas quando inserimos manualmente ou por voz algum item que procuramos.

“O texto escrito é uma imagem.”

Outro dia, conversando com um web designer de jogos, fiquei hipnotizado com essa frase. O texto escrito nada mais é do que a representação da imagem do som. Fiz imediata ligação com as onomatopeias e balões de diálogo das histórias em quadrinhos. A melhor forma de expressão sem dúvida é a fala, mas o cérebro divaga e a capacidade de prestar atenção diminui com o tempo. Mas a escrita é pétrea.

Por que é importante codificar em palavras?

Porque é fácil procurar. Imagine o mundo sem a escrita mas com capacidade de gravar som. A visão é o mais apurado dos sentidos. Come-se com os olhos, percebemos a comunicação pelo sentido da visão quando notamos o corpo falar com expressão de carranca, braços cruzados ou sorrisos. Os cegos sorriem quando se emocionam, o próprio cachorro reconhece nosso olhar de reprovação. Mas o ato é passageiro enquanto o registro em escrita não.

Palavras permitem organizar o conhecimento armazenado

Mais do que organizar, é recuperar o conhecimento de forma rápida através de catálogos e classificações, determinadas taxonomias. Isso também é possível de ser feito por voz, mas a fala é mais lenta do que a visão. A visão é instantânea e é por isso que rapidamente os nossos próprios nomes se destacam em uma lista de  vestibular, por exemplo. É instantâneo.

O futuro dos softwares de transcrição de áudio

No futuro, com a transcrição de áudio deverá corresponder as palavras ao áudio. Ou seja, tal palavra ou tal frase foi proferida naquele exato minuto e segundo e foi repetida tantas vezes durante o decorrer do áudio. Transcrito o áudio para texto, a procura se torna praticamente instantânea. Elas irão conseguir localizar não somente as palavras, mas o trecho de áudio.

E é por isso defendemos que a transcrição de áudio deve ser a mais próxima possível da fala. Em um futuro não muito distante será possível a máquina fazer uma auditoria em transcrição de áudio e apontar diferenças entre texto e áudio.

Uma profusão de dados e informações

Outro dia estava passando pela cozinha. A TV estava ligada no noticiário e passou uma reportagem. Não estava prestando muita atenção naquele momento, mas o repórter falou alguma coisa sobre a incrível capacidade de registro de informações que ocorre no mundo. A vida inteira de um ser humano não seria suficiente para ler e tomar ciência de todas as informações produzidas em um único dia no Planeta.

Como não me lembro quando ocorreu isso, porque não me ative a registrar como, quando, onde e por que é que essa informação seria importante, teria que procurar em todos os programas de noticiário do mês. Lembro-me que foi esses dias, mas não foi ontem nem anteontem. Então teria que procurar as informações em todos os canais e ouvir esse contexto dentro de uma frase. Isso só seria viável se existisse um Google que registrasse isso e procurasse de forma inteligente para me retornar uma busca. Pergunta do tipo “Ok, Google. Reportagem que falou sobre a vida inteira do ser humano não ser suficiente para processar todas as informações produzidas em um único dia no planeta, limitar a procura a este mês que se passou, julho de 2016”.

A legendagem automática, o Closed Caption (CC) permite a documentação, o catálogo dos dados e a recuperação da informação. Estamos chegando perto disso.

O futuro da transcrição de áudio

Outro dia assisti a um vídeo do Tribunal do Rio Grande do Sul e aproveitei para fazer uma transcrição automática através do Google Docs. Existe uma série de pré-requisitos e passos a se cumprir, detalhadas em um artigo sobre um vídeo, onde até mesmo aparece uma figura conhecida e amiga deste site, Dácio Vontobel.

Confesso constrangido que no momento não estou conseguindo encontrar esse post. Sei que escrevi por esses dias. Mesmo documentando não foi fácil localizar o artigo. Tive que ir no índice de posts para descobrir. Enfim, ei-lo, Transcrição de áudio em texto no Tribunal do RS, tive que melhorar o título para encontrar mais facilmente.

A questão da pontuação e da eurística

A transcrição foi automática e veio sem a pontuação. Existem estudos avançados de eurística que tentam facilitar isso, mas elas mesmas falham na contextualização quando entendem que determinada expressão é nome de filme ou livro famosos. A pontuação ditada vem sendo implantada. Já está disponível em inglês, japonês, alemão, chinês, espanhol e francês. Mas ainda não está disponível em português.

Dificuldades para reconhecimento de fala

As principais dificuldades para o reconhecimento da fala são a dicção do falante, o sotaque estrangeiro, a presença de palavras estrangeiras, a interação dos falantes com sobreposição de vozes que não são raras, a presença de ruído, a qualidade do gravador, a distância dos falantes do microfone, presença de eco, o nível de compressão da gravação,  o software de gravação, qualidade do microfone, o tom de voz, e outros.

Exemplo de gravação ruim que somente o ouvido humano pode transcrever, desde que familiarizado com o assunto, como policiais que investigam o caso. Uma transcrição de áudio androide não seria capaz de fazer isso.

Vislumbres do futuro da transcrição de áudio

Alguns questionamentos surgiram no decorrer do tempo em que faço postagens sobre o assunto, do tipo, será que é prudente falar sobre isso? Não estaria eu colaborando para a extinção da carreira de transcritor de áudio? Estaria postando contra os profissionais?

Longe disso, acredito que contribuímos quando abordamos a transcrição de áudio por voz. A boa transcrição depende de um transcritor fiel ao áudio. Ninguém melhor do que um robozinho que automatize o serviço onde for possível. É insosso e insano trabalhar horas e horas para produzir uma transcrição quando uma máquina, respeitadas as condições de áudio cristalino e um falante por vez (programas jornalísticos ou de entretenimento), é possível usar esse tempo na mais nobre arte da transcrição que é a revisão.

O revisor humano e a intuição de escuta que é adquirida ao longo do tempo é capaz de captar, trabalhar intelectualmente sobre o texto em revisão, colocar seu conhecimento e a sua própria vivência, a sua cultura para produzir um texto coerente com o que se entendeu do que o entrevistado quis dizer, enfrentando as dificuldades de som ruim, frequentes sobreposições, modulações de voz etc.

Transcrição de áudio android

Outro dia falei como se fosse um robozinho. Fiz minha transcrição de áudio android. Como o abaixo, devagar, pausada e claramente. Talvez mais rápido que o B-9, o robozinho da série Perdidos no Espaço, uma divertida e inocente série de fricção científica dos anos 1950. Mas surpreendentemente foi da forma que consegui o melhor resultado de reconhecimento. Realmente, não é brincadeira, é mais tediosos do que digitar. O B-9 abaixo teria dificuldades em digitar ou tocar piano, mas seria um transcritor androide perfeito com sua fala pausada e falta de emoções, o que o torna incrivelmente paciente.


No final dos anos 1970 foi lançada a série Galática Astronave de Combate (exibida na Record). A dublagem trazia uma voz mais parecida com o robô B-9, mas o vídeo abaixo vale pela diversão. Repare no robozinho assassino atacando uma nave. É a clássica fantasia das máquinas contra os seres humanos.


Transcrição de áudio android tem tudo a ver com esses filmes acima. Primeiro, o falar lenta e claramente com dicção ótima e o ritmo de um robozinho, ou android. Mas e se tiver uma sala cheia de transcritores android, o ruído entraria pelo microfone e atrapalharia a transcrição. Os tribunais americanos encontraram a solução de isolar o microfone em uma máscara. Veja matéria sobre transcritores americanos atuando no Judicário (está em inglês), Os transcritores americanos ganham 42 mil dólares anuais ou perto de 12 mil reais mensais. Já pensou?

Mas e os cylon, o que tem a ver? Calma, que a resposta está na aviação de caça e aviação civil e comercial. Já notou que os repórteres aéreos tem a voz incrivelmente clara na televisão, apesar do barulho que um helicóptero faz? Pois é. O segredo está no fone de ouvido com um microfone incrivelmente isolador de ruído externo. Combinando tudo isso, temos um piloto-transcritor. Uma empresa de transcrição de áudio pode acomodar vários transcritores por voz dentro de uma sala sem problema nenhum. O equipamento é caro, mas a ideia é diminuir a fadiga do trabalhador.

Top