Desmistificando a transcrição de áudio automática

transcrição de áudio e degravação

Desmistificando a transcrição de áudio automática

Olá, pessoal, tudo bem? Hoje eu gostaria de falar um pouco sobre desmistificar a transcrição de áudio automática.

Transcrição de áudio automática é fácil, grátis e vai acabar com o serviço de transcritores

Eu estava brincando no YouTube, desde que eu me tornei um youtuber, visando colaborar com as pessoas para que a ciência da transcrição de áudio se eleve em qualidade, nós possamos dividir a tecnologia que a gente desenvolveu de transcrição de áudio.

E desmistificar também essas afirmações de que transcrição de áudio é fácil, que a transcrição de áudio automática vai tirar o emprego dos transcritores.

Eu asseguro para vocês que não. Está cheio de especialista por aí dizendo isso no YouTube, mas não acreditem não.

O Google Docs faz transcrição de áudio automática grátis

Aqui em casa a gente tentou, por seis anos a gente implantou a transcrição por voz, a transcrição por ditado que a gente fala.

E esse é o que o Google disponibiliza, uma transcrição de áudio, ele chama de (…) Digitação por Voz.

Então o que é que acontece? Você vai lá no Google Docs, se você não tem você instala, abre uma conta no Google Drive e depois você faz o login e o Google Docs vai estar disponível para você gratuitamente.

E aí no menu Ferramentas, você procure lá Digitação por Voz.

Aí ele vai mostrar a figura de um microfone, esse microfone precisa ser configurado para o português do Brasil (PT-BR). Aí após essa configuração ele irá solicitar a sua permissão para que o Chrome acesse o seu telefone. E aí, dada essa permissão, então naturalmente se você começar a ditar, se tudo estiver certinho, a configuração estiver certinha, ele vai começar para seu espanto a escrever.

No Windows configure corretamente o Painel de Controle

E se você ir lá no painel de controle lá do Windows e ativar direitinho o mixer, aí se você tocar algum vídeo do YouTube, voilà, ele também vai começar a transcrever.

Naturalmente para que essa transcrição ocorra, você precisa ter uma internet estável. A primeira coisa, sem internet estável o Google acaba fracassando na captação de voz, na captação do som.

Os erros diminuem quando áudios apresentam características ótimas para transcrição de áudio

Quais são as características necessárias para que essa transcrição automática de áudio aconteça?

Gravação em qualidade de estúdio, com falantes com dicção quase perfeita e sem sobreposição de vozes, sem eco… ((acha graça)) sem barulho de criança gritando, sem ter gente interrompendo, o entrevista fala, aí 1 segundo depois o entrevistador fala e aí depois da pergunta 1 segundo de silêncio depois o entrevistado fala novamente. Isso acontece nas suas entrevistas?

Os índices de acertos considerados ótimos na transcrição de áudio automática giram entre 80-90%

Não. Não, mas tudo bem. Vamos em frente. Aí o que é que acontece? Aí começa a transcrever e tá-tá-tá. Sabe o que é considerado um bom índice de acertos em transcrição automática? 80%. E um índice excelente? 90% de acertos.

O número de erros a 10% é de 1.200 por hora de áudio gravado

E a gente sabe aqui em casa que 1 hora de áudio fácil, fácil chega a 12 mil palavras. Então, 10% de erro em 1 hora de transcrição de áudio produzem 1.200 erros.

Aproximadamente, você na média, você gasta 10 segundos para consertar um erro da transcrição automática porque a transcrição automática, além de não compreender algumas palavras direito, ele não coloca letra em maiúscula e às vezes ele coloca em coisa que não deve.

O Google Docs passou a pontuar a partir de dezembro de 2018

Ele não pontua e ele também não separa a fala dos falantes. Então você tem que ir lá e comocar P, R, parágrafo, você tem que colocar “, ” e depois do “. “, ainda você tem que colocar, os “? “.

((A informação está desatualizada. A partir de dezembro de 2018 o Google Docs começou a aceitar pontuação em português))

O tempo de produção de transcrição de áudio automática

Então, tudo isso acaba consumindo tempo. Então vamos dizer, numa transcrição de áudio ótima, 90%, 1.200 erros, você vai gastar 12 mil segundos. Quanto dá 12 mil segundos? Dividindo por 60, vai dar 200 minutos. 200 minutos são 3:20.

E aí quando você vai tocar a transcrição de áudio também, você vai notar o seguinte, quando você for tocar o seu áudio lá para o Google transcrever, você vai notar o seguinte, que o Google também não acerta quando você coloca 100% e ele acerta melhor quando você coloca velocidade do seu áudio a 70% ou 50%.

Então para você transcrever 1:00 de áudio automaticamente no Google Docs, você vai levar o quê? 2:00 ou 1:30. Então, 2:00 ou 1:30, vamos supor que com 70% de velocidade você conseguiu um reconhecimento bom de 90%, certo?

O tempo de transcrição de áudio automática equivale à transcrição de áudio por digitação porém com acertos menores

Então 1:30 mais 3:20 para fazer a revisão, já deu quanto? 4:50.

E aí, quando você faz a revisão, você precisa fazer a 2ª e a 3ª revisão.

Não tem jeito, para você entregar para o seu cliente, se você entregar tendo revisado só uma vez, o cliente vai ficar bravo. Certeza, tá? Por quê?

A gente como revisor sabe, a gente mede a quantidade de erros. Então a gente sabe que só a partir da 2ª revisão é que passa a ter um nível de acertos aceitáveis de 99%.

Nas revisões se leva muito mais tempo para corrigir uma transcrição de áudio automática do que transcrição de áudio por digitação

Então você vai gastar quase 5:00 para fazer a transcrição automática. ((acha graça)) e depois você vai gastar mais 2:00 para você fazer a revisão e depois mais 1:00 para você fazer a outra revisão.

Adiantou alguma coisa? Você gastou ((acha graça)) as mesmas oito horas que a gente faz digitando.

A qualidade de uma transcrição de áudio humana ainda é bastante superior à transcrição de áudio automática

E o legal é que quando a gente digita a gente vai fazendo com calma, o texto sai já com “, “, já falante identificado, com as letras maiúsculas, e um bom transcritor – um bom transcritor – ele já acerta de cara 92-94%. E aí ele revisa uma vez pelo menos, já vai chegar a 97-98%. Aí quando você vai revisar, é fácil de revisar.

Então nesse ponto a transcrição de áudio humana ainda é superior.

Então para que é que serve com 80% de acertos uma transcrição automática? Serve para muita coisa. Vamos dizer que chegou a 90% que é considerado excelente para transcrição automática, OK?

Para que serve a transcrição de áudio automática com 80-90% de acertos?

Ele serve para a gente monitorar propaganda de rádio e televisão, ele serve para a gente monitorar por exemplo o nome de um candidatável aí para presidente da república.

Ou então eu quero monitorar o meu adversário político, o que estão falando dele nas principais rádios do Brasil inteiro de cabo a rabo. Seja CNB que tenha notícias locais de São Paulo, Belo Horizonte, Curitiba, Fortaleza, Brasília, seja outras rádios ou mesmo os programas de TV, está certo? E o pessoal também vai fazer a procura no Facebook, redes sociais e etc..

Mas a transcrição de áudio automática serve basicamente para isso, para você fazer auditoria de publicidade nas rádios e televisões porque você não tem provas de que aquilo foi veiculado. E se aquilo lá está gravado, já pensou você ficar ouvindo programa de rádio 24 horas por dia para ver se uma determinada propaganda foi veiculada?

E esse acompanhamento é feito através de palavras chaves. Vamos falar de uma marca? Por exemplo Coca-Cola. Coca-Cola, eu posso falar à vontade, não vai aumentar as vendas nem diminuir e nem nada.

A transcrição de áudio automática para auditora de anúncios é rápida mas depende de validação humana

Então, você programa a palavra Coca-Cola, aí o computador vai lá, vai pegar a transcrição automática e vai contar quantas vezes a palavra Coca-Cola apareceu durante aquele período da campanha.

Então, ele analisou o dia todo todos os dias até o término daquela campanha.

((essa análise acontece em poucos minutos))

E aí valor falar “Olha, a palavra Coca-Cola apareceu tantas vezes na rádio tal; tantas vezes na rádio tal; tantas vezes na televisão, canal tal; tantas vezes às tantas horas”. E aí está feita a auditoria. Quer coisa melhor do que isso? É muito barato.

Por isso que as empresas de transcrição de áudio automática estão indo para frente e eles estão aperfeiçoando e eu já recebi duas ligações dessas empresas, dizendo que chegam a 92% de reconhecimento.

Mas quando a gente manda uma entrevista com uma qualidade até boa mas com algum eco, aí a máquina já não consegue reconhecer.

Fizemos vários testes de transcrição de áudio automática e o resultado foi esse: transcrição de áudio humana é superior à automática em acertos

Então você pode fazer todos esses testes aí. Vai lá em Google Docs, vai lá em Ferramenta, vai lá em Digitação por Voz. E aí ativa o microfone. Se você precisar regular o mixer você regula, está cheio de vídeo por aí e está cheio de especialista dizendo como é que faz isso.

Aqui da minha parte, a minha palavra de especialista é o seguinte, é o que está escrito aqui do lado, está certo? Você corrigir um trabalho feito por transcrição de áudio automática leva mais tempo do que se você fosse digitar e fazer o seu trabalho. ((acha graça

) OK? Então é isso aí, gente. Até a próxima.