Transcrição de áudio
99,6%+ de acurácia

Transcrição de áudio e degravação de audiências para ata notarial, ata literal de reuniões críticas, audiências e gravações de WhatsApp. Mais de 10 anos de experiência na área. Temos também transcrição automática por robô (opção mais barata).

WhatsApp (11) 93095-9547
contato@transcricoes.com.br

Transcrição automática de áudio com Google Docs e Word

Publicado por Transcricoes em

transcrição de áudio

Google Docs faz transcrição automática? E o Word?

A transcrição automática é o sonho de muita gente e fazia parte de filmes de ficção científica nos anos 1970.

Hoje ela se tornou uma realidade, o computador pode entender as palavras que são faladas e digitar automaticamente.

Entretanto, não adianta apenas digitar as palavras corretamente, a conversão de áudio em texto precisaria pontuar corretamente e separar os falantes.

Já se avançou muito na área de reconhecimento de palavras. O que está sendo desenvolvido agora em 2022 é a pontuação automática.

Finalmente, está se iniciando o reconhecimento de voz para identificar diferentes falantes, e aí sim, teremos a transcrição automática de áudio funcionando em sua plenitude.

Na primeira parte deste artigo trataremos de mostrar como é feita o que muitos chamam de transcrição automática no Google Docs, que é a ferramenta Digitação por Voz adaptada a captar sons de sistema (mixagem estéreo) e tratá-los como se fossem palavras ditas ao microfone.

Para tanto, você vai saber como configurar o Windows 10 para que o Google Docs comece a fazer a digitação automática de vídeos que são tocados em seu computador (PC ou notebook).

Na segunda parte deste artigo trataremos de mostrar como o Word on-line faz transcrição automática de áudio.

Como configurar o Windows 10

O Windows 10 vem como configuração padrão a captação de som de seu microfone para poder gravar a sua voz e transmiti-la pela internet (em comunicação por Skype, Google Meets ou Zoom, entre outros.

Muitas vezes você pode não conseguir compartilhar suas músicas ao vivo nessas comunicações, pois o sistema está regulado para captar os sons do seu microfone, ele dará prioridade à captação de sua fala.

Essa configuração é feita pelo Painel de Controle do Windows.

Assim, antes de mais nada, vamos direto ao assunto, siga os passos abaixo para configurar seu Painel de Controle.

Siga os passos dos slides abaixo para configurar o Painel de controle do Windows 10.

Resumidamente os passos serão:

Passo 1: Acesse o Painel de Controle do Windows

Passo 2: Acesse Hardware e Sons

Passo 3: Acesse Som

Passo 4: Na aba Gravação defina ative Mixagem estéreo e defina como dispositivo padrão de som e dispositivo padrão de comunicação clicando o botão direito do mouse e escolhendo essas alternativas.

Passo 5: Clique o botão OK e seu computador agora ignorará os sons de seu microfone e tomará como origem a sua placa de Mixagem estéreo.

Passo 6: Abra o seu Google Chrome e acesse um documento do Google Docs

Passo 7: Localize em Ferramentas a opção Digitação por voz.

Observação: Existe um atalho formado pelas teclas CTRL+SHIFT+S para ativar e desativar o microfone.

Passo 8: Configure o microfone para a língua portuguesa do Brasil selecionando a opção de língua “Português (Brasil)” clicando na parte superior da figura do microfone.

Observação: Ao ser a primeira vez que acessar o microfone, o Google Docs solicitará acesso ao seu microfone, você deve permitir o acesso para que o Google Docs possa fazer a operação.

Passo 9: Sem fechar a janela do Google Docs, abra uma nova janela e acesse o vídeo desejado no YouTube. Toque o vídeo (play) e alterne para a janela do Google Docs e clique sobre o microfone ou tecle atalho de digitação por voz (CTRL+SHIFT+S).

Observe que a transcrição iniciará produzindo um texto contínuo e sem pontuação.

Será necessário ficar com a janela aberta durante todo o processo de digitação automática, prestando atenção pois se houver instabilidade no sinal de sua internet muitas vezes o microfone parará de funcionar e a digitação automática irá parar.

Os slides abaixo mostram esses passos detalhadamente.

A apresentação de slides mostra como configurar o Windows 10 para que seu Google Docs possa digitar automaticamente um vídeo do YouTube, tendo por fonte de áudio a Mixagem Estéreo do Painel de Controle em configurações de gravação, onde o áudio do sistema funcionará simulando um microfone.

Transcrição automática no Word 365 (versão paga)

Quando se fala em converter áudio para texto, logo a gente pensa que basta selecionar um arquivo de áudio ou vídeo, arrastá-lo para um app, dar o comando transcrever e em minutos sua transcrição está pronta. 60 minutos de áudio são transcritos em poucos minutos e você recebe o seu texto em .txt ou .docx.

converter áudio para texto com Word ou Google Docs

Esse sonho está bem perto de se tornar real, o Word 365 na versão online faz isso em português brasileiro também, além de outros idiomas.

O recurso Transcrever faz exatamente isso, serve para converter áudio para texto, subindo um arquivo de som. 

Mas atenção! Esse recurso só é do Word 365 que é acessado online, aqueles DVDs ou Word instalado em seu escritório ou sua casa, que é instalado por CD e não é acessado online, não faz transcrição automática.

Word 365 online converte audio em texto com o comando Transcrever

Se você tem o Office 365 da Microsoft,siga os seguintes passos para transcrever seu áudio:

1. Entre no Word 365

2. Vá para o Menu INÍCIO

3. Clique no botão que tem a figura de um microfone

4. Escolha a função TRANSCREVER logo abaixo de DITADO

Word 365 como carregar arquivo para transcrever

Na figura acima temos o surgimento de uma barra lateral contendo alguns botões. Escolha o botão segundo sua necessidade.

1. Botão Carregar Áudio → irá abrir uma janela no Windows Explorer. Escolha o arquivo de som a ser transcrito. Testamos mp3, wma e m4a.

É exatamente aqui que você vai converter áudio para texto

2. Botão Iniciar Gravação se deseja fazer alguma conferência por Skype ou outro dispositivo e quiser gravar o áudio para o Word transcrever.

Selecione no Word 365 o tipo de transcrição desejada

00:00:00

Palestrante 1

Texto transcrito deve conter erros, o usuário poderá corrigir no próprio documento.

00:00:13

Palestrante 2

Nova frase ouvida. Pode haver erro de parágrafo, palavra ou identificação de falantes.

No exemplo ao lado podemos notar que o Word 365 faz o trabalho de conterver um áudio para texto identificando o tempo (marcação de tempo formato hh:mm:ss) e logo identifica os falantes.

Ao fazer a transcrição e converter o áudio para texto, o Word vai separar palestrantes e colocar o tempo. Você pode combinar diferentes maneiras de apresentar seu trabalho.

Ao pressionar o botão Adicionar texto ao documento, o texto transcrito que aparece na barra lateral direita será incorporado ao corpo do documento (parte central branca). Você deverá escolher entre as opções de texto resultantes:

A opção Só texto

 Ao escolher esta opção, somente o texto transcrito surgirá na área de trabalho (corpo central do texto).

A opção Com alto-falantes

A expressão alto-falante na verdade é uma tradução errada. A palavra em inglês speaker pode indicar em português tanto o objeto alto-falante quanto a pessoa que fala, ou falante simplesmente

Opções a escolher: 

Com carimbo de data/hora

Com alto-falantes e carimbo data/hora

Pode-se escolher essas duas formas de apresentação

Converter áudio para texto com Word 365 - avaliação

transcrição automática de áudio

Farei algumas considerações sobre o recurso de transcrição de áudio automáticamente oferecido pela Microsoft.

Para áudios jornalísticos funciona com admirável precisão e as marcações de tempo facilitam bastante o trabalho de pré-produção da transcrição de áudio.

Ele erra entretanto em reconhecimento de palavras e na pontuação. O resultado não é perfeito. Pode ocorrer muito erro também na identificação dos palestrantes (os falantes ou alto-falantes).

O áudio deve estar claro e limpo, testei com gravações de Zoom e Google Meets e funcionou bem. 

Se você estiver em uma chamada no notebook e pegar o seu smartphone para gravar a conversa, a qualidade do som que sai da sua caixinha d notebook fica distorcido e falho, aí o que for gravado dessa forma nenhum robô reconhece muito bem, o robô de transcrição precisa de uma gravação de qualidade boa. Ele não faz o que o transcritor humano faz, de interpretar pelo contexto e arriscar uma palavra.

A gravação de uma videoconferência por Zoom ou Google Meets, se você não tem a versão paga, o próprio Word 365 pode gravar, ou qualquer outro software que pegue o som diretamente da placa de som. Esses apps você encontra aos montes para gravar conversas realizadas por computador. Vale o eforço de procurar um bom app.

Você pode ditar seu texto declarando a pontuação!

O que a transcrição automática do Word faz é diminuir a digitação, mas como erra bastante na pontuação e de vez em quando palavras saem erradas, ainda estou preferindo usar o recurso DITAR. 

Você pode experimentar acionar novamente na página Início o botão do microfone e agora experimentar o Ditar.

Você pode ditar  comandos como novo parágrafo, nova linha e falar pontuação. A isso chamamos de Digitação por voz ou Transcrever por ditado. Ou seja, ouvimos e repetimos o que os interlocutores falam e vamos declarando a pontuação.

Vale a pena se você estiver com os dedos cansados de tanto digitar. 

Transcrição automática por ditado no Word 365

Você pode usar o Word 365 para fazer ditado, ele vai escrever o que você disse. Mas o Word não vai transcrever automaticamente tocando-se o áudio de forma satisfatória. Esse é o alerta que gostaria de dar aqui para o leitor.

Portanto, o leitor que não se anime muito pensando que pode converter áudio para texto de várias horas por dia. Existe um limite de tempo de áudio total que você pode subir. Esse limite, se alcançado, acaba por fazer desaparecer o recurso no botão do microfone, permanecendo apenas o Ditar. Mas na virada de mês, o Transcrever estará de volta. 

Enquanto escrevo este artigo, fico pensando no motivo que isso acontece. Provavelmente a Microsoft está aprendendo como fazer melhor a transcrição e quais os tipos de áudio e sotaques aparecem nas gravações a serem transcritas.

A questão da confidencialidade na transcrição

Portanto, penso eu, quando estamos corrigindo online nossas transcrições antes de gerar o texto, o robô estará aprendendo com nossas correções. Não vejo mal nisso, desde que as informações fiquem apenas no âmbito do uso da gravação para essa finalikdade. Mas tudo pode acontecer, então não sei como um legislador encararia isso.

Do meu ponto de vista, o uso de boa fé traz ganho para mim e para a Microsoft.

Cada vez que corrigimos o texto transcrito, acho que a inteligência artificial da Microsoft entra em ação para executar o aprendizado da máquina (machine learning).

E eles não estão querendo receber tantos áudios assim, pelo menos por enquanto.

Nota geral que eu dou? Nota 9,0 (nove) Penso que a Microsof deveria contatar o pessoal que usa o Word como transcrito profissional para fazer testes mais massificados e intensos. Isso seria 10

 9DEZ)!

Tem um artigo mais filosófico onde afirmo que Word não faz transcrição de áudio. 

→ Word faz transcrição de áudio automaticamente

Veja como o Google Docs pode transcrever por voz

Transcrição por ditado

A transcrição automática do Word 365 também pode ser feita tocando-se o áudio e deixando o microfone captar a conversa, segundo muitos sites de supostos especialistas que pipocam e brotam no YouTube como capim, como mato, como ervas daninhas que estragam o ambiente em geral. 

Eles não sabem do que estão falando e vou mostrar por que, leia o que o Word 365 transcreveu abaixo e veja se faz sentido, depois assista ao víde, que justifica o porquê aconselhamos você a usar os serviços de uma empresa de transcrição com transcritores profissionais. 

Trecho de transcrição automática do vídeo 

[00:34:16] a [00:37:20]é a marcação de tempo do Express Scribe, o trecho transcrito foi 3 minutos e 5 segundos e rendeu 371 palavras (aproximadamente 123 palavras por minuto). 

123 palavras por minuto é considerado fácil de transcrever, pois a velocidade de fala é baixa. 

Confira a transcrição feita pelo W365, ativando-se o microfone no menu Página Inicial/Ditar.

Confira a transcrição feita pelo W365, ativando-se o microfone no menu Página Inicial/Ditar. 

Que na verdade poucos países né para não dizer apenas a China é talvez um pouco também a Coreia do Sul alguns países asiáticos né principalmente mas assim a China e a Coreia do Sul né nós temos assim realmente países química superaram a condição de terceiro mundistas subdesenvolvido né hoje a gente chama a gente prefere usar o termo países dependentes nós temos é o Brasil como um país dependente fazer este processo que a China fez de de de de se tornar um eles chamam de player global um país central bom eu gostaria só a primeiro primeiro momento colocados eu não sou um um admirador nome do novo admirador admirador é outra coisa mas eu não entendo que a China realmente seja um país socialista a eles mesmos se colocam como 2 um país um país 2 sistemas não é mas acreditam que não há não não não estou defendendo a China no pela sua pelo seu potencial socialista não estou dizendo pelo pelo seu potencial capitalista digamos assim as da China foi e talvez o único exemplo recente que nós temos um país que deixou e cada vez mais dente para ser um país central é para para para realmente se tornar um país de primeiro mundo digamos assim é é muito difícil Carlos a gente conseguir qualquer país Brasil Indonésia México gente isso é geral tá não é o drama brasileiro só mas é muito difícil ele tem muitos teóricos que estudam a teoria da dependência é um tema muito debatido aqui estou fazendo só um comentário não sou especialista né mas esse tema da teoria da dependência temos colegas fantásticos né Na Na Unicamp nas universidades federais diversos artigos e livros que eu posso depois enviar para vocês mas este processo mas não dependente ou seja não é não deixar que nossos recursos sejam treinados para fora produzir tecnologia EE produtos de de ponta digamos de qualidade né é para conseguirmos dar este passo como nação fato que eu relembro muito raro Na Na história da digamos assim do capitalismo há para não ir tão longe é é você tem como grande problema você tem uma elite ou vamos dizer assim uma empresariado que aprendeu a ganhar dinheiro exatamente com esta condição de país dependente. 

35% de erros em transcrição automática

O texto produzido pelo word tem cerca de 370 palavras. Se fossemos colocar as pontuações e corrigir as oralidades como né, tá, gagueiras, repetições e hesitações que aparecem como “é”, provávelmente chegaríamos a 35% de correções! 

E arrumar um texto com 35% de erros de transcrição demora tanto quanto digitar tudo do zero, é isso que os especialistas do YouTube em transcrição de áudio não contam. 

Valorize a transcrição humana, visto que ela é mais confiável e consegue captar e adapta para o texto algumas emoções como zanga, choro, risos, ironias, etc. 

O transcritor humano reconhecerá palavras estrangeiras e separará vozes melhor do que o robô, principalmente em gravações com sobreposição de vozes e presença de termos estrangeiros em diferentes línguas como inglês e francês misturados no texto. 

Só depende de o cliente combinar com o transcritor, demora um pouco mais do que o robô transcrevendo, mas tenho certeza de que você vai preferir a transcrição humana à transcrição automática. 

Além disso, na transcrição automática, como o vídeo vai mostrar, ela é efetuada sem formatação apropriada para ata notarial. 

A ata notarial em transcrição judicial custa caro se for contratada a transcrição no cartório. 


Transcricoes

Web aprendiz. Iniciou-se em 2012 na internet em busca de conhecimento. Desde então se encantou com transcrição de áudio.