Comparativo de ferramentas IBM Watson de transcrição automática e Google Docs Transcrição por ditado
Comparativo de ferramentas IBM Watson de transcrição automática e Google Docs Transcrição por ditado
Ouro dia publiquei um vídeo sobre como funcionava o IBM Watson transcrição de áudio automática e o Google Docs transcrição por ditado. Peguei um trecho do vídeo do Antagonista intitulado “Um Dia do Caça Outro do Caçador”. Peguei um segmento de 12 minutos e 24 segundos do vídeo que fala sobre as agruras de Sérgio Moro que passou a enfrentar forças petistas e bolsonaristas, além de bandidos foragidos internacionais.
Assista ao vídeo que foi fonte em O Antagonista. Confira a dicção e a velocidade da fala do Daniel Dantas.
Metodologia do comparativo IBM Watson e Google Docs
Os passos para produzir o comparativo foram:
Passo 1: Transcrição automática com a ferramenta transcrição por ditado do Google Docs.
Passo 2: Correção manual das palavras transcritas automaticamente pelo Google Docs.
Passo 3: Transcrição automática com a ferramenta IBM Watson.
Passo 4: Comparação das versões transcritas automaticamente de ambas as ferramentas com a versão corrigida por mim no passo 2.
Passo 5: Análise dos dados da tabela comparativa.
Agora vamos descrever cada passo detalhadamente para que você possa reproduzir o experimento.
Passo 1: Transcrição automática com a ferramenta transcrição por ditado do Google Docs.
Para proceder a esse passo, você deve ter instalado o Google Docs que é ferramenta gratuita que contém planilha de cálculo. Ferramenta de apresentação tipo power point. E editor de textos. Você usará o editor de texto Google Docs, ativar a ferramenta Transcrição por Ditado.
Execute o áudio e pressionei simultaneamente as teclas SHIFT+CTRL+S. Caso o microfone não seja ativado, será necessário autorizar o seu Chrome a usar o seu microfone. Certifique-se de que a opção Português do Brasil foi ativada, se você estiver usando pela primeira vez o padrão é o inglês estadounidense.
Passo 2: Correção manual das palavras transcritas automaticamente pelo Google Docs.
Copie o texto da transcrição em um documento Word e salvei como 205301 Puro Google Docs, para indicar que se tratava de uma transcrição de áudio feita por ditado, texto original.
Salvei agora novamente como 205301 Puro Google Docs Revisado. Ativei o recurso Revisão do Word, ouvi o áudio novamente em baixa velocidade de 70% usando o Express Scribe, foram feitas as correções.
Não coloquei pontuação e nem tirei os né, tá ou gaguejos que estavam presentes, pois queria medir o nível de reconhecimento de palavras e o correto uso ou não de capitulação.
O resultado foi um texto de 1729 palavras com 325 correções (ver tabela, linhas (2) e (3), coluna (A).
Depois comparei com a versão que realizei a pontuação e encontrei 158 sinais de pontuação entre ponto final, vírgula,–, ponto de interrogação e dois pontos.
Você pode encontrar a versão com pontuação no artigo a seguir:
→ Veja a versão corrigida com a pontuação
Passo 3: Transcrição automática com a ferramenta IBM Watson.
Acessei a versão teste do IBM Watson transcrição automática e então toquei o áudio para que o Watson pudesse realizar a transcrição automática.
→ Acesso gratuito ao IBM Watson transcrição automática
Passo 4: Comparação das versões transcritas automaticamente de ambas as ferramentas com a versão corrigida por mim no passo 2.
Comparei o documento gerado no passo 3 com a versão corrigida do documento produzido pelo Google Docs transcrição por ditado.
→ Veja a comparação entre as versões produzidas pelo IBM Watson e Google Docs revisado
→ Vídeo: como comparar dois documentos Word
Foram transcritas pelo IBM Watson 1.910 palavras na linha (2) coluna (B) e encontramos 596 erros na linha (3).
Passo 4: Comparação das versões transcritas automaticamente de ambas as ferramentas com a versão corrigida por mim no passo 2.
Na tabela abaixo segue o resumo do comparativo entre as transcrições automáticas do Google Docs –, cujos dados estão na coluna (A) e do IBM Watson, dados na coluna (B). A coluna (C) mostra a contagem de pontuações que foram necessárias, sem levar em conta ajustes de letras maiúsculas após aplicada a pontuação.
Tabela comparativa Google Docs e IBM Watson
Descrição | Google (A) | IBM Watson (B) | Pontuação (C) |
(1) Tempo | 12:24 | 12:24 | – |
(2) Palavras | 1729 | 1910 | – |
(3) Correção de Palavras | 325 | 593 | – |
(4) Pontuações | 185 | 185 | 185 |
(5) Erros Total | 510 | 778 | – |
(6) % | 29,5 | 40,7 | – |
(7) Equivalente hora | 2950 | 4070 | – |
(8) Minutos e (horas) estimadas | 295 (4,9) | 407 (6,7) | – |
Passo 5: Análise dos dados da tabela comparativa.
Na linha (2) o número de palavras transcritas do Google Docs foi menor que o do IBM Watson. Isso se deve ao fato de o Google Docs estar conseguindo reconhecer e eliminar a maioria das hesitações e gaguejos, ponto para o Google Docs.
A linha (5) Erros total soma o número de erros da linha (3) com contagem de pontuações realizadas na linha (4) que são todas originadas da coluna (C).
A linha (6) mostra que o total de erros encontrados no Google Docs fde 510 enquanto no IBM Watson tivemos 778 erros corrigidos. Em porcentagem – apresentado na linha (6) o Google Docs apresentou 29,5% de erros enquanto o IBM Watson apresentou 40,7%. É um número expressivamente maior de correções.
A porcentagem de correções realizadas de 29,5 % no Google Docs e 40,7 % no IBM Watson permite inferir que em uma hora de transcrição de áudio, que tem em geral entre 9 mil e 12 mil palavras (assumimos 10 mil palavras por hora) o total de erros seriam os apresentados na linha (7) que apresenta o número de erros estimado para 1 hora de áudio transcrito.
A linha (8) apresenta o cálculo que se levaria para apenas corrigir erros encontrados em cada uma das transcrições. A premissa que adotamos é que se levará 6 segundos para corrigir 1 erro, portanto um transcritor pode corrigir 10 erros por minuto de revisão. Essa estimativa não levou em consideração o número de minutos de escuta do arquivo de áudio necessário à transcrição e revisão.
Assim, para cada hora de áudio transcrito pelo Google Docs gastaremos 4,9 horas ou 4 horas e 54 minutos, enquanto para o IBM Watson serão necessárias 6,7 horas de revisão, ou 6 horas e 42 minutos.
Conclusões deste comparativo entre Google Docs e IBM Watson transcrição automática
Para produzir a transcrição e revisar apenas uma única vez 60 minutos de áudio transcrito manualmente gastamos 4 horas + 3 horas em média. A acuidade deve chegar a 98%.
Para realizar a transcrição de áudio automática do Google Docs gastaremos 1 hora para transcreve e 4,7 horas para corrigir os erros e mais 1 hora para ouvir o áudio durante a revisão. Total de 6,7 horas ou 6 horas e 42 minutos. A precisão estimada com uma revisão simples não deve chegar a 98%.
Fazendo as mesmas contas para o IBM Watson, teremos um gasto de 8,7 horas, levando em conta a hora de transcrição de áudio automática e a hora da escuta adicional para revisão. A acuidade do material revisado do IBM Watson tem grande chance de ser menor que a transcrição por Google Docs.
Não sabemos de nenhum software de transcrição de áudio automática que faça a pontuação de forma satisfatória. A inteligência artificial não está ainda preparada para realizar a pontuação, e quando o faz aumenta o tempo necessário à revisão, o que acaba dificultando o trabalho do revisor.
O IBM Watson não põe letras maiúsculas (processo de capitulação de letras) enquanto o Google Docs consegue reconhecer alguns nomes próprios. É digno de nota que o Google Docs consegue reduzir a ocorrência de gaguejos e hesitações enquanto o IBM Watson tenta transcrever tudo. Isso faz do Google Docs uma ferramenta superior ao IBM Watson.
Ativando-se a transcrição por ditado e ditando para a máquina escrever, desta vez sem transcrever, o Google Docs reconhece alguns comandos como “nova linha” e pontuação como “ponto final”, “vírgula”, “doispontos”, “ponto de exclamação”, “ponto de interrogação” e “reticências”, entre outros.
Vencedor do comparativo
Entre Google Docs e IBM Watson, preferimos usar o Google Docs transcrição automática pelas razões apresentadas.