Google Pixel 4 transcreve automaticamente

Google pixel 4 transcreve áudio

Google anuncia que seu smartphone Google Pixel 4 transcreve áudio de gravações de voz como notas pessoais, entrevistas e reuniões automaticamente.

No evento anual Made by Google 2019 ocorrido em 15 de outubro de 2019 em Nova York, nos Estados Unidos, este ano a Google apresentou o seu smarphone Google Pixel 4.

Como transcritores, o destaque da www.TRANSCRICOES.com.br fica para um pequeno trecho de menos de 2 minutos da apresentação de Sabrina Ellis, da Google São Paulo, que mencionou o gravador de voz Google Recorder com transcrição de áudio automática.

Quando usamos gravadores para registrar nossas ideias e pensamentos, ou ainda reuniões, entrevistas e seminários, os clipes de áudio ficam meio que perdidos em nossas bibliotecas com nomes como Audio001.mp3 ou zoom0.m4a e outros nomes. Depois temos dificuldade de nos lembrar em qual gravação está determinada informação.

O Google Pixel 4 apresentou uma solução, seu recorder pode transcrever as gravações e recuperá-las pelas palavras transcritas.

Os textos gerados na transcrição ficam linchados à gravação, e quando você pesquisar por alguma palavra importante, o Google Pixel 4 encontrará a gravação (ou gravações) e os textos vinculados a elas aparecerão em blocos, apresentando o contexto em que as palavras foram proferidas.

A ferramenta parece ser promissora para quem trabalha bastante com gravações, como estudantes que gravam aulas ou palestras, ou ainda executivos que gravam reuniões.

A inteligência artificial embarcada permitirá que se realizem gravações apenas por comandos de voz, algo como “Hey, Google, faça isto, faça aquilo” ou ainda “localize a palavra tal nas gravações”.

Google Pixel 4 transcreve instantaneamente

Sabrina mostrou parte da transcrição de sua apresentação na tela. Enquanto ela falava, palavras apareciam no telão.

Imediatamente nesse ponto pausei a apresentação pois fiquei interessado se o aplicativo Recorder Pixel 4 faria as pontuações e qual o nível de acertos dela. Printei a tela inteira e passei a analisar a figura.

Para a minha grata surpresa, havia sim vírgulas e pontos finais no texto transcrito.

Como qualquer demonstração ao vivo de transcrição automática, entretanto, pouquíssimas frases são exibidas para não evidenciar erros.

Sempre fico desconfiado que é para que a plateia não perceba erros de transcrição. E justamente meu objetivo ao assistir a qualquer apresentação sobre transcrição é verificar quanto de acuidade atinge qualquer transcritor, seja máquina ou não.

Bem, seguem minhas considerações.

Nossa avaliação preliminar do Pixel 4 Recorder

Notei que algumas vírgulas e pontos finais apareceram adequadamente, outras não, provavelmente porque o motor de reconhecimento de fala já tem em sua base de dados a informação de que entonações ascendentes ou descendentes podem significar vírgulas ou pontos finais. Até aí, nada demais.

Nada demais, por que? Porque em apresentações os profissionais que estão ali na frente são excelentes oradores e comunicadores com dicção perfeita e seus discursos estão previamente estruturados sem hesitações, pausas sonoras ou interrupções.

transcrição de áudio: Google Pixel 4 transcreve gravações mas apresenta erros.

Notei alguns erros descrita em palavras como “As such”. Uma delas aparecia com o A escrito em maiúsculo sem que houvesse ponto final antes dela. Possivelmente a programação linguística aponta que “As such” pode aparecer no início de frases, que é o que acontece frequentemente com a palavra “Então” nas transcrições automáticas em português. É uma tentativa válida, mas não acerta sempre.

A transcrição durou alguns segundos, e quem esteve naquele evento provavelmente não poderia apreciar calmamente a transcrição para notar esses erros se não tivesse esse foco específico de transcritor interessado especialissimamente nesse recurso.

Somente ao congelar a imagem e verificar palavra por palavra é que pude detectar esses erros cometidos pelo transcritor robô.

Foi interessante perceber que o Google Pixel 4 transcreve os áudios com a lógica semelhante ao do Google Docs, procurando apresentar uma consistência gramatical maior do que simples transcrição de palavras reconhecidas. Penso que os linguistas Google estão avançando rapidamente nos estudos do processamento da linguagem natural, embora ela estivesse fazendo a apresentação de forma totalmente estruturada.

O ambiente turbulento multifalantes de entrevistas e reuniões apresentam obstáculos à transcrição por máquina

Sabrina gravou sua apresentação em linguagem estruturada e ambiente ideal de gravação.

Fico pensando se essa performance do smartphone iria se repetir durante uma entrevista, por exemplo, onde ocorre a linguagem natural mais não estruturada.

No caso de interações humanas, provavelmente a máquina não reconheceria vozes diferentes e dificilmente conseguiria enfrentar situações como sobreposição de falas durante entrevistas e reuniões, agora com muitas pessoas.

Penso eu que a tarefa de separar vozes sem recorrer a diferentes canais de áudio exigirá das máquinas muito processamento e inteligência artificial embarcada.

Segurança e privacidade, proteção dos dados

Outro ponto é que quando o Google Pixel 4 faz sua transcrição, ele usa seu próprio processador e sua memória sem necessitar de conexão comà internet. Todo o trabalho é feito em processador com 6 GB de memória do dispositivo.

Isso é muito importante para a questão de sigilo dos dados, visto que recentemente as grandes companhias como Google, Microsoft, Amazon e Facebook declararam que mandavam para humanos transcreverem parte de suas interações com seus assistentes pessoais, o que causou desconforto ao público.

Não ficou claro se o português do Brasil está suportado no Google Pixel 4, em inglês dos Estados Unidos.

Você pode ver o evento na íntegra com tradução simultânea, nada substituirá o bom trabalho da Tecmundo, canal da internet que acompanhou e traduziu ao vivo o Made by Google 2019.

O trecho da apresentação da transcrição ocorre a partir do minuto 49 no vídeo. Você pode conferir o link https://youtu.be/79-AR-JiWfE?t=2990, confira a partir do minuto 49.

Conclusão

Vislumbro um cenário bastante positivo para quem necessita de uma transcrição rápida, mas ela provavelmente conterá erros, pelo pequeno trecho que analisamos na figura disponível.

A transcrição automática, no entanto, como não depende de internet, estará sempre à mão do usuário, o que poderá ajudar pessoas com deficiência auditiva a participarem das conversas, caso elas sejam letradas não somente em libras, mas no português comum.

Porém, em relação aos erros de transcrição de áudio, o usuário deverá estar preparado para passar horas revisando se a intenção for transcrever uma hora de entrevista, que frequentemente produzem 20 mil palavras.

Fica o aviso deste velho transcritor de que a depender do número de revisões a serem efetuadas, é melhor e mais fácil transcrever do que revisar. A revisão é desgastante e, particularmente, revisar trabalhos feitos por robôs é, desculpe a franqueza, desanimador.

Não chamo a isso de revisão, mas de retranscrição de áudio. Até a próxima, amigos!