Ver para escutar, cuidado com o que você fala
Ver para escutar. Quando um transcritor transcreve um áudio, ele está cego para aquele evento que ocorreu, está gravado e precisa sofrer desgravação (ou degravação). A visão é um elemento poderosíssimo na transcrição de áudio e é através da visão que reconhecemos as letras e lemos quase cinco vezes mais rápido do que falamos. Tanto que o máximo que consigo escutar bem uma conversa para conferência de um áudio que foi transcrito é 166 por cento. É a velocidade que uso para revisar uma transcrição com um áudio fácil de entender.
Backup de dados e a Segurança Nacional
Não pude deixar de ficar encantado com o caderno Especial de Tecnologia de um jornal que sou fã: O Estado de S. Paulo, o fabuloso Estadão.
E ele trazia artigos interessantíssimos sobre como a Estônia fazia estoicos esforços para fazer um backup do país, ou seja, das informações de todos os habitantes do país, um gigantesco banco de dados superintenligente com a finalidade de salvaguardar os dados dos cidadãos, caso o país sofra um ataque digital.
A Terceira Guerra Mundial pode ser digital
Até a guerra mudou de rumo nessa era da tecnologia. Neste exato momento, muitos hackers norte-coreanos e norte-americanos devem estar estudando meios de uns invadirem os sistemas dos outros para, no caso de uma guerra, sabotar o sistema de distribuição de energia elétrica, bagunçar sistemas bancários, desestabilizar os cartões de crédito, etc.
Na página H7 do Estadão de hoje (23/03/2015) existe um artigo interessantíssimo, “Cuidado com o que você fala“, onde traz informações diversas sobre reconhecimento de voz. Ligue-se no seguinte:
Cuidado com o que você fala, IBM…
O artigo se inicia com HAL lendo nos lábios de Frank sua intenção de desligá-lo.
Para quem não se liga com ficção científica, HAL é o computador que controla uma nave que está a caminho de Júpiter no livro ‘2001: uma Odisseia no Espaço‘ ou no filme. Nada de coisas como galáxias distantes, teletransporte, naves gigantescas singrando por buracos de minhoca, topando com civilizações espaciais humanoides.
Nada tão fantástico.
Enfim, na viagem para Júpiter, que durariam anos, HAL era o computador que controlava a nave e o suporte de vida dos astronautas submetidos à animação suspensa, para seus corpos não terem que sofrer as agruras de uma longa viagem espacial.
‘H’–>’I’, ‘A’–>’B’, ‘L’–>’M’… chafurdando o alfabeto, as letras após cada letra da sigla HAL seria IBM, que segundo os seguidores da Teoria da Conspiração, estaria programando seus computadores para, quando a inteligência artificial acontecer, extinguir-se toda a raça humana, que se tornaria obsoleta.
Bom, voltando ao tema, HAL teria adquirido a ‘centelha da vida’, sua consciência, durante a longa viagem. Não me lembro mais o porquê, mesmo porque eu nunca – confesso – consegui assistir esse filme até o final, pois a certa altura invariavelmente minhas pálpebras ficavam pesadas demais. Parecia estarem sob efeito da gravidade jupiteriana, sei lá quantas vezes maior que o da Terra.
Por falar em IBM, ela foi a proprietária do Via Voice que rendeu bom assunto.
Ver para Escutar
O artigo trata de reconhecimento da fala, meu assunto predileto. E neste caso, curiosamente, não tem a ver com audição, mas com a visão. Veja o porquê do nome do artigo “Ver para Escutar”. Isso porque se o computador conseguisse reconhecer todas as falas de um determinado falante, isso já seria um passo a caminho da inteligência artificial.
O artigo fala de diversas tentativas de reconhecimento de fala.
Leitura labial
Fazer o computador ver para escutar, o computador faz a leitura do que os lábios da pessoa estão pronuciando. Seria ótimo não depender do som ambiente ótimo para reconhecer a fala de alguém. Por exemplo, o computador reconheceria o que sua boca estaria falando, mesmo que não houvesse som. O cientista por trás dessa tecnologia é Prof. Dr. Ahmad B. A. Hassanat, da Universidade de Mu’tah.
Amigos, sem sacanagem, imagine um computador craque em sotaque japonês tentar reconhecer o nome do Ahmed?
A grande dificuldade do computador seria quando a pessoa virasse o rosto para outra direção e assim a boca do sujeito estaria fora do alcance da câmera.
Longe dos olhos, longe da audição.
O reconhecimento chega a variar de 33 por cento a 97 por cento, sob condições estritas de controle laboratorial.
O que isso significa? No caso de um transcritor, acertos de 96 por cento em palavras significa quase 480 correções a fazer em uma hora de fala. 33 por cento de acertos, significaria 8 mil correções em uma hora de rala, isto é, fala.
Para você, leitor amado, ter uma ideia: um texto abaixo de 90 por cento de acertos, às vezes é mais rápido transcrever de novo.
Mau negócio para os transcritores que imaginam um programa mágico.
Leitura das vibrações das cordas vogais analisando a garganta – quem inventou isso foi um japonês. Resultados pífios.
Leitura das vibrações de bochecha – também nada a ver.
O que um software de reconhecimento de voz precisa ter? Na modesta opinião deste transcritor, que acabou se apaixonando pelo assunto de transcrição por voz, somente a fonética ou a leitura labial não funcionam.
Imagine ler a fala de Moisés, com aquela barba e bigode por fazer? Duvido que algum computador conseguisse ler a fala de um superbigodudo simplesmente por leitura labital como o carinha do ‘Caçadores de Mitos’ – Mythbusters.
Aquele bigode é do Leôncio, o personagem bigodudo do Pica-Pau.
Então, após horas e horas de atividade de transcritor nesses anos todos, qual o mecanismo que reconheço quando meu cérebro trabalha?
- Primeiro, um repertório de palavras – tanto em português como em línguas estrangeiras e noção de sua pronúncia.
- Segundo, reconhecimento do timbre de voz – a identidade vocal de uma pessoa.
- Terceiro, reconhecimento do jeito de falar – sotaques, uma gripe, fungadas.
- Quarto, entendimento sobre o assunto – quando entram repentinamente outras pessoas na fala, ou quando muda de assunto.
Mentalmente tento separar as vozes das pessoas. Depois identificar o que é que elas estão falando. Sobre o que. E, finalmente, eliminar as informações não essenciais. As palavras relacionadas a aquele assunto daquela entrevista em específico, muitas vezes me levam a, na revisão, pegar um gancho com o discurso passado.
Dimensões da fala e a transcrição de áudio
A análise, portanto, não é mono ou duodimensional, no processo de transcrição de fala das pessoas, mas um conjunto multidimensional de fatores, sua interpretação e, finalmente, o resgate de informações já consolidadas no meu subconsciente, quase ao mesmo tempo em que todo o conhecimento do passado gravado em minhas experiências possam ser resgatadas.
Isso depende da quantidade de horas que eu fui exposto a determinados sotaques, assim como à capacidade que tenho de reconhecer diversas palavras relacionadas ao assunto, que passaram pelo menos com tal intensidade na minha vida, que estabeleceram sinapses dentro do meu cérebro tridimensionalmente aparelhado por trilhões de neurônios e milhares de trilhões de sinapses estabelecidas.
Que máquina maravilhosa, o cérebro humano
O artigo ficou longo, mas acredito que se algum pesquisador desse campo de reconhecimento de voz puder ler este pequeno pensamento, talvez possa abrir uma nova linha de frente de pesquisa multifacetada, onde deixará de olhar a linguagem como um processo reduzível a um sistema binário e tente entender como uma aventura em direção à alma, coisa que a máquina não possui. Ainda.
O texto original que inspirou o post “Ver para Escutar” está em www.economist.com e o jornal Estadão é a edição de 23 de março de 2015 (Tradução de Celso Paciornik).
Sim, sim. É ver para escutar, e não ver para crer.