Transcrição de áudio
99,6%+ de acurácia

Transcrição de áudio e degravação de audiências para ata notarial, ata literal de reuniões críticas, audiências e gravações de WhatsApp. Mais de 10 anos de experiência na área. Temos também transcrição automática por robô (opção mais barata).

WhatsApp (11) 93095-9547
contato@transcricoes.com.br

Linguística de corpus e transcrever áudio

Publicado por Transcricoes em

transcrição de áudio

Linguística de corpus na transcrição de áudio.

Lápis Azul Linguística de CorpusLinguística de corpus na transcrição de áudio, está aí uma coisa que jamais imaginei que existia era linguística de corpus. Mas, depois de analisar a ferramenta, ficou claro que podia me beneficiar com essa ferramenta grátis do estudo de frequência de aparição de palavras na língua portuguesa.

Afinal o que é essa linguística de corpus? Que coisa é essa?

Trata-se do estudo empírico de textos escritos que passa por programas de computador que permite reunir estatisticamente o uso de palavras. Para saber mais acesse o link abaixo.

Link para Wikipedia:

http://pt.wikipedia.org/

Achei interessante e submeti a alguns sites a análise de texto online referente a algumas transcrições feitas, para ver se isso me ajudaria na criação de atalhos de digitação. Foi pura curiosidade.

Atalhos de digitação.

Atalhos de digitação, eu precisava delas: por exemplo, se digitar “pex” o Word devolveria “por exemplo”. Tem algumas palavras que são recorrentes. A palavra “que” é a campeã, aparece em primeirão na maioria dos textos transcritos. A letra ‘A’ também, essa é campeã absoluta. Depois vão vindo outras palavras.

Mas o que tudo isso tem a ver com digitação? E principalmente transcrição de áudio para texto?

Ocorre que nesse último ano cadastrei em um dicionário de correção automática do word cerca de 4 mil atalhos, o que me permite economizar em uma hora de áudio, que tem em média 8 mil palavras, pelo menos 16 mil toques. (Atualização de 23/02/2016: havia cadastrado 10.600 atalhos, tendo sido submetidas 250 mil palavras para análise. Desde então, quase todas as palavras que digito estão cadastradas e faço digitação por atalhos).

O que significa isso? A tabela abaixo foi gerada pelo site de análise linguística de corpus na transcrição de áudio e segue link http://linguistica.insite.com.br/corpus.php

Total
de palavras (tokens):
13144
Total
de palavras distintas (types):
2314
Proporção
palavras distintas/total:
0.176
(type/token ratio)
Total
de kbytes de texto processados:
73 k
(73139 letras)
Total
de linhas de texto:
79
Tamanho
mínimo considerado de palavras:
1 letra

Estes são os dados sintéticos de uma transcrição de 78 minutos de áudio. O assunto era um seminário sobre a Noite Paulistana, que ocorreu na Biblioteca Mário de Andrade em março de 2014, ali estavam personalidades famosas, como Férrez e Dimenstein.

De 13.144 palavras, eram distintas apenas 2.314, ou seja um “vocabulário” de cerca de 2.300 palavras foi o suficiente para cobrir 78 minutos de palestra, sendo que as restantes 11.000 eram repetições.

Foi uma ideia simples, mas funcionou. Cadastrei cerca de 4.000 expressões e palavras no corretor automático do Word e, a partir dali, quando digito “oqqvcq” aparece “o que é que você quer”, “distraç” aparece “distração” e “distrçs” aparece “distrações”.

Só em “distraç” economizo a tecla shift+~+ao, portanto são 4 toques. Pode-se dizer então que posso economizar milhares de toques por transcrição. Isso é ótimo para os dedos, os tendões agradecem.

E esse dicionário pode ser transportado de um Word para Outro e ser desativado a hora que você quiser. Para tanto, basta configurar o dicionário para tal, fazendo algumas pequenas modificações que levam 10 minutos.

Prosseguindo na análise, o site gerou a segunda tabela:

Porcentagem
do conteúdo representada pelas 100 palavras mais frequentes:
60.4 %
Porcentagem
do conteúdo representada pelas 250 palavras mais frequentes
72.5 %
Porcentagem
do conteúdo representada pelas 750 palavras mais frequentes:
86.3 %
Porcentagem
do conteúdo representada pelas 1000 palavras mais frequentes:
90 %
Porcentagem
do conteúdo representada pelas 2000 palavras mais frequentes:
97.6 %
Porcentagem
do conteúdo representada pelas 3000 palavras mais frequentes:
– %

As 100 palavras mais recentes representaram 60% do texto, as 2000 palavras mais frequentes representavam 97,6%. Portanto, a criação de atalhos parece ser bastante viável.

Outras tabelas são bastante interessantes.

Número
de palavras responsáveis por 10% do conteúdo:
3
Número
de palavras responsáveis por 20% do conteúdo:
7
Número
de palavras responsáveis por 30% do conteúdo:
14
Número
de palavras responsáveis por 40% do conteúdo:
27
Número
de palavras responsáveis por 50% do conteúdo:
49
Número
de palavras responsáveis por 60% do conteúdo:
97
Número
de palavras responsáveis por 70% do conteúdo:
208
Número
de palavras responsáveis por 80% do conteúdo:
436
Número
de palavras responsáveis por 90% do conteúdo:
1000
Número
de palavras responsáveis por 95% do conteúdo:
1657
Número
de palavras responsáveis por 98% do conteúdo:
2052
Número
de palavras que ocorrem menos de 20 vezes:
2218
distintas (95.8%)
5275
total (40.1%)
Número
de palavras que ocorrem menos de 10 vezes:
2133
distintas (92.1%)
4177
total (31.7%)
Número
de palavras que ocorrem menos de 5 vezes:
1932
distintas (83.4%)
2841
total (21.6%)
Número
de palavras que ocorrem somente 2 vezes:
363
distintas (15.7%)
726
total (5.5%)
Número
de palavras que ocorrem somente 1 vez:
1336
distintas (57.7%)
1336
total (10.1%)

Esta tabela, em particular, me chamou a atenção.

Quantidade
de palavras com 1 letra:
4
(distintas)
1241
(total)
Quantidade
de palavras com 2 letras:
37
(distintas)
2134
(total)
Quantidade
de palavras com 3 letras:
95
(distintas)
2214
(total)
Quantidade
de palavras com 4 letras:
183
(distintas)
1698
(total)
Quantidade
de palavras com 5 letras:
344
(distintas)
1989
(total)
Quantidade
de palavras com 6 letras:
305
(distintas)
1164
(total)
Quantidade
de palavras com 7 letras:
323
(distintas)
821
(total)
Quantidade
de palavras com 8 letras:
298
(distintas)
634
(total)
Quantidade
de palavras com 9 letras:
230
(distintas)
450
(total)
Quantidade
de palavras com 10 letras:
163
(distintas)
292
(total)
Quantidade
de palavras com 11 letras:
119
(distintas)
123
(total)
Quantidade
de palavras com 12 letras:
94
(distintas)
123
(total)
Quantidade
de palavras com 13 letras:
49
(distintas)
71
(total)
Quantidade
de palavras com 14 letras:
30
(distintas)
82
(total)
Quantidade
de palavras com 15 letras:
17
(distintas)
21
(total)
Quantidade
de palavras com 16 letras:
10
(distintas)
10
(total)
Quantidade
de palavras com 17 letras:
6
(distintas)
7
(total)
Quantidade
de palavras com 18 letras:
3
(distintas)
3
(total)
Quantidade
de palavras com 19 letras:
1
(distintas)
2
(total)
Quantidade
de palavras com 20 letras:
1
(distintas)
1
(total)
Quantidade
de palavras com 21 letras:
1
(distintas)
1
(total)
Quantidade
de palavras com 22 letras:
0
(distintas)
0
(total)
Quantidade
de palavras com 23 letras:
0
(distintas)
0
(total)
Quantidade
de palavras com 24 letras:
0
(distintas)
0
(total)
Quantidade
de palavras com 25 letras:
1
(distintas)
1
(total)
Quantidade
de palavras com 26 letras:
0
(distintas)
0
(total)
Quantidade
de palavras com 27 letras:
0
(distintas)
0
(total)
Quantidade
de palavras com 28 letras:
0
(distintas)
0
(total)
Quantidade
de palavras com 29 letras:
0
(distintas)
0
(total)
Quantidade
de palavras com 30 letras:
0
(distintas)
0
(total)
Quantidade
de palavras com
mais de 30 letras:
0
(distintas)
0
(total)

Outra tabela bastante interessante foi a abaixo.

Rank
Letra
Ocorrências
1
e
7227
2
a
6921
3
o
5699
4
s
4044
5
i
3331
6
r
3207
7
u
3072
8
m
2899
9

Para quem é esperto e se ligou, usar a análise proporcionada pela linguística de corpus na transcrição, esta é uma ótima forma de economizar dedos na hora de digitar textos. O difícil é que vicia-se nisso e fica difícil ou pelo menos chato escrever sem ser por atalhos, pois a coisa pega mais do que chiclete.

Por hoje é só, amigos. Até a próxima.


Transcricoes

Web aprendiz. Iniciou-se em 2012 na internet em busca de conhecimento. Desde então se encantou com transcrição de áudio.