Linguística de corpus e transcrever áudio
Linguística de corpus na transcrição de áudio.
Afinal o que é essa linguística de corpus? Que coisa é essa?
Trata-se do estudo empírico de textos escritos que passa por programas de computador que permite reunir estatisticamente o uso de palavras. Para saber mais acesse o link abaixo.
Link para Wikipedia:
Achei interessante e submeti a alguns sites a análise de texto online referente a algumas transcrições feitas, para ver se isso me ajudaria na criação de atalhos de digitação. Foi pura curiosidade.
Atalhos de digitação.
Atalhos de digitação, eu precisava delas: por exemplo, se digitar “pex” o Word devolveria “por exemplo”. Tem algumas palavras que são recorrentes. A palavra “que” é a campeã, aparece em primeirão na maioria dos textos transcritos. A letra ‘A’ também, essa é campeã absoluta. Depois vão vindo outras palavras.
Mas o que tudo isso tem a ver com digitação? E principalmente transcrição de áudio para texto?
Ocorre que nesse último ano cadastrei em um dicionário de correção automática do word cerca de 4 mil atalhos, o que me permite economizar em uma hora de áudio, que tem em média 8 mil palavras, pelo menos 16 mil toques. (Atualização de 23/02/2016: havia cadastrado 10.600 atalhos, tendo sido submetidas 250 mil palavras para análise. Desde então, quase todas as palavras que digito estão cadastradas e faço digitação por atalhos).
O que significa isso? A tabela abaixo foi gerada pelo site de análise linguística de corpus na transcrição de áudio e segue link http://linguistica.insite.com.br/corpus.php
Total
de palavras (tokens): |
13144
|
Total
de palavras distintas (types): |
2314
|
Proporção
palavras distintas/total: |
0.176
(type/token ratio) |
Total
de kbytes de texto processados: |
73 k
(73139 letras) |
Total
de linhas de texto: |
79
|
Tamanho
mínimo considerado de palavras: |
1 letra
|
Estes são os dados sintéticos de uma transcrição de 78 minutos de áudio. O assunto era um seminário sobre a Noite Paulistana, que ocorreu na Biblioteca Mário de Andrade em março de 2014, ali estavam personalidades famosas, como Férrez e Dimenstein.
De 13.144 palavras, eram distintas apenas 2.314, ou seja um “vocabulário” de cerca de 2.300 palavras foi o suficiente para cobrir 78 minutos de palestra, sendo que as restantes 11.000 eram repetições.
Foi uma ideia simples, mas funcionou. Cadastrei cerca de 4.000 expressões e palavras no corretor automático do Word e, a partir dali, quando digito “oqqvcq” aparece “o que é que você quer”, “distraç” aparece “distração” e “distrçs” aparece “distrações”.
E esse dicionário pode ser transportado de um Word para Outro e ser desativado a hora que você quiser. Para tanto, basta configurar o dicionário para tal, fazendo algumas pequenas modificações que levam 10 minutos.
Prosseguindo na análise, o site gerou a segunda tabela:
Porcentagem
do conteúdo representada pelas 100 palavras mais frequentes: |
60.4 %
|
Porcentagem
do conteúdo representada pelas 250 palavras mais frequentes |
72.5 %
|
Porcentagem
do conteúdo representada pelas 750 palavras mais frequentes: |
86.3 %
|
Porcentagem
do conteúdo representada pelas 1000 palavras mais frequentes: |
90 %
|
Porcentagem
do conteúdo representada pelas 2000 palavras mais frequentes: |
97.6 %
|
Porcentagem
do conteúdo representada pelas 3000 palavras mais frequentes: |
– %
|
As 100 palavras mais recentes representaram 60% do texto, as 2000 palavras mais frequentes representavam 97,6%. Portanto, a criação de atalhos parece ser bastante viável.
Outras tabelas são bastante interessantes.
Número
de palavras responsáveis por 10% do conteúdo: |
3
|
Número
de palavras responsáveis por 20% do conteúdo: |
7
|
Número
de palavras responsáveis por 30% do conteúdo: |
14
|
Número
de palavras responsáveis por 40% do conteúdo: |
27
|
Número
de palavras responsáveis por 50% do conteúdo: |
49
|
Número
de palavras responsáveis por 60% do conteúdo: |
97
|
Número
de palavras responsáveis por 70% do conteúdo: |
208
|
Número
de palavras responsáveis por 80% do conteúdo: |
436
|
Número
de palavras responsáveis por 90% do conteúdo: |
1000
|
Número
de palavras responsáveis por 95% do conteúdo: |
1657
|
Número
de palavras responsáveis por 98% do conteúdo: |
2052
|
Número
de palavras que ocorrem menos de 20 vezes: |
2218
distintas (95.8%) |
5275
total (40.1%) |
Número
de palavras que ocorrem menos de 10 vezes: |
2133
distintas (92.1%) |
4177
total (31.7%) |
Número
de palavras que ocorrem menos de 5 vezes: |
1932
distintas (83.4%) |
2841
total (21.6%) |
Número
de palavras que ocorrem somente 2 vezes: |
363
distintas (15.7%) |
726
total (5.5%) |
Número
de palavras que ocorrem somente 1 vez: |
1336
distintas (57.7%) |
1336
total (10.1%) |
Esta tabela, em particular, me chamou a atenção.
Quantidade
de palavras com 1 letra: |
4
(distintas) |
1241
(total) |
Quantidade
de palavras com 2 letras: |
37
(distintas) |
2134
(total) |
Quantidade
de palavras com 3 letras: |
95
(distintas) |
2214
(total) |
Quantidade
de palavras com 4 letras: |
183
(distintas) |
1698
(total) |
Quantidade
de palavras com 5 letras: |
344
(distintas) |
1989
(total) |
Quantidade
de palavras com 6 letras: |
305
(distintas) |
1164
(total) |
Quantidade
de palavras com 7 letras: |
323
(distintas) |
821
(total) |
Quantidade
de palavras com 8 letras: |
298
(distintas) |
634
(total) |
Quantidade
de palavras com 9 letras: |
230
(distintas) |
450
(total) |
Quantidade
de palavras com 10 letras: |
163
(distintas) |
292
(total) |
Quantidade
de palavras com 11 letras: |
119
(distintas) |
123
(total) |
Quantidade
de palavras com 12 letras: |
94
(distintas) |
123
(total) |
Quantidade
de palavras com 13 letras: |
49
(distintas) |
71
(total) |
Quantidade
de palavras com 14 letras: |
30
(distintas) |
82
(total) |
Quantidade
de palavras com 15 letras: |
17
(distintas) |
21
(total) |
Quantidade
de palavras com 16 letras: |
10
(distintas) |
10
(total) |
Quantidade
de palavras com 17 letras: |
6
(distintas) |
7
(total) |
Quantidade
de palavras com 18 letras: |
3
(distintas) |
3
(total) |
Quantidade
de palavras com 19 letras: |
1
(distintas) |
2
(total) |
Quantidade
de palavras com 20 letras: |
1
(distintas) |
1
(total) |
Quantidade
de palavras com 21 letras: |
1
(distintas) |
1
(total) |
Quantidade
de palavras com 22 letras: |
0
(distintas) |
0
(total) |
Quantidade
de palavras com 23 letras: |
0
(distintas) |
0
(total) |
Quantidade
de palavras com 24 letras: |
0
(distintas) |
0
(total) |
Quantidade
de palavras com 25 letras: |
1
(distintas) |
1
(total) |
Quantidade
de palavras com 26 letras: |
0
(distintas) |
0
(total) |
Quantidade
de palavras com 27 letras: |
0
(distintas) |
0
(total) |
Quantidade
de palavras com 28 letras: |
0
(distintas) |
0
(total) |
Quantidade
de palavras com 29 letras: |
0
(distintas) |
0
(total) |
Quantidade
de palavras com 30 letras: |
0
(distintas) |
0
(total) |
Quantidade
de palavras commais de 30 letras: |
0
(distintas) |
0
(total) |
Outra tabela bastante interessante foi a abaixo.
Rank
|
Letra
|
Ocorrências
|
1
|
e
|
7227
|
2
|
a
|
6921
|
3
|
o
|
5699
|
4
|
s
|
4044
|
5
|
i
|
3331
|
6
|
r
|
3207
|
7
|
u
|
3072
|
8
|
m
|
2899
|
9
|
Para quem é esperto e se ligou, usar a análise proporcionada pela linguística de corpus na transcrição, esta é uma ótima forma de economizar dedos na hora de digitar textos. O difícil é que vicia-se nisso e fica difícil ou pelo menos chato escrever sem ser por atalhos, pois a coisa pega mais do que chiclete.
Por hoje é só, amigos. Até a próxima.