Linguística de corpus e transcrever áudio

Publicado por Transcricoes em 2014-04-012014-04-01

Linguística de corpus na transcrição de áudio.

Linguística de corpus na transcrição de áudio, está aí uma coisa que jamais imaginei que existia era linguística de corpus. Mas, depois de analisar a ferramenta, ficou claro que podia me beneficiar com essa ferramenta grátis do estudo de frequência de aparição de palavras na língua portuguesa.

Afinal o que é essa linguística de corpus? Que coisa é essa?

Trata-se do estudo empírico de textos escritos que passa por programas de computador que permite reunir estatisticamente o uso de palavras. Para saber mais acesse o link abaixo.

Link para Wikipedia:

http://pt.wikipedia.org/

Achei interessante e submeti a alguns sites a análise de texto online referente a algumas transcrições feitas, para ver se isso me ajudaria na criação de atalhos de digitação. Foi pura curiosidade.

Atalhos de digitação.

Atalhos de digitação, eu precisava delas: por exemplo, se digitar “pex” o Word devolveria “por exemplo”. Tem algumas palavras que são recorrentes. A palavra “que” é a campeã, aparece em primeirão na maioria dos textos transcritos. A letra ‘A’ também, essa é campeã absoluta. Depois vão vindo outras palavras.

Mas o que tudo isso tem a ver com digitação? E principalmente transcrição de áudio para texto?

Ocorre que nesse último ano cadastrei em um dicionário de correção automática do word cerca de 4 mil atalhos, o que me permite economizar em uma hora de áudio, que tem em média 8 mil palavras, pelo menos 16 mil toques. (Atualização de 23/02/2016: havia cadastrado 10.600 atalhos, tendo sido submetidas 250 mil palavras para análise. Desde então, quase todas as palavras que digito estão cadastradas e faço digitação por atalhos).

O que significa isso? A tabela abaixo foi gerada pelo site de análise linguística de corpus na transcrição de áudio e segue link http://linguistica.insite.com.br/corpus.php

Total de palavras (tokens):	13144
Total de palavras distintas (types):	2314
Proporção palavras distintas/total:	0.176 (type/token ratio)
Total de kbytes de texto processados:	73 k (73139 letras)
Total de linhas de texto:	79
Tamanho mínimo considerado de palavras:	1 letra

Estes são os dados sintéticos de uma transcrição de 78 minutos de áudio. O assunto era um seminário sobre a Noite Paulistana, que ocorreu na Biblioteca Mário de Andrade em março de 2014, ali estavam personalidades famosas, como Férrez e Dimenstein.

De 13.144 palavras, eram distintas apenas 2.314, ou seja um “vocabulário” de cerca de 2.300 palavras foi o suficiente para cobrir 78 minutos de palestra, sendo que as restantes 11.000 eram repetições.

Foi uma ideia simples, mas funcionou. Cadastrei cerca de 4.000 expressões e palavras no corretor automático do Word e, a partir dali, quando digito “oqqvcq” aparece “o que é que você quer”, “distraç” aparece “distração” e “distrçs” aparece “distrações”.

Só em “distraç” economizo a tecla shift+~+ao, portanto são 4 toques. Pode-se dizer então que posso economizar milhares de toques por transcrição. Isso é ótimo para os dedos, os tendões agradecem.

E esse dicionário pode ser transportado de um Word para Outro e ser desativado a hora que você quiser. Para tanto, basta configurar o dicionário para tal, fazendo algumas pequenas modificações que levam 10 minutos.

Prosseguindo na análise, o site gerou a segunda tabela:

Porcentagem do conteúdo representada pelas 100 palavras mais frequentes:	60.4 %
Porcentagem do conteúdo representada pelas 250 palavras mais frequentes	72.5 %
Porcentagem do conteúdo representada pelas 750 palavras mais frequentes:	86.3 %
Porcentagem do conteúdo representada pelas 1000 palavras mais frequentes:	90 %
Porcentagem do conteúdo representada pelas 2000 palavras mais frequentes:	97.6 %
Porcentagem do conteúdo representada pelas 3000 palavras mais frequentes:	– %

As 100 palavras mais recentes representaram 60% do texto, as 2000 palavras mais frequentes representavam 97,6%. Portanto, a criação de atalhos parece ser bastante viável.

Outras tabelas são bastante interessantes.

Número de palavras responsáveis por 10% do conteúdo:	3
Número de palavras responsáveis por 20% do conteúdo:	7
Número de palavras responsáveis por 30% do conteúdo:	14
Número de palavras responsáveis por 40% do conteúdo:	27
Número de palavras responsáveis por 50% do conteúdo:	49
Número de palavras responsáveis por 60% do conteúdo:	97
Número de palavras responsáveis por 70% do conteúdo:	208
Número de palavras responsáveis por 80% do conteúdo:	436
Número de palavras responsáveis por 90% do conteúdo:	1000
Número de palavras responsáveis por 95% do conteúdo:	1657
Número de palavras responsáveis por 98% do conteúdo:	2052

Número de palavras que ocorrem menos de 20 vezes:	2218 distintas (95.8%)	5275 total (40.1%)
Número de palavras que ocorrem menos de 10 vezes:	2133 distintas (92.1%)	4177 total (31.7%)
Número de palavras que ocorrem menos de 5 vezes:	1932 distintas (83.4%)	2841 total (21.6%)
Número de palavras que ocorrem somente 2 vezes:	363 distintas (15.7%)	726 total (5.5%)
Número de palavras que ocorrem somente 1 vez:	1336 distintas (57.7%)	1336 total (10.1%)

Esta tabela, em particular, me chamou a atenção.

Quantidade de palavras com 1 letra:	4 (distintas)	1241 (total)
Quantidade de palavras com 2 letras:	37 (distintas)	2134 (total)
Quantidade de palavras com 3 letras:	95 (distintas)	2214 (total)
Quantidade de palavras com 4 letras:	183 (distintas)	1698 (total)
Quantidade de palavras com 5 letras:	344 (distintas)	1989 (total)
Quantidade de palavras com 6 letras:	305 (distintas)	1164 (total)
Quantidade de palavras com 7 letras:	323 (distintas)	821 (total)
Quantidade de palavras com 8 letras:	298 (distintas)	634 (total)
Quantidade de palavras com 9 letras:	230 (distintas)	450 (total)
Quantidade de palavras com 10 letras:	163 (distintas)	292 (total)
Quantidade de palavras com 11 letras:	119 (distintas)	123 (total)
Quantidade de palavras com 12 letras:	94 (distintas)	123 (total)
Quantidade de palavras com 13 letras:	49 (distintas)	71 (total)
Quantidade de palavras com 14 letras:	30 (distintas)	82 (total)
Quantidade de palavras com 15 letras:	17 (distintas)	21 (total)
Quantidade de palavras com 16 letras:	10 (distintas)	10 (total)
Quantidade de palavras com 17 letras:	6 (distintas)	7 (total)
Quantidade de palavras com 18 letras:	3 (distintas)	3 (total)
Quantidade de palavras com 19 letras:	1 (distintas)	2 (total)
Quantidade de palavras com 20 letras:	1 (distintas)	1 (total)
Quantidade de palavras com 21 letras:	1 (distintas)	1 (total)
Quantidade de palavras com 22 letras:	0 (distintas)	0 (total)
Quantidade de palavras com 23 letras:	0 (distintas)	0 (total)
Quantidade de palavras com 24 letras:	0 (distintas)	0 (total)
Quantidade de palavras com 25 letras:	1 (distintas)	1 (total)
Quantidade de palavras com 26 letras:	0 (distintas)	0 (total)
Quantidade de palavras com 27 letras:	0 (distintas)	0 (total)
Quantidade de palavras com 28 letras:	0 (distintas)	0 (total)
Quantidade de palavras com 29 letras:	0 (distintas)	0 (total)
Quantidade de palavras com 30 letras:	0 (distintas)	0 (total)
Quantidade de palavras commais de 30 letras:	0 (distintas)	0 (total)

Outra tabela bastante interessante foi a abaixo.

Rank	Letra	Ocorrências
1	e	7227
2	a	6921
3	o	5699
4	s	4044
5	i	3331
6	r	3207
7	u	3072
8	m	2899
9

Para quem é esperto e se ligou, usar a análise proporcionada pela linguística de corpus na transcrição, esta é uma ótima forma de economizar dedos na hora de digitar textos. O difícil é que vicia-se nisso e fica difícil ou pelo menos chato escrever sem ser por atalhos, pois a coisa pega mais do que chiclete.

Por hoje é só, amigos. Até a próxima.

Transcrição de áudio
99,6%+ de acurácia

WhatsApp (11) 93095-9547
contato@transcricoes.com.br

Linguística de corpus e transcrever áudio

Linguística de corpus na transcrição de áudio.

Atalhos de digitação.

Transcricoes

Transcrição de áudio para texto

Videoteca Clube de Transcritores

Transcrição de áudio para texto

Transcrição automática de documentários versus legendagem automática do YouTube

Transcrição de áudio para texto

Dossiê transcrição automática grátis

Pedidos de segunda a sexta, horário comercial

contato@transcricoes.com.br - WhatsApp (11) 93095-9547

Transcrição de áudio 99,6%+ de acurácia

WhatsApp (11) 93095-9547 contato@transcricoes.com.br

Linguística de corpus e transcrever áudio

Linguística de corpus na transcrição de áudio.

Atalhos de digitação.

Transcricoes

Posts relacionados

Transcrição de áudio para texto

Videoteca Clube de Transcritores

Transcrição de áudio para texto

Transcrição automática de documentários versus legendagem automática do YouTube

Transcrição de áudio para texto

Dossiê transcrição automática grátis

Pedidos de segunda a sexta, horário comercialcontato@transcricoes.com.br - WhatsApp (11) 93095-9547

Transcrição de áudio
99,6%+ de acurácia

WhatsApp (11) 93095-9547
contato@transcricoes.com.br

Pedidos de segunda a sexta, horário comercial

contato@transcricoes.com.br - WhatsApp (11) 93095-9547