You are on page 1of 11

ESTATSTICA LINGSTICA

Maria Tereza de Almeida Camargo

INTRODUO
Tanto quanto conheo os trabalhos lingsticos realizados
no Brasil (e para o portugus em geral), no sei de pesquisas
sistemticas realizadas nesse setor quer por lingistas nossos,
quer aplicaes nossa lngua. Conheo apenas alguns estudos esparsos dedicados a problemas especficos em portugus.
Por essas razes, pareceu-me lcito nesse encontro de lingistas brasileiros, apresentar um relatrio de tipo informativo,
expondo e discutindo sucintamente o que se tem feito nesse
domnio entre especialistas estrangeiros, para levantar a questo da aplicabilidade dos mtodos da cincia estatstica nossa lngua. Justifico-me assim de antemo por no apresentar
um trabalho original, mas de fornecer simplesmente ocasio
para discutirmos sobre um setor importante da lingstica que
tem sido descurado entre ns.
A minha comunicao dividir-se- em trs tpicos principais : 1) a Estatstica e as Matemticas como instrumento de
pesquisa lingstica; 2) os problemas e mtodos da Estatstica
Lingstica; 3) aplicaes da Estatstica Lingstica.
I
Uma dificuldade bsica com que todos os lingistas deparamos ao afrontar a Estatstica Lingstica a da barreira instrumental que significa para ns o aparato tcnico de que se
serve essa cincia. A maioria dos lingistas recuar com horror diante de tratados como o The Calculus of Linguistic
Observations de Herdan, e torcer o nariz a uma tbua de Xdas Gergicas de Virglio. Por outro lado, os matemticos e
estatsticos que se tm dedicado Lingstica Matemtica no
2

118
tm suficiente formao lingstica para equacionarem devidamente os problemas lingsticos dentro do universo estatstico. Muitas vezes, como bem o denunciou Greimas num "Colquio de Estatstica e de Anlise Lingstica" (Strasbourg,
1964), perdem-se em labirintos matemticos tratando de problemas que no interessam lingstica moderna, ou utilizam
conceitos lingsticos ultrapassados. Esse desnvel bsico na
nossa plataforma de sondagem dos problemas da Estatstica
Lingstica, levou os lingistas e matemticos presentes ao
Colquio acima referido a concluir que seria desejvel que 03
estudantes inclinados aos estudos lingsticos tivessem uma
formao estatstica elementar, durante os seus anos de licena universitria, como j acontece em outros domnios das
Cincias Humanas Sociologia, Psicologia. Esse desnvel
explica tambm os desconcertos encontrados nos tratados e
estudos que aplicam as tcnicas da Estatstica Lingstica
curiosa a dualidade antagnica do tratamento matemtico do
material lingstico e do tratamento lingstico do instrumental matemtico. Lembramos pois, desde j, que absolutamente indispensvel uma formao estatstica elementar, a
fim de que o lingista possa avaliar os resultados da Estatstica, quando aplicada ao universo lingstico.
Uma vez admitida a validade e o interesse da Estatstica
no domnio lingstico, um passo ulterior ser o do estabelecimento de uma plataforma comum para essas pesquisas, conciliando dados lingsticos e elementos estatsticos. Aqui so
freqentemente os estatsticos que se queixam do empirismo
lingstico e da anarquia de critrios reinantes entre os lingistas. Na verdade, em todos os outros domnios da Lngua,
com exceo do fontico, os trabalhos dos lingistas caracterizam-se por um largo contingente subjetivo. Por exemplo:
dificilmente coincidem os lingistas quanto definio do
vocabulrio e mais ainda divergiro eles quando tiverem que
decidir sobre as unidades lxicas em uma compilao vocabular. Se passarmos ao nvel morfmico e sinttico, as divergncias sero ainda maiores. Ora, a estatstica precisa partir
de critrios seguros e bem estabelecidos para proceder compilao de suas amostras. Sobretudo se pensarmos na automao das pesquisas dessa natureza, o problema torna-se ainda mais agudo, pois para que a mquina possa operar eficazmente necessrio apresentar-lhe um programa definido, definies objetivas, a partir do que ela fornecer os resultados.
Se esses critrios no forem linguisticamente vlidos, ou pelo

119
menos se forem imprecisos, os resultados obtidos no tero
significao lingstica.
No polo oposto, levanta-se a grita dos lingistas contra os
seus confrades matemticos. Alm do tecnicismo rebarbativo
de suas frmulas, queixam-se eles mui justamente de que alguns matemticos utilizem a lngua como instrumento de elucubraes abstratas, fazendo matemtica por si mesma e esquecendo a lngua como objetivo essencial de suas pesquisas.
Para ns, dizem eles, interessam-nos mtodos matemticos
que nos ajudem a penetrar e a descrever de modo mais exato
o universo lingstico e nada mais. Outras vezes, so os escolhos do avano dessa cincia que os deixam perplexos. Afinal,
a to propalada, aplicada e discutida lei de Zipf para a frequncia das palavras na lngua, no tem nenhum valor matemtico? Assim pontificam matemticos ilustres como Herdan
que tm demonstrado de modo meridianamente arrevesado a
inverossimilhana dessa lei. Essas e outras contradies da
Estatstica Lingstica devem pr de sobreaviso o lingista no
afeito aos meandros do mundo estatstico.
Feitas essas ressalvas, chegamos a uma afirmao axiomtica : defender a aplicao dos mtodos estatsticos no domnio
da lngua, significa formular a crena de que a lngua um
cdigo cujos smbolos obedecem a certas freqncias determinadas e previsveis. Em outras palavras, empregando o jargo
estatstico: a lngua uma populao e as realizaes do discurso podem ser consideradas como amostras desse universo.
s com base nesse postulado bsico que podemos continuar
aprimorando a nossa tcnica no estudo estatstico da lngua.
Uma pergunta deve aflorar de imediato a um lingista desacostumado a esses horizontes: com que objetivo penetraremos
em tal ddalo? que utilidade para ns podero ter essas tcnicas? Responderemos que tanto o lingista preocupado essencialmente com a cincia da linguagem, como o historiador das
lnguas, o fillogo inclinado aos estudos literrios e ao estabelecimento de textos, encontrar na prtica da Estatstica
Lingstica um rico filo para explorar, revertendo-o em moeda sonante no comrcio prtico da sua cincia especfica.
II
A Estatstica Lingstica encontrou ampla, exata e eficaz
aplicao no nvel fonmico da lngua. Os inmeros trabalhos
realizados sobre as mais diversas lnguas (das lnguas do gru-

120
po indo-europeu s lnguas semitas, chins e lnguas indgenas)
revelaram que os fonemas obedecem perfeitamente s leis da
probabilidade. O nmero de fonemas bsicos de uma lngua,
oscilando levemente entre os aproximadamente 50 fonemas
fundamentais da linguagem humana, combinam-se segundo
leis aleatrias, sendo possvel prever as diferentes probabilidades que afetam um determinado fonema em funo de uma
amostra qualquer do discurso. claro que tal distribuio dos
fonemas pode formular-se facilmente em termos estatsticos
por duas razes essenciais: a primeira que o nmero de unidades em ao relativamente pequeno (o nmero de fonemas da lngua considerada); por conseguinte, os graus de
liberdade desse sistema so pequenos; alm disso, como o
fonema quase independente do significado da mensagem,
no intervm elementos perturbadores das combinaes aleatrias e o acaso atua praticamente soberano. Isso explica a
aplicabilidade prtica e imediata da Estatstica Lingstica na
Teoria da Informao. As tcnicas aplicveis s telecomunicaes procuram obter o mximo de mensagem atravs do
mnimo de elementos, a fim de fornecer a informao ao menor custo possvel.
Como esse terreno s secundariamente nos interessa, deixo-o de lado para tratar da aplicao da Estatstica Lingstica aos outros nveis da lngua: lxico, morfolgico e sinttico. Aqui comeam as grandes dificuldades.
Os primeiros senes facilmente apreensveis so constitudos pelos dois aspectos irredutveis da realidade lingstica:
o elemento qualitativo e o quantitativo. Ningum negar o
lado quantitativo da experincia lingstica. O prprio consenso lingstico baseia-se em uma mdia de freqncia do
uso geral, aceito pela comunidade falante. Mas... e aqui
que se pode tropear: toda realizao do discurso comporta
em maior ou menor grau uma escolha por parte do falante,
ou do escritor, dos elementos lxicos, morfolgicos e sintticos disponveis da lngua no nvel em que le a atualiza. Da
o ttulo de uma das obras de Herdan Language as chance
and choice. E, na verdade, a margem de escolha bem menor
do que o estilista geralmente imagina. Contudo, os graus de
liberdade em um sistema lingstico so muito numerosos;
da a grande dificuldade de aplicao dos parmetros estatsticos a esse universo. Trabalhando-se exclusivamente com
uma populao vocabular em uma lngua como a inglesa onde,
parece, os lexemas sobem a 50.000, ser extremamente com-

121
plexo formular a aplicao dos parmetros estatsticos em um
universo com tal variedade. E por essa razo impe-se a aplicao de mtodos quantitativos, uma vez que os dados so
muito numerosos. Sendo a lingstica uma cincia de observao como a Psicologia, a Sociologia, a Meteorologia, a anlise estatstica a se impe indubitavelmente.
Para a Estatstica Lxica, em especial, muitos trabalhos
j foram realizados e alguns especialistas chegaram a estabelecer certos parmetros especficos para esse domnio. Guiraud props frmulas para o clculo do lxico potencial de
um autor e para o clculo de concentrao de um vocabulrio. Zipf estabeleceu a lei da
"constncia do produto da freqncia pela ordem (rank)
ocupada por uma palavra em uma lista de distribuio
de freqncias".

Mandelbrot introduziu ligeiras correes na lei de Zipf.


Apesar de muito aplicada na literatura do gnero, Herdan vem
contestando sistematicamente a sua validade matemtica com
argumentos de peso. Yule props outra frmula, considerando o primeiro e o segundo momento de uma distribuio vocabular ao longo de um texto, de onde deduz uma caracterstica
(K), tpica das distribuies estatsticas de palavras. Herdan,
trabalhando como matemtico, parece provar satisfatoriamente que as distribuies das freqncias vocabulares obedecem lei complexa de Poisson. Vai mais alm e formula
uma teoria "quantum" da lngua aproximando o universo lingstico do universo fsico, adaptando assim a estatstica de
Bose-Einstein para a lingstica. Procura demonstrar a semelhana do equilbrio do sistema atmico e do sistema lingstico. Valha o que valer linguisticamente a sua frmula para o
clculo da entropia com relao aos dados lingsticos, e outras frmulas arrevezadas, fica de p a sua proposta de aplicai
esta Estatstica Fsica ao universo da lngua.
Alguns lingistas estatsticos verificaram que os parmetros da Estatstica (a mdia, o desvio-padro) no conservavam suas caractersticas prprias quando aplicados ao domnio lxico ou morfmico da lngua; isto , o seu valor no
era independente do trabalho da amostra. Por essa razo Yule
prope a sua caracterstica K e Herdan a sua verso do teo-

122

rema multinominal. Verificou-se tambm freqentemente que


outros dados perturbavam enormemente os dados quantitativos de uma amostra: a influncia exercida pelo tema sobre o
vocabulrio utilizado pelo autor, as linguagens especiais (cientficas), etc. Assim Muller no seu Essai de Statistique Lexicale hesita vrias vezes nas suas concluses, sem saber a que
atribuir uma determinada distribuio de freqncias, se ao
tema, se ao gnero literrio empregado... por essa razo
tambm que so criticveis estudos estilsticos ou lingsticos
que utilizam como ponto de referncia uma compilao genrica. Para exemplificar, comparaes de um texto francs do
sculo X V I I ou de um autor contemporneo com o "ndice de
Freqncias" da lista de Vender Beke ter pouca validade,
uma vez que essa lista foi estabelecida para o francs literrio
do sculo X I X . Crtica desse tipo pode ser feita ao estudo de
Ellegard, "Estimating Vocabulary Size" (cfr. bibliografia).
Ele ope aqui os vocabulrios de Chaucer, Shakespeare, Bblia (Authorized Version of the Bible) e de J. Joyce (Ulysses)
lista de freqncias para o ingls estabelecida por Thorndike e Lorge, a partir de um material contemporneo e extremamente heterogneo. Como a estilstica fundamenta-se na comparao, pouco relevantes sero os seus resultados se utiliza
paradoxalmente os seus prprios princpios.
De tudo o que foi dito e do muito que se tem discutido
nesse campo, lembremos um dado incontestvel nesse oceano
de discrepncias: poderemos apontar, com certeza, tendncias
no universo lingstico a que se pode aplicar o clculo das probabilidades ; mas dificilmente estabeleceremos leis que governem esse universo.
Um ltimo lembrete ainda neste captulo: dois trabalhos
paralelos e complementares so aqui necessrios o manual
e o das mquinas. No s a formulao dos programas a
serem executados pelas calculadoras mecanogrficas ou eletrnicas exige a presena do homem. Nem mesmo apenas
faz-se necessrio o seu concurso na utilizao do material
fornecido pelas calculadoras. bom no esquecer que o antiqussimo trabalho das compilaes manuais de enorme utilidade lingstica e filolgica, hoje como outrora. Realmente,
apesar do aprimoramento das tcnicas, as calculadoras, por
mais especializadas que sejam, no substituiro nunca o crebro do homem e a sua experincia e sensibilidade lingstica
na organizao desses levantamentos estatsticos.

123
III
Passemos ltima parte as aplicaes da Estatstica
Lingstica. Tratemos primeiro da Lingstica aplicada. Um
domnio que tem utilizado amplamente a lingstica matemtica tem sido o ramo da traduo automtica. Para citar um
um exemplo nesse setor: na Universidade de Nancy (Frana)
trabalha um "Grupo de Traduo Automtica" que pesquisa
a traduo do ingls para o francs. Ali se utiliza uma calculadora eletrnica. Nessa mesma Universidade ainda um
"Centro de Pesquisa para um Tesouro da Lngua Francesa"
trabalha com essas calculadoras a fim de fazer um levantamento total do vocabulrio francs da Idade Mdia a 1950, num
inventrio de 250 milhes de palavras, a fim de traar a histria do lxico francs.
Outras pesquisas mecnicas so realizadas em vrios centros similares na Europa (Lige, Bruxelas, Gallarate, Estocolmo, Besanon, Paris, Estrasburgo, Sarrebruck), trabalhando
com mquinas eletrnicas ou mecanogrficas e atendendo a
programas diversos. O Centro de Paris (CREDIF) coletou um
material imenso da lngua francesa falada contempornea,
trabalhou-o mecnica e estatisticamente e elaborou o "francs
fundamental" em vrios graus, donde resultou o mtodo de
ensino da lngua francesa a estrangeiros "Voix et Images
de France". Essa uma das aplicaes mais imediatas da Lingstica Matemtica: o ensino de lnguas estrangeiras atravs
de mtodos rpidos e eficientes. O Centro de Bruxelas, financiado pela Euratom, realiza pesquisas nessa linha, tendo em
vista o aprendizado das principais lnguas da comunidade
europia. O Centro de Besanon j estabeleceu o "vocabulrio
bsico" para o alemo e o espanhol, trabalha no "vocabulrio
cientfico" francs, e tem no seu programa o estabelecimento
dos "vocabulrios bsicos" das principais lnguas europias.
O Centro de Besanon vem publicando tambm sistematicamente "ndices de palavras" de autores franceses da Idade
Mdia aos nossos dias, a fim de fornecer instrumento de trabalho preciso para os estudiosos literrios e lingistas da
lngua francesa.
A Lingstica Geral j se beneficiou amplamente dessas
compilaes exaustivas e exatas. No captulo da genealogia
das lnguas muita coisa j se fz com relao ao indo-europeu,
procurando-se estabelecer atravs dele uma metodologia que
possa servir no estudo da correlao de outras lnguas despro-

124

vidas de documentao histrica (lnguas indgenas das Amricas, lnguas africanas, polinsicas). Alm dos trabalhos de
Kroeber, Chrtien, Czekanowski, Collinder, seria bom lembrar
a glotocronologia de Swadesh que utiliza clculos matemticos na tentativa de estabelecer a poca de separao de duas
lnguas ou de um grupo de lnguas entre si.
A Filologia desde sempre realizou compilaes de tipo estatstico nos seus esforos para estabelecer textos, quer quando se tratava de casos de autoria discutida, quer de textos de
datao insegura. Hoje ela pode contar com dados mais precisos e com um mtodo de trabalho bem mais seguro para a
soluo desses problemas.
Finalmente, a Estilstica e a Literatura utilizaro o material fornecido pela mecanizao ou automao do "dpouillement" dos textos de um autor, de uma escola literria ou de
um perodo da lngua, a fim de estudar o estilo de um autor
ou de uma escola, as caractersticas de um perodo da lngua,
de um gnero literrio, etc.
Para concluir, relacionemos o que foi dito com a realidade
brasileira. Parece-me que no padece dvida o interesse de
promover e fomentar esse tipo de estudos entre ns. Na Universidade de Toulouse o "Instituto de Portugus" dirigido pelo
Prof. Roche j est procedendo ao "dpouillement" de textos
portugueses e brasileiros. A autora deste trabalho tambm
est fazendo o mesmo para a obra do poeta portugus Fernando Pessoa. Contudo, evidente que se faz necessrio t o d a
uma equipe bem formada para realizar um trabalho de flego
tendo em vista um estudo mais aprofundado da lngua portuguesa. A Estatstica Lingstica aplicada ao portugus viria
colaborar eficientemente no aprimoramento das tcnicas da
lingstica brasileira. Talvez pudssemos possuir, dentro de
certo tempo, calculadoras que nos ajudassem no levantamento
dos dados com menor perda de tempo e menor probabilidade
de erros. O "dpouillement" de textos portugueses e brasileiros forneceria "corpus" ideais para os trabalhos dos nossos
lingistas, fillogos, estilistas e literatos.

125

BlBLIOGRAFIA

G. HERDAN Language as chance and choice. Groningen, 1956.


G. HERDAN The Calculus of Linguistic Observations. The Hague,
P. GUIRAUD Les caractres statistiques du vocabulaire. Paris, PUF,
1954.
P. GUIRAUD Problmes et mthodes de la statistique linguistique.
Paris, PUF, 1960.
C. MULLER Essai de statistique lexicale. Paris, Klincksieck, 1964.
Lexicologie et lexicographie franaise et romane. Centre National de
Recherche Scientifique, 1961 (Colloque International, Strasbourg,
1957).
Statistique et analyse linguistique (Colloque de Strasburg, 1964). Paris, PUF, 1966.
Artigos
A. ELLEGARD "Estimating Vocabulary Size" Word, XVI, 1960,
219-250.
A. ELLEGARD "Statistical Measurement of Linguistic Relationship"
Language, v. 35, 1959, 131-156.
D. L. BOLINGER "The Uniqueness of the Word" lingua, v. 12,
n 2, 1963, 113-136.
H. K. COWAN "A note on statistical methods in comparative linguistics" Lingua, v. 8, n 3, 1959, 233-246.
S. R. LEVIN "Deviation Statistical and Determinate in Poetic
Language" Lingua, v. 12, 1963, 276-290.
H. MITTERAND et J. PETIT "Index et Concordances dans l'tude
des textes litraires" Cahiers de Lexicologie 3, Didier Larousse,
1962, 160-175.
R. MOREAU "Au sujet de l'utilisation de la notion de frquence
en linguistique" Cahiers de Lexicologie 3, Didier Larousse, 1962.
C. MULLER "Le mot, unit de texte et unit de lexique en statistique lxicologique" Travaux de Linguistique et de Littrature I ,
Strasbourg, Klincksieck, 1963, 155-173.
C. MULLER "Les index de vocabulaire" Bulletin des Jeunes
Romanistes 4, Strasbourg, 1961, 9-14.
C. MULLER "Les index de vocabulaire, I I " Bulletin des Jeunes
Romanistes 8, Strasburgo, 1963, 44-45.

INTERVENES:

ATIO VILAS BOAS


1) A ttulo de colaborao, informo a V. Sa. que Joselice Macedo a pessoa que est pesquisando o portugus fundamental.
Prof. JOO PENHA
2) Conhece, de Sampaio Dria, o ndice de freqncia
da colocao dos pronomes? Pde observar alguns trabalhos
estatsticos sobre OS LUSADAS? E sobre a acentuao de certos ditongos? Essa estatstica se pode considerar lingstica?
Que se entende aqui por estatstica lingstica?
R.) No tenho conhecimento desse trabalho de Sampaio Dria. Quanto aos trabalhos de tipo estatstico a que
fiz referncia, realizados desde h muito sobre obras literrias,
s podemos classific-los de estatsticos de maneira imperfeita.
No sei se o caso desse trabalho. Desde o sculo passado os
fillogos tm se preocupado com a datao de textos, mas
freqentemente no se procedia a levantamentos rigorosos e
exaustivos, nem se utilizavam os mtodos especficos da estatstica que podem ajudar a precisar a procedncia de uma obra.
claro que, em ltima anlise, nem mesmo as leis da estatstica podero nos fornecer uma certeza total. Por exemplo,
Guiraud, num dos seus trabalhos, procura datar a Iphignie,
procedendo de modo rigoroso, para indicar a posio exata
da pea no conjunto da,s obras de Racine. E comenta que os
resultados a que chegou eram os mesmos a que haviam chegado crticos literrios que trabalharam antes dele sem utilizar
os mtodos rigorosos da estatstica. Mas, finalmente, ningum
poderia dizer que Iphignie de Racine foi composta no ano X,
tendo-se apenas um dado provvel da sua composio.
ATIO VILAS BOAS
3) Ainda como informao relembro os trabalhos de
estatstica que tm sido publicados na Revista do Livro.

128
Prof. MATTOSO CAMARA
4) Atendendo a uma indagao que lhe foi formulada
por um dos presentes, fz uma interveno declarando que na
aplicao da Matemtica Lingstica, o que mais o atrai e
a formulao algbrica. Pois a lgebra a verdadeira matemtica, uma "vez que o nmero ainda tem qualquer coisa de
concreto. A lgebra permite uma abstrao muito fecunda no
estudo estrutural da lngua. E um exemplo muito preciso disso
a Glotocronologia de Swadesh citado alis pela relatora.
Mas tudo isso no anula a grande utilidade da estatstica lingstica desde que executada com os critrios apontados no trabalho da Professora Maria Teresa Camargo.
STALEY CERQUEIRA
5) Indago sobre a possibilidade de delimitao do vocbulo numa obra como Ulysses, de James Joyce, em que o
problema do lxico complexssimo.
R.) Parece que um professor da Universidade de Cambridge tentou um estudo desses, mas no pude consult-lo. O
conhecimento que dele tive foi obtido por meio do citado artigo de Ellegard. A nica referncia que tenho sobre o critrio
ali adotado que se distingue "lexical unity" de "word lexical
unity".

You might also like