Professional Documents
Culture Documents
INTRODUO
Tanto quanto conheo os trabalhos lingsticos realizados
no Brasil (e para o portugus em geral), no sei de pesquisas
sistemticas realizadas nesse setor quer por lingistas nossos,
quer aplicaes nossa lngua. Conheo apenas alguns estudos esparsos dedicados a problemas especficos em portugus.
Por essas razes, pareceu-me lcito nesse encontro de lingistas brasileiros, apresentar um relatrio de tipo informativo,
expondo e discutindo sucintamente o que se tem feito nesse
domnio entre especialistas estrangeiros, para levantar a questo da aplicabilidade dos mtodos da cincia estatstica nossa lngua. Justifico-me assim de antemo por no apresentar
um trabalho original, mas de fornecer simplesmente ocasio
para discutirmos sobre um setor importante da lingstica que
tem sido descurado entre ns.
A minha comunicao dividir-se- em trs tpicos principais : 1) a Estatstica e as Matemticas como instrumento de
pesquisa lingstica; 2) os problemas e mtodos da Estatstica
Lingstica; 3) aplicaes da Estatstica Lingstica.
I
Uma dificuldade bsica com que todos os lingistas deparamos ao afrontar a Estatstica Lingstica a da barreira instrumental que significa para ns o aparato tcnico de que se
serve essa cincia. A maioria dos lingistas recuar com horror diante de tratados como o The Calculus of Linguistic
Observations de Herdan, e torcer o nariz a uma tbua de Xdas Gergicas de Virglio. Por outro lado, os matemticos e
estatsticos que se tm dedicado Lingstica Matemtica no
2
118
tm suficiente formao lingstica para equacionarem devidamente os problemas lingsticos dentro do universo estatstico. Muitas vezes, como bem o denunciou Greimas num "Colquio de Estatstica e de Anlise Lingstica" (Strasbourg,
1964), perdem-se em labirintos matemticos tratando de problemas que no interessam lingstica moderna, ou utilizam
conceitos lingsticos ultrapassados. Esse desnvel bsico na
nossa plataforma de sondagem dos problemas da Estatstica
Lingstica, levou os lingistas e matemticos presentes ao
Colquio acima referido a concluir que seria desejvel que 03
estudantes inclinados aos estudos lingsticos tivessem uma
formao estatstica elementar, durante os seus anos de licena universitria, como j acontece em outros domnios das
Cincias Humanas Sociologia, Psicologia. Esse desnvel
explica tambm os desconcertos encontrados nos tratados e
estudos que aplicam as tcnicas da Estatstica Lingstica
curiosa a dualidade antagnica do tratamento matemtico do
material lingstico e do tratamento lingstico do instrumental matemtico. Lembramos pois, desde j, que absolutamente indispensvel uma formao estatstica elementar, a
fim de que o lingista possa avaliar os resultados da Estatstica, quando aplicada ao universo lingstico.
Uma vez admitida a validade e o interesse da Estatstica
no domnio lingstico, um passo ulterior ser o do estabelecimento de uma plataforma comum para essas pesquisas, conciliando dados lingsticos e elementos estatsticos. Aqui so
freqentemente os estatsticos que se queixam do empirismo
lingstico e da anarquia de critrios reinantes entre os lingistas. Na verdade, em todos os outros domnios da Lngua,
com exceo do fontico, os trabalhos dos lingistas caracterizam-se por um largo contingente subjetivo. Por exemplo:
dificilmente coincidem os lingistas quanto definio do
vocabulrio e mais ainda divergiro eles quando tiverem que
decidir sobre as unidades lxicas em uma compilao vocabular. Se passarmos ao nvel morfmico e sinttico, as divergncias sero ainda maiores. Ora, a estatstica precisa partir
de critrios seguros e bem estabelecidos para proceder compilao de suas amostras. Sobretudo se pensarmos na automao das pesquisas dessa natureza, o problema torna-se ainda mais agudo, pois para que a mquina possa operar eficazmente necessrio apresentar-lhe um programa definido, definies objetivas, a partir do que ela fornecer os resultados.
Se esses critrios no forem linguisticamente vlidos, ou pelo
119
menos se forem imprecisos, os resultados obtidos no tero
significao lingstica.
No polo oposto, levanta-se a grita dos lingistas contra os
seus confrades matemticos. Alm do tecnicismo rebarbativo
de suas frmulas, queixam-se eles mui justamente de que alguns matemticos utilizem a lngua como instrumento de elucubraes abstratas, fazendo matemtica por si mesma e esquecendo a lngua como objetivo essencial de suas pesquisas.
Para ns, dizem eles, interessam-nos mtodos matemticos
que nos ajudem a penetrar e a descrever de modo mais exato
o universo lingstico e nada mais. Outras vezes, so os escolhos do avano dessa cincia que os deixam perplexos. Afinal,
a to propalada, aplicada e discutida lei de Zipf para a frequncia das palavras na lngua, no tem nenhum valor matemtico? Assim pontificam matemticos ilustres como Herdan
que tm demonstrado de modo meridianamente arrevesado a
inverossimilhana dessa lei. Essas e outras contradies da
Estatstica Lingstica devem pr de sobreaviso o lingista no
afeito aos meandros do mundo estatstico.
Feitas essas ressalvas, chegamos a uma afirmao axiomtica : defender a aplicao dos mtodos estatsticos no domnio
da lngua, significa formular a crena de que a lngua um
cdigo cujos smbolos obedecem a certas freqncias determinadas e previsveis. Em outras palavras, empregando o jargo
estatstico: a lngua uma populao e as realizaes do discurso podem ser consideradas como amostras desse universo.
s com base nesse postulado bsico que podemos continuar
aprimorando a nossa tcnica no estudo estatstico da lngua.
Uma pergunta deve aflorar de imediato a um lingista desacostumado a esses horizontes: com que objetivo penetraremos
em tal ddalo? que utilidade para ns podero ter essas tcnicas? Responderemos que tanto o lingista preocupado essencialmente com a cincia da linguagem, como o historiador das
lnguas, o fillogo inclinado aos estudos literrios e ao estabelecimento de textos, encontrar na prtica da Estatstica
Lingstica um rico filo para explorar, revertendo-o em moeda sonante no comrcio prtico da sua cincia especfica.
II
A Estatstica Lingstica encontrou ampla, exata e eficaz
aplicao no nvel fonmico da lngua. Os inmeros trabalhos
realizados sobre as mais diversas lnguas (das lnguas do gru-
120
po indo-europeu s lnguas semitas, chins e lnguas indgenas)
revelaram que os fonemas obedecem perfeitamente s leis da
probabilidade. O nmero de fonemas bsicos de uma lngua,
oscilando levemente entre os aproximadamente 50 fonemas
fundamentais da linguagem humana, combinam-se segundo
leis aleatrias, sendo possvel prever as diferentes probabilidades que afetam um determinado fonema em funo de uma
amostra qualquer do discurso. claro que tal distribuio dos
fonemas pode formular-se facilmente em termos estatsticos
por duas razes essenciais: a primeira que o nmero de unidades em ao relativamente pequeno (o nmero de fonemas da lngua considerada); por conseguinte, os graus de
liberdade desse sistema so pequenos; alm disso, como o
fonema quase independente do significado da mensagem,
no intervm elementos perturbadores das combinaes aleatrias e o acaso atua praticamente soberano. Isso explica a
aplicabilidade prtica e imediata da Estatstica Lingstica na
Teoria da Informao. As tcnicas aplicveis s telecomunicaes procuram obter o mximo de mensagem atravs do
mnimo de elementos, a fim de fornecer a informao ao menor custo possvel.
Como esse terreno s secundariamente nos interessa, deixo-o de lado para tratar da aplicao da Estatstica Lingstica aos outros nveis da lngua: lxico, morfolgico e sinttico. Aqui comeam as grandes dificuldades.
Os primeiros senes facilmente apreensveis so constitudos pelos dois aspectos irredutveis da realidade lingstica:
o elemento qualitativo e o quantitativo. Ningum negar o
lado quantitativo da experincia lingstica. O prprio consenso lingstico baseia-se em uma mdia de freqncia do
uso geral, aceito pela comunidade falante. Mas... e aqui
que se pode tropear: toda realizao do discurso comporta
em maior ou menor grau uma escolha por parte do falante,
ou do escritor, dos elementos lxicos, morfolgicos e sintticos disponveis da lngua no nvel em que le a atualiza. Da
o ttulo de uma das obras de Herdan Language as chance
and choice. E, na verdade, a margem de escolha bem menor
do que o estilista geralmente imagina. Contudo, os graus de
liberdade em um sistema lingstico so muito numerosos;
da a grande dificuldade de aplicao dos parmetros estatsticos a esse universo. Trabalhando-se exclusivamente com
uma populao vocabular em uma lngua como a inglesa onde,
parece, os lexemas sobem a 50.000, ser extremamente com-
121
plexo formular a aplicao dos parmetros estatsticos em um
universo com tal variedade. E por essa razo impe-se a aplicao de mtodos quantitativos, uma vez que os dados so
muito numerosos. Sendo a lingstica uma cincia de observao como a Psicologia, a Sociologia, a Meteorologia, a anlise estatstica a se impe indubitavelmente.
Para a Estatstica Lxica, em especial, muitos trabalhos
j foram realizados e alguns especialistas chegaram a estabelecer certos parmetros especficos para esse domnio. Guiraud props frmulas para o clculo do lxico potencial de
um autor e para o clculo de concentrao de um vocabulrio. Zipf estabeleceu a lei da
"constncia do produto da freqncia pela ordem (rank)
ocupada por uma palavra em uma lista de distribuio
de freqncias".
122
123
III
Passemos ltima parte as aplicaes da Estatstica
Lingstica. Tratemos primeiro da Lingstica aplicada. Um
domnio que tem utilizado amplamente a lingstica matemtica tem sido o ramo da traduo automtica. Para citar um
um exemplo nesse setor: na Universidade de Nancy (Frana)
trabalha um "Grupo de Traduo Automtica" que pesquisa
a traduo do ingls para o francs. Ali se utiliza uma calculadora eletrnica. Nessa mesma Universidade ainda um
"Centro de Pesquisa para um Tesouro da Lngua Francesa"
trabalha com essas calculadoras a fim de fazer um levantamento total do vocabulrio francs da Idade Mdia a 1950, num
inventrio de 250 milhes de palavras, a fim de traar a histria do lxico francs.
Outras pesquisas mecnicas so realizadas em vrios centros similares na Europa (Lige, Bruxelas, Gallarate, Estocolmo, Besanon, Paris, Estrasburgo, Sarrebruck), trabalhando
com mquinas eletrnicas ou mecanogrficas e atendendo a
programas diversos. O Centro de Paris (CREDIF) coletou um
material imenso da lngua francesa falada contempornea,
trabalhou-o mecnica e estatisticamente e elaborou o "francs
fundamental" em vrios graus, donde resultou o mtodo de
ensino da lngua francesa a estrangeiros "Voix et Images
de France". Essa uma das aplicaes mais imediatas da Lingstica Matemtica: o ensino de lnguas estrangeiras atravs
de mtodos rpidos e eficientes. O Centro de Bruxelas, financiado pela Euratom, realiza pesquisas nessa linha, tendo em
vista o aprendizado das principais lnguas da comunidade
europia. O Centro de Besanon j estabeleceu o "vocabulrio
bsico" para o alemo e o espanhol, trabalha no "vocabulrio
cientfico" francs, e tem no seu programa o estabelecimento
dos "vocabulrios bsicos" das principais lnguas europias.
O Centro de Besanon vem publicando tambm sistematicamente "ndices de palavras" de autores franceses da Idade
Mdia aos nossos dias, a fim de fornecer instrumento de trabalho preciso para os estudiosos literrios e lingistas da
lngua francesa.
A Lingstica Geral j se beneficiou amplamente dessas
compilaes exaustivas e exatas. No captulo da genealogia
das lnguas muita coisa j se fz com relao ao indo-europeu,
procurando-se estabelecer atravs dele uma metodologia que
possa servir no estudo da correlao de outras lnguas despro-
124
vidas de documentao histrica (lnguas indgenas das Amricas, lnguas africanas, polinsicas). Alm dos trabalhos de
Kroeber, Chrtien, Czekanowski, Collinder, seria bom lembrar
a glotocronologia de Swadesh que utiliza clculos matemticos na tentativa de estabelecer a poca de separao de duas
lnguas ou de um grupo de lnguas entre si.
A Filologia desde sempre realizou compilaes de tipo estatstico nos seus esforos para estabelecer textos, quer quando se tratava de casos de autoria discutida, quer de textos de
datao insegura. Hoje ela pode contar com dados mais precisos e com um mtodo de trabalho bem mais seguro para a
soluo desses problemas.
Finalmente, a Estilstica e a Literatura utilizaro o material fornecido pela mecanizao ou automao do "dpouillement" dos textos de um autor, de uma escola literria ou de
um perodo da lngua, a fim de estudar o estilo de um autor
ou de uma escola, as caractersticas de um perodo da lngua,
de um gnero literrio, etc.
Para concluir, relacionemos o que foi dito com a realidade
brasileira. Parece-me que no padece dvida o interesse de
promover e fomentar esse tipo de estudos entre ns. Na Universidade de Toulouse o "Instituto de Portugus" dirigido pelo
Prof. Roche j est procedendo ao "dpouillement" de textos
portugueses e brasileiros. A autora deste trabalho tambm
est fazendo o mesmo para a obra do poeta portugus Fernando Pessoa. Contudo, evidente que se faz necessrio t o d a
uma equipe bem formada para realizar um trabalho de flego
tendo em vista um estudo mais aprofundado da lngua portuguesa. A Estatstica Lingstica aplicada ao portugus viria
colaborar eficientemente no aprimoramento das tcnicas da
lingstica brasileira. Talvez pudssemos possuir, dentro de
certo tempo, calculadoras que nos ajudassem no levantamento
dos dados com menor perda de tempo e menor probabilidade
de erros. O "dpouillement" de textos portugueses e brasileiros forneceria "corpus" ideais para os trabalhos dos nossos
lingistas, fillogos, estilistas e literatos.
125
BlBLIOGRAFIA
INTERVENES:
128
Prof. MATTOSO CAMARA
4) Atendendo a uma indagao que lhe foi formulada
por um dos presentes, fz uma interveno declarando que na
aplicao da Matemtica Lingstica, o que mais o atrai e
a formulao algbrica. Pois a lgebra a verdadeira matemtica, uma "vez que o nmero ainda tem qualquer coisa de
concreto. A lgebra permite uma abstrao muito fecunda no
estudo estrutural da lngua. E um exemplo muito preciso disso
a Glotocronologia de Swadesh citado alis pela relatora.
Mas tudo isso no anula a grande utilidade da estatstica lingstica desde que executada com os critrios apontados no trabalho da Professora Maria Teresa Camargo.
STALEY CERQUEIRA
5) Indago sobre a possibilidade de delimitao do vocbulo numa obra como Ulysses, de James Joyce, em que o
problema do lxico complexssimo.
R.) Parece que um professor da Universidade de Cambridge tentou um estudo desses, mas no pude consult-lo. O
conhecimento que dele tive foi obtido por meio do citado artigo de Ellegard. A nica referncia que tenho sobre o critrio
ali adotado que se distingue "lexical unity" de "word lexical
unity".