You are on page 1of 9

Sobre a expressividade da fala

Sandra Madureira
Pontifícia Universidade Católica de São Paulo

Resumo
O objetivo deste trabalho é abordar conceitos que têm interesse para a investigação da
expressividade na fala e fornecer subsídios para a realização de uma análise dos elementos
envolvidos na construção da expressividade oral.

1. Introdução

Quando dizemos que uma fala é expressiva, geralmente nos referimos a uma fala
caracterizada por variabilidade de padrões melódicos e ritmicos, os quais, em trabalho
anterior, denominamos “recursos fônicos que veiculam efeitos de sentido”, o termo
“efeitos de sentido” usado nesse contexto para sinalizar que a matéria fônica causa
impressões nos ouvintes, os quais lhe atribuem sentidos (Madureira, 1992). Entretanto,
toda a fala é expressiva, no sentido de que alguma forma de atitude, emoção, crença, estado
físico ou condição social é veiculada por meio da fonação e da articulação dos sons.
Portanto, a fala comumente referida como monótona, também é expressiva. Ela pode ser
interpretada pelo ouvinte como indicadora de falta de entusiasmo, apatia, desinteresse,
entre outros sentidos.
A fala é a face sonora da linguagem e é essa materialidade sonora que oferece
inúmeras possibilidades de ser trabalhada (Granger, 1974) para a expressão de sentidos.
Assim pelo trabalho do falante, forma (a matéria fônica) e conteúdo (o sentido) se inter-
influenciam. Foi exatamente a constatação dessa interação que motivou Possenti (1988) a
afirmar que uma forma suscita um conteúdo e um conteúdo suscita uma forma ou no dizer
de Albano (1988) “se é verdade que o sentido faz som o som também faz sentido”.
Essa potencialidade da fala para expressar sentidos a torna um meio eficaz para a
comunicação. Por meio da fala veiculamos informações, mas também expressamos nossas
atitudes, emoções e crenças e sinalizamos nossas posições em relação ao discurso. Dessa
maneira, um tom ascendente pode ser interpretado pelos ouvintes como indicador de
continuidade do discurso e criar expectativas sobre o que o falante irá dizer na seqüência
da fala. Se escutarmos as gravações de uma mesma frase enunciada por grupo de pessoas,
também somos capazes de fazer inferências a partir da matéria fônica sobre características
físicas, sociais, e psicológicas dos indivíduos que o compõe.
A expressividade da fala constrói-se a partir das interações que se estabelecem entre
elementos segmentais (vogais e consoantes) e prosódicos (ritmo, entoação, qualidade de
voz, taxa de elocução, pausas e padrões de acento) e das relações que se estabelecem entre
som e sentido. Vogais e consoantes co-articuladas constituem o fluxo da fala e suas
características fonéticas alteram-se, dependendo das características prosódicas.
Os elementos prosódicos exercem diversas funções, entre elas: segmentar o fluxo
da fala, facilitar a compreensão da fala, destacar elementos na fala (conferir proeminência),
expressar modalidades (declarativa, interrogativa, etc), atitudes, emoções, condições físicas,
etc.).
A segmentação do fluxo de fala reduz a ambigüidade, aumenta a inteligibilidade e
proporciona ao ouvinte uma margem maior de tempo para processar a fala nos intervalos
entre grupos de palavras. Essa divisão em grupos pode ser realizada pelo uso de variados
elementos prosódicos que tendem a co-ocorrer. Além da pausa silenciosa , a segmentação
do fluxo de fala pode ser sinalizada por uma variação de pitch, pelo alongamento de
segmentos e sílabas, pelo não-estabelecimento de fenômenos coarticulatórios e por ajustes
de qualidade da voz.
Além da segmentação, o que facilita a compreensão da fala é o acento, ou seja, a
proeminência relativa que faz com que certas sílabas de palavras se destaquem no fluxo da
fala. Um elemento proeminente é aquele que apresenta características que o permitem se
diferenciar dos demais no contexto.
Como a segmentação e a acentuação interagem com a organização sintática,
semântica e e pragmática, os resultados provenientes da investigação sobre a prosódia das
línguas são cruciais para o entendimento de como se dá a expressão de várias modalidades
e efeitos de sentido a partir de uma mesma seqüência segmental na fala natural.
Tentemos imaginar possíveis maneiras de se pronunciar “Sim” em resposta a uma
pergunta. Você gostou do filme? Imaginemos que você não gostou muito e quer dar uma
resposta evasiva. Uma das maneiras de demonstrar isso seria alongar um pouco a vogal e
modificar gradativamente o tom em direção ascendente. Entretanto, se quisesse afirmar
categoricamente, a direção do tom seria provavelmente descendente e mais abrupta. Se
você alongasse os segmentos e usasse um tom ascendente-descendente,
possivelmente, o ouvinte o julgaria entusiasmado. E se você alterasse sua qualidade de
voz, utilizando um ajuste de mandíbula fechada (Laver, 1980, 1994) mudasse
gradativamente o tom em direção descendente e alongasse a duração dos segmento
vocálico, seu interlocutor provavelmente perceberia que você não está a fim de responder a
pergunta.
As variações para cima e para baixo no contorno melódico dos enunciados são
acompanhadas por mudanças de ajustes de qualidade de voz que vão desde a voz rangida (o
nível mais baixo até o falseto (o nível mais alto), passando pelo modal (o nível médio).
Essas alterações dentro dos enunciados têm importantes implicações para a análise da fala.
A fala é expressiva porque suas condições de produção possibilitam infinitos
ajustes. Nosso aparelho fonador é dotado de plasticidade e por causa disso, podemos
combinar a atuação das câmaras iniciadoras da corrente de ar (pulmões, laringe e veu
palatino), a quantidade de fluxo de ar, as direções da corrente de ar (ingressiva e
egressiva), as modificações causadas pelo posicionamento das pregas vocais e pelos
articuladores na formação das configurações do trato vocal. As combinações permitidas são
inúmeras e os efeitos acústicos variados compreendem modificações nos parâmetros de
duração, freqüência e intensidade. E é a partir das pistas acústicas depreendidas do sinal da
que o falante impressiona o ouvinte.
Consideraremos neste artigo alguns conceitos que julgamos particularmente
relevantes de serem discutidos quando se aborda a expressividade da fala: os papéis do
falante e as relações entre som e sentido consideradas a partir das noções de metáfora
sonora e simbolismo sonoro. Por fim, apresentaremos subsídios para a realização de uma
análise da expressividade oral.

2. A expressividade da fala e os papéis do falante

Segundo Goffmann (1981), o falante desempenha três papéis diferentes: o
animador, o autor e o protagonista. Estes papéis referem-se a três aspectos distintos: a
emissão do gesto vocal (o animador; a máquina falante), a produção do texto (o autor) e a
veiculação de um sistema de crenças que se quer compartilhado (protagonista).
Essa noção tri-partida do falante ressalta aspectos fundamentais da dinâmica da
fala: o ouvinte está contemplado nessa noção de falante por meio da postulação da
categoria de protagonista. A esse ouvinte o falante quer impressionar e essa sua missão
realiza-se pelas escolhas que faz sobre a forma (a animação oral) e o conteúdo (a escolha
das palavras).
Essa noção também abre perspectivas para a avaliação da expressividade na fala.
Por que alguns oradores arrebatam o público e outros não? Por que algumas pessoas
prendem a atenção de seus interlocutores em uma conversa? Para responder a essas
perguntas temos de investigar como crenças (o falante no seu papel de protagonista) são
expressas pelas escolhas lexicais ( o falante no seu papel de autor) e de recursos fônicos (o
falante no seu papel de animador).

3. A expressividade e as relações entre som e sentido

O sentido de um mesmo enunciado pode ser alterado em função das escolhas
prosódicas que fazemos. São as relações entre som e sentido que se colocam aí.
As relações entre som e sentido têm sido debatidas ao longo dos séculos por
filósofos e lingüistas. Platão, em um dos seus famosos diálogos, o Crátilo,discute se as
relações entre som e sentido estabelecem-se por convenção ou por natureza, apresentando
argumentos a favor das duas interpretações. O fato é que os dois aspectos estão envolvidos,
se considerarmos por um lado o caráter arbitrário da linguagem e por outro o caráter
simbólico dos sons, o qual interessa particularmente à investigação da expressividade oral
por implicar relações entre som e sentido que se estabelecem a partir das evocações
motivadas pelas características fônicas.
Afinal, a viva voz opõe-se à letra morta segundo a metáfora proposta por Fonagy
(1983). Para esse autor, as relações entre som e sentido podem ser consideradas a partir de
representações sintomáticas e simbólicas. Na representação sintomática, a reprodução de
um sintoma pode sinalizar emoções dela derivadas, por exemplo; a contração de músculos
do aparelho fonador pode sinalizar a tensão, nervosismo, raiva, etc. Na representação
simbólica, um órgão do aparelho fonador pode representar um outro órgão do corpo, um
objeto ou uma condição de proximidade, distância, etc. Desta maneira, formam-se as
metáforas sonoras.
Essas teorizações ajudam-nos a formular hipóteses sobre os mecanismos utilizados
por ouvintes quando instados a correlacionar tamanhos, cores, formatos com sons da fala
(Peterfalvi, 1975; Woodworth 1995): a associação entre [i] e o que é pequenino; entre [u] e
o que é escuro, por exemplo.

4. A análise da expressividade da fala

A análise da expressividade da fala deve apoiar-se nos fundamentos de modelos de
descrição fonética e de análise dos gêneros e de estilos orais e deve abordar as correlações
entre os aspectos perceptivo-auditivos e acústicos.
Tanto os segmentos quanto os elementos prosódicos são passíveis de serem
analisados quanto aos três parâmetros acústicos: duração, freqüência fundamental e
intensidade. No caso dos segmentos, referimo-nos à duração, freqüência fundamental e
intensidade intrínsecas (microprosódia) e no caso dos elementos prosódicos, referimo-nos
à duração, freqüência fundamental e intensidade das unidades maiores do que o segmento,
tais como a sílaba (macroprosódia).
A análise fonética deverá, portanto, levar em conta o uso de:
- variantes segmentais;
- padrões acentuais;
- padrões entoacionais;
- padrões ritmicos;
- variações de taxa de elocução;
- pausas (distribuição e tipologia);
- ajustes de qualidades de voz.
A maneira de descrever os elementos acima elencados depende, naturalmente, do
modelo fonético adotado. Entretanto, independentemente do modelo adotado, o recurso a
análise fonético- acústica é essencial para que se possam determinar todos os parâmetros
envolvidos. Alguns trabalhos de interesse que que consideram os parâmetros acústicos na
análise dos elementos prosódicos do português brasileiro são: Albano (2001); Barbosa
(1995, 2000, 2002); Gama Rossi (1998, 1999, 2002); Massini (1991); Madureira (2002).
A investigação das pistas acústicas auxilia-nos a estabelecer correlações com o nível
auditivo. A percepção de uma pausa, por exemplo, pode ser sinalizada por características
de variação de pitch e alongamento da sílaba acentuada imediatamente anterior à pausa ou
por presença de silêncio, ou ainda, pelo conjunto dessas características. Recorrer à
inspeção acústica é um meio eficaz de investigarmos os fenômenos ocorridos.
Apresentamos, a seguir, a três representações para ilustrarmos de que maneira uma
investigação fonético-acústica pode oferecer subsídios para a identificação das pistas
presentes no sinal acústico que possam ter influenciado a percepção de uma pausa medial
em uma das emissões de um enunciado “A casa branca foi reformada” gravado por um
sujeito do sexo masculino. A pausa medial a que nos referimos ocorreu entre “branca” e
“foi” . A gravação foi feita em ambiente acusticamente tratado e os dados digitalizados em
22kHz e analisados por meio do Multi Speech da Kay Elemetrics.
A primeira representação é a da forma da onda sonora, unidade básica da fonética
acústica que nos dá informações sobre a variação da freqüência e amplitude no tempo . Na
forma da onda podem ser realizadas medidas de duração. A segunda representação é um
contorno da freqüência fundamental da voz. Finalmente, a terceira representação, aqui
utilizada como referência para delimitar os segmentos na realização das medidas de
duração feitas na forma da onda, é um gráfico de espectrograma de banda larga, no qual
podem ser visualizados os formantes que correspondem às ressonâncias do trato vocal.
Os cursores estão posicionados sincronicamente na forma da onda e no
espectrograma de banda larga entre as palavras “branca” e foi”. Note-se que não há
presença de pausa silenciosa.
Gráfico 1. Forma da onda, contorno de freqüência fundamental e espectrograma de banda
larga do enunciado “A casa branca foi reformada”.

No gráfico 1 acima pode-se verificar um aumento da freqüência fundamental a
partir do núcleo vocálico da sílaba tônica da palavra “branca”, atingindo o valor máximo na
sílaba pós-tônica dessa mesma palavra. Nesse intervalo, constatou-se uma variação de 20
Hz e é esse um dos fatores que contribuem para a sensação de pausa.
Determinar os valores relativos de duração, freqüência e intensidade dos segmentos
e a duração do intervalo de pausa possibilitam fazer correlações entre os níveis acústico e
perceptivo. Como ilustração, apresentamos os gráficos referentes a duas emissões do
sintagma “a casa branca” por um mesmo sujeito na mesma taxa de elocução.
Na emissão referida como “seqüência 1” o sujeito enfatizou a palavra “casa”. Na
emissão da “seqüência 2” a ênfase recaiu sobre “branca”. Esses julgamentos auditivos
podem ser confrontados com os resultados da medição dos valores de duração (em ms) e
freqüência fundamental (em Hz) apresentados nos gráficos 2 e 3 a seguir.

Valores de duração (em ms) de
segmentos consonantais e vocálicos
1 2 3 4 5 6 7 8 9 10
m
s
a casa
BRANCA
a CASA
branca
Gráfico 2. A linha com losangos correspondem à emissão em que a palavra “casa”
foi enfatizada e a linha com quadrados à emissão em que a palavra “branca” foi enfatizada.
Os números na abscissa correspondem aos dez segmentos consonantais e vocálicos que
formam o sintagma “a casa branca” e os valores de duração (em ms) são apresentados na
ordenada.

Comparação em termos de percentagem, indica que na emissão com ênfase
em”casa” a vogal tônica de “casa” correspondeu a 3.2% da duração total do enunciado e a
“branca” a 5.95. Na emissão com a ênfase em “branca” os valores são 4.1% e 6.45
respectivamente.
Como podemos observar, as curvas de duração apresentadas no gráfico 1 seguem
uma evolução semelhante, pois ambas atingem o valor de duração máxima no núcleo
vocálico tônico da palavra “branca”. Contudo, a diferença entre o valor da vogal tônica de
“casa” e o da vogal tônica de “branca” na seqüência 1 é de 39 ms, enquanto que na
seqüência 2 é de 67 ms (na emissão com ênfase em “casa” a vogal tônica dessa palavra
tem 85 ms de duração e a vogal tônica de branca 124 ms, enquanto que na emissão com
ênfase em “branca”, a vogal tônica de “casa” tem 65 ms e a de “branca” 132 ms).
Não consideraremos neste artigo procedimentos exigidos pela metodologia de
análise acústica, como normalização e tratamento estatístico dos dados. Nosso intuito aqui é
apenas explicitar como se pode obter dados sobre as características acústicas a partir da
medição de segmentos no sinal da fala. Consideraremos a seguir o contorno de freqüência
fundamental (f0).

Valores de f0 na parte medial do núcleo vocálico
0
50
100
150
1 2 3 4 5
sílabas
H
za CASA branca
a casa
BRANCA
Gráfico 3. A linha com losangos correspondem à emissão em que a palavra “casa”
foi enfatizada e a linha com quadrados à emissão em que a palavra “branca” foi enfatizada.
Os números na abscissa correspondem aos núcleos vocálicos das sílabas que formam o
sintagma “a casa branca” e os valores frequência fundamental (em Hz) são apresentados na
ordenada.

Como podemos observar, o contorno da freqüência fundamental é idêntico nas
duas primeiras sílabas, mas a partir daí divergem. A freqüência fundamental sobe 5 Hz da
segunda para a terceira sílaba e cai 8 Hz da terceira para a quarta sílaba na seqüência 1. Na
seqüência 2 nessas mesmas posições as diferenças são de 19 Hz e 21 Hz respectivamente.
A seqüência 1 termina em contorno descendente e a 2 em contorno ascendente.
Além da realização da descrição fonética, é necessária a investigação de aspectos
sintáticos, semânticos, pragmáticos e discursivos a partir de modelos de análise do discurso
oral. Só dessa maneira é possível o estabelecimento de correlações entre as categorias da
estruturação discursiva e as características fonéticas. Por exemplo, a transição entre partes
do discurso, como entre a introdução de uma palestra em que o falante se apresenta e o
início do desenvolvimento da temática pode ser sinalizada por alterações de ajustes de
qualidade de voz., de estruturação ritmica ou de dinâmica de voz, entre outros recursos
fônicos.
Pelo que expusemos neste artigo, analisar a expressividade da fala compreende o
desenvolvimento de várias atividades e pressupõe desenvolvimento da habilidade de escuta
e formação em fonética e aquisição de conhecimentos sobre o funcionamento lingüístico
(noções de variação lingüística , de estilo, de categorias discursivas, de estruturação
sintática e textual, entre outras).
O desenvolvimento da habilidade de escuta requer atenção ao detalhamento
fonético, às pistas fonéticas presentes no sinal de fala. A escuta deve ser dirigida a
identificação de: proeminências relativas; características de ruído e sonoridade;
interrupções no fluxo de fala; e alterações, contrastes, alternâncias e repetição padrões
prosódicos. O apoio na inspeção acústica do sinal de fala é , sem dúvida, um grande meio
facilitador da escuta atenta.
Para se abordar questões sobre a expressividade da fala, é preciso, portanto, se
recorrer a uma ferramenta fundamental: a formação em fonética, sem dúvida, indispensável
para o estudo de qualquer aspecto da fala.

5. Considerações finais

Falar de expressividade da fala é falar sobre o uso simbólico dos sons. O uso
simbólico dos sons não se restringe ao poético, ao uso mágico do som, ele pervade o
discurso oral em suas variados gêneros e estilos e aponta para o âmago da questão do
tratamento entre som e sentido: a epistemologia do som não pode ser desvinculada da
epistemologia do sentido.
Para quem tem interesse na análise da expressividade da fala, há um grande número
de obras de referência. para citar algumas de relevância: Sapir (1957); Crystal & Quirk
(1964); Hymes (1971); Jakobson (1977); Scherer & Giles (1979); Fonagy (1983); Bolinger
(1986); Jakobson & Waugh (1987); Hinton, Nichols & Ohala (1994); Pittam (1994) e
Scherer (2003).

Nessas obras deparamo-nos com a potencialidade da matéria fônica de evocar
sentidos, a capacidade do falante de materializar em som suas idéias, atitudes e
sentimentos para comunicar ao ouvinte a impressão que intenta. No sinal da fala as marcas
utilizadas pelo ouvinte para atribuir carcaterísticas físicas, sociais e psicológicas. Isso nos
dá a dimensão do impacto da fala na comunicação entre os homens.

Referências bibliográficas:

Albano, E. C. (1988) Fazendo Sentido do Som. Ilha do Desterro. 18, 11-26. Florianópolis:
Editora da Universidade de Santa Catarina.
______ (2001) O Gesto e suas Bordas: Esboço de Fonologia Acústico-Articulatória do
Português Brasileiro. Campinas: Mercado de Letras.
Barbosa, P. (1995) "Estrutura rítmica da frase revelada por aspectos de produção e
percepção de fala". Anais do XLIII GEL, 25-27 de maio de 1995.
_______ (2000) “Syllable-timing in Brazilian Portuguese”: uma crítica a Roy Major.
D.E.L.T.A., 16 (2), p. 369-402.
_______ (2002) Explaining Brazilian Portuguese resistance to stress shift with a coupled-
oscillator model of speech rhythm production. Cadernos de Estudos Lingüísticos,
43, p. 71-92.
Bolinger, D. (1986) Intonation and Its Parts. Melody in Spoken English. London: Edward
Arnold Publishers Ltda.
Crystal, D. & Quirk, R. (1964) Systems of Prosodic and Paralinguistic Features in English.
Mouton: The Hague.
Fonagy. I. (1983) La Vive Voix. Paris: Payot.
Gama-Rossi, A. (1998) Qual é a natureza do acento secundário no português brasileiro?
Cadernos do Centro Universitário São Camilo 4 (1), p. 77-92.
_________ (1999) relações entre desenvolvimento lingüístico e neuromotor: a aquisição da
duração. Tese de Doutoramento. Instituto de Estudos da Linguagem, UNICAMP.
_________ (2002) Considerations on some aspects of the relationship between intrinsic and
extrinsic time in two 4-year-old-children’s and adult’s speech for duration in
Brazilian Portuguese Cadernos de Estudos Lingüísticos, 43, p.127-142.
Goffman, E. (1981) The Lecture . Forms of Talk. University of Pensilvania, 162-195.
Granger, G. G. (1974) Filosofia do Estilo. Tradução por Scarlett Zerbetto Marton. São
Paulo: Perspectiva, Editora da Universidade de São Paulo.
Hinton, L. Nichols, J. & Ohala, J. J. (eds.) (1994) Sound Symbolism. Cambridge:
Cambridge University Press (1994).
Hymes, D. (1971) “Sociolinguistic and Ethnography of Speaking”. Social Anthropology
and Language, Ardener, E. (ed.) London: Tavistock.
Jakobson, R. (1977) Seis lições sobre o Som e o Sentido. Lisboa: Maraes Editores.
Jakobson, R. & Waugh, L. R. (1987) The Sound Shape of Language. Berlin: Mouton de
Gruyter.
Laver, J. (1980) The Phonetic Description of Voice Quality. Cambridge University Press.
______ (1994) Principles of Phonetics. Cambridge University Press.
Madureira, S. (1999) "Post-stressed syllables in Brazilian Portuguese as markers".
Proceedings of the 14th ICPhS, San Francisco, vol. 2, p. 917-920.
______ (2002) An acoustics study of phonological phrases containing sequences of words
with adjacent primary-stressed syllables: does stress shift occur in Brasilian
Portuguese Cadernos de Estudos Lingüísticos, 43, p. 109-126.
Massini, G. (1991) A duração no estudo do acento e ritmo do português. Dissertação de
Mestrado. Instituto de Estudos da Linguagem, UNICAMP.
Peterfalvi, J. M. (1965) “Les Recherches Expérimentales sur le Symbolisme Phonétique”.
American Journal of Psychology, 65, p. 439-473.
Pittam, J. (1994) Voice in social interaction: an interdisciplinary approach. London:
SAGE.
Possenti, S. (1988) Discurso, Estilo e Subjetividade. São Paulo: Martins Fontes.
Sapir, E. (1957) Culture, Language and Personality. Mandelbaum, D. G. (ed) Berkeley and
Los Angeles: University of California Press.
Scherer, K. R. and Giles, H. (eds.) (1979) Social Marker in Speech, Cambridge University
Press and Maison des Sciences de 1’Homme, Paris, p. 343-82.
Scherer, K. (2003). Vocal communication of emotion: A review of research paradigms.
Speech Communication, 40, 227-256.
Woodworth, Nancy L. 91991) “Sound Symbolism in Proximal and Distal Forms”.
Linguistics, 29, p. 273-299.