You are on page 1of 17

Percepción

del habla

PÁGINA OPUESTA Este patrón es un espectrograma del habla, qu\'


representa la energía sonora generada al decir las palabras en
inglés speech perception, que significan percepción del habla. L()S e

espectrogramas por lo general se muestran en negro sobre un ondo )


blanco, la frecuencia se indica en un eje y los sonidos del h(l91� ell .
el otro. Véase la página 312 para obtener más detalles sobre' lós''· ·
,
espectrogramas del habla.
Espectrograma original (antes de colorear por computadora) por cortesía de Oavíd Pisoni, Luis·Herf:á-��Z
y Tessa Bent :t:o.: _,.
r
labras y encadenarlas juntas en oraciones. Este �·o· ·�·,•u..•�uc
fluye en la percepción de los estímulos entrantes, de �Ódo
.
que percibimos no sólo depende de los estímulos sonoro�
compUtad oras_pued en percib i r el habla como los sino también de los procesos cognitivos que nos
ser�� punia,os? (p. 312) pretar lo que se escucha. Comenzaremos con la-rl•·�nr-in;,_;-.
¿Ca<fu paÍabra que escuchamos tiene u n patrón único de estímulo sonoro físico, llamado señal acústica.
cambios elll a presión del aire asociado con e lla? (p. 315)
,1 ¿PcíFqllé un idioma extranjero desconocido a menudo La señal acústica
.. suena como u n flujo continuo de sonidos, s i n pausas entre .
· Los sonidos de la voz son producidos por la posicióri o �1
las palabra s? (p. 320)
miento de las estructuras internas del aparato vocal, eÍ
c. 1 '¿Existen áreas específicas del cerebro responsables de la duce patrones de cambios en la presión del aire lLamadQs
percepción del habla? (p. 323) acústico, o señal acústica. La señal acústica para la m;av<>n;a.ae'l
sonidos de voz se crea por medio del aire que empuja�
A unque percibimos el habla fácilmente en la mayoría de
..
nes y que pasa por las cuerdas vocales hacia el ttac�o
n las condiciones, detrás de esta facilidad se esconden proce­ nido que se produce depende de la forma que tiene �� Jicfo
·
cuando el aire empujado por los pulmones pisa;_ �r�tés·d�
.

Sos complejos como los que intervienen en la percepción visual


de l as escenas más complejas. Una manera de apreciar esta esta forma se ve alterada por el movim iento de los w·,._·�''dl"�
-

que incluyen estructuras como la lengua, los labios, lo �


complejidad es considerar los intentos de utilizar las compu­ .
tadoras para reconocer el habla. En la actualidad muchas em­ la mandíbula y el paladar blando (figura 13.1).
presas utilizan sistemas informáticos de reconocimiento de Consideremos primero la producción de las vocales.
voz para proporcionar servicios como la reservación de boletos se generan por la vibración de las cuerdas vocales y los
la banca automatizada y el soporte técnico de computadoras : específicos de cada vocal se crean al cambiar la for'ma:
Pero si alguna vez ha usado uno de estos sistemas, es probable del tracto vocal. Este cambio en la forma modifica la.
que una voz i n formática amigable le haya dicho "No entiendo cia de resonancia del tracto vocal y produce picos de
lo que ha dicho" en más de una ocasión. varias frecuencias d i ferentes (figura 13.2). Las frecuénda�
- .

El reconocimiento de voz por computadora mejora constan­ que se producen estos picos reciben el nombre de
temente, pero todavía no puede igualar la capacidad de las per­ Cada vocal tiene una serie característica -de
sonas para hacerlo. Las computadoras funcionan bien cuando El primer formante tiene la frecuencia más baja, el,
una persona habla despacio y con claridad, y no hay ruido de formante es el más alto, y así sucesivamente.
fondo. Pero los seres humanos podemos percibir el habla en una de la vocal /ae/ (el sonido de la vocal en la palabra
amplia variedad de condiciones, incluyendo la presencia de rui­ del verbo tener en inglés]) se muestra en el es¡)ec:tr<>lrr·aola
dos de fondo diferentes, una pronunciación descuidada, los dis­ sonido o sonograma de la figura 13.3. El
tintos dialectos y acentos de la gente y las concesiones mutuas a
menudo caóticas que habitual menee se dan las personas cuando
hablan entre ellas (Sinha, 2002; Zue y Glass, 2000).
Este capítulo le ayudará a apreciar los complejos problemas
perceptuales planteados por el habla y describirá la investiga­
ción que nos ha permitido comenzar a entender cómo el sis­
tema de percepción del habla humana ha resuelto algunos de
estos problemas.

El estímulo del habla


El c:¡_pítulo 11 inició con la descripción del sonido para lo cual
se presenta"ron los tonos puros, es decir, patrones simples de on­
das sinusoidales con amplitudes y frecuencias diferentes. Luego,
se mencionaron los tonos musicales que consisten en una serie
de tonos puros, llamados armónicos, con frecuencias que son
mlÍltiplos de la frecuencia fundamental del tono. Los sonidos
del habla aumentan la complejidad un nivel más. Aún podemos
de�cribir el habla en función de la frecuencia, pero también en
términos de los abruptos inicios y detenciones, silencios y ruidos
que �e producen cuando las personas forman palabras al hablar.
F i g u ra 13.1 1 El tracto vocal incluye las cavidades n asal
Y sonJas palabras lo que añade una dimensión importante al
bucal y la faringe, así como los componentes que se
�ab�a, los significados que las personas crean al decir estas pa- entre ellos la lengua, los labios y las cuerdas vocales.

312:: �CAPfTÜLO 13
'
- .• • :>
Percepción del habla
• ·,
Esquema del tracto vocal
trazado a partir de una
Cambios
imagen de rayos X de la boca
de presión

.
Figura 13.2 1 Izquierda: forma del tracto vocal para los-
sonidos de las vocales /i/ y /u/. Derecha: amplitud de
los cambios de presión producidos para c �da vocal.
Los picos en los cambios de presión son los formant�s:.
El sonido de cada vocal tiene un patrón c aracterístico de '·
formantes que está determinado por la forma del tra�tó
vocal para esa vocal. (De Oenes, P. B. y Pinson, E. N.,
The speech chain, 2a. ed. Copyright© 1993 por W. H.
Freeman and Company. Reproducido con permiso.)

mos en los sonidos /d/ y /f/ (los sonidos del habla se i ndican
por medio de las diagonales que los encierran). Pronuncie-es­
tos sonidos y preste atención a lo que sucede con su lengua,
sus labios y dientes. Cuando produzca el sonido /d/, coloque
la lengua contra la cresta que está encima de los dientes supe­
riores (el reborde alveolar de la figura 13.1) y luego suelte una
leve ráfaga de aire, mientras retira la lengua del reborde alveo­
lar (inténtelo). Cuando produzca el sonido /f/, coloque su labio
inferior contra los dientes frontales superiores y luego empuje
el aire entre los labios y los dientes.
Estos movimientos de la lengua, los labios y otros articu­
ladores crean patrones de energía en la señal acústica que
observamos en el espectrograma de sonido. Por ejemplo, el
espectrograma de la frase "Roy read the will" (Roy lee el tes­
tamento), que aparece en la figura 13.4, muestra aspectos de la
señal asociada con las vocales y consonantes. Las tres bandas
"Had"
horizontales marcadas como Fl, F2 y F3 son los tres formantes
ra 13.3 1 Espect rogram a de la palabr
a had que asociados con el sonido /e/ de read. Los rápidos cambios en l�
los forman tes primero (F1), segun do (F2) y tercero
frecuencia que preceden o anteceden a los formantes se d.eno­
sonido de la vocal ingles a /ae/. (Espectrograma
minan transiciones de formantes y se asocian con las· <:onso:
de Kerry Green.)
nantes. Por ejemplo, T2 y T3 son las transiciones de formantes
asociadas con la /r/ de read.
patrón de frecuen cias e intensi dades en el tiempo que Hemos descrito las características físicas de los estímulos
,•.,..�........,
la señal acústic a. La frecuen cia se indica en el eje del habla. Para comprender la percepción del habla, debemos· con·
Y el tiempo en el eje horizo ntal; la intensi siderar las unidades básicas del habla.
dad se indica
·_ oscura s, las más oscura s denota n mayor intensi dad.
figura 13.3 vemos que los forman tes son concentraciones
.
en frecuen cias específicas, en las que el sonido jae/ Unidades básicas del habla
formantes en 500, 1 700 y 2 500 Hz. Las líneas verticales Nuestra primera tarea en el estudio de la percepción del h�- ,
son oscilac iones de la presión causad as por bla es separar los sonidos del habla en unidades m_i n�jábles.
-·�·-�o...•v•u:;:, de la cuerda vocaL
¿Cuáles son estas unidades? ¿El flujo de un enunciado? ¿UIJ.a.
consonantes se producen por el estrechamie nto o cierre palabra en particular? ¿Una sílaba? ¿El sonido de imale,traf.,
vocaL Para ilustrar cómo ocurre esto nos centrar e- Un enunciado es una unidad demasiado grande- para facilitár
'
.. 4000
Ñ
:X:
.-
111
3000
ü
·e:
G)
:l
o
f 2000
u.

1000

o
R o y r e a d w

F i g u r a 13.4 1 Espectrograma de la frase "Roy read


the will", que m uestra los formantes F1, F2 y F3, y las
transiciones d e formantes T2 y T3. (Espectrograma cortesía
de Kerry Green)

el análisis y algunas letras no tienen sonido alguno. Aunque


ha.r argumentos a favor de la idea de que la sílaba es la unidad
básica del habla (Mehler, 1 98 1; Seguí, 1984), la mayor parte de
la investigación sobre el habla se ha basado en una unidad l la­
mada fonema. Un fonema es el segmento más breve del habla
que, al variar, cambia el significado de una palabra. Considere
la palabra bit, que contiene los fonemas /b/, /i/ y /t/ Sabemos
que /b/, /i/ y /t/ son fonemas porque el significado de la pala­
bra cambia si modificamos cada fonema individuaL Por ramo,
bit se convierte en kit si /b/ cambia a /k/, se convierte en bat si /i/
cambia a /a/ y se convierte en bar si /t/ cambia a /rf
En la tabla 13.la se listan los fonemas que hay en español
cinco para las vocales y 1 9 para las consonantes y en la tabla
13. lb los fonemas del inglés estadounidense 1 3 vocales y 24
consonantes. Es posible que su primera reacción ame esta úl­
tima tabla sea que hay más vocales que el conjunto estándar
que aprendió si estudió inglés en la escuela primaria (a, e, i, o,
u, y a veces y). Los fonem.as se representan por medio de símbo­

los fonéticos que denotan los sonidos del habla. En español, los
fonemas vocálicos son cinco, pero en otros idiomas pueden ser
más. Por ejemplo, en inglés algunas vocales tienen más de una
pronunciación, por lo que hay más sonidos que letras para las
vocales. Por ejemplo, la vocal o suena diferente en boat y hot, y
la vocal e suena diferenre en head y heed. Por consiguiente, los fo­ sílabas que se combinan para formar palabras. Estas
nemas no se refieren a las letras, sino a los sonidos de la voz que palabras parecen estar ensartadas una tras otra
sirven para distinguir el significado de lo que dice la geme. en un collar. Por ejemplo, percibimos la frase "la
Dado que los disrintos idiomas utilizan sonidos diferemes, fácil" como la secuencia de unidades " la-per-cep-ción
el número de fonemas varía según el idioma. Por ejemplo, en Pero aun cuando la percepción del habla pareciera sólo
hawaiano sólo hay 11 fonemas, mientras que en inglés estado­ de procesar una serie de sonidos discretos que se.
unidense se han idemificado 47 y en algunos idiomas africanos rras otro, la situación real es mucho más compleja.
hasta 60; el español tiene 24 fonemas. Así, los fonemas se defi­ En vez de seguir uno después de otro, es decir,
nen en función de los sonidos que se utilizan para pronunciar de una señal sonora vaya seguido del principio de
las palabras en un idioma específico. las !er ras en una página, las señales de los s
Parecería que, una vez idemificado el fonema corno la unidad se superponen enrre sí. Además, el patrón de
básica del habla, podríamos describir la percepción del habla en presión del aire para una palabra determinada puede
términos de las cadenas de fonemas. De acuerdo con esta idea, cho dependiendo de si la persona que habla es hom
percibimos una serie de sonidos llamados fonemas, que crean joven o anciana, lo hace rápido o despacio, o tiene

· .;-�14. QAPfJULO 13 Percepción del habla


la coarticulación al observar c;ómo se pro¡f
· relación variable 1,1ceqJ� fu�;- �: . . /��
contextos diferentes. Por eJ·emplo -diga bate y·· iiot� -·C· uJ 1':.. ·''. "1''1o'!.• ·· <¡: · ·::·; :,, __

<LUUO..usté(l . . ,
tre los fonemas dice bate, no redondea los labios, pero C!J.an Ó d dkÚohi;' ií �':Kti� :�:;"
. ' . ·

para pronunciar la o, incluso durante el prltner �oni.1o


·

) hí}�Jf¡�.:}O;.
señal acústica aunque la /b/ es la m1sma en ambas palabras se ai"ticúla
..

d�fua:
nera diferente en cada una. En este ejemplo, la�rncula�lóg
·· ·

�de:JÓ/'
problema principal que los investigadores enfrentan al era­ en bote se superpone a la articulación de /b/, prov,ocando'que k
encender la percepción del habla es que existe una rela­ redondeen los labios, incluso antes de producir el sonido fof. ·
·

var iable entre la señal acústica y los sonidos que oímos. En El hecho de que percibimos el sonido de un· fonem.� C�rllO .
palabras, una señal acústica particular puede producir
·.

el mismo aun cuando la señal acústica cambie por la c�arri�ulac .


ser ie de sonidos diferentes. Consideremos algunas fuentes ción es un ejemplo de la constancia prrceptual. Esre términ� puede
�sta variabilidad. sede familiar a partir de nuestras observaciones de los fenóme-
nos de la constancia en el sentido: de la vista, como la constan- .
cía de color (percibimos que el color cromático de un objeto
bilidad a partir del contexto es constante, incluso cuando la distribución de lalongitud de
acústica asociada con un fonema cambia de acuerdo con onda de la iluminación cambia) y la de tamaño (percibimos que
��r<nr•>vrn. Por ejemplo, en la figura 13.5 se muestran los es­ el tamaño de un objeto es constante, incluso cuando el tamaño
mas de los sonidos /di/ y /du/, estos espectrogramas de su imagen cambia en la retina). La constancia perceptual en
a mano se suavizaron en una computadora y exhiben la percepción del habla es parecida. Percibimos que el sonido de
características más importantes de los sonidos: los for­ un fonema es constante, incluso cuando el fonema aparezca en
(que se representan en rojo) y las transiciones de forman- diferentes contextos que cambian su señal acústica.
(tc azadas en azul). Dado que los formantes se asocian con
es, sabemos que los formantes a 200 y 2 600 Hz son
Variabilidad a partir de los diferentes
acústica para la vocal /i/ en /di/ y que los formantes a
y 600Hz son la señal acústica para la vocal /u/ en /du/. hablantes
Como los formantes son las señales acústicas de las vocales, La gente dice las mismas palabras en una variedad de maneras
transiciones de formantes que preceden a éstos deben ser la diferentes. La voz de algunas personas tiene un tono agudo y
' de la consonanre /d/. Pero observe que las transiciones la de otras es grave; hay quienes hablan con acento, y algunos
para los segundos formantes (mayor frecuencia) de individuos hablan muy rápido mientras que otros lo hacen
/du/ son diferentes. Para /di/, la transición de fonnantes se m-u-y- d-e-s-p-a-c-i-o. Estas variaciones en el habla significan
en casi 2 200Hz y aumenta aproximadamente a 2600Hz. que para distintas personas un fonema o una palabra en par­
..,...,,
. ..,uu/ .la transición de formanres se inicia en unos1100Hz y ticular pueden tener señales acústicas muy diferentes.
a cerca de 600Hz. Por ende, a pesar de que percibimos Los hablantes también introducen variabilidad debido a
sonido /d/ en /di/ y /du/, las transiciones de forman- su pronunciación descuidada. Por ejemplo, diga el siguiente
enunciado con la rapidez que lo haría si hablara con un amigo:
"Compré una tele en la tienda Best Buy." ¿Cómo dijo "Best
Este efecto de contexto ocurre debido a la manera en que se Buy"? ¿Pronunció la /t/ de Best, o dijo "bes buy"? ¿Qué pasa
el habla. Los articuladores se mueven constantemente con "Verdad, Gabriela"? Mientras dice esto rápidamente, ob­
hablamos, así que la forma del tracto vocal para un fa­ serve si su lengua toca la parte superior de su boca, cuando dice
recibe la influencia de las formas de los fonemas que le pre­ la /d/ en verdad. Muchas personas omiten la /d/ y dicen "Verda
y le siguen. Esta superposición entre la articulación de los Gabriela". Por último, ¿qué pasa con "¿Verdad, Yolanda?" ¿Dijo
vecinos se llama coarticulación. Usted puede demostrar "Verdad Yolanda" o dijo "Verda Yolanda"? Cada personat.��_n_e
su propia manera de producir varias palabras y fonemas,,.� �
análisis de cómo habla la gente en realidad ha determinado
que hay 50 maneras diferentes de producir la palabra en� ingl�s
, '
"the" (Waldrop, 1 988).
El hecho de que la gente no suela articular cada palabra 'por
separado en el habla coloquial se refleja en los espectrogra.nlás ·
de la figura 13.6. El de la figura 13.6a es para la pregunta "What
are you doing?" (¿Qué estás haciendo?) cuan<;io �e pronun��a
despacio y con claridad; el de la figura 13.6b es para la.mism�
pregunta, tomada del inglés coloquial, en la que "\Vllat 'áre.you
doing?" se v uelve "Whad'aya doin'?". Esta diferencia s� apr�a
de manera evidente en el espectrograma, donde se .indica :q:iie
aun cuando la primera y la úlrima palabra (wh4t Y- qoing}'cr�im. �­
Tiempo (ms)

1 Espectrogramas trazados a mano para /di/ patrones similares en ambos especrrogr;unas,'no hayp��sasen­
. (De Líberman et al., 1967.) tre ellas o son mucho menos obvias en el especrrogi-ap1a ·de· la
5000

4000

3000

2000

1000

a)

5000

4000
N'

ftS
3000
u
e:

:::J
o

.t 2000

1000

b)
Figura 13.6 1 a) Espectrograma de la pregunta "What are you doing?" pronunciada despacio
y con claridad . b) Espectrograma de "What are you doing?" pronunciada en el habla coloquial.
(Espectrogramas cortesía de David Pisoni.)

figura 13.6b, y la parte central de este espectrograma es por com­ Percepción categórica
pleto diferente, con una serie de sonidos del habla faltantes.
Mientras buscaban las conexiones entre la señal y la
La variabilidad en la señal acústica causada por la coar­
del habla, los investigadores descubrieron un
ticulación, los distintos hablantes y la pronunciación descui­
mado percepción categórica, una amplia gama de
dada, crea un problema para el oyente, quien debe transformar
de señales acústicas en la percepción de un número
de alguna manera la información contenida en esta señal acús­
categorías de sonidos. Usaremos un ejemplo específico
tica tan variable en palabras conocidas. En la sección siguiente
para explicar este fenómeno.
consideraremos algunas de las formas en que el sistema de per­
El ejemplo que vamos a describir consiste en la
cepción del habla resuelve el problema de variabilidad.
de una característica de la señal acústica llamada ti
inicio de la voz (TIV), que es el tiempo de demora entre
.
Información para la percepción mento en que empieza el sonido y el comienzo de la
de las cuerdas vocales. Para ilustrar esta demora
de fonemas espectrogramas de los sonidos /da/ y /ta/ en la figura
___________ ______...,.
_ . """"
___:UerlOQ';ji .....
... . ÜMI
estos espectrogramas se aprecia que el lapso entre el ·

Una de las formas en que el sistema de percepción del habla sonido /da/ y el comienzo de las vibraciones de las cu
resuelve el problema de la variabilidad es con la simplificación cales {que se representan con las franjas verticales en el
de lo que escuchamos por medio de un proceso llamado percep­ trograma) es de 17 ms para /da/ y 91 ms para /ta/ Por
ción_ categórica. tiene un TIV breve mientras que el TIV de /ta/ es largo.

316. - CAPfTULO 13 Percepción del habla


100


� 80
10
;¡¡
o.
(1)
=
..
(1)
Gl
;::¡
60
o.
m
Gl
...
Gl
"O
Gl 40
-¡¡¡
..
e:
d a a Gl
o
...
o
13.7 1 Espectrogramas para /da/ y Ita/. El tiempo de Q.
· 20
la voz, es decir, el lapso entre el comienzo del sonido
ción de la sonorización , se indica al principio del
....-trntlrl'llml'l de cada sonido. (Espectrogramas cortesía

Gracias al uso de las computadoras los investigadores han Tiempo de inicio de la voz (ms)
sonoros en los que el TIV varía de breve a largo Figura 13.8 1 Los resultados de un experimento de
..... "'"'""pequeños. Cuando el TIV cambia, al usar estímulos percepción categórica indican que /da/ se percibe por el
los de la figura 13.7, y se pide a los oyentes que indiquen TIV a l a izquierda del l ímite fonético y /ta/, debido a l TIV, se
. sonido escuchan, éstos mencionan sólo uno u otro de los escucha a l a derecha del l ímite fonético. (Tomado de Eímas
fonemas, /da/ o /ta/, aunque se les preseme un gran nú- y Corbit, 1973.)

de estímulos de TI V. "Igual" 'Diferente'


Este resultado se muestra en la figura 13.8 ( Eimas y Cor-
1973). Para los TIV breves, los oyentes informan que escu­
. /da/ y siguen diciendo esto aun cuando el TIV aumente.
100
cuando el TIV alcanza alrededor de 35 ms, su p6rcepción
· abruptameme, por lo que si el TIV rebasa los 40 ms, los
informan que escuchan /taj. El TIV que señala el cam- �
de /da/ a /ta/ en la percepción se llama l ímite fonético. El � 80
"'
...
clave de este experimento de percepción categórica es m
o.
si bien el TIV cambia constantemente a lo largo de un rango m
m
..
, el oyente percibe sólo dos categorías: /da/ en un lado del
m
·
CD 60
;::¡
fonético y /ta/ en el otro lado. o.
m
Una vez que se ha demostrado la percepción categórica con Gl
...
Gl
imiento anterior, es posible realizar una prueba de discri­ "O
Gl 40
en la que se presentan dos estímulos con TIV distintos "ij'
-
pregunta al oyente si el sonido es igual o diferente. Cuando e:
ID
o
<-.:><;uL4u dos estímulos separados por un TIV de 25 ms que
...
o
Q.
en el mismo lado del límite fonético, como los estímulos 20

TIV de O y 25 ms, el oyente afirma que el sonido es igual


13.9). Sin embargo, cuando se presentan dos estímulos
por la misma diferencia en TIV pero que se encuen­
en el lado opuesto del límite fonético, como los estímulos
TIV de 25 y SO ms, el oyente asegura que son distintos. El Tiempo de Inicio de la voz (ms)
de que se perciba que todos los estímulos en el mismo
Figura 13.9 1 En la parte de discriminación de un
del límite fonético pertenecen a la misma categoría es
experimento d e percepción categórica, se presentandos
de la constancia perceprual. Si esta constancia no
estím ulos y el oyente señala si son iguales o diferentes ..
percibiríamos sonidos diferentes cada vez que el TIV El resultado típico es que dos estímulos con u n TIV �n e l
En vez de ello, escuchamos un sonido a cada lado mismo lado d e l límite fonético (TIV O y 25 m s ; flechas
=
.
límite fonético. Esto simplifica nuestra percepción de los continuas) se considera n iguales, en tanto que. dos estíl)ltilos
y nos ayuda a percibir con mayor facilidad la gran va­ en diferentes lados del l ímite fonético (TIV =25 Y 50 in�; ·.

de sonidos de nuestro entorno. flechas discontinu as) se perciben como distintos.


. nes mostró que ver el movimiento de los labios acciva un
- Ipformad�n proporcionada la coneza auditiva que también se activa cuando la gente
por-el rostro el habla. Tal vez, sugiere Calven, el hecho de que las

Otra ca.racterística de la percepción del habla es que es multi­ se activen durante la lectura labial y la percepción del
modal· es decir la información de otros semidos influye en un mecanismo neuronal que subyace al efecto McGurk.-
..,_ ' -·' '
nu�trapen;:epción del habla. Un ejemplo de cómo influye la in- El vínculo entre la percepción del habla y la del
fórn:i.¡ción visual en la percepción del habla se muestra en la demostrado de otra manera; Katharina von Kriegstein.y
figural3.10. Al principio, nuestro oyeme escucha los sonidos laboradores (2005) midieron la activación por medio d� ·

jba:b;t/como si procedieran de las bocinas, pero cuando a modo mientras los oyentes realizaban una serie de rareas que .
de e�rimulación visual se añade un video en el que se muestra frases pronunciadas po,rpersonas conocida$_ (qU'e tréLDaLJaiJatt·f
a una persona que mueve los labios como si pronunciara el so­ laboratorio) y desconocida$ (que nunca antes habían
-
nido /ga-ga/, nuestro oyente escucha /da-da/ Aunque el oye me El simple hecho ae escuchar el habla actívó el
sigue recibiendo la seii.al acústica para /ba-ba/, su t\1: �� poral superior (STS, véase la figura 8.13), una zona q
.' .� 2• 3
percepCion cam b'ta, por l o que oye /d a-da1. rudios anteriores se asoció con la percepción del habla
Este efecto se llama efecto McGurk, en honor a la per­ aL, 2000). Pero cuando se pidió a los oyentes que
sona que lo describió por primera vez (McGurk y MacDonald, tarea que consistía en prestar atención a los sonidos·
1976), e ilustra que a pesar de que la información auditiva es la conocidas, el área fusiforme del rostro (AFR) tambiéti.'
principal fuente de información para la percepción del habla, En contraste, cuando prestaron atención a los sonidos·
la información visual también ejerce gran influencia en lo que desconocidas, el AFR no se activó. Al parecer, cuand�-
oímos. Esta influencia de la visión en la percepción del habla se oye una voz que asocia con una persona determinada s ··
conoce como percepción audiovisual del habla. El efecto Mc­ áreas no sólo para la percepción del habla, sino también
Gurk es un ejemplo de la percepción audiovisual del habla; otro de los rostros. El vínculo entre la percepción del habla
ejemplo es la manera en que las personas se apoyan rutinaria­ rostro, que se ha demostrado tanto en experimentos u�'"-'"J:I'.l.!
me� te en la información proporcionada por los movimientos como de comportamiento, proporciona inform
de los labios de la persona para comprender lo que dice en un nos ayuda a hacer frente a la variabilidad de los
ambiente ruidoso (véase también Su mby y Pollack, 1954). tambiénHall et al. 2005, y Wassenhove et al., 2005, para
,

El vínculo entre la visión y el habla también ha demostrado información más detallada sobre la relación entre la
tener una base fisiológica. Gemma Calvert y sus colaboradores ción de alguien que habla y la percepción del habla}.
(1997 ) urilizaron la 1 RMf para medir la actividad cerebral mien­
tras los observadores veían un video sin audio de una persona que
movía los labios cuando decía números. Los observadores repitie­ Información a partir de nuestro
ron en silencio los números mientras veían a la person�, por lo que
conocimiento de la lengua
esta tarea fue similar a lo que la gente hace cuando lee los labios.
En una condición de control, los observadores vieron la escena Una gran camidad de investigación ha demostrado que.
·

estática de un rostro, mientras repetían en silencio los números. fácil percibir los fonemas que aparecen en un
Una comparación de la actividad cerebral en estas dos condicio- ficativo. Philip Rubín, M. T. Turvey y Peter Van G
demostraron que el significado aumenta la capac
oyente para reconocer los fonemas al presentar una '";.'''"··��.-.r
labras breves en inglés, como sin, baty leg, y grupos de let:a:s
eran palabras, como jum, baf y teg, y pedir a los oyentes
"
mieran una tecla lo más rápido posible cuando
sonido que comenzara con jbj. En promedio, los
tardaron 631 ms en responder a los grupos de letras y
las palabras. Asi, cuando un fonema se encuentra al
de una palabra real, se identifica alrededor de 8% mas.
que cuando está al inicio de una sílaba sin sentido.
Richard Warren (1970) demostró de otra manera el
.
significación en la percepción de los fonemas; pidió ,a:
ticipantes que escucharan una grabación del
state governors met with their respective legislatures
in the capital city" (Los gobernadores estatales se
con sus respectivas asambleas legislativas en la
estados). Warren reemplazó a la primera jsj en

Figura 13.10 1 El efecto McGurk. Los labios de la mujer ("legislativas") con el sonido de una tos y pidió a sus .
se mueven mientras dice /ga-ga/, pero el sonido real que se panres que indicaran en qué parte de la frase se
presenta es /ba-ba/. El oyente dice que escucha el sonido Ninguno de ellos identificó la ubicación correcta de la.
/da-da/. Si el oyente cierra los ojos, de modo que ya no vea que es más importante, ninguno se dio cuenta de que
los labios de la mujer, escucha /ba-ba/. De esta manera, ver el la /s/ en "legislarures" ("legislativas"). Este efecto, que
movimiento de los labios influye en lo que el oyente escucha. llama efecto de restauración fonémica, fue

318 CAPITULO 13 Percepción del habla


por los estudiames y el personal del departamento de
�.0,u¡s"� que sabían que faltaba la /s/
Warren no sólo mostró el efecto de restauración fonémica,
demostró que el significado de las palabras que van
del fonema faltante influyen en este efecto. Por ejem­
_últinla palabra de la frase "There was time to *ave... "
el* indica la presencia de la tos o de algún orro sonido)
ser "shave", "save", "wave" o "rave", pero los participantes
la palabra "wave" (onda) cuando el resto de la frase
refería a decir adiós a un amigo que partía .
. Arthur Samuel (1981) utilizó el efecto de restauración foné­
. · para demostrar que la percepción del habla está determinada
·por la naturaleza de la señal acústica (procesamiento aseen­
como por el contexto que genera expectativas en el oyente Información para la percepció.n
to descendente). Samuel demostró el procesamiento
·

u;¡•�-...-� al evidenciar que la restauración es mejor cuando un


de palabras habladas
de enmascaramiento, como el sonido de siseo producido
Hemos visto que no hay una relación uno -a-uno entre las se­
un televisor que se ha sintonizado en un canal en el que no
transmisión ("ruido blanco"), y los fonemas enmascarados ñales acústicas y nuestra percepción de los fonemas. Ahora
. un sonido parecido. De esta· manera, es más probable que mosrraremos cómo esta falta de correspondencia uno-a-uno
fonémica se produzca para un fonema como fs/, también ocurre en la percepción de palabras.
mucha energía acústica de alta frecuencia, sí la máscara
contiene una gran proporción de energía de alta frecuen­
Lo que sucede en la restauración fonémica, según Samuel, es Información a partir del contexto
antes de que percibamos en realidad un sonido "restaurado", de los enunciados
presencia debe ser confirmada por un sonido similar a él. Si la
Al igual que la percepción de los fonemas se apoya en los signi­
de "ruido blanco" contiene frecuencias que le confieren
·

ficados de las palabras, la percepción de las palabras se basa en


sonido parecido al fonema que esperamos, se produce la res­
los enunciados en los que aparecen.
fonémica y es probable que escuchemos el fonema. Si la
no tiene un sonido similar, es menos probable que dicha Percepción de las palabras en los enun­
ración ocurra (Samuel, 1990). ciados Una forma de ilustrar cómo el hecho de estar en
Samuel demostró el procesamiento descendente al compro­ un enunciado puede influir en la percepción de las palabras es
- que las palabras aumentan la probabilidad de que �curra el
mostrar que las palabras pueden leerse incluso cuando están
··-de restauración fonémica. En apariencia, los parricipan­
i ncompletas, como en la siguieme demostración.
usaron el comexto adicional proporcionado por la palabra
· como ayuda para identificar el fonema enmascarado. Otra
de la imporrancia del contexto es el hallazgo de este in­ DEMOSTRACIÓN
"'"""'"v' acerca de que la restauración ocurre más a menudo
una palabra real en inglés como p rOgress (en que la letra roa­ Percepción de enunciados incompletos
indica el fonema enmascarado) que para una "pseudo­
parecida, como crOgress (Samuel, 1 990; véase también Lea las siguientes frases:
1997, 2001, para conocer más pruebas de que el procesa- 1. M*R*T*NI**N* OV*JIT *B L*NC'C*M*L*NI*V*
descendente interviene en la restauración fonémica). 2. *L S*L N* *S T* B R*L L*ND* H*Y
3. *LG*N*S P*L*BR*S *YUD*N * *NT*ND *R * *TR*S 1

Su capacidad para leer los enunciados, aun cuando la mi­


tad de las letras se han eliminado, se apoyó en su conocimiento
de las palabras en español, en la manera en que se unen para
formar oraciones y, quizá, en el primer ejemplo, en su familia"
ridad con la rima infa mil (Denes y Pinson, 1 993).
Un efecto similar de significación se produce también en
las palabras habladas. George Miller y Steven Isard (1963) ofre­
cieron una de las primeras demostraciones del modo en que
la significación facilita la percepción de las palabras habladas;.
en ella observaron que las palabras son más comprensibles
cuando se escuchan en el contexto de un enunciado que si se
presentan como elementos de una lista de palabras inconexas. ·

En su demostración crearon tres tipos de estímulos: 1) oracio.- ·

Información para la percepción de palabras hablad�.·


ri�s gci:macicale�:ll<:)rrriales ("Los aparatos simplifican el tra- visual, en general tenemos pocos problemas para percibir
• bajo· d� _la casa"); 2� frases i ncoheren tes que siguen las reglas labras individuales al conversar con otra persona. Pero
grámat1cales, pero no tienen sentido ("Los aparatos matan a miramos la señal de voz, vemos que la señal acústica es
los pas�jero� de los ojos") y 3) cadenas de palabras no gramati­ nua, ya sea sin pausas físicas en ella o con pausas que
�Íes (''Entre aparatos carreteras pasajeros los roban"). fuerza corresponden a aquellas que percibimos entre­
'
. ' Miller e Isard utilizaron u na técnica llamada sombreado, bras (figura 13.11). La percepción de las palabras·
una conversación se conoce como segmentación del habi�.
.
en ia· q'Je presentaron estos enunciados a algunos participan­

e�¿ _Ror inedio de aud í fonos y les pidieron que repitieran en voz El hecho de que en general no haya espacios eritre lás ·

alta lo que ·escucha ban. Ellos repitieron los enunciados norma­ bras se hace evidente cuando se escucha a una persona
,
I�s cori una precisión de 89%, pero su exactitud se redujo a 79% idioma extranjero. Para alguien que no está
cori los enunciados anómalas y a 56% para las cadenas grama­ ese idioma, las palabras pasan a toda velocidad en una
ticales. Las d i ferencias entre los tres tipos de estímulos se hicie­ ininterrumpida. Sin embargo, para un hablante de ese
ron aún mayores cuando los oyentes escucharon los estímulos las palabras parecen separadas, justo como usted percibe.
acompañados de un r uido de fondo. Por ejemplo, con un nivel su lengua materna. De alguna manera resolvemos el
moderadamente aleo de ruido de fondo, la precisión fue de 63% de la segmentación del habla y dividimos el flujo L'-''·'L'·"u•u,
en los enunciados normales, 22% en las anómalas y sólo 3% en señal acústica en una serie de palabras individuales.
las cadenas de palabras no gramaticales. Este resultado sugiere El hecho de que podamos percibir palabras ·

que cuando las palabras se organizan en un patrón significa­ en el lenguaje coloquial, aun cuando no haya pausas e n
tivo, es posible percibirlas con mayor facilidad. Pero la mayoría ñal de voz, signi fica que nuestra percepción de las _

de las personas no se dan cuenta de que su conocimiento de la sólo se basa en la energía que estimula a los receptore�c
naturaleza de su idioma es lo que les ayuda a completar los so­ que nos ayuda a determinar cuándo termina una palabra y
njdos y las palabras que podrían ser difíciles de escuchar. Por pieza otra es el conocimiento de sus sign i ficados. La
ejemplo, nuestro conocimiento de las estructuras de palabras entre la segmentación del habla y el signi ficado se ilustra · ·
admisibles nos dice que ANT, TAN y NAT son secuencias ad­ siguiente demostración.
misibles de letras en inglés o en español, pero que TQN o NQT
no pueden ser palabras en inglés ni en español.
Un efecto similar de signi ficancia en la percepción también
DEMOSTRACIÓN
se debe a que nuestro conocimiento de las reglas gramaticales
nos dice que "No hay tiempo para preguntar" es un enunciado
Organización de cadenas de sonidos
admisible, pero "Preguntar, tiempo no hay" no es admisible o,
en el mejor de los casos, es muy complicada (a menos que us­ Lea las palabras siguientes: Elba Lona Trave Sol Había.
ted sea Yoda, de La Guerra de las Galaxias, que dice esto en el que ha leído las palabras, ¿qué significan? 1
Episodio !JI: La Venganza de los Sith). Debido a que la mayor parte
del tiempo encontramos palabras con sentido y enunciados co­
rrectos desde el punto de vista gramatical, continuamente usa­ Si piensa que esto es una lista de palabras sin co
mos nuestro conocimiento de lo que está permitido en nuestro comienzan con el nombre de una mujer, Elba, tiene razón
idioma como ayuda para entender lo que se dice. Esto se vuelve lea esta serie de palabras en voz alta con rapidez e
importante en particular cuando se escucha en condiciones los espacios entre ellas. Cuando lo hace, ¿puede oír una·
menos que ideales, como en entornos ruidosos o cuando es coherente que no empieza con el nombre de Elba? (La
difíci l entender la calidad de la voz del hablante o su acento se encuentra en la página 327, pero no la vea hasta
(véase también Salasoo y Pisoni, 1985). intentado leer las palabras con rapidez.)
Si pudo formar un nuevo enunciado a partir de la
Percepción de pausas entre palabras Así como palabras, se debió a que cambió la organización nPrc:e.ou
vemos los objetos sin esfuerzo cuando observamos una escena de los sonidos; esta modi ficación se logró gracias a su

S p EE CHS E G MEN T A T IO N
Figura 13.11 1 Energía sonora de las p�labras "Speech segmentatio n " (Segmentación del
habla). Note que es d ifíci l decir a partir de este registro dónde termi n a una palabra y empieza
la otra. (Señal de voz cortesía de Lisa Saunders.)

CAP[TULO 13 Percepción del habla


·enro del signif icado de los sonidos. Del m ismo modo .
,., ,. � �·
� j¡h.. _..,
,

la organización perceptiva de la escena del bosque en la


.:-�
. -
5.20 depende de ver las rocas como parrones significa- --. .
(rosrros), su percepción del nuevo enunciado depende de
el significado de los sonidos que usted creó cuando Aprendizaje
.palabras con rapidez. a)
dos oraciones siguientes proporcionan otro ejemplo de
el significado y el conocimiento o la experiencia previos
responsables de organizar los sonidos en palabras. �
· ,

"'
f3 7 .5 1--"-+A+'""'"'�
· Se requieren "más cada" vez. ::S
(J
en
: 7. o �----��---�
'O
o
"Más cada" y "mascada" se pronuncian igual, por lo que es­ c.
E 6. 5
estas palabras de manera diferenre depende del signifi- Gl
¡::
general del enunciado en el que aparecen. Este ejemplo es
a la conocida frase en inglés " I scream, you scream, we
completa la palabra
for ice cream" que muchas personas aprendieron en
Los estímulos sonoros para "1 scream" y "ice cream" b) Estímulo
-•u'"""·�·vJ, por lo que la organización d istinta debe lograrse
Figura 13.12 1 a) Diseño del experimento de Saffran y
del significado del enunciado en el que aparecen es- colaboradores (1996), en el que los bebés escucharon una
serie continua de sílabas sin sentido y l u ego se realizaron
M ientras la segmentación se apoya en el conocim.iento de pruebas para ver cuáles sonidos percibían u nidos. b) Los
ficados de las palabras y en el uso del contexto en que resultados indicaron que los bebés escucharon por más
los oyentes también utilizan otra información para lo­ tiempo los estímulos de "parte de la palabra".
la segmentación. A medida que aprendemos un idioma,
que es más probable que ciertos sonidos sucedan uno bebés escucharon estas cadenas, wdas las palabras se pronun­
de otro dentro de una palabra, y algunos sonidos son ciaron con la misma entonación y no hubo pausas entre e llas
propensos a estar separados por el espacio entre dos pala­ que indicaran cuándo finaliza una palabra y empieza la.!Vl�l
4
r- ejemplo, considere las palabras pretty baby. En inglés s¡gu¡ente.
que pre y ty estén en la m isma palabra (pre-tty) y Debido a que las palabras se presentaron al azar y sin es­
ba estén separadas por un espacio por lo que estarán en pacios entre ellas, la cadena de palabras de dos minutos que los
u........u .... � diferenres (pretty baby). Por tanto es más probable bebés escucharon se oye como una mezcla de sonidos al azar.
espacio en la frase prettybaby esté entre pretty y baby. Sin embargo, había información en dicha cadena en forma de
Los psicólogos describen la manera en que los sonidos se probabilidades de transición que los bebés podían utilizar para
unos a otros en el lenguaje en función de las probabili­ determinar qué grupos de sonidos eran palabras. Las probabi­
de transición; es decir, la posibilidad de que un sonido l idades de transición emre dos sílabas que aparecieron dentro
después de otro. Cada idioma tiene probabilidades de tran­ de una palabra siempre fueron de 1.0. Por ejemplo, para la pa­
para los diferentes sonidos y, a medida que aprendemos labra bidaku, cuando se presentó jbi/, siempre siguió /da! Del
no sólo asimilamos cómo decir y entender las pala­ mismo modo, cuando se presentó jda/, siempre siguió jku/ En
y los enunciados, sino también las probabilidades de rran- otras palabras, estos tres sonidos ocurrieron siempre juntos y
que hay en ese idioma. El proceso de aprendizaje acerca en el mismo orden, para formar la palabra bídaku. No obstante,
probabilidades de transición y de otras caracterísücas del las probabilidades de transición entre el final de una palabra y
· se llama aprendizaje est<tdístico. La investigación ha el comienzo de otra eran de sólo 0.33. Por ejemplo, hubo 33% de
uv''''"'uu que los bebés de apenas ocho meses de edad son ca­ probabilidades de que el último sonido de bidaku, jku/, fuera se­
de aprender de manera estadística. guido por el primer sonido de padoti, /pa/, 33% de que le siguiera
Saffran y sus colaboradores ( 1996) l levaron a cabo /tu/ de tupiro y 33% de que después viniera/gol de golabu.
los primeros experimentos que demostraron el aprendi- Si los bebés de Saffran fueran sensibles a las probab.il i ­
'"-'u"uLu en los niños pequeños. La figura 1 3 . 1 2a muestra dades de transición, percibirían como palabras los estímulos
de este experimento. Durante la fase de aprendizaje bidaku o padoti, porque las tres sílabas de cada una están 'vincu­
los bebés escuchaban cuatro "palabras" sin ladas por las probabi lidades de transición de l. O. En contraste,
como bidaku, padoti, golabu y tupiro, que se cambi- los estímulos como tibida (el final de padoti más el comienzo de
a! azar para crear dos minutos de sonido continuo. Un bidaku) no se perciben como palabras porque sus componen.res
de una parte de la cadena creada con la combinación no están vinculados.
palabras es bidakupadotigolabutupiropadotibidaku. . . En Para determinar si los bebés, en efecto, peróbe� é(?[.Il.o-;
.,.- �.,...ucu... . se imprimió en negritas una palabra sí y otra no, palabras Jos estímulos como bidaku y padoti, se l�s ·soine"rió a
fin de ayudarle a distinguirlas. Sin embargo, cuando los una prueba en la que se les presentaro n pares de esríll.\u�os :de
.

Información par a la percepción de palabras habladas:·


•• ""<• __,
, interpretar como "No lo creo". El punto de este ejemplo
Un� de los estímulo s fue una "palabra" que se ha-
ti:�s sÜá bas.
Este fue el estímulo de es que "Sí, claro" puede significar "No lo creo", sino que
· bía pre�entad o antes, digamos, padoti.
..

prueba "palabra completa". El otro estímulo se creó a partir del nificado de esta frase está determinado por nuestro
·final de una palabra y el comienzo de otra, como tibida. Este del uso actual del español y además (si en realidad
fue el estimulo de prueba "parte de la palabra". mos la observación del estudiante) por el tono de · la
La predicción era que los bebés elegirían escuchar estímu­ persona que habla, que en este caso sería muy sard.stico.
los de prueba de "parte de la palabra" más que de "palabra com­ El tono de voz del hablante es un factor que
pleta''. Esta predicción se basó en i nvestigaciones previas que oyentes a determinar el significado de lo que se dice.
mostraron que los bebés pierden interés en los estímulos que se mayor parte de la i nvestigación sobre las característicaS
repiten y que, por ende, se vuelven fami liares, pero prestan más se ha enfocado en cómo la identidad del hablante in
atención a los estímulos novedosos que no han experimentado la percepción del habla. Thomas Palmeri, Stephén G
antes. Por tanto, si los n iños percibían el estímulo de "palabra y David Pisoni ( 1 993) demostraron el efecto de l a ,· �•c:u.uutau.
completa" como palabras que se habían repetido una y otra vez hablante al presentar una secuencia de palabras a los
durante los dos minutos que duraba la sesión de aprendizaje, Después de cada palabra, éstos indicaron si era nueva
prestarían menos atención a e l los que a los más novedosos de primera vez que aparecía) o antigua (que había aparecid�
"parte de la palabra" que no habían percibido como palabras. en la secuencia). Encontraron que los oyentes
Saffran midió cuánto tiempo escucharon los n iños cada mayor rapidez y eran más precisos cuando la misma
sonido al presentar una luz intermitente cerca de la bocina de decía todas las palabras que si las decían varias nPr�r'""
la que provenía el sonido. Cuando la luz atrajo la atención de los sign i fica que los oyentes asimi lan dos niveles de ·
bebés, el sonido se inició y continuó hasta que el bebé apartó la acerca de las palabras: 1) su significado y 2) las '-''''"'"'e '
mirada. Así, el bebé controlaba cuánto tiempo escuchaba cada de la voz del hablante.
so� ido por el tiempo que miraba la luz. De los resultados de este experimento y de otros
La figura 1 3. 1 2b muestra que, como se predijo, los bebés sí mos estudiado, es posible conclu ir que la percepción de�
escucharon los estímulos de "parte de la palabra". Estos resul­ depende tanto de la información ascendente proporc·
tados son impresionantes, sobre todo porque los n iños nunca ' '
por la señal acústica como de la información des'"'"''�'�'''''''-1
antes habían oído las palabras, no percibían pausas entre ellas aportan los significados de las palabras y los c.wu"'-'''·uv»¡
y sólo habían escuchado las cadenas de palabras durante dos nacim iento del oyente acerca de las reglas
minutos. De resultados como éstos es posible concluir que la características de la voz del hablante (figura 1 3.13).
capacidad para uti l i zar las probabil idades de transición en Podemos apreciar la interacción entre la señal
la segmentación de los sonidos en las palabras comienza a una para el habla y el sign i ficado de las palabras cuando··
edad temprana. bimos que, aunque uti l izamos el signi ficado· corno
para comprender la señal acústica, ésta es el punto de
tida para determinar el significado. Véalo de esta '"'""· '"-"
Información de las características
mi escritura descuidada quizá haya información su
de los h ablantes para que alguien que utiliza el procesamiento ascend�
Cuando usted conversa, escucha una clase o los diálogos de descifre sólo a partir de la base de los garabatos en la
una película, en general enfoca su atención en determinar el pero es mucho más fáci l desc i frarla cuando, al usar el
signi ficado de lo que se dice. Pero al mismo tiempo que usted
asimila estos mensajes también registra, quizá sin darse cuen­
ta, las características de la voz del hablante. Estas característi­ Conocimiento/
significad o
cas, denominadas características índice, contienen información
acerca de los hablantes, como su edad, sexo, lugar de origen ,
estado emocional y si son sarcásticos o serios. Considere, por
ejemplo, la siguiente broma:

Cierto d ía, un profesor de lingüística impartía una


clase. "En inglés", d ijo, "una doble negación forma
una afi rmación. E n algunos idiomas, no obstante,
como el ruso, una doble negación sigue siendo una
negación. Sin embargo, no existe un idioma en el
que una doble afirmación pueda formar una nega­
c ión". Una voz desde el fondo del salón se escuchó:
"Sí, claro". Señal acústica

Esta broma es graciosa porque "Sí, claro" contiene dos pa­


F i g u r a 13.13 1 La percepción del habla es el resu
labras positivas que, a pesar de la declaración del profesor de del trabajo conjunto del procesamiento descendente (q
lingüística, producen una negación que la mayoría de las per­ se basa e n el conocimiento y e l s i g nificado) y ascend ·

sonas• que conocen el uso del español contemporáneo pueden (a partir de la señal acústica).

· , �322 CAPIT\::JLO 1 3 Percepción d e l habla


descendente, la persona roma en cuenta el significado
palabras. Y así como la experiencia previa de escuchar la
de una persona en panicular permite comprenderla con
r facilidad más adelanre, la experiencia previa en la lec­
de una escritura descuidada permite leer con más facili­
garabatos en l a página. La percepción del habla al pa­
funciona en forma similar. Aunque la mayor parte de la
está comenida en la señal acústica, considerar el
ificado y las características índice facilita mucho la ¡v,<j
L 5
ión del habla.

percepción del habla


· cerebro Figura 13.14 1 Las áreas de Broca y de Wernicke se
identificaron en las primeras investigaciones como si estuvieran
. ·
especializadas en la producción y la comprensión del habla.
investigación de las bases fisiológicas de la percepción del
se remonta al menos al siglo XIX, pero sólo hasta hace
·hubo grandes avances en la comprensión de las bases fi­
comprenderlas (Micelli et al., 1 980). Resultados como. éstos
- - de la percepción del habla y el reconocimiento de las
ilustran la compleja relación entre el funcionamiento del c ere ­
habladas.
bro y la percepción del habla.
Los estudios de las imágenes cerebrales han arrojado re­
sultados más fáciles de entender. Por ejemplo, Pascal Belin y
ación cortical de la percepción
colaboradores (2000) milizaron la I RMf para localizar un "área
habla de la voz" en el surco temporal superior (STS) que se activa por
base en sus estudios de pacientes con lesión cerebral, los la voz humana más que por otros sonidos. Esta área es parte del
•t:�Ll);·«u•v•••-> del siglo XIX Paul Broca y Carl Wernicke demos­ flujo de procesamiento ventral para la audición que se describe
que las lesiones en áreas específicas del cerebro provocan en el capítulo 11 (véase la página 281). En la descripción de la
vv•M'"'" de lenguaje, llamados afasias (figura 1 3 . 14). Existen organización cortical para la audición en el capíwlo 1 1, vimos
as formas de afasia, cuyos síntomas específicos dependen de que el flujo ventral interviene en la identificación de sonidos y
, ...., u a... U<S.na.ua. y de la extensión de la lesión. Los pacientes con el flujo dorsal interviene en la localización de los mismos (fi­
área de Broca, en el lóbulo fromal, presentan una gura 1 1 . 38). Teniendo en mente esta idea de doble flujo para la
llamada afasia de Broca. Estos pacienres tienen un audición, elmodelo de doble flujo (o doble vía) de la p ercep­
forzada y torpe, y sólo pueden hablar con oraciones bre- ción del habla ha propuesro un flujo ventral que se inicia en el
sin embargo, son capaces de comprender lo que otros dicen. lóbulo temporal y es responsable del reconocimiento del habla,
·Pa·ctentE:s con lesión en el área de Wernicke en el lóbulo y un flujo dorsal que se inicia en el lóbulo parietal y se ocupa de
presentan afasia de Wernicke; son capaces hablar vincular la señal acústica con los movimiemos utilizados para
fluidez, pero su discurso es muy desorganizado e incohe­ producir el habla (figura 13. 15;Hickock y Poeppel, 2007).
Estos pacientes tienen gran dificultad para entender lo Puede observar similitudes emre este esquema y el sistema
personas dicen. En la forma más extrema de la afasia dorsal/ventral de la vista que se describió en el capítu�o 4
el paciente sufre una condición llamada sordera (página 88). El flujo o vía ventral visual es responsable de la
· palabra, en la que no le es posible reconocer las palabras, identificación de objetos ("qué " ) y el flujo o vía dorsal de la �o�
su capacidad para oír tonos puros se mantiene intacta calización o las acciones hacia los objetos ("dónde y cómo").
y Whishaw, 2003). Por consiguiente, la idea de los flujos dobles se ha propuesto
investigación moderna ha ido más allá de la ubicación para la visión, la audición y la percepción del habla.
producción del habla y la percepción en estas dos áreas Todo esto significa que los mecanismos corticales de la per­
a otros estudios en pacientes con lesión cerebral (véase cepción del habla se distribuyen en toda la corteza. Esto es sirni->"
ro de Método: disociaciones en neuropsicología, lar a la situación que se describió para la percepción de ros.tt;os
4, página 89) y al uso de i mágenes cerebrales para en el capítulo 5 (página 1 2 1). Hemos visto que la p ercepci ón de
las áreas cerebrales relacionadas con el habla. U n rostros i mplica muchos aspectos, entre ellos la identificación
d e un hallazgo d e l a neuropsicología es que algunos de los mismos, la lectura de las expresiones, la di recció n de la ,
con lesiones en el lóbulo parietal tienen dificultades mirada de la persona y la evaluación del atractivo de la c�ra, por
distinguir las sílabas ( Blumstein et al., 1 977; Darnasio y lo que los mecanismos de la percepción del rostro se di:st-ribuyén ·

· 1980). Si bien podría esperarse que la dificultad para en muchas áreas. Hay también una serie de aspectos diferentes ..
las sílabas complicara el entendimienro de las pala­ de la percepción del habla, ya que ésta recibe la in H ue�ci á de �e:
�·�;'-u'u" pacientes que tienen este problema aún pueden rores cognitivos como el significado de las palabras, el cogrexto

La percepción del habla y el . c"erebro , ,.


. ,-
pueden hacerlo, lo que conlleva la dificultad para
entre palabras como lent y rent. Durante el mismo
niños estadounidenses adquieren más destreza para
ambos sonidos (Kuhl et al., 1997; Strange, 1 9 95).
La evidencia que apoya la idea de que el uu:<..d.L U:smo;t
lógico responsable de este cambio temprano en la
del habla incluye la plasticidad dependiente de la ex¡Jerientci
sido proporcionada por Maritza Rivera-Gaxiola y sus
dores (2005), quienes registraron los potenciales eléctricos
superficie de la corteza de bebés estadounidenses de
meses de edad, en cuyos hogares se habla inglés, en
Áreas de los pares de sonidos que se oyen igual para los adultos
flujo ventral
inglesa, pero se perciben como diferentes por los
Fig u r a 13.15 1 El modelo de doble flujo (o doble vía) de l a bla hispana. A los siete meses de edad, la respuesta eJe:c(Jnc;i
percepción del habla p ropone u n a v í a ventral responsable d e l
tos dos sonidos fue diferente en los niños de habla
reconocimiento del habla y una v í a dorsal q u e v i n c u l a l a señal
a los 1 1 meses de edad, la respuesta se había v uelto
acústica con los movim ientos. Las áreas azules se asocian
Este resultado proporciona un paralelo fisiológico
con l a vía dorsal; el área amarilla, con l a vía ventral. Las
periencia de los bebés japoneses que se ha descrito antes.
áreas rojas y verdes también i ntervienen en el análisis de los
estímu los del habla. (Adaptado de Hickock y Poeppel, 2007.) de sonidos pueden percibirse como diferentes o causar '
ras fisiológicas distintas a una edad temprana, pero s(e
no tiene experiencia en la discriminación entre los dos
de las oraciones y la familiaridad con la voz del hablance; está
entonces pierde la capacidad de diferenciar entre ambo : s:
vi�culada a la vista y puede tener un fuerte componente emo­
respuestas fisiológicas a ellos se v uelven iguales. Al
cional. No es de extrañar, por tanto, que la percepción del habla
periencia moldea al cerebro para responder a los
implique muchas áreas interconectadas de la corteza.
utilizan en el lenguaje particular que el niño está ap.rentdu�

Plasticidad dependiente
de la experiencia Algo que debemos considerar�
Otro ejemplo de la conexión entre el funcionamienco del cerebro percepción del habla y acción.:·
y la percepción del habla es proporcionado por el fénómeno de la
plasticidad dependiente de la experiencia. En el capítulo 4 vimos que Una característica importante del habla es que no sólo .
la plasticidad dependiente de la experiencia se produce cuando la bimos, sino que también la producimos. Este estrecho
capacidad del cerebro para responder ame estímulos específicos entre la percepción y la producción del habla condujo' a,
está determinada por la experiencia. Por ejemplo, para la vista, Liberman y sus colaboradores (1 963, 1967) a onJD<>ne:f!
la crianza de gatitos en un entorno compuesto enteramente por teoría llamada teoría motora de la percepción del
líneas verticales hace que el cerebro de los gatitos comenga neu­ propone que el habla tiene un estatus especial como ·
ronas que responden sólo a las verricales (página 80), y para la auditivo, que consiste en los mecanismos especiales de
audición, el entrenamiento de monos lechuza para discriminar samiento que no comparren otros estímulos auditivos.
entre dos frecuencias diferentes aumenta el espacio en la correza plicaremos esta idea posteriormente (véase la sección
dedicado a esas frecuencias (capítulo 1 1, página 284). saber más", página 326), sino que estudiaremos o
El efecto de la plasticidad dependience de la experiencia de de la teoría motora: oír un sonido de voz particular
la percepción del habla se ilustra con el modo en que los sonidos canismos motores que controlan el movimiento de
a los que están expuestos los bebés influyen en 1) su capacidad !adores responsables de la producción de sonidos, y la
para oír ciertos sonidos cuando son mayores y 2) la manera en de estos mecanismos motores activa a su vez
que el cerebro responde a estos sonidos. Comenzamos conside­ cionales que nos permiten percibir el sonido.
rando lo que pueden percibir los niños muy pequeños, y luego Cuando se propuso la teoría motora por pri
lo que sucede cuando se v uelven mayores. década de 1 960, era en extremo polémica. En las ae,c•u•­
Los niños pequeños de rodas las culturas pueden men­ siguieron, la teoría impulsó un gran número de experi
cionar la diferencia entre los sonidos que se producen en los algunos de ellos obtuvieron resultados que apoyaba11
distintos idiomas del mundo, pero a la edad de un año pier­ y otros que la refutaban. En consecuencia, los
den la capacidad de distinguir algunos de esros sonidos (Kuhl, teoría se revisaron (Liberman y Matringly, 1 989).
2000). El ejemplo clásico de este fenómeno lo constituyen los A los investigadores del habla actuales les preocupa
niños y adultos japoneses. Los bebés japoneses de seis meses si los detalles de la teoría motora son correctos que
de edad pueden diferenciar entre la /r/ y /1/ que se usan en el cía de una serie de experimentos recientes que apoya la
. inglés de Estados Unidos tan bien como los bebés estadouni­ que, en efecto, existen vínculos entre la percepción
denses. Sin embargo, a los 12 meses, los niños japoneses ya no .
y los mecanismos morares. Uno d e los resultados qu e ·

324 · CAPfTULO 13 Percepción de l habla


-.. •·1 ...
- - .

es el descubrimiento de las neuronas espejo. En el


7 vimos que en los monos las neuronas espejo res pon­
e l los llevan a cabo una acción y cuando ven a al-
zarla. Un tipo de neuronas espejo relacionadas con
debe provocar movi mientos éh l�s labios:. .Pefo
lo"sigqit�
que la respuesta de los PEM fue mayor cua�do la person
a algute n hablar o vi el movi iento de �us l�bios
� �
i . � ·
��
a��ch f··; ,;�
(fig�)J���:\·:. :.{;
Watkms tambt en realtzo otros experi mentos que �osc.ri-
:�.�4
reali ,, ·.:·:
>ilOJ<-• vu se conoce como neuronas espejo audiovisuales. Éstas ron que esta mejora en los PEM se produce sól� para esoil!c:m--- '
..
cuando un mono realiz.a una acción que produce un ras co �o los lab10s, q e forman parte del sistema_ motor�para .: j
� ·

(por ejemplo, romper un cacahuate) y cuando el mono produClr el habla. Basandose en estos resultados" sugirió que 1) . ) · .

· ·sonido (el que se ha producido por romper un cacahuate) tal vez las neuronas espejo intervienen y 2) su resultado es con-. j
iiifrt!SUlL« de la acción {Kohler, 2002; véase el capítulo 7, pá­ sistente con la idea propuesta por la teoría motora de que oí� u n .
Curiosamente, las neuronas espejo que se han estu­ sonido de voz activa los mecanismos motores para la percepción
en el mono se encuentran en un área equivalente al área del sonido. Cualesquiera que sean las implicaciones de los resul­
en los seres humanos, por esta razón, algunos inves­ tados de Watkins y los resultados de la investigación sobre las
sugerido que hay una estrecha relación entre las neu ronas espejo, no hay duda de que nuestra afirmación res­
espejo y el lenguaje (Arbib, 2001). pecto a que la actividad motora y la percepción están vinculadas
¿hay pruebas que vinculen directamente la percepción y de manera estrecha es válida no sólo para la vista {página 156 del
del habla en los seres humanos? K. D. Watkins y sus capítulo 7), sino también para la percepción del habla.
:>.-�rl.c.r<•< {2003) ofrecieron algunas pruebas de esta conexión
Ía estimulación magnética transcraneal (EMT) para acti­
motora de la corteza que controla los movimientos de
la sección Método: estimulación magnética trans­
capítulo 8, página 193). Cuando estimularon esta área,
respuestas pequeñas, llamadas potenciales evocados
. ·(PEM), de los labios (figura 13. 16a). Esto no era sorpren­
. ya que la estimulación de esta área de la corteza motora

Respuesta evocada Bobina que


motora de los labios 1 estimula la EMT

P I E N S E E N LO S I G U I E NTE
1. ¿Qué t a n bien reconocen el habla l a s computadoras? Us-·
la voz producir ted puede i nvestigarlo al hablar por teléfono con u na de
un sonido a la voz
ellas. M arque un servício como la reservación telefónicá .
de boletos para el ci ne, y en vez de hablar lene¡¡. y c lara­
Experimento de estim ulación magnética mente, hágalo de manera normal (con la claridad .�ufi­
que proporciona evidencia de un vínculo entre la ciente para que una persona lo entendiera) y vea .s i pued�
y la producción del habla en los seres h u manos. determi nar los l í mites de la capacidad de !á ccimputad?ra
texto para obtener más detalles. (Reimpresión para comprender el habla. (p. 312)
· · -

de Watkins, K. E., Strafella, A . P. y Paus, T., Seeing


speech excites the motor system involved 2. ¿Cómo considera que se vería afectada su percepciÓn del
production,Neuropsychologia, 41, 989-994. habla si el fenómeno de la percepción categórica no : exis­
2003, con autorización de E/sevier.) tiera? (p. 3 16)

·:�.:
. ..
SI · D E S EA SA B E R MÁS Patel, A . D . (2008). Music, language, and the brain.
York: Oxford University Press.
· .. ;1_ Tadhm.d: · "oír�' con el tacto. Las personas q ue son sordas y An empírica!
Patel, A. D. y Daniele, J. R. (2003).
ci�gas pueden averiguar lo que dice la gente con un proce­
... rison of rhythm in language and music. Lu;Kmrt01�,,
d imiento llamado Tadoma, que consiste en tocar la cara
B35 -B45.
'd e uha p�;sona, mientras ésta habla. (p. 3 1 8)
Peretz, l. y Hyde, K. L . (2003). What is specific to

Rt;� ; __c. M., Durlach, N. l., Braida, L. D. y Schultz, M.
Analytic study of the Tadoma method: Iden­ processing? Insights from congen ital amusia . .
C. (1982).
Cognitive Sciences, 7, 362-367.
tificarion of consonants and vowels by an experienced
Tadóma user. Journal of Speech and Hearing Research, 25, 4. Los mecanismos cerebrales que vinculan al lenguaj�'·
108 - 1 16. acción. Escuchar enunciados que se refieren a dife .
2. ¿El lenguaje es especial? Se trata de una controversia en la partes del c uerpo como la cara, los brazos o las
que algunos investigadores (muchos de ellos defensores de activa áreas del cerebro asociadas con el habl;¡t ·

l a teoría motora de la percepción del habla) sostienen que bién áreas asociadas con el movimiento de esa
en la percepción del habla intervienen mecanismos espe­ cuerpo. (p. 324)
ciales que otros procesos auditivos no comparten y otro Pulvermuller, F. (2 005). Brain mechanisms
grupo de investigadores sostiene que la percepción del ha­ language and action. Nature Reviews
bla utiliza los mismos mecan ismos que nos permiten co­ 576-582.
nocer otros tipos de estímulos auditivos. (p. 324)
5. Enfoques para el estudio de la percepción del habla.
Fowler, C . A. y Rosenblum, L. D . (1990). Duplex per­
de diferentes enfoques teóricos para el estudio
ception: A comparison of monosyllables and slamming
cepción del habla que se han propuesto. Ta
doors. Journal of Experimental Psychology: Human Percep­
sugerido que nuestro conocimiento de los
tion and Performance, 17, 8 16-828.
la percepción del habla podría mejorar con d
Trout, J. D. (2003). Biological specializations for speech:
de esta última en el marco más general de la e
What can the a n i mals tell us? Current Directions in Ps­
audición que se describió en los capítulos 1 1 y 12.
ychological Science, 5, 155-159.
Diehl, R . L ., Lotto, A. J . y Holt, L. L . (2004).
3. La conexión entre el habla y la música. Existen pruebas de que ception. Annual Review ofPsychology, 55, 149-1 c...�
., .-,;:;;
.�
en el habla y la música intervienen mecanismos cerebrales Holt, L. L. y Lotto, A. J. (2008). Speech perceptlotlWJ.t}:
diferentes, pero también hay evidencia de que tienen algu­ an auditory cognitive science framework.
nos mecanismos en común. tions in Psychological Science, 17, 42-46.

CO N C E PTOS C L AV E
Afasia (p. 323) Espectrograma del sonido (p. 3 1 2) Probabil idades de transición
Afasia de Broca (p. 323) Estímulo acústico (p. 3 1 2) Segmentación del habla (p.
Afasia de Wern icke (p. 323) Fonema (p. 314) Señal acústica (p. 3 1 2)
Apr�ndizaje estadístico (p. 321) Formante (p. 3 1 2) Sombreado (p. 320)
Área de Broca (p. 323) Límite fonético (p. 3 1 7) Sonograma (p. 3 1 2) .
Área de Wernicke (p. 323) Modelo de doble flujo (o doble vía) de Sordera de la palabra (p. j23)
Articulador (p. 3 1 2) la percepción del habla (p. 323) Teoría morora de la percepcwn
Características índice (p. 322) Multimodal (p. 3 18) habla (p. 324)
Coarticulación (p. 315) Percepción audiovisual del habla Tiempo de inicio de la voz (TIV)

Efecto de restauración fonémica (p. 3 1 8) (p. 3 1 8) (p. 3 16)


Efecto McGurk (p. 3 18) Percepción categórica (p. 3 16) Transiciones de formantes

R E C U RSO S E N L ( N E A
S i t i o web d e l l i bro C e n g a g e N OW
Sensación y percepción www.cengage.com/cengagenow
www.cengage.com/psychology/goldstein En es re sitio encontrará un vínculo a CengageNOW,
¡En este sitio encontrará tarjetas didácticas, cuestionarios para todo. Haga un examen previo a este capítulo Y
de práctica, vínculos a internet, actualizaciones, ejercicios de NOW generará un plan de esrudio personalizado
pensamiento crítico, foros de discusión, juegos y más! sus resultados. El plan de estudio identi ficará los

�.�6 - GAPfTULO 1 3 Percepción del habla


revisar y lo enviará a recursos en línea que le
a dominar esos temas. Entonces puede realizar un
posterior que le ayudará a determinar los conceptos 1. Percepción de categorías
ha" dominado así como aquellos en los que aún necesita repente cambia de una

2. El efecto McGurk Cómo ver el


persona que habla puede influir en lo
i o virtual (Virtual l a b)
3 . Lectura del habla Cómo la percepción de ''-');u.•t.:: u
virtual (Virtual Lab) está diseñado para
d máximo provecho de este curso. Los permite comprender más fácilmente lo que

· vinual lo envían a demostraciones y Sensimetrics Corporaüon.)

específicos multimedia diseñados para ayudarle 4. Estímulos de aprendizaje estadístico Una rp.uestra u<;. <<> '-<>u.o:;u<L o;
lo que está leyendo. El número que está junto a de palabras sin sentido utilizada en el experimento
indica del número del elemento multimedia al 5. Palabrasfantasma Cómo escuchar un sonido
acceder a través de su CD -ROM, CengageNOW o el puede dar lugar a la percepción de las palabras. (Cortesía
Tutor (disponibles sólo en inglés). Diana Deutsch.)

Respuesta a la pregunta en la página 320:


El balón atravesó la vía.