You are on page 1of 50

BESZÉDMEGÉRTÉSI MODELLEK 131

pontjában a jelentés áll; e felfogásnak az előzményeit már Osgoodnál (1986) is meg­


találjuk. Az interaktív modellek újdonsága egyfelől, hogy a jelentést és a formát egy­
ségként kezelik, valamint, hogy fontosnak tartják az előfeltevéseket, a predikciókat,
azaz az ismereti és kontextuális elvárásokat. A modell egyes szintjei csaknem párhu­
zamosan működnek, közveüenül tartanak kapcsolatot egymással; így az egyes szin­
teken végbemenő beszédfeldolgozás folyamatos információt közvetít(het) a többi
szintnek. Feltételeznek egy központi irányítót („teremfelügyelőt”, vö. Pléh 1998a),
ami irányítja a különböző működéseket. A mai interakciós elméletek abban külön­
böznek a korábbiaktól, hogy tekintetbe veszik a tudás, a kontextus pontos időbeli
megjelenését is.
A moduláris hipotézis kiinduló gondolata azokra az előzményekre vezethető
vissza, amelyek a jelentés és a szerkezetek elválaszthatóságát mondták ki (pl. Miller
klasszikus munkái). Chomsky sokat idézett példája (,A színtelen zöld eszmék dühöd-
ten alszanak”) igazolni látszott, hogy a jelentés zavarát jobban elfogadjuk, mint a
nyelvtani szerkezet hibáját (pl. Iskola tanítónak gyerekek ebéd adná - ’A tanító adja
a gyerekeknek az ebédet az iskolában’, de egyéb „feloldás” is elképzelhető: ’A gyere­
kek a tanítónak ebédet adnak az iskolában’ vagy ’Az iskola a tanítónak és a gyerekek­
nek adna ebédet’ stb.). Miller és Isard már említett kísérlete (1963) is alátámasztot­
ta, hogy a jelentésbeli anomáliát jobban elfogadja a hallgató, mint a grammatikailag
hibásat. Talán ezeknek az eredményeknek egyfajta következménye volt a jelen­
tés-központúsággal lényegében szemben álló formaközpontú elmélet kidolgozása,
amely Kenneth Forster nevéhez fűződik (1979); a moduláris elképzelést Jerry Fodor
indította útjára (1983).
A kiindulás az, hogy a megértés folyamán a szerkezeti elemzés elsődleges, tehát
megelőzi a jelentés elemzését, és önálló komponense a működéssorozatnak. A mo­
dellben az egyes megértési modulok önállóan működnek, egymással nem tartanak
kapcsolatot, és saját útjuk van a mentális lexikonhoz. Az ún. tematikus modulok pél­
dául függetlenül működnek a szintaktikai moduloktól - kivételt képez természete­
sen egyfajta durva kiinduló mondatelemzés, ami az igei és a főnévi csoportokat elkü­
löníti. A feldolgozás abban az értelemben hierarchikus, hogy a végeredményt a rész­
feldolgozások eredményeinek összessége adja, ezt egyfajta „problémamegoldás” se­
gíti elő. A moduláris elméletben a beszédmegértés kettős folyamat működése során
jön létre. Az első folyamatban egymástól független elemzők (modulok) működnek,
amelyek tehát nem kommunikálnak egymással. Ekkor az ismereteknek és a kontex­
tusnak még nincs szerepe a feldolgozásban. A második folyamatban megtörténik a
szövegértelmezés, amely egyszersmind egyfajta kapcsolat kialakítása a már tárolt is­
meretekkel (ismét speciális modulok segítségével). A modulok meghatározása körül
azonban rengeteg a vita.
A korai moduláris elméletekből alakult ki a kerti ösvény elmélet (garden-path
theory). Ez a jelenség akkor alakul ki, amikor szintaktikailag kétértelmű mondato­
kat kell olvasnia a kísérleti személynek. Ezek a mondatok azonban csak átmenetileg
kétértelműek, a mondatok végigolvasásakor egyértelművé válnak. Ezért nevezik
kerti ösvénynek, amely „levezethet” bennünket a helyes útról. Ekkor a mondatmeg­
132 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

értés elemzési szakaszában a „minimális csatolás elve” érvényesül; ez azt jelenti,


hogy a feldolgozó rendszer kétértelmű helyzetben a szintaktikailag legegyszerűbb
alternatívát fogja kiválasztani (Németh 2001). A moduláris elmélet igazolása nem
sikerül teljes egészében.
A konnekcionista modellek szakítanak a szekvenciális feldolgozás elméletével, a
párhuzamos feldolgozások érvényesülnek bennük. Ez a koncepció elfordul a számí­
tógépes analógiáktól, elveti az egyetlen központi feldolgozóegység lehetőségét, és
idegrendszeri megfelelőket keres és talál. Olyan egységeket képzel el a feldolgozó
rendszerben, amelyek önmagukban nem szimbólumhordozók, hanem elméleti neu-
ronoknak felelnek meg. Az elképzelt reprezentációk atomikusak és a struktúrá­
juk kombinatorikus. Az elmélet egyik fő képviselője James McClelland (McClelland
1979; McClelland-Elman 1986). E modellben nincsenek alá-fölé rendeltségi viszo­
nyok, a megértés valójában nem más, mint az egyes hálózatok aktiválása az idő
függvényében; és mindebben az asszociációknak döntő szerepük van. (Az asszociá­
ció magyarázó szerepét például Chomsky már az ötvenes években megkérdőjelezte,
vö. Pléh 1998b.) El kell ismernünk, hogy a konnekcionista modellek hatékonyak
olyan alacsony szintű kognitív képességek modellálásában, mint például a mintafel­
ismerés. Számos kedvező tulajdonságuk van, mint az automatikus általánosítás, a
fokozatos feldolgozás. A konnekcionista felfogás szemben áll a szimbolista irányzat­
tal (Bocz 1998).
A klasszikus szimbolista irányzatok a szabály- és reprezentációelméletet követték,
amely a chomskyánus generatív nyelvelmélet elveinek kiterjesztése volt más kogni­
tív folyamatokra. Az elmélet lényege, hogy az ún. magasabb rendű kognitív folya­
matok egy számítástechnikai rendszerrel modellálhatok, a végbemenő műveletek
meghatározhatók, kiszámíthatók. A konnekcionista felfogás radikálisan különbözik
ettől. A memóriát egyszerű feldolgozóegységek hálózataként képzeli el, amelyek sú­
lyozott kapcsolatokon keresztül kötődnek egymáshoz. A feldolgozás - csakúgy, mint
az agyban - párhuzamos. A vezérlés nem központi. A konnekcionista rendszerek
alapvető jellemzői röviden a következők: a) a rendszer memóriáját egyszerű feldol­
gozó egységek hálózata jelenti, b) az egységek viselkedése lényegében az idegsejtek
viselkedéséhez hasonlítható, c) a feldolgozás, az agyban történtekhez hasonlóan,
párhuzamosan zajlik, d) a vezérlés nem központi (Bocz 1998).
A konnekcionista modellből hiányzik az a szakasz, amelyben minden információ-
feldolgozás integrálódik, ezért sok kérdésre nem tud egyértelmű választ adni. E fel­
fogással sokan nem értenek egyet, a konnekcionista táboron belül is nagyok a véle­
ménykülönbségek. Újabb és újabb hibrid (kevert) modelleket alakítanak ki, amelyek
például modulárisan építkeznek több, hierarchikusan szervezett konnekcionista há­
lózatból. Az új konnekcionizmusnak nevezett irányzatban az elosztott rendszerek
elsődlegességét hirdetik a lokális modellekkel szemben. Ennek két oka van, ezek
egyrészt jobban eltérnek a klasszikus szimbolikus irányzat elveitől, másrészt alkal­
masabbak a tanulás modellálására. A konnekcionista felfogással szemben felhozott
alapvető ellenérv az, hogy a humán működések ezen a módon nem leírhatók (Pléh
1998c).
BESZÉDMEGÉRTÉSI MODELLEK 13 3

ÖSSZEFOGLALÁS

A beszédmegértés folyamata két nagy szakaszból áll: 1. a nyelvi kódok (jelek) rend­
szerének megfelelő hangjelenségek észlelése és 2. ennek a kódrendszernek az értel­
mezése. Mindkettő több fokozatból (szintből) épül fel, amelyek törvényszerű együtt­
működésben biztosítják a hallott beszédjelenségek megértését. A beszéd megértése
aktív folyamat, amelynek során a hallgató az érzékelt beszédjelenségeket magasabb
szinteken értelmezi. Percepciós bázison azt a nyelvspecifikus működésmechaniz­
must értjük, amelynek során az elhangzott közléssorozatot feldolgozzuk. A meg­
értési folyamatot modellekben próbálják ábrázolni, amelyekben egyszerűsítve rep­
rezentálható a működéssorozat. A cél annak bemutatása, hogy milyen szinteken
milyen jellegű működések történnek a megértés mechanizmusában. A ma ismert
beszédfeldolgozási modellek többsége a teljes beszédmegértési folyamatot igyek­
szik ábrázolni; vannak azonban olyanok, amelyek csak a beszédészleléssel, avagy
csak a beszéd megértésével foglalkoznak. Meglehetősen sok modell ismeretes, né­
melyek kisebb, mások nagyobb mértékben különböznek egymástól. Ilyenek: a moto­
ros teória, az analízis szintézissel vagy aktív-passzív modell, a globális beszédmeg­
értés modellje, a Bondarko-féle elmélet, a hierarchikus megértési modell és a be­
szédmegértés kognitív modelljei.

SZEGMENTÁLÁS A BESZÉDÉSZLELÉSBEN ÉS A BESZÉDMEGÉRTÉSBEN

A kérdés megfogalmazható úgy, hogy a szegmentálás felfogható-e egy speciális hal­


lási folyamatnak, amely tartalmazza a fonetikai osztályozást; avagy a szegmentálás
a fonetikai osztályozásnak magának az automatikus következménye. Az első felte­
vés azt jelentené, hogy a baba hangsor beszédhangjainak azonosításakor - mint a
megértés speciális hallási folyamatának eredménye - azonnal képesek vagyunk az
anyanyelvi beszédhangok egymásutániságának felismerésére: b + a + b + a. A má­
sodik feltevés esetében a baba akusztikai hullámformájának észlelését és feldolgozá­
sát egyfajta fonetikai osztályozás követi (bizonyos akusztikai kritériumok alapján),
amelynek eredménye egyszersmind a szegmentálás, tehát szótagokra, beszédhan­
gokra bontás. (A fonológiai tudatosság kérdését az anyanyelv-elsajátításról és az ol­
vasási folyamatról szóló fejezetben tárgyaljuk.)
A kísérletek eredményei azt mutatják, hogy egy akusztikai jelrészlet tartalmazhat
információt különböző fonetikai szegmensekről - például egy réshang és egy ma­
gánhangzó kapcsolatának átmeneti része a mássalhangzóról is. Ugyanakkor eltérő
akusztikai jeleket gyakran azonos nyelvi információként észlelünk, például a külön­
böző magánhangzók előtt álló felpattanó zárhangot. Más megfogalmazásban: van
néhány artikulációs konfiguráció, amely akusztikailag stabil abban az értelemben,
hogy kis artikulációs változásnak kis akusztikai változás a következménye; nagy ar­
tikulációs változásnak pedig nagy akusztikai változás.
A legtöbb artikulációs konfiguráció azonban instabil, mivel hasonlóan vagy ugyan­
134 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

olyan kis artikulációs változásoknak nagy akusztikai változás a következménye. Pél­


dául az []■] és az [s] mássalhangzók közötti artikulációs különbség relatíve kicsi, csu­
pán a képzési helyben térnek el (az egyik alveoláris, a másik posztalveoláris hang).
Akusztikailag azonban az [[] mássalhangzóra a 2000 Hz körüli zörejnyalábok, míg
az [s]-re a 4000 Hz-en felüliek a jellemzőek. Az ellenkezőjét is tapasztaljuk: nagy ar­
tikulációs változásnak kis akusztikai módosulás az eredménye. Például az [i] és az
[y] magánhangzók között mind az ajakállásban, mind a nyelv vízszintes mozgását
tekintve van artikulációs különbség. Akusztikailag ugyanakkor csupán a második
formánsuk értéke mutat jelentősebb eltérést. Az artikuláció és az akusztikai jel kö­
zött nemlineáris a kapcsolat. Nehéz az akusztikai jelben meghatározni azt a részle­
tet, amely az adott fonémát realizálja, mert néha az átmenetek, az átmenetek iránya
vagy éppen a szomszédos hangok hordozzák a jellemző információt (például a
koartikulációs jelenségek következményei), vö. Gósy2004.
A szegmentálás problémája másként vetődik fel a spontán beszédben. A spontán
beszéd ugyanis kevés fogódzót tartalmaz a szóhatárok jelzésére. Van olyan felfogás,
amely szerint nem is a szót azonosítjuk a szövegben, hanem a kontextuális informá­
ció nyomán vagyunk képesek az egyes „építőkockákat” felismerni. A kérdés úgy is
megfogalmazható, hogy a hallgató miként szegmentálja a folyamatosan megjelenő
akusztikai jelsorozatot nyelvi egységekre. A szegmentálás eredménye lehet a beszé­
det felépítő hosszabb közlés (például a mondat), lehet annál rövidebb, grammati-
kailag szorosabban összetartozó közlésegység (például a szókapcsolat), lehet szótá­
ri egység, azaz maga a szó, de - mint láttuk - lehet a szónál kisebb egység is (például
a szótag vagy a hangkapcsolat, vagy maga a beszédhang).
Minek alapján dönti el a hallgató, hogy a folyamatosan változó akusztikai jelsoro­
zat hol tartalmaz szemantikai határokat, még pontosabban az egyetlen szót megha­
tározó határokat? A folyamatos beszéd nem minden esetben tartalmaz olyan szup-
raszegmentális jegyeket, amelyek egyértelműen utalnának a jelentéses egységek ha­
táraira (Gósy 2004). Ismeretlen idegen nyelvű szöveg hallgatásakor lehetetlen meg­
mondani azt, hogy hol végződik vagy hol kezdődik egy szó. Ha az adott idegen
nyelvnek valamilyen mértékben birtokában van a hallgató, akkor - különféle straté­
giák alkalmazásával - bizonyos fokig képes lesz a szegmentálásra, ez azonban szá­
mos tévedést is eredményezhet. Anyanyelven elhangzó beszéd feldolgozásakor is
előfordulhatnak szegmentálási „hibák”, amelyek számos félreértést eredményeznek
(lásd később).
A beszéd írott formájának észleléséhez és megértéséhez nem szükséges a szeg­
mentálás, hiszen a szavak közé iktatott „szünethely” (a karakternélküliség funkciója
az elkülönítés) egyértelműen jelzi egy szó végét, illetőleg egy szó kezdetét. A folya­
matos beszédben - a folyamatos artikuláció s az ennek nyomán kialakuló folyama­
tos akusztikai hullámforma következtében - nem jelzik szünethelyek minden egyes
szemantikai egység kezdetét vagy befejezését, sőt a nyelv fonológiai szabályai nem­
ritkán túllépnek a szó terjedelmén. írásban a szegmentálás a következőképpen
szemléltethető.
BESZÉDMEGÉRTÉSI MODELLEK 13 5

a) Folyamatos beszéd:
Akorafeudálislengyelállamnéhányévtizeddelkorábbanjöttlétremintamagyarafejlődés
irányaésütemeazonbansokrokonvonástmutat.
b) Szegmentált beszéd:
A kora feudális lengyel állam néhány évtizeddel korábban jött létre mint a magyar a
fejlődés iránya és üteme azonban sok rokon vonást mutat.
c) Megértett beszéd:
A kora feudális lengyel állam néhány évtizeddel korábban jött létre, mint a magyar;
a fejlődés iránya és üteme azonban sok rokon vonást mutat.
A „nyelvgyötrőkként” ismert összeállítások egyúttal percepciós gyötrőkként is fel­
foghatók nemcsak az észlelési, hanem a szegmentálási nehézségek miatt is, például:
azipafaipapnakfapipájavantehátazipafaipapipipapapifapipa
Az artikuláció felől közelítve a szegmentálás problémáját, kézenfekvőnek látszik
egy igen egyszerű megoldás. A beszélő - minthogy szemantikai egységeket ejt, és
azokat fűzi össze - ösztönösen kell, hogy „segítse” a hallgatót azok mind könnyebb
feldolgozásában, azaz bizonyos jelzéseket kell alkalmaznia. Ezek a jelzések nagyobb
mértékben a beszéd szupraszegmentális szerkezetében jelentkeznek: dallamválto­
zásban, nyomatékban, tempóban, ritmusváltásban; kisebb mértékben a szegmen­
tális szinten, például a beszédhangok időtartamának akaratlagos megváltoztatásá­
ban. Nem mindegy, hogy milyen az intonációja például a Reggel hétkor? közlésnek.
A szegmentálásról kialakult eddigi ismereteink a következők: (i) a szegmentálás
nyelvspecifikus folyamat, (ii) elsősorban a beszédészlelésnek, de adott esetben a be­
szédmegértés folyamatainak is funkciója, (iii) a szegmentálás készsége az anya-
nyelv-elsajátítás során fejlődik ki, (iv) szoros összefüggést mutat az elhangzó beszéd
akusztikumával és az adott nyelv fonológiai sajátosságaival. Pszicholingvisztikai kí­
sérletek szerint például a szövegkörnyezetéből kiszakított két- vagy többféleképpen
is szegmentálható hangsorok helyes felismerése, azaz megfelelő szegmentálása
mindössze 53,1%, illetve 60,3% volt (Gósy 1995c; 1998a; 2004). Az értékek drá­
maian jelzik, hogy a helyes szegmentálás - a megfelelő kontextus nélkül - alig bizto­
sabb, mint a véletlen találat. A beszélő/hallgató tehát bizonytalan annak eldöntésé­
ben, hogy a kontextusától megfosztott szót/szókapcsolatot miképpen szegmentálja.
A hatalmasok négyféle szegmentálási lehetőségének helyes percepciós eredménye
százalékban kifejezve az 1. táblázatban látható (az eredeti szót és a helyes szegmen­
tálás arányát félkövérrel jelöltük; a dőlt betűs az azonosított).

1. tá b l á za t I A hatalmasok hangsor szegm entálási leh etőségei

E r ed eti hatalm asok hatalm as ok hatalm a sok h a t alm a sok

h a ta lm a s o k 4 5 ,9 17,3 22,7 14
h a ta lm a s o k 42,6 3 4 ,6 16,2 5,9
h a ta lm a s o k 21,6 18,9 2 9 ,2 31,3
h a t a lm a s o k 17,8 29,7 29,7 2 2 ,7
136 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

A hatalmasok szó esetében azonosítottak legnagyobb arányban helyesen a kísérle­


ti személyek, az összes többi esetben más szókapcsolatokat (is) hasonlóan ismertek
fel. A szegmentálás problémája tehát végigvonul a teljes beszédfeldolgozási folya­
maton, s az adott helyzetben dől el, hogy a hallgató melyik szinten képes az elsődle­
ges vagy később a korrigált szegmentálásra. A szegmentálás biztonsága az adott
akusztikai-fonetikai tényezőkön túl egyebektől is függ, a lexémák gyakoriságától,
továbbá az egy szó, illetőleg két szó lehetőségtől is. Az őszül és ősz ül 80%, ill. 39,3%
helyes azonosítást hozott, míg a tenyered és te nyered között alig 6%-nyi volt a kor­
rekt azonosítás eltérése (az egy szó javára). A régi part és rég ipart 73,7%-os, ill.
36,8%-os helyes felismerésének különbsége inkább gyakorisági eltéréssel magya­
rázható annak ellenére, hogy a kísérletben részt vevők mindkét szegmentálási lehe­
tőséget írásban megkapták (Gósy 1995c).

A VISSZACSATOLÁS (KÉSLELTETETT KÖTÉS) ELVE

Az eredeti angol kifejezést (feedback) többféleképpen is megfeleltetik magyar szó­


val; így a folyamatra a ’visszajelzés’ szó is használatos. Tömör megfogalmazásban ez
arra a biológiai mechanizmusra utal, amelyben az egyik szerv kifejti hatását egy má­
sik szervre, de egyidejűleg ez a másik szerv is visszahatást gyakorol. Például beszéd
közben a hallási-észlelési mechanizmus hatást gyakorol a beszédprodukcióra (hal­
lás alapján minősítjük saját beszédünket); s ennek eredményeként a beszélés is be­
folyással lesz a feldolgozó rendszerre. A visszacsatolás fontossága a beszédmegér­
tésben régóta ismert (a pszichológiában még korábban); számos félreértés önkor­
rekciójának ez a működés az alapja. A mechanizmus gyakorlati felhasználása első­
sorban a gyógyító pedagógiában jelentkezik.
A késleltetett kötés elve a visszacsatolásnak egy újraértelmezett, módosított for­
máját takarja. Nem biztos ugyanis, hogy a beszédmegértés folyamatában a hallgató­
nak minden egyes szinten azonnali igen/nem (bináris) vagy bármilyen más döntést
kell hoznia. Elképzelhető, hogy a működés olyan, hogy késleltetheti a döntést, amíg
újabb információkat nem kap. A felfogás gyökerei nyilvánvalóan ahhoz a tényhez
nyúlnak vissza, hogy a hallgató nem egy esetben a megelőző fonémáról csak az azt
követő elemzése után hoz döntést. Van olyan feltevés, hogy jó beszédminőség eseté­
ben azonnaliak a döntések; ha azonban a megértést zavaró körülmények nehezítik,
akkor működésbe lép a késleltetett kötés.

AZ ELEMI PERCEPCIÓS EGYSÉG

Talán az egyik legrégibb problémája a beszédmegértésnek; sokan alapkérdésnek te­


kintik. Mind a mai napig többféle hipotézis ismert ezzel kapcsolatban - a kísérleti
eredmények néha egymásnak ellentmondóak, de legalábbis többféle értelmezést
tesznek lehetővé. A több elemből álló, hosszú ideig tartó ingerek esetében - mint
BESZÉDMEGÉRTÉSI MODELLEK 13 7

amilyen a beszéd - az észlelésben ezek az ingerek mindig strukturáltan jelentkez­


nek; és az egység (amit először a Gestalt pszichológiai iskola vizsgált) az észlelési
szabályok kölcsönhatásában alakul ki (Winkler 2004). Az alábbiakban összegezzük
az elemi percepciós egységre vonatkozó legfontosabb nézeteket a beszédészle­
lésben, valamint a magyar nyelvvel kapcsolatos kísérleti eredményeket.
Széleskörűen elismert nézet tekintette a fonémát beszédmegértési egységnek. Ez
a hipotézis azon alapult, hogy az akusztikai folyamat tükrözi a fonémák egymásutá­
niságát. A percepciós kísérletek azonban azt sugallják, hogy igen nehéz a fonéma el­
határolása az akusztikumban (lásd a szegmentálási nehézségeket). Számos kísérleti
tapasztalat támasztja alá, hogy az elsődleges döntés nem feltétlenül a fonémáról tör­
ténik. Gyakran a fonémáról hozott döntést megelőzően az ember már felismeri a
hallott jel jellemzőit (Flanagan 1965; Fant 1968b). A fonéma méretű egység percep­
ciója ellen szól, hogy nagyon nehéz (hacsak nem lehetetlen) megtanítani valakit
azoknak a fonémáknak a felismerésére, amelyek az ő számára nem jelentenek
fonemikus valóságot. (Ötven rövid közlést 11 különböző anyanyelvű személlyel
mondattak be anyanyelvükön, s ezeket 4 angol anyanyelvű fonetikusnak kellett je­
lekkel átírnia. 50%-ban jól teljesítettek - tehát a jelölés megfelelt az adott nyelv
hangzási szabályainak-, 50%-ban „tévedtek”, vagyis az anyanyelvi percepciós bázi­
sukon keresztül azonosították az elhangzott hangsorokat. Ezek a „tévedések” a fo­
nológiai ismeretek hiányáról tanúskodnak.) Kísérletei alapján Ladefoged úgy nyilat­
kozik, hogy a fonéma méretű percepciós egységet alátámasztja az a tény, hogy a be­
szédet alfabetikusán írjuk le, de ez nem bizonyítja azt, hogy a percepciós egység is a
fonéma. Szerinte a közvetlen percepció a fonémánál nagyobb egységekben történik,
amelyek azonban kisebbek, mint a teljes közlés (1967).
A kísérleti személyeknek nehézségeik vannak az individuális beszédhangok fizi­
kai sorrendjének meghatározásában. Click-kísérletek néven (click - ’csattanás’, ’kat­
tanás’) foglalják össze azokat a vizsgálatokat, amelyekben folyamatos beszédet hall­
gattatnak le a kísérleti személlyel, de a nyelvi anyagot úgy készítik elő, hogy a közlés
folyamatában valami nem beszéd jellegű zajt, csattanást, kattanást iktatnak (a folya­
matos beszéd általában mondat, ritkábban szöveg). A hallgatóknak meg kell hatá­
rozniuk azt a helyet, ahol a zajt/zörejt hallották. Az eredmények szerint a kísérleti
személyek képtelenek a zaj pontos helyének a meghatározására, a legtöbb esetben
- ha erre külön nem figyelmeztették őket - észre sem vették a zajt, illetőleg azt, hogy
a beszédhangot zaj helyettesíti, és automatikusan korrigáltak. Az ebből adódó kö­
vetkeztetések egyike, hogy a beszédfelismerés egysége nagyobb kell hogy legyen,
mint egyetlen fonéma realizációja.
A fonéma méretű egységet feltételező hipotézist a megkülönböztető jegyeken ala­
puló elmélet váltotta fel. Ez úgy működne, hogy a bejövő jelet minden esetben biná­
ris kérdés fogadná, például: zöngés/zöngétlen, vokális/nem vokális stb. (Hörmann
1971). A kérdéssorozat végeredményeként alakulnának ki a megkülönböztető je­
gyek összességéből a fonémák. A legfőbb nehézség itt is a szegmentálásban gyökere­
zik. Ahhoz ugyanis, hogy az egyes fonémákat jellemző megkülönböztető jegyeket
azonosítsuk, meg kell határozni a hangsorban azt az akusztikai területet, jelrészle­
138 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

tét, amelyről a döntést meg akarjuk hozni. Az akusztikai jelnek és a nyelvi szegmens­
nek a megfeleltetése azonban nem mindig egyszerű. Ez azt jelenti például, hogy a
fogkefe szóban (ejtésben: [fok:efe]), az első [k] mássalhangzónak nem ugyanazt
a fonémát kell megfeleltetnünk, mint a másodiknak (hiszen az első esetben a /g /, a
másodikban a / k / fonéma realizációjával találkozunk). Más megfogalmazásban:
a hosszú [k:] mássalhangzó két különböző fonémát reprezentál, a /g /- t és a /k/-t. Ez
csak akkor képzelhető el, ha a megkülönböztető jegyes beszédfelismerés egyfajta
nyelvi szabályrendszerrel szimultán dolgozik. Ez azonban további problémákat
vet(ne) fel.
A megkülönböztető jegyek elméletének hatása ismerhető fel Dzsaparidze mára
már csaknem elfeledett hipotézisében (1973). Eszerint a percepciós egység az eta­
lon, amely olyan pontokat tartalmaz, amelyek fizikai jellemzői egy osztályt, egy ka­
tegóriát alkotnak (ez a zóna), az érzékelt jelenségek pedig ezeknek a pontoknak fe­
lelnek meg.
A kísérleti eredmények relatív ellentmondásai arra késztették a kutatókat, hogy a
beszédfelismerés egységét nagyobb nyelvi szegmentumban keressék. Ilyen például
a mássalhangzó-magánhangzó kapcsolat (Borovicskova-Malác 1968). Innen már
csak egy lépés volt az azóta is legterjedtebbnek számító hipotézis megjelenése,
amely a szótagot jelöli meg mint elemi percepciós egységet (Lehiste 1972). A szótag
mint elemi egység mellett egyfelől a produkciós hibázások (nyelvbotlások) tipologi-
zálásával, másfelől a reakcióidős mérésekkel szolgáltattak bizonyítékokat. E kísérle­
tekben azt találták, hogy akkor a legrövidebb a reakcióidő, ha az ingerszekvencia va­
lódi szótag, továbbá, hogy rövidebb a reakcióidő, ha - magyar példával szemléltetve
- a pajta szóban a pajt kellett felismerni, mint amikor a pa hangkapcsolatot.
A szótag egység mellett szól az a tény is, hogy másként történik egy szótag eleji
[b] -nek a felismerése és másként a szótag végié, vagy hogy például a lcisgyermek (az
anyanyelv-elsajátítás igen korai szakaszaiban is) képes a szótagolásra, s amint moto­
ros fejlettsége lehetővé teszi, legalább szótagszámban igyekszik az utánzott szóhoz
hasonlót ejteni. Igaz ugyan, hogy ez a képesség a ritmusérzékeléssel függ össze, és
csak alapul szolgál a nyelvi funkció majdani elsajátításához. Említésre érdemes még­
is, mint egy természetesen meglévő adottság, amelyet a nyelv (bizonyos értelem­
ben) felhasznál. Érdekes, hogy Ladefoged, a kitűnő fonetikus a szótag mint percep­
ciós egység ellen foglal állást, mondván, hogy saját kísérleteinek egyike sem igazolta
ezt a hipotézist. A fonetikai helyzettől függő percepció magyarázatára két lehetősé­
get lát: a) vagy létezik egy legkisebb változatlan neurofiziológiai egység, amelynek
nagyobb (ható)területe van, nagyobb, mint egy szótagé vagy b) kell, hogy legyen
egy teljesen különálló, tárolt (emlékezetben őrzött) utasítás a szótag eleji és a szótag
végi mássalhangzókra vonatkozóan (1967). További ellenérvek a szótag méretű
egység ellen: nagyon soknak tűnik az elraktározandó szótagegység; túl nagy az az
akusztikai információtömeg, amely egy szótagot jellemez (még akkor is, ha csupán
egyetlen beszélő ejtési sajátosságainak akusztikai következményeivel számolunk);
az artikulációs vizsgálatok azt mutatták, hogy nagy a szerepe a hangkörnyezetnek.
A magyar nyelvi kísérletek megerősíteni látszanak a szótagegység helyességét. Öt­
BESZÉDMEGÉRTÉSI MODELLEK 13 9

éves korban például a szótaghoz a gyermeknek már van hozzáférése, de a fonémá­


hoz még nincsen (Gósy 2000a).
A következő, számba vehető szerveződési egység a szó, amelynek már a jelentés-
tartalmát is figyelembe kell vennünk. Elemi egységként azért képzelhető el nehezen,
mivel az emlékezet valószínűtlenül nagy megterhelését jelentené az elraktározandó
mennyiség és információ. A szónál nagyobb méretű egységek közül elsőként a
fonemikus frázis említendő meg. (A terminust eredetileg a beszélt nyelv elemzésé­
hez használták 1951-ben a fonémánál és a morfémánál nagyobb egység megnevezé­
sére.) A fonemikus frázis ismérve a határjegy; nagysága pontosan nem meghatáro­
zott: egy, de nemritkán több szóból álló beszédrészlet. További szerveződési egység
a mondat, ezen belül is a magmondat. E szerint mondatstruktúrákként azonosít­
juk a beszédet (Bever-Lackner-Kirk 1969); s ezekből következtetjük ki - lefelé és
felfelé - a kisebb és nagyobb nyelvi szegmenseket. Ez a szemlélet egyértelműen
Chomsky hatását mutatja. Ahhoz azonban, hogy egy nyelv valamennyi lehetséges
mondatát az emlékezetben a megfelelő engramként elraktározzuk, elképzelhetetle­
nül nagy emlékezetkapacitásra lenne szükségünk. Amerikai kutatók kiszámították,
hogy ahhoz, hogy az angol frázisok összes lehetséges grammatikai variációját egy­
szer hallják, az embernek 3 x 1014 frázist kellene 1 másodperc alatt felfognia, s en­
nek 100 évig kellene megszakítás nélkül folytatódnia (Miller et al. 1960).
Az elméleti meggondolások és a kísérleti eredmények relatív bizonytalansága
miatt, az érvek és ellenérvek sokaságában felmerült az a hipotézis, hogy a folyama­
tos beszéd megértése - bizonyos hierarchia megtartásával - a globális egész azono­
sításával és értelmezésével történik, s ebben nincs jelentősége az elemi egységnek.
Wingfield (1975) véleménye szerint nem létezik önálló percepciós egység, hanem a
folyamategységek hierarchiája létezik, ahol minden egyes szintnek saját mértéke,
nagysága van (pl. szótag, morféma). A működést úgy kell elképzelnünk, hogy
megtörténik például a döntés a fonemikus szinten, majd módosul, folytatódik a
döntéssorozat a szótagok, morfémák, szavak szintjén, de az utóbb lévő szint(ek)
mindig visszautal(hat)nak a korábbira abban az értelemben, hogy meg is változ-
tat(hat)ják a későbbi információ következtében a korábbi döntést (vö. késleltetett
kötés elve).
Ez a felfogás nem zárja ki azt a lehetőséget sem, hogy a fonémáról történt végle­
ges döntés a jelentés aktiválása után történjen meg. Wingfield mások méréseire hi­
vatkozva állítja, hogy például a szótag szinten végbemenő elemzés ideje a memóriá­
ban tárolt hallási képnek megfelelően kb. 100-250 ms, de mindenképpen 1 s alatti
érték. Mások szerint a beszédészlelés első feldolgozási szakaszában az echoikus me­
mória csak 250-300 ms tartamú akusztikus ingert képes rögzíteni. (Mindkét érték-
tartomány mind beszédhang, mind szótag szinten reális lehet.) Újabb kutatási ered­
mények szerint 200-300 ms-nyi időtartam alatt döntjük el, hogy például egy mon­
datban szereplő főnév az adott szerkezetnek alanya, tárgya vagy határozója (Pléh
1998a). Pisoni is úgy nyilatkozik, hogy az egység nagysága változik a megkülönböz­
tető jegytől a szó- vagy mondatkapcsolatokig, ugyanúgy, ahogy a mechanizmus
szintjei is változnak (1981). (Flanagan már 1965-ben úgy fogalmazott, hogy a beszéd­
140 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

felismerés egysége a megkülönböztetési feladatnak megfelelően változik.) Minden­


esetre ennek a felfogásnak számos előnye van: mindenekelőtt az, hogy az egység kö­
töttsége nélkül állíthatók fel a megértési folyamatot reprezentáló modellek.

AZ INVARIANCIA (AZ 'ÁLLANDÓ') JELENSÉGE

A mai napig vitatott jelenség, amelynek meghatározási nehézsége a beszéd sokrétű­


ségével függ össze. Az ’állandó’ a beszédnek azon része, amely nem változik, függet­
lenül attól, hogy ki a beszélő, mikor beszél vagy milyen nyelvi jelsorozatot mond. Ez
az ’állandó’ biztosítja, hogy felismerjük és megértsük például a hóvirág szót akár egy
hatéves gyermek, akár egy középkorú vagy egy idős ember mondja, reggel vagy este,
télen vagy nyáron, akár mondatban, avagy hosszabb szövegbe ékeken. Látszólag
annyiféle invarianciajelenség található a beszédben, ahányféle területen a beszéd
maga vizsgálható. Eszerint volna akusztikai állandó, artikulációs állandó, nyelvijei
állandó, észlelési állandó stb. A bizonytalanság következtében fellépő szkepszist
mutatja Port álláspontja, ami szerint az invariancia minden ember (értsd: kutató)
számára mást és mást jelent (1984). Ahhoz, hogy a jelen beszédkutatási eredményei
alapján ítélhessük meg a problémát, áttekintjük röviden, hogy mit jelent az ’állandó’
a klasszikus fonetikában és fonológiában.
Az első kísérlet egyfajta tudományos értékű invarianciakeresésre a fonetikus át­
írás volt. Ez a rendszer, amely szándéka szerint tükrözi az elhangzó beszéd elemi
egységeit, lehetővé teszi a folyamatos beszéd leírását, azonnal kétféle ’állandót’ is
tartalmaz, azaz a beszélőtől és a nyelvtől független állandót. Ez azt jelenti, hogy füg­
getlenül az egyedi ember beszédprodukciójától, valamint a különböző nyelvek ar­
tikulációs sajátosságaitól, létezik olyan invariáns jellemző, amelynek segítségével
a különbségek figyelmen kívül hagyhatók. A fonetikus lejegyzés (átírás) számára
mindegy, hogy például a magyar [o] magánhangzót nő, férfi, gyermek, fiatal vagy
öreg mondta, az átírásban mindig ugyanúgy, tehát állandó jelenségként jelenik
meg. Ugyanígy érdektelen, hogy orosz, magyar, német vagy angol nyelven hang­
zott-e el a hang, ha az megfelel a hátul képzettség, kerekítettség, középső nyelvállás
és rövidség paramétereinek, az átírás változatlan marad. Annak ellenére marad vál­
tozatlan, hogy az említett ejtési eredmények, a fizikai valóság - akár az artikulációt,
akár az akusztikai szerkezetet tekintjük - nagyon különböznek egymástól.
A hagyományos fonetika, amikor a képzés jellege szerint írja le a beszédhangokat,
ugyancsak állandó (artikulációs) sajátosságokat keres. Ezek a jellemzők (pl. két
ajakkal képzett, zárhang, zöngés hang) teszik lehetővé, hogy hallás alapján az el­
hangzó beszéd hangjai az átírási szabályok szerint leírhatók. Sok esetben azonban
különféle mozgássor (artikuláció) azonos vagy hasonló hallásélményt okoz, még
egyetlen nyelven belül is. Port (amerikai) angol példája a pergőhang problémája,
amelynek a retroflex, illetve ’bunched’ ejtését hallás alapján lehetetlen elkülöníteni.
A beszéd megfigyelésében járatlan magyar beszélő sem képes például a hibásan ej­
tett réshangot a helyesen képzettől elkülöníteni.
BESZÉDMEGÉRTÉSI MODELLEK 14 1

A megoldás az, hogy ezekben az esetekben természetesen a hallásélmény kell


hogy alapul szolgáljon a leíráshoz. Ezzel azonban a nyelvfüggetlen állandó leírható-
ságáról kell lemondanunk, hiszen az idegen ejtési sajátosságokat rendszerint az
anyanyelvi percepciós bázison keresztül észleljük, ez pedig gyakran torzítja a való­
ságot. A fonetikai szimbólumok az időzítés tekintetében is állandóak. Az egyes be­
szédhangok mind nyelvi, mind fizikai időtartamát csupán relatíve, a nyelv rendszer­
beli sajátosságainak figyelembevételével határozzák meg. Az ajtó szót például min­
dig ugyanúgy fogjuk fonetikusan átírni, függetlenül attól, hogy az a szó milyen
konkrét időtartamban hangzott el.
A fonetikai szimbólumok nem vesznek tudomást a beszédhangok szerveződéséből
adódó változásokról sem, vagyis ismét egyfajta állandót tartalmaznak. Ezt a szeriális
invarianciajelenséget jól példázza a sokat idézett magyar [k] mássalhangzó. A veláris
felpattanó zárhangunkat mindig ugyanez a jel testesíti meg, noha a követő beszéd­
hangtól függően a rá jellemző artikulációs mozgás (a képzési hely) változik, vö. kutya,
király, katona. E mássalhangzó zörejfrekvenciájának vándorlása az említett három
szóban nagy különbségeket mutat: 670 Hz, 3000 Hz és 1000 Hz. Az átírási rendszer
állandónak tekinti a hasonló képzés jellemzőit, például a résképzést (a különböző
réshangoknál: [f, s, z]) vagy a zöngésség tényét (függetlenül a mássalhangzó típusától).
A klasszikus fonológia, amikor a fonémákat jellemző jegyeket határozza meg,
voltaképpen állandókat próbál találni, amelyeknek kettős a feladatuk, csakúgy, mint
az átírási rendszerekben, a beszélőtől és a nyelvtől független állandó biztosítása.
A jakobsoni elmélet eredetileg nagy rokonságot mutat a hagyományos invariancia­
felfogással: ekkor az artikuláció és az akusztikum között még nem érvényesül min­
dig az állandóság. Az angolban például a ’flatness’jegy egy sor különféle artikulációs
mozgás együttese, amelyek közös ismérve, hogy a magasabb frekvenciák energia­
maximuma csökkenő tendenciát mutat. Ilyen artikulációs mozgás lehet ajakmoz­
gás (a szájnyílás szűkülése: [s] —> [f]), az ajak előrecsücsörödésének változása:
[e:] —> [0 :]) vagy a larynx lejjebb kerülése. Akusztikai hatásuk azonos (vagy közel
azonos), így nyelvileg azonosnak tekinthetők. A Jakobson, Fant, Halle (1973) által
alkotott elméletben az észlelés és az akusztikum sokkal nagyobb jelentőségű, mint
korábban volt. Ez odavezetett, hogy az artikulációs/auditoros szimmetria helyett az
artikulációs/akusztikus szimmetria került előtérbe. A disztinktív jegyek kibővülé­
se az akusztikai jegyek bekerülésével további absztrahálódást eredményezett, s ez­
zel az invariancia fogalmának átértékelése szükségszerűvé vált. Különösen a nyelv­
független állandó kérdése maradt erősen bizonytalan. Chomsky és Halle sok kérdést
úgy próbált megoldani, hogy egyfelől átutalta őket a kognitív szintre, másfelől pedig
univerzálisnak mondta ki, ez egyben azt jelentette, hogy a további elemzésük értel­
metlen. Port szerint a Chomsky-Halle-féle elméletben a korábbi fonetikai teret egy
mentális tér váltja fel, amelynek legfőbb jellemzője, hogy nem a jeltulajdonságot
hangsúlyozza, hanem a beszélő/hallgató észlelési sajátosságait (1984). A későbbi
fonológiai elméletek (pl. autoszegmentális fonológia) már nem is próbálják az enti­
tásokat általános ismérvekkel definiálni; ehelyett különféle módszereket alkalmaz­
nak a felvetett kérdések megoldására.
142 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

Az akusztikus invariancia rendkívül megbízhatónak tűnt, mivel a háttértechnika


segítségével az objektív tények könnyen definiálhatókká váltak. A beszéd - akuszti­
kailag - hullámforma, amely három paraméterrel (frekvencia, intenzitás, idő) egy­
értelműen jellemezhető. Sok nyelvre meghatározták például a magánhangzók első
és második formánsának értékeit, illetőleg a szórástartományokat anyanyelvi beszé­
lők ejtése alapján. Kézzelfoghatóvá vált tehát az akusztikus invariancia. Azok az ész­
lelési kísérleti eredmények azonban, amelyek meglepően jó teljesítményt igazoltak
olyan esetekben, amikor az akusztikus invariáns jegy nem vagy csak alig volt kimu­
tatható - megkérdőjelezték ennek az ’állandónak’ az érvényességét. Érthetőek ma­
radtak például olyan egy szótagú magyar szavak, amelyekben a magánhangzók első
két formánsát tartalmazó frekvenciasávot „levágták” (Gósy 1992). Ekkor valamilyen
másodlagos akusztikai paraméter vagy paraméterek biztosították a pontos azonosít­
hatóságot.
A nyolcvanas évek elejére nyilvánvalóvá vált, hogy az addig alkalmazott eljárá­
sok, műveleti megoldások, illetőleg jegykereső stratégiák mind-mind csak részlege­
sen képesek az invariancia kérdését megoldani. Ezért három különböző síkra utalták
át az ’állandó’ jelenségének kutatását, illetve a meghatározását, az artikuláció, az
akusztikum és az észlelés síkjára. A cél az volt, hogy párhuzamokat találjanak
az egyes síkok között. Középpontba került a funkció kérdése, ami azzal járt együtt,
hogy a beszélő/hallgató ember felől közelítettek. A kiindulás az észlelés, az első kér­
dés pedig az volt, hogy ennek az artikulációval vagy az akusztikummal szorosabb-e
a kapcsolata (artikulációs vagy akusztikus invariáns jegy). Delattre egyenesen úgy
fogalmazott, hogy a megkülönböztető jegy tulajdonképpen nem más, mint egy
perceptuális jel, amelyet vagy artikulációs, vagy akusztikus sajátságain át lehet vizs­
gálni, de mindenképpen invariánsként fog funkcionálni (1967). Más szavakkal ez
azt jelenti, hogy az invariáns jegyeknek vagy a gesztusok (artikulációs mozgások),
vagy eredményük (az akusztikai jel) tekintetében kell leírhatóknak lenniük. A leírási
módszer azonban szabadon választható.
Port (1984) javaslata a következő. A hallgató számára természetesen az akuszti­
kai jelnek, azaz a hallásélménynek kell állandónak lennie. Ez viszont feltételezi,
hogy a különböző fiziológiai adottságok ellenére, ugyanazon mozgások ugyanazon
(hallási) élményt keltik. A gyermeknyelvi vizsgálatok tapasztalata azonban ellent­
mond ennek a feltételezésnek. Ahhoz, hogy a gyermek a szükséges hangzást elérje,
módosított, nemritkán egészen más artikulációs mozgássort kell elvégeznie, mint a
felnőtteknek. Ennek oka elsősorban (de nem kizárólag) beszédszerveinek a felnőtté­
től különböző morfológiai felépítése (a lágy szájpad méretei, arc- és orrüregi külön­
bözőségek, a vokális traktus hossza stb.). Az artikuláció és az akusztikum között -
mint láttuk - nincs „egy-az-egynek” megfelelés, ez pedig megnehezíti a közös inva­
riáns megtalálását. További kérdés, hogy vajon mely esetekben kell artikulációs és
melyekben akusztikus invarianciákat keresnünk.
Mindezek feloldására Port szemléletes hipotézist vezet elő. E szerint az invarian­
cia mint jelenség az egyes síkok (artikuláció - akusztikum - észlelés) közötti transz-
formációban keresendő és fogható meg egyértelműen. Több ún. fonetikai teret tété­
BESZÉDMEGÉRTÉSI MODELLEK 14 3

lez föl, amelyek között invariáns transzformációk biztosítják a kapcsolatot. Úgy gon­
dolja, hogy ezen a módon jobban leírhatók a beszédhangok, mint szegmensekként.
Az egyes transzformációk fő jellemzője az időzítés, szemben az „idő nélküli” foneti­
kai terekkel. Miért más felfogása ez a fonetikai térnek, mint korábban? Hagyomá­
nyosan a fonetikai teret a fonetikai jegyek vagy szegmensek meghatározott számú
egyede alkotja. Új adatok birtokában (pl. egy újabb beszédhang megjelenése egy
újabban tanulmányozott nyelv alapján) új jegyek kerülhetnek ebbe a térbe, s ezáltal
maga a tér is bővül. A porti értelemben használt fonetikai teret transzformációk ha­
tározzák meg, s az ’állandó’ úgy jelentkezik, hogy a transzformációk működése köz­
ben a tér maga változatlan marad. Mindehhez már csak a transzformációk meghatá­
rozására volna szükség. Ez bizonyos esetekben világosan körvonalazott, más esetek­
ben meglehetősen bizonytalan. Legelfogadhatóbb abban a megfogalmazásban,
hogy egyfelől az artikulációs és/vagy akusztikus jegyek egyértelműen megfeleltet­
hetők bizonyos észleleteknek, itt az ’állandót’ a mozgás és a percepció vagy az
akusztikum és a percepció közötti transzformáció jelenti, és érdektelen, hogy mikor
melyik esettel állunk szemben. Másfelől létezik beszélők és nyelvek közötti tér­
transzformáció, amely mindig állandó abban az értelemben, hogy kiszolgálja, vagyis
biztosítja az észlelést.
Ennek az új transzformációs fonetikai térnek nagy haszna az, hogy továbbviszi
az invarianciakutatást; az eddigi elméletekkel ellentétben nem újabb és újabb érve­
ket sorakoztat fel az egyik vagy másik lehetőséggel kapcsolatban, hanem tudomásul
veszi a képzés/hangzás aszimmetriáját, és ebből kiindulva igyekszik megoldást ta­
lálni. Nagy eredmény, hogy elsősorban a funkciót próbálja meghatározni. Ez a funk­
ció pedig nem más, mint a beszélő/hallgató nézőpontja, vagyis az elhangzó beszéd
felismerésének kritériumai. Egyetlen gyenge pontja van mind az eszmefuttatásnak,
mind a megoldási kísérletnek. A fonetika tudomány több évszázados „rossz” hagyo­
mánya ütközik ki: a beszédet a leírható legkisebb egységek alapján értelmezi és tart­
ja felismerhetőnek, így a fonetikai térben csak az ennek megfelelő entitások létez­
nek. Ennek alapján pedig legfeljebb a szóig jut el; fel is teszi a kérdést, hogy vajon mi
a szó az artikuláció és az akusztikum területén. Választ azonban nem tud adni rá.
A modell így egy meghatározott körön belül marad, és csak itt alkalmazható.
A felsorolt problémák felvetették azt a lehetőséget, hogy az invariancia jelensége
nem szűkíthető le a beszédhangok vagy még kevésbé meghatározott jegyek területé­
re. Emellett az az érv szól, hogy ha egyértelműen meg is határoznánk a beszéd inva-
riánsjegy-rendszerét, ez nem azt jelentené, hogy a beszéddel kifejezett gondolat ki­
bontásához (megértéséhez) szükséges állandót találtuk meg, csupán egyet közülük.
A beszédben többféle, valószínűleg több szinten létező invariáns tulajdonság van. A
beszélő/hallgató célja mindig az elhangzó beszéd pontos azonosítása, függetlenül
például az extralingvisztikai körülményektől. Ismeretes, hogy az észlelési/megértési
stratégiák az aktuális feladatnak megfelelően változnak. Feltételezhető, hogy az in­
variancia is változó jelenség, amely az aktuális kommunikációs feladatnak van alá­
rendelve. Tegyük fel, hogy megfelelő vizsgálatokkal meghatároztuk egy elhangzó
mondat invariáns akusztikai tulajdonságait, és megértési kísérlettel igazoltuk az
144 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

elemzés helyességét. Majd ugyanezt a mondatot akusztikailag torzítva újra le-


játsszuk a kísérleti személyeknek. Egy bizonyos torzítási fokig a két kísérlet eredmé­
nye azonos marad. Erre pedig csak egyetlen magyarázat van: minthogy megválto­
zott az akusztikus invariancia, a beszélő/hallgató mást és mást használt fel a megér­
tési folyamatában az első és a második esetben.
A beszédhangokban meglévő invariancia valamennyi közül a legjobban és a leg­
többet vizsgált lehetőség, sokak szerint az invariancia egyedül lehetséges megvaló­
sulási területe. Pisoni definíciója a következő: „Egy x hangnak olyan akusztikai vagy
tulajdonságjegy láncolata, amely minden kontextusban felidézi az adott hangot”
(1981, 249). A Pisoni-féle definíció sugallja a feladatot: a fonetikusoknak nincs
egyéb dolguk, mint megkeresni azokat a jegyeket - bármik legyenek is azok -, ame­
lyek a fenti követelménynek eleget tesznek. Ehhez nagy segítség a fejlett artikulációs
fonetika, a magas szintre jutott akusztikai fonetika, illetőleg a reneszánszát élő per-
cepciós fonetika. Különböző kísérleti módszerek, például a beszédszintézis nyújt sok
lehetőséget a kérdés megválaszolására.
Tekintsünk át néhány elméleti, a továbbgondolkodáshoz nélkülözhetetlen kér­
dést! Az invarianciával két jelenség áll szemben: a redundancia és az irrelevancia.
Mit jelentenek ezek a beszédészlelés szempontjából? A kétféle megnevezés itt kétfé­
le jelenséget takar (hat). A redundancia ’biztonsági többlet’, az irreleváns pedig a
’lényegtelen’, a felesleges, bár ez utóbbiakat nemegyszer egymás szinonimájaként
használják. A lényegtelen elhagyható, mert soha, semmilyen körülmények között
nem képes az üzenet dekódolhatóságának biztosítására. A redundáns viszont csak
relatív feleslegességet jelent, mivel bizonyos körülmények között információhordo­
zóvá válhat. Csendes körülmények között jóval kevesebb akusztikai jel elegendő egy
mondat megértéséhez, mint zajos vagy egyéb módon zavart helyzetben; ez utóbbi
esetben több/többféle akusztikai paraméter hordozza azt a szükséges információt,
amely a megértéshez nélkülözhetetlen.
Lássunk példákat arra, hogy a beszéd redundanciája milyen nagyfokú. Ha vala­
mennyi magánhangzó helyett [s]-t hallunk egy angol mondatban, de minden egyéb
jellemző változatlan marad, akkor a mondatmegértés tökéletes lesz (Gimson 1962).
Ugyancsak angol példa, hogy egy 1000 Hz sávszélességben közölt mondat 1500
Hz-es középfrekvenciával 90%-osan érthető marad (Denes-Pinson 1973). A magyar
kiejtés egyik jellemzője, hogy a magánhangzók képzése teljes értékű, vagyis függet­
lenül a szóban, mondatban elfoglalt helyétől, a magánhangzó nem redukálódik.
Napjaink spontán beszédének vizsgálata azonban egyértelműen igazolta, hogy a
szükséges hangminőségek helyett mintegy 70%-ban semleges magánhangzók talál­
hatók, az észlelési/megértési mechanizmusunk mégis általában nehézség nélkül de­
kódolja ezeket a közléseket (Gósy 1997a). Ez pedig a beszéd redundanciájának, va­
lamint az invarianciajelenségeknek köszönhető.
Az invariancia tetten érhető a kontextusban is. Kontextuson itt a beszédhangok
kapcsolódási sorozatait értjük, szavakat, szavak egymásutánját. Példánkban a Jöttek
egy páran, akik szoktak hozzájuk járni mondat köznyelvi ejtésének és nyelvjárási va­
riációjának különbségei láthatók fonetikai átírásban:
BESZÉDMEGÉRTÉSI MODELLEK 145

köznyelvi ejtés: |j 0 t:ek ec pa:ron okik soktok hoz:a:juk ja:rni]


nyelvjárási ejtés: [jyt:ek ecpa:ron: okik soktok y:hoz:a:jo ja:rpi]
Feleslegesnek tűnik annak bizonygatása, hogy itt mindkét esetben valóban „be­
szédhangokon fölüli” invariáns jelenség biztosítja a megértést.
A beszédhelyzetben gyökerező invariancia a természetes kommunikációban leg­
többször észrevétlen marad, a megértési folyamatnak funkcióba lépése ugyanis
olyan rendkívül rövid időtartamban zajlik le, hogy nem is tudatosodik. Észrevételük­
nek több oka is lehet. A leggyakoribb az, hogy a nyilvánvaló félreértés korrigálása
hosszabb időt vesz igénybe, így a tudatosodás létrejön. Nézzünk egy megtörtént pél­
dát a beszédhelyzeten alapuló invarianciajelenségre. A beszédhelyzet a következő:
tél van, az autópályán egy autó nyitott motorháztetője mellett két ember áll. Az
egyik így szól: E lfogyo tt a levegővezeték (a beszélő arra gondolt, hogy a kicsapódó
vízcseppek a hideg hatására ráfagytak a légvezetékre, és eltömték azt). A másik sze­
mély a következőképpen azonosítja a közlést: Elfogyott a levegővezeték. A feldolgozó
mechanizmusa azonban riaszt: !Nincs értelme! Az újraelemzés sikeres, a közlés
módosított felismerése a következő: Elfagyott a levegővezeték. A félreértést az el­
hangzott mondat állítmányának második magánhangzója idézi elő azzal, hogy a be­
szélő a kívánt hangminőség helyett semleges magánhangzót ejtett. A szófelismerés
a hallgató számára nyilvánvalóan gyakoribb elfogy igét aktiválta, amellyel azonban a
közlés értelmezhetetlenné vált. Az újraelemzés sikerét a beszédhelyzet (tél, hideg)
biztosította azzal, hogy aktiválta a fagy igét, s ezzel értelmessé tette az elhangzott
közlést. A félreértés gyakran nem a beszélő produkciójában, hanem a hallgató - sok­
szor nyomon követhetetlen - észlelési/értési folyamatában adódik; a félreértést ki­
váltó okok sokfélék (pl. más volt a hallgató elvárása, a valószínűsített közlést észlel-
te/azonosította, nem a valóságosat).
Az ismeretek szintjén feltételezett invariancia - elfogadva egyfajta hierarchiát -
a legfelső szinten működik. Lényege, hogy a beszélő/hallgató a beszéd felismerésé­
nek, a jelentések azonosításának stb. birtokában sem lesz képes az üzenet egészének
a fogadására, ha az az állandó hiányzik, amelyik a megértést, adott esetben az értel­
mezést biztosítja. A legjobb példa erre a viccek egy bizonyos csoportja, ahol a vicc,
vagyis a csattanó megértéséhez megfelelő ismeretek szükségesek. Például: Meddig
voltAdám és Eva a Paradicsomban? Válasz: Almaérésig. A válasz kétértelműsége, il­
letve egyértelműsége az első emberpárnak a Paradicsomból történt kiűzetésében,
annak bibliai leírásában gyökerezik. Az ismeretszintű invariancia természetesen a
szokásos kommunikációnak is többnyire alapvető feltétele. Nemcsak tudás jellegű
ismeretekről van szó, hanem általános tényekről, ún. emberi tapasztalatról stb. (Ha
például két ember párbeszédébe belehallgatunk, rövidebb-hosszabb ideig képtele­
nek vagyunk értelmezni azt, mit hallunk.)
A kutatók nagyjából egyetértenek abban, hogy az akusztikai analízist a hallgató
mintegy integrálja az összes már meglévő vagy kapott szükséges információval (itt
jut nagy szerephez az ún. háttértudás), ez biztosítja a közlés tökéletes feldolgozha­
tóságát, értelmezését. A különböző jellegű információkat (jelinformációkat) tartal­
mazó „tömegből” választja ki a beszélő/hallgató a számára fontos elemeket. Ezek egy
146 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

része azonos az ugyanazon nyelvet beszélőknél, egy (más jellegű) része azonban vá­
lasztható, illetőleg egyénenként eltérő. (Például egy szófelismeréses kísérletben,
ahol mezőgazdasággal kapcsolatos szavakat kell megérteni, egy agrármérnök nyil­
ván más stratégiával és ismeretanyaggal dolgozik, mint egy géplakatos vagy egy tör­
ténelemtanár.) Normális esetben mindenképpen létezik egy közös rész, amikor a
dekódolási folyamat mindenkinél azonos módon történik; ez különösen az ún. al­
sóbb szintekre vonatkozik (hallási, akusztikai, fonetikai elemzések, vö. Eysenck-
Keane 1997; McQueen et al. 2003).
Az invariancia definíciója mindezek után a következőképpen fogalmazható
meg: az elhangzó beszédben invariáns(ak) az(ok) a jegy(ek), amely(ek) az adott be­
szédhelyzetben a beszélő/hallgató számára az észlelést és/vagy a megértést bizto-
sítjá(k). Ezek ajegyek az akusztikum, a nyelvi ismeret, az extralingvisztikai ténye­
zők és az egyéni ismeretek területein határozhatók meg, amelyek a kognitív szinten
használódnak fel. Az adott beszédhelyzet alapján meghatározható, hogy az akusz-
tikumnak, az extralingvisztikai tényezőknek vagy az egyéni ismerethalmaznak ju­
tott-e nagyobb szerep. A kiindulás azonban mindig az elhangzó jel akusztikai tulaj­
donsága. Valószínű, hogy a különböző szintű invarianciajelenségek között létezik
egyfajta hierarchia, illetve dominancia, amely a konkrét esetekben vizsgálható.

ÖSSZEFOGLALÁS

A szegmentálás problémája jelentkezik a hangsoron belül, de a spontán beszédben


is. Van olyan felfogás, amely szerint nem is a szót azonosítjuk a szövegben, hanem a
kontextuális információ nyomán vagyunk képesek az egységeket felismerni. A be­
szédmegértés egyik legrégebbi problémája az elemi percepciós egység meghatáro­
zása. Mind a mai napig többféle hipotézis ismert ezzel kapcsolatban. Elemi egység­
nek gondolták a fonémát, a megkülönböztető jegyeket, a hangkapcsolatokat, a szót,
a magmondatot stb. A legegyértelműbb igazolás a szótagra adódott. Az ’állandó’ a
beszédnek azon része, amely nem változik, függetlenül attól, hogy ki a beszélő, mi­
kor beszél vagy milyen nyelvi jelsorozatot mond. Ez az ’állandó’ biztosítja, hogy fel­
ismerjük és megértsük például a hóvirág szót akár egy hatéves gyermek, akár egy fel­
nőtt mondja, bármikor, bármilyen helyzetben. Az első kísérlet egyfajta tudományos
értékű invarianciakeresésre a fonetikus átírás volt. Ezt követően különféle állandó­
kat próbáltak találni, mint például a fonémák megkülönböztető jegyei vagy az
akusztikus invariancia. A nyolcvanas évektől három különböző síkra utalták át
az ’állandó’jelenségének kutatását, az artikuláció, az akusztikum és az észlelés síkjá­
ra. A cél az volt, hogy párhuzamokat találjanak az egyes síkok között. Az invariancia
tetten érhető a kontextusban, a beszédhelyzetben, sőt az ismeretek szintjén is. Az is­
meretekben feltételezett invariancia - elfogadva egyfajta hierarchiát - a legfelső
szinten működik.
A BESZÉDÉSZLELÉSI FOLYAM AT MŰKÖDÉSE 14 7

A BESZÉDÉSZLELÉSI FOLYAMAT MŰKÖDÉSE

A szenzoros rendszerek működése két fázisra bontható az információfeldolgozási


szemléletű elméletekben. Az elsőben a szigorú értelemben vett automatikus folya­
matok játsszák a fő szerepet, itt történik a hangsajátosságok akusztikai elemzése.
A második fázisban az akusztikai elemzés eredményei alapján - többségében felül­
ről vezérelt - folyamatok alakítják ki a végső észleletet. A vita akörül folyik, hogy hol
van a két fázis határterülete. (A Gestalt-iskola és követőinek nézete ettől alapvetően
eltér, mivel ezek az elméletek az észlelés globális, kezdettől fogva strukturált voltát
hangsúlyozzák. Nem magyarázták meg azonban az egyes részfolyamatok működé­
sét, illetőleg az észlelés idegrendszeri mechanizmusainak feltárásával is adósak.)
A beszédészlelés hallásspecifikus, idegrendszeri működést tekintetbe vevő folyama­
ta az alábbi szakaszokra bontható (az eltérési negativitás, EN* vizsgálatával: Csépe
2003; Winkler 2004). A hallórendszer automatikus funkciói közül e tekintetben első
a hangfolyam szegmentálása, a szabályosságok körének felismerése, a hangfolya­
mon belül egységek meghatározása, a reprezentált szabályosságok alapján bizonyos
predikciók felhasználása, a szabályosságok mellett az eltérések regisztrálása, a
hosszú idejű akusztikus emlékezet aktiválása, azaz a tanult, hosszú távon tárolt in­
formációk felhasználása.
A beszédészlelés folyamatműködésére is többféle hipotézis ismeretes. Az egyik
szerint az akusztikai jelet valamiféle köztes absztrakt fonológiai egység - például
szegmentum, szótag - formájában dolgozzuk fel, és ezt az egységet használjuk fel,
hogy majd hozzáférjünk a lexikonhoz. Egy másik hipotézis szerint az akusztikai szig­
nálban azonosított jegyeket a szavak alulspecifikált reprezentációival közvetlenül
összevetjük. A harmadik felfogás szerint az akusztikai jelből nyert információt köz­
vetlenül a szavak felszíni szerkezetével vetjük össze, amely felszíni szerkezetek tar­
talmazzák valamennyi fonetikai és fonológiai információt. A jegyszinten alulspecifi­
kált modell elnevezésű hipotézis (FÜL - Featurally Underspecified Lexicon: Lahiri-
Marslen-Wilson 1992) bizonyos értelemben egyesíti az előzőeket. Ebben az akuszti­
kaijelből közvedenül történik ajegyek kiemelése, s ebből egy jegysorozat kialakítása.
Ezt a bejövő jegysorozatot hasonlítja össze a folyamat aszerint, hogy van-e találat,
nincs találat vagy a feltételezettel ellentétes eredmény következett be. Ezután az
összevetés után következik egy párhuzamosan futó elemzés, amelynek egyik oldala
a mentális lexikonban történő keresés, a másik oldala pedig a grammatikai feldolgo­

* A hanginger k ezdetétől szám ított első 1 0 -1 2 ms-ban agytörzsi eredetű, majd a már kérgi ere­
detű, középlatenciájú, 1 0 -4 0 m s-os elektrom os kiváltott potenciálkom ponenseket követően hosszú
latenciájú, általában nagyobb am plitúdójú kom ponensek láthatók, közülük főként az N I jelentős.
(Ez exogén , a hallási inger fizikai param étereitől függő kom ponens.) H angok kezdete, hosszú han­
gok m egszű n ése, általában a hallási ingerlésben bekövetkező valam ely hirtelen változás váltja ki az
akusztikai N I kom ponenst. Szabályos hangingerek sorában bekövetkező változások váltják ki az
EN kom ponenst, az eltérési negativitást (mismatch negativity), am ely a változás kezdetétől 1 0 0 -
2 5 0 m s közötti csúccsal jelentkezik. Az EN kom ponens a szabályosságtól való eltérés felism erésé­
nek k im enetelét tükrözi.
148 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

zás. A mentális lexikonban végbemegy a fonológiai, a morfológiai és a szemantikai


reprezentációk azonosítása egyidejűleg a grammatikai feldolgozás során feltétele­
zett fonetikai, fonológiai, szintaktikai és szemantikai elemzésekkel. A végeredmény
az elhangzott közlés megértése. Kísérletileg igazolták, hogy a hallgató érzékenyebb
a magánhangzók lehetséges változtatására a beszédészlelés során. Ebben az érte­
lemben a mássalhangzók stabilabbnak tűnnek, a magánhangzók több lexikális vá­
lasztási lehetőséget engednek meg. A kísérleti személyek - adott esetben - inkább a
magánhangzókat cserélték ki a mássalhangzókkal szemben, hogy értelmes szavakat
azonosítsanak (Cutler et al. 2000).
A hierarchikus építkezésű, interaktív beszédmegértési modell ennél lényegesen
általánosabb, amely a teljes feldolgozási folyamatot reprezentálja, és a beszédészle­
lési, beszédmegértési folyamat működésének csaknem valamennyi kérdésére meg­
oldást kínál (2. ábra).

2. ábra I A b eszédm egértés hierarchikus felépítésű m odellje

A beszédfeldolgozás az elsődleges hallási elemzéssel indul, amelyet egy felismeré­


si (elképzelési) terv követ a beszédészlelés és a beszédmegértés szintjein. Ez utóbbi
egyszerre három síkon folyik: az észlelés (alapszintek: akusztikai, fonetikai, fonoló­
giai) szintjén, majd a szintaktikai és a szemantikai elemzés szintjén. A szemantikai
elemzés visszahat (hat) az észlelésre és a szintaktikai műveletekre, a szintaktikai pe­
dig ugyancsak az észlelésre. A hallás az akusztikai ingereket dekódolja, ezen a szin­
ten beszédelemzés még nem történik. Az ép hallás biztosítja a hierarchikusan ráépü­
lő szintek működését. A beszédészlelés beszédhangok, hangkapcsolatok és hangso­
rok felismerése, azonosítása. Új adat, hogy a szótag feldolgozása szó környezetben
más, mint szótag környezetben. A beszédmegértés az adott nyelv szerkezeteinek,
illetőleg a szavak, szókapcsolatok, mondatok és szövegegységek jelentésének (tar­
talmának) megértését jelenti. Az asszociációk vagy értelmezés szintjén a hallott és
megértett közlés(ek) összekapcsolása történik meg az emlékezetben már korábban
A BESZÉDÉSZLELÉSI FOLYAM AT MŰKÖDÉSE 14 9

tárolt ismeretekkel és/vagy tapasztalatokkal. Valószínűleg nem létezik olyan sze­


mantikailag dekódolható közlés, amely ne indítana el egyúttal asszociációs/értel-
mezési folyamatokat.

A HALLÁS

A hallás környezetünk akusztikai ingereit dolgozza fel; a hallás az a folyamat,


amelyben hallószervünk a hangjelenségeket érzékeli, felerősíti, irányukat meghatá­
rozza, és továbbítja a megfelelő agyi központba, ahol a végső feldolgozás megtörté­
nik. A hallásnak anatómiailag két fő része van, a perifériás és a centrális rész. A peri­
féria maga a fül; a centrális rész a hallóideggel - ez a VIII. agyideg - kezdődik, és a
hallópályából, az agytörzsi és magasabb központokból, valamint az elsődleges és
másodlagos hallókéregből áll.
A fület külső, közép- és belső fülre osztják. A külsőfület a fülkagyló és a hallójárat
alkotja; a középfültől a dobhártya választja el. Fülkagylónk bőrrel fedett, rugalmas
porcból álló szerv, izmai elcsökevényesedtek. A hallójárat hossza átlagosan 25 mm.
A hallójárat a hangtér rezgéseit a dobhártya felé közvetíti; továbbá kb. 6-8 dB zörej­
mentes erősítést tesz lehetővé. Emellett fontos szerepe van az irányhallásban. A kö­
zépfül a dobhártyától mediálisan a kengyel talpáig tart. Részei: a dobüreg, az ezen
üreget az orrgarattal összekötő fülkürt (Eustach-féle kürt), valamint a sejtrendszer.
A dobüreg légtartó üreg, amelyben a jellegzetes alakú csontocskák, a kalapács, az
üllő és a kengyel, valamint a hozzájuk tapadó izmok találhatók. A dobüreg alsó falá­
tól kiinduló fülkürt (tuba auditiva) az orrgaratba szájadzik, ezzel biztosítva azt,
hogy minden nyelésnél levegő jusson a dobüregbe. A hallócsontok mozgása és ezzel
a hangtranszformáció akkor tökéletes, ha az üregben is 1 atmoszféra a légnyomás,
úgy, mint a környező levegőben. A hangvezetés szempontjából a dobhártya kiemel­
kedő jelentőségű. Ez a háromrétegű, nem egyenletesen feszes, nagyjából kör alakú
membrán transzformálja a levegőmolekulák rezgéseit mechanikai rezgésekké, és
ezeket a rezgéseket átadja a középső rétegébe beágyazott első hallócsont, a kalapács
markolatára. A mélyebb frekvenciákat vezeti jól, a magasabbakat kevésbé. A mecha­
nikai rezgést - az egymáshoz kis ízületekkel csatlakozó - hallócsontocskák juttatják
el az ovális ablakon át a perilymphára, ahol a mechanikai rezgés folyadékrezgéssé
alakulva halad tovább. A dobüreg funkciója tehát a hangtovábbítás, emellett erősítő
feladata is van. A középfül további feladata az is, hogy védje a belsőfület az erőteljes
hangbehatásoktól. A dobhártya igen tág határok között képes elmozdulni. Igen halk
hangok esetén alig észlelhető a mozgása, míg erős hangok esetén szemmel is megfi­
gyelhető elmozdulásokat végez. A védő mechanizmust a dobüregben található igen
kicsiny harántcsíkolt izmok is biztosítják. Ezek az izmok az erős hang hatására meg­
feszülnek, és a túl nagy energiát nem viszik át közvetlenül a belsőfülre. Ez az intenzi­
tásszabályozás azt jelenti, hogy a középfüli izmok mintegy 500 Hz és 3000 Hz között
védik a fület. Erősebb hang hatására a középfül izmai összehúzódnak. Békésy
György (a Nobel-díjas magyar tudós) mérései szerint a dobhártya nem egyszerűen
150 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

egy kifeszített hártya; rugalmasságát inkább a mögötte lévő levegőpárnának kö­


szönheti, amely a dobhártyát és a kerek ablakot is védi a hirtelen légnyomásváltozá­
soktól és a túl erős mély hangoktól. A belsőfülben a részecskék rezgése bonyolult
(elektrofiziológiai, biokémiai, rezgéstani) mechanizmusok révén impulzussorozattá
alakul át. Két nyílás vezet a belső fülbe: az ovális és a kerek ablak. Az ovális ablakba
a kengyel talpa illeszkedik a dobüregben, a jóval kisebb kerek ablakot másodlagos
hártya zárja le a dobüreg felől. A belsőfül a halántékcsont sziklacsont része mögött,
az ún. labirintusban található, megfelelő védettségben. Feladata kettős: itt van az
egyensúlyozásért és a hallásért felelős szerv. Ez utóbbi a csiga (cochlea, benne a
Corti-szerwel, nevét felfedezőjéről, Alphonso Cortiról kapta). A hallócsontocskák
közül a kengyel érintkezik a csigával, amely egy spirálisan felcsavarodott csontos
cső, amit egy hártyarendszer három részre oszt. A felső csatorna, a scala vestibuli és
az alsó csatorna, a scala tympani a csiga csúcsán találkozik egymással, az általuk
közrefogott scala media pedig egy zárt cső. A scala vestibuli a kengyeltalpon, a scala
tympani a kerek ablakon keresztül tart kapcsolatot a dobüreggel. A halláshoz tarto­
zó csontos labirintust, valamint a hártyás részeket is folyadék tölti ki (az előbbit a
perilympha, az utóbbit az endolympha). A csigacsatornát alulról az alaphártya hatá­
rolja.
A Corti-szerv a külső szőrsejtek (számuk 12 000 és 20 000 közé tehető) és a belső
szőrsejtek (számuk mintegy 3500) működésén alapszik. A szőrsejtek nagy védett­
ségben vannak: a szervezet legkeményebb csontjában helyezkednek el, és folyadék­
ban úsznak. A testünket érő mechanikai hatások ezért nem zavarhatják őket. A Cor­
ti-szerv a hallóideg végkészüléke, amelyben a fizikai hangjelenség idegjelenséggé
alakul át. Úgy is fogalmazhatunk, hogy itt a mechanikai inger, a rezgés, idegi ingerü­
letet vált ki, a mechanikus energia a szőrsejtekben alakul át elektromos impulzusok­
ká. Ezt a rajtuk tapadó idegrostok továbbítják a központi idegrendszerhez. Minden
egyes idegrost egy adott hangmagasságra reagál a legérzékenyebben. Ez azt jelenti,
hogy a hanginformációt a jelek száma és időbeli lefolyása jelenti. Az érzéksejtek in­
gerületét folyamatosan analóg, az idegrostokét diszkrét analóg működés jellemzi
(Pauka 1982).
Működésmegosztáshoz vezet a külső és a belső szőrsejtek térbeli elrendeződésé­
nek különbözősége is. A külső szőrsejtek érzékenyebbek, de időbeli feloldóképessé­
gük gyenge; a belső szőrsejtek érzéketlenebbek, ugyanakkor az időbeli feloldóké­
pességük kiváló, mert az ingerület az egyik idegrost kimerülése esetén egy másikon
továbbítódhat. Ez a receptorok többszörös beidegzésének elvén alapszik. A többszö­
rös beidegzés elve azt jelenti, hogy több külső szőrsejt van egy idegrosthoz kapcsol­
va, míg egy belső szőrsejtet több idegrost lát el. A csigát úgy is tekinthetjük, mint egy
szűrőrendszert, s az a frekvencia, amelyre egy neuron a legkisebb hangnyomáson
reagál, a neuron rezonanciafrekvenciája. Minden egyes neuron a frekvenciák elég
széles sávjára reagál, de létezik egy olyan frekvencia, amire a legérzékenyebb. A neu-
ronok egy különleges csoportja az ingerek tárolását végzi; ez biztosítja a korábban
szerzett hallási tapasztalatok felhasználhatóságát egy későbbi időpontban.
Az ingerületet továbbvezető sejtek a neuronok, amelyek az idegdúcokat és az
A BESZÉDÉSZLELÉSI FOLYAM AT MŰKÖDÉSE 151

idegpályákat alkotják. A kódjel a neuronokon keresztül vezetődik az agykéregbe,


ahol elektromos jelként, mint kérgi potenciál, kimutatható. A külső szőrsejtek által
feldolgozott, részben dekódolt rezgésinformáció a belső szőrsejtek működésének
következtében jut el az agytörzsbe, ahol a hallásműködés tekintetében egy másodla­
gos információfeldolgozás zajlik le (az elsődleges feldolgozás helyszíne a csiga).
Minden egyes cochlearis rost legalább egy agytörzsi sejttel kapcsolatban van, és ez
végig, a magasabb központok felé haladva is megfigyelhető. Az érzéksejtek elektro­
mos impulzusok formájában közvetítik a hallóidegnek a környezet akusztikai inge­
reit, illetőleg azok változásait. Az idegsejtek és nyúlványaik sokasága alkotja a halló­
ideget, amely a VIII. agyideghez tartozik. A hallóideg ezt az impulzussorozatot több­
szörös átkapcsolás és kétoldali kereszteződés után vezeti a központokhoz. Az átkap-
csolódások helyei az ún. szinapszisok, amelyek az idegmagvakban találhatók. Az
ingerületet a hallóideg, illetve az agy hallópályái a nagyagykéreg megfelelő köz­
pontjáig vezetik. A hallópálya két legfontosabb központja a thalamus és a hallóké­
reg. A thalamus a központi idegrendszer reléállomása, amelynek funkciója az, hogy
a beérkezett információkat a kéreghez továbbítsa. A kéregben történik a hangok fel­
fogása. Mindaz, ami a feldolgozott jel akusztikai spektrumában „zaj” volt (avagy ir­
releváns információ), a hallópálya szűrőállomásain hátramarad. A hallott beszéd­
hang, illetve a beszédhangok sorozatának felismerése, a kódjelek megfejtése maga­
sabb szintű idegtevékenység, amely elsődlegesen a beszédészlelés mechanizmusá­
ban megy végbe.
Az emberi fül, mint hangfelfogó eszköz, minden tiszta hangot (szinuszhangot) kü-
lön-külön érzékel, minden periodikus rezgést szétbont egész sor szinuszos rezgéssé,
s az ezeknek megfelelő sorozatot érzékeli hangként. A halláselméletek két csoportra
oszthatók: helyelméletekre és frekvenciaelméletekre. A helyelmélet szerint minden
hangmagassághoz egy megfelelő hely tartozik, így minden hangnak sajátos idegi
képviselete van a csigában. A frekvenciaelmélet szerint az agykéreg elemzi a hangot,
de nem egy vagy több hely ingerülete alapján, hanem az egész alaphártya rezgésével
keletkezett hullámképet elemezve. Az utóbbi évtizedek halláselméletének egyik fon­
tos felismerése az, hogy a külső és a belső szőrsejtek beidegzése eltérő. A külső szőr­
sejtek biztosítják a frekvenciafeldolgozás pontosságát, továbbá hatással lehetnek a
belső szőrsejtek viselkedésére is. Az otoakusztikus emisszióra vonatkozó felfedezés
(hetvenes évek vége) azt igazolta, hogy a belső fülben a külső szőrsejtek spontán
működése során, illetve hangingerek által kiváltottan megjelenő produktumot mint
hangot a hallójáratba helyezett mikrofon segítségével felfoghatunk (Kemp 1978).
Ennek a gyakorlati jelentőségét az adja, hogy a hallójáratban lévő levegő nyomásá­
nak mérése felvilágosítással szolgálhat a hallás ép működéséről; és ennek például az
újszülöttek hallásvizsgálatában fontos szerepe van.
Az elfedés jelensége mind a hallás folyamatában, mind a ráépülő beszédészlelés
szempontjából fontos. Az elfedést már a 19. században ismerték. Általános megfo­
galmazásban az elfedés jelensége az, hogy két hang egyidejű jelenlétekor az egyik
gátolja a másik percepcióját. Megállapították, hogy egy viszonylag gyenge, mély
frekvenciájú orgonahang elfedi a vele egy időben szóló, magasabb frekvenciájú
152 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

hangvilla hangját. Az elfedés a magas hangok irányában sokkal kifejezettebb, mint a


mély hangok felé. Ez azt jelenti, hogy magas hangokkal a mély hangok nem fedhe-
tők le.

AZ EMBERI HALLÁS

Hallásról akkor beszélünk, ha a hangrezgés a hallójáraton át a dobhártya-halló-


csont-rendszeren keresztül vezetődik a belsőfülbe. A beszéd „meghallása” is a hang­
rezgések feldolgozása, hiszen a beszéd a levegőrezgések útján éri el a fület. Ez a lég-
vezetéses hallás. A koponyacsontokat ért hangrezgések közvetlenül is áttevőd­
hetnek a belső fülbe, és kiválthatják az ingerületet. Ez a csontvezetéses hallás. A
hallójáratban elhelyezkedő légoszlop azokat a frekvenciákat erősíti fel, amelyek sa­
játrezonanciájának megfelelnek (2000-3000 Hz-es tartományban). Saját beszédün­
ket mind lég-, mind csontvezetéssel halljuk. Ez magyarázza azt, hogy az ember a sa­
ját, rögzített (pl. magnetofonszalagra) beszédét mindig másmilyennek hallja, mint
beszéd közben. Békésy György (1949) feltételezte, hogy a belső fül különbözőkép­
pen működik attól függően, hogy a saját gégében keletkezett és a toldalékcsőben to­
vábbjutott hangot, avagy külső hangingért kell feldolgoznia. Ezért van az, hogy az
ember jól hallja a mások elhangzó beszédét, ugyanakkor a saját beszédprodukciója
mégsem lesz túl hangos önmaga számára.
Az ember hallása igen nagy terjedelmű. Az ép hallást úgy határozzák meg, hogy a
hangok magasságának (hertzben megadva, Hz) és erősségének (decibelben megad­
va, dB*) az összefüggéseit vizsgálják szinuszhangokkal a hallási folyamatban. Az ép
hallású fiatal ember a 20 Hz (a szélső érték 16 Hz) és a 20 000 Hz közötti hangokat
érzékel (hét) i. A 16 Hz alatti hangok az infrahangok, a 20 000 Hz felettiek pedig az
ultrahangok; ezeket az emberi hallószerv nem hallja. Az ember az egyes frekvenciá­
kon belül 3-5 dB-es intenzitáskülönbségek érzékelésére is képes. A klinikai gyakor­
latban ép hallásról akkor beszélnek, ha a légvezetéses küszöb 250 és 8000 Hz közöt­
ti tartományban 0 és 10 dB között húzódik. Az évmilliók során olyan hallószervünk
alakult ki, amely lehetővé teszi a természetben előforduló, az ember számára jelen­
tős hangok, zajok meghallását. Ezek általában 70 dB alatt vannak. Erősebbek vi­
szont az ipari zajkörülmények és a szabadidőzajok, amelyek ha tartósan fennállnak,
maradandó halláskárosodást okozhatnak. Az 50 dB feletti zaj vegetatív elváltozáso­
kat (kipirulás, vérnyomás-emelkedés, izzadás stb.) okoz. A 80 dB feletti tartós zaj
halláskárosodáshoz vezet. A fájdalomküszöb 120 dB-en jelentkezik. A hang erőssége

* A decibel viszonyszám , értéke a hallás vizsgálatában azt mutatja m eg, hogy egy adott hang
erőssége hogyan viszonyúk ahh oz a leghalkabb hanghoz, am elyet a jó hallású ember 1000 Hz-es
hangm agasságnál m egh all. (A fizikában 0 dB-nek azt a szintet tekintik, am ely hagyom ányosan
0 ,0 0 0 2 din /cm 2, energiában 1 0 -1 6 w a tt/cm 2 1000 H z-en). Az a referenciaszint, am it az audioló-
giában a hallással k ap csolatosan használnak, az 2 0 juPa, az abszolút hallásküszöb (a legalacso­
nyabb hallható nyom ásin gadozás) 1000 Hz-es szinuszhang esetén. A han gerősség érzése a fülünk­
b en logaritmikusán változik; és nem független a hangm agasságtól.
A BESZÉDÉSZLELÉSI FOLYAMAT MŰKÖDÉSE 15 3

különbözőképpen hat az emberekre; a szubjektív (pszichés) tényezők, a megszokás


és a hozzászokás stb. meghatározók (Gósy 2004).
Az ember hallásállapota változik az élet folyamán; már a magzat is hall, főként a
harmadik negyedévben reagál az erős hangingerekre az anyaméhben (Pap 2003).
A csiga a születés utáni első hónap végére fejlődik ki teljesen. Egy másfél éves kisded
a mély hangokat gyengébben hallja, mint a felnőttek. Az irányhallás kb. kétéves kor­
ra alakul ki. Felnőttkorban bizonyos különbségeket tapasztalnak a nők és a férfiak
hallásában ép hallás mellett. A nőknek általában jobb a hangmagasság-megkülön­
böztetési képességük, és rendszerint érzékenyebbek a hang egyéb akusztikai sajá­
tosságainak változásaira is. Időskorban a hallás élessége romlik, a hallástartomány-
különösen a felsőbb frekvenciatartományban - beszűkül (az idős emberek a magas
hangokat rendszerint nem hallják meg). Nagyothallásról akkor beszélünk, ha vala­
kinek a hallása az életkorában elvárt teljesítménynél rosszabb. Felnőttkorban, ha a
küszöbgörbe a 10 dB-es értéknél lejjebb húzódik, akkor halláscsökkenésről, súlyo­
sabb esetben nagyothallásról beszélünk (a nagyothallásnak különböző fokozatai
vannak). Siketség akkor áll fenn, ha a jobban halló fülön mért légvezetéses küszöb
90 dB vagy a fölötti értéket mutat. A nagyothallás mértéke és lefutása nem feltétle­
nül egyforma a két fülön; az egyik fülön mért hallás akár ép is lehet.

Az emberi hallás vizsgálata

Az ember ép vagy csökkent hallásának vizsgálata nagy hagyományra, sokféle mód­


szerre tekinthet vissza. Minél többet tudunk a folyamatról, annál nagyobb a pontos
vizsgálhatóság lehetősége is. A hallásmérés lehet szubjektív, ekkor igen fontos a vizs­
gált személy közreműködése és a vizsgáló jártassága; és objektív, ebben az esetben a
vizsgálat céljának megfelelő műszerek jelzéseire épül a szakvélemény. A kutatási
eredmények a 20. század második felétől lehetővé tették világszerte az objektív hal­
lásvizsgálatok nagymértékű fejlődését; ebben az első jelentős áttörést az agytörzsi
kiváltott potenciál audiometria (brainstem electric response audiometry, BERA) je­
lentette. Ez a módszer azonban nem frekvenciaspecifikus, ilyenkor a beteg hallástar­
tományának csak a 2000-4000 Hz közötti működéséről kapunk információt.
A már említett otoakusztikus emisszió segítségével a szubjektív audiogram min­
den frekvencián jól becsülhető, azonban 40 dB-nél nagyobb halláscsökkenés esetén
a válasz nem kiváltható. Ez azt jelenti, hogy éppen a súlyosabb nagyothallás felisme­
rését nem teszi lehetővé. A 20. század végére olyan új objektív audiometriai eljárás
hódít teret, amely lehetővé teszi a hallásküszöb becslését akkor is, ha a beteg nem
működik közre. Ez az eljárás az auditoros steady-state potenciál technika, amelynek
a lényege az, hogy új akusztikus ingerlési formát használ, és a válaszokat kiváltó szi­
nuszos hanginger periodikus modulációját alkalmazza (Kisely et al. 2004).
A szubjektív audiometriához tartoznak: a) súgott, illetve társalgó beszéddel törté­
nő hallásvizsgálat; b) hangvilla alkalmazása; c) tisztahang-audiometria; d) küszöb­
feletti vizsgálatok és e) beszédaudiometria. A súgott és társalgó beszéddel történő
154 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

hallásvizsgálat egyszerű, de csak tájékoztató eredményt ad. A vizsgáló és a vizsgált


személy között kb. hat méter távolság van, utóbbi féloldalt ül (vagy áll) úgy, hogy a
vizsgálni kívánt füle a vizsgáló személy felé legyen. Un. tartaléklevegővel súgott egy
és két szótagú értelmes szavakat, illetve számokat kell ismételnie. A hangvillákat
1802-ben Chladni használta először hallásvizsgálatra. A vizsgálati eredmény felvilá­
gosítással szolgál a hallászavar feltehető helyéről, ezáltal diagnosztikailag fontos
adatokat kaphatunk. A tisztahang-audiometria eszköze az audiométer, amellyel az
egyes frekvenciákon éppen észlelt szinuszhang intenzitásértékének jelölésével fel­
rajzolható a hallási küszöbgörbe (amely, mint láttuk, ép hallás esetén 0-10 dB-nél
húzódik). E vizsgálatkor különböző decibelértékeken eltérő frekvenciájú szinusz­
hangokat (125 Hz-től 8000 Hz-ig) juttatnak fülhallgatón keresztül - felváltva - a
jobb oldali és bal oldali fülbe. A vizsgált személy feladata, hogy jelezze (kézfeltartás­
sal vagy beszéddel), ha a szinuszhangot meghallotta. A tisztahang-audiometria a be­
szédmegértéshez szükséges finomabb működések esetleges hibájáról igen kevéssé -
vagy egyáltalán nem - szolgál felvilágosítással. További speciális kérdések megvála­
szolásához ún. küszöbfeletti vizsgálatok szükségesek. Ezek elsődleges célja a hallás­
romlás helyének minél pontosabb behatárolása.
A beszédértés audiológiai vizsgálatára beszédaudiometriát használnak. A be-
szédaudiometria atyja a magyar Hőgyes Endre. Már a múlt században is kevesellték
ugyanis a beszédmegértés mérése nélküli hallásvizsgálatokat. A magyar beszéd-
audiometria szóanyagát Götze Árpád fül-orr-gégész, audiológus fejlesztette ki (1974).
A gyermekek beszédaudiometriás vizsgálata 1924-re nyúlik vissza. A kisgyermekko­
ri beszédaudiometriához többféle teszt is rendelkezésre áll (Götze 1974; Farkas-
Gósy-Hirschberg 1983). Gyermekeknél számokat, életkorukhoz alakított szavakat
és neveket használnak. A beszédaudiometria során különböző intenzitásértékeken
kell a vizsgált személynek a szavakat felismernie és visszamondania. Ekkor nem tör­
ténik meg annak ellenőrzése, hogy a beteg vajon megértette-e a szavakat, hiszen a
feladata csupán az azonnali ismétlés. Valójában tehát a beszédészlelés működésé­
nek vizsgálata történik, nem a beszédmegértésé. A beszédaudiometriát elsősorban a
hallókészülék-rendelésnél alkalmazzák.
A tisztahang-audiometria és a beszédaudiometria sajátos összegzése a GOH-eljá-
rás, amely a hallás épségének szűrésére használható, elsősorban gyermekeknél. A mód­
szer anyaga olyan egy szótagú szintetizált, mesterséges szavakból áll, amelyek csak­
nem kizárólag az akusztikailag és fonetikailag meghatározott invariáns elemeket
tartalmazzák (Gósy 1999; Menyhárt 2003; Gósy 2004).
A tisztahang hallásához relatíve nagyon kevés működő rost kell. Az olyan komp­
lex hangjelenség felfogásához, mint a beszéd, azonban nagyon sok. Azonosan ép
hallás (ép küszöbgörbe) mellett nagy lehet az eltérés a beszédmegértési teljesít­
ményben; beszédészlelési, beszédmegértési zavarok rejtve is maradhatnak, mert ép
a küszöbgörbe. Időskorban előbb jelentkezik a normáltól való eltérés a beszédaudio-
gramon, s csak aztán mutat eltérést a tisztahang-audiogram. Általános fizikai vagy
szellemi fáradtság is eredményezhet kóros beszédaudiogramot.
Az elvesztett érzékszerv visszanyerése bizonyos esetekben lehetővé vált korunk-
A BESZÉDÉSZLELÉSI FOLYAM AT MŰKÖDÉSE 15 5

ban. Egyfajta süketség esetén, amikor a Corti-szerv nem működik, de az idegsejtek


ingerelhetők, olyan műtét végezhető el, amelyik módot nyújt a betegnek arra, hogy
újra „megtanuljon hallani”. Magyarországon ilyen műtétet 1985-ben végeztek elő­
ször, ez a cochlearis implantáció. A cochlearis implantátum olyan elektronikus esz­
köz, amely a külső hangforrásból érkező, különböző frekvenciájú hangok akusztikai
energiáját elektromos jelekké alakítja, és közvetlenül a hallóideg, illetve a ganglion
spirale sejtjeire továbbítja (Küstel et al. 2003). A beteg fülébe ezt az implantátumot
operálják, és így a beteg a beszédhangok felismerésére alkalmassá tehető. Újdonság­
nak tekinthető a bilaterális implantáció, amelynek következtében a betegek beszéd-
megértése elérheti a normál hallókét, és lehetővé válik az irányhallás is. A betegek
beszédmegértése a legújabb, többcsatornás intracochlearis implantátumokkal
fél év után egy szótagú szavak esetében szájról olvasás nélkül átlagosan 45%-ra,
mondatok esetében közel 90%-ra javul. Némely betegnél elérhető a tökéletes be­
szédértés is.

A BESZÉDÉSZLELÉS AKUSZTIKAI SZINTJE

A beszédészlelés bonyolultan építkező és komplexen működő mechanizmus. Az ész­


lelés akusztikai, fonetikai és fonológiai szintjeit ún. alsóbb szinteknek nevezik. E há­
rom szintet automatikusnak, gyakran félautomatikusnak minősítik; a legmegfele­
lőbb a ’részben automatikus’ megnevezés. Az ’automatikus’ megjelölés így inkább
arra vonatkozna, hogy a hallgató általában nincs tudatában azoknak a működések­
nek, amelyek a morféma, illetve szófelismerést megelőzik. Kísérleti helyzetben az
automatizmus mértéke csökkenthető (például a jelentés kiiktatásával), és nyomon
követhető, hogy az alsóbb szinteken lejátszódó működéssorozat csak részben auto­
matikus.
Az input vagy bemenet maga a beszéd, az az akusztikai jelsorozat, amely a nyelvi
információt tartalmazza. A feldolgozás első lépcsője az ún. elsődleges hallási elem­
zés, ahol néhány előzetes döntés történik a frekvencia, az intenzitás és az idő tekin­
tetében. Ezek a döntések nagyjából behatárolják a felfogott (észlelt) akusztikai jel
hullámtulajdonságait; felismerjük például, hogy zene vagy beszéd hangzott-e el,
énekszót vagy hangszert hallottunk, gyors volt-e vagy lassú, magas vagy mély, halk
vagy erős (egyszersmind egyéb szubjektív ítéleteket is alkotunk: kellemes, kellemet­
len). Ezek az eredmények az észlelési információtárban összegződnek, ahonnan a
beszédfeldolgozás indul. Az itt felgyűlt adatok alapján történik az akusztikai elem­
zés, amelytől kezdve lép be az emlékezet is a feldolgozásba. A hallórendszer az egy­
máshoz képest mintegy 200 ms-on belül beérkező hangokat egy közös hangél­
ménnyé integrálja (Winkler 2004). Ez a folyamat az idegrendszer működésében
egyértelműen detektálható és kimutatható (az ún. EN komponens alakulása).
Tegyük fel, hogy az elhangzott beszédrészlet egyetlen szó volt: sír. Az akusztikai
elemzéssel választ kapunk arra, hogy a hangsor tartalmazott-e zöngés hangot, vagy
nem; észlelhető-e energiakoncentráció valamilyen frekvencián, vagy nem; ha igen,
156 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

akkor hol; a frekvenciaváltozások miként jelentkeznek az időben; hol volt intenzi­


táscsúcs (volt-e); milyen volt annak a lefutása. Feltételezésünk szerint bináris dönté­
sek sorozatával valósul meg az akusztikai elemzés. A szakirodalom tanúsága szerint
azonban még e tekintetben sincs egyetértés a kutatók között. Akadnak, akik szerint
a jellemző jegyek nem binárisak, és a feldolgozás inkább folyamatos jellegű. Asir szó
példáját a 3. ábra hangszínképével* szemléltetjük.

3. á b r a I A sír szó akusztikai szerkezete (felső ablakban: oszcillogram , azaz rezgéskép, alsó ab­
lakban: széles sávú spektrogram , azaz hangszínkép)

A jelsorozat akusztikai elemzése a következő eredményeket hozza (itt csak a jel­


lemző értékeket közöljük; a percepciós feldolgozás ennél jóval részletezőbb):
a) a jel teljes időtartama 654 ms;
b) a jel első 26%-a nem tartalmazott periodikus rezgéseket az 500 Hz alatti tarto­
mányban, a további 74%-ban igen;
c) az első 26%-ban 2000-3000 Hz táján, 56%-ban 300 és 2300 Hz-nél, az utolsó
18%-ban pedig 400, 1700 és 2400 Hz körül észlelhető energiakoncentráció;
d) a középső, 56%-os időintervallumban nincs zörej, csak periodikus rezgés;
e) az intenzitás a felfutási és a lecsengési szakasz között két ponton csökken lénye­
gesebben, mintegy 10-20 dB-nyit.

* Az oszcillogram vagy rezgéskép (a 3. ábra felső ablaka) az idő és az am plitúdó függvényében


szem lélteti a kiejtett szó akusztikai sajátosságait. A hangszínkép (a 3. ábra alsó ablaka) függőleges
ten gelyén a frekvencia-összetevők, vízszintes tengelyén az időváltozás látható; a feketedések ár­
nyalatai az intenzitásviszonyokra utalnak (vö. G ósy 2 0 0 4 ).
A BESZÉDÉSZLELÉSI FOLYAMAT MŰKÖDÉSE 15 7

A BESZÉDÉSZLELÉS FONETIKAI SZINTJE

Az akusztikai elemzés adataira épül a fonetikai osztályozás. Ekkor döntési szabályok


alapján nyelvészeti-fonetikai szempontból ítéljük meg a bejövő jelet. A sír szót azért
választottuk példának, mert nehézség nélkül megoldható a szegmentálás problémá­
ja. Láttuk korábban, hogy nehéz meghatározni azt, hogy egy folyamatosan változó
akusztikai jelsorozatban, amilyen a beszéd, melyik és mekkora rész jelenti egy adott
fonéma realizációját. További nehézséget jelent az a tény, hogy gyakran nem a
konkrét értékek alapján kell döntéseket hoznunk, hanem viszonyok alapján (pl. egy
hangészlelet hangossága nemcsak a specifikus intenzitásától függ, hanem pl. az in­
tenzitásváltozástól is, amely megelőzi és követi). Az akusztikai jelsorozatban van­
nak olyan „pontok”, amelyek általában könnyen azonosíthatók paramétereik alap­
ján (pl. a magánhangzók ún. tiszta fázisai).
A sír szó azért nem vet fel szegmentálási nehézségeket, mert az egy adott időszak­
ra jellemző frekvencia- és intenzitásstruktúra egy adott beszédhangra jellemző: az
első 26% egy [J] típusú réshang, a további 56% egy [i:] magánhangzó, az utolsó
18% pedig egy tremuláns, azaz pergőhang jelenlétére utal. A beszédhangok egy ré­
szét azonban, például a felpattanó zárhangokat, ezen a szinten nem tudjuk ugyan­
így azonosítani. Ha az adott beszédjel hullámtulajdonságai alapján nem dönthető el
azonnal a beszédhang minősége, akkor mintha a megértési folyamatot vezérlő prog­
ram a következő utasítást adná: „ha bizonytalan vagy az azonosításban, lépj tovább
a következő szintre”. És valóban: a rendszer továbblép azzal, hogy bizonyos előfelte­
véseket a kérdéses hangról már magával visz.
Vannak tehát olyan beszédhangok, amelyek pontos azonosítása nem következik
be a fonetikai szinten. A [d] mássalhangzó esetében például valamennyi magán­
hangzóhoz más és más frekvenciájú zörej kapcsolódik, de mindegyik a dentális fel­
pattanó zárhangot fogja jelenteni! Hasonló a helyzet a [b]-vel is; így az akusztikai
szinten hiába történt meg a rövid időtartamú - zárhangra jellemző - zörej frekvenciá­
jának meghatározása, a fonetikai szinten nem állapítható meg erről egyértelműen a
zárhang típusa.
A fonetikai elemzés eredménye ismét egy tárba kerül, nevezhetjük fonetikai tár­
nak. A beszédmegértés kutatása az utóbbi években sok módszert és jellemzőt köl­
csönzött az információfeldolgozási modellektől. Ennek eredményeként épültek be a
modellekbe a tárolási struktúrák, amelyek alapvető részei a megértési folyamatnak,
így nyílik lehetőség arra, hogy a feldolgozáshoz mindig az éppen szükséges adatokat
hívjuk elő, de az összes elemzési eredmény megőrződik a folyamatműködés időtar­
tamára (a tárolás biztosítja az esetleges korrigáláshoz szükséges pluszinformáció­
kat) . A fonetikai szinten hozott döntési eredmények az adott nyelvre jellemző be­
szédhangok megnevezései. Erről a működésről tájékoztat az a kísérlet, amely szerint
csak a beszédhangok felismerésekor jelentkezett nagyobb amplitúdójú kiváltott vá­
lasz a bal agyfélteke fölött (EEG-vizsgálat: Szirtes-Diekmann-Rothenberger-Jür-
gensen 1981). Egy másik kísérletben speciálisan előkészített magánhangzók, zaj és
szinuszhangok kiváltotta agyi potenciálokat hasonlítottak össze. Az eredmények
158 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

szerint a magánhangzó-sorozattal előidézett görbék itt is nagyobb amplitúdójúak


voltak, mint a másik két akusztikai ingerre kapottak (Gósy 1989a). A magánhang­
zók észlelésében elválik egymástól az alaphangmagasság, amely a beszélő hangját
jellemzi, illetve a magánhangzó minőségét meghatározó frekvenciasávok, intenzi­
tásviszonyok feldolgozása. A fül által végzett frekvenciaelemzés az abszolút frek­
venciák mentén történik, ezek viszonyainak dekódolásához további analízisre van
szükség, és ebben már a hosszú távú memóriának, a tárolt neurális spektrogramnak
is szerepe lesz.
A fonetikai szint működésére vonatkozólag végzett kísérleteket Pisoni (1973).
Négy mássalhangzót választott ki a bilabiális felpattanó zárhangok közül, amelyek
egymástól a VOT-ben (’voice onset time’), azaz a zöngekezdési időben különböztek.
A hangokat Cl, C2, C3 és C4 jelekkel látták el. A VÖT ideje a Cl esetében: 0,00 s, a
C2-nél: -0,02 s, a C3-nál: -0,04 s és a C4-nél: -0,06 s volt. A kísérleti személyek meg
tudták különböztetni a négy mássalhangzót, vagyis a hallási memóriában elkülönít­
hetők voltak eltérő akusztikai sajátságaik alapján (mint a / b / és a / p / realizációi).
Megnevezni azonban csak kétféle mássalhangzót tudtak: a [b]-t és a [p]-t. A Cl és
C2 képviselte zárhangokat [b]-nek, a C3 és C4-gyel jelölteket pedig [p]-nek feleltet­
ték meg. (A tesztelés CV hangkapcsolatokban történt, ahol a V az [a] magánhangzó
volt.)
Az anyanyelvűnk beszédhangjaival kapcsolatos megkülönböztetéseink pontosak
és relatíve gyorsak. A nem releváns akusztikai sajátosságok felismerése azonban las­
sú és jóval rosszabb hatásfokkal végezzük; ilyenek például egy adott fonémakategó­
rián belüli hangazonosítások, ill. hangmegkülönböztetések. Kísérletileg igazolták,
hogy az egy fonémakategórián belüli megkülönböztetéseket pusztán az akusztikai
paraméterek segítségével végezzük, a kategóriák közötti megkülönböztetésekben
azonban egy gyors, a magánhangzóosztály hosszú idejű reprezentációján alapuló
folyamatra is támaszkodunk (Winkler 2004).

A BESZÉDÉSZLELÉS FONOLÓGIAI ELEMZÉSEI

A részben automatikus feldolgozási szakasz utolsó lépcsője: a fonémadöntés megho­


zatala. A beszédhangokat itt, a fonológiai szinten soroljuk be a megfelelő fonéma­
osztályokba. Itt dől el, hogy - a hangképzés szempontjából: hátul képzett, ajakkere-
kítéses, rövid magánhangzó, amely a középsőnél kissé magasabb nyelvállással kép­
zett; akusztikailag 360 Hz-es első formánssal és 800 Hz-es második formánssal jelle­
mezhető - az /o / vagy az / u / fonéma kategóriájába tartozik. Avagy például a
jégpálya szóban, ahol az első szótag végén zöngétlen [k] mássalhangzót ismertünk
fel a fonetikai szinten, valójában a zöngés / g / megvalósulásáról van szó. A szóössze­
tétel első szótagja tehát nem a jék hangsor, hanem a jég szó. A fonémaszint monda­
tok azonosításakor is aktívan jelen van; bár ekkor a szemantikai relációk már elsőd­
legesek. Például: az Éva bátyja allergiás lett a [me:st0 :l] mondat kétséget hagy a hall­
gatóban afelől, hogy vajon a méz vagy a mész okozott-e a fiatalembernek allergiát.
A BESZÉDÉSZLELÉSI FOLYAMAT MŰKÖDÉSE 15 9

A példák azt sugallják, hogy a fonémadöntést lényegében az értelmezés határozza


meg. Ez részben igaz is, hiszen előfordul, hogy a fonémáról történt döntés a szófelis­
merés után jön létre, azaz a szó azonosítása erősíti meg a korábbi feltételezéseket (a
fonémadöntés a szófelismerés után jön létre a következő példában: A Poros pincék­
ben (?poros/boros?) voltunk Egerben (Iboros!).
A fonémakategóriák reprezentációjának kialakulása tanulási folyamat eredmé­
nye. A fonémáról történő döntés, azaz a megfelelő fonémakategóriába sorolás a be­
szédhangok egy részénél megtörténhet izolált megjelenéskor is, vagyis ha a beszéd­
hangot önmagában ejtve halljuk (pl. [o:, s, r]). A beszédhangok egy másik részének
felismeréséhez azonban szükség van a környezet bizonyos mértékű részvételére is,
mivel - az adott beszédhangra jellemző mértékben - a hangkörnyezet hordozza a
jellemző jegyeket (más kifejezéssel: kontextustól függő és kontextustól független
észlelés). A hangkörnyezet meghatározó szerepét mutatja, hogy például a rövid idő­
tartamú szünetet grúz és angol anyanyelvűek beszédhangként azonosították (Dzsa-
paridze 1971). A szünet és az [J] időtartamának rövidítése jelentésváltozást ered­
ményezett a következő mondatban: Did anybody see the gray ship? helyett Did
anybody see the great chip?-et értettek (Studdert-Kennedy 1980). A fonémadöntés
meghozatalához a következő hangkörnyezeti (kontextuális) hatásokat kell minden
esetben figyelembe venni: a) a következő (esetenként a megelőző) beszédhang mi­
nősége, b) a szótagban elfoglalt helyzet, c) a szótag szerkezete, d) bizonyos szupra-
szegmentális tényezők és e) valamiféle nyelvspecifikus szabály fennállása. Nem zár­
ható tehát ki, hogy az emberi beszédmegértés - már a legalsó szinteknél is - a kon­
textus alapján működik.
A fonémadöntést megelőző akusztikai és fonetikai eredményeket összefoglaló tár
felfogható egy számítógép operatív memóriájaként, amelyből a felhasználó csak az
éppen szükséges adatokat hívja elő a további feldolgozáshoz. Felvetődik a kérdés,
hogy a megértési mechanizmus miért nem használja fel az összes elemzési ered­
ményt döntéseihez. A beszéd - mint korábban már említettük - nagymértékben re­
dundáns, azaz a beszéd akusztikai hullámformája sok többletinformációt tartalmaz.
A többletinformáció jól megragadható és kimutatható az akusztikumban; valójában
az artikuláció, a beszédképzés következménye. Rendkívül nagy a szerepe a beszéd-
megértésben. Tudjuk például, hogy egy zöngétlen [s] mássalhangzó jellemző zörej­
gócai az ún. felsőbb frekvenciákon helyezkednek el, mintegy 6000-8000 Hz-en, sáv-
szélességük az ejtéstől függően 1000-3000 Hz. Az [s] azonban mintegy 100 Hz-től
12 000 Hz-ig (esetenként még magasabb tartományban is) tartalmaz a mássalhang­
zóra jellemző különböző intenzitású zörejösszetevőket. Az intenzív zörejgóc eltűné­
sével, annak funkcióját a kevésbé intenzív, eredetileg többletinformációként jelent­
kező komponensek veszik át, és biztosítják erősebb torzulás esetén is a mássalhangzó
pontos felismerését. Ez a magyarázata annak, hogy magas frekvenciás halláscsökke­
nésben szenvedők jól azonosították az [s, z] mássalhangzókat, noha hallásromlásuk
éppen azokat a frekvenciákat érintette, ahol ezeknek a hangoknak az intenzív zörej­
góca található. Az előző szintek elemzési eredményei az akusztikai-fonetikai tárban
őrződnek. A fonémadöntéshez ebből a tárból elegendő a legjellemzőbb, tehát az ép-
160 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

pen szükséges adatokat előhívni. A tárolási rendszer azt biztosítja, hogy az alsóbb
szinteken hozott döntések a mind időben, mind absztrakcióban távolabb eső szintek
eredményeinek ismeretében korrigálhatok legyenek.
A fonológiai szint működésében általánosan elfogadottnak tekinthető, hogy a fo­
némáról hozott döntés bináris, ’igen/nem’ típusú. A számítógép-működés hasonla­
tával azt mondhatjuk, hogy az analóg beérkező jelet (a beszédet) a neuronműködés-
nek megfelelő digitális jelfeldolgozás fogadja. A fonológiai szint elemi percepciós
egységének nagyságrendjét a szótagban jelölik meg. Nyilvánvaló ugyanakkor, hogy
a szótag mint a fonémadöntés alapja nyelvspecifikus, nemcsak felépítését tekintve,
hanem a tekintetben is, hogy az egy szótaghoz kapcsolódó jelentés milyen gyakori.
Mást jelent ezért ez az angol anyanyelvűeknek, ahol igen sok a jelentéses egy szóta­
gú hangsor és mást a finn anyanyelvűeknek, mivel a finnben alig található ilyen rö­
vid szó, avagy megint más a magyar anyanyelvűeknek. A magyarban ugyan relatíve
sok az egy szótagból álló szó, de a toldalékolás következtében többnyire több szóta-
gúakká lesznek a mondatokban (kéz -4 kezek, bolt —> boltjaitokban, néz —> nézhetté­
tek stb.).
A magyar kísérleti adatok szerint a fonémadöntés alapja minimálisan egy magán-
és egy mássalhangzóból (VC típusú), illetve egy mással- és egy magánhangzóból álló
hangkapcsolat (CV típusú) kell, hogy legyen, de lehet egy magán- és több mással-
hangzós szekvencia is (VCC típusú). A nyelv eleve hordoz magában bizonyos korlá­
tozásokat a megértési mechanizmus működésében. Ilyen például a magyarban,
hogy nem lehet döntési alap a magánhangzó + [h] kapcsolat abszolút szóvégen,
mert ebben a helyzetben e mássalhangzót nem ejtjük (a méh hangsor jelentései kö­
zül kivételt jelentenek az ’anyaméh’ és a ’MÉH’ mozaikszó, ezekben a szóvégi [h] -t
ugyanis kiejtjük). Ismeretes, hogy a [b, d, g] azonosítása az őket követő magánhang­
zótól függ. Oden és Massaro (1978) éppen ezért vélekedik úgy, hogy a hosszú idejű
memória nem tartalmazhatja a / d / fonémát egyetlen prototípus formájában, mivel
a du és a di között például akkora a különbség, hogy a megfeleltetés nem képzelhető
el ugyanazzal a prototípussal. Mivel nyelvileg mégis ugyanazon fonémáról van szó,
a döntésnek feltétlenül szótag szintűnek kell lennie, illetve a prototípus minősége
kell hogy változzon. Az egy magánhangzót is tartalmazó hangkapcsolat mint dönté­
si alap a koartikulációs következményekkel, a kontextus hatásával is összefüggésbe
hozható. A magánhangzók felismerhetősége vizsgálható hangkörnyezet nélkül is,
kérdés azonban, hogy vajon a magánhangzó korrekt azonosításához szükség van-e
egyáltalán hangkörnyezetre, és ha igen, milyen mértékben.
A folyamatos szövegből kivett magánhangzók felismerésére kapott eredmények
eltérőek: egyik részük szerint a magánhangzó tiszta fázisának információja ez eset­
ben is elegendő a biztos felismeréshez, más részük szerint viszont a hangkörnyezet
elősegíti, pontosítja az azonosítást (Fry et al. 1962; Kent 1975; Macchi 1980; Kuwa-
bara 1982). Spontán beszédből szegmentált magyar magánhangzók észlelési ered­
ményei azt mutatták, hogy az azonosítás lehet pontos, kissé bizonytalan, sőt sikerte­
len is. A kérdés az, hogy melyek azok a tényezők, amelyek meghatározzák a korrekt
vagy nem korrekt azonosítást. Ezek a tényezők a következők: a) a magánhangzó
A BESZÉDÉSZLELÉSI FOLYAM AT MŰKÖDÉSE 161

tiszta fázisának fizikai időtartama, b) az aktuális hangkörnyezet, c) a magánhangzó


spektruma: a fonéma realizációs lehetőségein belül hol helyezkedik el (középső ré­
szen vagy a szélsőbb pontokhoz közel) és d) a nyelvemelkedés foka. A 70%-nál
gyengébb azonosítások jobbára a 80 ms-os vagy annál rövidebb időtartamú magán­
hangzókra adódtak. A kevésbé korrekt felismerések inkább a felső nyelvállású -
akusztikailag alacsony Fl-gyel jellemezhető - magánhangzókat érintették. A hang-
környezet egyértelműen részt vesz a magánhangzók korrekt felismerésének biztosí­
tásában.
A fonémaszinten lejátszódó művelet egy „többválasztásos feladatsor” megoldása
(4. ábra). A választási lehetőségek a következők:
a) a beszédhang egyértelműen besorolható a megfelelő fonémaosztályba, például
[a:, j, m];
b) több beszédhang ugyanabba a fonémakategóriába kerül, például a mák szó
[m]-je, a hamvas „mássalhangzó-kapcsolata”;
c) a mássalhangzó-kapcsolatban lévő beszédhangról el kell dönteni, hogy fennáll-
hat-e közöttük valamiféle egymásra hatás, például hasonulás;
d) a valószínűsített beszédhangról el kell dönteni, hogy valójában melyik fonémá­
nak felel meg, például [b, d] vagy [g].
A fonémadöntés szemléltetésére az ábrán egyszerűbb jelfeldolgozást - egy VCV tí­
pusú (magánhangzó, mássalhangzó, magánhangzó) hangsor fonémaosztályba soro­
lásának feltételezett mechanizmusát - választottunk. A folyamatábra jellegű rajzról
a következők olvashatók le. Ahol a fonéma szó látható, ott a kategorizálás, tehát a
megfelelő fonémaosztályba sorolás megtörtént. Ahol a művelet nem végezhető el
egyértelműen, ott a megadott szabályok szerint kell a rendszernek eljárnia.
A műveletsor bináris kérdések sorozatával oldható meg. Az első beszédhangról
megtudjuk, hogy magánhangzó. A másodikról is megkérdezzük, hogy magánhang-
zó-e. Ha a válasz nemleges, akkor mássalhangzót talált a rendszer. Ezt követi a sza­
bály alkalmazása: a beszédhang megfeleltethető-e közvetlenül a fonémának, vagy
nem. Látható, hogy a ’nem’ válasz két lehetőséget rejt magában: a nazálisok osztá­
lyát és a zárhangokét. Az ’igen’ válasz mögött a nyelv azon szabályai állnak, amelyek
a szomszédos hangok egymásra hatásával kapcsolatosak. Ezekben az esetekben a
program a következő hang elemzésére utasítja a rendszert. Példánkban a következő
hang magánhangzó, így ennek fonémaosztályba sorolása után a megelőző hangé is
egyértelműen elvégezhető lesz.
Négy egy szótagú szóval illusztráljuk a feltételezett működést, ezek: ima, Ida, Ila,
Ica. E szavak választását az indokolta, hogy ezekben az esetekben jól szemlélhető az
ábrán látható működéssorozat lefolyása. Természetesen további hangsorok is „létre­
hozhatók”, például inya, abó, eső, áru. A folyamatábra nem jelzi külön az egyes be­
szédhangokra vonatkozó észlelési stratégiákat ugyanazon fonémaosztályon, sőt
ugyanazon beszédhangcsoporton (például nazális vagy magánhangzó) belül sem.
A „befejezetlen utak” a megadott szabályok szerint folytathatók hosszabb hangso­
rok, akár mondatok azonosítására is.
162 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

4. ábra I Egy VCV han gsor felism erésének folyamatábrája


A BESZÉDÉSZLELÉSI FO LYAM AT MŰKÖDÉSE 16 3

BESZÉDÉSZLELÉSI RÉSZFOLYAMATOK

A hierarchikusan egymásra épülő akusztikai, fonetikai és fonológiai szintek alapmű­


ködését további beszédészlelési részfolyamatok egészítik ki. Ezek a részfolyamatok
a következők: szeriális észlelés, beszédhang-differenciálás, transzformációs észle­
lés, ritmusészlelés és a vizuális észlelés (5. ábra). A beszédészlelési részfolyamatok
az alapszinteken folyó döntésekkel csaknem egy időben működnek, és azokkal igen
komplex módon tartanak kapcsolatot.
A szeriális, avagy sorozatészlelés teszi lehetővé azt, hogy az időben egymás után
elhangzott beszédhangokat, hangkapcsolatokat a hallgató ugyanolyan egymásutá­
niságban legyen képes azonosítani. A szeriális észlelés tökéletes működése is az
anyanyelv-elsajátítás során alakul ki, szoros kapcsolatban az adott nyelvre jellemző
hangsorépítési sajátosságokkal. A kétéves gyermek efelánnak azonosítja az elefántot
vagy pacsut mond papucs helyett, mivel a szeriális észlelése még nem tökéletes
(hogy itt nem a kisgyermek artikulációs ügyetlenségéről van szó, azt az bizonyítja,
hogy kérésre például az def y agy elefá hangsort képes megismételni). A szeriális ész­
lelés nemcsak a hangsorok szintjén jelentkezik, hanem mint a beszéd időviszonyai­
nak szervezési stratégiája az egymást követő szavak, illetőleg az egymást követő
mondatok pontos felismerésében is (Gósy 1996a).

5. á br a I A beszéd észlelés szintjeinek és részfolyam atainak összefü ggése

A beszédhang-differenciálás egyfelől a fonetikai, másfelől a fonológiai szint mű­


ködéseivel áll szoros kapcsolatban. A kísérletek tanúsága szerint könnyebb a beszéd­
hangokat megkülönböztetni, mint azonosítani. Óvodáskorú gyermekek könnyebben
hoznak döntést arról, hogy az anyanyelvükön elhangzott egyik beszédhang azo-
nos-e egy másikkal, vagy nem; sokkal nehezebb azt megmondaniuk, hogy a hallott
hang például [1] volt-e vagy [r]. Általános beszédészlelési szabályszerűségről van
szó; idegen nyelv hallgatásakor is könnyebb elkülönítenünk egymástól a beszédhan­
gokat, mint a megfelelő kategóriába rendezni őket (ez természetesen függ az idegen
nyelv ismeretének szintjétől).
A transzformációs észlelés az a percepciós részfolyamat, amely biztosítja az
adott nyelv hangjának és az írott változatban az ennek a hangnak megfelelő betűnek
164 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

a felismerését. Ez a részfolyamat már 4 éves kor körül kezdetlegesen működik; azon­


ban csak a 6-7 éves gyermekek képesek a transzformációs észlelést egy komplex be­
szédészlelési feladatban is tökéletesen működtetni (Gósy 1996b).
A ritmusészlelés az adott nyelvre jellemző időzítési viszonyok pontos azonosítá­
sát jelenti - nem leszűkítve természetesen a beszédhangok időviszonyaira. Ritmus­
zavart eredményez, ha a kiejtett szavak beszédhangjainak, illetőleg szótagjainak az
egymáshoz viszonyított időtartama, avagy ha a hangsúlyviszonyok megvalósítása
nem megfelelő.
A vizuális észlelés a beszélő artikulációjának, illetőleg teljes beszédképzésének a
hallásival egyidejű feldolgozása (Massaro 1987). Ez teszi lehetővé például a logopé­
dus számára, hogy a hibásan ejtett réshangot csupán látás alapján is felismerje. Szink­
ronizált film nézésekor a szereplők beszédét elsősorban az akusztikum, a hangzás
alapján fogjuk fel. A látási élmény másodlagossá válik, ha az nem áll ellentétben az
akusztikus élménnyel. Ha „rossz” a szinkron, s a szájmozgás, a látható beszédképzés
nincs összhangban a hangzásélménnyel, akkor zavaró tényezővé válik. (Előfordul
olyan helyzet is, hogy a látási élmény mintegy uralkodik a hallásin. Hagyományos
akusztikai felszereltségű moziban ülve a hangszóró mindig ugyanazon helyről [he­
lyekről] közvetíti a közönségnek a beszédet. Hajlamosak vagyunk mégis különböző
irányokba [irányokból] „tájolni” a hangzást, pusztán annak a látási élménynek az
alapján, hogy az adott szereplő a filmvászon melyik széléről beszél.)
A vizuális percepció segítségét a beszédfeldolgozásban a nagyothallók és a siketek
használják a legintenzívebben; közismert megnevezése a szájról olvasás. A beszéd­
hangok egy része alkalmas arra, hogy a szájmozgás (ajakartikuláció) alapján töb-
bé-kevésbé pontosan felismerhető legyen, különösen azokban a nyelvekben, ahol
nincs magánhangzó-redukció. Ez nyújt lehetőséget a nagyothallónak, hogy a részle­
gesen kapott hallási információkat a látásiakkal kiegészítse. A szájról olvasáson nem
csupán az ajakmozgás jellegzetességeinek felismerését értjük a magánhangzók és
bizonyos mássalhangzók esetében, hanem más, látható artikulációs mozgást is (pl.
nyelvmozgás, fogak). Nagyothallók 21%-os beszédmegértése a szájról olvasás lehe­
tőségével 64%-osra emelkedett (Ling 1977). Mindebben a tapasztalatnak és a fej­
lesztő munkának nagy a szerepe.
Gyakorlati tapasztalat, hogy az idegen nyelvi szöveget könnyebben értjük meg, ha
szemünkkel követhetjük a hangzásnak megfelelően leírt sorokat, vagy látjuk a be­
szélő száját. Angol nyelvi kísérletek kimutatták, hogy a vizuális információt jóval
gyakrabban használja a hallgató a beszédfeldolgozásban, mint korábban feltételez­
ték (Neisser 1984). A hangzási és látási élmény összefüggése „fordítottan” is jól is­
mert. A vizuális észlelés (pl. olvasás) révén kapott információk feldolgozását az üze­
net elhangzása nagymértékben segíti.
Magyar anyanyelvű résztvevőkkel végzett kísérletek eredményei alapján a követ­
kezőket állapíthatjuk meg a vizuális információ hatásáról a beszédmegértésben. A
hallási és a vizuális észlelés ép beszélők esetében is szoros összefüggést mutat; segít­
heti vagy nehezíti a felismerést. A megegyező ajakartikuláció értelmetlen hangsorok
szintjén átlagosan 10%-kal, a bennük lévő mássalhangzók felismerését több mint
A BESZÉDÉSZLELÉSI FOLYAMAT MŰKÖDÉSE 16 5

12%-kal növeli. A zavaró ajakartikuláció hatására az értelmetlen hangsorok azono­


sítása csaknem 20%-kal csökken (a csak hallás alapján kapott helyes válaszokhoz
képest). A különbségek értelmes (jelentéssel bíró) beszéd (szavak, mondatok) eseté­
ben még nagyobbak (részletesen: Gósy 1989c).
A beszédhangokat kategoriálisán ismerjük fel. Ez azt jelenti, hogy egy hallott ma­
gánhangzót vagy mássalhangzót egy adott kategóriába sorolunk, noha azok akuszti­
kailag különbözőek is lehetnek. Az „átmenetinek” nevezhető hangokat is egy kate­
góriának feleltetjük meg. Többféle elmélet ismeretes; szűrőelméletek, templátum-
vagy illesztésiminta-elmélet, illetőleg - a már említett - analízis szintézissel koncep­
ció (Pléh 2003). A kontextus hatása a beszédhangok észlelésében is jelentkezik; ez
azt is jelenti, hogy a bizonytalanul azonosított beszédhangot helyreállítja az észlelé­
si rendszer a grammatikai sajátosságok, például a morfológiai tényezők működésé­
nek eredményeképpen. Ha nem hallom is tökéletesen azt a közlést, hogy:,f i fiama...
felvett... az egyete... re”, a kipontozott részeknek megfelelő beszédhangészlelés töké­
letes lehet a kontextus figyelembevételével.
A szakirodalomban rendelkezésre álló hatalmas adathalmaz ellenére még mindig
számos kérdésre nincs egyértelmű válasz a beszédpercepció teljes folyamatát illető­
en. Újra és újra felvetődő kérdés például, hogy az akusztikai jelsorozatnak vajon mi­
lyen és mekkora része tartalmazza a nélkülözhetetlen információt. Változik-e egy
szegmentum észlelése a szegmentumsor nagyságától függően, és ha igen hogyan,
milyen mértékben? Keveset tudunk arról, hogyan történik az akusztikai kulcsok el­
sődleges és másodlagos felhasználása. A hosszabb szekvenciák azonosíthatóságát a
kontextus és/vagy a percepciós valószínűség biztosítja-e. Ha a nyelvben egy bizo­
nyos sorrendiség nem létezik, akkor a hallgató nem is tételezi fel ennek a megjelené­
sét. Ez egyszersmind szűkíti a felismerési lehetőségeket, tehát könnyíti a percepciós
folyamatok működését. A hangsorok azonosításában meghatározó az akusztikai
szerkezet, a fonotaktikai (hangsor-szerveződési) elrendeződés, a hangkörnyezet és
az artikulációs tempó.
Reakcióidős kísérlettel arra kerestek választ, hogy a hangsorépítési (fonotaktikai)
sajátosságok valóban meghatározóak-e a szegmentumsorok felismerésében. A kísér­
letben zajjal fedett, illetve frekvenciaszűréssel torzított értelmes szavakat és értel­
metlen hangsorokat (logatomokat) kellett a résztvevőknek szóként azonosítaniuk
(az instrukció szerint csak értelmes szavakat hallottak). Az akusztikai szerkezet el­
sőségét a felismerésben több kísérleti tény is alátámasztotta (elfedéses, szűrőzéses
kísérletek). Az alul áteresztő szűrő alkalmazásakor a pányél és gúra hangsorok
(akusztikai szerkezetük többségében mély frekvenciákat tartalmaz) felismerése lé­
nyegesen jobb volt, mind például a bis vagy az üved logatomoké (akusztikai szerke­
zetük dominánsan magasabb frekvenciákat tartalmaz). Az eredmények igazolták a
magyar hangsorépítési sajátosságok felhasználását is az észlelésben. A valódi szavak
azonosításának átlagos reakcióideje 240 ms, a logatomoké 540 ms volt. Azok a
logatomok, amelyek nem sértették a magánhangzó-harmóniát (pl. üved, virony), rö-
videbb idő alatt voltak azonosíthatók, mint azok, amelyek ellentmondtak a magán­
hangzó-harmóniának (pl. bakőgy, námük). (Vő. Gósy 1984.)
166 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

SZUPRASZEGMENTUMOK ÉSZLELÉSE

A szupraszegmentumok észlelésében is általában több felismerési kulcs biztosítja a


pontos azonosítást. A szupraszegmentumok nem jelennek meg önmagukban, tehát
percepciós elemzésükkor mindig - legalábbis valamilyen mértékben - tekintetbe
kell vennünk az adott szegmentális szerkezetet is. A szupraszegmentumok funkciója
egyfelől a perceptuális integrálás biztosítása, másfelől a ffazeális csoportosítás. Ez
azt jelenti, hogy a szövegfeldolgozás szempontjából óriási jelentősége van a szupra-
szegmentumoknak. Hiába fogalmazza meg valaki a közléseit tökéletesen, valósítja
meg a dallammeneteket és a hangsúlyviszonyokat a tartalom és a szándék függvé­
nyében kitűnően, ha például a beszédtempója túlzottan gyors, avagy - a hallgatóság
szempontjából - igen halkan beszél. A túlzott beszédsebesség, avagy a hangerő erő­
teljes csökkenése megakadályozza a normális percepció működését.
A legtöbb beszédmegértési modellből hiányoznak a szupraszegmentumok feldol­
gozását meghatározó helyek és működések. Nem egyértelmű, hogy a beszédészle­
lés, avagy a beszédmegértés folyamatában dolgozódnak fel a szupraszegmentumok
információi; párhuzamosan történnek-e a szegmentális percepcióval, avagy azok
mintegy kiegészülnek ezekkel. A legkézenfekvőbb feltételezés az, hogy a szupra­
szegmentumok észlelési folyamatai egy időben zajlanak a szegmentálissal, tudatos
felhasználásuk azonban valószínűsíthetően későbbi, lényegében a megértési szin­
teken történik meg. A modellezési bizonytalanságok és nyitott kérdések mellett
ugyanakkor számos megállapítás tehető az egyes szupraszegmentális tényezők ész­
lelésével kapcsolatosan.
Az intonációészlelési modellek többsége megegyezik abban, hogy a hallgató in­
kább komplex percepciós jegyrendszer alapján dönt, semmint egyes paraméterek
felhasználásával. Megállapítják azonban azt is, hogy az intonáció percepciója nagy
valószínűséggel egyéb nyelvi (lexikai, szintaktikai) folyamatok aktiválásával egyide­
jűleg zajlik; ami azt jelentené, hogy a végleges döntés egy komplex percepciós/meg-
értési működés eredménye (Cutler-Ladd 1983; 1997; Wales-Taylor 1987). A be­
széddallam percepciójának klasszikus kérdése az volt, hogy mely tényezők dominál­
nak a kérdések és a kijelentések elkülönítésében a frekvencia és az időviszonyok
függvényében. Angol anyanyelvűekkel végzett kísérletekben azt találták, hogy a
dallammenet kezdő csúcsa, a töréspont és a végpont szerint variált dallamok annál
nagyobb arányban keltik a kérdés érzetét, minél magasabb frekvenciájú a végpont
(Hadding-Studdert-Kennedy 1972). Számos más nyelven elvégzett kísérlet is azt tá­
masztotta alá, hogy a frekvencia, illetőleg az időegység alatti dallamváltozás elsőd­
leges felismerési kulcs a beszéddallam észlelésében.
A magyar dallamformák percepciós elemzése során az intonációészlelés mellett
vizsgálták az időviszonyok alakulását, valamint a hangfekvés azonosítását is (Gósy
1979). Az eredmények szerint a kísérleti személyek képesek voltak a dallamok rela­
tív időviszonyainak észlelésére; azonban a frekvenciaváltozás befolyásolta például a
tempóészlelést. A kísérleti személyek képesek továbbá jól azonosítani a hangfekvés­
ben jelentkező változásokat, valamint a dallammeneteket, beleértve a frekvencia­
A BESZÉDÉSZLELÉSI FOLYAM AT MŰKÖDÉSE 16 7

kiemelkedéseket (a csúcsokat) is. Legkevésbé megbízhatóak a dallamvégi frekven­


ciaemelkedések észleletei. Az intonációészlelés és a nyelvi funkció összefüggése
komplex, hiszen az előzőekben említett paraméterek mindegyike részt vesz a végső
percepciós döntésben. A dallam eleji csúccsal rendelkező mondatokat elsősorban ki­
egészítendő kérdésnek, illetőleg kijelentésnek ítélik. Ha a dallam eleji csúcs frekven­
ciája kisebb, akkor az ítéletek nagyobb mértékben oszlanak meg a kérdések, kijelen­
tések és egyéb modalitások, így a felszólítás és a felkiáltás között. A dallam második
felében dallamcsúcsot tartalmazó struktúrákat a kísérleti személyek egyöntetűen el­
döntendő kérdésként azonosították. A mindennapi kommunikációban gyakran hall­
ható, hogy a kiegészítendő kérdések nem ereszkedéssel, hanem emelkedéssel zárul­
nak. Újabb percepciós kísérleti eredmények arról tanúskodnak, hogy a hallgatók
egyértelműen kérdésnek ismerik fel, sőt nagy arányban helyesnek ítélik az emelke­
dő végű dallammintákat (Gósy 2004). A dallamcsúcs elhelyezkedése a szótagon be­
lül is meghatározó tényező lehet például a kérdés és a kijelentés elkülönítésében. At­
tól függően, hogy a magánhangzó időtartamának mely szakaszában jelenik meg a
frekvenciacsúcs, döntik el a hallgatók, hogy eldöntendő kérdést vagy hangsúlyos ki­
jelentést hallottak-e (Gósy-Terken 1994). Magyar kísérleti személyekkel végzett
vizsgálatok azt igazolták, hogy a magánhangzó végén kiemelkedő frekvenciacsúcs
észlelése jelent egyértelműen kérdést.
A hangsúly már megnevezésében is utal az észlelésre, hiszen - mint láttuk - a ma­
gyarban legáltalánosabban nyomatékkai, vagyis hangerőtöbblettel jelezzük a hang­
súlyhelyet. A hangsúly percepciója is nyelvspecifikus jelenség; a hallgató más-más
akusztikai-fonetikai információk alapján azonosítja a maga számára a hangsúly élmé­
nyét. Noha a magyarban - mint említettük - elsősorban a nagyobb intenzitás kelt hang­
súlyélményt, a percepciós döntést további tényezők is befolyásolják, mint az alaphang-
magasság (és változása), hangfekvésváltások, szünethelyek, sőt a beszédtempó is.
Az angolban például a hangsúlyélményt leghatásosabban az alaphangmagasság
megemelkedése idézi elő; másodsorban a megnövekedett időtartam, harmadsorban
pedig a nagyobb intenzitás (Lehiste 1970). Az oroszban egyformán elsődleges felis­
merési kulcs az alaphang magasságának növekedése és az időtartam, és másodlagos
az intenzitás (Brizgunova 1977). A hollandban a frekvenciacsúcs elhelyezkedése és
értéke van hatással a hangsúlyítéletekre (Rietveld-Gussenhoven 1985).
A magyar hangsúly elemzésekor Fónagy Iván már több mint négy évtizeddel ez­
előtt kísérletileg igazolta, hogy a hangerő-növekedés (az intenzitásszint emelkedé­
se) mellett más akusztikai jelenségek is velejárói a hangsúlyélménynek (1958). A dal­
lamemelkedés önmagában, illetőleg a dallamcsúcs és az intenzitásemelkedés együt­
tesen másként hat a hangsúly percepciójára. A főhangsúly észlelése 46,6%-os egy­
öntetű ítéletet eredményezett a dallamcsúcs alapján, míg 65%-osat, ha a kísérleti
személyek az intenzitást is felhasználhatták döntéseikben (Gósy 1989b). A hang­
súlyélmény kialakulása a magyar anyanyelvűeknél is több akusztikai-fonetikai té­
nyező együttes hatását igazolta. A nem megfelelő hangsúly észlelése automatikusan
megy végbe a beszéd észlelése során, amint azt az eseményhez kötött agyi potenciá­
lok egy komponense, az eltérési negativitás igazolta (Hombolygó et al. 2004).
168 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

A beszédtempó percepciójával kapcsolatos eredmények két nagy csoportra oszt­


hatók: a) a tempóészlelést meghatározó tényezők vizsgálata és b) a beszédtempó és
a beszédmegértés kapcsolatának elemzése. Különböző nyelvekben, így a magyarban
is végzett kísérletek alapján kimondható, hogy a tempóészlelést alapvetően kialakí­
tó tényezők az artikulációs sebesség, a szünetek száma és a szünetek időtartama.
A tempóról alkotott ítéletünket azonban további tényezők is befolyásolhatják, így a
dallamstruktúra, az intenzitásviszonyok vagy az adott szöveg tartalma (szemanti­
kai, szintaktikai „nehézsége”). A folyamatos beszéd időviszonyainak észlelésében
meghatározó jelentőségű a viszonyítás, illetőleg a hozzászokás (adaptálódás) ténye.
A kezdetekben gyorsnak (vagy lassúnak) tűnő beszédre a hallgató rövidebb-hosz-
szabb idő alatt mintegy ráhangolódik, s ennek megfelelően működteti a beszédper-
cepciós mechanizmusát. A tempóészleléssel kapcsolatos egyik alapkérdés az, hogy
vajon a hallgató képes-e egy elhangzó szöveg sebességének közel-objektív megítélé­
sére. Más megfogalmazásban ez azt jelenti, hogy vajon az emberi beszédpercepciós
mechanizmus rendelkezik-e olyan univerzális belső mérőeszközzel, amely az egyes
tényezők „zavaró” hatását bizonyos fokig képes ellensúlyozni, s ezáltal a szubjektív
ítéletek közelítenek az objektív tényékhez. Közismert az a pszichoakusztikai benyo­
más, hogy az anyanyelvi beszédtempóhoz képest az idegen nyelvi mindig gyorsabb­
nak tűnik (a hallgató idegen nyelvi tudásától nem függetlenül). A részletesebb ered­
mények arra a felismerésre vezettek, hogy a tempóészlelésben nem a lexikai ismere­
teknek van meghatározó szerepük, ha különböző nyelveket kell összehasonlítani,
hanem az aktuális beszédtempónak.
Az anyanyelven belül a tempóészlelést mindenekelőtt az objektív időértékek ha­
tározzák meg, azaz az időegységre eső beszédesemények, valamint a szünetek szá­
ma, ezenkívül egyéb paramétereknek is fontos szerepe lehet, sőt a tartalom is befo­
lyásolja a tempóról alkotott ítéletet. Az egyéb paraméterek között van az intenzi­
tásváltozás vagy az alaphangmagasság változása. Megállapították például, hogy a
kísérleti személyek lassabbnak ítélik azokat a mondatokat, amelyekben ereszkedő
intonáció van; a magasabb dallamszint a gyorsabb, az alacsonyabb a lassabb tem­
pó benyomását kelti; a monoton beszéd pedig gyorsabbnak hat, mint a dallamválto­
zásokban gazdag. A tempóészlelésre hatással vannak a szintaktikai határhelyek,
a szótaghangsúly, a közvetlen kontextus; sőt olyan tényezők is, mint a beszélő és a
hallgató kapcsolata, a téma ismeretének foka, de maga a téma is. Nem elhanyagol­
ható a beszélő saját beszédtempója - mint tényező - a mások beszédsebességének
megítélésében. A kísérletek azt igazolták, hogy a szélsőségesen „gyors”, illetve „las­
sú” beszédű személyek tempóészlelése sok szempontból hasonló, és jellegzetesen el­
tér a normálnak tekinthető beszédtempóval beszélők tempópercepciójától (Gósy
1991).
Magyar anyanyelvűekkel végzett kísérletek eredményei szerint a) a hallgatók ké­
pesek voltak a mondatok objektív tempójának pontos észlelésére, és b) átlagos be­
szédtempó esetén a belső dallamcsúcsot tartalmazó mondatot gyorsabbnak ítélték,
mint az ereszkedő hanglejtésűt, c) a lebegő dallamú mondat megítélése az objektív
sebességétől függött; ha lassú volt, akkor nagyon lassúnak, ha gyors volt, akkor pe-
A BESZÉDÉSZLELÉSI FOLYAM AT MŰKÖDÉSE 16 9

dig gyorsabbnak ítélték az összes többinél (Gósy 1989b). A 15 hang/s sebességű


mondatokat - ez az érték kb. 100 szó/percnek felel meg (szünetek nélkül) -
59%-ban gyorsnak, 14%-ban kissé gyorsnak és 27%-ban nagyon gyorsnak találták.
Egy másik kísérletben 11-féle tempóban hallottak a kísérleti személyek egy monda­
tot, és egy ötfokozatú skálán kellett megítélniük a sebességet (Gocsál 2000). A leg-
lassabb mondat tempója 6,7 hang/s, a leggyorsabbé 28,8 hang/s volt. Ugyanazon
beszédminta hallgatásakor igen eltérőek a kapott ítéletek, vannak a lassabb és van­
nak a gyorsabb beszédtempót „kedvelő” beszélők. A legtöbb kísérleti személy a
10-18 hang/s közötti tempójú mondatokat jelölte meg mint hétköznapi helyzetek­
ben elfogadhatókat, ez igen tág tartomány, szó/percben kifejezve azt jelenti, hogy
„elfogadható” a 75 szó/perces és a 135 szó/perces tempó is. Ennek nyilvánvalóan az
az oka, hogy a mindennapi életben általában ebben a tartományban realizálódik az
emberi beszéd, a hallgató ennek a feldolgozására állandóan készen áll.
A beszédtempó hatással van a beszédmegértésre is. A gyorsabb beszéd általában
nehezebben, a lassúbb jobban érthető; mindez azonban nem független az adott szö­
veg tartalmától. A nagyon lassú mondatok megértését nehezítheti az, hogy ekkor az
asszociációs működésekre több idő jut, s ez elbizonytalaníthatja a beszélőt a dönté­
sében. A nagyon gyorsan elhangzó mondatok nemritkán igen gyors beszédértést
eredményeznek; mivel a tempónövekedés hatással van a feldolgozó rendszer műkö­
dési sebességére is. A legtöbb értési hiba ennek ellenére a nagyon gyors, a legkeve­
sebb a nagyon lassú mondatok esetében következik be. Nehezebb arra a kérdésre
pontos választ adni, hogy mennyire gyors beszédtempó mellett marad még érthető a
beszéd. Angol anyanyelvűekkel végzett kísérletek szerint a 115 szó/perces tempó
esetén a helyes mondatértésük 80%-os volt, 150 szó/perces tempónál 74%-os és
170 szó/perces tempónál a mondatok megértése 62%-ra csökkent (Licklider-Miller
1951).
Magyar mondatok megértését vizsgálták a beszédtempó függvényében. A monda­
tok állító és tagadó szerkezetűek voltak, tartalmuk felerészben igaz, felerészben
hamis, az igazságtartalmuk csak az utolsó szó elhangzását, illetőleg felismerését kö­
vetően derült ki a hallgató számára. A mondatok tartalma általános ismereteket fel­
tételezett. A kísérleti személyeknek az elhangzást követően a tartalom igaz vagy ha­
mis voltáról kellett dönteniük; a rögzített anyagban a reakcióidőket mérték. A négy­
féle tempó lassú (7,2 hang/s), normál (13,9 hang/s), gyors (23,6 hang/s) és nagyon
gyors (29,5 hang/s) volt. A reakcióidő-értékek és a mondattartalom megítélése azt
mutatta, hogy mind a túlzott lassítás, mind a túlzott gyorsítás negatív hatással van a
teljesítményre (Gósy 1988). Az állító szerkezetűek megítélése könnyebb a tagadó­
kénál, s a legnehezebb a tagadó és hamis mondatok megértése volt.
Az emberek a beszédszüneteket elsősorban azok fizikai időtartamától függően
azonosítják, de nem jelentéktelen az sem, hogy a hallott szövegben hol volt a szünet,
illetőleg hogy mi volt a funkciója. Holland kísérleti adatok szerint a szóhatárok ész­
lelésében a 100 ms-nál rövidebb szünet kevéssé, a 300 ms-nál hosszabb szünet pedig
már egyértelműen jelentős (Sanderman 1996). Magyar vizsgálatok azt igazolták,
hogy az emberek az 500 ms-nál hosszabb jelkimaradásokat képesek nagyon bizto­
170 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

san azonosítani, az annál rövidebbeket - tartamuktól függően - kevésbé. Mindazon­


által tény, hogy a szünet időtartama az elsődleges a felismerésben; minél hosszabb a
szünet, annál pontosabban azonosítható. A beszélők közel azonos arányban tarta­
nak szünetet szerkezethatáron és egyéb helyeken, a hallgatók azonban mintegy két­
szer annyi szünetet várnak szerkezethatáron (Menyhárt 1998; Gósy 2000b). A hall­
gatók téves azonosításai úgy jönnek létre, hogy vagy nem észlelik a szünetet, vagy
szünetet észlelnek ott, ahol nincs. A beszélők elsajátítják a nyelvre jellemző megaka­
dásokat és azok funkcióját, illetőleg használatukat is. Ez vagy úgy történik, hogy
megtanulják nem figyelembe venni az elhangozott megakadásokat a beszédfeldol­
gozás során (beleértve a szüneteket is mint nem tartalmas jeleket); avagy megtanul­
ják felhasználni a nem tartalmas jelenségeket arra, hogy még biztosabbá tegyék az
elhangzottak megértését.
Az újabb kutatások eredményei szerint ezeket a megakadásokat a hallgatók mint­
egy tudat alatt felhasználják, azaz bizonyos értelemben szükségesek az elhangzot­
tak mind pontosabb megértéséhez (Fox Tree 2001; Gósy 2000b). Goldman-Eisler
például már a hatvanas években utalt a szüneteknek a beszédmegértésben betöltött
szerepére (1968). A szünetek száma, hossza és típusa jellegzetesen alakul a spontán
beszédben (Butterworth 1980). A hallgató ezeknek a szüneteknek egy részét nem is
észleli, azaz tudatosan nem szünetként dolgozza fel. Tendenciaszerű különbség a
nők és a férfiak szünetészlelési eredményeiben, hogy a nők több helyen vélnek szü­
netet, ezáltal többet hibáznak; a férfiak jóval kevesebb szünetet jelölnek ugyan, de a
hibaszámuk alacsonyabb. A nemek között a szünetészlelésben azonban nem tapasz­
talható matematikailag igazolható eltérés.
A hangerő észlelése a közlés objektív intenzitásával van kapcsolatban. Az emberi
hallás érzékeny az intenzitás változásaira. A hangerő észlelésében is nagy a jelentő­
sége az alkalmazkodásnak; a hangos beszédet gyakran, hosszan hallgatóknak rend­
szerint fel sem tűnik a megemelt hangerő (ép hallás mellett). A beszéd intenzitáskü­
lönbségei tájékoztat(hat)ják a hallgatót a beszélő érzelmeiről, a témával kapcsolatos
véleményéről, esetleg pszichés állapotáról is.
A hangszínezetet egy holland tesztsorozatban úgy vizsgálták, hogy a hallgatók­
nak 35-féle skálán kellett a hallott (felolvasott) beszédet megítélniük. Minden egyes
skála hat fokozatból állt, amelyek egyik végén az szerepelt például, hogy „unalmas”,
a másik végén pedig az, hogy „érdekes”. További minősítési párok voltak: kellemes -
kellemetlen, hangos - halk, csúnya - gyönyörű, szegény - gazdag, magabiztos - bi­
zonytalan, csiszolt - durva, élettelen - élő, kerek - szögletes stb. A kutatással arra a
kérdésre próbáltak választ kapni, hogy mi az a beszélő hangjában, illetőleg kiejtésé­
ben, ami a személyt a hallgató számára például megbízhatóvá, barátságossá vagy
kellemetlenné teszi. A nagyszámú adat ellenére azonban csak néhány egyértelmű
választ kaptak, többek között, hogy a beszéd dinamikája összefüggésben van az ér­
zelmi állapottal, az artikuláció pontossága a kulturáltsággal, a hangmagasság az ért­
hetőséggel és érdekességgel (Boves 1984). Magyar kísérleti eredmények szerint az
öröm és a bánat azonosítása jó volt a szupraszegmentumok tükrében, a többi tesz­
telt érzelem felismerése azonban bizonytalannak mutatkozott (Szalai 1995).
A BESZÉDÉSZLELÉSI FOLYAMAT MŰKÖDÉSE 1 71

Kísérletileg vizsgálták a közlések, illetőleg a beszélő szavahihetőségét a szup-


raszegmentumok figyelembevételével (Bata 2005). Az eredmények azt igazolták,
hogy a dallamnak, a hangsúlynak, a tempónak és a szünetnek az észlelésre gyako­
rolt hatása egyértelműen befolyásolja a közléstartalom megítélését. Az adatok arra
is utalnak, hogy bizonyos esetekben a nők és a férfiak máshogyan ítélnek. Például a
nyafogós női beszédet a férfiak csak 53%-ban, míg a nők 75%-ban ítélték szavahihe­
tőnek; avagy a férfiak jobban elhitték a közlést (60%-ban), ha a beszélő sok szünetet
tartott, míg ugyanezt a nők csak 21%-ban fogadták el. Úgy tűnik, hogy mindez azon­
ban nem független az adott tartalomtól és a kommunikációs helyzettől sem.

MULTIMODÁLIS PERCEPCIÓ

A természetes kommunikáció során általában nemcsak hallási (auditív), hanem lá­


tási (vizuális) kapcsolat is van a beszélők között. Jellemzően csak auditív a telefoná­
lás. Különleges a helyzet e tekintetben akkor, ha szinkronizált filmet nézünk. Ilyen­
kor ugyanis az eredeti szájmozgás nem teljesen felel meg az auditív élménynek. Az
egyidejűleg végbemenő auditív és vizuális percepciót nevezzük multimodálisnak
(Massaro 1987). Beszélgetés közben a hallott közlések feldolgozásával egyidejűleg
dekódoljuk a vizuálisan érkező információkat, a beszélgetőpartner ajakmozgását,
nyelvének látható mozgását, mimikáját, szemmozgását, az állkapocs helyének vál­
tozását, gesztusait. Ezenkívül számos más vizuális ingert is tárolunk, amelyek az el­
hangzott közlésekkel kapcsolatban vannak, ilyen például a fejmozgás, a szemöldök
megemelése, leengedése vagy a pillantás. Ezeknek a feldolgozása rendszerint nem
tudatos. A beszéd látványát mindenekelőtt a nagyothallók használják fel a beszéd
megértésében („szájról olvasás”); a vizuális feldolgozás a beszédfeldolgozásuk pon­
tosságát akár 20-30%-ban is javíthatja. A kísérleti eredmények azt igazolták, hogy
az éphalló beszédészlelése zajos környezetben pontosabbá vált az auditív és vizuális
ingerek együttes dekódolásakor. Sajátosan működik az agy, amikor a hallási és a lá­
tási csatorna ellentétes információt közvetít. A kísérleti személyek például azt hal­
lották, hogy [g], de a [b]-t látták a beszélő ajakmozgása alapján, ekkor a [d] mással­
hangzót ismerték fel; a [k] és [v] ellentétét az [f]-ben „oldották fel”, avagy az [u] és
[i] ingeregyüttesét [y]-ként azonosították (Gósy 1989a). Ez a McGurk-hatás (1981).
A beszédhang itt gyakorta valami „köztes” dolog - az idegtudományi adatok szerint.
A vizuális észlelésnek jelentős a hatása a hallási feldolgozásban, azonban különféle­
képpen érvényesül az adott beszédhangok sajátosságaitól és a kontextustól függően.
Általánosan az a megállapítás fogalmazható meg, hogy a vizuális csatorna hatása
gyengébb, mint a hallásié (Srinivasan-Massaro 2003).
Új kutatási irány annak vizsgálata, hogy vajon adott esetben az auditív vagy a vi­
zuális csatorna ingerei részesülnek előnyben a feldolgozáskor. A beszédet kísérő
mozgásos jelenségek többségét lehetetlen modellálni, mivel általánosításukat erő­
sen korlátozza, hogy opcionálisak és nagymértékben egyéniek. Az animált szinteti­
kus beszélő fejek azonban alkalmasak a multimodális percepció folyamatának kísér­
172 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

letes vizsgálatára. Ilyen kísérlet eredménye például az, hogy a szemöldök mozgása a
hangsúlyészlelés független kulcsa a beszédben (svéd anyanyelvűekkel végzett kísér­
let szerint, vö. Granström et al. 2001).

ÖSSZEFOGLALÁS

A beszédészlelés folyamatműködésére többféle hipotézis ismeretes. A hierarchikus


építkezésű, interaktív beszédmegértési modell a teljes feldolgozási folyamatot rep­
rezentálja, és a beszédészlelési, beszédmegértési folyamat működésének csaknem
valamennyi kérdésére megoldást kínál. A beszédfeldolgozás az elsődleges hallási
elemzéssel indul, amelyet egy felismerési (elképzelési) terv követ a beszédészlelés
és a beszédmegértés szintjein. A hallás az akusztikai ingereket dekódolja, ezen a
szinten beszédelemzés még nem történik. Hallásról akkor beszélünk, ha a hangrez­
gés a hallójáraton át a dobhártya-hallócsont-rendszeren keresztül vezetődik a belső
fülbe. A beszéd „meghallása” is a hangrezgések feldolgozása, hiszen a beszéd a leve­
gőrezgések útján éri el a fület. Az ember hallásállapota változik az élet folyamán;
csecsemőkortól felnőttkorig, majd az időskorban. Az ép hallás biztosítja a hierarchi­
kusan ráépülő szintek működését. A beszédészlelés beszédhangok, hangkapcsolatok
és hangsorok felismerése, azonosítása. Az akusztikai elemzés a beérkezett hangsor
akusztikai paramétereit és azok viszonyait elemzi és tárolja; adataira épül a foneti­
kai osztályozás. Ekkor döntési szabályok alapján nyelvészeti-fonetikai szempontból
ítéljük meg a bejövő jelet, és az adott nyelv beszédhangosztályaiba soroljuk őket,
azaz megtörténik az azonosítás. A fonológiai szinten határozzuk meg a fonémákat,
és érvényesítjük a nyelvspecifikus fonológiai szabályokat. Ezeknek a hierarchikusan
egymásra épülő szinteknek az alapműködését további beszédészlelési részfolyama­
tok egészítik ki: a szeriális észlelés, a beszédhang-differenciálás, a transzformációs
észlelés, a ritmusészlelés és a vizuális észlelés. A szupraszegmentumok percepciójá­
ban is általában több felismerési kulcs biztosítja a pontos azonosítást. Az egyidejűleg
végbemenő auditív és vizuális percepciót nevezzük multimodálisnak.

A BESZÉDMEGÉRTÉS MŰKÖDÉSE

A megértésben - elméletileg - három elkülöníthető folyamat létezik: a szóértés, a


mondatértés és a szövegértés (Pisoni-Remez 2005). A normál kommunikációban
azonban nemegyszer meglehetősen nehéz definiálni a szót vagy a mondatot, megér­
tésük pedig különösen nem a megjelenésüktől függ. Az ő-vel leírt hangjelenség funk­
cionálisan lehet a magyarban hezitálás, lehet protomagánhangzó a gőgicsélésben,
lehet beszédhang ([ 0 ]), lehet egy szó (mint egyes szám harmadik személyű szemé­
lyes névmás), lehet mondat Ő. és mondatként különféle modalitásokat is kifejezhet.
Mindezen funkciókban az akusztikuma természetesen kisebb-nagyobb mértékben
változhat (6. ábra). Az [0 ] magánhangzóra jellemző összetevők (formánsok) 540,
A BESZÉDMEGÉRTÉS MŰKÖDÉSE 17 3

1590, 2590 és 3570 Hz-en találhatók. A hezitálásos hang időtartama lényegesen


hosszabb, az első formáns jóval magasabb értéken jelentkezik (830 Hz), hasonló­
képpen a negyedik formáns is (3760 Hz), s az idő függvényében jellegzetesen vál­
toznak. Eltérőek az intenzitásviszonyok is. Mindkettőtől különböznek a mondat
funkciójú közlések (első és második formánsok értéke: 455 Hz és 408 Hz, ill. 1670
Hz és 1793 Hz). A dallamviszonyok jól láthatóan követik a kijelentésre, illetőleg a
kérdésre jellemző frekvenciaváltozásokat.
SYSTEM CAPTURE DATA U IE U L IN K SH U U SPEA K ANALYZE E D IT TAG M ACRO LOG

6. á br a I Az ábra bal oldali ablakának első hangszínképe e g y [0 ] hangról készült, m ellette egy
spontán b eszéd b ől kivágott hezitálás; a jobb oldali ablakban az O. És az O? m ondatról készült
hangszínképek láthatók egym ás m ellett (női ejtésben)

A különféle funkciókban megjelenő hang(sor/ok) más-más feldolgozást igényel­


nek, amelyhez a beszédfeldolgozó rendszerünk minden helyzetben alkalmazkodik.
Hangsúlyoznunk kell - bár terminológiai kérdésnek látszik -, hogy a szófelisme­
rés vagy mondatazonosítás összetételek nem jelentik feltétlenül a megértést is. Ké­
pesek vagyunk ugyanis egy szónak vagy akár egy mondatnak is az ismétlésére, anél­
kül hogy a jelentésüket feldolgoztuk volna. Ez a fajta mechanikus ismétlés tulajdon­
képpen beszédészlelési működés, amely szoros kapcsolatban van az emlékezeti fo­
lyamatokkal. Minthogy a terminológia nem egységes és nem következetes, adott
esetben a ’szófelismerés’ jelenthet szóértést is. A mondat dekódolása esetében ha­
sonló a helyzet; mást jelenthet a megértési folyamatban a mondat felismerése, meg­
értése, avagy értelmezése. Nézzük meg ezt egy példán. A Feltalálták a hangtompítós
riasztópisztolyt! mondatot egy ép fejlődésű ötéves gyermek képes megismételni,
részlegesen megérteni, azaz egy bizonyos szintig feldolgozza a mondatot. Biztosra
vehető azonban, hogy az elhangzottakat teljesen nem értette meg - nyilvánvaló lexi­
kális hiányok miatt -, vagyis az ő esetében ekkor döntően mondatészlelés (azonosí­
tás, felismerés) történt. Felnőttkorban a mondat érthetővé válik, vagyis működnek
174 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

már a magasabb szintű, szemantikai és szintaktikai feldolgozások, a hallgató a mon­


datot megérti. A megértés azonban magában foglalja a logikai lehetetlenséget, azaz
az értelmezés szintjén a mondatról kiderül, hogy funkcióját tekintve vicc. A szoros
értelemben vett megértés és az értelmezés/asszociációk szintjének egymás utáni ak­
tiválását jól mutatja, hogy a mondat elhangzásakor igen rövid idő, de nemritkán né­
hány másodperc is eltelik, amíg a hallgató a „viccet megérti”, azaz a legmagasabb
dekódolási szint működésbe lép (a nevetés vagy bosszankodás, mimika vagy bármi­
lyen más reakció „késése”).
A szöveggel kapcsolatos kifejezésekről is elmondhatjuk, hogy a ’szöveg felismeré­
se’ annyit jelenthet: azonosítottuk a dekódolandó szöveget, esetleg ismerősnek tű­
nik (utóbbiban persze már részlegesen működő értési folyamatok is vannak). A szö­
vegértés azonban azt jelenti, hogy megértettük a részleteket és azok összefüggéseit,
azaz birtokba vettük a szöveget mint szemantikai/szintaktikai/gondolati egységet.
A szöveg értelmezése - adott esetben - ennél többet jelent: az adott szöveget behe­
lyezzük egy tágabb ismeretanyagba, és/vagy egy korábban tárolt információsoro­
zattal hasonlítjuk össze.

A MORFOLÓGIA PSZICHOLINGVISZTIKÁJA

A pszicholingvisztika kutatási területe kezdetekben, és később is dominánsan az an­


gol nyelvre alapozódott. Ez felvetette azt a kérdést, hogy vajon más struktúrájú nyel­
vek esetében mennyire lesznek működőképesek az angolra kialakított modellek. Kü­
lönösen fontos kérdés ez a morfológia szempontjából, ha az angolt a gazdag alakta­
nú magyarral hasonlítjuk össze. Az agglutináló nyelvekben felvetődő kérdés az,
hogy a valós időben zajló feldolgozás során hogyan integrálódnak a morfémák.
Mindez természetesen szoros kapcsolatban van a lexikális hozzáférés folyamatával.
A magyar nyelv alaktani feldolgozásában felülről lefelé ható folyamatok is érvénye­
sülnek; és a toldalékoknak meghatározó szerepük van a feldolgozásban. Kísérlete­
ket folytattak - olvasási reakcióidő méréssel - annak megválaszolására, hogy a be­
szédértés folyamán dekompozíció vagy egészleges hozzáférés történik-e a szavak
feldolgozásakor (Juhász-Pléh 2001). Igazolták, hogy morfológiai dekompozíció tör­
ténik, a mentális szótárban külön tárolódnak a szótövek és az igekötők. Ellentmon­
dóak ugyanakkor az eredmények a ragok feldolgozását illetően. Ez arra utalhat,
hogy párhuzamosan többféle folyamat is működik, és az adott inger sajátosságaitól
függ, hogy melyik működéssorozat jut elsőbbséghez. Ugyancsak a dekompozíció
stratégiáját erősítette meg egy másik kísérlet, amelyben a kísérleti személyeknek az
volt a feladatuk, hogy kétértelmű szavakra végződő mondatokat hallgassanak, mi­
közben egy célszót a megjelenés után a lehető leggyorsabban felolvassanak (Thu-
ma-Pléh 2001). A kétértelmű szavak mindkét jelentése aktiválódik a menet közbeni
feldolgozás során mintegy 300 ms-on belül, és ez a moduláris hipotézist erősítené.
Ugyanakkor az interakciós feldolgozás elméletében csak a szövegkörnyezet szerinti
jelentés aktiválódik, s ezt szintén alátámasztják egyes kísérleti eredmények. A ma­
A BESZÉDMEGÉRTÉS MŰKÖDÉSE 17 5

gyár kísérlet eredményei szerint csak az adott kontextusban releváns jelentés aktivá­
lódott; ennek azonban többféle magyarázata lehet, a probléma további kutatást igé­
nyel. Az eredmények ugyanakkor egyértelműen alátámasztották a dekompozíció
működését, mivel nem találtak eltérést a szótövek és a toldalékolt alakok feldolgozá­
sa között. Különbség mutatkozott ugyanakkor a szófaj tekintetében az igék és a fő­
nevek között; igei olvasat esetében nem találtak előfeszítési hatást. A magyar morfo­
lógia is kettős szabályt követ; ez azt jelenti, hogy a szabályos formákat a szabályok
alkalmazásával dolgozza fel, míg a rendhagyók feltehetőleg elkülönülten tárolód­
nak, ahonnan előhívhatók. Ez nem zárja ki azonban azt a magyarban, hogy ezek is
elemeikre bonhatók. A szóértés folyamatában a hallási működésnek legalább akkora
szerepet igazolnak a kísérleti adatok a magyarban is (hasonulások eseteiben), mint
a tanult anyanyelvi beszédészlelési működéseknek (vö. Mitterer et al. 2005).

MONDATMEGÉRTÉS

A mondatmegértés hagyományos kutatása többnyire egyetlen kérdéssel foglalkozik,


hogy vajon mi a szerepe ebben a nyelvtannak. A ’nyelvtan’ itt, pontosabban a
’mentális nyelvtan’ a nyelvi ismeretek összességét jelenti, amellyel az ember rendel­
kezik. Chomsky a ’kompetencia’ szót használja ugyanebben az értelemben, és azt
mondja, hogy a pszicholingvisztika feladata egyrészt annak a meghatározása, ho­
gyan képesek az emberek a mondatok megértésére (és produkálására), valamint
hogy hogyan sajátítják azt el (az anyanyelv-elsajátítás során). A mentális nyelvtan
használatát a ’performancia’ során követhetjük nyomon.
A mondatmegértés hagyományos vizsgálata ezért a nyelvtanból indul ki. Alapkér­
dése az, hogy a bemenethez miként kapcsolódik a mondatszerkezet, hogyan rendez­
zük össze a szintagmákat, miféle elemzés teszi lehetővé a tematikus szerepek, funk­
cionális kategóriák megtalálását. A mondatmegértéssel foglalkozó interaktív model­
lek egyik fontos jellemzője, hogy egységes rendszerhez kötik a jelentés és a forma
feldolgozását. A moduláris koncepció ugyanakkor szeriális és viszonylag merev
rendszerben gondolkodik; feltételezi a forma, a szerkezet és a tartalom, a jelentés
függetlenségét. Ebben a hipotézisben nehezen értelmezhetők a lexikai, szemantikai
és szintaktikai feldolgozás asszociatív kapcsolatai. Megoldási lehetőséget Clark
(1996) kínál, amikor új fogalmat, a hálózatmintázatot vezeti be a nyelvtan szintjé­
nek elkülönítésére.
A ’kompetencia’ tehát az egyén ismerethalmaza a mentális nyelvtanról, míg a ’per­
formancia’ az az ismeret, amelynek révén a nyelvtan felhasználódik, például a mon­
datértésben. Bár a megfogalmazás kissé módosult, a cél lényegében megegyezik a
milleri megfogalmazással (az ötvenes évek elejéről). Chomsky nem a mondat hang­
zását vagy a jelentését tekinti elsődlegesnek, hanem a szerkezeti összefüggéseket.
A fonetikai szerkezet és a jelentés vagy logikai forma - véleménye szerint - egyaránt
a szintaxisból következik. A szintaxis autonóm, a jelentést lényegében a szintaxis ha­
tározza meg.
176 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

A Chomsky felfogásával szemben álló nézetek két okra vezethetők vissza. Egyfelől
sokan nem értettek egyet azzal, hogy a szintaxisnak kitüntetett szerepe van a mentá­
lis grammatikában, másfelől nem értettek egyet az alapvető szintaktikai viszonyok
meghatározásával sem. Az eredmény az lett, hogy másféle „nyelvtanok” kezdtek ki­
alakulni, amelyek a szemantikát helyezték a középpontba; ilyen a Lakoff-féle gene­
ratív szemantikai nyelvtan (1971), Fillmore szemantikai esetgrammatikája (1977),
a Montague-grammatika, illetőleg a viszonygrammatika (Aissen 1991). A nyolcva­
nas éveket a Bresnan-féle lexikális funkcionális nyelvtan (1978) módosított változa­
ta (Droste-Joseph 1991) és Langacker kognitív nyelvtana (1987) jellemzi; utóbbiak
mind a generatív szemantikai modellből nőttek ki.
A mondatértés az a folyamat, ahogyan a szavakat szószerkezetekké kapcsoljuk
össze, a szerkezetekhez mondattani funkciót rendelünk, illetőleg ezeket a szerkeze­
teket szemantikailag is értelmezzük. A ténylegesen elhangzó információt számos,
már ismert dologgal kiegészít(het)jük (Pléh 1984). A legtöbb pszicholingvisztikai
kutatás ezen a területen a mondatszerkezettel, a logikai formákkal, a logikai formák
pszichológiai reprezentációjával foglalkozik. Osgood feltételezte, hogy a mondatok
dekódolásakor a hallgató egy szófüzérrel kezd, amelyet nagy egységekbe rendez
(egyesít), majd végül - döntések és kontrollok sorozatán keresztül - megérti a mon­
datot (1986). Általában kétféle magyarázat adható arra, ahogyan a nyelvi feldolgo­
zó rendszer a lexikai egységek hordozta szintaktikai és szemantikai információt fel­
használja. Az egyik a szerkezetvezérelt, a másik a lexikonvezérelt hipotézis. A szer­
kezetvezérelt hipotézis két szintet tételez fel. A kezdeti szinten az ’elemző’ azonosít­
ja a szerkezetet, a második szinten pedig kijelöli a tematikus szerepeket (Friederici
1995/1999). Ennek az az előnye, hogy nem az egyszerű szerkezetek élveznek el­
sőbbséget, hanem az adott szerkezeteknek az adott nyelven belüli gyakorisága. A le­
xikon vezérelte feldolgozás elméletében a ’mondatelemzőt’ a lexikai információk
irányítják, elsősorban az ige argumentumszerkezete.
A mondatértés folyamatában - a mai felfogásnak megfelelően - háromféle elem­
zést végzünk (ez a megközelítés Herbert és Eve Clark összegzésére vezethető vissza:
1977). Ezek a következők: a propozicionális (mondatjelentés) elemzés, az adott/új
tagolás és a cselekvésérték. A propozicionális elemzés kimenete egy propozicionális
függvény, az ehhez vezető út több részből áll. Itt történik meg a nyelvtani funkciók
hozzárendelése az elemzés során előálló összetevőkhöz. A nyelvtani információ át­
vitelének sajátosságai nyelvfüggők. A gazdag morfológiájú nyelvek esetében - ami­
lyen a magyar is - kitüntetett szerep jut az alaktani elemzéseknek. A toldalékok felis­
merése gyakorlatilag egy időben megy végbe a szótő azonosításával. Az agglutináló
nyelveknél a beszédmegértésben a toldalékoknak jut elsődleges figyelem, ezt követi
a szórend, majd az egyeztetés; a nem agglutináló nyelveknél pedig a sorrendiségre,
vagyis a szórendre támaszkodunk.
A megértés első szakaszában egy viszonylag egyszerű rendszerezés történik né­
hány alapvető elv alapján. A mondat elemeihez bizonyos szerepek hozzárendelése
megy végbe. Az ezt követő rendszer lassabban működik, ekkor valósul meg az egyes
szószerkezetek elhelyezése a mondat egészében. Az elsődleges elemzőre jellemző a
A BESZÉDMEGÉRTÉS MŰKÖDÉSE 17 7

rögzített struktúra elve, azaz az elemzési feladat minimalizálása, valamint a jobbra


kötés elve. Ez utóbbi azt jelenti, hogy ha lehetőség van rá, akkor a mondat egy adott
elemét a megelőző szerkezethez kötjük (Pléh 1998a).
A mondatok megértése során szószerkezeti és állítmányfüggvényi viszonyokat tá­
runk fel. Különböző tartalmú, grammatikai szerkezetű, szó- és szótagszámú monda­
tok azonnali ismételtetésének hibázásai elsősorban a szerkezet bonyolultságától,
másodsorban az elhangzott szótagok számától, pontosabban a szavakat alkotó szó­
tagszámtól, harmadsorban pedig a mondatot felépítő szavak számától függött.
26-28 szótagból álló magyar mondatok ismétlése átlagosan 80%-ban volt hibátlan,
míg - más szerkezetű - 20 szótagos mondatoké csak 50%-os. 30 szótagnál többet
tartalmazó mondatok visszamondása esetleges. A mondatértési folyamatokban gram­
matikai elemzéseket végzünk, amelyek azonban párhuzamos szemantikai elemzése­
ket is tartalmaznak, az ugyanazon időben zajló kétféle elemzés egymást erősíti, és
juttatja el a hallgatót a végcélhoz. Clark és munkatársai a nyelvi tagolást egy prag­
matikai elvű pszicholingvisztikai megértéselméletbe helyezték (1977). Ennek meg­
felelően a következő lépéseket tételezték fel a mondatértésben - központi szerepet
juttatva az ’adott/új’ információ elemzésének: (i) az ’adott’ és ’új’ információ felis­
merése a mondatban, (ii) az ’adott’ információnak megfelelő nyelvi reprezentáció
kijelölése és (iii) az ’új’ információ hozzákapcsolása. A legújabb kutatások azt erősí­
tették meg, hogy az első 300-500 ms idő alatt szintaktikai, ezt követően pedig pár­
huzamosan szintaktikai és szemantikai elemzések zajlanak.
A magyar mondatok feldolgozására vonatkozóan megfogalmazódott az az elv,
hogy a kvázi szabad szórendű mondatok megértésében olyan feldolgozási modellt
követünk, amely lokálisabb döntéseket használ. Ez azt jelenti, hogy a mondatbeli
funkciókra vonatkozó döntések meghozatalakor nagy biztonsággal alapozhatunk
a főnévi csoportok végződéseire, vagyis az alaktanra (Lengyel 1984; Pléh 1998a).
A mondatmegértés klasszikus modellje, az „átkódolási hipotézis” - úgy tűnik - nem
alkalmazható minden nyelvre. Magyar kísérletek szerint a hallgató a megértés folya­
mán megpróbálja közvetlenül rekonstruálni az elhangzott mondat jelentésének mo-
dellreprezentációját. Ennek érdekében például egy összetett mondat megértésekor
az első tagmondat topik-fókusz tagolásának alapján előjelző hipotéziseket állít fel a
következő tagmondat tartalmára nézve (Gergely-Pléh 1995).
A toldalékoknak, illetőleg a szótagszámnak a nyelvspecifikus funkcióját kísérleti
eredmények támasztják alá a magyarban. A teljes spektrumot fedő ún. fehér zajjal
torzított mondatokat kellett a kísérleti személyeknek megérteniük egyszeri hallás
alapján. A mondatok egyik csoportjában a szavak több szótagból, a másikban kizáró­
lag egy szótagból álltak, tartalmilag páronként hasonlóak voltak (pl. Ez a sok vár
rom volt rég./A várakból romok lettek, vagy Ettől a sörtől megrészegedett./Még egy sört
kér, bár az már sok lesz.). A mondatmegértés sikere egyértelműen a mondatokat al­
kotó szavak szótagszámától függött. A több szótagú szavakból állók helyes megérté­
se közel 70%-os volt a nagymértékű elfedés ellenére is; míg az egy szótagú szavak­
ból álló mondatokat alig-alig tudták megérteni, a helyes feldolgozás aránya 7%. A he­
lyesen azonosított szavak számát tekintve, az egy szótagú szavakat tartalmazó tíz
178 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

mondat szavainak átlagos felismerése 33,1% volt, míg a nem egy szótagú szavakból
építkező mondatokéi 64,9%. A toldalékok azonosítása akkor is pontos volt, amikor a
tőszót a kísérleti személy félreértette; illetőleg az egy szótagú szavakból álló monda­
tok esetében a kísérleti személyek nemegyszer összevonták az egy szótagú szavakat,
és két szótagúként értelmezték azokat - akár a mondatjelentés rovására is (Gósy
1988). Az adott nyelvre jellemző szórend, a magyarban az igekötők például (vő.
Pléh 1984; 1998a) vagy a morfológiai szerkezet meghatározóak, és hozzáadódnak a
megértési stratégiához. Egyidejűnek tételezzük fel a szófelismerés és a mondatelem­
zés működéseit, amelyek relatíve gyorsak.

A SZÖVEG TAGOLÁSA

Az elhangzó hosszabb közlések megértésének és értelmezésének egyik alapfeltétele


a megfelelő tagolás. A spontán beszéd eddigi elemzési eredményei azt mutatták,
hogy az artikulációs megvalósítás túlnyomórészt ösztönös, a beszélő nincs feltétle­
nül tudatában annak, hogy mely szegmentális vagy szupraszegmentális tényezőt al­
kalmazza tagoló funkcióban, illetőleg meglehetősen nagyok az egyéni különbségek
(Kohler 1983). A hierarchia alsóbb nyelvi szintjein a beszélőnek nincs nagy választá­
si lehetősége a prozódiai megvalósítást illetően. A magasabb szinteken azonban op­
cionális lehetőségei vannak, s ezeknek az aktuális együttes kiválasztása számos té­
nyező függvénye. A kiinduló kérdés úgy is megfogalmazható, hogy vajon a szegmen­
tálás és a felismerés ugyanannak a folyamatnak a két aspektusa, avagy bizonyos
szegmentálási kulcsokat használunk fel, amikor a spontán szövegben szavakat, frá­
zisokat különítünk el (Chater-Christiansen 2001). A korábbi elemzések azt igazol­
ták, hogy a mondat szintaktikai struktúrája hatással van ugyan a prozódiai megvaló­
sításra, de nem határozza meg azt (Frazier et al. 2003). A spontán beszéd tagolása
jelentősen eltér az interpretatív megnyilatkozások, avagy a felolvasás kiejtési sajá­
tosságaitól; hiszen ez utóbbi esetekben a beszédprodukciós mechanizmus kezdeti
folyamatainak tervezésére nincsen szükség. Ennélfogva sokkal nagyobb mértékben
képes a hangosítás jellemzőit tudatosan megvalósítani. Megfelelő központozással
ellátott, felolvasott szövegekben a mondathatárok percepciós jelölése 90%-os egy­
öntetű eredményt hozott (Batliner et al. 1998). A spontán beszéd közlésegységeinek
szándékos artikulációs megvalósítása erősen beszélőfüggő. A hallgató ugyanakkor
mindvégig arra kényszerül, hogy valamiképpen tagolja, bizonyos egységekre bontsa
az elhangzottakat. A tagolási egység lehet mondatnyi hosszúságú közlés (Lehiste
1979), avagy annál hosszabb, összefüggő szövegrész. Lehiste ez utóbbit ’bekezdés­
nek’ nevezi; teszi ezt annak ellenére, hogy tudatában van, a szakkifejezés elsősorban
az írott szövegek bizonyos egységeinek (tipográfiai) elkülönítésére szolgál. Úgy véli,
a spontán beszédben is léteznek ezek a nagyobb, összefüggő egységek, amelyeket
magasabb szintűeknek nevez. Ezeket a bekezdéseket nagy arányban azonosan is­
merték fel angol anyanyelvű hallgatók (Lehiste-Wang 1977).
A mondatok, illetőleg a bekezdések mint egységek szintaktikailag és szemantikai-
A BESZÉDMEGÉRTÉS MŰKÖDÉSE 17 9

lag meghatározható összefüggésrendszert mutatnak, és a szupraszegmentumok jel­


legzetes érvényesülésén keresztül különülnek el (Schafer et al. 2000). Ezek a szünet
(mint jelkimaradás), az alaphangmagasság változása, az intenzitás csökkenése, va­
lamint a szünetet megelőző szó időtartamának növekedése. Az intenzitás csökkené­
sét és a frekvencia változását mondathatárokon spontán diskurzusokban igazolták
(Hird-Kirsner 2002). A mondatvég temporális változását, az utolsó szó (szavak) las­
sabb artikulációját más kísérletek is megerősítették (Lindblom 1978). A spontán be­
széd egyik alapvető egysége az „intonációs egység” vagy „prozódiai frázis”.
A határjelzés kérdése a beszédben nemcsak a mondathatárokkal, avagy az annál
nagyobb egységekkel kapcsolatos, hanem például a szóhatárokkal is. A szóhatár jel­
zése univerzális, még inkább talán fiziológiai jellegű sajátosság, amely azonban ak­
tuális megvalósulásában nyelvspecifikus jellemzőket mutat, és mind a beszélőknél,
mind a hallgatóknál különbözőképpen érvényesül. A szóhatárjelzés megjelenhet a
szegmentum, illetőleg a szótag időtartamának változásában, az alaphangmagasság
módosulásában, sőt bizonyos koartikulációs hatásokban, de marginálisan még jelki­
maradásokban is. A szóhatár felismerése az anyanyelv-elsajátítás során alakul ki, el­
sősorban a disztribúciós szabályok, másrészt a fonotaktikai sajátosságok megtanulása
révén. Ez a kiindulás a szöveg nagyobb egységeinek szegmentálásához.
Német beszéd elemzése alapján arra a következtetésre jutottak, hogy a közlések
szövegkohéziója különböző szintek egységeinek többé-kevésbé hierarchikus egy­
másra épülésén alapszik, s ezen a módon jönnek létre a nagyobb egységek (Kohler
1983). A szövegkohézió nem a szintaktikai struktúrában, avagy a szintaxis és a pro-
zódia együttjárásában keresendő, hanem a szemantikai meghatározottságban, ille­
tőleg a szemantika és a prozódia összefüggéseiben. Két mondat következhet egymás
után anélkül, hogy bármilyen információs kapcsolat lenne közöttük, ugyanakkor a
prozódiai megvalósításban nem különböznek a kohéziót mutató, összetartozó mon-
datkapcsolatoktól. A szemantikai kohézió önmagában nem eredményez szövegegy­
séget, azt a beszélő szándéka szerinti szövegkohézió fogja létrehozni, amely a sze­
mantikai és a prozódiai sajátosságok együttes megvalósulása.
Magyar kísérletsorozatban a hallgatóknak spontán beszéd hallgatása közben kel­
lett a központozás nélküli szövegben „mondatokat” bejelölniük. A feladat során a
résztvevők nagymértékben támaszkodtak a tartalomra és a formára együttesen. A szü­
netek hossza befolyásolta a döntésüket; minél hosszabb volt a szünet, annál jobban
keltette a mondatvég benyomását. A szünet fontos, de nem egyedüli tényezőként
működött a mondatok azonosításában. A szünetidőtartamok és a mondathatár-íté-
letek közötti összefüggés azt mutatta, hogy az esetek nagy hányadára igaz az, hogy
a nagyobb szünetidőtartamhoz a virtuális mondathatárok nagyobb száma társul
(Gósy 2003). A kísérleti személyek döntéseikben felhasználták az alaphangmagas­
ság relatív értékét és változását is. Legnagyobb mértékben az ereszkedő dallam ese­
tében jelöltek mondatvéget, majd a lebegő dallamnál, és ezekhez képest legkevésbé
ítéltek mondatvéget, ha a dallammenet emelkedett.
Német anyanyelvűekkel végzett agyi kiváltott potenciálvizsgálatok (EKP) alátá­
masztották, hogy a prozódiai határok azonnal szintaktikai szerkezeteket aktiváltak
180 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA

(Steinhauer-Friederici 2001; Steinhauer 2003). A kutatók alapkérdése az volt, hogy


a prozódiai jellemzők vajon a szintaktikai struktúrával, avagy a szemantikai sajátos­
ságokkal mutatnak-e szorosabb kapcsolatot. Valahányszor a kísérleti személy into­
nációs határt észlelt, pozitív hullám jelent meg az EKP-ben. A kísérletben azonban
nem spontán beszéd, hanem összetett mondatok képezték az ingeranyagot, amely­
ben a szemantikai, szintaktikai és prozódiai határok egyértelműen egybeestek. A sze­
mantikai koherenciát igazolják angol nyelvű kísérletek a szintaktikai szerkezet és a
prozódiai megvalósítás egységével szemben (Frazier et al. 2003). A szerzők kimond­
ják, hogy adataik szerint nem létezik olyan prozódiai szerkezet, amely képes biztosí­
tani a szintaktikai szerkezeti egységet a hallgató számára. A hallgatók a szintaktikai
szerkezetek prozódiai megtörését nem is érzik természetellenesnek. A lényeg tehát
az, hogy nem a szünet jelenléte vagy hiánya az, ami döntő, hanem az, hogy a létre­
jött prozódiai struktúra által kijelölt közlésszakasz szemantikailag koherens-e vagy
sem. A hallgatók ’nem természetesnek’ ítéltek olyan több mondatból álló szintakti­
kai egységeket, amelyek prozódiailag ugyan tökéletesek voltak, de szemantikailag
kevéssé koherensek. Megállapítható tehát, hogy a szegmentálás során többszörös
kulcsokat használ a beszélő, és ezek a kulcsok részben univerzálisak, részben egy
adott nyelvre specifikusak.

SZÖVEGÉRTÉS ÉS TUDÁS

Mintegy három évtizede a pszicholingvisztikában jellegzetesen visszatérő kérdés,


hogy milyen kapcsolat van a legáltalánosabb értelemben vett tudás és a nyelvi fel­
dolgozás, a megértés között. Két szélsőséges felfogást ismerünk. Az egyik szerint
mindig a tudás az elsődleges, a másik a tudás szerepét másodlagosnak tekinti. A tu­
dás elsődlegességét hirdetők azt állítják, hogy a megértés során semmi új nem jön
létre, hiszen minden megvan a fejünkben. Megértéskor a fejünkben lévő tudást csak
megtaláljuk. A másik elmélet szerint a megértés konstruktív folyamat, amelynek
eredményeképpen valami új jön létre (amely a tudásunkat is gazdagíthatja). Az első
felfogás szemléltetésének híres példája A kutya nyávog, mondat megértése, amikor a
hallgatónak meg kell találnia az utat (ösvényt) az alanyi és állítmányi csomópontok
között (Pléh 1998a). Ez az út azonban nem megtalálható, mivel nem létezik .A kutya
ugat. mondat esetében ugyanakkor megtaláljuk ezt az utat, mert ez a mondat igaz. A
példák azt sugallják, hogy azt vagyunk képesek megérteni, amit már úgyis tudunk.
A megértés tehát ebben a koncepcióban nem más, mint a tudatunkban meglévő dol­
gok közötti ösvény megtalálása. Hogyan vagyunk akkor képesek a valóban új (vagy
újnak tűnő) dolgokat megérteni? (Ezzel kapcsolatosan az az elméleti kérdés is fel­
merült, hogy vajon a világról megszerzett ismereteink a nyelv ismeretéhez tartoz­
nak, avagy valami általános háttérismerethez. Hol a határ?) Az interakciós típusú el­
méletek a tartalomból indulnak ki, s azt feltételezik, hogy a megértés úgy következik
be, hogy a hallgató kölcsönös kommunikatív szándéktulajdonítást végez. Valószínű­
sítjük, hogy a beszélő igazat mond, és olyasmit közöl, amely megfelel az ismereteink-

You might also like