OsirisKonyvek 0501 Pages133-182

BESZÉDMEGÉRTÉSI MODELLEK 131
pontjában a jelentés áll; e felfogásnak az előzményeit már Osgoodnál (1986) is meg

találjuk. Az interaktív modellek újdonsága egyfelől, hogy a jelentést és a formát egy
ségként kezelik, valamint, hogy fontosnak tartják az előfeltevéseket, a predikciókat,
azaz az ismereti és kontextuális elvárásokat. A modell egyes szintjei csaknem párhu
zamosan működnek, közveüenül tartanak kapcsolatot egymással; így az egyes szin
teken végbemenő beszédfeldolgozás folyamatos információt közvetít(het) a többi
szintnek. Feltételeznek egy központi irányítót („teremfelügyelőt”, vö. Pléh 1998a),
ami irányítja a különböző működéseket. A mai interakciós elméletek abban külön
böznek a korábbiaktól, hogy tekintetbe veszik a tudás, a kontextus pontos időbeli
megjelenését is.
A moduláris hipotézis kiinduló gondolata azokra az előzményekre vezethető
vissza, amelyek a jelentés és a szerkezetek elválaszthatóságát mondták ki (pl. Miller
klasszikus munkái). Chomsky sokat idézett példája (,A színtelen zöld eszmék dühöd-
ten alszanak”) igazolni látszott, hogy a jelentés zavarát jobban elfogadjuk, mint a
nyelvtani szerkezet hibáját (pl. Iskola tanítónak gyerekek ebéd adná - ’A tanító adja
a gyerekeknek az ebédet az iskolában’, de egyéb „feloldás” is elképzelhető: ’A gyere
kek a tanítónak ebédet adnak az iskolában’ vagy ’Az iskola a tanítónak és a gyerekek
nek adna ebédet’ stb.). Miller és Isard már említett kísérlete (1963) is alátámasztot
ta, hogy a jelentésbeli anomáliát jobban elfogadja a hallgató, mint a grammatikailag
hibásat. Talán ezeknek az eredményeknek egyfajta következménye volt a jelen
tés-központúsággal lényegében szemben álló formaközpontú elmélet kidolgozása,
amely Kenneth Forster nevéhez fűződik (1979); a moduláris elképzelést Jerry Fodor
indította útjára (1983).
A kiindulás az, hogy a megértés folyamán a szerkezeti elemzés elsődleges, tehát
megelőzi a jelentés elemzését, és önálló komponense a működéssorozatnak. A mo
dellben az egyes megértési modulok önállóan működnek, egymással nem tartanak
kapcsolatot, és saját útjuk van a mentális lexikonhoz. Az ún. tematikus modulok pél
dául függetlenül működnek a szintaktikai moduloktól - kivételt képez természete
sen egyfajta durva kiinduló mondatelemzés, ami az igei és a főnévi csoportokat elkü
löníti. A feldolgozás abban az értelemben hierarchikus, hogy a végeredményt a rész
feldolgozások eredményeinek összessége adja, ezt egyfajta „problémamegoldás” se
gíti elő. A moduláris elméletben a beszédmegértés kettős folyamat működése során
jön létre. Az első folyamatban egymástól független elemzők (modulok) működnek,
amelyek tehát nem kommunikálnak egymással. Ekkor az ismereteknek és a kontex
tusnak még nincs szerepe a feldolgozásban. A második folyamatban megtörténik a
szövegértelmezés, amely egyszersmind egyfajta kapcsolat kialakítása a már tárolt is
meretekkel (ismét speciális modulok segítségével). A modulok meghatározása körül
azonban rengeteg a vita.
A korai moduláris elméletekből alakult ki a kerti ösvény elmélet (garden-path
theory). Ez a jelenség akkor alakul ki, amikor szintaktikailag kétértelmű mondato
kat kell olvasnia a kísérleti személynek. Ezek a mondatok azonban csak átmenetileg
kétértelműek, a mondatok végigolvasásakor egyértelművé válnak. Ezért nevezik
kerti ösvénynek, amely „levezethet” bennünket a helyes útról. Ekkor a mondatmeg
132 4. A BESZÉDÉSZLELÉS ÉS A BESZÉDMEGÉRTÉS FOLYAMATA
értés elemzési szakaszában a „minimális csatolás elve” érvényesül; ez azt jelenti,

hogy a feldolgozó rendszer kétértelmű helyzetben a szintaktikailag legegyszerűbb
alternatívát fogja kiválasztani (Németh 2001). A moduláris elmélet igazolása nem
sikerül teljes egészében.
A konnekcionista modellek szakítanak a szekvenciális feldolgozás elméletével, a
párhuzamos feldolgozások érvényesülnek bennük. Ez a koncepció elfordul a számí
tógépes analógiáktól, elveti az egyetlen központi feldolgozóegység lehetőségét, és
idegrendszeri megfelelőket keres és talál. Olyan egységeket képzel el a feldolgozó
rendszerben, amelyek önmagukban nem szimbólumhordozók, hanem elméleti neu-
ronoknak felelnek meg. Az elképzelt reprezentációk atomikusak és a struktúrá
juk kombinatorikus. Az elmélet egyik fő képviselője James McClelland (McClelland
1979; McClelland-Elman 1986). E modellben nincsenek alá-fölé rendeltségi viszo
nyok, a megértés valójában nem más, mint az egyes hálózatok aktiválása az idő
függvényében; és mindebben az asszociációknak döntő szerepük van. (Az asszociá
ció magyarázó szerepét például Chomsky már az ötvenes években megkérdőjelezte,
vö. Pléh 1998b.) El kell ismernünk, hogy a konnekcionista modellek hatékonyak
olyan alacsony szintű kognitív képességek modellálásában, mint például a mintafel
ismerés. Számos kedvező tulajdonságuk van, mint az automatikus általánosítás, a
fokozatos feldolgozás. A konnekcionista felfogás szemben áll a szimbolista irányzat
tal (Bocz 1998).
A klasszikus szimbolista irányzatok a szabály- és reprezentációelméletet követték,
amely a chomskyánus generatív nyelvelmélet elveinek kiterjesztése volt más kogni
tív folyamatokra. Az elmélet lényege, hogy az ún. magasabb rendű kognitív folya
matok egy számítástechnikai rendszerrel modellálhatok, a végbemenő műveletek
meghatározhatók, kiszámíthatók. A konnekcionista felfogás radikálisan különbözik
ettől. A memóriát egyszerű feldolgozóegységek hálózataként képzeli el, amelyek sú
lyozott kapcsolatokon keresztül kötődnek egymáshoz. A feldolgozás - csakúgy, mint
az agyban - párhuzamos. A vezérlés nem központi. A konnekcionista rendszerek
alapvető jellemzői röviden a következők: a) a rendszer memóriáját egyszerű feldol
gozó egységek hálózata jelenti, b) az egységek viselkedése lényegében az idegsejtek
viselkedéséhez hasonlítható, c) a feldolgozás, az agyban történtekhez hasonlóan,
párhuzamosan zajlik, d) a vezérlés nem központi (Bocz 1998).
A konnekcionista modellből hiányzik az a szakasz, amelyben minden információ-
feldolgozás integrálódik, ezért sok kérdésre nem tud egyértelmű választ adni. E fel
fogással sokan nem értenek egyet, a konnekcionista táboron belül is nagyok a véle
ménykülönbségek. Újabb és újabb hibrid (kevert) modelleket alakítanak ki, amelyek
például modulárisan építkeznek több, hierarchikusan szervezett konnekcionista há
lózatból. Az új konnekcionizmusnak nevezett irányzatban az elosztott rendszerek
elsődlegességét hirdetik a lokális modellekkel szemben. Ennek két oka van, ezek
egyrészt jobban eltérnek a klasszikus szimbolikus irányzat elveitől, másrészt alkal
masabbak a tanulás modellálására. A konnekcionista felfogással szemben felhozott
alapvető ellenérv az, hogy a humán működések ezen a módon nem leírhatók (Pléh
1998c).
BESZÉDMEGÉRTÉSI MODELLEK 13 3
ÖSSZEFOGLALÁS
A beszédmegértés folyamata két nagy szakaszból áll: 1. a nyelvi kódok (jelek) rend
szerének megfelelő hangjelenségek észlelése és 2. ennek a kódrendszernek az értel
mezése. Mindkettő több fokozatból (szintből) épül fel, amelyek törvényszerű együtt
működésben biztosítják a hallott beszédjelenségek megértését. A beszéd megértése
aktív folyamat, amelynek során a hallgató az érzékelt beszédjelenségeket magasabb
szinteken értelmezi. Percepciós bázison azt a nyelvspecifikus működésmechaniz
must értjük, amelynek során az elhangzott közléssorozatot feldolgozzuk. A meg
értési folyamatot modellekben próbálják ábrázolni, amelyekben egyszerűsítve rep
rezentálható a működéssorozat. A cél annak bemutatása, hogy milyen szinteken
milyen jellegű működések történnek a megértés mechanizmusában. A ma ismert
beszédfeldolgozási modellek többsége a teljes beszédmegértési folyamatot igyek
szik ábrázolni; vannak azonban olyanok, amelyek csak a beszédészleléssel, avagy
csak a beszéd megértésével foglalkoznak. Meglehetősen sok modell ismeretes, né
melyek kisebb, mások nagyobb mértékben különböznek egymástól. Ilyenek: a moto
ros teória, az analízis szintézissel vagy aktív-passzív modell, a globális beszédmeg
értés modellje, a Bondarko-féle elmélet, a hierarchikus megértési modell és a be
szédmegértés kognitív modelljei.
SZEGMENTÁLÁS A BESZÉDÉSZLELÉSBEN ÉS A BESZÉDMEGÉRTÉSBEN
A kérdés megfogalmazható úgy, hogy a szegmentálás felfogható-e egy speciális hal

lási folyamatnak, amely tartalmazza a fonetikai osztályozást; avagy a szegmentálás
a fonetikai osztályozásnak magának az automatikus következménye. Az első felte
vés azt jelentené, hogy a baba hangsor beszédhangjainak azonosításakor - mint a
megértés speciális hallási folyamatának eredménye - azonnal képesek vagyunk az
anyanyelvi beszédhangok egymásutániságának felismerésére: b + a + b + a. A má
sodik feltevés esetében a baba akusztikai hullámformájának észlelését és feldolgozá
sát egyfajta fonetikai osztályozás követi (bizonyos akusztikai kritériumok alapján),
amelynek eredménye egyszersmind a szegmentálás, tehát szótagokra, beszédhan
gokra bontás. (A fonológiai tudatosság kérdését az anyanyelv-elsajátításról és az ol
vasási folyamatról szóló fejezetben tárgyaljuk.)
A kísérletek eredményei azt mutatják, hogy egy akusztikai jelrészlet tartalmazhat
információt különböző fonetikai szegmensekről - például egy réshang és egy ma
gánhangzó kapcsolatának átmeneti része a mássalhangzóról is. Ugyanakkor eltérő
akusztikai jeleket gyakran azonos nyelvi információként észlelünk, például a külön
böző magánhangzók előtt álló felpattanó zárhangot. Más megfogalmazásban: van
néhány artikulációs konfiguráció, amely akusztikailag stabil abban az értelemben,
hogy kis artikulációs változásnak kis akusztikai változás a következménye; nagy ar
tikulációs változásnak pedig nagy akusztikai változás.
A legtöbb artikulációs konfiguráció azonban instabil, mivel hasonlóan vagy ugyan
olyan kis artikulációs változásoknak nagy akusztikai változás a következménye. Pél

dául az []■] és az [s] mássalhangzók közötti artikulációs különbség relatíve kicsi, csu
pán a képzési helyben térnek el (az egyik alveoláris, a másik posztalveoláris hang).
Akusztikailag azonban az [[] mássalhangzóra a 2000 Hz körüli zörejnyalábok, míg
az [s]-re a 4000 Hz-en felüliek a jellemzőek. Az ellenkezőjét is tapasztaljuk: nagy ar
tikulációs változásnak kis akusztikai módosulás az eredménye. Például az [i] és az
[y] magánhangzók között mind az ajakállásban, mind a nyelv vízszintes mozgását
tekintve van artikulációs különbség. Akusztikailag ugyanakkor csupán a második
formánsuk értéke mutat jelentősebb eltérést. Az artikuláció és az akusztikai jel kö
zött nemlineáris a kapcsolat. Nehéz az akusztikai jelben meghatározni azt a részle
tet, amely az adott fonémát realizálja, mert néha az átmenetek, az átmenetek iránya
vagy éppen a szomszédos hangok hordozzák a jellemző információt (például a
koartikulációs jelenségek következményei), vö. Gósy2004.
A szegmentálás problémája másként vetődik fel a spontán beszédben. A spontán
beszéd ugyanis kevés fogódzót tartalmaz a szóhatárok jelzésére. Van olyan felfogás,
amely szerint nem is a szót azonosítjuk a szövegben, hanem a kontextuális informá
ció nyomán vagyunk képesek az egyes „építőkockákat” felismerni. A kérdés úgy is
megfogalmazható, hogy a hallgató miként szegmentálja a folyamatosan megjelenő
akusztikai jelsorozatot nyelvi egységekre. A szegmentálás eredménye lehet a beszé
det felépítő hosszabb közlés (például a mondat), lehet annál rövidebb, grammati-
kailag szorosabban összetartozó közlésegység (például a szókapcsolat), lehet szótá
ri egység, azaz maga a szó, de - mint láttuk - lehet a szónál kisebb egység is (például
a szótag vagy a hangkapcsolat, vagy maga a beszédhang).
Minek alapján dönti el a hallgató, hogy a folyamatosan változó akusztikai jelsoro
zat hol tartalmaz szemantikai határokat, még pontosabban az egyetlen szót megha
tározó határokat? A folyamatos beszéd nem minden esetben tartalmaz olyan szup-
raszegmentális jegyeket, amelyek egyértelműen utalnának a jelentéses egységek ha
táraira (Gósy 2004). Ismeretlen idegen nyelvű szöveg hallgatásakor lehetetlen meg
mondani azt, hogy hol végződik vagy hol kezdődik egy szó. Ha az adott idegen
nyelvnek valamilyen mértékben birtokában van a hallgató, akkor - különféle straté
giák alkalmazásával - bizonyos fokig képes lesz a szegmentálásra, ez azonban szá
mos tévedést is eredményezhet. Anyanyelven elhangzó beszéd feldolgozásakor is
előfordulhatnak szegmentálási „hibák”, amelyek számos félreértést eredményeznek
(lásd később).
A beszéd írott formájának észleléséhez és megértéséhez nem szükséges a szeg
mentálás, hiszen a szavak közé iktatott „szünethely” (a karakternélküliség funkciója
az elkülönítés) egyértelműen jelzi egy szó végét, illetőleg egy szó kezdetét. A folya
matos beszédben - a folyamatos artikuláció s az ennek nyomán kialakuló folyama
tos akusztikai hullámforma következtében - nem jelzik szünethelyek minden egyes
szemantikai egység kezdetét vagy befejezését, sőt a nyelv fonológiai szabályai nem
ritkán túllépnek a szó terjedelmén. írásban a szegmentálás a következőképpen
szemléltethető.
a) Folyamatos beszéd:
Akorafeudálislengyelállamnéhányévtizeddelkorábbanjöttlétremintamagyarafejlődés
irányaésütemeazonbansokrokonvonástmutat.
b) Szegmentált beszéd:
A kora feudális lengyel állam néhány évtizeddel korábban jött létre mint a magyar a
fejlődés iránya és üteme azonban sok rokon vonást mutat.
c) Megértett beszéd:
A kora feudális lengyel állam néhány évtizeddel korábban jött létre, mint a magyar;
a fejlődés iránya és üteme azonban sok rokon vonást mutat.
A „nyelvgyötrőkként” ismert összeállítások egyúttal percepciós gyötrőkként is fel
foghatók nemcsak az észlelési, hanem a szegmentálási nehézségek miatt is, például:
azipafaipapnakfapipájavantehátazipafaipapipipapapifapipa
Az artikuláció felől közelítve a szegmentálás problémáját, kézenfekvőnek látszik
egy igen egyszerű megoldás. A beszélő - minthogy szemantikai egységeket ejt, és
azokat fűzi össze - ösztönösen kell, hogy „segítse” a hallgatót azok mind könnyebb
feldolgozásában, azaz bizonyos jelzéseket kell alkalmaznia. Ezek a jelzések nagyobb
mértékben a beszéd szupraszegmentális szerkezetében jelentkeznek: dallamválto
zásban, nyomatékban, tempóban, ritmusváltásban; kisebb mértékben a szegmen
tális szinten, például a beszédhangok időtartamának akaratlagos megváltoztatásá
ban. Nem mindegy, hogy milyen az intonációja például a Reggel hétkor? közlésnek.
A szegmentálásról kialakult eddigi ismereteink a következők: (i) a szegmentálás
nyelvspecifikus folyamat, (ii) elsősorban a beszédészlelésnek, de adott esetben a be
szédmegértés folyamatainak is funkciója, (iii) a szegmentálás készsége az anya-
nyelv-elsajátítás során fejlődik ki, (iv) szoros összefüggést mutat az elhangzó beszéd
akusztikumával és az adott nyelv fonológiai sajátosságaival. Pszicholingvisztikai kí
sérletek szerint például a szövegkörnyezetéből kiszakított két- vagy többféleképpen
is szegmentálható hangsorok helyes felismerése, azaz megfelelő szegmentálása
mindössze 53,1%, illetve 60,3% volt (Gósy 1995c; 1998a; 2004). Az értékek drá
maian jelzik, hogy a helyes szegmentálás - a megfelelő kontextus nélkül - alig bizto
sabb, mint a véletlen találat. A beszélő/hallgató tehát bizonytalan annak eldöntésé
ben, hogy a kontextusától megfosztott szót/szókapcsolatot miképpen szegmentálja.
A hatalmasok négyféle szegmentálási lehetőségének helyes percepciós eredménye
százalékban kifejezve az 1. táblázatban látható (az eredeti szót és a helyes szegmen
tálás arányát félkövérrel jelöltük; a dőlt betűs az azonosított).
1. tá b l á za t I A hatalmasok hangsor szegm entálási leh etőségei
E r ed eti hatalm asok hatalm as ok hatalm a sok h a t alm a sok
h a ta lm a s o k 4 5 ,9 17,3 22,7 14
h a ta lm a s o k 42,6 3 4 ,6 16,2 5,9
h a ta lm a s o k 21,6 18,9 2 9 ,2 31,3
h a t a lm a s o k 17,8 29,7 29,7 2 2 ,7
A hatalmasok szó esetében azonosítottak legnagyobb arányban helyesen a kísérle

ti személyek, az összes többi esetben más szókapcsolatokat (is) hasonlóan ismertek
fel. A szegmentálás problémája tehát végigvonul a teljes beszédfeldolgozási folya
maton, s az adott helyzetben dől el, hogy a hallgató melyik szinten képes az elsődle
ges vagy később a korrigált szegmentálásra. A szegmentálás biztonsága az adott
akusztikai-fonetikai tényezőkön túl egyebektől is függ, a lexémák gyakoriságától,
továbbá az egy szó, illetőleg két szó lehetőségtől is. Az őszül és ősz ül 80%, ill. 39,3%
helyes azonosítást hozott, míg a tenyered és te nyered között alig 6%-nyi volt a kor
rekt azonosítás eltérése (az egy szó javára). A régi part és rég ipart 73,7%-os, ill.
36,8%-os helyes felismerésének különbsége inkább gyakorisági eltéréssel magya
rázható annak ellenére, hogy a kísérletben részt vevők mindkét szegmentálási lehe
tőséget írásban megkapták (Gósy 1995c).
A VISSZACSATOLÁS (KÉSLELTETETT KÖTÉS) ELVE
Az eredeti angol kifejezést (feedback) többféleképpen is megfeleltetik magyar szó

val; így a folyamatra a ’visszajelzés’ szó is használatos. Tömör megfogalmazásban ez
arra a biológiai mechanizmusra utal, amelyben az egyik szerv kifejti hatását egy má
sik szervre, de egyidejűleg ez a másik szerv is visszahatást gyakorol. Például beszéd
közben a hallási-észlelési mechanizmus hatást gyakorol a beszédprodukcióra (hal
lás alapján minősítjük saját beszédünket); s ennek eredményeként a beszélés is be
folyással lesz a feldolgozó rendszerre. A visszacsatolás fontossága a beszédmegér
tésben régóta ismert (a pszichológiában még korábban); számos félreértés önkor
rekciójának ez a működés az alapja. A mechanizmus gyakorlati felhasználása első
sorban a gyógyító pedagógiában jelentkezik.
A késleltetett kötés elve a visszacsatolásnak egy újraértelmezett, módosított for
máját takarja. Nem biztos ugyanis, hogy a beszédmegértés folyamatában a hallgató
nak minden egyes szinten azonnali igen/nem (bináris) vagy bármilyen más döntést
kell hoznia. Elképzelhető, hogy a működés olyan, hogy késleltetheti a döntést, amíg
újabb információkat nem kap. A felfogás gyökerei nyilvánvalóan ahhoz a tényhez
nyúlnak vissza, hogy a hallgató nem egy esetben a megelőző fonémáról csak az azt
követő elemzése után hoz döntést. Van olyan feltevés, hogy jó beszédminőség eseté
ben azonnaliak a döntések; ha azonban a megértést zavaró körülmények nehezítik,
akkor működésbe lép a késleltetett kötés.
AZ ELEMI PERCEPCIÓS EGYSÉG
Talán az egyik legrégibb problémája a beszédmegértésnek; sokan alapkérdésnek te

kintik. Mind a mai napig többféle hipotézis ismert ezzel kapcsolatban - a kísérleti
eredmények néha egymásnak ellentmondóak, de legalábbis többféle értelmezést
tesznek lehetővé. A több elemből álló, hosszú ideig tartó ingerek esetében - mint
amilyen a beszéd - az észlelésben ezek az ingerek mindig strukturáltan jelentkez

nek; és az egység (amit először a Gestalt pszichológiai iskola vizsgált) az észlelési
szabályok kölcsönhatásában alakul ki (Winkler 2004). Az alábbiakban összegezzük
az elemi percepciós egységre vonatkozó legfontosabb nézeteket a beszédészle
lésben, valamint a magyar nyelvvel kapcsolatos kísérleti eredményeket.
Széleskörűen elismert nézet tekintette a fonémát beszédmegértési egységnek. Ez
a hipotézis azon alapult, hogy az akusztikai folyamat tükrözi a fonémák egymásutá
niságát. A percepciós kísérletek azonban azt sugallják, hogy igen nehéz a fonéma el
határolása az akusztikumban (lásd a szegmentálási nehézségeket). Számos kísérleti
tapasztalat támasztja alá, hogy az elsődleges döntés nem feltétlenül a fonémáról tör
ténik. Gyakran a fonémáról hozott döntést megelőzően az ember már felismeri a
hallott jel jellemzőit (Flanagan 1965; Fant 1968b). A fonéma méretű egység percep
ciója ellen szól, hogy nagyon nehéz (hacsak nem lehetetlen) megtanítani valakit
azoknak a fonémáknak a felismerésére, amelyek az ő számára nem jelentenek
fonemikus valóságot. (Ötven rövid közlést 11 különböző anyanyelvű személlyel
mondattak be anyanyelvükön, s ezeket 4 angol anyanyelvű fonetikusnak kellett je
lekkel átírnia. 50%-ban jól teljesítettek - tehát a jelölés megfelelt az adott nyelv
hangzási szabályainak-, 50%-ban „tévedtek”, vagyis az anyanyelvi percepciós bázi
sukon keresztül azonosították az elhangzott hangsorokat. Ezek a „tévedések” a fo
nológiai ismeretek hiányáról tanúskodnak.) Kísérletei alapján Ladefoged úgy nyilat
kozik, hogy a fonéma méretű percepciós egységet alátámasztja az a tény, hogy a be
szédet alfabetikusán írjuk le, de ez nem bizonyítja azt, hogy a percepciós egység is a
fonéma. Szerinte a közvetlen percepció a fonémánál nagyobb egységekben történik,
amelyek azonban kisebbek, mint a teljes közlés (1967).
A kísérleti személyeknek nehézségeik vannak az individuális beszédhangok fizi
kai sorrendjének meghatározásában. Click-kísérletek néven (click - ’csattanás’, ’kat
tanás’) foglalják össze azokat a vizsgálatokat, amelyekben folyamatos beszédet hall
gattatnak le a kísérleti személlyel, de a nyelvi anyagot úgy készítik elő, hogy a közlés
folyamatában valami nem beszéd jellegű zajt, csattanást, kattanást iktatnak (a folya
matos beszéd általában mondat, ritkábban szöveg). A hallgatóknak meg kell hatá
rozniuk azt a helyet, ahol a zajt/zörejt hallották. Az eredmények szerint a kísérleti
személyek képtelenek a zaj pontos helyének a meghatározására, a legtöbb esetben
- ha erre külön nem figyelmeztették őket - észre sem vették a zajt, illetőleg azt, hogy
a beszédhangot zaj helyettesíti, és automatikusan korrigáltak. Az ebből adódó kö
vetkeztetések egyike, hogy a beszédfelismerés egysége nagyobb kell hogy legyen,
mint egyetlen fonéma realizációja.
A fonéma méretű egységet feltételező hipotézist a megkülönböztető jegyeken ala
puló elmélet váltotta fel. Ez úgy működne, hogy a bejövő jelet minden esetben biná
ris kérdés fogadná, például: zöngés/zöngétlen, vokális/nem vokális stb. (Hörmann
1971). A kérdéssorozat végeredményeként alakulnának ki a megkülönböztető je
gyek összességéből a fonémák. A legfőbb nehézség itt is a szegmentálásban gyökere
zik. Ahhoz ugyanis, hogy az egyes fonémákat jellemző megkülönböztető jegyeket
azonosítsuk, meg kell határozni a hangsorban azt az akusztikai területet, jelrészle
tét, amelyről a döntést meg akarjuk hozni. Az akusztikai jelnek és a nyelvi szegmens
nek a megfeleltetése azonban nem mindig egyszerű. Ez azt jelenti például, hogy a
fogkefe szóban (ejtésben: [fok:efe]), az első [k] mássalhangzónak nem ugyanazt
a fonémát kell megfeleltetnünk, mint a másodiknak (hiszen az első esetben a /g /, a
másodikban a / k / fonéma realizációjával találkozunk). Más megfogalmazásban:
a hosszú [k:] mássalhangzó két különböző fonémát reprezentál, a /g /- t és a /k/-t. Ez
csak akkor képzelhető el, ha a megkülönböztető jegyes beszédfelismerés egyfajta
nyelvi szabályrendszerrel szimultán dolgozik. Ez azonban további problémákat
vet(ne) fel.
A megkülönböztető jegyek elméletének hatása ismerhető fel Dzsaparidze mára
már csaknem elfeledett hipotézisében (1973). Eszerint a percepciós egység az eta
lon, amely olyan pontokat tartalmaz, amelyek fizikai jellemzői egy osztályt, egy ka
tegóriát alkotnak (ez a zóna), az érzékelt jelenségek pedig ezeknek a pontoknak fe
lelnek meg.
A kísérleti eredmények relatív ellentmondásai arra késztették a kutatókat, hogy a
beszédfelismerés egységét nagyobb nyelvi szegmentumban keressék. Ilyen például
a mássalhangzó-magánhangzó kapcsolat (Borovicskova-Malác 1968). Innen már
csak egy lépés volt az azóta is legterjedtebbnek számító hipotézis megjelenése,
amely a szótagot jelöli meg mint elemi percepciós egységet (Lehiste 1972). A szótag
mint elemi egység mellett egyfelől a produkciós hibázások (nyelvbotlások) tipologi-
zálásával, másfelől a reakcióidős mérésekkel szolgáltattak bizonyítékokat. E kísérle
tekben azt találták, hogy akkor a legrövidebb a reakcióidő, ha az ingerszekvencia va
lódi szótag, továbbá, hogy rövidebb a reakcióidő, ha - magyar példával szemléltetve
- a pajta szóban a pajt kellett felismerni, mint amikor a pa hangkapcsolatot.
A szótag egység mellett szól az a tény is, hogy másként történik egy szótag eleji
[b] -nek a felismerése és másként a szótag végié, vagy hogy például a lcisgyermek (az
anyanyelv-elsajátítás igen korai szakaszaiban is) képes a szótagolásra, s amint moto
ros fejlettsége lehetővé teszi, legalább szótagszámban igyekszik az utánzott szóhoz
hasonlót ejteni. Igaz ugyan, hogy ez a képesség a ritmusérzékeléssel függ össze, és
csak alapul szolgál a nyelvi funkció majdani elsajátításához. Említésre érdemes még
is, mint egy természetesen meglévő adottság, amelyet a nyelv (bizonyos értelem
ben) felhasznál. Érdekes, hogy Ladefoged, a kitűnő fonetikus a szótag mint percep
ciós egység ellen foglal állást, mondván, hogy saját kísérleteinek egyike sem igazolta
ezt a hipotézist. A fonetikai helyzettől függő percepció magyarázatára két lehetősé
get lát: a) vagy létezik egy legkisebb változatlan neurofiziológiai egység, amelynek
nagyobb (ható)területe van, nagyobb, mint egy szótagé vagy b) kell, hogy legyen
egy teljesen különálló, tárolt (emlékezetben őrzött) utasítás a szótag eleji és a szótag
végi mássalhangzókra vonatkozóan (1967). További ellenérvek a szótag méretű
egység ellen: nagyon soknak tűnik az elraktározandó szótagegység; túl nagy az az
akusztikai információtömeg, amely egy szótagot jellemez (még akkor is, ha csupán
egyetlen beszélő ejtési sajátosságainak akusztikai következményeivel számolunk);
az artikulációs vizsgálatok azt mutatták, hogy nagy a szerepe a hangkörnyezetnek.
A magyar nyelvi kísérletek megerősíteni látszanak a szótagegység helyességét. Öt
éves korban például a szótaghoz a gyermeknek már van hozzáférése, de a fonémá

hoz még nincsen (Gósy 2000a).
A következő, számba vehető szerveződési egység a szó, amelynek már a jelentés-
tartalmát is figyelembe kell vennünk. Elemi egységként azért képzelhető el nehezen,
mivel az emlékezet valószínűtlenül nagy megterhelését jelentené az elraktározandó
mennyiség és információ. A szónál nagyobb méretű egységek közül elsőként a
fonemikus frázis említendő meg. (A terminust eredetileg a beszélt nyelv elemzésé
hez használták 1951-ben a fonémánál és a morfémánál nagyobb egység megnevezé
sére.) A fonemikus frázis ismérve a határjegy; nagysága pontosan nem meghatáro
zott: egy, de nemritkán több szóból álló beszédrészlet. További szerveződési egység
a mondat, ezen belül is a magmondat. E szerint mondatstruktúrákként azonosít
juk a beszédet (Bever-Lackner-Kirk 1969); s ezekből következtetjük ki - lefelé és
felfelé - a kisebb és nagyobb nyelvi szegmenseket. Ez a szemlélet egyértelműen
Chomsky hatását mutatja. Ahhoz azonban, hogy egy nyelv valamennyi lehetséges
mondatát az emlékezetben a megfelelő engramként elraktározzuk, elképzelhetetle
nül nagy emlékezetkapacitásra lenne szükségünk. Amerikai kutatók kiszámították,
hogy ahhoz, hogy az angol frázisok összes lehetséges grammatikai variációját egy
szer hallják, az embernek 3 x 1014 frázist kellene 1 másodperc alatt felfognia, s en
nek 100 évig kellene megszakítás nélkül folytatódnia (Miller et al. 1960).
Az elméleti meggondolások és a kísérleti eredmények relatív bizonytalansága
miatt, az érvek és ellenérvek sokaságában felmerült az a hipotézis, hogy a folyama
tos beszéd megértése - bizonyos hierarchia megtartásával - a globális egész azono
sításával és értelmezésével történik, s ebben nincs jelentősége az elemi egységnek.
Wingfield (1975) véleménye szerint nem létezik önálló percepciós egység, hanem a
folyamategységek hierarchiája létezik, ahol minden egyes szintnek saját mértéke,
nagysága van (pl. szótag, morféma). A működést úgy kell elképzelnünk, hogy
megtörténik például a döntés a fonemikus szinten, majd módosul, folytatódik a
döntéssorozat a szótagok, morfémák, szavak szintjén, de az utóbb lévő szint(ek)
mindig visszautal(hat)nak a korábbira abban az értelemben, hogy meg is változ-
tat(hat)ják a későbbi információ következtében a korábbi döntést (vö. késleltetett
kötés elve).
Ez a felfogás nem zárja ki azt a lehetőséget sem, hogy a fonémáról történt végle
ges döntés a jelentés aktiválása után történjen meg. Wingfield mások méréseire hi
vatkozva állítja, hogy például a szótag szinten végbemenő elemzés ideje a memóriá
ban tárolt hallási képnek megfelelően kb. 100-250 ms, de mindenképpen 1 s alatti
érték. Mások szerint a beszédészlelés első feldolgozási szakaszában az echoikus me
mória csak 250-300 ms tartamú akusztikus ingert képes rögzíteni. (Mindkét érték-
tartomány mind beszédhang, mind szótag szinten reális lehet.) Újabb kutatási ered
mények szerint 200-300 ms-nyi időtartam alatt döntjük el, hogy például egy mon
datban szereplő főnév az adott szerkezetnek alanya, tárgya vagy határozója (Pléh
1998a). Pisoni is úgy nyilatkozik, hogy az egység nagysága változik a megkülönböz
tető jegytől a szó- vagy mondatkapcsolatokig, ugyanúgy, ahogy a mechanizmus
szintjei is változnak (1981). (Flanagan már 1965-ben úgy fogalmazott, hogy a beszéd
felismerés egysége a megkülönböztetési feladatnak megfelelően változik.) Minden

esetre ennek a felfogásnak számos előnye van: mindenekelőtt az, hogy az egység kö
töttsége nélkül állíthatók fel a megértési folyamatot reprezentáló modellek.
AZ INVARIANCIA (AZ 'ÁLLANDÓ') JELENSÉGE
A mai napig vitatott jelenség, amelynek meghatározási nehézsége a beszéd sokrétű

ségével függ össze. Az ’állandó’ a beszédnek azon része, amely nem változik, függet
lenül attól, hogy ki a beszélő, mikor beszél vagy milyen nyelvi jelsorozatot mond. Ez
az ’állandó’ biztosítja, hogy felismerjük és megértsük például a hóvirág szót akár egy
hatéves gyermek, akár egy középkorú vagy egy idős ember mondja, reggel vagy este,
télen vagy nyáron, akár mondatban, avagy hosszabb szövegbe ékeken. Látszólag
annyiféle invarianciajelenség található a beszédben, ahányféle területen a beszéd
maga vizsgálható. Eszerint volna akusztikai állandó, artikulációs állandó, nyelvijei
állandó, észlelési állandó stb. A bizonytalanság következtében fellépő szkepszist
mutatja Port álláspontja, ami szerint az invariancia minden ember (értsd: kutató)
számára mást és mást jelent (1984). Ahhoz, hogy a jelen beszédkutatási eredményei
alapján ítélhessük meg a problémát, áttekintjük röviden, hogy mit jelent az ’állandó’
a klasszikus fonetikában és fonológiában.
Az első kísérlet egyfajta tudományos értékű invarianciakeresésre a fonetikus át
írás volt. Ez a rendszer, amely szándéka szerint tükrözi az elhangzó beszéd elemi
egységeit, lehetővé teszi a folyamatos beszéd leírását, azonnal kétféle ’állandót’ is
tartalmaz, azaz a beszélőtől és a nyelvtől független állandót. Ez azt jelenti, hogy füg
getlenül az egyedi ember beszédprodukciójától, valamint a különböző nyelvek ar
tikulációs sajátosságaitól, létezik olyan invariáns jellemző, amelynek segítségével
a különbségek figyelmen kívül hagyhatók. A fonetikus lejegyzés (átírás) számára
mindegy, hogy például a magyar [o] magánhangzót nő, férfi, gyermek, fiatal vagy
öreg mondta, az átírásban mindig ugyanúgy, tehát állandó jelenségként jelenik
meg. Ugyanígy érdektelen, hogy orosz, magyar, német vagy angol nyelven hang
zott-e el a hang, ha az megfelel a hátul képzettség, kerekítettség, középső nyelvállás
és rövidség paramétereinek, az átírás változatlan marad. Annak ellenére marad vál
tozatlan, hogy az említett ejtési eredmények, a fizikai valóság - akár az artikulációt,
akár az akusztikai szerkezetet tekintjük - nagyon különböznek egymástól.
A hagyományos fonetika, amikor a képzés jellege szerint írja le a beszédhangokat,
ugyancsak állandó (artikulációs) sajátosságokat keres. Ezek a jellemzők (pl. két
ajakkal képzett, zárhang, zöngés hang) teszik lehetővé, hogy hallás alapján az el
hangzó beszéd hangjai az átírási szabályok szerint leírhatók. Sok esetben azonban
különféle mozgássor (artikuláció) azonos vagy hasonló hallásélményt okoz, még
egyetlen nyelven belül is. Port (amerikai) angol példája a pergőhang problémája,
amelynek a retroflex, illetve ’bunched’ ejtését hallás alapján lehetetlen elkülöníteni.
A beszéd megfigyelésében járatlan magyar beszélő sem képes például a hibásan ej
tett réshangot a helyesen képzettől elkülöníteni.
A megoldás az, hogy ezekben az esetekben természetesen a hallásélmény kell

hogy alapul szolgáljon a leíráshoz. Ezzel azonban a nyelvfüggetlen állandó leírható-
ságáról kell lemondanunk, hiszen az idegen ejtési sajátosságokat rendszerint az
anyanyelvi percepciós bázison keresztül észleljük, ez pedig gyakran torzítja a való
ságot. A fonetikai szimbólumok az időzítés tekintetében is állandóak. Az egyes be
szédhangok mind nyelvi, mind fizikai időtartamát csupán relatíve, a nyelv rendszer
beli sajátosságainak figyelembevételével határozzák meg. Az ajtó szót például min
dig ugyanúgy fogjuk fonetikusan átírni, függetlenül attól, hogy az a szó milyen
konkrét időtartamban hangzott el.
A fonetikai szimbólumok nem vesznek tudomást a beszédhangok szerveződéséből
adódó változásokról sem, vagyis ismét egyfajta állandót tartalmaznak. Ezt a szeriális
invarianciajelenséget jól példázza a sokat idézett magyar [k] mássalhangzó. A veláris
felpattanó zárhangunkat mindig ugyanez a jel testesíti meg, noha a követő beszéd
hangtól függően a rá jellemző artikulációs mozgás (a képzési hely) változik, vö. kutya,
király, katona. E mássalhangzó zörejfrekvenciájának vándorlása az említett három
szóban nagy különbségeket mutat: 670 Hz, 3000 Hz és 1000 Hz. Az átírási rendszer
állandónak tekinti a hasonló képzés jellemzőit, például a résképzést (a különböző
réshangoknál: [f, s, z]) vagy a zöngésség tényét (függetlenül a mássalhangzó típusától).
A klasszikus fonológia, amikor a fonémákat jellemző jegyeket határozza meg,
voltaképpen állandókat próbál találni, amelyeknek kettős a feladatuk, csakúgy, mint
az átírási rendszerekben, a beszélőtől és a nyelvtől független állandó biztosítása.
A jakobsoni elmélet eredetileg nagy rokonságot mutat a hagyományos invariancia
felfogással: ekkor az artikuláció és az akusztikum között még nem érvényesül min
dig az állandóság. Az angolban például a ’flatness’jegy egy sor különféle artikulációs
mozgás együttese, amelyek közös ismérve, hogy a magasabb frekvenciák energia
maximuma csökkenő tendenciát mutat. Ilyen artikulációs mozgás lehet ajakmoz
gás (a szájnyílás szűkülése: [s] —> [f]), az ajak előrecsücsörödésének változása:
[e:] —> [0 :]) vagy a larynx lejjebb kerülése. Akusztikai hatásuk azonos (vagy közel
azonos), így nyelvileg azonosnak tekinthetők. A Jakobson, Fant, Halle (1973) által
alkotott elméletben az észlelés és az akusztikum sokkal nagyobb jelentőségű, mint
korábban volt. Ez odavezetett, hogy az artikulációs/auditoros szimmetria helyett az
artikulációs/akusztikus szimmetria került előtérbe. A disztinktív jegyek kibővülé
se az akusztikai jegyek bekerülésével további absztrahálódást eredményezett, s ez
zel az invariancia fogalmának átértékelése szükségszerűvé vált. Különösen a nyelv
független állandó kérdése maradt erősen bizonytalan. Chomsky és Halle sok kérdést
úgy próbált megoldani, hogy egyfelől átutalta őket a kognitív szintre, másfelől pedig
univerzálisnak mondta ki, ez egyben azt jelentette, hogy a további elemzésük értel
metlen. Port szerint a Chomsky-Halle-féle elméletben a korábbi fonetikai teret egy
mentális tér váltja fel, amelynek legfőbb jellemzője, hogy nem a jeltulajdonságot
hangsúlyozza, hanem a beszélő/hallgató észlelési sajátosságait (1984). A későbbi
fonológiai elméletek (pl. autoszegmentális fonológia) már nem is próbálják az enti
tásokat általános ismérvekkel definiálni; ehelyett különféle módszereket alkalmaz
nak a felvetett kérdések megoldására.
Az akusztikus invariancia rendkívül megbízhatónak tűnt, mivel a háttértechnika

segítségével az objektív tények könnyen definiálhatókká váltak. A beszéd - akuszti
kailag - hullámforma, amely három paraméterrel (frekvencia, intenzitás, idő) egy
értelműen jellemezhető. Sok nyelvre meghatározták például a magánhangzók első
és második formánsának értékeit, illetőleg a szórástartományokat anyanyelvi beszé
lők ejtése alapján. Kézzelfoghatóvá vált tehát az akusztikus invariancia. Azok az ész
lelési kísérleti eredmények azonban, amelyek meglepően jó teljesítményt igazoltak
olyan esetekben, amikor az akusztikus invariáns jegy nem vagy csak alig volt kimu
tatható - megkérdőjelezték ennek az ’állandónak’ az érvényességét. Érthetőek ma
radtak például olyan egy szótagú magyar szavak, amelyekben a magánhangzók első
két formánsát tartalmazó frekvenciasávot „levágták” (Gósy 1992). Ekkor valamilyen
másodlagos akusztikai paraméter vagy paraméterek biztosították a pontos azonosít
hatóságot.
A nyolcvanas évek elejére nyilvánvalóvá vált, hogy az addig alkalmazott eljárá
sok, műveleti megoldások, illetőleg jegykereső stratégiák mind-mind csak részlege
sen képesek az invariancia kérdését megoldani. Ezért három különböző síkra utalták
át az ’állandó’ jelenségének kutatását, illetve a meghatározását, az artikuláció, az
akusztikum és az észlelés síkjára. A cél az volt, hogy párhuzamokat találjanak
az egyes síkok között. Középpontba került a funkció kérdése, ami azzal járt együtt,
hogy a beszélő/hallgató ember felől közelítettek. A kiindulás az észlelés, az első kér
dés pedig az volt, hogy ennek az artikulációval vagy az akusztikummal szorosabb-e
a kapcsolata (artikulációs vagy akusztikus invariáns jegy). Delattre egyenesen úgy
fogalmazott, hogy a megkülönböztető jegy tulajdonképpen nem más, mint egy
perceptuális jel, amelyet vagy artikulációs, vagy akusztikus sajátságain át lehet vizs
gálni, de mindenképpen invariánsként fog funkcionálni (1967). Más szavakkal ez
azt jelenti, hogy az invariáns jegyeknek vagy a gesztusok (artikulációs mozgások),
vagy eredményük (az akusztikai jel) tekintetében kell leírhatóknak lenniük. A leírási
módszer azonban szabadon választható.
Port (1984) javaslata a következő. A hallgató számára természetesen az akuszti
kai jelnek, azaz a hallásélménynek kell állandónak lennie. Ez viszont feltételezi,
hogy a különböző fiziológiai adottságok ellenére, ugyanazon mozgások ugyanazon
(hallási) élményt keltik. A gyermeknyelvi vizsgálatok tapasztalata azonban ellent
mond ennek a feltételezésnek. Ahhoz, hogy a gyermek a szükséges hangzást elérje,
módosított, nemritkán egészen más artikulációs mozgássort kell elvégeznie, mint a
felnőtteknek. Ennek oka elsősorban (de nem kizárólag) beszédszerveinek a felnőtté
től különböző morfológiai felépítése (a lágy szájpad méretei, arc- és orrüregi külön
bözőségek, a vokális traktus hossza stb.). Az artikuláció és az akusztikum között -
mint láttuk - nincs „egy-az-egynek” megfelelés, ez pedig megnehezíti a közös inva
riáns megtalálását. További kérdés, hogy vajon mely esetekben kell artikulációs és
melyekben akusztikus invarianciákat keresnünk.
Mindezek feloldására Port szemléletes hipotézist vezet elő. E szerint az invarian
cia mint jelenség az egyes síkok (artikuláció - akusztikum - észlelés) közötti transz-
formációban keresendő és fogható meg egyértelműen. Több ún. fonetikai teret tété
lez föl, amelyek között invariáns transzformációk biztosítják a kapcsolatot. Úgy gon
dolja, hogy ezen a módon jobban leírhatók a beszédhangok, mint szegmensekként.
Az egyes transzformációk fő jellemzője az időzítés, szemben az „idő nélküli” foneti
kai terekkel. Miért más felfogása ez a fonetikai térnek, mint korábban? Hagyomá
nyosan a fonetikai teret a fonetikai jegyek vagy szegmensek meghatározott számú
egyede alkotja. Új adatok birtokában (pl. egy újabb beszédhang megjelenése egy
újabban tanulmányozott nyelv alapján) új jegyek kerülhetnek ebbe a térbe, s ezáltal
maga a tér is bővül. A porti értelemben használt fonetikai teret transzformációk ha
tározzák meg, s az ’állandó’ úgy jelentkezik, hogy a transzformációk működése köz
ben a tér maga változatlan marad. Mindehhez már csak a transzformációk meghatá
rozására volna szükség. Ez bizonyos esetekben világosan körvonalazott, más esetek
ben meglehetősen bizonytalan. Legelfogadhatóbb abban a megfogalmazásban,
hogy egyfelől az artikulációs és/vagy akusztikus jegyek egyértelműen megfeleltet
hetők bizonyos észleleteknek, itt az ’állandót’ a mozgás és a percepció vagy az
akusztikum és a percepció közötti transzformáció jelenti, és érdektelen, hogy mikor
melyik esettel állunk szemben. Másfelől létezik beszélők és nyelvek közötti tér
transzformáció, amely mindig állandó abban az értelemben, hogy kiszolgálja, vagyis
biztosítja az észlelést.
Ennek az új transzformációs fonetikai térnek nagy haszna az, hogy továbbviszi
az invarianciakutatást; az eddigi elméletekkel ellentétben nem újabb és újabb érve
ket sorakoztat fel az egyik vagy másik lehetőséggel kapcsolatban, hanem tudomásul
veszi a képzés/hangzás aszimmetriáját, és ebből kiindulva igyekszik megoldást ta
lálni. Nagy eredmény, hogy elsősorban a funkciót próbálja meghatározni. Ez a funk
ció pedig nem más, mint a beszélő/hallgató nézőpontja, vagyis az elhangzó beszéd
felismerésének kritériumai. Egyetlen gyenge pontja van mind az eszmefuttatásnak,
mind a megoldási kísérletnek. A fonetika tudomány több évszázados „rossz” hagyo
mánya ütközik ki: a beszédet a leírható legkisebb egységek alapján értelmezi és tart
ja felismerhetőnek, így a fonetikai térben csak az ennek megfelelő entitások létez
nek. Ennek alapján pedig legfeljebb a szóig jut el; fel is teszi a kérdést, hogy vajon mi
a szó az artikuláció és az akusztikum területén. Választ azonban nem tud adni rá.
A modell így egy meghatározott körön belül marad, és csak itt alkalmazható.
A felsorolt problémák felvetették azt a lehetőséget, hogy az invariancia jelensége
nem szűkíthető le a beszédhangok vagy még kevésbé meghatározott jegyek területé
re. Emellett az az érv szól, hogy ha egyértelműen meg is határoznánk a beszéd inva-
riánsjegy-rendszerét, ez nem azt jelentené, hogy a beszéddel kifejezett gondolat ki
bontásához (megértéséhez) szükséges állandót találtuk meg, csupán egyet közülük.
A beszédben többféle, valószínűleg több szinten létező invariáns tulajdonság van. A
beszélő/hallgató célja mindig az elhangzó beszéd pontos azonosítása, függetlenül
például az extralingvisztikai körülményektől. Ismeretes, hogy az észlelési/megértési
stratégiák az aktuális feladatnak megfelelően változnak. Feltételezhető, hogy az in
variancia is változó jelenség, amely az aktuális kommunikációs feladatnak van alá
rendelve. Tegyük fel, hogy megfelelő vizsgálatokkal meghatároztuk egy elhangzó
mondat invariáns akusztikai tulajdonságait, és megértési kísérlettel igazoltuk az
elemzés helyességét. Majd ugyanezt a mondatot akusztikailag torzítva újra le-

játsszuk a kísérleti személyeknek. Egy bizonyos torzítási fokig a két kísérlet eredmé
nye azonos marad. Erre pedig csak egyetlen magyarázat van: minthogy megválto
zott az akusztikus invariancia, a beszélő/hallgató mást és mást használt fel a megér
tési folyamatában az első és a második esetben.
A beszédhangokban meglévő invariancia valamennyi közül a legjobban és a leg
többet vizsgált lehetőség, sokak szerint az invariancia egyedül lehetséges megvaló
sulási területe. Pisoni definíciója a következő: „Egy x hangnak olyan akusztikai vagy
tulajdonságjegy láncolata, amely minden kontextusban felidézi az adott hangot”
(1981, 249). A Pisoni-féle definíció sugallja a feladatot: a fonetikusoknak nincs
egyéb dolguk, mint megkeresni azokat a jegyeket - bármik legyenek is azok -, ame
lyek a fenti követelménynek eleget tesznek. Ehhez nagy segítség a fejlett artikulációs
fonetika, a magas szintre jutott akusztikai fonetika, illetőleg a reneszánszát élő per-
cepciós fonetika. Különböző kísérleti módszerek, például a beszédszintézis nyújt sok
lehetőséget a kérdés megválaszolására.
Tekintsünk át néhány elméleti, a továbbgondolkodáshoz nélkülözhetetlen kér
dést! Az invarianciával két jelenség áll szemben: a redundancia és az irrelevancia.
Mit jelentenek ezek a beszédészlelés szempontjából? A kétféle megnevezés itt kétfé
le jelenséget takar (hat). A redundancia ’biztonsági többlet’, az irreleváns pedig a
’lényegtelen’, a felesleges, bár ez utóbbiakat nemegyszer egymás szinonimájaként
használják. A lényegtelen elhagyható, mert soha, semmilyen körülmények között
nem képes az üzenet dekódolhatóságának biztosítására. A redundáns viszont csak
relatív feleslegességet jelent, mivel bizonyos körülmények között információhordo
zóvá válhat. Csendes körülmények között jóval kevesebb akusztikai jel elegendő egy
mondat megértéséhez, mint zajos vagy egyéb módon zavart helyzetben; ez utóbbi
esetben több/többféle akusztikai paraméter hordozza azt a szükséges információt,
amely a megértéshez nélkülözhetetlen.
Lássunk példákat arra, hogy a beszéd redundanciája milyen nagyfokú. Ha vala
mennyi magánhangzó helyett [s]-t hallunk egy angol mondatban, de minden egyéb
jellemző változatlan marad, akkor a mondatmegértés tökéletes lesz (Gimson 1962).
Ugyancsak angol példa, hogy egy 1000 Hz sávszélességben közölt mondat 1500
Hz-es középfrekvenciával 90%-osan érthető marad (Denes-Pinson 1973). A magyar
kiejtés egyik jellemzője, hogy a magánhangzók képzése teljes értékű, vagyis függet
lenül a szóban, mondatban elfoglalt helyétől, a magánhangzó nem redukálódik.
Napjaink spontán beszédének vizsgálata azonban egyértelműen igazolta, hogy a
szükséges hangminőségek helyett mintegy 70%-ban semleges magánhangzók talál
hatók, az észlelési/megértési mechanizmusunk mégis általában nehézség nélkül de
kódolja ezeket a közléseket (Gósy 1997a). Ez pedig a beszéd redundanciájának, va
lamint az invarianciajelenségeknek köszönhető.
Az invariancia tetten érhető a kontextusban is. Kontextuson itt a beszédhangok
kapcsolódási sorozatait értjük, szavakat, szavak egymásutánját. Példánkban a Jöttek
egy páran, akik szoktak hozzájuk járni mondat köznyelvi ejtésének és nyelvjárási va
riációjának különbségei láthatók fonetikai átírásban:
BESZÉDMEGÉRTÉSI MODELLEK 145
köznyelvi ejtés: |j 0 t:ek ec pa:ron okik soktok hoz:a:juk ja:rni]

nyelvjárási ejtés: [jyt:ek ecpa:ron: okik soktok y:hoz:a:jo ja:rpi]
Feleslegesnek tűnik annak bizonygatása, hogy itt mindkét esetben valóban „be
szédhangokon fölüli” invariáns jelenség biztosítja a megértést.
A beszédhelyzetben gyökerező invariancia a természetes kommunikációban leg
többször észrevétlen marad, a megértési folyamatnak funkcióba lépése ugyanis
olyan rendkívül rövid időtartamban zajlik le, hogy nem is tudatosodik. Észrevételük
nek több oka is lehet. A leggyakoribb az, hogy a nyilvánvaló félreértés korrigálása
hosszabb időt vesz igénybe, így a tudatosodás létrejön. Nézzünk egy megtörtént pél
dát a beszédhelyzeten alapuló invarianciajelenségre. A beszédhelyzet a következő:
tél van, az autópályán egy autó nyitott motorháztetője mellett két ember áll. Az
egyik így szól: E lfogyo tt a levegővezeték (a beszélő arra gondolt, hogy a kicsapódó
vízcseppek a hideg hatására ráfagytak a légvezetékre, és eltömték azt). A másik sze
mély a következőképpen azonosítja a közlést: Elfogyott a levegővezeték. A feldolgozó
mechanizmusa azonban riaszt: !Nincs értelme! Az újraelemzés sikeres, a közlés
módosított felismerése a következő: Elfagyott a levegővezeték. A félreértést az el
hangzott mondat állítmányának második magánhangzója idézi elő azzal, hogy a be
szélő a kívánt hangminőség helyett semleges magánhangzót ejtett. A szófelismerés
a hallgató számára nyilvánvalóan gyakoribb elfogy igét aktiválta, amellyel azonban a
közlés értelmezhetetlenné vált. Az újraelemzés sikerét a beszédhelyzet (tél, hideg)
biztosította azzal, hogy aktiválta a fagy igét, s ezzel értelmessé tette az elhangzott
közlést. A félreértés gyakran nem a beszélő produkciójában, hanem a hallgató - sok
szor nyomon követhetetlen - észlelési/értési folyamatában adódik; a félreértést ki
váltó okok sokfélék (pl. más volt a hallgató elvárása, a valószínűsített közlést észlel-
te/azonosította, nem a valóságosat).
Az ismeretek szintjén feltételezett invariancia - elfogadva egyfajta hierarchiát -
a legfelső szinten működik. Lényege, hogy a beszélő/hallgató a beszéd felismerésé
nek, a jelentések azonosításának stb. birtokában sem lesz képes az üzenet egészének
a fogadására, ha az az állandó hiányzik, amelyik a megértést, adott esetben az értel
mezést biztosítja. A legjobb példa erre a viccek egy bizonyos csoportja, ahol a vicc,
vagyis a csattanó megértéséhez megfelelő ismeretek szükségesek. Például: Meddig
voltAdám és Eva a Paradicsomban? Válasz: Almaérésig. A válasz kétértelműsége, il
letve egyértelműsége az első emberpárnak a Paradicsomból történt kiűzetésében,
annak bibliai leírásában gyökerezik. Az ismeretszintű invariancia természetesen a
szokásos kommunikációnak is többnyire alapvető feltétele. Nemcsak tudás jellegű
ismeretekről van szó, hanem általános tényekről, ún. emberi tapasztalatról stb. (Ha
például két ember párbeszédébe belehallgatunk, rövidebb-hosszabb ideig képtele
nek vagyunk értelmezni azt, mit hallunk.)
A kutatók nagyjából egyetértenek abban, hogy az akusztikai analízist a hallgató
mintegy integrálja az összes már meglévő vagy kapott szükséges információval (itt
jut nagy szerephez az ún. háttértudás), ez biztosítja a közlés tökéletes feldolgozha
tóságát, értelmezését. A különböző jellegű információkat (jelinformációkat) tartal
mazó „tömegből” választja ki a beszélő/hallgató a számára fontos elemeket. Ezek egy
része azonos az ugyanazon nyelvet beszélőknél, egy (más jellegű) része azonban vá
lasztható, illetőleg egyénenként eltérő. (Például egy szófelismeréses kísérletben,
ahol mezőgazdasággal kapcsolatos szavakat kell megérteni, egy agrármérnök nyil
ván más stratégiával és ismeretanyaggal dolgozik, mint egy géplakatos vagy egy tör
ténelemtanár.) Normális esetben mindenképpen létezik egy közös rész, amikor a
dekódolási folyamat mindenkinél azonos módon történik; ez különösen az ún. al
sóbb szintekre vonatkozik (hallási, akusztikai, fonetikai elemzések, vö. Eysenck-
Keane 1997; McQueen et al. 2003).
Az invariancia definíciója mindezek után a következőképpen fogalmazható
meg: az elhangzó beszédben invariáns(ak) az(ok) a jegy(ek), amely(ek) az adott be
szédhelyzetben a beszélő/hallgató számára az észlelést és/vagy a megértést bizto-
sítjá(k). Ezek ajegyek az akusztikum, a nyelvi ismeret, az extralingvisztikai ténye
zők és az egyéni ismeretek területein határozhatók meg, amelyek a kognitív szinten
használódnak fel. Az adott beszédhelyzet alapján meghatározható, hogy az akusz-
tikumnak, az extralingvisztikai tényezőknek vagy az egyéni ismerethalmaznak ju
tott-e nagyobb szerep. A kiindulás azonban mindig az elhangzó jel akusztikai tulaj
donsága. Valószínű, hogy a különböző szintű invarianciajelenségek között létezik
egyfajta hierarchia, illetve dominancia, amely a konkrét esetekben vizsgálható.
ÖSSZEFOGLALÁS
A szegmentálás problémája jelentkezik a hangsoron belül, de a spontán beszédben

is. Van olyan felfogás, amely szerint nem is a szót azonosítjuk a szövegben, hanem a
kontextuális információ nyomán vagyunk képesek az egységeket felismerni. A be
szédmegértés egyik legrégebbi problémája az elemi percepciós egység meghatáro
zása. Mind a mai napig többféle hipotézis ismert ezzel kapcsolatban. Elemi egység
nek gondolták a fonémát, a megkülönböztető jegyeket, a hangkapcsolatokat, a szót,
a magmondatot stb. A legegyértelműbb igazolás a szótagra adódott. Az ’állandó’ a
beszédnek azon része, amely nem változik, függetlenül attól, hogy ki a beszélő, mi
kor beszél vagy milyen nyelvi jelsorozatot mond. Ez az ’állandó’ biztosítja, hogy fel
ismerjük és megértsük például a hóvirág szót akár egy hatéves gyermek, akár egy fel
nőtt mondja, bármikor, bármilyen helyzetben. Az első kísérlet egyfajta tudományos
értékű invarianciakeresésre a fonetikus átírás volt. Ezt követően különféle állandó
kat próbáltak találni, mint például a fonémák megkülönböztető jegyei vagy az
akusztikus invariancia. A nyolcvanas évektől három különböző síkra utalták át
az ’állandó’jelenségének kutatását, az artikuláció, az akusztikum és az észlelés síkjá
ra. A cél az volt, hogy párhuzamokat találjanak az egyes síkok között. Az invariancia
tetten érhető a kontextusban, a beszédhelyzetben, sőt az ismeretek szintjén is. Az is
meretekben feltételezett invariancia - elfogadva egyfajta hierarchiát - a legfelső
szinten működik.
A BESZÉDÉSZLELÉSI FOLYAM AT MŰKÖDÉSE 14 7
A BESZÉDÉSZLELÉSI FOLYAMAT MŰKÖDÉSE
A szenzoros rendszerek működése két fázisra bontható az információfeldolgozási

szemléletű elméletekben. Az elsőben a szigorú értelemben vett automatikus folya
matok játsszák a fő szerepet, itt történik a hangsajátosságok akusztikai elemzése.
A második fázisban az akusztikai elemzés eredményei alapján - többségében felül
ről vezérelt - folyamatok alakítják ki a végső észleletet. A vita akörül folyik, hogy hol
van a két fázis határterülete. (A Gestalt-iskola és követőinek nézete ettől alapvetően
eltér, mivel ezek az elméletek az észlelés globális, kezdettől fogva strukturált voltát
hangsúlyozzák. Nem magyarázták meg azonban az egyes részfolyamatok működé
sét, illetőleg az észlelés idegrendszeri mechanizmusainak feltárásával is adósak.)
A beszédészlelés hallásspecifikus, idegrendszeri működést tekintetbe vevő folyama
ta az alábbi szakaszokra bontható (az eltérési negativitás, EN* vizsgálatával: Csépe
2003; Winkler 2004). A hallórendszer automatikus funkciói közül e tekintetben első
a hangfolyam szegmentálása, a szabályosságok körének felismerése, a hangfolya
mon belül egységek meghatározása, a reprezentált szabályosságok alapján bizonyos
predikciók felhasználása, a szabályosságok mellett az eltérések regisztrálása, a
hosszú idejű akusztikus emlékezet aktiválása, azaz a tanult, hosszú távon tárolt in
formációk felhasználása.
A beszédészlelés folyamatműködésére is többféle hipotézis ismeretes. Az egyik
szerint az akusztikai jelet valamiféle köztes absztrakt fonológiai egység - például
szegmentum, szótag - formájában dolgozzuk fel, és ezt az egységet használjuk fel,
hogy majd hozzáférjünk a lexikonhoz. Egy másik hipotézis szerint az akusztikai szig
nálban azonosított jegyeket a szavak alulspecifikált reprezentációival közvetlenül
összevetjük. A harmadik felfogás szerint az akusztikai jelből nyert információt köz
vetlenül a szavak felszíni szerkezetével vetjük össze, amely felszíni szerkezetek tar
talmazzák valamennyi fonetikai és fonológiai információt. A jegyszinten alulspecifi
kált modell elnevezésű hipotézis (FÜL - Featurally Underspecified Lexicon: Lahiri-
Marslen-Wilson 1992) bizonyos értelemben egyesíti az előzőeket. Ebben az akuszti
kaijelből közvedenül történik ajegyek kiemelése, s ebből egy jegysorozat kialakítása.
Ezt a bejövő jegysorozatot hasonlítja össze a folyamat aszerint, hogy van-e találat,
nincs találat vagy a feltételezettel ellentétes eredmény következett be. Ezután az
összevetés után következik egy párhuzamosan futó elemzés, amelynek egyik oldala
a mentális lexikonban történő keresés, a másik oldala pedig a grammatikai feldolgo
* A hanginger k ezdetétől szám ított első 1 0 -1 2 ms-ban agytörzsi eredetű, majd a már kérgi ere
detű, középlatenciájú, 1 0 -4 0 m s-os elektrom os kiváltott potenciálkom ponenseket követően hosszú
latenciájú, általában nagyobb am plitúdójú kom ponensek láthatók, közülük főként az N I jelentős.
(Ez exogén , a hallási inger fizikai param étereitől függő kom ponens.) H angok kezdete, hosszú han
gok m egszű n ése, általában a hallási ingerlésben bekövetkező valam ely hirtelen változás váltja ki az
akusztikai N I kom ponenst. Szabályos hangingerek sorában bekövetkező változások váltják ki az
EN kom ponenst, az eltérési negativitást (mismatch negativity), am ely a változás kezdetétől 1 0 0 -
2 5 0 m s közötti csúccsal jelentkezik. Az EN kom ponens a szabályosságtól való eltérés felism erésé
nek k im enetelét tükrözi.
zás. A mentális lexikonban végbemegy a fonológiai, a morfológiai és a szemantikai

reprezentációk azonosítása egyidejűleg a grammatikai feldolgozás során feltétele
zett fonetikai, fonológiai, szintaktikai és szemantikai elemzésekkel. A végeredmény
az elhangzott közlés megértése. Kísérletileg igazolták, hogy a hallgató érzékenyebb
a magánhangzók lehetséges változtatására a beszédészlelés során. Ebben az érte
lemben a mássalhangzók stabilabbnak tűnnek, a magánhangzók több lexikális vá
lasztási lehetőséget engednek meg. A kísérleti személyek - adott esetben - inkább a
magánhangzókat cserélték ki a mássalhangzókkal szemben, hogy értelmes szavakat
azonosítsanak (Cutler et al. 2000).
A hierarchikus építkezésű, interaktív beszédmegértési modell ennél lényegesen
általánosabb, amely a teljes feldolgozási folyamatot reprezentálja, és a beszédészle
lési, beszédmegértési folyamat működésének csaknem valamennyi kérdésére meg
oldást kínál (2. ábra).
2. ábra I A b eszédm egértés hierarchikus felépítésű m odellje
A beszédfeldolgozás az elsődleges hallási elemzéssel indul, amelyet egy felismeré

si (elképzelési) terv követ a beszédészlelés és a beszédmegértés szintjein. Ez utóbbi
egyszerre három síkon folyik: az észlelés (alapszintek: akusztikai, fonetikai, fonoló
giai) szintjén, majd a szintaktikai és a szemantikai elemzés szintjén. A szemantikai
elemzés visszahat (hat) az észlelésre és a szintaktikai műveletekre, a szintaktikai pe
dig ugyancsak az észlelésre. A hallás az akusztikai ingereket dekódolja, ezen a szin
ten beszédelemzés még nem történik. Az ép hallás biztosítja a hierarchikusan ráépü
lő szintek működését. A beszédészlelés beszédhangok, hangkapcsolatok és hangso
rok felismerése, azonosítása. Új adat, hogy a szótag feldolgozása szó környezetben
más, mint szótag környezetben. A beszédmegértés az adott nyelv szerkezeteinek,
illetőleg a szavak, szókapcsolatok, mondatok és szövegegységek jelentésének (tar
talmának) megértését jelenti. Az asszociációk vagy értelmezés szintjén a hallott és
megértett közlés(ek) összekapcsolása történik meg az emlékezetben már korábban
tárolt ismeretekkel és/vagy tapasztalatokkal. Valószínűleg nem létezik olyan sze

mantikailag dekódolható közlés, amely ne indítana el egyúttal asszociációs/értel-
mezési folyamatokat.
A HALLÁS
A hallás környezetünk akusztikai ingereit dolgozza fel; a hallás az a folyamat,

amelyben hallószervünk a hangjelenségeket érzékeli, felerősíti, irányukat meghatá
rozza, és továbbítja a megfelelő agyi központba, ahol a végső feldolgozás megtörté
nik. A hallásnak anatómiailag két fő része van, a perifériás és a centrális rész. A peri
féria maga a fül; a centrális rész a hallóideggel - ez a VIII. agyideg - kezdődik, és a
hallópályából, az agytörzsi és magasabb központokból, valamint az elsődleges és
másodlagos hallókéregből áll.
A fület külső, közép- és belső fülre osztják. A külsőfület a fülkagyló és a hallójárat
alkotja; a középfültől a dobhártya választja el. Fülkagylónk bőrrel fedett, rugalmas
porcból álló szerv, izmai elcsökevényesedtek. A hallójárat hossza átlagosan 25 mm.
A hallójárat a hangtér rezgéseit a dobhártya felé közvetíti; továbbá kb. 6-8 dB zörej
mentes erősítést tesz lehetővé. Emellett fontos szerepe van az irányhallásban. A kö
zépfül a dobhártyától mediálisan a kengyel talpáig tart. Részei: a dobüreg, az ezen
üreget az orrgarattal összekötő fülkürt (Eustach-féle kürt), valamint a sejtrendszer.
A dobüreg légtartó üreg, amelyben a jellegzetes alakú csontocskák, a kalapács, az
üllő és a kengyel, valamint a hozzájuk tapadó izmok találhatók. A dobüreg alsó falá
tól kiinduló fülkürt (tuba auditiva) az orrgaratba szájadzik, ezzel biztosítva azt,
hogy minden nyelésnél levegő jusson a dobüregbe. A hallócsontok mozgása és ezzel
a hangtranszformáció akkor tökéletes, ha az üregben is 1 atmoszféra a légnyomás,
úgy, mint a környező levegőben. A hangvezetés szempontjából a dobhártya kiemel
kedő jelentőségű. Ez a háromrétegű, nem egyenletesen feszes, nagyjából kör alakú
membrán transzformálja a levegőmolekulák rezgéseit mechanikai rezgésekké, és
ezeket a rezgéseket átadja a középső rétegébe beágyazott első hallócsont, a kalapács
markolatára. A mélyebb frekvenciákat vezeti jól, a magasabbakat kevésbé. A mecha
nikai rezgést - az egymáshoz kis ízületekkel csatlakozó - hallócsontocskák juttatják
el az ovális ablakon át a perilymphára, ahol a mechanikai rezgés folyadékrezgéssé
alakulva halad tovább. A dobüreg funkciója tehát a hangtovábbítás, emellett erősítő
feladata is van. A középfül további feladata az is, hogy védje a belsőfület az erőteljes
hangbehatásoktól. A dobhártya igen tág határok között képes elmozdulni. Igen halk
hangok esetén alig észlelhető a mozgása, míg erős hangok esetén szemmel is megfi
gyelhető elmozdulásokat végez. A védő mechanizmust a dobüregben található igen
kicsiny harántcsíkolt izmok is biztosítják. Ezek az izmok az erős hang hatására meg
feszülnek, és a túl nagy energiát nem viszik át közvetlenül a belsőfülre. Ez az intenzi
tásszabályozás azt jelenti, hogy a középfüli izmok mintegy 500 Hz és 3000 Hz között
védik a fület. Erősebb hang hatására a középfül izmai összehúzódnak. Békésy
György (a Nobel-díjas magyar tudós) mérései szerint a dobhártya nem egyszerűen
egy kifeszített hártya; rugalmasságát inkább a mögötte lévő levegőpárnának kö

szönheti, amely a dobhártyát és a kerek ablakot is védi a hirtelen légnyomásváltozá
soktól és a túl erős mély hangoktól. A belsőfülben a részecskék rezgése bonyolult
(elektrofiziológiai, biokémiai, rezgéstani) mechanizmusok révén impulzussorozattá
alakul át. Két nyílás vezet a belső fülbe: az ovális és a kerek ablak. Az ovális ablakba
a kengyel talpa illeszkedik a dobüregben, a jóval kisebb kerek ablakot másodlagos
hártya zárja le a dobüreg felől. A belsőfül a halántékcsont sziklacsont része mögött,
az ún. labirintusban található, megfelelő védettségben. Feladata kettős: itt van az
egyensúlyozásért és a hallásért felelős szerv. Ez utóbbi a csiga (cochlea, benne a
Corti-szerwel, nevét felfedezőjéről, Alphonso Cortiról kapta). A hallócsontocskák
közül a kengyel érintkezik a csigával, amely egy spirálisan felcsavarodott csontos
cső, amit egy hártyarendszer három részre oszt. A felső csatorna, a scala vestibuli és
az alsó csatorna, a scala tympani a csiga csúcsán találkozik egymással, az általuk
közrefogott scala media pedig egy zárt cső. A scala vestibuli a kengyeltalpon, a scala
tympani a kerek ablakon keresztül tart kapcsolatot a dobüreggel. A halláshoz tarto
zó csontos labirintust, valamint a hártyás részeket is folyadék tölti ki (az előbbit a
perilympha, az utóbbit az endolympha). A csigacsatornát alulról az alaphártya hatá
rolja.
A Corti-szerv a külső szőrsejtek (számuk 12 000 és 20 000 közé tehető) és a belső
szőrsejtek (számuk mintegy 3500) működésén alapszik. A szőrsejtek nagy védett
ségben vannak: a szervezet legkeményebb csontjában helyezkednek el, és folyadék
ban úsznak. A testünket érő mechanikai hatások ezért nem zavarhatják őket. A Cor
ti-szerv a hallóideg végkészüléke, amelyben a fizikai hangjelenség idegjelenséggé
alakul át. Úgy is fogalmazhatunk, hogy itt a mechanikai inger, a rezgés, idegi ingerü
letet vált ki, a mechanikus energia a szőrsejtekben alakul át elektromos impulzusok
ká. Ezt a rajtuk tapadó idegrostok továbbítják a központi idegrendszerhez. Minden
egyes idegrost egy adott hangmagasságra reagál a legérzékenyebben. Ez azt jelenti,
hogy a hanginformációt a jelek száma és időbeli lefolyása jelenti. Az érzéksejtek in
gerületét folyamatosan analóg, az idegrostokét diszkrét analóg működés jellemzi
(Pauka 1982).
Működésmegosztáshoz vezet a külső és a belső szőrsejtek térbeli elrendeződésé
nek különbözősége is. A külső szőrsejtek érzékenyebbek, de időbeli feloldóképessé
gük gyenge; a belső szőrsejtek érzéketlenebbek, ugyanakkor az időbeli feloldóké
pességük kiváló, mert az ingerület az egyik idegrost kimerülése esetén egy másikon
továbbítódhat. Ez a receptorok többszörös beidegzésének elvén alapszik. A többszö
rös beidegzés elve azt jelenti, hogy több külső szőrsejt van egy idegrosthoz kapcsol
va, míg egy belső szőrsejtet több idegrost lát el. A csigát úgy is tekinthetjük, mint egy
szűrőrendszert, s az a frekvencia, amelyre egy neuron a legkisebb hangnyomáson
reagál, a neuron rezonanciafrekvenciája. Minden egyes neuron a frekvenciák elég
széles sávjára reagál, de létezik egy olyan frekvencia, amire a legérzékenyebb. A neu-
ronok egy különleges csoportja az ingerek tárolását végzi; ez biztosítja a korábban
szerzett hallási tapasztalatok felhasználhatóságát egy későbbi időpontban.
Az ingerületet továbbvezető sejtek a neuronok, amelyek az idegdúcokat és az
A BESZÉDÉSZLELÉSI FOLYAM AT MŰKÖDÉSE 151
idegpályákat alkotják. A kódjel a neuronokon keresztül vezetődik az agykéregbe,

ahol elektromos jelként, mint kérgi potenciál, kimutatható. A külső szőrsejtek által
feldolgozott, részben dekódolt rezgésinformáció a belső szőrsejtek működésének
következtében jut el az agytörzsbe, ahol a hallásműködés tekintetében egy másodla
gos információfeldolgozás zajlik le (az elsődleges feldolgozás helyszíne a csiga).
Minden egyes cochlearis rost legalább egy agytörzsi sejttel kapcsolatban van, és ez
végig, a magasabb központok felé haladva is megfigyelhető. Az érzéksejtek elektro
mos impulzusok formájában közvetítik a hallóidegnek a környezet akusztikai inge
reit, illetőleg azok változásait. Az idegsejtek és nyúlványaik sokasága alkotja a halló
ideget, amely a VIII. agyideghez tartozik. A hallóideg ezt az impulzussorozatot több
szörös átkapcsolás és kétoldali kereszteződés után vezeti a központokhoz. Az átkap-
csolódások helyei az ún. szinapszisok, amelyek az idegmagvakban találhatók. Az
ingerületet a hallóideg, illetve az agy hallópályái a nagyagykéreg megfelelő köz
pontjáig vezetik. A hallópálya két legfontosabb központja a thalamus és a hallóké
reg. A thalamus a központi idegrendszer reléállomása, amelynek funkciója az, hogy
a beérkezett információkat a kéreghez továbbítsa. A kéregben történik a hangok fel
fogása. Mindaz, ami a feldolgozott jel akusztikai spektrumában „zaj” volt (avagy ir
releváns információ), a hallópálya szűrőállomásain hátramarad. A hallott beszéd
hang, illetve a beszédhangok sorozatának felismerése, a kódjelek megfejtése maga
sabb szintű idegtevékenység, amely elsődlegesen a beszédészlelés mechanizmusá
ban megy végbe.
Az emberi fül, mint hangfelfogó eszköz, minden tiszta hangot (szinuszhangot) kü-
lön-külön érzékel, minden periodikus rezgést szétbont egész sor szinuszos rezgéssé,
s az ezeknek megfelelő sorozatot érzékeli hangként. A halláselméletek két csoportra
oszthatók: helyelméletekre és frekvenciaelméletekre. A helyelmélet szerint minden
hangmagassághoz egy megfelelő hely tartozik, így minden hangnak sajátos idegi
képviselete van a csigában. A frekvenciaelmélet szerint az agykéreg elemzi a hangot,
de nem egy vagy több hely ingerülete alapján, hanem az egész alaphártya rezgésével
keletkezett hullámképet elemezve. Az utóbbi évtizedek halláselméletének egyik fon
tos felismerése az, hogy a külső és a belső szőrsejtek beidegzése eltérő. A külső szőr
sejtek biztosítják a frekvenciafeldolgozás pontosságát, továbbá hatással lehetnek a
belső szőrsejtek viselkedésére is. Az otoakusztikus emisszióra vonatkozó felfedezés
(hetvenes évek vége) azt igazolta, hogy a belső fülben a külső szőrsejtek spontán
működése során, illetve hangingerek által kiváltottan megjelenő produktumot mint
hangot a hallójáratba helyezett mikrofon segítségével felfoghatunk (Kemp 1978).
Ennek a gyakorlati jelentőségét az adja, hogy a hallójáratban lévő levegő nyomásá
nak mérése felvilágosítással szolgálhat a hallás ép működéséről; és ennek például az
újszülöttek hallásvizsgálatában fontos szerepe van.
Az elfedés jelensége mind a hallás folyamatában, mind a ráépülő beszédészlelés
szempontjából fontos. Az elfedést már a 19. században ismerték. Általános megfo
galmazásban az elfedés jelensége az, hogy két hang egyidejű jelenlétekor az egyik
gátolja a másik percepcióját. Megállapították, hogy egy viszonylag gyenge, mély
frekvenciájú orgonahang elfedi a vele egy időben szóló, magasabb frekvenciájú
hangvilla hangját. Az elfedés a magas hangok irányában sokkal kifejezettebb, mint a

mély hangok felé. Ez azt jelenti, hogy magas hangokkal a mély hangok nem fedhe-
tők le.
AZ EMBERI HALLÁS
Hallásról akkor beszélünk, ha a hangrezgés a hallójáraton át a dobhártya-halló-

csont-rendszeren keresztül vezetődik a belsőfülbe. A beszéd „meghallása” is a hang
rezgések feldolgozása, hiszen a beszéd a levegőrezgések útján éri el a fület. Ez a lég-
vezetéses hallás. A koponyacsontokat ért hangrezgések közvetlenül is áttevőd
hetnek a belső fülbe, és kiválthatják az ingerületet. Ez a csontvezetéses hallás. A
hallójáratban elhelyezkedő légoszlop azokat a frekvenciákat erősíti fel, amelyek sa
játrezonanciájának megfelelnek (2000-3000 Hz-es tartományban). Saját beszédün
ket mind lég-, mind csontvezetéssel halljuk. Ez magyarázza azt, hogy az ember a sa
ját, rögzített (pl. magnetofonszalagra) beszédét mindig másmilyennek hallja, mint
beszéd közben. Békésy György (1949) feltételezte, hogy a belső fül különbözőkép
pen működik attól függően, hogy a saját gégében keletkezett és a toldalékcsőben to
vábbjutott hangot, avagy külső hangingért kell feldolgoznia. Ezért van az, hogy az
ember jól hallja a mások elhangzó beszédét, ugyanakkor a saját beszédprodukciója
mégsem lesz túl hangos önmaga számára.
Az ember hallása igen nagy terjedelmű. Az ép hallást úgy határozzák meg, hogy a
hangok magasságának (hertzben megadva, Hz) és erősségének (decibelben megad
va, dB*) az összefüggéseit vizsgálják szinuszhangokkal a hallási folyamatban. Az ép
hallású fiatal ember a 20 Hz (a szélső érték 16 Hz) és a 20 000 Hz közötti hangokat
érzékel (hét) i. A 16 Hz alatti hangok az infrahangok, a 20 000 Hz felettiek pedig az
ultrahangok; ezeket az emberi hallószerv nem hallja. Az ember az egyes frekvenciá
kon belül 3-5 dB-es intenzitáskülönbségek érzékelésére is képes. A klinikai gyakor
latban ép hallásról akkor beszélnek, ha a légvezetéses küszöb 250 és 8000 Hz közöt
ti tartományban 0 és 10 dB között húzódik. Az évmilliók során olyan hallószervünk
alakult ki, amely lehetővé teszi a természetben előforduló, az ember számára jelen
tős hangok, zajok meghallását. Ezek általában 70 dB alatt vannak. Erősebbek vi
szont az ipari zajkörülmények és a szabadidőzajok, amelyek ha tartósan fennállnak,
maradandó halláskárosodást okozhatnak. Az 50 dB feletti zaj vegetatív elváltozáso
kat (kipirulás, vérnyomás-emelkedés, izzadás stb.) okoz. A 80 dB feletti tartós zaj
halláskárosodáshoz vezet. A fájdalomküszöb 120 dB-en jelentkezik. A hang erőssége
* A decibel viszonyszám , értéke a hallás vizsgálatában azt mutatja m eg, hogy egy adott hang
erőssége hogyan viszonyúk ahh oz a leghalkabb hanghoz, am elyet a jó hallású ember 1000 Hz-es
hangm agasságnál m egh all. (A fizikában 0 dB-nek azt a szintet tekintik, am ely hagyom ányosan
0 ,0 0 0 2 din /cm 2, energiában 1 0 -1 6 w a tt/cm 2 1000 H z-en). Az a referenciaszint, am it az audioló-
giában a hallással k ap csolatosan használnak, az 2 0 juPa, az abszolút hallásküszöb (a legalacso
nyabb hallható nyom ásin gadozás) 1000 Hz-es szinuszhang esetén. A han gerősség érzése a fülünk
b en logaritmikusán változik; és nem független a hangm agasságtól.
A BESZÉDÉSZLELÉSI FOLYAMAT MŰKÖDÉSE 15 3
különbözőképpen hat az emberekre; a szubjektív (pszichés) tényezők, a megszokás

és a hozzászokás stb. meghatározók (Gósy 2004).
Az ember hallásállapota változik az élet folyamán; már a magzat is hall, főként a
harmadik negyedévben reagál az erős hangingerekre az anyaméhben (Pap 2003).
A csiga a születés utáni első hónap végére fejlődik ki teljesen. Egy másfél éves kisded
a mély hangokat gyengébben hallja, mint a felnőttek. Az irányhallás kb. kétéves kor
ra alakul ki. Felnőttkorban bizonyos különbségeket tapasztalnak a nők és a férfiak
hallásában ép hallás mellett. A nőknek általában jobb a hangmagasság-megkülön
böztetési képességük, és rendszerint érzékenyebbek a hang egyéb akusztikai sajá
tosságainak változásaira is. Időskorban a hallás élessége romlik, a hallástartomány-
különösen a felsőbb frekvenciatartományban - beszűkül (az idős emberek a magas
hangokat rendszerint nem hallják meg). Nagyothallásról akkor beszélünk, ha vala
kinek a hallása az életkorában elvárt teljesítménynél rosszabb. Felnőttkorban, ha a
küszöbgörbe a 10 dB-es értéknél lejjebb húzódik, akkor halláscsökkenésről, súlyo
sabb esetben nagyothallásról beszélünk (a nagyothallásnak különböző fokozatai
vannak). Siketség akkor áll fenn, ha a jobban halló fülön mért légvezetéses küszöb
90 dB vagy a fölötti értéket mutat. A nagyothallás mértéke és lefutása nem feltétle
nül egyforma a két fülön; az egyik fülön mért hallás akár ép is lehet.
Az emberi hallás vizsgálata
Az ember ép vagy csökkent hallásának vizsgálata nagy hagyományra, sokféle mód

szerre tekinthet vissza. Minél többet tudunk a folyamatról, annál nagyobb a pontos
vizsgálhatóság lehetősége is. A hallásmérés lehet szubjektív, ekkor igen fontos a vizs
gált személy közreműködése és a vizsgáló jártassága; és objektív, ebben az esetben a
vizsgálat céljának megfelelő műszerek jelzéseire épül a szakvélemény. A kutatási
eredmények a 20. század második felétől lehetővé tették világszerte az objektív hal
lásvizsgálatok nagymértékű fejlődését; ebben az első jelentős áttörést az agytörzsi
kiváltott potenciál audiometria (brainstem electric response audiometry, BERA) je
lentette. Ez a módszer azonban nem frekvenciaspecifikus, ilyenkor a beteg hallástar
tományának csak a 2000-4000 Hz közötti működéséről kapunk információt.
A már említett otoakusztikus emisszió segítségével a szubjektív audiogram min
den frekvencián jól becsülhető, azonban 40 dB-nél nagyobb halláscsökkenés esetén
a válasz nem kiváltható. Ez azt jelenti, hogy éppen a súlyosabb nagyothallás felisme
rését nem teszi lehetővé. A 20. század végére olyan új objektív audiometriai eljárás
hódít teret, amely lehetővé teszi a hallásküszöb becslését akkor is, ha a beteg nem
működik közre. Ez az eljárás az auditoros steady-state potenciál technika, amelynek
a lényege az, hogy új akusztikus ingerlési formát használ, és a válaszokat kiváltó szi
nuszos hanginger periodikus modulációját alkalmazza (Kisely et al. 2004).
A szubjektív audiometriához tartoznak: a) súgott, illetve társalgó beszéddel törté
nő hallásvizsgálat; b) hangvilla alkalmazása; c) tisztahang-audiometria; d) küszöb
feletti vizsgálatok és e) beszédaudiometria. A súgott és társalgó beszéddel történő
hallásvizsgálat egyszerű, de csak tájékoztató eredményt ad. A vizsgáló és a vizsgált

személy között kb. hat méter távolság van, utóbbi féloldalt ül (vagy áll) úgy, hogy a
vizsgálni kívánt füle a vizsgáló személy felé legyen. Un. tartaléklevegővel súgott egy
és két szótagú értelmes szavakat, illetve számokat kell ismételnie. A hangvillákat
1802-ben Chladni használta először hallásvizsgálatra. A vizsgálati eredmény felvilá
gosítással szolgál a hallászavar feltehető helyéről, ezáltal diagnosztikailag fontos
adatokat kaphatunk. A tisztahang-audiometria eszköze az audiométer, amellyel az
egyes frekvenciákon éppen észlelt szinuszhang intenzitásértékének jelölésével fel
rajzolható a hallási küszöbgörbe (amely, mint láttuk, ép hallás esetén 0-10 dB-nél
húzódik). E vizsgálatkor különböző decibelértékeken eltérő frekvenciájú szinusz
hangokat (125 Hz-től 8000 Hz-ig) juttatnak fülhallgatón keresztül - felváltva - a
jobb oldali és bal oldali fülbe. A vizsgált személy feladata, hogy jelezze (kézfeltartás
sal vagy beszéddel), ha a szinuszhangot meghallotta. A tisztahang-audiometria a be
szédmegértéshez szükséges finomabb működések esetleges hibájáról igen kevéssé -
vagy egyáltalán nem - szolgál felvilágosítással. További speciális kérdések megvála
szolásához ún. küszöbfeletti vizsgálatok szükségesek. Ezek elsődleges célja a hallás
romlás helyének minél pontosabb behatárolása.
A beszédértés audiológiai vizsgálatára beszédaudiometriát használnak. A be-
szédaudiometria atyja a magyar Hőgyes Endre. Már a múlt században is kevesellték
ugyanis a beszédmegértés mérése nélküli hallásvizsgálatokat. A magyar beszéd-
audiometria szóanyagát Götze Árpád fül-orr-gégész, audiológus fejlesztette ki (1974).
A gyermekek beszédaudiometriás vizsgálata 1924-re nyúlik vissza. A kisgyermekko
ri beszédaudiometriához többféle teszt is rendelkezésre áll (Götze 1974; Farkas-
Gósy-Hirschberg 1983). Gyermekeknél számokat, életkorukhoz alakított szavakat
és neveket használnak. A beszédaudiometria során különböző intenzitásértékeken
kell a vizsgált személynek a szavakat felismernie és visszamondania. Ekkor nem tör
ténik meg annak ellenőrzése, hogy a beteg vajon megértette-e a szavakat, hiszen a
feladata csupán az azonnali ismétlés. Valójában tehát a beszédészlelés működésé
nek vizsgálata történik, nem a beszédmegértésé. A beszédaudiometriát elsősorban a
hallókészülék-rendelésnél alkalmazzák.
A tisztahang-audiometria és a beszédaudiometria sajátos összegzése a GOH-eljá-
rás, amely a hallás épségének szűrésére használható, elsősorban gyermekeknél. A mód
szer anyaga olyan egy szótagú szintetizált, mesterséges szavakból áll, amelyek csak
nem kizárólag az akusztikailag és fonetikailag meghatározott invariáns elemeket
tartalmazzák (Gósy 1999; Menyhárt 2003; Gósy 2004).
A tisztahang hallásához relatíve nagyon kevés működő rost kell. Az olyan komp
lex hangjelenség felfogásához, mint a beszéd, azonban nagyon sok. Azonosan ép
hallás (ép küszöbgörbe) mellett nagy lehet az eltérés a beszédmegértési teljesít
ményben; beszédészlelési, beszédmegértési zavarok rejtve is maradhatnak, mert ép
a küszöbgörbe. Időskorban előbb jelentkezik a normáltól való eltérés a beszédaudio-
gramon, s csak aztán mutat eltérést a tisztahang-audiogram. Általános fizikai vagy
szellemi fáradtság is eredményezhet kóros beszédaudiogramot.
Az elvesztett érzékszerv visszanyerése bizonyos esetekben lehetővé vált korunk-
ban. Egyfajta süketség esetén, amikor a Corti-szerv nem működik, de az idegsejtek

ingerelhetők, olyan műtét végezhető el, amelyik módot nyújt a betegnek arra, hogy
újra „megtanuljon hallani”. Magyarországon ilyen műtétet 1985-ben végeztek elő
ször, ez a cochlearis implantáció. A cochlearis implantátum olyan elektronikus esz
köz, amely a külső hangforrásból érkező, különböző frekvenciájú hangok akusztikai
energiáját elektromos jelekké alakítja, és közvetlenül a hallóideg, illetve a ganglion
spirale sejtjeire továbbítja (Küstel et al. 2003). A beteg fülébe ezt az implantátumot
operálják, és így a beteg a beszédhangok felismerésére alkalmassá tehető. Újdonság
nak tekinthető a bilaterális implantáció, amelynek következtében a betegek beszéd-
megértése elérheti a normál hallókét, és lehetővé válik az irányhallás is. A betegek
beszédmegértése a legújabb, többcsatornás intracochlearis implantátumokkal
fél év után egy szótagú szavak esetében szájról olvasás nélkül átlagosan 45%-ra,
mondatok esetében közel 90%-ra javul. Némely betegnél elérhető a tökéletes be
szédértés is.
A BESZÉDÉSZLELÉS AKUSZTIKAI SZINTJE
A beszédészlelés bonyolultan építkező és komplexen működő mechanizmus. Az ész

lelés akusztikai, fonetikai és fonológiai szintjeit ún. alsóbb szinteknek nevezik. E há
rom szintet automatikusnak, gyakran félautomatikusnak minősítik; a legmegfele
lőbb a ’részben automatikus’ megnevezés. Az ’automatikus’ megjelölés így inkább
arra vonatkozna, hogy a hallgató általában nincs tudatában azoknak a működések
nek, amelyek a morféma, illetve szófelismerést megelőzik. Kísérleti helyzetben az
automatizmus mértéke csökkenthető (például a jelentés kiiktatásával), és nyomon
követhető, hogy az alsóbb szinteken lejátszódó működéssorozat csak részben auto
matikus.
Az input vagy bemenet maga a beszéd, az az akusztikai jelsorozat, amely a nyelvi
információt tartalmazza. A feldolgozás első lépcsője az ún. elsődleges hallási elem
zés, ahol néhány előzetes döntés történik a frekvencia, az intenzitás és az idő tekin
tetében. Ezek a döntések nagyjából behatárolják a felfogott (észlelt) akusztikai jel
hullámtulajdonságait; felismerjük például, hogy zene vagy beszéd hangzott-e el,
énekszót vagy hangszert hallottunk, gyors volt-e vagy lassú, magas vagy mély, halk
vagy erős (egyszersmind egyéb szubjektív ítéleteket is alkotunk: kellemes, kellemet
len). Ezek az eredmények az észlelési információtárban összegződnek, ahonnan a
beszédfeldolgozás indul. Az itt felgyűlt adatok alapján történik az akusztikai elem
zés, amelytől kezdve lép be az emlékezet is a feldolgozásba. A hallórendszer az egy
máshoz képest mintegy 200 ms-on belül beérkező hangokat egy közös hangél
ménnyé integrálja (Winkler 2004). Ez a folyamat az idegrendszer működésében
egyértelműen detektálható és kimutatható (az ún. EN komponens alakulása).
Tegyük fel, hogy az elhangzott beszédrészlet egyetlen szó volt: sír. Az akusztikai
elemzéssel választ kapunk arra, hogy a hangsor tartalmazott-e zöngés hangot, vagy
nem; észlelhető-e energiakoncentráció valamilyen frekvencián, vagy nem; ha igen,
akkor hol; a frekvenciaváltozások miként jelentkeznek az időben; hol volt intenzi

táscsúcs (volt-e); milyen volt annak a lefutása. Feltételezésünk szerint bináris dönté
sek sorozatával valósul meg az akusztikai elemzés. A szakirodalom tanúsága szerint
azonban még e tekintetben sincs egyetértés a kutatók között. Akadnak, akik szerint
a jellemző jegyek nem binárisak, és a feldolgozás inkább folyamatos jellegű. Asir szó
példáját a 3. ábra hangszínképével* szemléltetjük.
3. á b r a I A sír szó akusztikai szerkezete (felső ablakban: oszcillogram , azaz rezgéskép, alsó ab
lakban: széles sávú spektrogram , azaz hangszínkép)
A jelsorozat akusztikai elemzése a következő eredményeket hozza (itt csak a jel

lemző értékeket közöljük; a percepciós feldolgozás ennél jóval részletezőbb):
a) a jel teljes időtartama 654 ms;
b) a jel első 26%-a nem tartalmazott periodikus rezgéseket az 500 Hz alatti tarto
mányban, a további 74%-ban igen;
c) az első 26%-ban 2000-3000 Hz táján, 56%-ban 300 és 2300 Hz-nél, az utolsó
18%-ban pedig 400, 1700 és 2400 Hz körül észlelhető energiakoncentráció;
d) a középső, 56%-os időintervallumban nincs zörej, csak periodikus rezgés;
e) az intenzitás a felfutási és a lecsengési szakasz között két ponton csökken lénye
gesebben, mintegy 10-20 dB-nyit.
* Az oszcillogram vagy rezgéskép (a 3. ábra felső ablaka) az idő és az am plitúdó függvényében

szem lélteti a kiejtett szó akusztikai sajátosságait. A hangszínkép (a 3. ábra alsó ablaka) függőleges
ten gelyén a frekvencia-összetevők, vízszintes tengelyén az időváltozás látható; a feketedések ár
nyalatai az intenzitásviszonyokra utalnak (vö. G ósy 2 0 0 4 ).
A BESZÉDÉSZLELÉS FONETIKAI SZINTJE
Az akusztikai elemzés adataira épül a fonetikai osztályozás. Ekkor döntési szabályok

alapján nyelvészeti-fonetikai szempontból ítéljük meg a bejövő jelet. A sír szót azért
választottuk példának, mert nehézség nélkül megoldható a szegmentálás problémá
ja. Láttuk korábban, hogy nehéz meghatározni azt, hogy egy folyamatosan változó
akusztikai jelsorozatban, amilyen a beszéd, melyik és mekkora rész jelenti egy adott
fonéma realizációját. További nehézséget jelent az a tény, hogy gyakran nem a
konkrét értékek alapján kell döntéseket hoznunk, hanem viszonyok alapján (pl. egy
hangészlelet hangossága nemcsak a specifikus intenzitásától függ, hanem pl. az in
tenzitásváltozástól is, amely megelőzi és követi). Az akusztikai jelsorozatban van
nak olyan „pontok”, amelyek általában könnyen azonosíthatók paramétereik alap
ján (pl. a magánhangzók ún. tiszta fázisai).
A sír szó azért nem vet fel szegmentálási nehézségeket, mert az egy adott időszak
ra jellemző frekvencia- és intenzitásstruktúra egy adott beszédhangra jellemző: az
első 26% egy [J] típusú réshang, a további 56% egy [i:] magánhangzó, az utolsó
18% pedig egy tremuláns, azaz pergőhang jelenlétére utal. A beszédhangok egy ré
szét azonban, például a felpattanó zárhangokat, ezen a szinten nem tudjuk ugyan
így azonosítani. Ha az adott beszédjel hullámtulajdonságai alapján nem dönthető el
azonnal a beszédhang minősége, akkor mintha a megértési folyamatot vezérlő prog
ram a következő utasítást adná: „ha bizonytalan vagy az azonosításban, lépj tovább
a következő szintre”. És valóban: a rendszer továbblép azzal, hogy bizonyos előfelte
véseket a kérdéses hangról már magával visz.
Vannak tehát olyan beszédhangok, amelyek pontos azonosítása nem következik
be a fonetikai szinten. A [d] mássalhangzó esetében például valamennyi magán
hangzóhoz más és más frekvenciájú zörej kapcsolódik, de mindegyik a dentális fel
pattanó zárhangot fogja jelenteni! Hasonló a helyzet a [b]-vel is; így az akusztikai
szinten hiába történt meg a rövid időtartamú - zárhangra jellemző - zörej frekvenciá
jának meghatározása, a fonetikai szinten nem állapítható meg erről egyértelműen a
zárhang típusa.
A fonetikai elemzés eredménye ismét egy tárba kerül, nevezhetjük fonetikai tár
nak. A beszédmegértés kutatása az utóbbi években sok módszert és jellemzőt köl
csönzött az információfeldolgozási modellektől. Ennek eredményeként épültek be a
modellekbe a tárolási struktúrák, amelyek alapvető részei a megértési folyamatnak,
így nyílik lehetőség arra, hogy a feldolgozáshoz mindig az éppen szükséges adatokat
hívjuk elő, de az összes elemzési eredmény megőrződik a folyamatműködés időtar
tamára (a tárolás biztosítja az esetleges korrigáláshoz szükséges pluszinformáció
kat) . A fonetikai szinten hozott döntési eredmények az adott nyelvre jellemző be
szédhangok megnevezései. Erről a működésről tájékoztat az a kísérlet, amely szerint
csak a beszédhangok felismerésekor jelentkezett nagyobb amplitúdójú kiváltott vá
lasz a bal agyfélteke fölött (EEG-vizsgálat: Szirtes-Diekmann-Rothenberger-Jür-
gensen 1981). Egy másik kísérletben speciálisan előkészített magánhangzók, zaj és
szinuszhangok kiváltotta agyi potenciálokat hasonlítottak össze. Az eredmények
szerint a magánhangzó-sorozattal előidézett görbék itt is nagyobb amplitúdójúak

voltak, mint a másik két akusztikai ingerre kapottak (Gósy 1989a). A magánhang
zók észlelésében elválik egymástól az alaphangmagasság, amely a beszélő hangját
jellemzi, illetve a magánhangzó minőségét meghatározó frekvenciasávok, intenzi
tásviszonyok feldolgozása. A fül által végzett frekvenciaelemzés az abszolút frek
venciák mentén történik, ezek viszonyainak dekódolásához további analízisre van
szükség, és ebben már a hosszú távú memóriának, a tárolt neurális spektrogramnak
is szerepe lesz.
A fonetikai szint működésére vonatkozólag végzett kísérleteket Pisoni (1973).
Négy mássalhangzót választott ki a bilabiális felpattanó zárhangok közül, amelyek
egymástól a VOT-ben (’voice onset time’), azaz a zöngekezdési időben különböztek.
A hangokat Cl, C2, C3 és C4 jelekkel látták el. A VÖT ideje a Cl esetében: 0,00 s, a
C2-nél: -0,02 s, a C3-nál: -0,04 s és a C4-nél: -0,06 s volt. A kísérleti személyek meg
tudták különböztetni a négy mássalhangzót, vagyis a hallási memóriában elkülönít
hetők voltak eltérő akusztikai sajátságaik alapján (mint a / b / és a / p / realizációi).
Megnevezni azonban csak kétféle mássalhangzót tudtak: a [b]-t és a [p]-t. A Cl és
C2 képviselte zárhangokat [b]-nek, a C3 és C4-gyel jelölteket pedig [p]-nek feleltet
ték meg. (A tesztelés CV hangkapcsolatokban történt, ahol a V az [a] magánhangzó
volt.)
Az anyanyelvűnk beszédhangjaival kapcsolatos megkülönböztetéseink pontosak
és relatíve gyorsak. A nem releváns akusztikai sajátosságok felismerése azonban las
sú és jóval rosszabb hatásfokkal végezzük; ilyenek például egy adott fonémakategó
rián belüli hangazonosítások, ill. hangmegkülönböztetések. Kísérletileg igazolták,
hogy az egy fonémakategórián belüli megkülönböztetéseket pusztán az akusztikai
paraméterek segítségével végezzük, a kategóriák közötti megkülönböztetésekben
azonban egy gyors, a magánhangzóosztály hosszú idejű reprezentációján alapuló
folyamatra is támaszkodunk (Winkler 2004).
A BESZÉDÉSZLELÉS FONOLÓGIAI ELEMZÉSEI
A részben automatikus feldolgozási szakasz utolsó lépcsője: a fonémadöntés megho

zatala. A beszédhangokat itt, a fonológiai szinten soroljuk be a megfelelő fonéma
osztályokba. Itt dől el, hogy - a hangképzés szempontjából: hátul képzett, ajakkere-
kítéses, rövid magánhangzó, amely a középsőnél kissé magasabb nyelvállással kép
zett; akusztikailag 360 Hz-es első formánssal és 800 Hz-es második formánssal jelle
mezhető - az /o / vagy az / u / fonéma kategóriájába tartozik. Avagy például a
jégpálya szóban, ahol az első szótag végén zöngétlen [k] mássalhangzót ismertünk
fel a fonetikai szinten, valójában a zöngés / g / megvalósulásáról van szó. A szóössze
tétel első szótagja tehát nem a jék hangsor, hanem a jég szó. A fonémaszint monda
tok azonosításakor is aktívan jelen van; bár ekkor a szemantikai relációk már elsőd
legesek. Például: az Éva bátyja allergiás lett a [me:st0 :l] mondat kétséget hagy a hall
gatóban afelől, hogy vajon a méz vagy a mész okozott-e a fiatalembernek allergiát.
A példák azt sugallják, hogy a fonémadöntést lényegében az értelmezés határozza

meg. Ez részben igaz is, hiszen előfordul, hogy a fonémáról történt döntés a szófelis
merés után jön létre, azaz a szó azonosítása erősíti meg a korábbi feltételezéseket (a
fonémadöntés a szófelismerés után jön létre a következő példában: A Poros pincék
ben (?poros/boros?) voltunk Egerben (Iboros!).
A fonémakategóriák reprezentációjának kialakulása tanulási folyamat eredmé
nye. A fonémáról történő döntés, azaz a megfelelő fonémakategóriába sorolás a be
szédhangok egy részénél megtörténhet izolált megjelenéskor is, vagyis ha a beszéd
hangot önmagában ejtve halljuk (pl. [o:, s, r]). A beszédhangok egy másik részének
felismeréséhez azonban szükség van a környezet bizonyos mértékű részvételére is,
mivel - az adott beszédhangra jellemző mértékben - a hangkörnyezet hordozza a
jellemző jegyeket (más kifejezéssel: kontextustól függő és kontextustól független
észlelés). A hangkörnyezet meghatározó szerepét mutatja, hogy például a rövid idő
tartamú szünetet grúz és angol anyanyelvűek beszédhangként azonosították (Dzsa-
paridze 1971). A szünet és az [J] időtartamának rövidítése jelentésváltozást ered
ményezett a következő mondatban: Did anybody see the gray ship? helyett Did
anybody see the great chip?-et értettek (Studdert-Kennedy 1980). A fonémadöntés
meghozatalához a következő hangkörnyezeti (kontextuális) hatásokat kell minden
esetben figyelembe venni: a) a következő (esetenként a megelőző) beszédhang mi
nősége, b) a szótagban elfoglalt helyzet, c) a szótag szerkezete, d) bizonyos szupra-
szegmentális tényezők és e) valamiféle nyelvspecifikus szabály fennállása. Nem zár
ható tehát ki, hogy az emberi beszédmegértés - már a legalsó szinteknél is - a kon
textus alapján működik.
A fonémadöntést megelőző akusztikai és fonetikai eredményeket összefoglaló tár
felfogható egy számítógép operatív memóriájaként, amelyből a felhasználó csak az
éppen szükséges adatokat hívja elő a további feldolgozáshoz. Felvetődik a kérdés,
hogy a megértési mechanizmus miért nem használja fel az összes elemzési ered
ményt döntéseihez. A beszéd - mint korábban már említettük - nagymértékben re
dundáns, azaz a beszéd akusztikai hullámformája sok többletinformációt tartalmaz.
A többletinformáció jól megragadható és kimutatható az akusztikumban; valójában
az artikuláció, a beszédképzés következménye. Rendkívül nagy a szerepe a beszéd-
megértésben. Tudjuk például, hogy egy zöngétlen [s] mássalhangzó jellemző zörej
gócai az ún. felsőbb frekvenciákon helyezkednek el, mintegy 6000-8000 Hz-en, sáv-
szélességük az ejtéstől függően 1000-3000 Hz. Az [s] azonban mintegy 100 Hz-től
12 000 Hz-ig (esetenként még magasabb tartományban is) tartalmaz a mássalhang
zóra jellemző különböző intenzitású zörejösszetevőket. Az intenzív zörejgóc eltűné
sével, annak funkcióját a kevésbé intenzív, eredetileg többletinformációként jelent
kező komponensek veszik át, és biztosítják erősebb torzulás esetén is a mássalhangzó
pontos felismerését. Ez a magyarázata annak, hogy magas frekvenciás halláscsökke
nésben szenvedők jól azonosították az [s, z] mássalhangzókat, noha hallásromlásuk
éppen azokat a frekvenciákat érintette, ahol ezeknek a hangoknak az intenzív zörej
góca található. Az előző szintek elemzési eredményei az akusztikai-fonetikai tárban
őrződnek. A fonémadöntéshez ebből a tárból elegendő a legjellemzőbb, tehát az ép-
pen szükséges adatokat előhívni. A tárolási rendszer azt biztosítja, hogy az alsóbb
szinteken hozott döntések a mind időben, mind absztrakcióban távolabb eső szintek
eredményeinek ismeretében korrigálhatok legyenek.
A fonológiai szint működésében általánosan elfogadottnak tekinthető, hogy a fo
némáról hozott döntés bináris, ’igen/nem’ típusú. A számítógép-működés hasonla
tával azt mondhatjuk, hogy az analóg beérkező jelet (a beszédet) a neuronműködés-
nek megfelelő digitális jelfeldolgozás fogadja. A fonológiai szint elemi percepciós
egységének nagyságrendjét a szótagban jelölik meg. Nyilvánvaló ugyanakkor, hogy
a szótag mint a fonémadöntés alapja nyelvspecifikus, nemcsak felépítését tekintve,
hanem a tekintetben is, hogy az egy szótaghoz kapcsolódó jelentés milyen gyakori.
Mást jelent ezért ez az angol anyanyelvűeknek, ahol igen sok a jelentéses egy szóta
gú hangsor és mást a finn anyanyelvűeknek, mivel a finnben alig található ilyen rö
vid szó, avagy megint más a magyar anyanyelvűeknek. A magyarban ugyan relatíve
sok az egy szótagból álló szó, de a toldalékolás következtében többnyire több szóta-
gúakká lesznek a mondatokban (kéz -4 kezek, bolt —> boltjaitokban, néz —> nézhetté
tek stb.).
A magyar kísérleti adatok szerint a fonémadöntés alapja minimálisan egy magán-
és egy mássalhangzóból (VC típusú), illetve egy mással- és egy magánhangzóból álló
hangkapcsolat (CV típusú) kell, hogy legyen, de lehet egy magán- és több mással-
hangzós szekvencia is (VCC típusú). A nyelv eleve hordoz magában bizonyos korlá
tozásokat a megértési mechanizmus működésében. Ilyen például a magyarban,
hogy nem lehet döntési alap a magánhangzó + [h] kapcsolat abszolút szóvégen,
mert ebben a helyzetben e mássalhangzót nem ejtjük (a méh hangsor jelentései kö
zül kivételt jelentenek az ’anyaméh’ és a ’MÉH’ mozaikszó, ezekben a szóvégi [h] -t
ugyanis kiejtjük). Ismeretes, hogy a [b, d, g] azonosítása az őket követő magánhang
zótól függ. Oden és Massaro (1978) éppen ezért vélekedik úgy, hogy a hosszú idejű
memória nem tartalmazhatja a / d / fonémát egyetlen prototípus formájában, mivel
a du és a di között például akkora a különbség, hogy a megfeleltetés nem képzelhető
el ugyanazzal a prototípussal. Mivel nyelvileg mégis ugyanazon fonémáról van szó,
a döntésnek feltétlenül szótag szintűnek kell lennie, illetve a prototípus minősége
kell hogy változzon. Az egy magánhangzót is tartalmazó hangkapcsolat mint dönté
si alap a koartikulációs következményekkel, a kontextus hatásával is összefüggésbe
hozható. A magánhangzók felismerhetősége vizsgálható hangkörnyezet nélkül is,
kérdés azonban, hogy vajon a magánhangzó korrekt azonosításához szükség van-e
egyáltalán hangkörnyezetre, és ha igen, milyen mértékben.
A folyamatos szövegből kivett magánhangzók felismerésére kapott eredmények
eltérőek: egyik részük szerint a magánhangzó tiszta fázisának információja ez eset
ben is elegendő a biztos felismeréshez, más részük szerint viszont a hangkörnyezet
elősegíti, pontosítja az azonosítást (Fry et al. 1962; Kent 1975; Macchi 1980; Kuwa-
bara 1982). Spontán beszédből szegmentált magyar magánhangzók észlelési ered
ményei azt mutatták, hogy az azonosítás lehet pontos, kissé bizonytalan, sőt sikerte
len is. A kérdés az, hogy melyek azok a tényezők, amelyek meghatározzák a korrekt
vagy nem korrekt azonosítást. Ezek a tényezők a következők: a) a magánhangzó
A BESZÉDÉSZLELÉSI FOLYAM AT MŰKÖDÉSE 161
tiszta fázisának fizikai időtartama, b) az aktuális hangkörnyezet, c) a magánhangzó

spektruma: a fonéma realizációs lehetőségein belül hol helyezkedik el (középső ré
szen vagy a szélsőbb pontokhoz közel) és d) a nyelvemelkedés foka. A 70%-nál
gyengébb azonosítások jobbára a 80 ms-os vagy annál rövidebb időtartamú magán
hangzókra adódtak. A kevésbé korrekt felismerések inkább a felső nyelvállású -
akusztikailag alacsony Fl-gyel jellemezhető - magánhangzókat érintették. A hang-
környezet egyértelműen részt vesz a magánhangzók korrekt felismerésének biztosí
tásában.
A fonémaszinten lejátszódó művelet egy „többválasztásos feladatsor” megoldása
(4. ábra). A választási lehetőségek a következők:
a) a beszédhang egyértelműen besorolható a megfelelő fonémaosztályba, például
[a:, j, m];
b) több beszédhang ugyanabba a fonémakategóriába kerül, például a mák szó
[m]-je, a hamvas „mássalhangzó-kapcsolata”;
c) a mássalhangzó-kapcsolatban lévő beszédhangról el kell dönteni, hogy fennáll-
hat-e közöttük valamiféle egymásra hatás, például hasonulás;
d) a valószínűsített beszédhangról el kell dönteni, hogy valójában melyik fonémá
nak felel meg, például [b, d] vagy [g].
A fonémadöntés szemléltetésére az ábrán egyszerűbb jelfeldolgozást - egy VCV tí
pusú (magánhangzó, mássalhangzó, magánhangzó) hangsor fonémaosztályba soro
lásának feltételezett mechanizmusát - választottunk. A folyamatábra jellegű rajzról
a következők olvashatók le. Ahol a fonéma szó látható, ott a kategorizálás, tehát a
megfelelő fonémaosztályba sorolás megtörtént. Ahol a művelet nem végezhető el
egyértelműen, ott a megadott szabályok szerint kell a rendszernek eljárnia.
A műveletsor bináris kérdések sorozatával oldható meg. Az első beszédhangról
megtudjuk, hogy magánhangzó. A másodikról is megkérdezzük, hogy magánhang-
zó-e. Ha a válasz nemleges, akkor mássalhangzót talált a rendszer. Ezt követi a sza
bály alkalmazása: a beszédhang megfeleltethető-e közvetlenül a fonémának, vagy
nem. Látható, hogy a ’nem’ válasz két lehetőséget rejt magában: a nazálisok osztá
lyát és a zárhangokét. Az ’igen’ válasz mögött a nyelv azon szabályai állnak, amelyek
a szomszédos hangok egymásra hatásával kapcsolatosak. Ezekben az esetekben a
program a következő hang elemzésére utasítja a rendszert. Példánkban a következő
hang magánhangzó, így ennek fonémaosztályba sorolása után a megelőző hangé is
egyértelműen elvégezhető lesz.
Négy egy szótagú szóval illusztráljuk a feltételezett működést, ezek: ima, Ida, Ila,
Ica. E szavak választását az indokolta, hogy ezekben az esetekben jól szemlélhető az
ábrán látható működéssorozat lefolyása. Természetesen további hangsorok is „létre
hozhatók”, például inya, abó, eső, áru. A folyamatábra nem jelzi külön az egyes be
szédhangokra vonatkozó észlelési stratégiákat ugyanazon fonémaosztályon, sőt
ugyanazon beszédhangcsoporton (például nazális vagy magánhangzó) belül sem.
A „befejezetlen utak” a megadott szabályok szerint folytathatók hosszabb hangso
rok, akár mondatok azonosítására is.
4. ábra I Egy VCV han gsor felism erésének folyamatábrája

A BESZÉDÉSZLELÉSI FO LYAM AT MŰKÖDÉSE 16 3
BESZÉDÉSZLELÉSI RÉSZFOLYAMATOK
A hierarchikusan egymásra épülő akusztikai, fonetikai és fonológiai szintek alapmű

ködését további beszédészlelési részfolyamatok egészítik ki. Ezek a részfolyamatok
a következők: szeriális észlelés, beszédhang-differenciálás, transzformációs észle
lés, ritmusészlelés és a vizuális észlelés (5. ábra). A beszédészlelési részfolyamatok
az alapszinteken folyó döntésekkel csaknem egy időben működnek, és azokkal igen
komplex módon tartanak kapcsolatot.
A szeriális, avagy sorozatészlelés teszi lehetővé azt, hogy az időben egymás után
elhangzott beszédhangokat, hangkapcsolatokat a hallgató ugyanolyan egymásutá
niságban legyen képes azonosítani. A szeriális észlelés tökéletes működése is az
anyanyelv-elsajátítás során alakul ki, szoros kapcsolatban az adott nyelvre jellemző
hangsorépítési sajátosságokkal. A kétéves gyermek efelánnak azonosítja az elefántot
vagy pacsut mond papucs helyett, mivel a szeriális észlelése még nem tökéletes
(hogy itt nem a kisgyermek artikulációs ügyetlenségéről van szó, azt az bizonyítja,
hogy kérésre például az def y agy elefá hangsort képes megismételni). A szeriális ész
lelés nemcsak a hangsorok szintjén jelentkezik, hanem mint a beszéd időviszonyai
nak szervezési stratégiája az egymást követő szavak, illetőleg az egymást követő
mondatok pontos felismerésében is (Gósy 1996a).
5. á br a I A beszéd észlelés szintjeinek és részfolyam atainak összefü ggése
A beszédhang-differenciálás egyfelől a fonetikai, másfelől a fonológiai szint mű

ködéseivel áll szoros kapcsolatban. A kísérletek tanúsága szerint könnyebb a beszéd
hangokat megkülönböztetni, mint azonosítani. Óvodáskorú gyermekek könnyebben
hoznak döntést arról, hogy az anyanyelvükön elhangzott egyik beszédhang azo-
nos-e egy másikkal, vagy nem; sokkal nehezebb azt megmondaniuk, hogy a hallott
hang például [1] volt-e vagy [r]. Általános beszédészlelési szabályszerűségről van
szó; idegen nyelv hallgatásakor is könnyebb elkülönítenünk egymástól a beszédhan
gokat, mint a megfelelő kategóriába rendezni őket (ez természetesen függ az idegen
nyelv ismeretének szintjétől).
A transzformációs észlelés az a percepciós részfolyamat, amely biztosítja az
adott nyelv hangjának és az írott változatban az ennek a hangnak megfelelő betűnek
a felismerését. Ez a részfolyamat már 4 éves kor körül kezdetlegesen működik; azon

ban csak a 6-7 éves gyermekek képesek a transzformációs észlelést egy komplex be
szédészlelési feladatban is tökéletesen működtetni (Gósy 1996b).
A ritmusészlelés az adott nyelvre jellemző időzítési viszonyok pontos azonosítá
sát jelenti - nem leszűkítve természetesen a beszédhangok időviszonyaira. Ritmus
zavart eredményez, ha a kiejtett szavak beszédhangjainak, illetőleg szótagjainak az
egymáshoz viszonyított időtartama, avagy ha a hangsúlyviszonyok megvalósítása
nem megfelelő.
A vizuális észlelés a beszélő artikulációjának, illetőleg teljes beszédképzésének a
hallásival egyidejű feldolgozása (Massaro 1987). Ez teszi lehetővé például a logopé
dus számára, hogy a hibásan ejtett réshangot csupán látás alapján is felismerje. Szink
ronizált film nézésekor a szereplők beszédét elsősorban az akusztikum, a hangzás
alapján fogjuk fel. A látási élmény másodlagossá válik, ha az nem áll ellentétben az
akusztikus élménnyel. Ha „rossz” a szinkron, s a szájmozgás, a látható beszédképzés
nincs összhangban a hangzásélménnyel, akkor zavaró tényezővé válik. (Előfordul
olyan helyzet is, hogy a látási élmény mintegy uralkodik a hallásin. Hagyományos
akusztikai felszereltségű moziban ülve a hangszóró mindig ugyanazon helyről [he
lyekről] közvetíti a közönségnek a beszédet. Hajlamosak vagyunk mégis különböző
irányokba [irányokból] „tájolni” a hangzást, pusztán annak a látási élménynek az
alapján, hogy az adott szereplő a filmvászon melyik széléről beszél.)
A vizuális percepció segítségét a beszédfeldolgozásban a nagyothallók és a siketek
használják a legintenzívebben; közismert megnevezése a szájról olvasás. A beszéd
hangok egy része alkalmas arra, hogy a szájmozgás (ajakartikuláció) alapján töb-
bé-kevésbé pontosan felismerhető legyen, különösen azokban a nyelvekben, ahol
nincs magánhangzó-redukció. Ez nyújt lehetőséget a nagyothallónak, hogy a részle
gesen kapott hallási információkat a látásiakkal kiegészítse. A szájról olvasáson nem
csupán az ajakmozgás jellegzetességeinek felismerését értjük a magánhangzók és
bizonyos mássalhangzók esetében, hanem más, látható artikulációs mozgást is (pl.
nyelvmozgás, fogak). Nagyothallók 21%-os beszédmegértése a szájról olvasás lehe
tőségével 64%-osra emelkedett (Ling 1977). Mindebben a tapasztalatnak és a fej
lesztő munkának nagy a szerepe.
Gyakorlati tapasztalat, hogy az idegen nyelvi szöveget könnyebben értjük meg, ha
szemünkkel követhetjük a hangzásnak megfelelően leírt sorokat, vagy látjuk a be
szélő száját. Angol nyelvi kísérletek kimutatták, hogy a vizuális információt jóval
gyakrabban használja a hallgató a beszédfeldolgozásban, mint korábban feltételez
ték (Neisser 1984). A hangzási és látási élmény összefüggése „fordítottan” is jól is
mert. A vizuális észlelés (pl. olvasás) révén kapott információk feldolgozását az üze
net elhangzása nagymértékben segíti.
Magyar anyanyelvű résztvevőkkel végzett kísérletek eredményei alapján a követ
kezőket állapíthatjuk meg a vizuális információ hatásáról a beszédmegértésben. A
hallási és a vizuális észlelés ép beszélők esetében is szoros összefüggést mutat; segít
heti vagy nehezíti a felismerést. A megegyező ajakartikuláció értelmetlen hangsorok
szintjén átlagosan 10%-kal, a bennük lévő mássalhangzók felismerését több mint
12%-kal növeli. A zavaró ajakartikuláció hatására az értelmetlen hangsorok azono

sítása csaknem 20%-kal csökken (a csak hallás alapján kapott helyes válaszokhoz
képest). A különbségek értelmes (jelentéssel bíró) beszéd (szavak, mondatok) eseté
ben még nagyobbak (részletesen: Gósy 1989c).
A beszédhangokat kategoriálisán ismerjük fel. Ez azt jelenti, hogy egy hallott ma
gánhangzót vagy mássalhangzót egy adott kategóriába sorolunk, noha azok akuszti
kailag különbözőek is lehetnek. Az „átmenetinek” nevezhető hangokat is egy kate
góriának feleltetjük meg. Többféle elmélet ismeretes; szűrőelméletek, templátum-
vagy illesztésiminta-elmélet, illetőleg - a már említett - analízis szintézissel koncep
ció (Pléh 2003). A kontextus hatása a beszédhangok észlelésében is jelentkezik; ez
azt is jelenti, hogy a bizonytalanul azonosított beszédhangot helyreállítja az észlelé
si rendszer a grammatikai sajátosságok, például a morfológiai tényezők működésé
nek eredményeképpen. Ha nem hallom is tökéletesen azt a közlést, hogy:,f i fiama...
felvett... az egyete... re”, a kipontozott részeknek megfelelő beszédhangészlelés töké
letes lehet a kontextus figyelembevételével.
A szakirodalomban rendelkezésre álló hatalmas adathalmaz ellenére még mindig
számos kérdésre nincs egyértelmű válasz a beszédpercepció teljes folyamatát illető
en. Újra és újra felvetődő kérdés például, hogy az akusztikai jelsorozatnak vajon mi
lyen és mekkora része tartalmazza a nélkülözhetetlen információt. Változik-e egy
szegmentum észlelése a szegmentumsor nagyságától függően, és ha igen hogyan,
milyen mértékben? Keveset tudunk arról, hogyan történik az akusztikai kulcsok el
sődleges és másodlagos felhasználása. A hosszabb szekvenciák azonosíthatóságát a
kontextus és/vagy a percepciós valószínűség biztosítja-e. Ha a nyelvben egy bizo
nyos sorrendiség nem létezik, akkor a hallgató nem is tételezi fel ennek a megjelené
sét. Ez egyszersmind szűkíti a felismerési lehetőségeket, tehát könnyíti a percepciós
folyamatok működését. A hangsorok azonosításában meghatározó az akusztikai
szerkezet, a fonotaktikai (hangsor-szerveződési) elrendeződés, a hangkörnyezet és
az artikulációs tempó.
Reakcióidős kísérlettel arra kerestek választ, hogy a hangsorépítési (fonotaktikai)
sajátosságok valóban meghatározóak-e a szegmentumsorok felismerésében. A kísér
letben zajjal fedett, illetve frekvenciaszűréssel torzított értelmes szavakat és értel
metlen hangsorokat (logatomokat) kellett a résztvevőknek szóként azonosítaniuk
(az instrukció szerint csak értelmes szavakat hallottak). Az akusztikai szerkezet el
sőségét a felismerésben több kísérleti tény is alátámasztotta (elfedéses, szűrőzéses
kísérletek). Az alul áteresztő szűrő alkalmazásakor a pányél és gúra hangsorok
(akusztikai szerkezetük többségében mély frekvenciákat tartalmaz) felismerése lé
nyegesen jobb volt, mind például a bis vagy az üved logatomoké (akusztikai szerke
zetük dominánsan magasabb frekvenciákat tartalmaz). Az eredmények igazolták a
magyar hangsorépítési sajátosságok felhasználását is az észlelésben. A valódi szavak
azonosításának átlagos reakcióideje 240 ms, a logatomoké 540 ms volt. Azok a
logatomok, amelyek nem sértették a magánhangzó-harmóniát (pl. üved, virony), rö-
videbb idő alatt voltak azonosíthatók, mint azok, amelyek ellentmondtak a magán
hangzó-harmóniának (pl. bakőgy, námük). (Vő. Gósy 1984.)
SZUPRASZEGMENTUMOK ÉSZLELÉSE
A szupraszegmentumok észlelésében is általában több felismerési kulcs biztosítja a

pontos azonosítást. A szupraszegmentumok nem jelennek meg önmagukban, tehát
percepciós elemzésükkor mindig - legalábbis valamilyen mértékben - tekintetbe
kell vennünk az adott szegmentális szerkezetet is. A szupraszegmentumok funkciója
egyfelől a perceptuális integrálás biztosítása, másfelől a ffazeális csoportosítás. Ez
azt jelenti, hogy a szövegfeldolgozás szempontjából óriási jelentősége van a szupra-
szegmentumoknak. Hiába fogalmazza meg valaki a közléseit tökéletesen, valósítja
meg a dallammeneteket és a hangsúlyviszonyokat a tartalom és a szándék függvé
nyében kitűnően, ha például a beszédtempója túlzottan gyors, avagy - a hallgatóság
szempontjából - igen halkan beszél. A túlzott beszédsebesség, avagy a hangerő erő
teljes csökkenése megakadályozza a normális percepció működését.
A legtöbb beszédmegértési modellből hiányoznak a szupraszegmentumok feldol
gozását meghatározó helyek és működések. Nem egyértelmű, hogy a beszédészle
lés, avagy a beszédmegértés folyamatában dolgozódnak fel a szupraszegmentumok
információi; párhuzamosan történnek-e a szegmentális percepcióval, avagy azok
mintegy kiegészülnek ezekkel. A legkézenfekvőbb feltételezés az, hogy a szupra
szegmentumok észlelési folyamatai egy időben zajlanak a szegmentálissal, tudatos
felhasználásuk azonban valószínűsíthetően későbbi, lényegében a megértési szin
teken történik meg. A modellezési bizonytalanságok és nyitott kérdések mellett
ugyanakkor számos megállapítás tehető az egyes szupraszegmentális tényezők ész
lelésével kapcsolatosan.
Az intonációészlelési modellek többsége megegyezik abban, hogy a hallgató in
kább komplex percepciós jegyrendszer alapján dönt, semmint egyes paraméterek
felhasználásával. Megállapítják azonban azt is, hogy az intonáció percepciója nagy
valószínűséggel egyéb nyelvi (lexikai, szintaktikai) folyamatok aktiválásával egyide
jűleg zajlik; ami azt jelentené, hogy a végleges döntés egy komplex percepciós/meg-
értési működés eredménye (Cutler-Ladd 1983; 1997; Wales-Taylor 1987). A be
széddallam percepciójának klasszikus kérdése az volt, hogy mely tényezők dominál
nak a kérdések és a kijelentések elkülönítésében a frekvencia és az időviszonyok
függvényében. Angol anyanyelvűekkel végzett kísérletekben azt találták, hogy a
dallammenet kezdő csúcsa, a töréspont és a végpont szerint variált dallamok annál
nagyobb arányban keltik a kérdés érzetét, minél magasabb frekvenciájú a végpont
(Hadding-Studdert-Kennedy 1972). Számos más nyelven elvégzett kísérlet is azt tá
masztotta alá, hogy a frekvencia, illetőleg az időegység alatti dallamváltozás elsőd
leges felismerési kulcs a beszéddallam észlelésében.
A magyar dallamformák percepciós elemzése során az intonációészlelés mellett
vizsgálták az időviszonyok alakulását, valamint a hangfekvés azonosítását is (Gósy
1979). Az eredmények szerint a kísérleti személyek képesek voltak a dallamok rela
tív időviszonyainak észlelésére; azonban a frekvenciaváltozás befolyásolta például a
tempóészlelést. A kísérleti személyek képesek továbbá jól azonosítani a hangfekvés
ben jelentkező változásokat, valamint a dallammeneteket, beleértve a frekvencia
kiemelkedéseket (a csúcsokat) is. Legkevésbé megbízhatóak a dallamvégi frekven

ciaemelkedések észleletei. Az intonációészlelés és a nyelvi funkció összefüggése
komplex, hiszen az előzőekben említett paraméterek mindegyike részt vesz a végső
percepciós döntésben. A dallam eleji csúccsal rendelkező mondatokat elsősorban ki
egészítendő kérdésnek, illetőleg kijelentésnek ítélik. Ha a dallam eleji csúcs frekven
ciája kisebb, akkor az ítéletek nagyobb mértékben oszlanak meg a kérdések, kijelen
tések és egyéb modalitások, így a felszólítás és a felkiáltás között. A dallam második
felében dallamcsúcsot tartalmazó struktúrákat a kísérleti személyek egyöntetűen el
döntendő kérdésként azonosították. A mindennapi kommunikációban gyakran hall
ható, hogy a kiegészítendő kérdések nem ereszkedéssel, hanem emelkedéssel zárul
nak. Újabb percepciós kísérleti eredmények arról tanúskodnak, hogy a hallgatók
egyértelműen kérdésnek ismerik fel, sőt nagy arányban helyesnek ítélik az emelke
dő végű dallammintákat (Gósy 2004). A dallamcsúcs elhelyezkedése a szótagon be
lül is meghatározó tényező lehet például a kérdés és a kijelentés elkülönítésében. At
tól függően, hogy a magánhangzó időtartamának mely szakaszában jelenik meg a
frekvenciacsúcs, döntik el a hallgatók, hogy eldöntendő kérdést vagy hangsúlyos ki
jelentést hallottak-e (Gósy-Terken 1994). Magyar kísérleti személyekkel végzett
vizsgálatok azt igazolták, hogy a magánhangzó végén kiemelkedő frekvenciacsúcs
észlelése jelent egyértelműen kérdést.
A hangsúly már megnevezésében is utal az észlelésre, hiszen - mint láttuk - a ma
gyarban legáltalánosabban nyomatékkai, vagyis hangerőtöbblettel jelezzük a hang
súlyhelyet. A hangsúly percepciója is nyelvspecifikus jelenség; a hallgató más-más
akusztikai-fonetikai információk alapján azonosítja a maga számára a hangsúly élmé
nyét. Noha a magyarban - mint említettük - elsősorban a nagyobb intenzitás kelt hang
súlyélményt, a percepciós döntést további tényezők is befolyásolják, mint az alaphang-
magasság (és változása), hangfekvésváltások, szünethelyek, sőt a beszédtempó is.
Az angolban például a hangsúlyélményt leghatásosabban az alaphangmagasság
megemelkedése idézi elő; másodsorban a megnövekedett időtartam, harmadsorban
pedig a nagyobb intenzitás (Lehiste 1970). Az oroszban egyformán elsődleges felis
merési kulcs az alaphang magasságának növekedése és az időtartam, és másodlagos
az intenzitás (Brizgunova 1977). A hollandban a frekvenciacsúcs elhelyezkedése és
értéke van hatással a hangsúlyítéletekre (Rietveld-Gussenhoven 1985).
A magyar hangsúly elemzésekor Fónagy Iván már több mint négy évtizeddel ez
előtt kísérletileg igazolta, hogy a hangerő-növekedés (az intenzitásszint emelkedé
se) mellett más akusztikai jelenségek is velejárói a hangsúlyélménynek (1958). A dal
lamemelkedés önmagában, illetőleg a dallamcsúcs és az intenzitásemelkedés együt
tesen másként hat a hangsúly percepciójára. A főhangsúly észlelése 46,6%-os egy
öntetű ítéletet eredményezett a dallamcsúcs alapján, míg 65%-osat, ha a kísérleti
személyek az intenzitást is felhasználhatták döntéseikben (Gósy 1989b). A hang
súlyélmény kialakulása a magyar anyanyelvűeknél is több akusztikai-fonetikai té
nyező együttes hatását igazolta. A nem megfelelő hangsúly észlelése automatikusan
megy végbe a beszéd észlelése során, amint azt az eseményhez kötött agyi potenciá
lok egy komponense, az eltérési negativitás igazolta (Hombolygó et al. 2004).
A beszédtempó percepciójával kapcsolatos eredmények két nagy csoportra oszt

hatók: a) a tempóészlelést meghatározó tényezők vizsgálata és b) a beszédtempó és
a beszédmegértés kapcsolatának elemzése. Különböző nyelvekben, így a magyarban
is végzett kísérletek alapján kimondható, hogy a tempóészlelést alapvetően kialakí
tó tényezők az artikulációs sebesség, a szünetek száma és a szünetek időtartama.
A tempóról alkotott ítéletünket azonban további tényezők is befolyásolhatják, így a
dallamstruktúra, az intenzitásviszonyok vagy az adott szöveg tartalma (szemanti
kai, szintaktikai „nehézsége”). A folyamatos beszéd időviszonyainak észlelésében
meghatározó jelentőségű a viszonyítás, illetőleg a hozzászokás (adaptálódás) ténye.
A kezdetekben gyorsnak (vagy lassúnak) tűnő beszédre a hallgató rövidebb-hosz-
szabb idő alatt mintegy ráhangolódik, s ennek megfelelően működteti a beszédper-
cepciós mechanizmusát. A tempóészleléssel kapcsolatos egyik alapkérdés az, hogy
vajon a hallgató képes-e egy elhangzó szöveg sebességének közel-objektív megítélé
sére. Más megfogalmazásban ez azt jelenti, hogy vajon az emberi beszédpercepciós
mechanizmus rendelkezik-e olyan univerzális belső mérőeszközzel, amely az egyes
tényezők „zavaró” hatását bizonyos fokig képes ellensúlyozni, s ezáltal a szubjektív
ítéletek közelítenek az objektív tényékhez. Közismert az a pszichoakusztikai benyo
más, hogy az anyanyelvi beszédtempóhoz képest az idegen nyelvi mindig gyorsabb
nak tűnik (a hallgató idegen nyelvi tudásától nem függetlenül). A részletesebb ered
mények arra a felismerésre vezettek, hogy a tempóészlelésben nem a lexikai ismere
teknek van meghatározó szerepük, ha különböző nyelveket kell összehasonlítani,
hanem az aktuális beszédtempónak.
Az anyanyelven belül a tempóészlelést mindenekelőtt az objektív időértékek ha
tározzák meg, azaz az időegységre eső beszédesemények, valamint a szünetek szá
ma, ezenkívül egyéb paramétereknek is fontos szerepe lehet, sőt a tartalom is befo
lyásolja a tempóról alkotott ítéletet. Az egyéb paraméterek között van az intenzi
tásváltozás vagy az alaphangmagasság változása. Megállapították például, hogy a
kísérleti személyek lassabbnak ítélik azokat a mondatokat, amelyekben ereszkedő
intonáció van; a magasabb dallamszint a gyorsabb, az alacsonyabb a lassabb tem
pó benyomását kelti; a monoton beszéd pedig gyorsabbnak hat, mint a dallamválto
zásokban gazdag. A tempóészlelésre hatással vannak a szintaktikai határhelyek,
a szótaghangsúly, a közvetlen kontextus; sőt olyan tényezők is, mint a beszélő és a
hallgató kapcsolata, a téma ismeretének foka, de maga a téma is. Nem elhanyagol
ható a beszélő saját beszédtempója - mint tényező - a mások beszédsebességének
megítélésében. A kísérletek azt igazolták, hogy a szélsőségesen „gyors”, illetve „las
sú” beszédű személyek tempóészlelése sok szempontból hasonló, és jellegzetesen el
tér a normálnak tekinthető beszédtempóval beszélők tempópercepciójától (Gósy
1991).
Magyar anyanyelvűekkel végzett kísérletek eredményei szerint a) a hallgatók ké
pesek voltak a mondatok objektív tempójának pontos észlelésére, és b) átlagos be
szédtempó esetén a belső dallamcsúcsot tartalmazó mondatot gyorsabbnak ítélték,
mint az ereszkedő hanglejtésűt, c) a lebegő dallamú mondat megítélése az objektív
sebességétől függött; ha lassú volt, akkor nagyon lassúnak, ha gyors volt, akkor pe-
dig gyorsabbnak ítélték az összes többinél (Gósy 1989b). A 15 hang/s sebességű

mondatokat - ez az érték kb. 100 szó/percnek felel meg (szünetek nélkül) -
59%-ban gyorsnak, 14%-ban kissé gyorsnak és 27%-ban nagyon gyorsnak találták.
Egy másik kísérletben 11-féle tempóban hallottak a kísérleti személyek egy monda
tot, és egy ötfokozatú skálán kellett megítélniük a sebességet (Gocsál 2000). A leg-
lassabb mondat tempója 6,7 hang/s, a leggyorsabbé 28,8 hang/s volt. Ugyanazon
beszédminta hallgatásakor igen eltérőek a kapott ítéletek, vannak a lassabb és van
nak a gyorsabb beszédtempót „kedvelő” beszélők. A legtöbb kísérleti személy a
10-18 hang/s közötti tempójú mondatokat jelölte meg mint hétköznapi helyzetek
ben elfogadhatókat, ez igen tág tartomány, szó/percben kifejezve azt jelenti, hogy
„elfogadható” a 75 szó/perces és a 135 szó/perces tempó is. Ennek nyilvánvalóan az
az oka, hogy a mindennapi életben általában ebben a tartományban realizálódik az
emberi beszéd, a hallgató ennek a feldolgozására állandóan készen áll.
A beszédtempó hatással van a beszédmegértésre is. A gyorsabb beszéd általában
nehezebben, a lassúbb jobban érthető; mindez azonban nem független az adott szö
veg tartalmától. A nagyon lassú mondatok megértését nehezítheti az, hogy ekkor az
asszociációs működésekre több idő jut, s ez elbizonytalaníthatja a beszélőt a dönté
sében. A nagyon gyorsan elhangzó mondatok nemritkán igen gyors beszédértést
eredményeznek; mivel a tempónövekedés hatással van a feldolgozó rendszer műkö
dési sebességére is. A legtöbb értési hiba ennek ellenére a nagyon gyors, a legkeve
sebb a nagyon lassú mondatok esetében következik be. Nehezebb arra a kérdésre
pontos választ adni, hogy mennyire gyors beszédtempó mellett marad még érthető a
beszéd. Angol anyanyelvűekkel végzett kísérletek szerint a 115 szó/perces tempó
esetén a helyes mondatértésük 80%-os volt, 150 szó/perces tempónál 74%-os és
170 szó/perces tempónál a mondatok megértése 62%-ra csökkent (Licklider-Miller
1951).
Magyar mondatok megértését vizsgálták a beszédtempó függvényében. A monda
tok állító és tagadó szerkezetűek voltak, tartalmuk felerészben igaz, felerészben
hamis, az igazságtartalmuk csak az utolsó szó elhangzását, illetőleg felismerését kö
vetően derült ki a hallgató számára. A mondatok tartalma általános ismereteket fel
tételezett. A kísérleti személyeknek az elhangzást követően a tartalom igaz vagy ha
mis voltáról kellett dönteniük; a rögzített anyagban a reakcióidőket mérték. A négy
féle tempó lassú (7,2 hang/s), normál (13,9 hang/s), gyors (23,6 hang/s) és nagyon
gyors (29,5 hang/s) volt. A reakcióidő-értékek és a mondattartalom megítélése azt
mutatta, hogy mind a túlzott lassítás, mind a túlzott gyorsítás negatív hatással van a
teljesítményre (Gósy 1988). Az állító szerkezetűek megítélése könnyebb a tagadó
kénál, s a legnehezebb a tagadó és hamis mondatok megértése volt.
Az emberek a beszédszüneteket elsősorban azok fizikai időtartamától függően
azonosítják, de nem jelentéktelen az sem, hogy a hallott szövegben hol volt a szünet,
illetőleg hogy mi volt a funkciója. Holland kísérleti adatok szerint a szóhatárok ész
lelésében a 100 ms-nál rövidebb szünet kevéssé, a 300 ms-nál hosszabb szünet pedig
már egyértelműen jelentős (Sanderman 1996). Magyar vizsgálatok azt igazolták,
hogy az emberek az 500 ms-nál hosszabb jelkimaradásokat képesek nagyon bizto
san azonosítani, az annál rövidebbeket - tartamuktól függően - kevésbé. Mindazon

által tény, hogy a szünet időtartama az elsődleges a felismerésben; minél hosszabb a
szünet, annál pontosabban azonosítható. A beszélők közel azonos arányban tarta
nak szünetet szerkezethatáron és egyéb helyeken, a hallgatók azonban mintegy két
szer annyi szünetet várnak szerkezethatáron (Menyhárt 1998; Gósy 2000b). A hall
gatók téves azonosításai úgy jönnek létre, hogy vagy nem észlelik a szünetet, vagy
szünetet észlelnek ott, ahol nincs. A beszélők elsajátítják a nyelvre jellemző megaka
dásokat és azok funkcióját, illetőleg használatukat is. Ez vagy úgy történik, hogy
megtanulják nem figyelembe venni az elhangozott megakadásokat a beszédfeldol
gozás során (beleértve a szüneteket is mint nem tartalmas jeleket); avagy megtanul
ják felhasználni a nem tartalmas jelenségeket arra, hogy még biztosabbá tegyék az
elhangzottak megértését.
Az újabb kutatások eredményei szerint ezeket a megakadásokat a hallgatók mint
egy tudat alatt felhasználják, azaz bizonyos értelemben szükségesek az elhangzot
tak mind pontosabb megértéséhez (Fox Tree 2001; Gósy 2000b). Goldman-Eisler
például már a hatvanas években utalt a szüneteknek a beszédmegértésben betöltött
szerepére (1968). A szünetek száma, hossza és típusa jellegzetesen alakul a spontán
beszédben (Butterworth 1980). A hallgató ezeknek a szüneteknek egy részét nem is
észleli, azaz tudatosan nem szünetként dolgozza fel. Tendenciaszerű különbség a
nők és a férfiak szünetészlelési eredményeiben, hogy a nők több helyen vélnek szü
netet, ezáltal többet hibáznak; a férfiak jóval kevesebb szünetet jelölnek ugyan, de a
hibaszámuk alacsonyabb. A nemek között a szünetészlelésben azonban nem tapasz
talható matematikailag igazolható eltérés.
A hangerő észlelése a közlés objektív intenzitásával van kapcsolatban. Az emberi
hallás érzékeny az intenzitás változásaira. A hangerő észlelésében is nagy a jelentő
sége az alkalmazkodásnak; a hangos beszédet gyakran, hosszan hallgatóknak rend
szerint fel sem tűnik a megemelt hangerő (ép hallás mellett). A beszéd intenzitáskü
lönbségei tájékoztat(hat)ják a hallgatót a beszélő érzelmeiről, a témával kapcsolatos
véleményéről, esetleg pszichés állapotáról is.
A hangszínezetet egy holland tesztsorozatban úgy vizsgálták, hogy a hallgatók
nak 35-féle skálán kellett a hallott (felolvasott) beszédet megítélniük. Minden egyes
skála hat fokozatból állt, amelyek egyik végén az szerepelt például, hogy „unalmas”,
a másik végén pedig az, hogy „érdekes”. További minősítési párok voltak: kellemes -
kellemetlen, hangos - halk, csúnya - gyönyörű, szegény - gazdag, magabiztos - bi
zonytalan, csiszolt - durva, élettelen - élő, kerek - szögletes stb. A kutatással arra a
kérdésre próbáltak választ kapni, hogy mi az a beszélő hangjában, illetőleg kiejtésé
ben, ami a személyt a hallgató számára például megbízhatóvá, barátságossá vagy
kellemetlenné teszi. A nagyszámú adat ellenére azonban csak néhány egyértelmű
választ kaptak, többek között, hogy a beszéd dinamikája összefüggésben van az ér
zelmi állapottal, az artikuláció pontossága a kulturáltsággal, a hangmagasság az ért
hetőséggel és érdekességgel (Boves 1984). Magyar kísérleti eredmények szerint az
öröm és a bánat azonosítása jó volt a szupraszegmentumok tükrében, a többi tesz
telt érzelem felismerése azonban bizonytalannak mutatkozott (Szalai 1995).
Kísérletileg vizsgálták a közlések, illetőleg a beszélő szavahihetőségét a szup-

raszegmentumok figyelembevételével (Bata 2005). Az eredmények azt igazolták,
hogy a dallamnak, a hangsúlynak, a tempónak és a szünetnek az észlelésre gyako
rolt hatása egyértelműen befolyásolja a közléstartalom megítélését. Az adatok arra
is utalnak, hogy bizonyos esetekben a nők és a férfiak máshogyan ítélnek. Például a
nyafogós női beszédet a férfiak csak 53%-ban, míg a nők 75%-ban ítélték szavahihe
tőnek; avagy a férfiak jobban elhitték a közlést (60%-ban), ha a beszélő sok szünetet
tartott, míg ugyanezt a nők csak 21%-ban fogadták el. Úgy tűnik, hogy mindez azon
ban nem független az adott tartalomtól és a kommunikációs helyzettől sem.
MULTIMODÁLIS PERCEPCIÓ
A természetes kommunikáció során általában nemcsak hallási (auditív), hanem lá

tási (vizuális) kapcsolat is van a beszélők között. Jellemzően csak auditív a telefoná
lás. Különleges a helyzet e tekintetben akkor, ha szinkronizált filmet nézünk. Ilyen
kor ugyanis az eredeti szájmozgás nem teljesen felel meg az auditív élménynek. Az
egyidejűleg végbemenő auditív és vizuális percepciót nevezzük multimodálisnak
(Massaro 1987). Beszélgetés közben a hallott közlések feldolgozásával egyidejűleg
dekódoljuk a vizuálisan érkező információkat, a beszélgetőpartner ajakmozgását,
nyelvének látható mozgását, mimikáját, szemmozgását, az állkapocs helyének vál
tozását, gesztusait. Ezenkívül számos más vizuális ingert is tárolunk, amelyek az el
hangzott közlésekkel kapcsolatban vannak, ilyen például a fejmozgás, a szemöldök
megemelése, leengedése vagy a pillantás. Ezeknek a feldolgozása rendszerint nem
tudatos. A beszéd látványát mindenekelőtt a nagyothallók használják fel a beszéd
megértésében („szájról olvasás”); a vizuális feldolgozás a beszédfeldolgozásuk pon
tosságát akár 20-30%-ban is javíthatja. A kísérleti eredmények azt igazolták, hogy
az éphalló beszédészlelése zajos környezetben pontosabbá vált az auditív és vizuális
ingerek együttes dekódolásakor. Sajátosan működik az agy, amikor a hallási és a lá
tási csatorna ellentétes információt közvetít. A kísérleti személyek például azt hal
lották, hogy [g], de a [b]-t látták a beszélő ajakmozgása alapján, ekkor a [d] mással
hangzót ismerték fel; a [k] és [v] ellentétét az [f]-ben „oldották fel”, avagy az [u] és
[i] ingeregyüttesét [y]-ként azonosították (Gósy 1989a). Ez a McGurk-hatás (1981).
A beszédhang itt gyakorta valami „köztes” dolog - az idegtudományi adatok szerint.
A vizuális észlelésnek jelentős a hatása a hallási feldolgozásban, azonban különféle
képpen érvényesül az adott beszédhangok sajátosságaitól és a kontextustól függően.
Általánosan az a megállapítás fogalmazható meg, hogy a vizuális csatorna hatása
gyengébb, mint a hallásié (Srinivasan-Massaro 2003).
Új kutatási irány annak vizsgálata, hogy vajon adott esetben az auditív vagy a vi
zuális csatorna ingerei részesülnek előnyben a feldolgozáskor. A beszédet kísérő
mozgásos jelenségek többségét lehetetlen modellálni, mivel általánosításukat erő
sen korlátozza, hogy opcionálisak és nagymértékben egyéniek. Az animált szinteti
kus beszélő fejek azonban alkalmasak a multimodális percepció folyamatának kísér
letes vizsgálatára. Ilyen kísérlet eredménye például az, hogy a szemöldök mozgása a
hangsúlyészlelés független kulcsa a beszédben (svéd anyanyelvűekkel végzett kísér
let szerint, vö. Granström et al. 2001).
ÖSSZEFOGLALÁS
A beszédészlelés folyamatműködésére többféle hipotézis ismeretes. A hierarchikus

építkezésű, interaktív beszédmegértési modell a teljes feldolgozási folyamatot rep
rezentálja, és a beszédészlelési, beszédmegértési folyamat működésének csaknem
valamennyi kérdésére megoldást kínál. A beszédfeldolgozás az elsődleges hallási
elemzéssel indul, amelyet egy felismerési (elképzelési) terv követ a beszédészlelés
és a beszédmegértés szintjein. A hallás az akusztikai ingereket dekódolja, ezen a
szinten beszédelemzés még nem történik. Hallásról akkor beszélünk, ha a hangrez
gés a hallójáraton át a dobhártya-hallócsont-rendszeren keresztül vezetődik a belső
fülbe. A beszéd „meghallása” is a hangrezgések feldolgozása, hiszen a beszéd a leve
gőrezgések útján éri el a fület. Az ember hallásállapota változik az élet folyamán;
csecsemőkortól felnőttkorig, majd az időskorban. Az ép hallás biztosítja a hierarchi
kusan ráépülő szintek működését. A beszédészlelés beszédhangok, hangkapcsolatok
és hangsorok felismerése, azonosítása. Az akusztikai elemzés a beérkezett hangsor
akusztikai paramétereit és azok viszonyait elemzi és tárolja; adataira épül a foneti
kai osztályozás. Ekkor döntési szabályok alapján nyelvészeti-fonetikai szempontból
ítéljük meg a bejövő jelet, és az adott nyelv beszédhangosztályaiba soroljuk őket,
azaz megtörténik az azonosítás. A fonológiai szinten határozzuk meg a fonémákat,
és érvényesítjük a nyelvspecifikus fonológiai szabályokat. Ezeknek a hierarchikusan
egymásra épülő szinteknek az alapműködését további beszédészlelési részfolyama
tok egészítik ki: a szeriális észlelés, a beszédhang-differenciálás, a transzformációs
észlelés, a ritmusészlelés és a vizuális észlelés. A szupraszegmentumok percepciójá
ban is általában több felismerési kulcs biztosítja a pontos azonosítást. Az egyidejűleg
végbemenő auditív és vizuális percepciót nevezzük multimodálisnak.
A BESZÉDMEGÉRTÉS MŰKÖDÉSE
A megértésben - elméletileg - három elkülöníthető folyamat létezik: a szóértés, a

mondatértés és a szövegértés (Pisoni-Remez 2005). A normál kommunikációban
azonban nemegyszer meglehetősen nehéz definiálni a szót vagy a mondatot, megér
tésük pedig különösen nem a megjelenésüktől függ. Az ő-vel leírt hangjelenség funk
cionálisan lehet a magyarban hezitálás, lehet protomagánhangzó a gőgicsélésben,
lehet beszédhang ([ 0 ]), lehet egy szó (mint egyes szám harmadik személyű szemé
lyes névmás), lehet mondat Ő. és mondatként különféle modalitásokat is kifejezhet.
Mindezen funkciókban az akusztikuma természetesen kisebb-nagyobb mértékben
változhat (6. ábra). Az [0 ] magánhangzóra jellemző összetevők (formánsok) 540,
A BESZÉDMEGÉRTÉS MŰKÖDÉSE 17 3
1590, 2590 és 3570 Hz-en találhatók. A hezitálásos hang időtartama lényegesen

hosszabb, az első formáns jóval magasabb értéken jelentkezik (830 Hz), hasonló
képpen a negyedik formáns is (3760 Hz), s az idő függvényében jellegzetesen vál
toznak. Eltérőek az intenzitásviszonyok is. Mindkettőtől különböznek a mondat
funkciójú közlések (első és második formánsok értéke: 455 Hz és 408 Hz, ill. 1670
Hz és 1793 Hz). A dallamviszonyok jól láthatóan követik a kijelentésre, illetőleg a
kérdésre jellemző frekvenciaváltozásokat.
SYSTEM CAPTURE DATA U IE U L IN K SH U U SPEA K ANALYZE E D IT TAG M ACRO LOG
6. á br a I Az ábra bal oldali ablakának első hangszínképe e g y [0 ] hangról készült, m ellette egy
spontán b eszéd b ől kivágott hezitálás; a jobb oldali ablakban az O. És az O? m ondatról készült
hangszínképek láthatók egym ás m ellett (női ejtésben)
A különféle funkciókban megjelenő hang(sor/ok) más-más feldolgozást igényel

nek, amelyhez a beszédfeldolgozó rendszerünk minden helyzetben alkalmazkodik.
Hangsúlyoznunk kell - bár terminológiai kérdésnek látszik -, hogy a szófelisme
rés vagy mondatazonosítás összetételek nem jelentik feltétlenül a megértést is. Ké
pesek vagyunk ugyanis egy szónak vagy akár egy mondatnak is az ismétlésére, anél
kül hogy a jelentésüket feldolgoztuk volna. Ez a fajta mechanikus ismétlés tulajdon
képpen beszédészlelési működés, amely szoros kapcsolatban van az emlékezeti fo
lyamatokkal. Minthogy a terminológia nem egységes és nem következetes, adott
esetben a ’szófelismerés’ jelenthet szóértést is. A mondat dekódolása esetében ha
sonló a helyzet; mást jelenthet a megértési folyamatban a mondat felismerése, meg
értése, avagy értelmezése. Nézzük meg ezt egy példán. A Feltalálták a hangtompítós
riasztópisztolyt! mondatot egy ép fejlődésű ötéves gyermek képes megismételni,
részlegesen megérteni, azaz egy bizonyos szintig feldolgozza a mondatot. Biztosra
vehető azonban, hogy az elhangzottakat teljesen nem értette meg - nyilvánvaló lexi
kális hiányok miatt -, vagyis az ő esetében ekkor döntően mondatészlelés (azonosí
tás, felismerés) történt. Felnőttkorban a mondat érthetővé válik, vagyis működnek
már a magasabb szintű, szemantikai és szintaktikai feldolgozások, a hallgató a mon

datot megérti. A megértés azonban magában foglalja a logikai lehetetlenséget, azaz
az értelmezés szintjén a mondatról kiderül, hogy funkcióját tekintve vicc. A szoros
értelemben vett megértés és az értelmezés/asszociációk szintjének egymás utáni ak
tiválását jól mutatja, hogy a mondat elhangzásakor igen rövid idő, de nemritkán né
hány másodperc is eltelik, amíg a hallgató a „viccet megérti”, azaz a legmagasabb
dekódolási szint működésbe lép (a nevetés vagy bosszankodás, mimika vagy bármi
lyen más reakció „késése”).
A szöveggel kapcsolatos kifejezésekről is elmondhatjuk, hogy a ’szöveg felismeré
se’ annyit jelenthet: azonosítottuk a dekódolandó szöveget, esetleg ismerősnek tű
nik (utóbbiban persze már részlegesen működő értési folyamatok is vannak). A szö
vegértés azonban azt jelenti, hogy megértettük a részleteket és azok összefüggéseit,
azaz birtokba vettük a szöveget mint szemantikai/szintaktikai/gondolati egységet.
A szöveg értelmezése - adott esetben - ennél többet jelent: az adott szöveget behe
lyezzük egy tágabb ismeretanyagba, és/vagy egy korábban tárolt információsoro
zattal hasonlítjuk össze.
A MORFOLÓGIA PSZICHOLINGVISZTIKÁJA
A pszicholingvisztika kutatási területe kezdetekben, és később is dominánsan az an

gol nyelvre alapozódott. Ez felvetette azt a kérdést, hogy vajon más struktúrájú nyel
vek esetében mennyire lesznek működőképesek az angolra kialakított modellek. Kü
lönösen fontos kérdés ez a morfológia szempontjából, ha az angolt a gazdag alakta
nú magyarral hasonlítjuk össze. Az agglutináló nyelvekben felvetődő kérdés az,
hogy a valós időben zajló feldolgozás során hogyan integrálódnak a morfémák.
Mindez természetesen szoros kapcsolatban van a lexikális hozzáférés folyamatával.
A magyar nyelv alaktani feldolgozásában felülről lefelé ható folyamatok is érvénye
sülnek; és a toldalékoknak meghatározó szerepük van a feldolgozásban. Kísérlete
ket folytattak - olvasási reakcióidő méréssel - annak megválaszolására, hogy a be
szédértés folyamán dekompozíció vagy egészleges hozzáférés történik-e a szavak
feldolgozásakor (Juhász-Pléh 2001). Igazolták, hogy morfológiai dekompozíció tör
ténik, a mentális szótárban külön tárolódnak a szótövek és az igekötők. Ellentmon
dóak ugyanakkor az eredmények a ragok feldolgozását illetően. Ez arra utalhat,
hogy párhuzamosan többféle folyamat is működik, és az adott inger sajátosságaitól
függ, hogy melyik működéssorozat jut elsőbbséghez. Ugyancsak a dekompozíció
stratégiáját erősítette meg egy másik kísérlet, amelyben a kísérleti személyeknek az
volt a feladatuk, hogy kétértelmű szavakra végződő mondatokat hallgassanak, mi
közben egy célszót a megjelenés után a lehető leggyorsabban felolvassanak (Thu-
ma-Pléh 2001). A kétértelmű szavak mindkét jelentése aktiválódik a menet közbeni
feldolgozás során mintegy 300 ms-on belül, és ez a moduláris hipotézist erősítené.
Ugyanakkor az interakciós feldolgozás elméletében csak a szövegkörnyezet szerinti
jelentés aktiválódik, s ezt szintén alátámasztják egyes kísérleti eredmények. A ma
gyár kísérlet eredményei szerint csak az adott kontextusban releváns jelentés aktivá
lódott; ennek azonban többféle magyarázata lehet, a probléma további kutatást igé
nyel. Az eredmények ugyanakkor egyértelműen alátámasztották a dekompozíció
működését, mivel nem találtak eltérést a szótövek és a toldalékolt alakok feldolgozá
sa között. Különbség mutatkozott ugyanakkor a szófaj tekintetében az igék és a fő
nevek között; igei olvasat esetében nem találtak előfeszítési hatást. A magyar morfo
lógia is kettős szabályt követ; ez azt jelenti, hogy a szabályos formákat a szabályok
alkalmazásával dolgozza fel, míg a rendhagyók feltehetőleg elkülönülten tárolód
nak, ahonnan előhívhatók. Ez nem zárja ki azonban azt a magyarban, hogy ezek is
elemeikre bonhatók. A szóértés folyamatában a hallási működésnek legalább akkora
szerepet igazolnak a kísérleti adatok a magyarban is (hasonulások eseteiben), mint
a tanult anyanyelvi beszédészlelési működéseknek (vö. Mitterer et al. 2005).
MONDATMEGÉRTÉS
A mondatmegértés hagyományos kutatása többnyire egyetlen kérdéssel foglalkozik,

hogy vajon mi a szerepe ebben a nyelvtannak. A ’nyelvtan’ itt, pontosabban a
’mentális nyelvtan’ a nyelvi ismeretek összességét jelenti, amellyel az ember rendel
kezik. Chomsky a ’kompetencia’ szót használja ugyanebben az értelemben, és azt
mondja, hogy a pszicholingvisztika feladata egyrészt annak a meghatározása, ho
gyan képesek az emberek a mondatok megértésére (és produkálására), valamint
hogy hogyan sajátítják azt el (az anyanyelv-elsajátítás során). A mentális nyelvtan
használatát a ’performancia’ során követhetjük nyomon.
A mondatmegértés hagyományos vizsgálata ezért a nyelvtanból indul ki. Alapkér
dése az, hogy a bemenethez miként kapcsolódik a mondatszerkezet, hogyan rendez
zük össze a szintagmákat, miféle elemzés teszi lehetővé a tematikus szerepek, funk
cionális kategóriák megtalálását. A mondatmegértéssel foglalkozó interaktív model
lek egyik fontos jellemzője, hogy egységes rendszerhez kötik a jelentés és a forma
feldolgozását. A moduláris koncepció ugyanakkor szeriális és viszonylag merev
rendszerben gondolkodik; feltételezi a forma, a szerkezet és a tartalom, a jelentés
függetlenségét. Ebben a hipotézisben nehezen értelmezhetők a lexikai, szemantikai
és szintaktikai feldolgozás asszociatív kapcsolatai. Megoldási lehetőséget Clark
(1996) kínál, amikor új fogalmat, a hálózatmintázatot vezeti be a nyelvtan szintjé
nek elkülönítésére.
A ’kompetencia’ tehát az egyén ismerethalmaza a mentális nyelvtanról, míg a ’per
formancia’ az az ismeret, amelynek révén a nyelvtan felhasználódik, például a mon
datértésben. Bár a megfogalmazás kissé módosult, a cél lényegében megegyezik a
milleri megfogalmazással (az ötvenes évek elejéről). Chomsky nem a mondat hang
zását vagy a jelentését tekinti elsődlegesnek, hanem a szerkezeti összefüggéseket.
A fonetikai szerkezet és a jelentés vagy logikai forma - véleménye szerint - egyaránt
a szintaxisból következik. A szintaxis autonóm, a jelentést lényegében a szintaxis ha
tározza meg.
A Chomsky felfogásával szemben álló nézetek két okra vezethetők vissza. Egyfelől
sokan nem értettek egyet azzal, hogy a szintaxisnak kitüntetett szerepe van a mentá
lis grammatikában, másfelől nem értettek egyet az alapvető szintaktikai viszonyok
meghatározásával sem. Az eredmény az lett, hogy másféle „nyelvtanok” kezdtek ki
alakulni, amelyek a szemantikát helyezték a középpontba; ilyen a Lakoff-féle gene
ratív szemantikai nyelvtan (1971), Fillmore szemantikai esetgrammatikája (1977),
a Montague-grammatika, illetőleg a viszonygrammatika (Aissen 1991). A nyolcva
nas éveket a Bresnan-féle lexikális funkcionális nyelvtan (1978) módosított változa
ta (Droste-Joseph 1991) és Langacker kognitív nyelvtana (1987) jellemzi; utóbbiak
mind a generatív szemantikai modellből nőttek ki.
A mondatértés az a folyamat, ahogyan a szavakat szószerkezetekké kapcsoljuk
össze, a szerkezetekhez mondattani funkciót rendelünk, illetőleg ezeket a szerkeze
teket szemantikailag is értelmezzük. A ténylegesen elhangzó információt számos,
már ismert dologgal kiegészít(het)jük (Pléh 1984). A legtöbb pszicholingvisztikai
kutatás ezen a területen a mondatszerkezettel, a logikai formákkal, a logikai formák
pszichológiai reprezentációjával foglalkozik. Osgood feltételezte, hogy a mondatok
dekódolásakor a hallgató egy szófüzérrel kezd, amelyet nagy egységekbe rendez
(egyesít), majd végül - döntések és kontrollok sorozatán keresztül - megérti a mon
datot (1986). Általában kétféle magyarázat adható arra, ahogyan a nyelvi feldolgo
zó rendszer a lexikai egységek hordozta szintaktikai és szemantikai információt fel
használja. Az egyik a szerkezetvezérelt, a másik a lexikonvezérelt hipotézis. A szer
kezetvezérelt hipotézis két szintet tételez fel. A kezdeti szinten az ’elemző’ azonosít
ja a szerkezetet, a második szinten pedig kijelöli a tematikus szerepeket (Friederici
1995/1999). Ennek az az előnye, hogy nem az egyszerű szerkezetek élveznek el
sőbbséget, hanem az adott szerkezeteknek az adott nyelven belüli gyakorisága. A le
xikon vezérelte feldolgozás elméletében a ’mondatelemzőt’ a lexikai információk
irányítják, elsősorban az ige argumentumszerkezete.
A mondatértés folyamatában - a mai felfogásnak megfelelően - háromféle elem
zést végzünk (ez a megközelítés Herbert és Eve Clark összegzésére vezethető vissza:
1977). Ezek a következők: a propozicionális (mondatjelentés) elemzés, az adott/új
tagolás és a cselekvésérték. A propozicionális elemzés kimenete egy propozicionális
függvény, az ehhez vezető út több részből áll. Itt történik meg a nyelvtani funkciók
hozzárendelése az elemzés során előálló összetevőkhöz. A nyelvtani információ át
vitelének sajátosságai nyelvfüggők. A gazdag morfológiájú nyelvek esetében - ami
lyen a magyar is - kitüntetett szerep jut az alaktani elemzéseknek. A toldalékok felis
merése gyakorlatilag egy időben megy végbe a szótő azonosításával. Az agglutináló
nyelveknél a beszédmegértésben a toldalékoknak jut elsődleges figyelem, ezt követi
a szórend, majd az egyeztetés; a nem agglutináló nyelveknél pedig a sorrendiségre,
vagyis a szórendre támaszkodunk.
A megértés első szakaszában egy viszonylag egyszerű rendszerezés történik né
hány alapvető elv alapján. A mondat elemeihez bizonyos szerepek hozzárendelése
megy végbe. Az ezt követő rendszer lassabban működik, ekkor valósul meg az egyes
szószerkezetek elhelyezése a mondat egészében. Az elsődleges elemzőre jellemző a
rögzített struktúra elve, azaz az elemzési feladat minimalizálása, valamint a jobbra

kötés elve. Ez utóbbi azt jelenti, hogy ha lehetőség van rá, akkor a mondat egy adott
elemét a megelőző szerkezethez kötjük (Pléh 1998a).
A mondatok megértése során szószerkezeti és állítmányfüggvényi viszonyokat tá
runk fel. Különböző tartalmú, grammatikai szerkezetű, szó- és szótagszámú monda
tok azonnali ismételtetésének hibázásai elsősorban a szerkezet bonyolultságától,
másodsorban az elhangzott szótagok számától, pontosabban a szavakat alkotó szó
tagszámtól, harmadsorban pedig a mondatot felépítő szavak számától függött.
26-28 szótagból álló magyar mondatok ismétlése átlagosan 80%-ban volt hibátlan,
míg - más szerkezetű - 20 szótagos mondatoké csak 50%-os. 30 szótagnál többet
tartalmazó mondatok visszamondása esetleges. A mondatértési folyamatokban gram
matikai elemzéseket végzünk, amelyek azonban párhuzamos szemantikai elemzése
ket is tartalmaznak, az ugyanazon időben zajló kétféle elemzés egymást erősíti, és
juttatja el a hallgatót a végcélhoz. Clark és munkatársai a nyelvi tagolást egy prag
matikai elvű pszicholingvisztikai megértéselméletbe helyezték (1977). Ennek meg
felelően a következő lépéseket tételezték fel a mondatértésben - központi szerepet
juttatva az ’adott/új’ információ elemzésének: (i) az ’adott’ és ’új’ információ felis
merése a mondatban, (ii) az ’adott’ információnak megfelelő nyelvi reprezentáció
kijelölése és (iii) az ’új’ információ hozzákapcsolása. A legújabb kutatások azt erősí
tették meg, hogy az első 300-500 ms idő alatt szintaktikai, ezt követően pedig pár
huzamosan szintaktikai és szemantikai elemzések zajlanak.
A magyar mondatok feldolgozására vonatkozóan megfogalmazódott az az elv,
hogy a kvázi szabad szórendű mondatok megértésében olyan feldolgozási modellt
követünk, amely lokálisabb döntéseket használ. Ez azt jelenti, hogy a mondatbeli
funkciókra vonatkozó döntések meghozatalakor nagy biztonsággal alapozhatunk
a főnévi csoportok végződéseire, vagyis az alaktanra (Lengyel 1984; Pléh 1998a).
A mondatmegértés klasszikus modellje, az „átkódolási hipotézis” - úgy tűnik - nem
alkalmazható minden nyelvre. Magyar kísérletek szerint a hallgató a megértés folya
mán megpróbálja közvetlenül rekonstruálni az elhangzott mondat jelentésének mo-
dellreprezentációját. Ennek érdekében például egy összetett mondat megértésekor
az első tagmondat topik-fókusz tagolásának alapján előjelző hipotéziseket állít fel a
következő tagmondat tartalmára nézve (Gergely-Pléh 1995).
A toldalékoknak, illetőleg a szótagszámnak a nyelvspecifikus funkcióját kísérleti
eredmények támasztják alá a magyarban. A teljes spektrumot fedő ún. fehér zajjal
torzított mondatokat kellett a kísérleti személyeknek megérteniük egyszeri hallás
alapján. A mondatok egyik csoportjában a szavak több szótagból, a másikban kizáró
lag egy szótagból álltak, tartalmilag páronként hasonlóak voltak (pl. Ez a sok vár
rom volt rég./A várakból romok lettek, vagy Ettől a sörtől megrészegedett./Még egy sört
kér, bár az már sok lesz.). A mondatmegértés sikere egyértelműen a mondatokat al
kotó szavak szótagszámától függött. A több szótagú szavakból állók helyes megérté
se közel 70%-os volt a nagymértékű elfedés ellenére is; míg az egy szótagú szavak
ból álló mondatokat alig-alig tudták megérteni, a helyes feldolgozás aránya 7%. A he
lyesen azonosított szavak számát tekintve, az egy szótagú szavakat tartalmazó tíz
mondat szavainak átlagos felismerése 33,1% volt, míg a nem egy szótagú szavakból
építkező mondatokéi 64,9%. A toldalékok azonosítása akkor is pontos volt, amikor a
tőszót a kísérleti személy félreértette; illetőleg az egy szótagú szavakból álló monda
tok esetében a kísérleti személyek nemegyszer összevonták az egy szótagú szavakat,
és két szótagúként értelmezték azokat - akár a mondatjelentés rovására is (Gósy
1988). Az adott nyelvre jellemző szórend, a magyarban az igekötők például (vő.
Pléh 1984; 1998a) vagy a morfológiai szerkezet meghatározóak, és hozzáadódnak a
megértési stratégiához. Egyidejűnek tételezzük fel a szófelismerés és a mondatelem
zés működéseit, amelyek relatíve gyorsak.
A SZÖVEG TAGOLÁSA
Az elhangzó hosszabb közlések megértésének és értelmezésének egyik alapfeltétele

a megfelelő tagolás. A spontán beszéd eddigi elemzési eredményei azt mutatták,
hogy az artikulációs megvalósítás túlnyomórészt ösztönös, a beszélő nincs feltétle
nül tudatában annak, hogy mely szegmentális vagy szupraszegmentális tényezőt al
kalmazza tagoló funkcióban, illetőleg meglehetősen nagyok az egyéni különbségek
(Kohler 1983). A hierarchia alsóbb nyelvi szintjein a beszélőnek nincs nagy választá
si lehetősége a prozódiai megvalósítást illetően. A magasabb szinteken azonban op
cionális lehetőségei vannak, s ezeknek az aktuális együttes kiválasztása számos té
nyező függvénye. A kiinduló kérdés úgy is megfogalmazható, hogy vajon a szegmen
tálás és a felismerés ugyanannak a folyamatnak a két aspektusa, avagy bizonyos
szegmentálási kulcsokat használunk fel, amikor a spontán szövegben szavakat, frá
zisokat különítünk el (Chater-Christiansen 2001). A korábbi elemzések azt igazol
ták, hogy a mondat szintaktikai struktúrája hatással van ugyan a prozódiai megvaló
sításra, de nem határozza meg azt (Frazier et al. 2003). A spontán beszéd tagolása
jelentősen eltér az interpretatív megnyilatkozások, avagy a felolvasás kiejtési sajá
tosságaitól; hiszen ez utóbbi esetekben a beszédprodukciós mechanizmus kezdeti
folyamatainak tervezésére nincsen szükség. Ennélfogva sokkal nagyobb mértékben
képes a hangosítás jellemzőit tudatosan megvalósítani. Megfelelő központozással
ellátott, felolvasott szövegekben a mondathatárok percepciós jelölése 90%-os egy
öntetű eredményt hozott (Batliner et al. 1998). A spontán beszéd közlésegységeinek
szándékos artikulációs megvalósítása erősen beszélőfüggő. A hallgató ugyanakkor
mindvégig arra kényszerül, hogy valamiképpen tagolja, bizonyos egységekre bontsa
az elhangzottakat. A tagolási egység lehet mondatnyi hosszúságú közlés (Lehiste
1979), avagy annál hosszabb, összefüggő szövegrész. Lehiste ez utóbbit ’bekezdés
nek’ nevezi; teszi ezt annak ellenére, hogy tudatában van, a szakkifejezés elsősorban
az írott szövegek bizonyos egységeinek (tipográfiai) elkülönítésére szolgál. Úgy véli,
a spontán beszédben is léteznek ezek a nagyobb, összefüggő egységek, amelyeket
magasabb szintűeknek nevez. Ezeket a bekezdéseket nagy arányban azonosan is
merték fel angol anyanyelvű hallgatók (Lehiste-Wang 1977).
A mondatok, illetőleg a bekezdések mint egységek szintaktikailag és szemantikai-
lag meghatározható összefüggésrendszert mutatnak, és a szupraszegmentumok jel

legzetes érvényesülésén keresztül különülnek el (Schafer et al. 2000). Ezek a szünet
(mint jelkimaradás), az alaphangmagasság változása, az intenzitás csökkenése, va
lamint a szünetet megelőző szó időtartamának növekedése. Az intenzitás csökkené
sét és a frekvencia változását mondathatárokon spontán diskurzusokban igazolták
(Hird-Kirsner 2002). A mondatvég temporális változását, az utolsó szó (szavak) las
sabb artikulációját más kísérletek is megerősítették (Lindblom 1978). A spontán be
széd egyik alapvető egysége az „intonációs egység” vagy „prozódiai frázis”.
A határjelzés kérdése a beszédben nemcsak a mondathatárokkal, avagy az annál
nagyobb egységekkel kapcsolatos, hanem például a szóhatárokkal is. A szóhatár jel
zése univerzális, még inkább talán fiziológiai jellegű sajátosság, amely azonban ak
tuális megvalósulásában nyelvspecifikus jellemzőket mutat, és mind a beszélőknél,
mind a hallgatóknál különbözőképpen érvényesül. A szóhatárjelzés megjelenhet a
szegmentum, illetőleg a szótag időtartamának változásában, az alaphangmagasság
módosulásában, sőt bizonyos koartikulációs hatásokban, de marginálisan még jelki
maradásokban is. A szóhatár felismerése az anyanyelv-elsajátítás során alakul ki, el
sősorban a disztribúciós szabályok, másrészt a fonotaktikai sajátosságok megtanulása
révén. Ez a kiindulás a szöveg nagyobb egységeinek szegmentálásához.
Német beszéd elemzése alapján arra a következtetésre jutottak, hogy a közlések
szövegkohéziója különböző szintek egységeinek többé-kevésbé hierarchikus egy
másra épülésén alapszik, s ezen a módon jönnek létre a nagyobb egységek (Kohler
1983). A szövegkohézió nem a szintaktikai struktúrában, avagy a szintaxis és a pro-
zódia együttjárásában keresendő, hanem a szemantikai meghatározottságban, ille
tőleg a szemantika és a prozódia összefüggéseiben. Két mondat következhet egymás
után anélkül, hogy bármilyen információs kapcsolat lenne közöttük, ugyanakkor a
prozódiai megvalósításban nem különböznek a kohéziót mutató, összetartozó mon-
datkapcsolatoktól. A szemantikai kohézió önmagában nem eredményez szövegegy
séget, azt a beszélő szándéka szerinti szövegkohézió fogja létrehozni, amely a sze
mantikai és a prozódiai sajátosságok együttes megvalósulása.
Magyar kísérletsorozatban a hallgatóknak spontán beszéd hallgatása közben kel
lett a központozás nélküli szövegben „mondatokat” bejelölniük. A feladat során a
résztvevők nagymértékben támaszkodtak a tartalomra és a formára együttesen. A szü
netek hossza befolyásolta a döntésüket; minél hosszabb volt a szünet, annál jobban
keltette a mondatvég benyomását. A szünet fontos, de nem egyedüli tényezőként
működött a mondatok azonosításában. A szünetidőtartamok és a mondathatár-íté-
letek közötti összefüggés azt mutatta, hogy az esetek nagy hányadára igaz az, hogy
a nagyobb szünetidőtartamhoz a virtuális mondathatárok nagyobb száma társul
(Gósy 2003). A kísérleti személyek döntéseikben felhasználták az alaphangmagas
ság relatív értékét és változását is. Legnagyobb mértékben az ereszkedő dallam ese
tében jelöltek mondatvéget, majd a lebegő dallamnál, és ezekhez képest legkevésbé
ítéltek mondatvéget, ha a dallammenet emelkedett.
Német anyanyelvűekkel végzett agyi kiváltott potenciálvizsgálatok (EKP) alátá
masztották, hogy a prozódiai határok azonnal szintaktikai szerkezeteket aktiváltak
(Steinhauer-Friederici 2001; Steinhauer 2003). A kutatók alapkérdése az volt, hogy

a prozódiai jellemzők vajon a szintaktikai struktúrával, avagy a szemantikai sajátos
ságokkal mutatnak-e szorosabb kapcsolatot. Valahányszor a kísérleti személy into
nációs határt észlelt, pozitív hullám jelent meg az EKP-ben. A kísérletben azonban
nem spontán beszéd, hanem összetett mondatok képezték az ingeranyagot, amely
ben a szemantikai, szintaktikai és prozódiai határok egyértelműen egybeestek. A sze
mantikai koherenciát igazolják angol nyelvű kísérletek a szintaktikai szerkezet és a
prozódiai megvalósítás egységével szemben (Frazier et al. 2003). A szerzők kimond
ják, hogy adataik szerint nem létezik olyan prozódiai szerkezet, amely képes biztosí
tani a szintaktikai szerkezeti egységet a hallgató számára. A hallgatók a szintaktikai
szerkezetek prozódiai megtörését nem is érzik természetellenesnek. A lényeg tehát
az, hogy nem a szünet jelenléte vagy hiánya az, ami döntő, hanem az, hogy a létre
jött prozódiai struktúra által kijelölt közlésszakasz szemantikailag koherens-e vagy
sem. A hallgatók ’nem természetesnek’ ítéltek olyan több mondatból álló szintakti
kai egységeket, amelyek prozódiailag ugyan tökéletesek voltak, de szemantikailag
kevéssé koherensek. Megállapítható tehát, hogy a szegmentálás során többszörös
kulcsokat használ a beszélő, és ezek a kulcsok részben univerzálisak, részben egy
adott nyelvre specifikusak.
SZÖVEGÉRTÉS ÉS TUDÁS
Mintegy három évtizede a pszicholingvisztikában jellegzetesen visszatérő kérdés,

hogy milyen kapcsolat van a legáltalánosabb értelemben vett tudás és a nyelvi fel
dolgozás, a megértés között. Két szélsőséges felfogást ismerünk. Az egyik szerint
mindig a tudás az elsődleges, a másik a tudás szerepét másodlagosnak tekinti. A tu
dás elsődlegességét hirdetők azt állítják, hogy a megértés során semmi új nem jön
létre, hiszen minden megvan a fejünkben. Megértéskor a fejünkben lévő tudást csak
megtaláljuk. A másik elmélet szerint a megértés konstruktív folyamat, amelynek
eredményeképpen valami új jön létre (amely a tudásunkat is gazdagíthatja). Az első
felfogás szemléltetésének híres példája A kutya nyávog, mondat megértése, amikor a
hallgatónak meg kell találnia az utat (ösvényt) az alanyi és állítmányi csomópontok
között (Pléh 1998a). Ez az út azonban nem megtalálható, mivel nem létezik .A kutya
ugat. mondat esetében ugyanakkor megtaláljuk ezt az utat, mert ez a mondat igaz. A
példák azt sugallják, hogy azt vagyunk képesek megérteni, amit már úgyis tudunk.
A megértés tehát ebben a koncepcióban nem más, mint a tudatunkban meglévő dol
gok közötti ösvény megtalálása. Hogyan vagyunk akkor képesek a valóban új (vagy
újnak tűnő) dolgokat megérteni? (Ezzel kapcsolatosan az az elméleti kérdés is fel
merült, hogy vajon a világról megszerzett ismereteink a nyelv ismeretéhez tartoz
nak, avagy valami általános háttérismerethez. Hol a határ?) Az interakciós típusú el
méletek a tartalomból indulnak ki, s azt feltételezik, hogy a megértés úgy következik
be, hogy a hallgató kölcsönös kommunikatív szándéktulajdonítást végez. Valószínű
sítjük, hogy a beszélő igazat mond, és olyasmit közöl, amely megfelel az ismereteink-

OsirisKonyvek 0501 Pages133-182

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

OsirisKonyvek 0501 Pages133-182

Uploaded by

Copyright:

Available Formats

BESZÉDMEGÉRTÉSI MODELLEK 131

pontjában a jelentés áll; e felfogásnak az előzményeit már Osgoodnál (1986) is meg­

értés elemzési szakaszában a „minimális csatolás elve” érvényesül; ez azt jelenti,

SZEGMENTÁLÁS A BESZÉDÉSZLELÉSBEN ÉS A BESZÉDMEGÉRTÉSBEN

A kérdés megfogalmazható úgy, hogy a szegmentálás felfogható-e egy speciális hal­

olyan kis artikulációs változásoknak nagy akusztikai változás a következménye. Pél­

1. tá b l á za t I A hatalmasok hangsor szegm entálási leh etőségei

E r ed eti hatalm asok hatalm as ok hatalm a sok h a t alm a sok

A hatalmasok szó esetében azonosítottak legnagyobb arányban helyesen a kísérle­

A VISSZACSATOLÁS (KÉSLELTETETT KÖTÉS) ELVE

Az eredeti angol kifejezést (feedback) többféleképpen is megfeleltetik magyar szó­

AZ ELEMI PERCEPCIÓS EGYSÉG

Talán az egyik legrégibb problémája a beszédmegértésnek; sokan alapkérdésnek te­

amilyen a beszéd - az észlelésben ezek az ingerek mindig strukturáltan jelentkez­

éves korban például a szótaghoz a gyermeknek már van hozzáférése, de a fonémá­

felismerés egysége a megkülönböztetési feladatnak megfelelően változik.) Minden­

AZ INVARIANCIA (AZ 'ÁLLANDÓ') JELENSÉGE

A mai napig vitatott jelenség, amelynek meghatározási nehézsége a beszéd sokrétű­

A megoldás az, hogy ezekben az esetekben természetesen a hallásélmény kell

Az akusztikus invariancia rendkívül megbízhatónak tűnt, mivel a háttértechnika

elemzés helyességét. Majd ugyanezt a mondatot akusztikailag torzítva újra le-

köznyelvi ejtés: |j 0 t:ek ec pa:ron okik soktok hoz:a:juk ja:rni]

A szegmentálás problémája jelentkezik a hangsoron belül, de a spontán beszédben

A BESZÉDÉSZLELÉSI FOLYAMAT MŰKÖDÉSE

A szenzoros rendszerek működése két fázisra bontható az információfeldolgozási

zás. A mentális lexikonban végbemegy a fonológiai, a morfológiai és a szemantikai

2. ábra I A b eszédm egértés hierarchikus felépítésű m odellje

A beszédfeldolgozás az elsődleges hallási elemzéssel indul, amelyet egy felismeré­

tárolt ismeretekkel és/vagy tapasztalatokkal. Valószínűleg nem létezik olyan sze­

A hallás környezetünk akusztikai ingereit dolgozza fel; a hallás az a folyamat,

egy kifeszített hártya; rugalmasságát inkább a mögötte lévő levegőpárnának kö­

idegpályákat alkotják. A kódjel a neuronokon keresztül vezetődik az agykéregbe,

hangvilla hangját. Az elfedés a magas hangok irányában sokkal kifejezettebb, mint a

Hallásról akkor beszélünk, ha a hangrezgés a hallójáraton át a dobhártya-halló-

különbözőképpen hat az emberekre; a szubjektív (pszichés) tényezők, a megszokás

Az emberi hallás vizsgálata

Az ember ép vagy csökkent hallásának vizsgálata nagy hagyományra, sokféle mód­

hallásvizsgálat egyszerű, de csak tájékoztató eredményt ad. A vizsgáló és a vizsgált

ban. Egyfajta süketség esetén, amikor a Corti-szerv nem működik, de az idegsejtek

A BESZÉDÉSZLELÉS AKUSZTIKAI SZINTJE

A beszédészlelés bonyolultan építkező és komplexen működő mechanizmus. Az ész­

akkor hol; a frekvenciaváltozások miként jelentkeznek az időben; hol volt intenzi­

A jelsorozat akusztikai elemzése a következő eredményeket hozza (itt csak a jel­

* Az oszcillogram vagy rezgéskép (a 3. ábra felső ablaka) az idő és az am plitúdó függvényében

A BESZÉDÉSZLELÉS FONETIKAI SZINTJE

Az akusztikai elemzés adataira épül a fonetikai osztályozás. Ekkor döntési szabályok

szerint a magánhangzó-sorozattal előidézett görbék itt is nagyobb amplitúdójúak

A BESZÉDÉSZLELÉS FONOLÓGIAI ELEMZÉSEI

A részben automatikus feldolgozási szakasz utolsó lépcsője: a fonémadöntés megho­

A példák azt sugallják, hogy a fonémadöntést lényegében az értelmezés határozza

tiszta fázisának fizikai időtartama, b) az aktuális hangkörnyezet, c) a magánhangzó

4. ábra I Egy VCV han gsor felism erésének folyamatábrája

A hierarchikusan egymásra épülő akusztikai, fonetikai és fonológiai szintek alapmű­

5. á br a I A beszéd észlelés szintjeinek és részfolyam atainak összefü ggése

A beszédhang-differenciálás egyfelől a fonetikai, másfelől a fonológiai szint mű­

a felismerését. Ez a részfolyamat már 4 éves kor körül kezdetlegesen működik; azon­

12%-kal növeli. A zavaró ajakartikuláció hatására az értelmetlen hangsorok azono­

A szupraszegmentumok észlelésében is általában több felismerési kulcs biztosítja a

kiemelkedéseket (a csúcsokat) is. Legkevésbé megbízhatóak a dallamvégi frekven­

A beszédtempó percepciójával kapcsolatos eredmények két nagy csoportra oszt­

dig gyorsabbnak ítélték az összes többinél (Gósy 1989b). A 15 hang/s sebességű

san azonosítani, az annál rövidebbeket - tartamuktól függően - kevésbé. Mindazon­

Kísérletileg vizsgálták a közlések, illetőleg a beszélő szavahihetőségét a szup-

A természetes kommunikáció során általában nemcsak hallási (auditív), hanem lá­

pontjában a jelentés áll; e felfogásnak az előzményeit már Osgoodnál (1986) is meg

A kérdés megfogalmazható úgy, hogy a szegmentálás felfogható-e egy speciális hal

olyan kis artikulációs változásoknak nagy akusztikai változás a következménye. Pél

A hatalmasok szó esetében azonosítottak legnagyobb arányban helyesen a kísérle

Az eredeti angol kifejezést (feedback) többféleképpen is megfeleltetik magyar szó

Talán az egyik legrégibb problémája a beszédmegértésnek; sokan alapkérdésnek te

amilyen a beszéd - az észlelésben ezek az ingerek mindig strukturáltan jelentkez

éves korban például a szótaghoz a gyermeknek már van hozzáférése, de a fonémá

felismerés egysége a megkülönböztetési feladatnak megfelelően változik.) Minden

A mai napig vitatott jelenség, amelynek meghatározási nehézsége a beszéd sokrétű

A beszédfeldolgozás az elsődleges hallási elemzéssel indul, amelyet egy felismeré

tárolt ismeretekkel és/vagy tapasztalatokkal. Valószínűleg nem létezik olyan sze

egy kifeszített hártya; rugalmasságát inkább a mögötte lévő levegőpárnának kö

Az ember ép vagy csökkent hallásának vizsgálata nagy hagyományra, sokféle mód

A beszédészlelés bonyolultan építkező és komplexen működő mechanizmus. Az ész

akkor hol; a frekvenciaváltozások miként jelentkeznek az időben; hol volt intenzi

A jelsorozat akusztikai elemzése a következő eredményeket hozza (itt csak a jel

A részben automatikus feldolgozási szakasz utolsó lépcsője: a fonémadöntés megho

A hierarchikusan egymásra épülő akusztikai, fonetikai és fonológiai szintek alapmű

A beszédhang-differenciálás egyfelől a fonetikai, másfelől a fonológiai szint mű

a felismerését. Ez a részfolyamat már 4 éves kor körül kezdetlegesen működik; azon

12%-kal növeli. A zavaró ajakartikuláció hatására az értelmetlen hangsorok azono

kiemelkedéseket (a csúcsokat) is. Legkevésbé megbízhatóak a dallamvégi frekven

A beszédtempó percepciójával kapcsolatos eredmények két nagy csoportra oszt

san azonosítani, az annál rövidebbeket - tartamuktól függően - kevésbé. Mindazon

A természetes kommunikáció során általában nemcsak hallási (auditív), hanem lá

A különféle funkciókban megjelenő hang(sor/ok) más-más feldolgozást igényel

már a magasabb szintű, szemantikai és szintaktikai feldolgozások, a hallgató a mon

A pszicholingvisztika kutatási területe kezdetekben, és később is dominánsan az an

lag meghatározható összefüggésrendszert mutatnak, és a szupraszegmentumok jel