You are on page 1of 8

19. tétel: A beszédészlelés és a nyelv 2019.

évi Államvizsga tételek

11. tétel
A beszédészlelés és a nyelv
Beszédészlelés

● A nyelvi észlelés két alapvető formája:


o hallott szöveg feldolgozása = beszédészlelés
o írott szöveg feldolgozása = olvasás
● Bár a feldolgozott nyelvi jelentés független attól, hogy milyen modalitáson keresztül jutott el
hozzánk, lényeges különbség van a beszélt és az írott nyelv feldolgozása között
● Szegmentáció + identifikáció: az egyik legalapvetőbb eltérés a nyelvi jel szegmentáltságában
rejlik: a beszéd esetében nincsenek egyértelmű és világos határok az egyes beszédhangok,
illetve szavak között, az írás esetében viszont pontosan meg tudjuk mondani, hogy hol végződik
az egyik betű/szó, és hol kezdődik a következő
● A kezdeti kutatások a 20. századi communication and military industry-ból származnak:
o sok úttörő eredmény eszközök kifejlesztve a beszéd szintézisre
o vocoder: az első eszköz, ami kódolt és produkált is beszédet; a megalkotásakor használt
alapelvek segítettek kifejleszteni a hang spektrográfot (sound spectrograph)
o spectrogram: analizálja és feltérképezi a hangjeleket, egy bizonyos vizuális
beszéddiagrammot eredményez

A beszédészlelési folyamat

● A beszéd feldolgozásának két alapvető folyamata:


o beszédészlelés: a nyelvi kódoknak megfelelő hangjelenségek észlelése
o beszédmegértés: a kódrendszer értelmezése
● Ezek a mentális lexikonhoz való hozzáférésük alapján prelexikális (csak az akusztikai
sajátosságok elemzése) és lexikális (szójelentéshez való hozzáférés, top-down folyamatok)
szakaszok. Utóbbiak koncepcióvezéreltek: tudást, kontextust foglalják magukban.
● A beszédészlelés lényege tehát, hogy a beszédhangokkal kapcsolatos akusztikai bemenetből a
beszédmegértési folyamatok által felhasználható mentális reprezentációk jöjjenek létre.
● beszédhang = beszéddel kapcsolatos akusztikai információ
● fonéma = általános tulajdonságok alapján azonosnak észlelt beszédhangok mentális
reprezentációja
● a beszédészlelés szintjei:
o akusztikai/hallási elemzés
o fonetikai elemzés
o fonológiai elemzés

1
19. tétel: A beszédészlelés és a nyelv 2019. évi Államvizsga tételek

A beszédészlelés alfolyamatai

Hallási elemzés

● itt még nem beszédspecifikus a feldolgozás: akusztikus információ periferiális (transzdukció a


csigában) és centrális (hallókérgi szint) feldolgozása
● Ezek kinyerik az alapvető akusztikai információkat: alaphang magassága, spektrális tartalom,
időtartam, intenzitás.
● A spektrális és temporális mintázatok feltehetően a hallási szenzoros (echoikus) emlékezetben
tárolódnak ezt követően a rendszer kinyeri a beszédspecifikus akusztikai kulcsokat, melyek
lehetővé teszik a fonetikai osztályozást: beszédhangok különböző kategóriákba történő
besorolása (képzési mód, képzési hely, zöngésség stb. szerint).
● Egy fonetikai kategóriához meghatározott akusztikai jellemzők rendelhetők hozzá. Az
azonosításhoz szükséges akusztikai jellemzők annak függvényében változhatnak, hogy milyen
hang található az azonosítandó hang előtt és után (koartikuláció). De a hallási elemzés szintjén
még nem történik fonetikai kategóriákba való besorolás, csupán az osztályozás alapjául szolgáló
akusztikai jellemzők kinyerése.

Akusztikai-fonetikai elemzés

● itt már beszédspecifikus feldolgozás történik: a beszédspecifikus akusztikai kulcsok a


fonetikai jellemzőkhöz (pl. zöngésség, zárhangjelleg, bilabiális jelleg) rendelődnek hozzá.
● Lényegében bináris döntések sorozata: az akusztikai jellemzők megfelelnek-e egy adott
fonetikai jellemzőnek, vagy sem.
● Rendelkezésünkre áll egy fonetikai mátrix, mely a fonetikai jellemzőket tartalmazza, azt kell
meghatároznia a rendszernek, hogy az akusztikai jellemző zöngés-e vagy sem, réshang-e stb.
● Azonban itt még nem jön létre fonémareprezentáció, így nem történik fonémadöntés
(beszédhangok fonémákkal történő azonosítása) sem.

2
19. tétel: A beszédészlelés és a nyelv 2019. évi Államvizsga tételek

Fonológiai elemzés

● létrejön a fonémareprezentáció, a fonetikai jellemzőkből fonológiai szegmenseket hozunk


létre – itt már nyelvspecifikus a feldolgozás – csak az adott nyelvben releváns fonetikai
információkat használja a rendszer.
● beszédhangok és fonémák megfeleltetése komplex folyamat
▪ allofonikus variáció (egy fonémának több akusztikai fonetikai megvalósulása
létezik, főleg a koartikuláció miatt) megszüntetése.
▪ szegmentációs probléma (folyamatos akusztikai input megfeleltetése a diszkrét
reprezentációnak)
▪ akusztikai-fonetikai varianciaprobléma (nem sikerült még olyan
beszédspecifikus akusztikai kulcsokat találni, amelyek minden esetben
meghatároznának egy adott fonémát – ki, mikor, milyen állapotban mondja…)
● Liberman szerint e problémák alapján nem lehetséges, hogy a fonémák és beszédhangok között
egy az egyben megfeleltetés létezik, ehelyett dekódolási folyamatot kell feltételeznünk. Vagyis
a hallási észlelésnek kell, hogy legyen egy speciális beszédmódja, egy üzemmód, ami akkor
kapcsol be, ha beszédhangokkal találkoznuk. Bizonyítékok:
● szinuszhullámú beszéd: hangként és zajként is lehet értelmezni, instrukciótól
függően. Akiknek azt mondták, zajt fognak hallani, nem hallottak benne
beszédet. Akik beszédre számítottak, még meg is értették a szöveget. Ha a
beszédmód már beindult, többé nem tudjuk nem beszédként hallani,
hasonlóan a látás esetén tapasztalható mintafelismerési jelenségekhez.
▪ féltekei különbségek a beszédészlelésben:
bal féltekei dominancia a beszédhangok feldolgozása során (kb. az emberek
95%-ánál van így)
a kezesség szerepe: a jobbkezesek kb. 95%-ának baloldalon reprezentálódik a
nyelv, míg a bal kezesek kb. 30%-ának bal oldalt vagy mindkét oldalt
dichotikus hallgatási helyzetben a jobb fül a nyelvi ingereket részesíti
előnyben (bal félteke), míg a bal fül a nem nyelvi ingereket (jobb félteke)
● kategoriális percepció:
o az akusztikus jel kisebb változásai nem okoznak változást az észleletben.
o Egy adott fonémával azonosítható sokféle eltérő akusztikai tulajdonságú
beszédhangoknak a kategórián belüli akusztikai eltéréseit nem tudjuk azonosítani.
Azonosítási feladat: pl. /bi/ és /di/ szótagok közötti kontinuum hallgatása során
egy ideig /bi/-t, aztán /di/-t hallanak, nincs átmenet az észlelésben. Ugyanakkor
nem beszédspecifikus jelenség: zenei akkordokra is kimutatható. És nem is
humánspecifikus (még csincsilláknak is megy) Mivel magyarázható?
▪ Tanulás: megtanuljuk a beszéd megértése során, hogy milyen akusztikai
különbségekre figyeljünk oda. Zenei akkordokra csak profi zenészeknél
jelentkezik. Japán /l/ és /r/ fonémák között nincs különbség, ezért ők nem is
érzékenyek a kettő különbségeire. Az anyanyelv elsajátítása során tehát
kialakul a perceptuális bázis, mely az akusztikus infot (beszédhangok)
perceptuális egységek mentális reprezentációjára (fonémák) fordítja le.
Minden fonémakategória esetén kialakul az adott kategóriára leginkább
jellemző akusztikai mintázatokkal rendelkező elem, a prototípus. Azokat a
beszédhangokat, amik hasonlítanak rá, maga felé vonzza –
perceptuálismágnes-hatás: felülírja az akusztikus különbségeket.

3
19. tétel: A beszédészlelés és a nyelv 2019. évi Államvizsga tételek

Prototípusra gyorsabban reagálunk, mint a határon lévő ingerre, vagyis azért


nem egységes a kategórián belüli észlelés
● a fonémák észlelése két módon történhet: közvetlenül (akusztikai inputot a fonémák mentén
daraboljuk fel) és következtetés (előbb egy nagyobb egységet észlelünk, és ezt törtdeljük
fonémákra) révén. (ezt Lukács Ági szerintem inkább bottom-up – top-down különbségnek fogja
fel) Utóbbira bizonyítékok:
▪ fonémarestaurációs hatás: ha egy szóból kivesznek egy fonémát és a helyét zajjal
elfedik, akkor ezt általában nem vesszük észre. Tehát akkor is hallhatunk fonémákat, ha
azok nem szerepelnek az akusztikai inputban.
▪ fonémák azonosítási sebessége: gyorsabban detektálják hallott szövegben a célingert,
ha az egy szótag, mintha egy fonéma (fonémamonitorozási feladat). Vagyis előbb
dolgozzuk fel a szótagokat fonémára következtetés.
▪ magánhangzószekvencia-illúzió (illuzórikus szótag): ha rövid mássalhangzó
csoportokat gyors egymásutánban mutatunk be, akkor nem különálló fonémákat, hanem
szótagokat hallunk, melyek követik az észlelő anyanyelvi tapasztalatait. Nem optimális
információ esetén a rendszer nem vonja ki a fonémákat, de a szótagokat felismeri.
▪ Tehát nem biztos, hogy a fonéma az a perceptuális egység, amely mentén a beszédet
észleljük.

Az invariancia problémája

● A folyamatos beszéd akusztikus jegyei zavarosak


● A beszéd akusztikus jegyei gyorsan és szignifikánsan változnak; a kontextustól függően a
beszéd egyes tulajdonságai megváltozhatnak
● Forrása: egyéni különbség a beszélők között, pl. alulartikulálás, akcentus
o alulartikulálás: a szavak elveszthetik az információ egy szignifikáns hányadát, ami
segítene az azonosításban
● Koartikuláció: ugyanazt a hangot más környezetben máshogy ejtjük ki
● De a lexikális, szintaktikai és kontextusból jövő információ is segít a beszédfeldolgozásban

A szegmentáció problémája

● A probléma: a szegmentációs határok nem tiszták, bizonyos szavak határai összemosódnak


● Nem csak hangokkal, de szavakkal is megesik, pl. Ice cream – I scream; Nitrate – Night rate
● Akusztikus jegyek (amit a spektrogrammon látunk) fonetikus reprezentációvá alakítása koránt
sem egyszerű
● Hogyan lehet mégis, hogy a gyerekek megtanulják a szavakat? Honnan tudják, hogy hol
kezdődik, és hol végződik az adott szó?
● Lehetséges szóhatárokat azonosítunk a beszédfolyamban prelexikális feldolgozás
● lehetséges szó megszorítás: a szegmentáció minden egységének egy jelentéssel bíró szónak
kéne lennie
● Ezeknek a határoknak a felderítésében a nyelv ritmusa és fonotaktikai struktúrája segít

Kategorikus észlelés

● Ugyanannak a különbségnek az elkülönítése kategórián belül igen nehéz (de lehetséges), míg
kategóriák között könnyű

4
19. tétel: A beszédészlelés és a nyelv 2019. évi Államvizsga tételek

● A beszédhangokat kategóriák mentén elemezzük (legalábbis a mássalhangzókat), szemben a


nem beszéd hangokkal
● Nagyon korai bizonyítékok babáknál: nem sokkal születés után már mutatják a kategorikus
észlelést
● Kategoria észlelés vizsgálatok azt mutatják, hogy létezik egy top-down hatás a fonémák
azonosításakor
● Példa a kategorikus észlelésre: Eimas kísérlete (lásd később)

Fajscepifikusság kérdése

● Majom auditoros kéreg: A sejtek válaszolnak olyan tulajdonságokra, amik az emberi


beszédészlelésben fontosak
o 1. Időben lévő késleltetés a hang kezdete és a hangszál rezgése között (VOT) Voice
Onset Time: 30 ms a levegőbe való kibocsátástól a zöngés, és 40-100 ms a zöngétlen
hangoknál
o 2. A hang akusztikus környezete (mássalhangzó-magánhangzó; koartikulációs cuek)
o 3. Frekvencia változások besorolása (rate)
● A csincsillák is érzékenyek a beszédbeli különbségekre és az artikuláció helyére

A beszédészlelés elméletei

A motoros elmélet

● a perceptuális invariancia annak köszönhető, hogy szoros kapcsolat van a beszédhangok


produkciója és percepciója között, és ezt a kapcsolatot a percepció során fel is
használjuk.
● Vagyis: ahogy a fonémákat produkáljuk, az közvetlenül kihat arra, ahogyan észleljük
őket.
● Ennek az elképzelésnek több változata is van, a legfontosabb a Liberman nevéhez
köthető motoros elmélet.
● Az elmélet szerint a /bi/ szótag kezdetét azért haljuk azonosnak a /bu/ szótag kezdetével,
mert ezek képzésekor ugyanolyan motoros parancsot adunk ki a beszédképző
szerveknek. Tehát a percepció során azért tűnnek egyformának az egyébként eltérő
akusztikai paraméterekkel rendelkező fonémák, mert a produkció során ezeket valóban
egyformának szánjuk. a beszédészlelés során nem csak az akusztikai inputot vesszük
figyelembe, hanem a beszélő artikulációs szándékait.
● Ellenérvek:
o beszédképzés hibája nem feltétlenül vezet az észlelés károsodásához (arról még,
hogy valaki nem tudja az /r/ hangot kiejteni, a megértésnél még felhasználhatja azt)
o az idegen nyelvet általában könnyebb megérteni, mint beszélni (attól, hogy
akcentussal beszélünk egy nyelvet, még nem okozza annak megértési problémáit)
o anyanyelv fejlődése során is elsőbbsége van a megértésnek (hamarabb tanuljuk meg
megérteni az anyanyelvünket, mint beszélni)

A megkülönböztető jegyek elmélete

● a beszéd feldolgozásának bizonyos szintjén vannak olyan vonásdetektorok, melyek


szelektíven érzékenyek a fonémák bizonyos jellegzetességeire (képzés helye,

5
19. tétel: A beszédészlelés és a nyelv 2019. évi Államvizsga tételek

zöngésség) ezek olyanok, mint látás esetén az élekre vagy mozgásirányokra érzékeny
detektorok
● Pl. egy /d/ hang feldolgozása során azok a detektorok tüzelnének, amelyek a zöngés, az
alveoláris és a zárhangokra lennének érzékenyek.
● Adaptációs utóhatások megfigyelhetőek a fonémapár-kontinuum mentén:
♦ a résztvevők hosszú perceken át hallgattak egy tiszta és egy „összegyúrt”
fonémakategóriát (összegyúrt: nem a kategória prototipikus hangja, hanem 2
kategória között helyezkedtek el)
♦ az egyik fonémakategória hosszú ideig történő hallgatása esetén az átmeneteket
gyakrabban azonosították a másik kategóriába tartozónak
♦ következtetés: a köztes elemet mindkét kategória reprezentációjárt felelős
neuroncsoport feldolgozza, az adaptáló inger (amit sokáig hallgattak)
deszenzitizálta az ingert kódoló poolt, így az összválasz eltolódott az ellentétes
irányba (hasonlóan pl. mozgási utóhatáshoz a látás esetén)

Beszédészlelés fejlődése

● Mit kedvelnek a babák?


o a beszédet, minden más akusztikus stimulációval szemben preferálják biológiailag
huzalozottak vagyunk a beszéd feldolgozásra
o a dajkanyelvet: lassabb, magasabb hangon, erős intonáció
o DeCasper és Fifer (1980):
▪ 3 napos babák cumi szopás gyorsabban szopják, az anyjuk hangjára
o DeCasper és Fifer (1986):
▪ The cat in the hat: anyák szülés előtt kb. 6 héttel elkezdték olvasni ezt a mesét
2 napos újszülötteknél nő a cumiszopási ráta erre a speciális történetre
● Mehler és mtsai (1988): a babák meg tudják különböztetni az anyanyelvet más nyelvektől
o emlékeznek valamiféle tempóra és ritmusra beszédet már születés előtt is hallják
● De ezek önmagukban még nem elegek a beszédhez képesek a fonémák között is különbséget
tenni születés után!
● Velünkszületett képesség a beszédhangok megkülönböztetése?
o Már nagyon korán jelen van
o A specifikus nyelvtől függetlenül, a különbségek egy kontinuum mentén azonos ponton
érzékeltek, még akkor is, ha ez a különbség nem hasznosítható
▪ pl. spanyol babák képesek p és b között különbséget tenni, úgy is, hogy ez nem
kontrasztív
o Kategorikus észlelés is visszahozható még hosszú idő után is, de a képeségünk, hogy a
sok különböző „pa” hangot ugyan annak halljuk is fontos
● Eimas és mtsai (1971): diszhabituációs kísérlet 1 hónapos babákkal
o pa-ba, 123456 megkülönböztető vizsgálat
o 123ba, 456pa nem diszhabituálódtak 2 és 3 ra se, de igen 456 ra
o kategória észlelés a beszédhangokra (bizonyíték a zöngés-zöngétlen
megkülönböztetésre)
o korábban: úgy gondolták, hogy a beszédhangok diszkriminálásának képessége a
perceptuális tanulás hatására alakul ki de ez bizonyíték arra, hogy ez a képesség
valószínűleg inkább veleszületett

6
19. tétel: A beszédészlelés és a nyelv 2019. évi Államvizsga tételek

o 6-12 hó között a fonémakészlet lelimitálódik csak a saját anyanyelvben használatos


fonémákra azért a legtöbb visszahozható még egy jó ideig, csak idő és tanulás
kérdése (lásd kétnyelvűek)
● A babák érzékenyek potenciális „váltási pontokra” (switching points) csak később vesztik el
ezeket
o Először a tipikus váltási pontokra érzékenyek csak később fejlődnek ki azok, melyek
atipikusak
o A perceptuális élményünk határozza meg, hogy milyen észlelési kategóriák alakulnak
ki
o 2 különböző fejlődési folyamat: szelekció vs. konstrukció kutatási eredmények a
másodikat támogatják
▪ Lasky és mtsai: babák különbséget tesznek angol vs. thai VOT között, de
spanyol között már nem
▪ Streeter: Kikuyu babák érzékelik az angol, de a felnőtt kikuyu határokat nem
érzik
● Elméletek kombinációja lehet a legjobb modell (Universal Theory + Tuning Theory +
Perceptual learning Theory)

Kategória észlelés

o Nem igaz, hogy nem vagyunk érzékenyek a kategóriákon belüli különbségekre


o Pisoni és Tash: A résztvevők gyorsabban döntöttek arról, hogy két ba egyforma, ha
tényleg egyformák voltak, nem csak egy kategórián belüliek
o A kategóriaészlelési elméletek már nem annyira dominánsak, mint korábban voltak a
folyamatos észlelés nagyobb szerepet kapott
o A kategorikus érzékelés mellett szóló bizonyítékok sokkal gyengébbek

Kontextus hatás

o Beszéd észlelés: bottom-up vagy top-down folyamat?


o Ha a szó vagy mondat kontextusnak van hatása interaktív
o Fonéma azonosítás is könnyebb egy szavon vagy mondaton belül, mint külön
o A szó határok csak illuzórikusak, nincs megfelelőjük az akusztikus jelben
o A kontextus megváltoztathatja a kategória határokat
o Ganong kutatása: g-k, berakva _iss elé a korábban g k ként lesz észlelve
o Lexikai identifikációs hatás eltűnik a kontinuum két végén
▪ Lexikai hatás perceptuális, de a mondathatás postperceptuális (a korrekt válasz
jutalmazása és az inkorrekt büntetése befolyásolja)

McGurk hatás

● a multiszenzoros feldolgozás klasszikus kísérlete


● vizsgálható vele a vizuális információ hatása a beszéd észlelésére
● vizuálisan: GA
● akusztikusan: BA
● összélmény: DA
● a vizuális kulcsingerek befolyásolják, hogy hogyan észlelünk bizonyos hangokat multimodális
észlelés
● a hatás még más nemű beszélőknél is működik

7
19. tétel: A beszédészlelés és a nyelv 2019. évi Államvizsga tételek

Kontextus és elvárások

● Beszéd ütem: Néhány szótag /ba/ ként lesz észlelve, ha bele vannak ágyazva egy lassú ütemű
mondatba, de /pa/ -nak, ha egy gyors ütemű mondatba vannak ágyazva
● A beszéd robusztus, tele redundanciával, amit értünk az igen nagy mértékben zajba van
„ágyazva”
● A megértés könnyebb, ha bejósolható Minél bejósolhatóbb, annál több háttérzaj tolerálható a
megértésben

Fonémarestaurációs hatás (phonemic restoration effect – Warren & Warren):

● a bottom-up vs. top down folyamatok szemléltetése


● kivágtak egy fonémát egy szóból és köhögéssel maszkolták
● ha a szó csak önmagában állt, akkor nem lehetett megmondani, hogy mi volt a kivágott
fonéma
● de ha a szó egy mondatban volt, akkor senkinek nem okozott problémát a kiegészítés
(a „restaurálás”), mivel a kontextus egyértelműsítette a hiányzó részt
● maszkolás típusa nem számít, de a csend nem jó, azt nem restauráljuk + még
dramatikusabb hatás, ha a mondat kontextusát változtatjuk

You might also like