You are on page 1of 91

Budapesti Mszaki s Gazdasgtudomnyi Egyetem

Villamosmrnki s Informatikai Kar


Tvkzlsi s Mdiainformatikai Tanszk

Szaszk Gyrgy
A szupraszegmentlis jellemzk szerepe s
felhasznlsa a beszdfelismersben
PhD rtekezs

tmavezet
Dr. Vicsi Klra, DSc

2008. szeptember

Rvid tartalmi sszefoglal


Munkm clja annak tudomnyos bemutatsa s igazolsa, hogy a prozdia ltal
hordozott s ki nem hasznlt informci hozzjrulhat a beszdfelismers eredmnyeinek
javtshoz, illetve szintaktikai s szemantikai szinten lnyeges tbbletet is adhat hozz.
Az rtekezs felptse a kvetkezk szerint alakul: elsknt rviden bemutatom, mit
rtnk a beszd szupraszegmentlis tartomnyn, s ttekintem az egyes
szupraszegmentlis beszdjellemzket. Ezen elmleti bevezet rszben csak a mrnki
felhasznls szempontjbl lnyeges fogalmakat tekintem t, gy munkm nyelvszeti
szemszgbl nem trekszik teljessgre, st, bizonyos fogalmakat a nyelvszeti
rtelmezsktl eltren definilunk jra, s a tovbbiakban j rtelmben hasznljuk.
Ezt kveten rszletesen bemutatom, hogy a hagyomnyos beszdfelismersben hogyan
hasznlhat fel a prozdia, azaz a szupraszegmentlis tartomnyban akusztikai
feldolgozsi szinten hordozott informci. ttekintem az akusztikai beszdjelbl a
prozdiai jellemzk kinyersre hasznlhat algoritmusokat, az eddig elrt nemzetkzi
eredmnyeket s a szakirodalmat is.
Az rtekezs gerinct az ez utn kvetkez fejezetek alkotjk. Bemutatok egy ltalam
kidolgozott, kttt hangslyozs nyelvekre alkalmazhat algoritmuscsaldot, amellyel
szhatrok automatikus detekcija vgezhet el prozdiai jellemzkre val visszavezets
alapjn. A hangsly detekcijt cscskeresssel, illetve a szkapcsolati szinten
rtelmezend intoncira (hanglejtsre) alkotott osztlyok alapjn vgzem HMM
technikval. Ksrletileg igazolom, hogy a mdszerrel a szhatrok elfogadhat szint
pontossggal s hatkonysggal detektlhatk a folyamatos beszdben. Az gy elksztett
szhatr-detektl rendszert finn nyelvre is megvalstom s tesztelem, ezltal igazolom
az algoritmus ms kttt hangsly nyelvekre trtn kzvetlen alkalmazhatsgt.
Vizsglom a tbbnyelv megvalsts lehetsgeit is. Megmutatom, hogy a szhatrdetektlbl prozdiai szegmentl kszthet. Ksrletileg igazolom, hogy a prozdiai
szegmentl beszdfelismerbe ptve a felismersi eredmnyt javtja egy
orvosdiagnosztikai beszdfelismer alkalmazsban.
Bemutatom s igazolom, hogy a ltrehozott prozdiai szegmentl megfelel
talaktsval lehetsg nylik a mondatok modalitsnak automatikus felismersre s a
tagmondathatrok detektlsra, ezltal a megfelel rsjelek kittelre a felismert
szlncban a prozdia alapjn. Ismertetem a modalitsfelismer rendszer nmet nyelv
vltozatt is, igazolva annak ms nyelvre val adaptlhatsgt.
Az rtekezs vgn az elrt eredmnyeket sszegzem, tziseimet sszefoglalom.

Abstract
The title of my thesis is The Role and Use of Supra-segmental Features in Automatic
Speech Recognition.
The goal of my work is to demonstrate and prove that information carried acoustically by
speech prosody can improve speech recognition and add an extra functionality on
syntactic and on semantic level to ASRs.
My thesis work is constructed as follows: first I shortly review some concepts related to
supra-segmental range and prosody, and link acoustic prosodic features to them. I address
only concepts relative to speech technology engineering, but not those related strictly to
linguistics. Also, some concepts are used in a different meaning than in linguistics.
Next on, I present how prosody can be used in standard speech recognition technology,
including the extraction issues of prosodic features from the speech signal, and the
available international research results in the field.
The main part of the thesis is formed by Chapters 4 to 7. These chapters present
algorithms suited to fixed stress languages which allows word-boundary detection based
on stress detection carried out on prosodic features, fundamental frequency and energy.
Peak detection and statistical (HMM based) algorithms modelling intonation classes are
used. I confirm with experiments that by these algorithms, word boundaries can be
detected with acceptable accuracy and efficiency for fixed stress Hungarian. The system
is adapted to Finnish to prove adaptability within the family of fixed stress languages. A
bilingual architecture is also investigated. I show that a prosodic segmenter can be
constructed based on HMM word boundary detection, and that this segmenter improves
word recognition in a Hungarian language medical ASR application.
I justify that the obtained word boundary detector or prosodic segmenter can be modified
to perform clause level segmentation and modality recognition in Hungarian. This
technique allows the placement of punctuation marks and semantic processing based on
prosody of the recognized speech. I show that this so called modality recognizer can be
adapted easily to German language.
Finally, I give a summary of results and theses.

ii

Tartalomjegyzk
Bevezets .............................................................................................................................1
1. A beszd szupraszegmentlis szerkezete.........................................................................2
1.1 A szupraszegmentlis szerkezet sajtossgai ............................................................3
1.2 Az egyes szupraszegmentumok rvid jellemzse......................................................3
1.2.1 Hangsly .............................................................................................................3
1.2.2 Hanglejts, intonci ..........................................................................................5
1.2.3 Hanger...............................................................................................................6
1.2.4 Beszdtemp .......................................................................................................6
1.2.5 Ritmus s hangsznezet.......................................................................................7
1.2.6 Sznet..................................................................................................................7
1.3 A szupraszegmentlis szerkezet ltrehozsa s alapvet funkcii ............................8
1.4 Nhny alapfogalom ................................................................................................10
2. Prozdiai jellemzk akusztikai szint feldolgozsa s annotlsa ................................12
2.1 Az alapfrekvencia ....................................................................................................12
2.2 Energia .....................................................................................................................14
2.3 Idtartamok ..............................................................................................................14
2.4 Beszdfelvtelek szupraszegmentlis tartomny feldolgozsa..............................15
3. A szupraszegmentlis informci felhasznlsa a beszdfelismersben.......................16
3.1 A statisztikai alap state-of-the-art beszdfelismers ..........................................16
3.2 Elvi megfontolsok a szupraszegmentlis jellemzk felhasznlsa kapcsn ..........17
3.3 Mondat-, frzis- s szhatr-detekci ......................................................................17
3.4 Mondattagols s modalits.....................................................................................19
3.4.1 Modalits s tagmondatokra bonts..................................................................19
3.4.2 A szintaktikai elemzs elsegtse....................................................................20
3.5 A szemantikai rtelmezs tmogatsa .....................................................................20
3.6 Szupraszegmentlis jellemzk felhasznlsa a fonmafelismersben.....................22
3.7 Irodalmi ttekints konkrt alkalmazsok ............................................................22
3.7.1 Prozdiai modellezs lehetsgei .....................................................................22
3.7.2 A VerbMobil automatikus fordt- s tolmcsolrendszer...............................24
3.7.3 Szhatr-detekci alapfrekvencia alapjn ........................................................26
3.7.4 Lexikai alap mondathatr detekci .................................................................26
4. Szhatrok automatikus detekcija ...............................................................................28
4.1 A hangsly detektlsnak lehetsgei....................................................................28
4.2 Hangslydetekci cscskeresssel...........................................................................32
4.3 Ksrlet cscskeresssel trtn szhatr-detektlsra............................................34
5. Szhatr-detektls statisztikai mdszerrel ...................................................................38
5.1 Elvi megfontolsok ..................................................................................................39
5.2 Szkapcsolati intoncis osztlyok rtelmezse......................................................40

iii

5.3 A statisztikai alap szhatr-detekcit vgz rendszer felptse ...........................40


5.4 A betant anyag elksztse..................................................................................42
5.5 Akusztikai szint elfeldolgozs a szupraszegmentlis tartomnyban ...................43
5.6 Nyelvtan intoncis osztlyokra..............................................................................44
5.7 Teszteredmnyek .....................................................................................................44
5.7.1 Pontossg s hatkonysg a HMM rendszerrel ................................................44
5.7.2 Az llapotok s a Gauss komponensek szmnak optimalizlsa....................45
5.7 Statisztikai alap szhatr-detekci finn nyelvre ....................................................46
5.8 Statisztikai alap szhatr-detektls ktnyelv rendszerrel.................................48
6. Magyar nyelv szhatr-detektl integrlsa gpi beszdfelismerbe........................49
6.1 A beszdfelismer rendszer felptse.....................................................................49
6.2 A szkapcsolati szint intoncis modellek finomtsa ..........................................50
6.3 A szupraszegmentlis tartomny akusztikai feldolgozs finomtsa.....................52
6.4 A prozdiai szegmentl betant anyaga ...............................................................54
6.5 Az automatikus prozdiai szegmentls menete s nyelvtana ................................54
6.6 A hipotzis grfok jraslyozsa.............................................................................55
6.7 Tesztels ..................................................................................................................57
6.7.1 A ksrleti rendszer bemutatsa ........................................................................57
6.7.2 Teszteredmnyek ..............................................................................................57
7. A modalits felismerse.................................................................................................60
7.1 A modalitsfelismer rendszer felptse................................................................60
7.2 Szupraszegmentlis akusztikai elfeldolgozs ........................................................61
7.3 A betant anyag s elksztse .............................................................................61
7.4 Az automatikus modalitsfelismers menete s nyelvtana......................................64
7.5 Modalitsfelismersbeli eredmnyek ......................................................................65
7.6 A magyar nyelv modalitsfelismer s mondathatr-detekcis rendszer
tkletestse..................................................................................................................67
7.7 Nmet nyelv modalitsfelismer s tagmondathatr-detekcis rendszer ..............69
8. sszegzs s a tzisek sszefoglalsa ...........................................................................71
Irodalomjegyzk ................................................................................................................78
Publikciim ......................................................................................................................82

iv

Ksznetnyilvnts
Ezton szeretnm megksznni tmavezetmnek, Dr. Vicsi Klrnak a sok v sorn
nyjtott segtsgt, valamint a Beszdakusztikai Kutatlaboratrium hallgatinak s
munkatrsainak elssorban Borostyn Gbornak, Nmeth Zsoltnak, Pter Attilnak s
Sztah Dvidnak kzremkdsket a munkm sorn.
Szaszk Gyrgy
2008. szeptember

Bevezets
Napjainkban, az informcis trsadalomban s a mestersges intelligencia korban
alapvet ignyknt jelentkezik az ember kpessgeinek gp ltali minl hebben val
megvalstsa, st kiegsztse. Nincs ez msknt a beszdfelismersben sem, az ember
rgi vgya, hogy gpeivel sajt nyelvn kommuniklhasson. Jllehet a kezdetek ta
jelents eredmnyek, st korszakvltsok is bekvetkeztek a beszdfelismers
trtnetben, maga a beszdfelismers problmakre napjainkban sem tekinthet mg
megoldott problmnak. St, ha arra gondolunk, hogy a valdi beszdfelismers
tulajdonkppen a beszd gp ltali rtelmezst, megrtst is jelenti sokak szmra a
beszdtechnolgiban jrtasak ekkor mr a beszdrts fogalmt hasznljk a feladat
megjellsre mg messzebb rezhetjk magunkat a cltl.
A klasszikus beszdfelismersben lassan b vtizede egyfajta egyhelyben topogs
mutatkozik. A statisztikai eljrsokkal az adott technikai sznvonalon elrhet
eredmnyek megszlettek, azokat lnyegben mr csak tovbbragozni lehet. Ennek
ellenre a kutatk figyelme csak az utbbi idben fordult az emberi beszd ms
dimenzii fel, s mostanra terjedt el az a szemllet, amely a beszdet a kommunikci
egy rsznek, egyik lehetsges csatornjnak tekinti, s megprblja a beszddel
prhuzamosan megjelen egyb informciforrsokat is kiaknzni. Ide tartozik az audivizulis beszdfelismers, de mg inkbb a multimodlis beszdfelismers, amelyet taln
helyesebb volna gy megfogalmaznunk, mint az emberi kommunikci
beszdvetletnek vizsglata a tbbi kommunikcis tnyez prhuzamos figyelembe
vtelvel.
Maga a beszd mint informcihordoz sincs mg azonban teljesen kihasznlva a
szkebben vett beszdfelismersben sem. A hagyomnyos beszdfelismers a beszdet
fonmaszekvencinak tekinti. (A ksbbiekben ezt a beszdhangok hossznak
nagysgrendjbe es idtartomnyt fogjuk szegmentlis tartomnynak nevezni.) A
beszdfelismersben a szegmentlis tartomnyba es fonetikai szervezdsi szintet, majd
e felett a szavak, st inkbb a szkapcsolatok szintjt veszik figyelembe, elbbit a fonma
modellek, utbbit a nyelvi modell testestik meg a beszdfelismerkben. Ebben a
feldolgozsi lncban a beszd mint akusztikai produktum csak a legels szinten,
szegmentlis tartomnyban jelenik meg, utna nem veszik figyelembe. Meggyzdsem,
hogy a beszd szupraszegmentlis tartomnyban akusztikailag is altmasztja a
szkapcsolati szintet, s gy informciforrsknt hozzjrulhat a teljesebb
beszdfelismershez, megnyitva az utat a valdi beszdrts irnyba is. Gondoljunk
csak arra, hogy a szupraszegmentlisan (prozdiailag) rosszul megformlt kzlemny
azaz helytelenl hangslyozott, nem megfelel hanglejts vagy ppen tl monoton,
beszd az emberi beszdrtst megzavarja, st, meg is tvesztheti, mgis
ritkasgszmba mennek a szupraszegmentlis tartomnybeli kutatsok, a
szupraszegmentlis tartomny akusztikailag is megjelen elemeit a szupraszegmentlis
beszdjellemzket pedig nem hasznljk a beszdfelismersben. rnyalja a kpet, hogy
a fonetikai s fonolgiai tudomny sem egysges rszletekbe menen mr a
szupraszegmentlis jellemzk pontos meghatrozsa krdsben sem, nemhogy az egyes
jellemzk mrnki tudomnyokban is jl felhasznlhat egzakt lersban.

1. A beszd szupraszegmentlis szerkezete


Az emberi beszd szupraszegmentlis, azaz a szegmentumok felett ll, azokon tvel
jellegzetessgeit sokfle nven emlegetik a nyelvtudomnyban. A szupraszegmentlis
szerkezet mellett igen elterjedt a prozdia elnevezs is, de tallkozhatunk a mondat- vagy
szvegfonetikai eszkzk, a beszd zenei elemei, intonci, stb. elnevezsekkel is.
Mivel munkmnak nem clja a szupraszegmentlis jellemzk szigoran fonetikai,
fonolgiai szempontbl trtn vizsglata, ezrt nem is vllalkozom arra, hogy
mlyebben bemutassam e szmtalan elnevezs kztt esetlegesen meglv rnyalatbeli
klnbsgeket, a tovbbiakban a prozdia s a szupraszegmentlis szerkezet fogalmakat
szinonimkknt hasznlom, a tbbi emltett elnevezs hasznlattl pedig tartzkodom.
Fontosnak tartom megjegyezni azt is, hogy a prozdival egyesek ltal szinonimaknt
hasznlt intonci fogalmt megfelel jelentsvel mint hanglejts, azaz mint prozdiai
elem, de nem mint maga a prozdia hasznlni fogom.
A prozdia, illetve a szupraszegmentlis jellemzk pontos definilsnak krdsben
igencsak megosztott, illetve bizonytalan a nyelvtudomny. Egy elterjedt, ugyanakkor
nem tl sokatmond meghatrozs szerint a szupraszegmentlis hangszerkezet azokat a
beszdtulajdonsgokat foglalja ssze, amelyek nem szrmaztathatk [pusztn] a
kzlseket alkot fonmk szekvencilis sorozatbl [35]. Ennl jval megfoghatbb s
rtelmesebb, a tovbbiak sorn jval hasznosabbnak grkez meghatrozst ad a
fogalomra Mark [32]: a szupraszegmentlis szerkezet a beszdprodukcis folyamat
ltal ltrehozott komplex beszdjelnek az a vetlete, amely az id, a frekvencia s az
intenzits folyamatvltozsaiknt rhat le, s amelynek szlelse lland viszonytsban
lehetsges.
Ez a meghatrozs kt fontos szempontot is egysgbe foglal: egyrszt kiemeli, hogy a
prozdiai elemek szlelse mindig viszonytst felttelez, szemben a beszdhangok
szlelsvel, ahol egyfajta objektv kvalitatv osztlyozs is szerepet kap. A fenti
definciban megfogalmazd msik kiemelsre rdemes kittel az id, a frekvencia, s
az intenzits vltozsaiknt val szlelhetsg. Ez szempontunkbl azrt szerencss
megfogalmazs, mert a mszaki gyakorlatban a prozdiai jellemzk kinyerse ppen e
hrom alapmrsre vezethet vissza: az idtartam mrse (1); a frekvencia
meghatrozsa (2), illetve frekvenciatartomnybeli elemzs; s az intenzits mrse (3).
Egyes szerzk (lsd [56]) a hangslyt is kiemelik, mint egy negyedik, jl detektlhat
alapelemet, jllehet a hangsly kialaktsban pp a fent emltett hrom alapjellemz
jtszik szerepet, gy tovbbi megklnbztetse nem igazn tnik indokoltnak mg akkor
sem, ha a beszdfelismersbeli alkalmazsok zmmel ppen a hangslydetekcin
alapulnak.
A szupraszegmentlis szerkezetet ltrehoz elemeket a szupraszegmentumokat
ltalban az albbi 7 tnyezben hatrozzk meg: hanglejts, hanger, hangsly, temp,
ritmus, hangsznezet s vgl a sznet. Ezeket a tnyezket tekintjk t az 1.2
szakaszban, eltte azonban kiemelnm a szupraszegmentlis szerkezet nhny ltalnos
sajtsgt.

1.1 A szupraszegmentlis szerkezet sajtossgai


A beszd szupraszegmentlis szerkezetnek formlsa a beszdhangok kpzsvel
prhuzamosan trtnik, igaz annl kevsb tudatos folyamat [10], ugyanakkor az ember
mr a beszdtanuls korai fzisban kpes alapvet informcik megrtsre, illetve
kifejezsre a prozdia, st akr pusztn a prozdia alapjn.
A szupraszegmentlis szerkezet nyelvi univerzl azaz minden nyelv sajtossga
abban az rtelemben, hogy segtsgvel a beszl modalitst, rzelmeket, szintaktikai s
pragmatikai informcit, stb. fejezhet ki [10], illetve a beszl stlusra rendszerint
jellemz egyfajta prozdiai stlus is. A szupraszegmentlis szerkezet azonban nyelv- (st
egy ponton tl egynre) specifikus abban az rtelemben, hogy az univerzlis prozdiai
eszkzk segtsgvel a beszl az adott funkcit mely szupraszegmentlis jellemzk
(szupraszegmentumok) segtsgvel s hogyan valstja meg. Az egyni specifikumok
trgyalsa termszetesen nem clunk, ugyanakkor a nyelvspecifikus tulajdonsgok kztt
szmos olyan, nyelvek egy kisebb-nagyobb csoportjra jellemz sajtossgot tallunk,
amelyek ugyan nem univerzlisak, mgis szmos nyelv esetn rvnyesek (lsd pldul a
kttt hangslyt az 1.2.1 pontban).
A prozdiai elemek zmmel a hangszalagok (kvzi)periodikus fizikai rezgsre
vezethetek vissza, rzeti oldali megfelelik pedig a hangmagassg, hangossg, illetve a
szubjektven szlelt idtartam. Mg azonban az egyes fizikai paramterek egymstl
egyrtelmen elhatrolhatk, a szubjektv rzeti tulajdonsgokrl ez mr nem mondhat
el [21], az rzeti oldalon e tulajdonsgok szervesen sszetartoznak. Pldul a
hangmagassg megtlsekor nem tekinthetnk el a hangossg, illetve az idtartamok
aktulis alakulsnak vizsglattl sem.
A zaj a prozdiai elemek emberi felismerst sokkal kevsb befolysolja (rontja), mint a
beszdhangokt. E megllapts alapjul szmos nyelvszeti ksrlet szolgl, amelyekre
jelen munkban nem trnk ki.

1.2 Az egyes szupraszegmentumok rvid jellemzse


A szakaszban az egyes szupraszegmentumokat mutatom be rviden.

1.2.1 Hangsly
A hangsly valamely sz egy sztagjnak kiemelse, megklnbztetse a tbbi
sztagtl. Attl fggen, hogy a beszd mely szintjn, milyen egysghez kapcsolva
rtelmezznk, beszlhetnk szhangslyrl, szakaszhangslyrl (szszerkezetek
esetben) s mondathangslyrl, st a szveg szintjn a ttelhangslyt is el szoks
klnteni, ez utbbi azonban szmunkra rdektelen.
Hangslyozs szempontjbl a nyelvek kt csoportba sorolhatk, a kttt s a ktetlen
vagy szabad hangslyozs nyelvek csoportjba. A hangsly ktttsge azt jelenti, hogy
ha a kzlsben valamely sz hangslyos, akkor a hangsly mindig a sz egyrtelmen
azonostott sztagjra esik. A magyar nyelvben a hangsly kttt, mivel mindig az els

sztagon realizldik. Kttt hangsly mg a francia nyelv a szvgi (utols sztagra


es) hangsllyal, az angol s nmet nyelvekben azonban a hangsly ktetlen, st, az
angolban a hangsly jelentselklnt szerep is lehet, pldul a 'contrast' szban
fnvknt hasznlva az els sztagot, igeknt a msodik sztagot hangslyozzuk [21]. Az
angolhoz hasonl nyelvekben teht ltezik az nll szhangsly, a kttt hangslyozs
nyelvekben azonban a hangsly funkcijt magasabb nyelvi szinteken a szszerkezetek
s a mondat szintjn tlti be, szerepe teht tisztn a kzls lnyeges elemeinek
kiemelsre s a kzls logikai tagolsra szortkozik. Megjegyezzk, hogy ers
rzelmek kifejezsekor a hangsly a kttt hangslyozs nyelvekben is eltoldhat,
illetve akr egy sz minden sztagjn is megjelenhet [21].
Szoks elklnteni f- s mellkhangslyokat is. Pldul jelzs szerkezetekben a jelzn
magn fhangsly, a jelzett szn mellkhangsly esik. sszetett szavaknl hasonl
jelensg figyelhet meg.
A hangsly ltrehozsban hrom tnyez egyttesen vagy egyedileg jtszhat szerepet. E
hrom tnyez (1) az alapfrekvencia kiemelkedse a hangslyos sztagon, (2), a
hangslyos sztag nagyobb intenzitssal val kiejtse (ezt nevezzk nyomatknak) s (3)
a hangslyos sztag magnhangzjnak idtartambeli meghosszabbodsa. A francia
nyelvben a hangslyt tipikusan az alapfrekvencia-emelkeds hordozza, mg az amerikai
angolban legjellemzbb a magnhangz megnylsa. (Magyarban a magnhangzk
megnylsa dnten rzelmeket fejez ki [10]). Egyes nyelvszek szerint a magyar
nyelvben a hangsly elssorban nyomatki, azaz intenzitstbbletbl ered, azonban
Kassai [21], illetve sajt tapasztalataim alapjn is meghatroznak tartom a hangslyban
az alapfrekvencia szerept. Annl is inkbb, mivel a hanger emelkedse fiziolgiai
okokbl automatikusan maga utn vonja az alapfrekvencia emelkedst is, mivel a
megnvekedett szubglottlis nyoms a hangszalagokat szaporbb rezgsre knyszerti
[21], gy a hangintenzits s az alapfrekvencia menete sem tekinthetk egymstl
fggetlennek. Tovbbi problma, hogy az intenzitst jelentsen befolysolja a
szegmentlis szerkezet is, mg az alapfrekvencia esetben ez csak a zngs-zngtlen
klnbsgttelre igaz. Kassai azt javasolja, hogy a hangsly vizsglatnl mind az
alapfrekvencia, mind az intenzits, mind az idtartam alakulst vegyk figyelembe,
mivel e ltrehoz paramterekkel a hangsly sokkal bonyolultabb viszonyban van, mint
az intonci (lsd 1.3.2), amelyet tekinthetnk az alapfrekvencia ltal meghatrozottnak.
Az alapfrekvencia s a hangsly kapcsolatt igen rszletesen vizsglja magyar nyelvre
Olaszy [38], kt fontosabb, a hangslyozshoz szorosan kapcsold megllaptst
idzzk e helyen:
 Sztagon bell meredeken esik az alapfrekvencia, amennyiben a sztag kiemelten
hangslyos. Kiemelten hangslyos sztagot tallunk pldul a fkuszpozciban1
ll sz (ige) els sztagjn, illetve ilyen jelleg meredek ess figyelhet meg
eldntend krds utols eltti sztagjban. Ez a jelensg a magyarban
egysgesen jellemz, az alapfrekvencia cscsa pedig minden esetben a
magnhangzban tallhat meg. A meredek ess ktflekppen realizldhat a
hangkrnyezet fggvnyben. Ha a magnhangzt megelz hang zngtlen
gerjeszts (gy F0 nem tartozik hozz), akkor a magnhangzban az
alapfrekvencia a csccsal indt s meredeken esik; ha a magnhangz eltt zngs
1

Fkuszpozcinak nevezi a nyelvszet a mondatban a leghangslyosabb szt, illetve annak helyt.


Magyarban ez jellemzen az ige eltti pozcit jelenti, amennyiben betlttt.

mssalhangzt tallunk a sztagban, akkor az alapfrekvencia a megelz hangban


magasrl indul, de enyhn tovbb emelkedik, cscst a magnhangzban ri el.
A hangslyozs megkvetelte alapfrekvencia-emelkeds elmaradhat akkor, ha a
nyelvi szervezdsben magasabban elhelyezked intonci (lsd 1.3.2) ezt
megkvnja: gyakran tallkozunk ezzel a jelensggel tagmondatok vgn ll
rvidebb (<3-4 sztag) szavak esetben. Ekkor az alapfrekvencia-menet
megfordul, a sz els sztagjn a legalacsonyabb az F0 rtke, majd ezutn
fokozatos emelkedst mutat, cscst az utols sztag magnhangzjn rve el.

1.2.2 Hanglejts, intonci


Az intonci s a hanglejts fogalmakat szinonimkknt hasznljuk, a tovbbiakban
egymstl nem klnbztetjk meg. Az intoncit dnten az alapfrekvencia (azaz a
hangszalagok rezgsnek frekvencija), helyesebben annak idbeli vltozsa hatrozza
meg, jllehet az szlelsben az intoncit meghatroz hangmagassg kis mrtkben fgg
az intenzitstl s az idtl is: pldul nagyobb intenzits mellett az alacsonyabb
frekvencij hangokat mlyebbnek, mg a magasabbakat mg magasabbnak rzkeljk
[21]. Az intonci teht igazi szupraszegmentum, tulajdonkppen a hangmagassg
idbeli vltozsa, e vltozs irnya s sebessge rvn keletkezik.
Az intonci az 1.2.1 pontban trgyalt hangslyt is befolysolja, hiszen mind a hangsly,
mind az intonci jelentsen befolysolja az alapfrekvencit. Valjban az intonci s
hangsly szorosan sszefondik, a tnyleges szintaktikai tagolst (aktulis
mondattagolst2) az intonci s a hangsly egyttesen adjk. ltalnossgban igaz, hogy
minl szorosabb a szintaktikai kapcsolat az egyms utn ll szavak kztt, annl
szkebb hangterjedelemben (rtsd: az alapfrekvencia szkebb tartomnyban vltozik) ejti
ki azokat a beszl.
A hangmagassg folyamatos vltozsai n. dallammeneteket hoznak ltre, melyek a
vltozs irnytl fggen az albbiak lehetnek: ereszked, emelked vagy lebeg. Ha az
ereszkeds, ill. emelkeds idben gyorsan kvetkezik be, akkor es, illetve szk
dallammenetet tallunk. A dallammenetek 5 alapvet tpusa teht: es, ereszked, szk,
emelked, lebeg. A dallammenetek sszekapcsoldva adjk a hanglejtst.
Mivel a hanglejtst a hangmagassg vltozsai hozzk ltre, fontos krds, hogy az
ember milyen fizikai klnbsgi kszb esetn kpes azonostani kt hanginger kztt a
hangmagassgbeli klnbsgeket. A klnbsgi kszb fgg mind a frekvencitl, mind
az intenzitstl, azonban 40 dB intenzitsszint felett, illetve 1 kHz frekvencia alatt
amely tartomnyba az alapfrekvencia is esik llandnak tekinthet s mintegy 3Hz-nek
felel meg [49]. Ezek az rtkek termszetesen tiszta szinuszos hangokra rvnyesek, a
beszd esetn szmos egyb tnyez hatsa befolysolja javtja vagy ppen rontja a
klnbsgek szlelhetsgt. Felttelezhet, hogy a beszddel kzvettett tartalom
szemantikai sszefggsei, az ember nyelvi tudsa, emlkezkpessge, stb. az elbbi,
mg a znge kvziperiodikus jellege s szaggatottsga (hinya a zngtlen
beszdszakaszokon) az utbbi irnyba hatnak. A 3 Hz klnbsgi kszb irnyadnak
azonban mindenkpp tekinthet a beszd esetn is.
2

Az aktulis mondattagols egy-egy mondat szintjn azt jelenti, mely szavak, szkapcsolatok milyen
viszonyban vannak egymshoz kpest, illetve melyek azok a szavak, amelyek szorosan, s melyek azok,
amelyek kevsb tartoznak ssze.

Ezzel is magyarzhat, hogy [alapveten] nem befolysolja az emberi szlelst a


mikrointonci, azaz a beszdhangok kapcsoldsai miatt ltrejv kisebb alapfrekvencia
vltozs, amely gy tudatunktl fggetlen, teht [valsznleg] nyelvi szerepe sincs [10].
Megjegyezzk ugyanakkor, hogy egyes szerzk ([27] s [56]) a mikrointonci szerept
bizonyos szegmentlis sszetevk esetn nem tartjk elhanyagolhatnak, mindenesetre a
mikrointoncival jelen munknkban nem kvnunk foglalkozni.
A ksbbiekben hasznlni fogom az intonci fogalmt mondat szinten is rtelmezett
alakjban, rtelemszeren ekkor a mondat intoncijn a teljes mondat hanglejtst
rtjk, melynek alapvet funkcija a tagols s a modalits jelzse.
A modalits fogalma maga is tisztzsra szorul, magam a tovbbiakban a mondat
modalitsa alatt tisztn a mondat tpust rtem, amely lehet kijelent, krd, felszlt,
felkilt s hajt.

1.2.3 Hanger
A hanger a nyelvszeti szakirodalomban lnyegben a pszichoakusztikai hangossg
fogalmnak felel meg. Jllehet az szlelt hangossgot alapveten a hangintenzits
hatrozza meg, termszetesen a frekvencia, s kisebb mrtkben az idtartam is
befolysolja.
Jl ismert, hogy a hangossg megvltozsnak szlelse frekvenciafgg, alacsonyabb
frekvencin mr kisebb (200Hz-6kHz tartomnyban akr 1 dB) intenzitsvltozst is
szlelnk. A beszd esetben ez a hatr 3 dB krl felttelezhet [49].
A hanger mint szupraszegmentlis jellemz szerepet elssorban mondatok
modalitsnak elklntsben kaphat, ez a felkilt s hajt mondatokban a
legszembetnbb a kijelent mondatokhoz viszonytva.
Mint azt az 1.2.1 szakaszban mr jeleztem, a hangslyt nem tartjom a hanger ltal
meghatrozottnak, azonban ktsgtelen, hogy a hangslyos sztagot ltalban nagyobb
hangervel ejtjk.

1.2.4 Beszdtemp
A beszd tempjt a beszd- s az artikulcis sebessgekkel adhatjuk meg. Elbbi
hnyados az egysgnyi hossz kzlsfolyamra es beszdhangok szmt, utbbi a tisztn
beszdkpzsre fordtott id alatt kiejtett beszdhangok szmt adja meg. A kett kztti
klnbsget az adja, hogy a beszdsebessgbe a sznetek, hezitls, stb. idtartama is
beleszmt, mg az artikulcis sebessgbe nem.
A beszdtemp esetn is igaz, hogy az objektven azonos sebessg beszdet
szubjektven lassabbnak vagy gyorsabbnak tlhetjk a hanger, a hangmagassg, st a
hangslyozs hatsra. Lassabbnak rzkeljk pldul a beszdet mlyebb
hangfekvsben, gyr hangslyozs mellett, mg magasabb hangfekvs, illetve
hangslyozst tekintve dinamikus beszd gyorsabb beszd benyomst kelti [21].
A temprtkek jellemzen nyelv s egynfggek, de termszetesen egynen bell is

variancit mutatnak.
Az tlagos temprtkeknl kevsb ltalnos, m annl sokkal hasznosabb lehet az
egyes beszdhangok, klnsen a sztagok magnhangzinak idtartamt megllaptani,
mivel utbbi egyes nyelvekben a hangsllyal ersen korrell, illetve szmos nyelvre
jellemz, hogy a frzisok (kt beszdsznet, jellemzen levegvtel kzti szakasz),
mondatok vgn a beszdhangok idtartamai megnvekednek.

1.2.5 Ritmus s hangsznezet


A beszdritmus tern a kutatsok mg nem trtk fel kellkppen, mit s hogyan
rzkelnk a beszdben ritmusnak, jllehet a ritmus valamikppen ktsgtelenl ltezik
benne [10]. A ritmus valsznleg szorosan ktdik a hangslyozshoz s az
idtartamviszonyokhoz, mivel azonban a krds egyelre nem tisztzott, s a mszaki
alkalmazhatsga sem ismert, a tovbbiakban nem foglalkozunk vele.
A hangsznezet kapcsn ugyanazokat mondhatjuk, mint a ritmus esetben: a terlet
nyelvszetileg nem kellkppen feltrt. A beszl felismersnek, illetve egyes rzelmek
kifejezsben ktsgtelenl fontos szerepe van a hangsznezetnek, jelen munknkat
azonban ez nem rinti.

1.2.6 Sznet
A sznet az egyik legfontosabb prozdiai jellemz, alapformja a beszdet megszakt
nma szakasz, azaz az akusztikai rtelemben vett jelkimarads. Sznetnek csak a beszd
kzben fellp akusztikai jelkimarads tekinthet, a beszdet megelz s zr nma
szakaszokat ettl clszer elklnteni, ennek neve lehet a csend [21]. Termszetesen
nem tekintjk sznetnek az sszetett kpzs beszdhangokban elfordul jelmentes
szakaszt, gy a zngtlen felpattan zrhangokban a nma fzis semmikppen nem
sznet.
A sznetet a puszta akusztikai jelkimaradsnl tgabban clszer rtelmezni, gy szmos
ms n. sznethordozt azonosthatunk, amelyek a percepci szempontjbl a
jelkimaradssal kzel azonos hatst keltenek. Kassai nyomn [21] a magyar nyelvben az
albbi sznethordozkat klnthetjk el:
 akusztikai jelkimarads
 az egybknt jellemz alkalmazkodsok (pl. hasonulsok) elmaradsa, illetve a
gondos artikulci
 beszdhangok megnyjtsa a sznet eltt vagy utn, illetve a beszdtemp
lassulsa
 glottlis zr megjelense a sz eleji magnhangzk eltt
 kiemelked hangsly
 a hangmagassg hirtelen megvltozsa
 kitlttt (hangos) sznet (pl. -zs, mm-zs)
Gyakori, hogy a fenti sznethordozk egyttesen fordulnak el, ezltal is javtva a sznet
szlelhetsgt. Univerzlis (teht minden nyelvben meglv) sznethordoznak maga az
akusztikai jelkimarads, illetve korltozottan a kitlttt sznet tekinthet, az egyb
sznethordozk jellemzen nyelvspecifikusak.

A sznet nyelvi funkcija a kzlemny tagolsa a knnyebb dekdolhatsg rdekben,


illetve a sznet rvn a beszl s a hallgat is idt nyer, elbbi mondandjnak
megfogalmazsra, utbbi a beszd rtelmezsre. Lehetsget adhat a sznet a beszl
nkorrekcijra is, teht egyfajta hibajelz s -javt funkcit is ellthat. Spontn
beszdben a sznetek jval gyakrabban fordulnak el.
Br a beszd akusztikai megjelenst tekintve eleve szaggatott, de ezt mgsem rzkeljk
sznetknt. Tbbek kztt ezen az alapon is felmerlhet a krds, milyen hossz
akusztikai jelkimaradst szlelnk mr sznetknt. Szmos nyelvszeti kutats
foglalkozott mr ezzel a krdssel (lsd [10], [21] stb.), ltalnosan rvnyes idtartamhatrokat azonban mg nyelv-, st beszlspecifikusan sem igazn sikerlt jl
krlhatrolni, a megllaptott idtartomnyok sokszor tbb nagysgrendet tfognak,
egymssal tlapolnak, gy a szmszer adatok ismertetstl el is tekintnk. Annyi
azonban bizonyos, hogy nagyon vltoz idtartam jelkimaradsokat szmos egyb
tnyez hatsra szlelnk vagy ppen nem szlelnk sznetknt, mg az ennl akr jval
hosszabban ejtett hossz felpattan zrhang nma fzisa pldul nem kelt sznetrzetet.
Mieltt tovbblpnnk, megemltjk, hogy a prozdiai frzis3 rtelmezse ppen kt
sznet kztti beszdszakasz. Tvesen intoncis frzisnak is nevezik, fleg az angol
nyelv szakirodalomban tallkozni ilyen szhasznlattal. Mi a tovbbiakban prozdiai
frzis alatt kt akusztikai jelkimaradssal is jelzett sznet kztti beszdszakaszt,
intoncis frzis alatt pedig olyan beszdszakaszt rtnk, amely hanglejts s
hangslyozs szempontjbl egy egysgnek tekinthet [36], azaz kttt hangsly nyelv
esetn hangslyos sztaggal indt s homogn hanglejts (azaz besorolhat az 1.2.2
alpontban ismertetett 5 alapvet dallammenet tpus valamelyikbe). A nyelvszeti
szakirodalomban tallkozni lehet pldul a hangslyozsi-hanglejtsi szakasz fogalmval
is, ez alatt is az intoncis frzis rtend.

1.3 A szupraszegmentlis szerkezet ltrehozsa s


alapvet funkcii
A szupraszegmentlis jegyek ltal betlttt funkcikkal a legegyszerbben gy
ismerkedhetnk meg, ha azokat mint a beszdprodukci rszeit tekintjk. ppen ezrt a
szakaszban az emberi beszdkpzs egy modelljt tekintjk t rviden [30] s [32]
alapjn. Az 1.1 brn a napjainkban ltalnosan elfogadott, Levelt-fle beszdprodukcis
modell [30] egyszerstett rszlett, mghozz a prozdia genertort lthatjuk, amelyen a
szupraszegmentlis szerkezet kpzst kvethetjk nyomon.

Frzisnak szoks nevezni egybknt minden, valamilyen (prozdiai) beszdesemnytl a kvetkez


ugyanilyen esemnyig terjed szakaszt.

1.1 bra: A folyamatos beszd kpzsnek Levelt-fle modellje ([30] s [32] nyomn)

Az brn szmunkra elssorban a prozdia genertor ngy bemenete rdekes. A prozdia


generlsnak f alapja a felszni szerkezet4. A felszni szerkezetet magt most fogjuk fel
gy, mint egy a beszl ltal mr gondolatilag megfogalmazott kzls vzt, ha gy
tetszik fejben sszerakott mondato(ka)t, amelyeket beszd tjn szeretne kifejezni. Mg
jobb, ha a felolvass esett vesszk, ekkor a felszni szerkezet maga az rott szveg.
Ehhez addik hozz a metrikai szerkezet, azaz ez a bemenet a hangslyok helyt, illetve a
hangslyozsi mintt hatrozza meg. Termszetesen a felszni szerkezet a metrikai
szerkezetre dnt hatssal van, ez kttt hangsly nyelvre fokozottabban igaz.
Szmunkra ebbl a lnyeges az, hogy leegyszerstve a metrikai szerkezet finomtja
tovbb a felszni szerkezet ismeretben pldul azt, hol fog a beszl hangslyozni,
illetve milyen lesz a prozdiai temezs. A harmadik bemenet a szegmentlis
szerkezet, amelyet most nyugodtan azonosthatunk a kimondand beszdhang-sorozattal.
Magtl rtetdik, hogy ez is a felszni szerkezet kzvetett fggvnye5. Vgl a felszni
szerkezethez a beszl hozzadja az intoncis jelentst szndkainak, rzelmeinek,
illetve hozzllsnak megfelelen. Az intoncis jelents teht a beszl szndkt s
rzelmeit tkrzi. Ebbl a ngy forrsbl generlja a beszl a kzls szupraszegmentlis
szerkezett. A prozdia genertor kimenetn a paramterek belltsa az artikulcis
paramterekre vonatkozik. A fonetikai szint terv szmtstechnikai hasonlattal lve a
beszd kpmsnak tekinthet.
Mark megjegyzi
szupraszegmentlis
jelents, mellettk
elhanyagolhat. A

[32], hogy a Levelt-fle modell alapjn a magyar nyelvben a


szerkezetet dnten befolysolja a felszni szerkezet s az intoncis
a metrikai, s kisebb rszben a szegmentlis szerkezet hatsa
prozdia elsdleges funkcija a magyar nyelvben a mondanival

Mivel munkmban terjedelmi okokbl nincs lehetsgem valamennyi, az 1.3 szakaszban felbukkan
nyelvszeti fogalom ismertetsre, ezrt az olvas a [30] s [32] irodalmakban tjkozdhat pontos
defincijukat illeten.
5
Szerepe a magyarban minimlis, ellenben pldul a francia nyelv jellegzetes hangktseit (liasion) ez a
bemenet hatrozza meg.

felszni szerkezetnek, s a beszl viszonyulsnak, rzelmeinek, szndkainak


tkrzse. Munkmban az elbbivel kvnok rszletesen foglalkozni, ugyanis
meggyzdsem, hogy a prozdiai szerkezet nyomon kvetse s az ltala hordozott
informci kinyerse sokat segthet a gpi beszdfelismers technolgijban. gy
vlem, a magyar nyelven kvl szmos ms nyelvben is hasonl felttelek teljeslnek.
Termszetesen nem minden nyelvre igaz a prozdia csaknem tisztn felszni szerkezetet
hordoz szerepe. Egyes nyelvekben a prozdinak lexikai szint jelentselklnt
szerepe is van. Az ilyen nyelveket tonlis nyelveknek nevezik, mg az e tulajdonsggal
nem rendelkez nyelvek a monoton nyelvek. Utbbiakban a prozdia tisztn a magasabb
nyelvi szinteknek megfelel funkcit lt el, amely mint lttuk jellemzen a beszd
rtelmi tagolsban, illetve a mondattpusnak megfelel mondatszint intoncis minta
kialaktsban mutatkozik meg, mg elbbiekben, azaz a tonlis nyelvekben az egyes
szavak jelentse a prozdiai struktrtl, leggyakrabban a sz hanglejtsi mintzattl is
fgg. A legtipikusabban tonlis nyelvekben (ezek fleg dlkelet-zsiai, illetve afrikai
trzsi nyelvek) egy-egy sznak a sz szintjn megjelen hanglejtstl fggen akr 4-5
klnbz jelentse is lehet [21]. Az eurpai nyelvek kzl a norvg, a svd s a
szerbhorvt is tonlis nyelvek. A magyar nyelv a monoton, teht a nem tonlis nyelvek
kz tartozik.

1.4 Nhny alapfogalom


Mieltt tovbblpnnk a szupraszegmentlis szerkezet beszdfelismersbeli
alkalmazsra, rvid kitrt tesznk nhny, a ksbbiekben hasznos alapfogalmak
bevezetsre, illetve jelentsk tisztzsra.
A nyelvszet fejldse sorn rengeteg irnyzat alakult ki sajt szemlletvel s vizsglati
mdszereivel, ezrt magt a nyelvet szmtalan mdon lerhatjuk, elemeire bonthatjuk
vagy kategorizlhatjuk [23], [24]. A gpi beszdfeldolgozs s beszdfelismers
(statisztikai) algoritmusai szintn kialakultak, kiforrtak, m felptskben nem lehettek
tekintettel a nyelvszet ltal meghatrozott kategrikra. gy az a furcsa helyzet llt el,
hogy a beszdfeldolgozs tudomnya szmos fogalmat klcsnz a nyelvszet
tudomnytl, m ugyanazon fogalom az id haladtval gyakran egyre inkbb ms
jelensget fed, mint eredetileg a nyelvszetben. Vlemnyem szerint ennek akr csak
vzlatos bemutatsa mg nyelvsz-beszdtechnolgus szakembereknek is komoly
kihvst jelentene, ezrt erre ksrletet sem teszek. Helyette az albbiakban az 1. fejezet
kiegsztseknt megadom, hogy a tovbbiakban milyen fogalmakat milyen rtelemben
kvnok hasznlni.
Tekintsk a nyelvi egysgeket, amelyeket a strukturlis lingvisztika6 [24] hatroz meg. A
legkisebb, mr nll jelentssel br egysg a fonma (beszdhang), ezt rendre a
morfmk (szelemek), lexmk (szavak), szintagmk (szszerkezetek)7, majd a mondat
s a szveg kvetik8. Ezen egysgekkel lltsuk prhuzamba a szegmentlis s a
6

A strukturlis lingvisztika lnyegben a nyelv szerkezett rja le a legkisebb ptegysgek fell a


legmagasabb nyelvi struktrk fel haladva.
7
A szszerkezet meghatrozs helyett a kicsit ltalnosabb szkapcsolat fogalmat is hasznlom a
tovbbiakban.
8
Egyesek mg megklnbztetik a frzist is, amely a szszerkezet s a mondat kztt helyezkedik el, ettl

10

szupraszegmentlis szerkezetet! Mivel e szerkezeteket elklnt tnyez az idtartam,


ezrt a tovbbiakban szegmentlis, illetve szupraszegmentlis tartomnyknt fogunk
hivatkozni rjuk.
Harmadikknt tekintsk a mrnki megkzeltsben legmegfelelbbnek bizonyult
felosztst [1], s ezeket fogjuk a tovbbiakban nyelvi szinteknek tekinteni, jllehet az
imnt nyelvi egysgknt bevezetett tnyezk is egy szintenknti felosztst adnak, s a
szakirodalomban gyakran tallkozhatunk a fonmaszint, szszint, szszerkezeti szint
vagy ppen mondatszint kifejezsekkel. Mi azonban szintek alatt elssorban az
akusztikai, fonetikai, szintaktikai s szemantikai szinteket rtjk. Ezek a szintek a gpi
beszdfeldolgozs szekvencilis felptsbl addnak, nyelvszetileg ilyen feloszts
nem ltezik. Az akusztikai szint amelyet igazsg szerint inkbb egy vetletnek kellene
tekintennk, hiszen a beszdet hordozza, de hierarchiba csak olyan rtelemben
kapcsoldik bele, hogy a beszdfeldolgozs szksgszeren az akusztikai feldolgozssal
kezddik szmunkra maga az akusztikai beszdjel, s az akusztikai szinthez tartozik
mg minden olyan feldolgozsi lps, amely a beszdjelet valamilyen mdon talaktja.
Az ezt kvet szint a gpi beszdfelismerkben a fonetikai szint, amelyet a beszdhangok
akusztikai modelljei hoznak ltre az akusztikai szintet a beszdhangok, a beszdhang
sorozatok szintjre kpezve. A szintaktikai szintet azonban mr tbbflekpp
rtelmezhetjk. Szigoran vve a beszdfelismer nyelvi modellje szintaktikai szintre
kpez, de a szintaktikai szintbe belerthet a szszerkezetek, mondatok elemzse is, amit
egy beszdfelismer rendszertl hagyomnyosan nem vrtak el, de egy beszdrtsre
kpes rendszerben mindenkppen helye van (pl. [5], [27], [45]). Hasonlt mondhatunk el
a szemantikai szint feldolgozsrl is: eredetileg nem szerepelt a beszdfelismers
repertorjn, mra azonban jelentsen vltozott a helyzet ([27], [58]). A szintaktikai s
fleg a szemantikai szint feldolgozs a termszetes nyelvek feldolgozsnak
tmaterlete, az akusztikai jelfeldolgozs szerepe ebben az lehet, hogy az akusztikai
beszdjelben jelenlv szintaktikai s szemantikai informcit tkrz komponenseket
azonostsa, kinyerje, feldolgozza, majd tovbbadja a termszetes nyelvet feldolgoz
modul szmra.

most tekintsnk el. A morfmkkal sem kvnunk foglalkozni.

11

2. Prozdiai jellemzk akusztikai szint


feldolgozsa s annotlsa
Az 1. fejezetben mr emltettk, hogy a szupraszegmentlis jegyek akusztikai sszetevit
(megfelelit, ltrehozit) hrom alapvet kategriba sorolhatjuk, melyek az idtartam, a
frekvencia, s az intenzits. Az egyes szupraszegmentumok bemutatsa kapcsn is
kitrtnk r, hogy ltrehozsukban a fenti hrom sszetev kzl melyek vesznek rszt.
Ebben a fejezetben a beszd szupraszegmentlis tartomnynak akusztikai feldolgozsi
lehetsgeit tekintjk t rviden, vgezetl pedig megemltnk egy, a szupraszegmentlis
tartomny beszdfeldolgozst segt annotlsi rendszert.

2.1 Az alapfrekvencia
Valamennyi jellemz kzl ktsgkvl az alapfrekvencia mrse a legkomplexebb
feladat. Szmtalan algoritmus alapjn lehetsges az alapfrekvencia meghatrozsa, gy
nem vllalkozhatunk teljes kr bemutatsukra, az ltalunk a ksbbiekben hasznlt
mdszert azonban ttekintjk.
Az alapfrekvencia detektlsnak egyik rgen ismert lehetsges mdja az autokorrelcis
fggvny maximumainak meghatrozsn alapul ([9], illetve [41]). Azaz a beszdjelet
nmaghoz kpest eltolva a legjobb illeszkedst az eredeti s az eltolt fggvny kztt
akkor kapjuk, ha az eltols mrtke ppen a peridusidvel egyezik meg, zngs
beszdszakaszra teht az autokorrelcis fggvny is majdnem periodikus.
Cscskeresssel az autokorrelcis fggvny peridusideje jl meghatrozhat. Az
autokorrelcis fggvny helyett leggyakrabban egy rokon fggvnyt, az tlagos
magnitd klnbsg fggvnyt ([9], ill. [43]) AMDF, Average Magnitude Difference
Function) hasznljk, ugyanis sokkal gyorsabb szmtst tesz lehetv. Az AMDF
fggvny a beszdjel alapperidusnak megfelelen nem maximumokat, hanem
minimumokat ad. Az AMDF fggvny (Dn(k)) pldul az albbi sszefggssel
definilhat:
Dn (k ) =

1 n
| xi xi k |
N i = n N +1

(2.1)

Itt az x beszdjel i diszkrt idpontbeli rtke xi, n az az idindex, amelyre az AMDF


fggvny rtkt szeretnnk szmtani, N pedig az ablakszlessg, amelyre tlagolunk. A
minimumokat a k vltoz szerint kell keresnnk.
A beszdjelbl kinyert alapfrekvencia-rtkeket felhasznlsuk eltt elfeldolgozsnak
clszer alvetni. Leggyakoribb clok az alapfrekvencia kontrjnak (grbjnek)
simtsa a mikroprozdiai ingadozsok eltntetsre s az alapfrekvencia interpolcija a
zngtlen helyeken, ugyanis szmos esetben nehezten a feldolgozst, ha az
alapfrekvencia-menet szaggatott lenne. Egyes esetekben az alapfrekvencit szndkosan
nem interpolljk (pl. [46]), ilyenkor azonban rendszerint nem a teljes beszd, hanem
csak egy-egy jl krlhatrolt beszdszegmens (pl. szhatrok krnyke, egy-egy sztag,
stb.) esetn kvncsiak az F0 alakulsra.

12

Simtsra hatkonyan alkalmazhat, egyszer mdszer a medin szrs [56], jellemzen


5-7-9 pontos9 ablakokkal. Elnye, hogy a zngs-zngtlen hatrt nem mossa el
(szemben pl. az tlagol (mean) szrssel), s valdi, azaz tnylegesen mrt s nem
szmtott F0 rtkeket ad a kimenetn, gy a nhny mintartkre kiterjed durva
ugrsokat is kiszri. Az alapfrekvencia-kvetk a zngs szakaszok kezdetein a
zngseds (voice onset) ideje alatt jellemzen bizonytalanabbak a tnyleges F0-rtk
meghatrozsban, e problmt hatkonyan orvosolja a medin szr. Gyakran mr maga
az alapfrekvencit kinyer algoritmus (pitch tracker) is tartalmaz medin szrt.
Az alapfrekvencia detektlsa sorn fellp msik gyakori problma az oktvugrs,
amikor is a tnyleges alapfrekvencia rtk fele vagy ktszerese jelenik meg a detektor
kimenetn. Ez ellen rszben a beszl F0 tartomnynak megadsval, rszben utlagos
intelligens szrssel lehet vdekezni. A ksbbiekben konkrtan ismertetem az ltalam
hasznlt oktvugrs-szrt, ezrt rszletekbe itt nem bocstkozunk.
A simtshoz hasonlan az alapfrekvencia menet folytonoss ttelre is ltezik egy
egyszer, de igen hatkony eljrs: az egyszer lineris interpolci (pl. [8]), amelyet
logaritmikus tartomnyban elvgezve gyakorlatilag optimlis kzeltst nyernk. Az
interpolci logaritmikus tartomnyban val elvgzst az indokolja, hogy az
alapfrekvencia kezdeti ersds utni hossz lecseng szakasza amennyiben a
hangslyozs s a prozdiai frzishatrok befolystl eltekintnk e-x jelleg
fggvnnyel kzelthet (v. a beszdszintzisben alkalmazott Fujisaki modell [7]).
Az interpolci kifinomultabb mdon is elvgezhet (v. [11]), igaz ltalban a
logaritmikus tartomnyban lineris eljrsok bsgesen elegendnek bizonyulnak. Egy
lehetsges finomtott eljrs pldul a kvetkez: a zngtlen szegmens kzepn egy
alacsony F0 rtket rgztenek, majd lineris interpolcival a szomszdos zngs
szakaszok vg, illetve kezdpontjaihoz illesztik e kzps rtket. Ezt kveten a teljes
jelet csaknem lineris fziskarakterisztikj alultereszt Butterworth szrvel szrik.
Mivel a zngtlen szakaszon alacsony F0-rtket adtunk meg, a szrs a zngs
szakaszok F0 rtkeit is eltorztotta (lehzta), ezrt ezeket a szrs utn eredeti
rtkkre lltjk vissza gy, hogy kzben a zngtlen szakaszra add F0 rtkeket
hozzjuk igaztjk (felhzzk) a zngs-zngtlen hatron jelentkez tlzott megtrets
elkerlse rdekben. Az eljrst iteratvan ismtelni kell mindaddig, amg a szrs utn
a zngs szakasz alapfrekvencia-rtkei kellen kzel nem kerlnek az eredeti
rtkekhez.
Az alapfrekvencia szintmrtkre is tszmthat, erre egy lehetsges eljrs a
ksbbiekben ltalunk is hasznland harmonikus hangmagassgszintre (H) val
tszmts [49]. Ekkor a
H=

12 F0
F
lg 40 lg 0
lg 2 c0
c0

(2.2)

sszefggs adja meg a harmonikus hangmagassgszintet, amelyben c0 rtke szoksosan


c0=131 Hz. H mrtkegysge az n. harmonikus oktv [49]. Mivel az alapfrekvencia
kifejezetten szk tartomnyban vltozik, a logaritmikus sklzsnak a beszdben nincs
9

1-1 pont tvolsga jellemzen 10-30 ms.

13

igazn jelentsge. Normls tekintetben elterjedten alkalmazzk azt a mdszert, hogy a


prozdiai frzis alapfrekvencijnak kizrlag a zngs rszekbl kpzett tlagt
igaztjk egy adott frekvenciaszintre vagy akr nullra.

2.2 Energia
A beszdjel energijnak szmtsa a legalapvetbb jelfeldolgozsi mveletek kz
tartozik.
n

En =

2
i
i = n N +1

(2.3)

Ehelytt csak azt jegyezzk meg, hogy a szupraszegmentlis jegyek figyelemmel


ksrsekor az energit nagyobb ablakkal (nagyobb N-re) szksges szmtanunk, mint
azt a szegmentlis tartomnyban megszokhattuk. Egyes esetekben hasznos lehet az
energia kiszmtst svokra bontva elvgezni, ekkor a svok jval szlesebbek, mint a
hallsmodell alapjn vgzett kritikus svok szerinti szrsoros elemzsnl. Gyakran
hasznljk azonban az sszenergit is, mint a szupraszegmentlis jegyek akusztikai
korrelltjt.
Az energia mint a hangsly s intonci kapcsn mr utaltunk r ersen fgg a
szegmentlis szerkezettl, azaz gyakorlatilag az egyes beszdhangoktl,
szupraszegmentlis tartomnyban azonban megfelelen vlasztott idtartamra tlagolva
hasznos mrszm. A beszdhangra vonatkoztatott normalizls tapasztalataim szerint
legalbbis magyar nyelvre nem ad megbzhat eredmnyt, mivel valsznleg nemcsak
a beszdhang tpust, de sz-, sztag-, st mondatbeli elhelyezkedst is figyelembe
kellene venni, nem beszlve az egyni klnbsgekrl, s arrl sem, hogy beszdhang
hatrok a folyamatos beszdben csak elmletileg lteznek, a koartikulci miatt
sokszor igen nehz egyes beszdhangok szegmentlsa.
Az energia szmtsnl kzponti krds az tlagolsnl figyelembe veend mintk
szma (vagy ha gy tetszik, az idablak nagysga az tlagolskor). Nyilvnval, hogy a
szupraszegmentlis tartomny feldolgozsakor a szegmentlis esetben alkalmazott
integrlsi idk tl rvidek, gy ezeknl nagyobb rtkeket clszer vlasztanunk. Az is
knnyen belthat, hogy a mondathatrok detekcijhoz vagy az intonci kvetshez
valsznleg mg hosszabb ablakokat kell hasznlnunk, mint a szhatr- vagy hangslydetekcihoz.

2.3 Idtartamok
Az alapfrekvencihoz hasonlan az idtartamok mrse is problms. A nehzsg abbl
addik, hogy ahhoz, hogy brmilyen beszdszakasz idtartamt meghatrozhassuk,
pontosan ki kell jellnnk az adott szakaszt. Miutn automatikus algoritmusokkal
dolgozunk, gy e kijellst is automatikusan tudjuk csak vgezni, emiatt pedig
ktsgkvl hibval terhelt eredmnyeket kapunk.
Az idtartamok jellemzen a beszdhangok vagy sztagok hossza rdekelhet bennnket

14

mrsnek kivl alapja a beszdfelismer kimenete, hiszen a dekdols sorn


knnyszerrel megvalsthat annak az llapotsorozatnak visszakvetse, amelyen
vgighaladva a felismersi eredmny addott. Ily mdon az egyes beszdhangok kezds vgidpontjai is rendelkezsnkre llnak. Ennek htultje, hogy a szupraszegmentlis
tartomny feldolgozshoz meg kell vrnunk a dekdols vgt, vagy annak hatkony
szakaszolst kell biztostanunk, hiszen felismersi eredmnynk csak akkor lesz, ha az
adott szakasz vgre rtnk, ahonnan megkezdhetjk a visszakvetst. Ha ehhez
hozztesszk, hogy a szupraszegmentlis tartomny feldolgozsval egyik clunk ppen
a szakaszolhatsg biztostsa lehet, mris oda jutunk, hogy a kt feladat egymst
klcsnsen felttelezi. Termszetesen elmletileg lehetsgnk van arra, hogy e kt
feladatot iteratvan felvltva vgezzk, ehhez azonban megkerlhetetlen, hogy tbb
dekdolsi ciklust futtassunk, ami viszont a futsi id drasztikus emelkedst vonn
maga utn, hiszen a dekdols a beszdfelismers legmveletignyesebb folyamata.
Emiatt vals idej mkdst aligha valsthatnnk meg a mai technikai s technolgiai
sznvonalon.
Az idtartamok kapcsn az energia trgyalsakor emltett problmk ugyancsak
fennllnak. Nem trivilis a normalizls, rszben az abszolt egyrtelm s pontos
beszdhang-szegmentls lehetetlensge miatt, de amiatt sem, hogy rengeteg tnyezre
kell figyelemmel lennnk. Szmolnunk kell a sz-, st a mondatbeli elhelyezkedssel, a
beszdhang tpusval s valsznleg a beszdhang-krnyezettel is, s ekkor mg az
egyes beszlk kztti eltrseket figyelembe sem vettk.

2.4 Beszdfelvtelek szupraszegmentlis tartomny


feldolgozsa
A beszdadatbzisok szupraszegmentlis tartomny prozdiai feldolgozsra a 90-es
vek elejn elszr az amerikai angol nyelvre dolgoztk ki a ToBI (Tones and Break
Indices) annotlsi ajnlsgyjtemnyt [47]. Ksbb szmtalan egyb nyelvre is elkszlt
a ToBI rendszer adott nyelvre specializlt vltozata (pl. [3], [54]), magyar nyelv ToBI
azonban nem kszlt. Mint az elnevezsbl sejthet, a ToBI rendszerben a
beszdsznetek (sz-, frzis- s mondathatrok) jellsre, s az alapfrekvencia nagyobb
vltozsaira koncentrltak.
A magyar nyelvre trtn, a prozdia beszdfelismersben val felhasznlhatsgt clz
kutats megkezdsekor problmaknt jelentkezett a felismers oldali megfelel prozdiai
annotlsi szablyrendszer kidolgozatlansga, illetve a prozdiailag feldolgozott
beszdadatbzisok hinya. Mindezzel egytt a Beszdakusztikai Kutatlaboratriumban
gy hatroztunk, hogy a rendkvl nagy id- s kltsgrfordtst ignyl ToBI-adaptci
helyett nll, a ToBI-nl egyszerbb, rugalmasabb, a magyar nyelv sajtossgaiban rejl
lehetsgeket jobban kihasznl, de adott esetben ms nyelvekre is adaptlhat, nll
prozdiai feldolgozsi rendszert vezetnk be. A ksbbiekben az ltalam kidolgozott s
hasznlt feldolgozsi mdszert ismertetni fogom. A ToBI rendszer meghonostsa ellen
szlt az is, hogy szmtalan sikeres kutats zajlott mr ilyen tpus prozdiai annotls
nlkl, illetve hogy azokra a nyelvekre, amelyekre a ToBI rendszerben feldolgozott
adatbzisok rendelkezsre llnak, az annotlt informcinak csupn tredkt hasznltk
fel tnylegesen.

15

3. A szupraszegmentlis informci
felhasznlsa a beszdfelismersben
3.1 A statisztikai alap state-of-the-art
beszdfelismers
A statisztikai alap beszdfelismersben [15] eredenden nem veszik figyelembe a
beszd szupraszegmentlis szerkezett, csak a szegmentlisat. A napjainkban leginkbb
elterjedtnek tekinthet folyamatos, fonma alap beszdfelismerk felismersi
alapegysge szegmentlis jelleg, hiszen ebben a tartomnyban trtnik a beszdhangok
akusztikai-fonetikai szint modellezse. Az egyes beszdhangokbl a sztr ltal
megadott specifikciknak megfelelen egy adott nyelv szavai konstrulhatk meg, s a
felismersi feladatot magt jellemzen ennek alapjn fogalmazzk meg. Leggyakrabban
az albbi meghatrozshoz hasonl defincikkal tallkozhatunk ([15], [4], [59], stb.): a
felismersi feladat nem ms, mint az ismertnek felttelezett [s szegmentlis
tartomnyban feldolgozott] akusztikai beszdjel folyamhoz legjobban illeszked
szszekvencia kivlasztsa [a sztr ltal megadott s a nyelvi modell ltal lert
kapcsoldsi tulajdonsgokkal rendelkez szhalmazbl]. Az gy rtelmezett felismersi
feladatra sszelltott beszdfelismer egyik fontos alkoteleme a beszdhangokat ler
akusztikai-fonetikai modell, msik fontos eleme pedig a nyelvi modell, amelyeket a jl
ismert formula alapjn Bayes ttelt is felhasznlva a kvetkezkppen rhatunk:
P (W | X ) =

P ( X | W ) P(W )
P ( X | W ) P (W ) ,
P( X )

(3.1)

ahol X jelli az akusztikai beszdjelbl szrmaztatott megfigyelsvektorok sorozatt, W


pedig a keresett szszekvencia. Mindekzben azt is felttelezzk, hogy a beszd s gy
a megfigyelsvektorok egy diszkrt beszdhang szekvencit fednek, annak felszni
megnyilvnulsai, gy az akusztikai modell-re
P ( X | W ) = P ( X | M ,W ) P ( M | W )

(3.2)

ahol M tulajdonkppen a rejtett llapotok sorozatnak felel meg, szegmentlis


tartomnyban. A statisztikai n-gram nyelvi modell esetn a nyelvi modellt a
l

P (W ) = P ( w1 , w2 ,..., wl ) P ( wi | wi 1 ,..., wi n +1 )

(3.3)

i =1

kzelts hasznlatval kapjuk, ergodicitst is felttelezve. Ez a nyelvi modell teht a


nyelv szintaktikai viszonyait10 rja le, a napjainkban ismert eljrsok alapjn korntsem
teljes szintaktikai szint modellezst megvalstva. A szegmentlis tartomnyban
rtelmezett akusztikai s fonetikai szinthez teht a nyelvi modell rvn szintaktikai szint
informci addik hozz, emellett azonban nem veszik figyelembe a szintaktiknak az
akusztikai szinten, de szupraszegmentlis tartomnyban megjelen elemeit, ezltal egy
10

Az n-gram nyelvi modellt nyugodtan nevezhetnnk statisztikai alap szszerkezeti szintaxismodellnek is.

16

jelents informciforrsrl fosztva meg a beszdfeldolgozsi folyamatot. A jelensget


a szemantikai szinten vizsglva tovbbi vesztesg jelentkezik, ugyanis szemantikai
tartalmat a szegmentlis tartomny kzvetlenl gyakorlatilag nem tkrz, ezzel szemben
a szupraszegmentlis igen! Meggyzdsem, hogy a szupraszegmentlis tartomny
integrlsa a gpi beszdfelismers folyamatba nagymrtkben hozzjrulhat egyrszt a
beszdfelismers teljestmnynek javtshoz, msrszt a beszdfelismers egy teljesebb
szintaktikai s szemantikai szint megvalsts irnyba trtn kiterjesztshez, az
akusztikai szinten tekintett beszdjelbl ms mdon ki nem nyerhet informci
dekdolsa rvn. E ponton szabadon idznm Hunyadi Lszl egy gondolatt [13],
miszerint a prozdia s szemantika kapcsolatnak vizsglata kapcsn azt az lltst
fogalmazza meg, hogy a nyelvben a szemantikai tartalmat tkrz Logikai Forma s a
[akusztikai-fonetikai szint] fonetikai reprezentcit hordoz Fonetikus Forma kztti
kapcsolatban a prozdia kzponti szerepet jtszik, a kettt mintegy egymshoz rendelve.
A 3. fejezet tovbbi rszben azt tekintjk t, konkrtan milyen problmk megoldst
vrhatjuk a szupraszegmentlis tartomny (prozdiai) akusztikai feldolgozs, majd a
szegmentlis tartomny analgijra a szupraszegmentlis tartomny fonetikai,
szintaktikai, illetve szemantikai feldolgozs s modellezs megvalstsval. Mivel a
terletet a beszdfelismers kapcsn tudtommal igen kevesen vizsgltk, lehetsgnk
nylik a szakirodalombl nhny konkrt megvalstsi tletet is rviden ttekinteni, a 3.
fejezet befejez rszt ezrt ennek szenteljk. Ennek kapcsn ttekintjk a
szupraszegmentlis tartomny modellezs elvi lehetsgeit is.

3.2 Elvi megfontolsok a szupraszegmentlis jellemzk


felhasznlsa kapcsn
A beszdfelismersben a prozdia felhasznlsakor clszer lehet elklntennk, hogy a
szupraszegmentlis szerkezet elsdlegesen informcihordoz szerep-e, avagy inkbb
msodlagosan, azaz redundns jelleggel hordoz a beszdbl egybknt msknt is
kinyerhet informcit. Nyilvnval, hogy az elsdlegesen hordozott informci esetn a
prozdia figyelembe vtele nlkl valsznleg nem lesznk kpesek ennek az
informcinak a kzlsbl val kiemelsre, mg a msodik esetben elvileg a
szupraszegmentlis szint feldolgozs elmaradsa esetn sem vesztnk informcit.
Azonban ebben az esetben is rdemes lehet a prozdival foglalkoznunk, hiszen a
redundancia rvn lehetsgnk nylik tbb lbon ll, azaz robusztusabb rendszert
sszelltani, vagy az is meglehet, hogy a prozdia alkalmazsval adott esetben
gyorsabban jutunk eredmnyre, arrl nem is beszlve, hogy szmos esetben az
informci prozdit nlklz megkzeltsben trtn kinyerse korntsem tekinthet
megoldott problmnak (lsd a szveg alap szintaktikai s/vagy szemantikai szint
nyelvi elemzs).

3.3 Mondat-, frzis- s szhatr-detekci


Az egyik els pont, amelyen keresztl a prozdit a folyamatos beszdfelismersben is
megprbltk hasznostani, a folyamatos beszdfolyam szegmentlsa kisebb, pldul
mondat, frzis vagy sz egysgekre (lsd pl. [33], [34]). A kutatst az is motivlhatta,

17

hogy pldul viszonylag pontos szhatr-detektlssal a folyamatos beszdfelismerst az


egyszerbb s fleg gyorsabb, izollt vagy kapcsolt szavas felismerkben alkalmazott
algoritmusokkal is meg lehetne oldani [34]. Ennl fontosabb azonban, hogy ltalban a
folyamatos felismerk dekdolsi fzisban nagyon hasznosnak bizonyulhat a mondatok,
a prozdiai frzisok vagy a szavak hatrainak ismerete, ezltal ugyanis lehetsg van a
keressi tr (lnyegben a Viterbi dekdols sorn felptett trellis vagy hipotzis grf)
szmottev egyszerstsre, az ezzel megtakartott mveletigny pedig vagy a mkdst
gyorstja, vagy pldul a sztr, illetve a nyelvi modell bvtst teszi lehetv.
Nem trivilis az sem, hogyan szakaszoljuk a dekdolsi algoritmust, hiszen sejthet,
hogy egyszerbb a dolgunk akkor, ha mondatonknt is vgeztethetjk a felismerst, mr
csak azrt is, mert az n-gram nyelvi modell a mondathatrokon nem felttlenl ad olyan
j becslseket, mint a mondatok belsejben elhelyezked szlncokra [8]. Ha pldul a
nyelvben a mondaton bell a szavak korrelltsga nagyobb, mint mondathatrokon
tvelen, utbbi helyeken a nyelvi modell torztani fog. Hasznos a mondathatrok
ismerete akkor is, ha a nyelvi modellben a mondathatrokat is szerepeltetni szeretnnk.
Mindezek fnyben teht a frzis- s mondathatr-detekci legtrivilisabb alkalmazsi
mdja, hogy a felismers lnyegi megkezdse eltt a detektlt hatrokon mintegy
sztvgjuk a beszdfolyamot, s kln-kln vgezzk rjuk a dekdolst. Ez a
megkzelts azonban tbbnyire nem bizonyul hatkonynak [14], s rendkvl rzkeny a
hatrdetektlsi hibkra. Ezrt ma mr elterjedtebben hasznljk a ktmenetes
beszdfelismersi technikt a prozdiai jellemzk gy akr a szhatrok jelentette
informci megragadsra. Ekkor hagyomnyos, szegmentlis tartomny
beszdfelismers zajlik, ezzel prhuzamosan s egyelre tbbnyire ettl fggetlenl
szupraszegmentlis tartomny feldolgozs s prozdiai osztlyozs, illetve erre
visszavezetett beszdfolyam-szegmentls trtnik. A hagyomnyos felismerst nem
futtatjuk vgig teljesen, hanem a hipotzis grf elkszltvel flbeszaktjuk. Ekkor
kombinljuk a szegmentlis tartomny informcit a szupraszegmentlissal, s a
hipotzis grf slyozst mr gy ksztjk, illetve mdostjuk. A msodik felismersi
menetre marad a slyozott grfbl a legnagyobb pontszm t (utak) megkeresse, azaz a
felismers befejezse. Szmos kutats igazolta, hogy ilyen alkalmazsokban a szhatrok
ismerete a beszdfelismers hibaarnyt cskkenti [12], [27], [53]11.
A szhatrok ismerete valamikppen az emberi beszdpercepciban is szerepet jtszik,
Tth Lszl [50] vgzett tanulsgos ksrleteket annak tisztzsra, hogy hogyan teljest
az emberi percepci, ha olyan feladatokkal kell megbirkznia, mint a gpi
beszdfelismerknek. Az idzett ksrletben a beszdfelismer akusztikai modelljnek
feladatt (beszdhang-felismerst) kellett a ksrleti alanyoknak vgrehajtaniuk olyan
beszdet hallgatva, amely a nyelvre jellemz beszdhang-eloszlsnak megfelelt, de csupa
rtelmetlen szbl llt. Az eredmnyek azt mutattk, hogy az rtelmetlen beszdet
hallgatva mg igen gyenge beszdhang-felismersi teljestmny mellett is meglepen
magas volt a szhatrok felismersi arnya, jllehet a beszl termszetesen nem tartott
sznetet azok rzkeltetsre.
Napjainkban az automatikus mondathatr-detektls renesznszt li, hiszen Broadcast
News adatbzisokban j kiindulsi alapja lehet a tma szerinti osztlyozsnak [46],
11

A szerzk [53]-ban nem a felismersi hibaarnyt, hanem azt vizsgltk, hogy a 10 legnagyobb pontszm
ton a helyes hipotzis tlagosan hnyadik helyre volt rangsorolva.

18

prbeszdekben, tbbszerepls beszlgetsben a beszlvltsok detektlsnak [26],


kpezheti a szemantikai feldolgozs alapjt [57], stb.

3.4 Mondattagols s modalits


A szupraszegmentlis szerkezet szmos esetben elsdlegesen hordozhat informcit a
modalits s az aktulis mondattagols12 tekintetben. Az ezt kihasznl alkalmazsok
jellemzen szintn hatrdetekcin alapulnak ([7, 8]), de fokozottan figyelembe veszik a
szintaktikai s szemantikai sszefggseket is ezek nagy rszt egybknt ppen a
szhatr-detekci kapcsn kezdtk/tk el vizsglni. Persze a mondat modalitsa azaz a
mondat tpusa , illetve a helyes, az aktulis kzlsnek megfelel mondattagols szmos
esetben kikvetkeztethet alapvet szintaktikai vagy szemantikai szint megfontolsok
alapjn, ilyenkor a prozdia redundns jelleggel megersti ezt az informcit.

3.4.1 Modalits s tagmondatokra bonts


A mondat modalitsa alatt a mondat tpust rtem, amelyet elssorban az intonci
hatroz meg. Modalitsa szerint a mondat lehet kijelent, krd, felszlt, felkilt vagy
hajt.
A hagyomnyos beszdfelismersben a mondat modalitsnak automatikus felismerse
gyakorlatilag nem lehetsges13, illetve csak toldozott-foldozott trkkzssel oldhat
meg korltozott szinten, pldul az rsjelek nyelvi modellbe val felvtelvel s a
hozzjuk tartoz fiktv sztrelem definilsval. Ha a modalitst mgis meg szeretnnk
hatrozni, prblkozhatunk a termszetes nyelvfeldolgozsban hasznlatos szintaktikai
vagy szemantikai eszkzkkel, elemzkkel. Pldul krd mondatok esetn szintaktikai
szint rulkod jel lehet a krdsz jelenlte, vagy egyes nyelvekben az alanylltmny inverzi, az igekt elvlsa, stb. E mdszer egyik nagy htultje, hogy a
felismer szvegkimenetn dolgozik, gy felmerl az esetleges felismersi hibk
tovbbterjedse a modalitst meghatroz modulba is. Emellett knnyen elkpzelhet
olyan eset is, hogy a prozdin kvl semmilyen ms elem nem jelzi a modalitst.
Tekintsk pldul az albbi, dialgusbl kiragadott pldt:
Ngy rakor tallkozunk
rsban a megfelel rsjelbl eldnthetjk, hogy a beszl lltsknt vagy krdsknt,
esetleg felkiltsknt fogalmazta-e meg a fenti mondatot, ha azonban csak az elhangz
kzlemnyt ismerjk, egyedl a szupraszegmentlis szerkezet a mondat intoncija
alapjn tudjuk egyrtelmen eldnteni a modalitst. Klnsen fontos a krds s llts
elklntse, hiszen a krdsre a dialgusban rendszerint vlaszolnunk kell (pldul
megerstssel), mg az llts inkbb tudomsul veend tnyt kzl. Kln kiemeli a
problma fontossgt, hogy pldul informcis lekrdezskor azaz a beszdfelismerk
egyik hagyomnyos mkdsi terletn tipikusan krdsek s megerstsek
12

Az aktulis mondattagols lnyegben azt adja meg, mely szavak, szszerkezetek tartoznak egybe, illetve
ezek egymssal milyen viszonyban llnak, azaz tulajdonkppen szempontunkbl a klasszikus
mondatelemzsnek felel meg.
13
Eltekintve termszetesen attl a trivilis, de korntsem felhasznlbart megoldstl, hogy a mondat
vgn kln jelezni kell e kiteend rsjelet.

19

vltakoznak a beszlgets sorn.


Hasonlan fontos szerepet jtszhat egyes esetekben a prozdia a kzlemny tagolsa
szempontjbl, hiszen elkpzelhet, hogy az aktulis mondattagols fggvnyben a
jelents is gykeresen megvltozik, mint pldul az albbi mondatban:
Jnos mondta Pter ksik
rsban vesszvel, mg a beszdben a megfelel intoncival s sznettel jelezzk a fenti
mondat megfelel tagolst, ennek ismeretben tudunk dnteni arrl, hogy a beszl azt
akarja-e kzlni, Jnos mondta Pter ksik, azaz Pter azt mondta, hogy Jnos
ksik, avagy Jnos mondta, Pter ksik, azaz Jnos mondta, hogy Pter ksik. A fenti
problematikt tkrzi az a kirlynt meglni nem kell flnetek j lesz ha mindnyjan
beleegyeztek n nem ellenzem kzlemny tagolsnak fggvnyben ltrejv kt
egymssal homlokegyenest ellenttes jelents (lsd [10]), igaz ez az eset
beszdfelismersi feladatban kevss realisztikus pldnak tekinthet, gy a kt
lehetsges jelentsvltozat bemutatstl el is tekintnk.

3.4.2 A szintaktikai elemzs elsegtse


Az elz pontban elmondottakhoz fontos azonnal megjegyeznnk, hogy a
szupraszegmentlis szerkezet sokszor finomabb tagolst is tkrz, mint amit rsban
jellnnk [27], ezt az lltst sajt tapasztalataim is altmasztjk. Az aktulis
mondattagols teht semmikppen nem jelenti csupn a vesszk vagy a mondatvgi
rsjel(ek) helyes kittelt, hanem a szintaktikai viszonyokat jval rnyaltabban tkrzi.
Emiatt a prozdia a mondattagolsnl kisebb lptket tekintve is hasznos lehet a
szintaktikai elemzsben, hiszen a szintaktikai egysgek behatrolsa rvn jelentsen
megknnytheti a rszletesebb szintaktikai elemzst, amelynek komplexitsa cskkenhet,
sebessge s megbzhatsga (egyrtelmsge) jelentsen nvekedhet, illetve
alkalmazhatsgi kre jelentsen bvlhet a prozdiai informci sikeres kiaknzsval.
Emlkezznk r, hogy a Levelt-fle prozdia produkcis modellben a felszni
szerkezetnek kitntetett szerepe van aligha vletlenl.
Msrszrl, a mai gpi feldolgozs s gpi tuds egyelre nem annyira kifinomult, mint
az emberi, ezrt sokszor az ember szmra a nyelvileg egyrtelmen rtelmezhet kzlst
gpi szinten egyrtelmsteni szksges, ezrt clszer minl tbb tudsforrst bepteni
a beszdrt rendszerekbe [27], kihasznlva a mr emltett nyelvi redundancit. A
krdskrrel rszletesebben foglalkozunk a 4. fejezetben, ahol egyik tzisem ppen a
szupraszegmentlis tartomnyban feldolgozott akusztikai jellemzk s a mondat
szintaktikai tagolsnak sszefggseire vonatkozik majd. A 3.3 pontban bemutatott
szhatr-detekci tekinthet a szintaktikai elemzs egyszer esetnek.

3.5 A szemantikai rtelmezs tmogatsa


A szemantikai s pragmatikai szint mondat- s szvegelemzsben a prozdia szintn
kiemelt szerep lehet. Ha a mondat topik-prediktum szerkezett (a topik-komment,
illetve a tma-rma szerkezet gyakorlatilag ugyanezt fedi)14 tekintjk, akkor ltalnosan
14

Rszletesen lsd pl. [23], [24]

20

elmondhat, hogy a topik a mr ismert informcit tartalmazza, amelyhez a prediktum


rsz valamilyen j informcit ad hozz (v. [27]). gy is fogalmazhatunk, hogy a topik
a mondat logikai alanya, a prediktum pedig a logikai lltmnya [6]. A prediktum
meghatrozsa szerint az els hangslyos sszetevvel kezdd mondatrsz, gy a
prozdia segtsgvel knnyen azonosthat. A prediktumon bell az ige eltti pozci, a
mondat n. fkusza specilisan megklnbztetett, tartalmilag, s ennek megfelelen
hangslyozsban is a mondat slypontja.
A fkuszpozci nem minden esetben van betltve, ebben az esetben a hangsly az igre
esik (ezt igei nyomatk mondatnak is nevezik). Ha azonban betlttt, a hangslyt
elveszi az igtl (s pldul a magyarban ekkor az igekts igk igektje is elvlik s az
ige mg kerl).
A fkuszon kvl a kvantorok15 is specilis helyzetben szerepelhetnek a prediktumban,
ugyanis ha szerepelnek a mondatban, a fkusz el kerlnek. Ez a kvantorpozci.
Kvantorbl akr tbb is lehet a mondatban, ekkor a kvantoros igei kifejezsek a
prediktumot mintegy rtegekre, skokra bontjk, s minden ilyen rteg els f
sszetevjre hangsly esik [6].
Az elmondottakat nhny pldn is megvilgthatjuk (flkvr karakterekkel kiemelve
mindig a prediktum szerepel, a kiemeletlen rsz a topik):
(a) Ma reggel Pter lement a boltba.
(b) Ma reggel Pter ment le a boltba.
Az (a) mondat egyszer igei nyomatk mondat, mg a (b) pldamondatban a Pter sz
fkuszpozciba kerl, szerepe a kimert azonosts [6], azaz annak kiemelse, hogy
Pter s nem valaki ms ment le a boltba. Hasonlan, a fkusz az adott mondatban t is
helyezdhet attl fggen, hogy a beszl milyen informcit szndkozik kiemelni: a
(c) mondatban a hangsly a boltba szn van, (azaz a boltba s nem mshova ment le
Pter jelentst kiemelve); a (d) mondatban a hangsly az idhatrozra kerl.
(c) Ma reggel Pter a boltba ment le.
(d) Pter ma reggel ment le a boltba.
Az (e) mondatban a minden kvantor s a hatkrbe es reggel sz llnak
kvantorpozciban, a fkuszpozci betltetlen, mg az (f) mondatban a kvantor utn a
fkuszpozci is betlttt. Az (e) s (f) mondatokban a kvantorpozcit alhzssal
jelltk.
(e) Pter minden reggel lement a boltba.
(f) Pter minden reggel a boltba ment le.
Termszetesen nem clunk s nem is tisztnk rszletesebben elmlyedni a mondattanban,
a fentieket mgis fontosnak tartottuk kiemelni annak rdekben, hogy a prozdia
jelentsgt szemantikai szinten is rzkeltethessk.
15

A kvantor egyfajta hatrozatlan determinns, amely a hatkrbe (pl. utna) kerl fnvhez mennyisgi
jelleg attribtumot ad.

21

3.6 Szupraszegmentlis jellemzk felhasznlsa a


fonmafelismersben
A szupraszegmentlis jellemzket ebben a megkzeltsben lnyegben a szegmentlis
tartomnyban hasznljuk fel, hiszen a fonmafelismers egyrtelmen szegmentlis
feladat. Az ellentmondst rszben feloldja, ha megjegyezzk, hogy ebben az esetben arra
gondolunk, hogy egyes szupraszegmentlis jellemzk szegmentlis tartomnyban is
detektlhatak, pldul egy megnylt vg kzls (lassul beszdtemp) esetn
rendszerint az egyes beszdhangok klnsen a magnhangzk tbb sztagra
kiterjed idtartambeli nylsa szegmentlisan is szlelhet.
Waibel a prozdia beszdfelismersbeli felhasznlsi lehetsgeit ttekint munkjban
[56] emlt nhny amerikai angol nyelvre vgzett fonetikai kutatst, amelynek alapjn
felttelezheten van nmi szerepe a prozdinak a szegmentlis tartomnyban is, a
tovbbiakban azonban nem foglalkozik vele. A sznetek kapcsn korbban ismertetettek
kapcsn is felmerlhet, hogy egyes sznethordozk nha nagyon is szegmentlis
jellegnek tekinthetk (v. 1.3.6). Kompe sszefoglal munkjban [27] szintn csak
emltst tesz errl a lehetsgrl s megjegyzi, hogy angol nyelvre egyes szavak hangsly
alapjn trtn elklntshez hasznos lehet a prozdia szegmentlis tartomnybeli
felhasznlsa. Szmos fonetikai kutats (pl.: [29]) vizsglja a terletet, beszdfelismers
szempontjbl rszletesen foglalkoznak a problmval Chen s tsai. [22], akik
prozdiafgg allofn akusztikai-fonetikai beszdhang modellezsi eljrst javasolnak.
Az allofn modellek elssorban a klnbz fonma idtartamok, illetve esetleg a
hangslyozs kvetkeztben tisztbb artikulci finomabb modellezse rvn lehetnek
hatsosak, ez utbbi esetben teht a kepsztrlis jellemzk is vltozhatnak, ennek
modellezsbeli lekezelse azonban korntsem egyszer feladat (v. [39]). Br Chen s
tsai. s Ostendorf [39] ksrleteikben rtek el eredmnyeket, ezzel egytt elmondhat,
hogy a prozdiai jellemzk beszdhang-modellezsben val felhasznlsa mg krdses
terlet a beszdfelismersben.

3.7 Irodalmi ttekints konkrt alkalmazsok


Ebben a pontban az eddig elmondottakat szeretnm jobban megvilgtani nhny konkrt
szakirodalmi plda alapjn.

3.7.1 Prozdiai modellezs lehetsgei


Ostendorf s munkatrsai ttrkknt vizsgltk a prozdia felhasznlsi lehetsgeit a
beszdfelismersben amerikai angol nyelvre [39], [53]. Megkzeltsk a prozdira
gyakorlatilag megegyezik a beszdfelismers hagyomnyos paradigmjval: a felismersi
feladatot kzbens fonolgiai szint beiktatsval fogalmazzk meg, ezttal
szupraszegmentlis jellemzkre [53]:

P( X s | H ) = P( X s | M s ) P(M s | H )

(3.4)

Ms

Krds teht, hogy egy-egy rgztett felismersi hipotzis (H) mellett mennyire valszn
a megfigyelt Xs, ezttal szupraszegmentlis tartomnyban tekintett akusztikai realizci.

22

Ha felttelezzk, hogy a meghatrozott akusztikai realizcik egy-egy jl krlhatrolt


prozdiai esemnyhez tartoznak, akkor ebbl kpezhetnk egy prozdiai
esemnysorozatot, az ennek megfeleltetett rejtett llapotsorozat Ms, mely ezttal
szupraszegmentlis esemnyekre rtelmezend. A (3.4) sszefggst (3.2)-vel sszevetve
jl lthat, hogy a fonma alap beszdfelismershez hasonlan arra visszavezetve
ismt kt modellre van szksg: (3.4) jobb oldalnak els tagja megadja, hogy adott
prozdiai esemnysorozatra egy-egy akusztikai realizci mennyire valszn, mg a
msodik azt, hogy az adott felismersi hipotzis esetn (rtsd pl. egy adott hipotetikus
szlncot tekintve) az Ms prozdiai esemnysorozat mennyire valszn. Mskppen
fogalmazva a P(Xs|Ms) modell funkcijt tekintve megadja, hogy az egyes
szupraszegmentumok melyek itt a hangslyra s sznetekre korltozdnak milyen
mrhet akusztikai jellemzkkel rhatak le, azaz tulajdonkppen azt definilja, mit jelent
az egyes jellemzk akusztikai szint vltozsa a nyelvben. A msodik modell, a P(Ms|H)
adja a prozdia-szintaxis megfeleltetst, hiszen egy-egy hipotetikus szlnc (parse) adott
szintaktikai struktrval rendelkezik. Az ehhez a szintaktikai struktrhoz val prozdiai
illeszkeds (ez tekinthet szupraszegmentlis jegyek megalapozottsgnak,
adekvtsgnak is) mrszma a szmtott valsznsg. Lthat teht, hogy
lnyegben a P(Xs|Ms) modell a beszdfelismersbeli akusztikai-fonetikai, a P(Ms|H) a
nyelvi modellel azonos szerep. Az Ms esemnysorozat maga lehet pl. a sztagok
egymsutnjnak hangslyos volta, sznetek meglte vagy elmaradsa, ill. tpusa (v.
[53] s 2.4 szakasz), stb.
A prozdia egy lehetsges felhasznlsa a beszdfelismersben teht, ha a kzls
szupraszegmentlis szerkezett egy referencival vetik ssze, amelyet a szintaktikai
struktra ismeretben generlnak le. Ehhez termszetesen szksg van a felismersi
hipotzisekre. Az aktulis s a referenciaminta korrelcija alapjn (hasonlsgnak
mrsvel) a szmtott hasonlsgi mrtk vagy pontszm (score) rvn a felismersi
hipotzisek (jra)slyozhatak, gy az akusztikai-fonetikai slyok, illetve a nyelvi modell
ltal adott szintaktikai slyok utlag kombinlhatk a prozdiai pontszmokkal mint
slyokkal. Ez a mdszer a felismerst kiss lasstja, hiszen a szupraszegmentlis
referenciastruktra generlshoz mr a Viterbi algoritmussal slyozott hipotzis grfnak
el kell llnia.
A szupraszegmentlis informci feldolgozst mlyebben is a beszdfelismerbe
integrlva a szupraszegmentlis tartomny feldolgozst a hagyomnyos
beszdfelismers egyes fzisaihoz szorosabban is hozzkapcsolhatjuk [53]: ekkor a
zmmel sznkpelemzsen alapul elfeldolgozs kiegszl a szupraszegmentlis
jellemzk kvetsvel s elfeldolgozsval, a nyelvi modell pedig prozdiai informcit
is tartalmaz. Azaz a hagyomnyos beszdfelismerssel szemben, melynek sorn a
legvalsznbb szszekvencit keressk az adott akusztikai (szegmentlis) jellemzk
ismeretben, most a szszekvencit s az elvlaszthatatlanul hozzkapcsolt, teht mr
egyrtelm szintaktikai elemzst egytt keressk a szegmentlis s szupraszegmentlis
tartomnyban feldolgozott akusztikai forma ismeretben.
Veilleux s Ostendorf [53]-ben bemutatott, s fentiekben vzlatosan ttekintett mvben
a szerzk a prozdiai jellemzk beszdfelismersbeli felhasznlst vizsgljk, mgis a
szegmentlis tartomny fel cssznak. Ez jl kivehet abbl, hogy az elz bekezdsben
bemutatott mlyebben integrlt rendszer tulajdonkppen nem ms, mint egy olyan
fonma
alap
beszdfelismer,
amelybe
szegmentlisan
reprezentlhat

23

szupraszegmentlis jellemzket csempsznek. Ezt megtehetik, mivel a hangslyt s a


szneteket vizsgljk, ezek ugyanis akusztikailag a szegmentlis tartomnyban szoksos
lptkek mellett is azonosthatk. Vlemnyem szerint mdszerk igen hatsosan
alkalmazhat az amerikai angol nyelvre, amelyben a szintaktikai viszonyok akusztikai
jelzsben kiemelked jelentsg a szegmentlis szerkezet idbeli modulcija.

3.7.2 A VerbMobil automatikus fordt- s tolmcsolrendszer


A prozdia beszdfelismersben val felhasznlhatsgt vizsgl, ismereteink szerint
eddigi legtfogbb kutats a VerbMobil projekt [8, 11, 27, 28, 58] keretben zajlott 2000ig. A Verbmobil projekt maga gpi fordts s vals idej tolmcsols megteremtst
clozta, ehhez a tervezett rendszer beszdfelismer komponenst is tartalmazott, ennek
kapcsn vgeztek ksrleteket a szupraszegmentlis jellemzk beszdfelismersbe val
integrlsra.
Egyik kiindulsi alaptletk [8], hogy a frzishatrokat a szavakhoz hasonlan
szerepeltetik a nyelvi modellben. Ennek altmasztsra [8]-ben a szerzk
hangslyozzk, hogy mondathatrokon a nyelvi modell nem ad megfelel becslst
(alulbecsls jelentkezik). A frzishatrok detektlst szorosan a beszdfelismers
folyamatba integrljk, ennek megfelelen gyakorlatilag egyes alapvet
sznethordozkat a csndet, kitlttt sznetet s ms nem-verblis jelensgeket
modelleznek HMM technikval. E mdszer korltai els olvasatra is szembetnek: ezek
az alapvet sznethordozkat ler HMM modellek lnyegben szegmentlis
tartomnyban mkdtek, s a beszdhang modellekkel analgnak tekinthet akusztikaifonetikai csnd, hezitls, stb. modelleket valstottak meg, s nem is ismeretlenek a
beszdfelismersben, hiszen a csendet, kitlttt sznetet minden beszdfelismer
rendszerben kezelni kell. A mdszer jat abban a tekintetben hozott, hogy a frzishatrok
megjelentek a nyelvi modellben is, logikailag egy-egy specilis szra lettek lekpezve,
amelyeket rsjelekbl, illetve a nyelvi modell betantsra szolgl szvegkorpusz
szintaktikai-szemantikai elemzse rvn knnyedn el lehetett helyezni automatikusan is.
Ms krds, hogy e beszdszintzis kapcsn is alkalmazott eljrsok rvn ugyan
prozdiailag megfelel minta generlhat az adott szvegre, korntsem biztos azonban,
hogy az gy ksztett generatv modell analitikai alkalmazsban is megllja a helyt.
(Ugyanez elmondhat egybknt a 3.7.1 pontban bemutatott eljrsrl.) Nmet nyelvre
vgzett ilyen irny vizsglatok szerint az automatikus frziscmkzs 92%-os fedst
mutatott lehallgatsi tesztek sorn a hallgati tletekkel [2]. Mindenesetre a prozdia egy
szkebb szeletnek ezltal megfelel helyet sikerlt tallni a mr ltrehozott
rendszermodelleken bell gy, hogy abba minden tovbbi jelentsebb mdosts nlkl is
illeszkedik. St, mivel spontn beszdben gyakran nem csak szintaktikailag indokolt
esetekben tart sznetet a beszl, hanem pldul a mentlis lexikonban trtn keress
idejre a prozdiai frzis kzben is (ekkor jellemzen kitlttt sznetet tallunk), ezrt
[8]-ben megklnbztettk azokat az eseteket, amikor a sznetjelensg szintaktikailag
indokolt s amikor nem. Ennek megfelelen kt HMM modell kszlt egy adott
akusztikai sznetjelensgre a szintaktikai megalapozottsgtl fggen. A szintaktikailag
nem megalapozottnak (indokoltnak) osztlyozott szneteket a tovbbi feldolgozs sorn
egyszeren figyelmen kvl hagytk.
Az eljrs ltalnostsaknt a VerbMobilban ksrletet tesznek arra is [8], hogy egy keret
erejig akkor is modellezzk a frzishatrt, ha az egybknt a sznetre, kitlttt sznetre,

24

stb. betantott HMM modellek rvn nem lenne lehetsges. Ez trtnik, ha pldul nem
tallhat az ltaluk modellezett sznethordoz a frzishatron. (Vlemnyem szerint
klnsen a spontn beszdben ez igen gyakori eset, jllehet [8]-ben erre vonatkoz
adatokat nem talltam.) Egy keret felldozsval azonban lehetv vlik a tgabb
rtelemben, valban szupraszegmentlis tartomnyban megvalsul frzishatrdetektls, ugyanis a ms ton, teht nem HMM modellel detektlt frzishatr ily mdon
a felismersi folyamatban elll HMM lncolatba szrhat. Ehhez persze kln
prozdiai modulra van szksg, amely a VerbMobilban szupraszegmentlis jellemzk
(F0 s energia, illetve bellk szrmaztatott mennyisgek) felhasznlsval vgez
frzishatr-detekcit MLP-vel megvalstott osztlyozs alapjn. Az MLP (Multi Layer
Perceptron) osztlyoz minden keretre meghatrozza a frzishatr valsznsgt. A
prozdiai modullal kibvtett beszdfelismer felptse (a hipotzis grf elkszltig) a
3.1 brn lthat.
Szupraszegmentlis akusztikai
elfeldolgozs

Beszdjel

MLP
Frzishatrdetekci

Szegmentlis
akusztikai
elfeldolgozs

HMM

Szfelismers

Nyelvi modell

Prozdiailag
slyozott
hipotzis grf

3.1 bra: Beszdfelismerbe illesztett prozdiai osztlyoz blokkvzlata ([8] nyomn)

Az brn szaggatott vonallal jellt irny a szupraszegmentlis tartomny a szegmentlis


tartomny feldolgozson alapul beszdfelismersi folyamatba val szerves
integrlhatsgnak tipikus problematikjt jelzi: nyilvnvalan elnys lenne a
szegmentlis s szupraszegmentlis tartomnyokat egysgesen s szimultn kezelni, s
ezltal jl ttekinthet s optimlis rendszert megvalstani, hiszen a kutati kzssg is
vlelmezi, hogy a kt tartomny az emberi percepciban sem vlik el lesen egymstl,
kzttk a folyamatos informciramls biztostott. Ugyanakkor ha hozztesszk, hogy
a szupraszegmentlis jellemzk rtelmezse sokszor felttelezi a szegmentlis
tartomnyban nyert informci rendelkezsre llst (pldul a beszdtemp
megtlshez ismernnk kell a beszdhang szint szegmentlst), mris hatalmas
pofont adtunk az integrlt rendszernknek, hiszen ekkor a szegmentlis feldolgozsnak
meg kell elznie, de legalbbis eltte kell jrnia a szupraszegmentlis tartomnynak. A
gyakorlatban ppen ezrt tbb-kevsb azt a kompromisszumos megoldst vlasztjk
([8], [53], stb.), hogy kln valstjk meg a szupraszegmentlis tartomnyt feldolgoz
prozdiai modult, de megprbljk azt a dekdols minl korbbi fzisban megvalsul
informcicservel szorosan a rendszerbe fzni, ez azonban csak korltozottan jelent a
sz valdi rtelmben vett integrltsgot.
Megjegyezzk, hogy a 3.6 pontban bemutatott eljrsok szupraszegmentlis jelleg
informci hasznlata a fonmafelismersben ppen a fordtott irny,
szupraszegmentlistl a szegmentlis fel trtn informciramls megteremtst

25

clozzk. Valsznnek tartom, hogy a jvben a tnyleges integrcit valamilyen e


mindkt irnyt biztost rendszertl vrhatjuk, ez azonban tovbbi kutatsokat s
elrehaladst felttelez mind az emberi percepci, mind a gpi felismers terletn.

3.7.3 Szhatr-detekci alapfrekvencia alapjn


Iwano s trsai a japn nyelv specilis adottsgait kihasznlva a prozdiai sajtossgokat
is felhasznltk a beszdfelismersben [12, 14]. Tonlis nyelvek esetn amgy is
megkerlhetetlen az alapfrekvencia kezelse, ami csak szupraszegmentlisan oldhat
meg, nem vletlen, hogy a knai vagy az Indiban beszlt bengli [31] nyelvekre is
napvilgot lttak a prozdia dnten az alapfrekvencia beszdfelismersbeli
alkalmazst firtat kutatsok. Visszatrve a japn nyelvre, jllehet az nem tonlis,
mgis, az alapfrekvencia vltozsa a flsztag (pontosabban ennek japn megfelelje, a
mora) szintjn igen gazdag, s hozztartozik a helyes kiejtshez. Iwano s mtsai
prozdiai sznak nevezik azokat a gyakran valban szavaknak vagy szrszleteknek
megfelel, nll alapfrekvencia-mintzattal jellemezhet egysgeket, amelyek a japn
nyelvre jellemzek. Ezt gy is felfoghatjuk, hogy a japn szavaknak nll de nem
jelentselklnt alapfrekvencia-mintzata van. Innen mr egyenes t vezet egy olyan
beszdfelismer megvalstshoz, amely ezt az alapfrekvencia-mintzatot is figyelembe
veszi. A rejtett Markov modelles beszdfelismer architektrn semmit nem kell
vltoztatni, elegend, ha a kepsztrlisan reprezentlt, szegmentlis tartomny
jellemzvektorok helyre a szupraszegmentlis tartomnyban feldolgozott,
alapfrekvencibl szrmaztatott jellemzk kerlnek. Ezutn Markov modelleket tantanak
az alapfrekvencia-mintzat alakfelismersre (sszesen mindssze 7-et), illetve bi-gram
prozdiai nyelvi modellt adnak a Viterbi dekdols elvgzshez (v. (3.4) sszefggs).
Felismerskor a szegmentlis s szupraszegmentlis tartomny modellek prhuzamosan
futnak, majd a ktmenetes felismersnek megfelelen a felismers megszakad a
pontszm-kombinci idejre, hogy azutn a kirtkelssel folytatdjon. Az gy
megvalstott felismer sztagfelismersi arnya [12] szerint a prozdia nlkli esethez
kpest 74,5%-rl 76,7%-ra nvekedett. Kr, hogy a ksrleteket csak 2 (!) beszlre
vgeztk el, mert gy tnik, a japn nyelvre rdemes lenne tovbb foglalkozni a
tmaterlettel.

3.7.4 Lexikai alap mondathatr detekci


Az SRI-ben a Switchboard s az LDC Broadcast News adatbzisn vizsgltk a
mondathatrok detektlhatsgt (mondatszint szegmentlst) s a tma szerinti
osztlyozst, illetve az eltr tmj szakaszok hatrainak detektlhatsgt [46].
Mindkt szegmentlsi feladatot elvgeztk mind prozdiai jellemzk felhasznlsval,
mind egy n-gram nyelvi modellek kiterjesztsvel megvalstott lexikai osztlyoz
alapjn.
Mivel munkjukban a gpi beszdfelismer kimenett dolgoztk fel, a ksz felismersi
eredmnnyel egy hipotetikus szhatr szekvencia is rendelkezskre llt, a prozdiai
jellemzket csak ezen hatrok szk (mintegy 200 ms nagysg) krnyezetben
vizsgltk. A szupraszegmentumokat ltrehoz fizikai paramterek kzl az energival
(illetve amplitdval) egyltaln nem foglalkoztak, mrtk azonban a sznetek s
beszdhangok hosszt a szhatrokon. Ezen kvl az alapfrekvencia szolgltatott mg
bemen informcit. Az alapfrekvencia feldolgozst szakirodalmi sszehasonlts
alapjn meglehetsen bonyolultan valstottk meg, az ltaluk stilizlt F0-kontr-nak

26

nevezett alapfrekvencia menet lnyegben az eredeti F0 grbe szrkkel simtott


vltozatnak tekinthet. A zngtlen helyeken az alapfrekvencit nem interpolltk. Az
alapfrekvencibl szrmaztatott msodlagos jellemzket ngy csoportba soroltk: indts
(levegvtel utni F0 reset) s folytatds jelleg jellemzk, F0-tartomnybl s a
loklis (zngs szegmensre rtelmezett) meredeksgbl szrmaztatott jellemzk.
Az gy nyert rengeteg paramterbl automatikusan (leaving-one-out) vlasztottk ki
azokat, amelyekkel tmren jellemezhetnek talltk a szupraszegmentlis jegyek
alakulst a szhatrokon. Mint emltettk, a szhatrok osztlyozsa a reduklt
prozdiai jellemzket felhasznl dntsi fkkal trtnt. A figyelembe vett prozdiai
jellemzk kzl igaz feladatspecifikusan de leginkbb a sznetek hossza, a megelz
sz vgn s a kvet sz elejn mrt F0 rtkek klnbsge, s tma szerinti
szegmentlsnl az alapfrekvencia-tartomny bizonyultak diszkriminatvnak. A
szhatrok osztlyozst tekintve a hibaarny a Switchboard korpuszon 10,9%-nak, a
Broadcast News adatbzison 22,9%-nak addott. A szerzk nem kzlnek rszletesebb
adatokat, gy nem derl ki, a hibk milyen arnyban addtak a nem mondathatr
szhatrok mondathatrral trtn azonostsbl, illetve a mondathatrok fel nem
ismersbl. Mivel a nem mondathatr szhatrok jval gyakoribbak, mint a
mondathatrral egybeesk (6,2%), gy a fenti eredmnyek nehzkesen rtelmezhetk.
A prozdiai (dntsi fs) modellek mellett a szerzk n-gram alap lexikai modelleket is
hasznltak a mondathatrok azonostsra, amelyekben a mondat- s tmahatrok rejtett
esemnyknt szerepeltek. A tisztn lexikai alap (teht lnyegben szintaktikai
informcin alapul), 4-gram modellekkel szinte pontosan a prozdiaival egyez
mondathatr detektlsi hibaarnyt sikerlt elrni. A prozdiai s a lexikai mdszer
kombincija azonban nem cskkentette jelentsen ezt a hibaarnyt.
A szerzk a mondatszint szegmentlshoz hasonlan a tma szerinti szegmentlst is
vizsgltk, ennek rszleteire azonban e helytt nem trnk ki, hanem a [46] irodalomra
utalunk.

27

4. Szhatrok automatikus detekcija


A kvetkezkben bemutatand szhatr-detekci alaptlete, hogy ha egy nyelv kttt
hangslyozs, akkor a szhatroknak a hangslyhoz kpesti pozcija viszonylag
pontosan meghatrozhat a hangsly helynek ismeretben, ily mdon a szhatrdetekcit tulajdonkppen hangslydetekcira vezethetjk vissza. Az ezt megfogalmaz
tzisem:

Tzis I. [J1, C1] A kttt hangslyozs magyar nyelvben lehetsges a szhatrok


detekcija a hangsly, illetve tttelesen a hangslyt meghatroz akusztikai-prozdiai
jellemzk, az alapfrekvencia s az energia menete alapjn.
Az I. tzis teht azt mondja ki, hogy a magyar nyelvben a hangsly az alapfrekvencia- s
energiamenet alapjn detektlhat, illetve, hogy a hangsly detektlsa alapjn szhatrdetekci vgezhet. Korbban lttuk, hogy tbb ms nyelv mellett a magyar nyelv is
kttt hangslyozs, amelyben a hangsly az extrm kivtelektl eltekintve az els
sztagon realizldik. Termszetesen nem llthatjuk, hogy valamennyi szhatrt
detektlni tudnnk a bemutatand mdszerrel, hiszen a kzlsben nem valamennyi sz
hangslyos, s klnbsg lehet a hangslyozs mrtkben is. A tzis mindssze azt
felttelezi, hogy ha valahol hangslyt tallunk, akkor az biztosan egy sz els sztagjt
jelli ki a beszdben. A nyelvben a ktszavak, nvelk, stb. igen gyakran
hangslytalanok, gy ezek azonostsra a hangsly alapjn kicsi az eslynk, a gyakran
hangslyos pozciba kerl szavak esetn azonban segtsgnkre lehet a fent vzolt
mdszer. Ne feledjk, hogy a beszd prozdiai szerkezete leggyakrabban pp az j
informcit, ismeretet hordoz elem kiemelst szolglja, errl a prozdia szerepnek
trgyalsa kapcsn mr ejtettnk szt. Nyilvnval, hogy a beszdfelismersi s
beszdrtsi alkalmazsokban is elnys, ha ppen a nagyobb informcirtk elemek
felismerst sikerl megbzhatbb, pontosabb tenni, gy a hangslydetekcit mint a
beszdrtst nagymrtkben elmozdt feladatot tekinthetjk.

4.1 A hangsly detektlsnak lehetsgei


Az 1. fejezetben a szupraszegmentumok ttekintse kapcsn mr megismerkedtnk a
hangsllyal s a sznetekkel. A hangsly kapcsn utaltunk r, hogy egy sztagon a
hangslylmnyt az alapfrekvencia-emelkeds, a nagyobb intenzits s a megnylt
hangzidtartam kln-kln vagy leggyakrabban kombinldva hozhatjk ltre. Arra is
utaltunk, hogy e hrom tnyez kzl klnbz nyelvszeti szakemberek ms-ms
tnyez szerept tartjk dominnsnak a hangslyozs szempontjbl. E szempontokon tl
azonban azt is figyelembe kell vennnk, hogy a hangsllyal szoros kapcsolatban ll
egyes akusztikai-prozdiai elemek mszakilag hogyan, illetve mennyire biztosan s
mennyire tfogan szrmaztathatak.
A hangslytpusok kzl elssorban a mondat- s szhangsly ll rdekldsnk
kzppontjban, az ennl tfogbb nyelvi szervezdshez tartoz hangslyokkal nem
foglalkozunk, mr csak azrt sem, mert utbbiak gyakran inkbb szintaktikai s
szemantikai szint logikai viszonytsban szlelhetek, semmint a szupraszegmentlis

28

szerkezet tnyleges, akusztikai szinten is megjelen vltozsban.


A hangslydetekci kapcsn a sznettel is foglalkoznunk kell, mivel a hangslyozssal
ersen sszefgg. A sznetek kapcsn megismerkedtnk a sznethordozk fogalmval is,
amelyek a sznet ltalnostsnak is tekinthetk. A sznethordozk kzl az egyes
beszdhangok artikulcijval sszefggeket gy a hasonulsok esetleges elmaradst,
a gondosabb artikulcit vagy a glottlis zr megjelenst nem vizsglom, rszben,
mert vlemnyem szerint alapveten ms megkzeltst kellene alkalmazni, mint amit a
jelen feladatra vlasztottam, illetve azrt sem, mert megtlsem szerint a terlet
nyelvszetileg sincs mg kellen feltrva. Figyelembe veszem viszont az akusztikai
rtelemben vett sznetet (jelkimarads), a kiemelked hangslyt mint sznethordozt, a
hirtelen hangmagassg-vltst, stb.
A hangsly detekcija kapcsn az els feladat annak eldntse, hogy milyen akusztikaiprozdiai, vagy ezekbl szrmaztathat jellemzkre alapozzuk a hangslydetekcis
eljrst. Miutn a nyelvszeti szakirodalom e tren ellentmondsos, a BABEL beszdadatbzisbl [42] vett mintkkal magyar nyelvre vizsglatokat vgeztem annak
meghatrozsra, hogyan alakulnak a magyar beszdben az alapfrekvencia, az energia s
az idtartamok, illetve megfigyelhet-e valamilyen kapcsolatuk a hangslyozssal. Ez a
vizsglat sztag alapon trtnt, ezen bell is minden sztag magnhangzjra [38]. A
sztag alapsgot az indokolja, hogy maga a hangsly is sztagon realizldik. Az
alapfrekvencia s az energiaszint rtkeit a magnhangzk kvzistacioner rszn mrtem,
az idtartamnak a magnhangz hosszt vlasztottam. Az ltalnos tapasztalataimat az
albbiakban sszegzem:
 A magyarban a vizsglt BABEL beszd-adatbzis alapjn hangsly
szempontjbl legmeghatrozbb az alapfrekvencia szerepe (v. 4.1 tblzat).
Egyes esetekben a magnhangzkon mrt alapfrekvencia rendkvl pontosan
tkrzi a szavak hatrait (v. 4.1-2 brk).
 Az energiaszint alakulsa tbb-kevsb szintn kveti a hangslyozst, ennek
kapcsn problmaknt jelentkezik, hogy az adatokat milyen mennyisg alapjn
normljuk. Tapasztalataim szerint a magnhangz kategrik szerinti normls
kevsb hatkony, ennl jobb, ha a frzis sszenergia-szintjre normljuk az
egyes magnhangzk energiaszintjt.
 A magnhangzk idtartamai esetenknt jl kvetik az alapfrekvencia- s
energiamenetet, esetenknt pedig egyrtelm szablyszersg nlkl vltakoznak
a hangsly vonatkozsban. Ha a normlst ebben az esetben magnhangz
kategrikra vgezzk, hasznlhatatlan eredmnyek addnak, a frzis tlagos
magnhangz hosszaira normlva azonban az alapfrekvencia menett hebben
kvet grbt kapunk.
 Nmileg meglep, hogy az energia, klnsen pedig az idtartamok esetben a
normlsnl nem szksges figyelembe venni a magnhangz tpust. Elzetes
felttelezsem alapjn ugyanis az egyes magnhangz tpusok sszevetse nem
lenne magtl rtetd, hiszen az egyes magnhangzk eltr kpzsi mdjukbl
ereden eleve eltr energiaszinteken, illetve ms-ms tipikus idtartammal
realizldnak. gy tnik, a beszlk igyekeznek valamelyest kompenzlni ezeket
a fizikai trvnyszersgekbl fakad klnbsgeket. Mindenesetre mivel
munkmban egyrszt nem clom a jelensg mlyebb vizsglata, msrszt nem llt
rendelkezsemre kell mennyisg minta ahhoz, hogy messzemen
kvetkeztetseket vonjak le (pl. egyltaln nem vizsgltam a magnhangzk tpus

29

szerinti eloszlst a szavakon bell), ezeket a megllaptsainkat mint


szrevteleket kzlm, de ksrletileg az eddig ismertetettnl alaposabban nem
tmasztom al.
Az albbi 4.1-2 brkon nhny magyar mondatra kvethet vgig, hogyan alakulnak az
alapfrekvencia, az energia- s a magnhangz idtartamok a hangslyozs fggvnyben.
Az alapfrekvencia rtkt harmonikus hangmagassgszintre (H) szmtottam a (2.2)
sszefggs alapjn. Az energia az egyes magnhangzkon a frzis sszenergia-szintjre,
mg a magnhangzk idtartamai a frzis tlagos magnhangz-idtartamaira normltak.
H
[h. oktv]

Grf V- sr-he- lyi G- rg- or-szg-ban k-ttt ki

s tit- k- rul szer-zd-tet- te

f- kon-zul l- nyt.

sztagok
Lmgh/Lref
[ms/ms]

Grf V- sr-he- lyi G- rg- or-szg-ban k-ttt ki

s tit- k- rul szer-zd-tet- te

f- kon-zul l- nyt.

sztagok
Emgh/Eref
[dB]

Grf V- sr-he- lyi G- rg- or-szg-ban k-ttt ki

s tit- k- rul szer-zd-tet- te

f- kon-zul l- nyt.

sztagok

4.1. bra: A hangmagassgszint, a magnhangz-idtartamok s a magnhangzk energiinak


alakulsa a Grf Vsrhelyi Grgorszgban kttt ki, s titkrul szerzdtette a fkonzul
lnyt. mondatban, frfi beszl ejtsben (BABEL adatbzis)

A 4.1 brn jl lthat, hogy az alapfrekvencia, energia- s hangidtartam grbk teljesen


egytt mozognak, a msodik tagmondatban vilgosan kiemelik minden egyes
mondatalkot sz els sztagjt, amelyeken kisebb-nagyobb hangsly realizldik. Az
els tagmondatban a grbk az intoncit mintzzk (kijelent mondat els tagmondata a
vgn lassan emelked alapfrekvencia-rtkkekel), mg a msodik tagmondatban az
intoncit a szhangslyok dominljk.

30

H
[h. oktv]

Grf V- sr-he- lyi G- rg- or-szg-ban k-ttt ki

s tit- k- rul szer-zd-tet- te

f- kon-zul l- nyt.

sztagok
Lmgh/Lref
[ms/ms]

Grf V- sr-he- lyi G- rg- or-szg-ban k-ttt ki

s tit- k- rul szer-zd-tet- te

f- kon-zul l- nyt.

sztagok
Emgh/Eref
[dB]

Grf V- sr-he- lyi G- rg- or-szg-ban k-ttt ki

tit- k- rul szer-zd-tet- te

f- kon-zul l- nyt.

sztagok

4.2 bra: A hangmagassgszint, a magnhangz-idtartamok s a magnhangzk energiinak


alakulsa a Grf Vsrhelyi Grgorszgban kttt ki, s titkrul szerzdtette a fkonzul
lnyt. mondatban, ni beszl ejtsben (BABEL adatbzis)

A 4.2 brn ugyanazt a mondatot ltjuk ms beszl ejtsben. Az alapfrekvencia


(hangmagassgszint) menete ezttal is megadja a szhangslyokat, ezttal azok az els
tagmondatban is knnyen felismerhetk. Az elz pldhoz kpest a magnhangzk
idtartama gyengbben korrell az alapfrekvencival s hangslyokkal is, s
megfigyelhet a mondat vgn a magnhangzk megnylsa is (az elz, 4.1 brn
bemutatott pldban ez elmaradt). Az energiamenet ebben az esetben rdemi informcit
csak nhny helyen szolgltat a mondat prozdiai szerkezett illeten. A mondat fkusza,
s gy leghangslyosabb szava a titkrul sz els sztagja.16
Vizsglataink sorn szmos esetben a fenti 4.1-2. brkon bemutatott mdon az
alapfrekvencia cscsai egybeestek a szhangslyokkal, ezt tbbnyire az energiamenet is
megerstette. Termszetesen nem mondhat el az adatbzisban szerepl valamennyi
mondatra s nyilvn a beszdrl ltalban sem , hogy az akusztikai-prozdiai
jellemzk minden esetben tkrznk a szhangslyokat, elfordulnak ennl laposabb
kpet mutat, monoton mintk is (lsd pl. a 4.1 bra els tagmondatt). Elmondhat
viszont az, hogy ha az akusztikai-prozdiai jellemzk utalnak a hangslyozsra, akkor
16

A 4.2 brn bemutatott beszl elemzsvel aligha jutnnk arra a kvetkeztetsre, hogy a magyarban a
hangsly nyomatki, igaz ez csak egy kiragadott plda az adatbzisbl, de ltalnos tapasztalataim is ezt
a megllaptst tmasztjk al.

31

klnsen az alapfrekvencia-menet esetben azt az els sztagon realizld


egyrtelm kiemelkeds, cscs jelzi. E megllapts vlheten az olyan kttt
hangslyozs nyelvekre is igaz, amelyekben a hangsly az els sztagra esik.
Mindezek alapjn teht a hangslydetekcis eljrst az alapfrekvencia s az energia
paramterekre alapoztam. Az idtartam mrst viszont elhagytam, kt okbl is: egyrszt,
mert a fent rszletezett vizsglatok alapjn felttelezhet, hogy nmagban jelentsen
nem jrul hozz a hangsly-detekcihoz, msrszt s klnsen azrt, mert az
akusztikus beszdjel alapjn igencsak nehzkes lenne a pontos magnhangz idtartamok
meghatrozsa. Ehhez a beszd automatikusan vgrehajtott, pontos, beszdhang szint
szegmentlsra lenne szksgnk. Jllehet a beszdfelismerkben ltalban jelents
tbbletrfordts nlkl elllthat ilyen szegmentls a dekdolsi szakaszban, ha
azonban a prozdiai informcit rszben ppen a beszdfelismersi kimenet javtsra
kvnjuk felhasznlni, akkor az esetleges hibkat a rendszerben tovbbvinnnk.
A magnhangzk kvzistacioner rsznek meghatrozsa a beszdfelismers sorn jval
egyszerbb, mint a pontos idtartam mrse, ennek ellenre folyamatos alapfrekvencias energiagrbket is felhasznlhatunk a hangsly-, s az ebbl szrmaztatott szhatrdetekci alapjul. A folytonossgrl itt abban az rtelemben beszlnk, hogy a prozdiaiakusztikai jellemzket a teljes beszdjelen mrjk fggetlenl a magnhangzktl,
termszetesen fizikailag ebben az esetben is diszkrt jelet dolgozunk fel, a lpskzt
azonban nem a vltoz sztaghossz, hanem a fix mintavteli vagy keretid hatrozza
meg. A 4. fejezet bevezetjben megfogalmazott tzishez kapcsoldan az is igaz, hogy a
hangsly automatikus detektlsa az alapfrekvencia- s energiaszint folytonosnak
tekintett, teht nem csak sztagok magnhangzjn mrt rtkei alapjn is lehetsges. A
teljes beszdjelen mrt folytonos prozdiai-akusztikai jellemzket hasznlva
fggetlenednk az esetleges felismersi hibktl, viszont szksgess vlik az
alapfrekvencia interpollsa a zngtlen szakaszokon, illetve szmolni kell a zmmel
mssalhangz kapcsolatokban megjelen mikroprozdiai ingadozsok megjelensvel is.

4.2 Hangslydetekci cscskeresssel


Mivel a hangslyhoz az alapfrekvencia- s energiagrbe cscsai kthetk, kzenfekv
vlasztsnak tnik a hangsly detektlsra valamilyen cscskeres algoritmus
hasznlata. Erre alapozva kidolgoztam egy detektlsi algoritmust, amelyet a 4.3 brn
mutatok be.
Alapfrekvencia
meghatrozs

Beszdjel

Energiaszmts

Cscskeress/
Grbejellegmeghatrozs

Hangslydetekci

Szhatrok

Cscskeress/
Grbejellegmeghatrozs

4.3 bra: A cscskeressen alapul hangslydetektls elvi vzlata

32

Egy lehetsges, igen egyszer, kpfeldolgozsban hasznlatos cscskeressi algoritmust


kapunk az albbiak szerint. Elsknt kiszmtjuk az adott xi adatsor M vrhat rtkt s
szrst, majd ezekbl egy
K = M + k *

(4.1)

kszbt hatrozunk meg, ahol k tetszleges konstans, ltalban 0,5-1,5 kztti rtkkel.
Ezt kveten minden xi-re megvizsgljuk, nagyobb-e a K kszbnl, ha igen, akkor ezt
cscsnak tekintjk, s itt hangslyos pozcit detektlunk. Az xi adatsor esetnkben az
alapfrekvencia-, illetve az energiartkekbl ll, amelyeket sztagonknt a 4.2
szakaszban ismertetett mdon hatrozhatunk meg. A kszbt clszer gy
meghatrozni, hogy folyamatosan alkalmazkodjon a mondat intoncijhoz, ezrt a
kszbt csszablakkal szmtjuk, az ablak mrett 7-17 sztag kztt clszer
vlasztanunk. Ezltal a kszbt a mondat hanglejtshez igaztjuk. Az i-edik sztaghoz
tartoz kszb teht:
K i = M ( xi A , xi A 1 ,..., xi ) + k ( xi A , xi A 1 ,..., xi ) , ha i>A

(4.2)

K i = M ( x1 , x2 ,..., x A ) + k ( x1 , x2 ,..., x A )

(4.3)

egybknt,

ahol A a csszablak mrete sztagszmban kifejezve.


Adatsorknt prozdiai-akusztikai jellemzkbl szrmaztatott mennyisgeket is
felhasznlhatunk, gy az egyes sztagok kztti alapfrekvencia- s energiaszintbeli
klnbsgeket is. Ekkor a cscskeresst azzal a klnbsggel vgezzk, hogy a vrhat
rtk (4.4) s a szrs (4.5) szmtsakor a kapott rtkek abszolt rtkeit vesszk:

Mi =

1 i
x j
A j =i A

i2 =

1 i
M j x j
A j =i A

(4.4)

(4.5)

A csszablakos szmts (4.2), (4.3) ekkor is indokolt, hiszen tovbbra is


alkalmazkodnunk kell a mondat hanglejtshez, illetve a mrt differencilis jelleg
jellemz dinamikatartomnynak fluktulshoz.
Ha a hangslydetektl algoritmust nem csak a sztagok magnhangzin mrt rtkek
alapjn, hanem a teljes hanganyag folytonosnak tekintett alapfrekvencia- s
energiamenete alapjn prbljuk megalkotni cscskeressi technikval, akkor az
alapfrekvencia-grbre minden tovbbi nlkl alkalmazhatjuk a fent bemutatott mdszert
azzal a klnbsggel, hogy az A ablak mrett nem sztag-, hanem mintaszmban
rtelmezzk, s a szupraszegmentlis jellemzkbl pl. 25,6 ms keretidvel vett mintk
kztti idbeli tvolsg miatt nagysgrendileg megnveljk (egy sztag kb. 150-250 ms
nagysgrendjbe es hosszsg). A zngtlen helyeken trtn interpolci is szksges
annak rdekben, hogy a kszb rtkt folyamatosan, grdl jelleggel szmthassuk,
jllehet maximumot a zngtlen szakaszon aligha tallunk a hasznlt lineris interpolci
esetn.
Az energiagrbe feldolgozsa kicsit komplexebb feladat, mivel az energia jellemzen
minden magnhangznl loklis maximumot ad, hiszen a magnhangzk a legnagyobb

33

energij beszdhangok. Az energit ezrt a beszdjelbl beszdfeldolgozsi lptkkel


mrve nagy, 100 ms-os integrlsi idvel szmtjuk, hogy a gyors, kismrtk fluktucit
kiszrjk. Ezutn ismt tlagoljuk a grbt egy T=125 ms-os csszablakkal, gy kapjuk
meg az E grbt (4.6), majd az eredeti E energiagrbe E fl es rszeit tartjuk csak
meg, ebbl addik Ei'' (4.7-8):

Ei' =

1
M

i+

M
2

(4.6)

M
m =i
2

Ei'' = Ei' , ha Ei Ei'

(4.7)

Ei'' = 0

(4.8)

egybknt

Ezutn megkeressk a kapott E"-grbe loklis maximumhelyeit, de ekkor kt loklis


maximumhelyre minimlis tvolsgkszbt iktatunk be: ha kt loklis maximum ennl
kzelebb kerl egymshoz, akkor csak a nagyobbikat fogadjuk el (tipikusan ilyennel
tallkozhatunk a magnhangz-flmagnhangz kapcsolatokban). A loklis
maximumhelyek ltal meghatrozott pontokra grbt illesztnk. Az illesztett
burkolgrbn vgl negatv meredeksg szakaszokat keresnk. A negatv meredeksg
szakaszok elejn lv loklis maximumhelyet tekintjk hangslyos pozcinak, a
szhatrt gy ezen loklis maximumhely s a megelz loklis maximumhely kz
jelezhetjk elre clszeren a loklis minimumhelyre, felttelezve, hogy ily mdon a
kapott loklis maximumhelyek az egyes sztagok magnhangzinak felelnek meg, mivel
ezek energiaszintje a legnagyobb a beszdjelben.
Az alapfrekvencia grbn a loklis maximumokat kzvetlenl az eredeti, a zngtlen
helyeken lineris interpolcival folytonoss tett grbn keressk. A szhatr a negatv
meredeksg szakasz elejn tallhat loklis maximum s a megelz loklis
minimumhely kztt kerl detektlsra.

4.3 Ksrlet cscskeresssel trtn szhatrdetektlsra


A 4.3 szakaszban bemutatott algoritmust meg is valstottam, s a BABEL
beszdadatbzisbl [42] kivlasztott 32 beszltl, sszesen 1600 mondaton lefuttattam.
A hangslydetektl algoritmus teljestmnynek kirtkelshez a detektlt hangslyos
pozcikat az albbiakban ksztett referencival vetettem ssze: mivel a BABEL
adatbzis fonma szinten felszegmentlt hanganyag, viszont eredenden semminem
szupraszegmentlis tartomnybeli feldolgozst nem tartalmaz, ezrt a szhatrokon
szkzt tartalmaz ortografikus tirat s a fonma szint szegmentls alapjn
meghatroztam, mely sztagok jelentik egy-egy sz els sztagjt, s melyek nem. A
fonma szint szegmentls miatt ezen sztagok idpontbeli elhelyezkedse ismertnek
tekinthet. A folyamat taln knnyebben ttekinthet a 4.4 brn.

34

|? O |? bEse:d |?

O | b | E | s | e: | d
Fonma szint
szegmentls

Szhatrok
idbeli
meghatrozsa

| O | bEse:d |
Referencia
szhatrok

O _ bEse:d
Ortografikus tirat

Cscskeresssel
detektlt szhatrok

sszehasonlts
&
Kirtkels

%%
Pontossg,
hatkonysg

4.4 bra: A cscskeressen alapul szhatr-detektls rtkelsnek vzlata


A szhatr-detekci eredmnyessgnek mrsre kt mutatt hatroztam meg:
A pontossggal azt jellemzem, mennyire detektltuk helyesen a hangslyokat.
rtkt egybl kivonva tves riaszts jelleg mutatt kapunk. Ha a
beszdfelismers sorn szeretnnk a detektlt szhatrokra tmaszkodni, nagy
pontossgot kell elrni (azaz a tves riasztsok szmt minimalizlni), mivel a
felhasznls szempontjbl a tves riszats, azaz ha egy sz nem els sztagjt
hangslyosnak detektljuk klnsen kritikus hiba. A pontossg definci szerint
teht:

Corr =

# {helyesen _ bejellt _ szhatrok }


,
# {sszes _ bejellt _ szhatr}

(4.9)

A hatkonysggal mrem, hogy az sszes, a mondatokban elfordult sz hny


szzalknl detektlta az algoritmus az els sztagot hangslyosnak. Fontos
szrevennnk, hogy a hatkonysg elvi fels korltja kisebb, mint 100%, hiszen a
nvelk, ktszavak csak specilis esetekben hangslyosak, gy ezek detekcija
eleve lehetetlen. Ezen kvl az emltett kt kategriba nem tartoz szavak sem
mind hangslyosak. Mivel az adatbzis szupraszegmentlis tartomny
feldolgozottsgnak hinyban automatikusan nem hatrozhatk meg a beszl
ltal tnylegesen hangslyosan, illetve hangslytalanul ejtett szavak, a kzi
kirtkels pedig igen hosszadalmas lenne, gy minden sz elejn elhelyezked
sztagot potencilis hangslyos pozcinak tekintettem. A hatkonysg
rtkelsekor teht ne feledjk, hogy a vals beszdben sem hangslyos minden
szindt sztag.17 A hatkonysg (Eff) kplet alakban:

Eff =

# {helyesen _ bejellt _ szhatrok }


,
# {sszes _ szhatr _ a _ referenciban}

(4.10)

Ha a detekcit sztag alapon vgezzk a magnhangzkra, akkor detekci szempontjbl


egyrtelmen akkor tekintettem egy sztagot hangslyosnak, ha rajta hangslyt
detektltam. A folytonos jelleggrbk alapjn vgzett detektls esetben azonban a teljes
jelfolyamon dolgozunk, amelyrl azutn a hangslyos pozcit sztag szintre vissza kell
kpezni. Ezrt ebben az esetben akkor tekintettem helyesnek a hangslydetekcit, ha a
hangsly 100 ms-os krnyezetbe esett a tnyleges szhatr. A 100 ms-os krnyezetet a
szakirodalomban fellelhet adatok (pl. [12]) s a jellemz sztaghosszak figyelembe
vtelvel vlasztottam.
17

A hangsly percepcija egybknt termszetesen szubjektv, ezrt is nehz objektv szmadattal


jellemezni.

35

A hangslydetekci eredmnyeit a 4.1 tblzatban mutatom be, klnbz k konstans s


A sztagszmban mrt ablakszlessg rtkek mellett. A 4.1 tblzatban hatfle
kirtkels lthat attl fggen, hogy mely prozdiai jellemz alapjn trtnt a
cscsdetekci. A 3. oszloptl kezdden az oszlopok rendre az alapfrekvencia (1), az
energiaszint (2), valamint az alapfrekvencia- s energiamenet alapjn egyttesen (3)
vgzett hangslydetektls eredmnyei, valamint a sztagrl sztagra trtnt
alapfrekvencia-vltozs (4), energiaszint-vltozs (5), illetve ezek egyttes figyelembe
vtelekor (6) kapott eredmnyeket tartalmazzk. Lthat, hogy nagyobb, 13 sztag, vagy
afltti belltssal a pontossg valamelyest nvelhet, ez ltalban maga utn vonja a
hatkonysg kismrtk cskkenst is. A k konstans rtknek nvelsvel ahogyan az
vrhat egyrtelmen nvekszik a pontossg, de a hatkonysg nagyobb mrtkben
esik az ablakszlessg nvelsekor tapasztaltnl. A cskkens oka mindkt esetben az,
hogy egyre inkbb elcsszunk a frzis- s mondathangslyok/-hatrok, s/vagy a fkusz
detektlsnak irnyba.
4.1 tblzat: Hangsly alap szhatr-detektls pontossga s hatkonysga magnhangzk
kvzistacioner rszn mrt szupraszegmentlis jellemzinek alapjn
Pontossg/Hatkonysg [% / %]
A

F0

7
7
7
7
9
9
9
9
13
13
13
13
17
17
17
17

0,5
0,7
0,9
1,1
0,5
0,7
0,9
1,1
0,5
0,7
0,9
1,1
0,5
0,7
0,9
1,3

49/44
50/39
51/33
52/28
49/41
50/36
52/32
52/27
51/39
52/34
52/28
54/24
51/38
53/33
54/28
56/20

46/30
45/27
45/24
45/21
46/29
46/26
46/23
45/20
45/27
45/23
45/20
46/18
46/26
45/22
46/20
46/15

F0 & E

F0

46/20
46/16
47/13
47/10
45/18
47/15
47/12
47/9
46/16
46/13
46/11
49/9
46/16
47/10
49/10
52/7

76/24
77/23
78/21
79/20
76/24
77/22
78/21
79/19
77/22
78/20
79/19
79/17
78/21
78/19
79/18
81/15

57/21
58/19
59/17
60/15
59/21
60/19
61/17
62/15
61/19
63/18
64/16
65/14
64/19
63/17
65/15
65/11

F0 & E
82/10
83/10
86/9
87/7
84/11
83/9
83/9
85/8
84/9
84/8
87/8
88/7
86/9
86/8
86/7
90/6

Az eredmnyek mind az energiaszint, mind az energiaszint-vltozs esetn jval


gyengbbek az alapfrekvencival, illetve az F0 vltozsainak kvetsekor kapottaknl. Ez
egybecseng korbbi felttelezsemmel, miszerint a magyarban a hangsly nem felttlenl
nyomatki (azaz a hangslyt nem elssorban energianvekmny hozza ltre), hanem
abban az alapfrekvencia szerepe meghatrozbb. Igaz, az eltrst magyarzhatja az is, ha
a magnhangzk energijnak szubjektv szlelse fgg a magnhangztl18. A
nyitottabb ajkakkal kpzett magnhangzk nagyobb energijak, emiatt elfordulhat,
hogy hangslyos, de kerektettebb ajkakkal kpzett magnhangz energija kisebb a
hangslytalan nylt magnhangznl.

18

Ezzel a tovbbiakban nem foglalkozunk.

36

A teljes beszdjel folytonosan tekintett alapfrekvencia, illetve energiamenet jelleggrbe


alapjn kapott eredmnyeket az 4.2 tblzatban lthatjuk. Az eredmnyeket a 4.1, elz
tblzat F0, E, illetve F0&E oszlopokban kapott eredmnyeivel rdemes
sszevetnnk, mivel a loklis maximumhelyek megkeresse, illetve a jelleggrbk
tulajdonsgainak vizsglata is delta jelleg paramtereken nyugszik. Elmondhat, hogy
az alapfrekvencia alapjn a hangslydetekci pontatlanabb, de hatkonyabb a sztag
alap esethez mrve. Az alapfrekvencia s energiaszint egyttes figyelembe vtelvel
pontossgban s hatkonysg tekintetben is jobb eredmnyeket kaptam, mint a
magnhangzk kvzistacioner rsznek vizsglatval. Az sszehasonltskor legynk
vatosak, mert a kt mdszer megtlsekor a mrsi pontatlansg eltr lehet, ugyanis
folytonos jelleggrbe alapjn vgzett detekcikor azt ellenrizzk, hogy a szhatr a
hangsly helyhez kpest 100 ms krnyezeten bellre esik-e, mg a magnhangzk
kvzistacioner szakaszait alapul vev eljrsban azt, hogy az els sztagon detektltuk-e
a hangslyt.
4.2 tblzat: Hangslyos pozci detektlsa a teljes beszdjelen mrt jelleggrbk alapjn
F0
70 / 32

Pontossg/Hatkonysg [% / %]
E
F0&E
69 / 34
91 / 14

37

5. Szhatr-detektls statisztikai
mdszerrel
A hangsly, s ezltal a szhatrok detektlsa osztlyozsi feladatknt is felfoghat,
amelyben szupraszegmentlis jellemzk alapjn valamilyen beszdegysgekre dntst
hozunk pldul hangslyossg vagy hangslytalansg tekintetben, de termszetesen
msmilyen osztlyozst is megvalsthatunk, illetve e kettnl tbb osztlyba is
sorolhatjuk az elemeket tovbbi kategrikat elklntve. Automatikus osztlyozsra
szmos statisztikai mdszereken alapul lehetsg knlkozik, szupraszegmentlis
tartomnyban trtn osztlyozst tudomsom szerint vgeztek mr dntsi fkkal [53],
diszkrt rejtett Markov modellekkel [12], illetve MLP (Multi Layer Perceptron) alap
osztlyozval is [8]. A statisztikai alapon trtn megkzelts elnyei ugyanazok, mint a
szkebb rtelemben vett beszdfelismersben: ha elegend teret biztostunk a
rendszernek a tanulsra, meglepen j eredmnyeket rhetnk el, amelyek gyakran
fellmljk a kognitv vagy szablybzis megkzeltssel kapottakat.
A Markov modellek alkalmazst a beszdfelismersben napjainkban alaptechnolginak
tekinthetjk [4]. Amellett, hogy teljes rendszerek plnek Markov modellezsi
technikra, nagyon sok, az akusztikai modellezst nem Markov modellek alapjn vgz
hibrid rendszerben is tallkozunk a Markov modellekkel, mivel a mintaillesztshez
szksges dinamikus illesztsre kitnen alkalmazhatk, hiszen a Markov modell maga
tekinthet a dinamikus programozs egy specilis estnek is [44]. Rszben a rendkvl j
idbeli illesztsi kpessg motivlta kutatsainkat abban az irnyban, hogy
szupraszegmentlis tartomnyban Markov modelleken alapul osztlyozt valstsunk
meg.
A fejezetben bizonytand egyik tzisem, hogy a kttt hangsly magyar nyelvben
folytonos rejtett Markov modellekkel lehetsg van a szhatr-detekcira dallammenetek
alakfelismerse alapjn:

Tzis II. A. [J1, C2, J3, B1] A kttt hangslyozs magyar nyelvben elklnthetk
olyan intoncis jelleg diszjunkt osztlyok, amelyek ppen a szhatrokon kapcsoldnak
egymshoz, s amelyek lptkk tekintetben a mikrointoncis s a mondatszint
intonci tartomnya kztt helyezkednek el, egyfajta szkapcsolati szint intoncis
szerkezetet ltrehozva. Az gy definilt intoncis osztlyok rejtett Markov modellekkel
felismerhetk.
A II. A tzishez kapcsoldan a Markov modell fbb paramtereit optimalizlom, ennek
sorn megmutatom, hogy a Markov modellek llapotainak szksges szma az optimlis
detektlshoz szupraszegmentlis idtartomnyba es hosszsg lncot ad meg, illetve
hogy a kibocstsi valsznsgeket elegend 1-2 normlis eloszls srsgfggvnyvel
lerni.

38

A msik a fejezetben trgyaland, az elbbihez kapcsold tzisem a kvetkez:

Tzis II. B. [J3, B2, C5] Az intoncis osztlyok alapjn szhatr-detekcit vgz
rendszerbl prozdiai szegmentl kszthet, amely a bemenetre rkez beszdet
szupraszegmentlis jellemzk alapjn szkapcsolati szinten tagolja.
Ekkor a szhatr-detekcit szegmentlsi feladatknt rtelmezzk, s azt szeretnnk
elrni, hogy szupraszegmentlis jellemzk alapjn minl pontosabb prozdiai
szegmentlst hajtsunk vgre. Mivel a HMM alakfelismersre kivlan hasznlhat, a
szupraszegmentlis tartomnyban trtn osztlyozshoz elegend, ha olyan minl
jobban elklnl prozdiai osztlyokat tudunk meghatrozni, amelyek ismeretben a
szhatrok is a lehet legpontosabban lokalizlhatk. Az osztlyozs jrulkos
eredmnyeknt az illesztett osztlyok kztti hatridpontok is ismertt vlnak.

5.1 Elvi megfontolsok


A szupraszegmentlis tartomnyt feldolgoz beszdtechnolgiai munkk [8, 27]
trivialitsknt emltik a prozdia szintaktikai viszonyokat tkrz szerept, jllehet
konkrt, ezt kihasznl alkalmazsrl jval kevesebbet hallani. A kvetkezkben
szkapcsolati szint intoncinak nevezett fogalom lnyegben megfelel az intoncis
frzisnak, illetve a hangslyozsi-hanglejtsi szakasznak.
A HMM alap szkapcsolati szint intoncis tpusok alakfelismersre visszavezetett
prozdiai szegmentls szhatr-detekcit vgez. Mkdse hasonl ahhoz, ahogy a
beszdfelismer az egyes szavakat a felismert szlnc egyes tagjait a beszdjelhez
rendeli, jllehet beszdfelismersnl nem elssorban ezen szavak kezd- s vgidpontjai
az rdekesek a felhasznls szempontjbl, hanem az illesztett szszekvencia. Markov
modelles mintaillesztsnl azonban a felismers vgn visszakvethet az is, hogy a
legvalsznbbnek addott t mentn haladva melyik sznak hol volt a kezdete s a vge.
Ugyangy a szkapcsolati szint intoncis alakzatokat felismer HMM rendszer
intoncis tpusok szekvenciit fogja illeszteni a beszdjelbl szrmaz s idtengely
mentn reprezentlt szupraszegmentlis jellemzkhz (s vgeredmnyben maghoz a
beszdjelhez is), majd a dekdols vgn visszakvetssel kinyerhet a prozdiai
szegmentls, s gy a szhatrok idbeli elhelyezkedse is. Ismt hangslyozzuk, amit a
cscskeresssel vgzett hangslydetekci kapcsn mr emltettnk: nem garantlt, hogy
egy-egy adott beszdszakasz minden egyes szavhoz, vagy akr szintaktikailag szorosan
egybetartoz szkapcsolataihoz mindig kln-kln tudunk szkapcsolati szinten
intoncis smt rendelni. Az sem, hogy felismerskor ezeket az intoncis hatrokat
valban meg is talljuk. A szkapcsolati szint intoncit ezrt mint logikai kategrit
clszer rtelmeznnk, amely bizonyos esetekben sz lptk, bizonyos esetekben
szkapcsolati lptk, megint ms esetekben csupn tagmondat vagy mondat lptk
felbontst adja a beszdjelnek, attl fggen, hogy azt akusztikailag a
szupraszegmentlis jellemzk mennyire teszik tagolhatv. A szkapcsolati intoncis
alakzatok legfbb elklnt ismrve az akusztikai megalapozottsg, amelyet dnten az
alapfrekvencia- s energiamenet alapjn hatrozunk meg. A kvetkez alpontban
bemutatjuk a magyar nyelvre kidolgozott szkapcsolati szint intoncis osztlyokat, a
konkrt pldk kapcsn remljk, hogy az eddig elmleti skon bemutatott algoritmust is
rthetbb teszi. A fejezet htralv rszben intonci alatt mindig a szkapcsolati

39

szinten rtelmezett intoncit rtjk.

5.2 Szkapcsolati intoncis osztlyok rtelmezse


Az intoncis osztlyokat a hangslyhoz s a mondatszint intonci szkapcsolati
szinten tekintett vltozsaihoz ktve hatroztuk meg, s a dallammenetek alapjn
neveztk el, gyakorlatilag annak fggvnyben, hogy az alapfrekvencia- s
energiagrbket megjelentve mennyire kiugr a hangsly, azaz a hangsly s a hozz
kapcsold hangslyozsi-hanglejtsi szakasz kpe milyen hanglejtsre emlkeztet. Azaz
a szkapcsolati szint intonci kijellsnek alapja az 1.2.6 pontban ismertetett
intoncis frzis (v. [36]). A magyar nyelvre 5+1, azaz sszesen 6 osztlyt hasznltunk
az albbiak szerint (zrjelben egy-egy cmkt tntettem fel, ami a ksbbi hivatkozst
knnyti) [J1]:







es (hatrozottan ereszked) intoncis tpus (FA)


ereszked intoncis tpus (DE)
lebeg/vltozatos intoncis tpus (FL)
emelked-es intoncis tpus (RF)
emelked/szk intoncis tpus (RI)
sznet (SIL)

Az 5 elklntett alaposztlyhoz hozzvettk mg a sznetet is, ezttal azonban utbbi


alatt szigoran az akusztikai jelkimaradst rtjk. A sznet s a lebeg dallammenet
kivtelvel megkveteljk, hogy minden intoncis szakasz hangsllyal indtson, s a
szakaszok hatrait mindig a szhatroknl rgztettk (lsd az 5.2 brt).

5.3 A statisztikai alap szhatr-detekcit vgz


rendszer felptse
A statisztikai alap szhatr-detektl felptst az 5.1 brn mutatom be.
Intoncis
osztlyok
HMM-jei

F0 & energia
kinyerse

Szupraszegmentlis akusztikai
elfeldolgozs

Szupraszegmentlis
jellemzvektorok

Beszdjel

Intoncis
osztlyok
illesztse

Szhatrok

Intoncis
osztlyok
kapcsoldsi
modelljei

5.1 bra: Statisztikai alap szhatr-detektl rendszer blokkvzlata

40

A 3.1 fejezetben bemutatott megkzeltst, amelyet a statisztikai beszdfelismersre


dolgoztak ki, szupraszegmentlis jellemzkre az albbiak szerint mdosthatjuk: a
felismersi feladat megfogalmazsa a szegmentlis tartomny beszdhang alap
felismers analgijra (v. (3.1)):

P( I | X s ) =

P( X s | I ) P( I )
P( X s | I ) P( I ) ,
P( X s )

(5.1)

azaz adott Xs szupraszegmentlis jellemzk mellett a legvalsznbb I intoncis osztlyszekvencit keressk, amelyet prozdiai szegmentlsknt is felfoghatunk. Xs
termszetesen valsznsgi vektorvltoz-sorozat, a vektorok szupraszegmentlis
jellemzket vagy azokbl szrmaztatott adatokat tartalmaznak. Ismt felttelezzk, hogy
a szupraszegmentlis tartomny elemekbl ll megfigyelsvektorok egy rejtett
szupraszegmentlis Ms llapotsorozatot fednek:

P( X s | I ) = P( X s | M s , I ) P(M s | I ) .

(5.2)

Ms

Az intoncis osztlyoz felptse sokban hasonlt a HMM alap beszdfelismerkre,


mkdsi elve is azokval azonos, a felismersi problmt szupraszegmentlis
tartomnyban (is) egy prozdiai-akusztikai s egy prozdiai-nyelvi modellkombincira
vezettk vissza. A fbb klnbsgeket az albbiakban rendszerezem:
 az akusztikai elfeldolgoz egysg itt is a beszdjelen dolgozik, m az ltala
vgzett elfeldolgozs szupraszegmentlis tartomny. A szigoran akusztikai
rtelemben vett elfeldolgozs a 2. fejezetben bemutatottak szerint trtnhet. Az
elfeldolgoz egysg kimenetn jellemzvektorok jelennek meg, amelyek
dimenziszma azonban lnyegesen alacsonyabb (a ksbb bemutatand
ksrletekben 3 s 14 kztt vltozik), mint a beszdfelismerk esetn alkalmazott
rtkek (tipikus rtk a 39). A norml beszdfelismersbeli jellemzvektorokhoz
kpest klnbsg a tmrtetlensg is (nincs diszkrt koszinusz transzformci),
amely elvileg lehetsges volna ugyan, de a rendszer hasznlhatsgt jelentsen
nem befolysoln, gy alkalmazstl az eredmnyek jobb analizlst s
ttekinthetsgt is szem eltt tartva jelenleg eltekintettnk.
 a szupraszegmentlis tartomny, akusztikai szint modellek tantsa a
beszdfelismerk akusztikai modelljeinek tantsval teljesen azonosan trtnik.
Elzetesen annotlt s/vagy felszegmentlt anyagon norml HMM tantst
vgznk, amely sorn begyazott jrabecsls (embedded reestimation) is trtnik.
(rszleteiben lsd pl. a [40] irodalomban).
 az akusztikai modellek llapotszma tgabb hatrok kztt vltoztathat, mint a
beszdhang-modellek esetben, a szupraszegmentlis jelleg miatt ugyanis jval
tgabb idintervallumokban gondolkodunk. A kibocstsi valsznsgek
lersakor nincs szksg annyi szabadsgi fokra, mint a beszdhang-modellek
esetben, mikor a transzformlt spektrlis kpet normlis eloszlsok
kombinciival becsljk, szhatr-detekcihoz elegend 1-2 normlis eloszls
paramtereit s slyt megbecslni. Az akusztikai modellek klnbzsgre a
ksbbiekben mg visszatrnk.
 a szhatr-detekcihoz is szksg van nyelvtanra. Ez a beszdfelismerkben
leggyakrabban alkalmazott statisztikai nyelvi modellekkel szemben explicit alak,
azaz a megengedett intoncis osztly-kapcsoldsokat szakember ltal elksztett
grf (vges automata) rja le. Vlasztsunk azrt esett az ilyen tpus

41

nyelvtanokra, mert gy vljk, az intoncis osztlyok csekly szma (6 osztly)


miatt kell fedst biztost, jl ttekinthet, rugalmas nyelvtan konstrulhat ezzel
a mdszerrel is.
a mintaillesztsi algoritmus azonos a HMM alap beszdfelismerkben
alkalmazott eljrssal. Valamilyen nyelvtan alapjn felismersi hlzatot
konstrulunk, s ezen keressk meg a legvalsznbb utat Viterbi algoritmussal.
Alkalmazhat a nyalbolt keress is, jllehet haszna elenyszbb a hagyomnyos
beszdfelismersbeli esethez kpest, ugyanis az alkalmazott nyelvtan s gy a
felismersi hlzat maga is jval egyszerbb a szkapcsolati szint intoncis
frzisokra.
a szhatr-detekcihoz hasznlt sztr az egyes illeszteni kvnt intoncis
osztlyok azonostit tartalmazza.

Az gy sszelltott HMM alap szhatr-detektlt HTK keretrendszerben [59]


implementltam. Vlasztsom azrt esett erre a rendszerre, mert szabadon elrhet,
viszonylag jl dokumentlt, a megvalstott alkalmazsok pedig tg hatrok kztt
paramterezhetk, gy ksrleti rendszernek a legalkalmasabb. Megfelel
adattranszformci utn a HTK szinte brmilyen gy szupraszegmentlis adatokat is
tud fogadni a bemenetn, gy gyakorlatilag a beptett akusztikai elfeldolgoz
lecserlsvel szinte azonnal alkalmas a szhatr-detektl (prozdiai szegmentl)
megvalstsra.

5.4 A betant anyag elksztse


Akusztikai-prozdiai betant anyagul tovbbra is a BABEL magyar nyelv
beszdadatbzist [42] hasznltam. Az adatbzis egy lnyeges rsze bekezdsekbe
rendezett mondatokbl ll (sszesen 440 ilyen bekezds tallhat az adatbzisban). Mivel
szupraszegmentlis tartomnyban clszer tbb mondatbl ll, sszefgg szvegeket
elemezni, az adatbzisnak ezt a rszt hasznltam fel.
A akusztikai-prozdiai betantst szupraszegmentlis tartomnyban feldolgozott
beszdfelvtelek alapjn vgeztem el. A feldolgozs alatt az 5.1 pontban bemutatott
szkapcsolati szint intoncis osztlyokra bonts rtend, azaz szegmentls jelleggel
ezen intoncis osztlyok realizltjainak hatrait jelltem be gy, hogy ezek a hatrok
mindig szhatrokkal essenek egybe. Az 5.2 brn illusztrciknt az intoncis
osztlyokra val szegmentls menete lthat. Mint korbban emltettem, az
osztlyhatrok szhatrokra val illesztse azrt szksges, hogy a kszl rendszert
szhatr-detekcihoz hasznlhassuk fel. A szupraszegmentlis tartomnyban a
szegmentlst lehallgats, az alapfrekvencia- s az energiagrbe alapjn vgeztem a
Wavesurfer [48] s a Praat [52] szoftverek hasznlatval. Az alapfrekvencia- s
energiagrbk ellltst a kvetkez, 5.5 pontban rszletezzk.

42

5.2 bra: Az intoncis osztlyok bejellse a BABEL beszdadatbzisban a Gyulai Balzs mr


a sztrjk els napjn, mint aki jl vgezte... mondatrszletre. Az brn fellrl lefel rendre a
hullmforma, a spektrogram, az alapfrekvencia-grbe s az energiamenet lthat, majd a bejellt
intoncis osztlyok, s a szszint szegmentls ltszik.

5.5 Akusztikai szint elfeldolgozs a


szupraszegmentlis tartomnyban
A szupraszegmentlis tartomnyban a statisztikai alapon trtn szhatr-detektlsra
elvgzett prozdiai elfeldolgozs a 2. fejezetben lefektetett irnyelveket kveti, gy
ebben a szakaszban a konkrt megvalstst mutatom be rviden.
Mind az alapfrekvencit, mind az energit kzvetlenl a 16 biten kdolt, 16 kHz
frekvencival mintavtelezett19 digitlis beszdjel alapjn szmtjuk a Beszdakusztikai
Kutatlaboratrium sajt fejleszts szoftvervel. A feldolgozs az alapfrekvencia esetn
a kvetkezkpp alakul: AMDF-alap algoritmussal meghatrozzuk az alapfrekvencit,
majd 7 pontos medin szrst hajtunk vgre. Interpolcit most nem hasznlunk. Az
alkalmazott keretid 25,6 ms. Az energia esetben 100 ms idablakkal tlagolunk, s
szintn 25,6 ms keretidt hasznlunk.
Mindkt jellemzhz kiszmtjuk els s msodrend derivltjait is az albbi kzelts
segtsgvel [59]:
W

i (c
dt =

t +i

ct i )

i =1
W

2 i

(5.3)

i =1

ahol dt a t idpontban rtelmezett derivlt, ct-i s ct+i az eredeti (derivland) egytthatk,


W pedig az ablakmret keretszmban.

19 A BABEL adatbzis eredetileg 20 kHz-en mintavtelezett felvteleket tartalmaz, kompatibilitsi


okokbl clszer volt azonban 16kHz-en jramintavtelezst vgrehajtani.

43

Az alapfrekvencia- s energiartkeket, illetve derivltjaikat tartalmaz jellemzvektorok


teht hatdimenzisak, s 25,6 ms keretidnknt kpzdnek.

5.6 Nyelvtan intoncis osztlyokra


Az intoncis osztlyok egymshoz val kapcsoldsait nem statisztikai, hanem
szablybzis nyelvtan adja meg. Azrt vlasztottam a szablybzis meghatrozst, mert
az illesztend osztlyok szma csekly, ezrt vges automatval knnyedn megadhat
FSG jelleg prozdiai nyelvtan. Az alkalmazott nyelvtan (IG) a kvetkez volt:

IG=[SIL] < (RF | FA) { [SIL] (RF | FA | DE | FL | RI )}[SIL]> [SIL]

(5.4)

ahol a <> szimblumok egy vagy tbb, a {} szimblumok nulla, egy vagy tbb
ismtldst jellnek, a | szimblum kizr vagy kapcsolatot, a [] opcionlisan
elmarad esemnyeket jell. A nyelvtan nem slyozott, a lehetsges utak egyenl
valsznsgek.

5.7 Teszteredmnyek
Az eddigiekben bemutatott mdon sszelltott rendszert magyar nyelv anyagon
teszteltem, klnbz betantsi paramterek mellett. Kln figyelmet kapott a rendszer
fbb jellemzinek optimalizlsa, ezen az llapotok szmnak optimalizlst s a
HMM-ekben a szksges Gauss komponensek szmnak ksrleti meghatrozst rtem.
Vizsgltam a prozdiai-akusztikai elfeldolgoz kimenetnek szelektv felhasznlsi
lehetsgeit is. Vizsgltam azt is, milyen hatsa van, ha a betant halmazban a beszlk
szmt szktem. A teljestmnyelemzshez a 4.3 szakaszban bemutatott kt mutatt, a
pontossgot (4.9) s a hatkonysgot (4.10) hasznltam, amelyek jelentse azonos a
cscskeresssel trtn detekcinl megismertekhez. A szhatrt akkor tekintettem
helyesen bejelltnek, ha a referencia tiratban szerepl szhatr 100 ms-os krnyezetbe
esett. A referencia tiratot fonma szint szegmentls s ortografikus tirat alapjn
lltottam el a 4.3 pontban bemutatott s a 4.4 brn illusztrlt eljrssal, azaz ugyangy,
ahogyan a cscskeresses algoritmus kirtkelse esetben.

5.7.1 Pontossg s hatkonysg a HMM rendszerrel


A statisztikai alap szhatr-meghatrozs esetre kt betantsi stratgival
ksrleteztem. Az els esetben vagy csak az alapfrekvencia, vagy csak az energiaszint
adataival dolgozott a rendszer, vagyis az els s a msodik derivltak kiszmtsa utn
csak az egyik prozdiai jellemz (3 elem jellemzvektor) alapjn trtnt szhatrdetekci. A msodik esetben mind az alapfrekvencia, mind az energiaszint rtkei, els s
msodik derivltjai alapjn trtnt a betants (6 elem jellemzvektor). Az eredmnyek
a vrakozsoknak megfelelen ez utbbi esetben jobbak, amint azt az 5.1 tblzatban
ssze is foglaltam. A betants 14 magyar frfi beszl anyagval, mg a tesztels 18
magyar frfi beszl anyagval trtnt. A pontossg akkor nagyobb, ha mind az
alapfrekvencia, mind az energiaszint tpus rtkeket figyelembe vesszk, igaz gy a
hatkonysg 5-10%-kal cskken.

44

5.1 tblzat: statisztikai alap, automatikus szhatr-detektls pontossga s hatkonysga


magyar nyelvre a bemeneti paramterek fggvnyben, 11 llapot, a kibocstsi valsznsget
1 Gauss fggvnnyel ler rejtett Markov modellekkel
Prozdiai
jellemzk

Nyelv

Betant
anyag

Tesztanyag

F0+dF0+d F0
2

E+dE+d E

Pontossg [%] /
Hatkonysg [%]
67,4 / 58,4

magyar

14 frfi

18 frfi

67,4 / 63,9

F0+dF0+d F0+
2
E+dE+d E

76,5 / 53,0

Megvizsgltam azt is, mekkora betant adatbzissal rhet el a optimlis prozdiai


szegmentlsi eredmny. A betant anyagot gy elszr 4, majd egyetlen frfi beszlre
szktettem, s ugyanazon felttelekkel, ugyanazon 18 frfi beszl anyagval tesztelst
vgeztem. A betant anyagot ebben az esetben gondosan vlasztottam ki, klnsen
gyelve arra, hogy a betantshoz hasznlt beszdmintk kellen tagoltan, helyes
hangslyozssal beszl szemlytl szrmazzanak. Az eredmnyeket az 5.2 tblzatban
kzlm. Meglep, hogy a pontossg gyakorlatilag fggetlennek tekinthet a betant
anyagban szerepl beszlk szmtl, ugyanakkor a hatkonysg mr fgg ettl,
optimlisnak a 4 frfi beszl anyagval vgzett betants addott, ekkor 77,4%
pontossgot rt el a rendszer 57,1% hatkonysg mellett. Ezek az eredmnyek jelentsen
fellmljk a cscskeresses megkzeltssel kapott rtket, amely esetben 77%
pontossg mellett a hatkonysg csupn 23% volt.
5.2 tblzat: statisztikai alap, automatikus szhatr-detektls pontossga s hatkonysga
magyar nyelvre a betant anyag mretnek fggvnyben, 11 llapot, a kibocstsi
valsznsget 1 Gauss fggvnnyel ler rejtett Markov modellekkel
Prozdiai
jellemzk
2

F0+dF0+d F0+
2
E+dE+d E

Nyelv

magyar

Betant
anyag
1 frfi
4 frfi
14 frfi

Tesztanyag
18 frfi

Pontossg [%] /
Hatkonysg [%]
77,3 / 46,4
77,4 / 57,1
76,5 / 53,0

5.7.2 Az llapotok s a Gauss komponensek szmnak optimalizlsa


Az alpontban a HMM intoncis modellek kt fontos jellemzjnek, az llapotok
szmnak s a kibocstsi valsznsg eloszlst ler Gauss fggvnyek szmnak
optimalizlsi lpst mutatom be rviden.
A modellek llapotszma elmletileg tg hatrok kztt vltoztathat (az els s az utols
nem kibocst llapotok), az alkalmazott Markov modellekben az tmenetet mindig csak
a kvetkez llapotba tettem lehetv. Clszer, ha a modellek legalbb 9 llapotak,
hiszen az intoncis frzisok (azaz egy-egy intoncis osztly realizltjai) a
beszdhangoknl amelyeket hagyomnyosan 5 llapot modellekkel rnak le 10 ms
keretkpzsi id mellett jval hosszabbak. A 9 llapot kb. 200 ms hossznak felel meg,
egy-egy intoncis osztlyra ez tekintettem a minimlisan megengedhet rtknek. Mivel
az osztlyozs sorn minden llapothoz legalbb egy keretet hozz kell rendelnnk, a
25,6 ms keretidre val tekintettel az llapotok maximlisan megengedhet szma
korltos. Ksrletileg kimutattam, hogy a megfogalmazott szhatr-detektlsi feladatra

45

az optimlis llapotszm 11. Az 5.3 brn lthat, hogy az e feletti llapotszm esetn a
detekci pontossga hatrozott cskken tendencit mutat. Termszetesen a szakasz
elejn az 5.1 s 5.2 tblzatok eredmnyei is mind 11 llapotos modellekre vonatkoznak.

5.3 bra: A pontossg s hatkonysg alakulsa az llapotszm fggvnyben (balra, 4 frfi


beszl, 2 Gauss), illetve a Gauss komponensek szmnak fggvnyben (jobbra, 4 frfi, 11
llapot).

Az egyes llapotokban a kibocstsi eloszlsokat Gauss fggvnyek slyozott sszegvel


rjuk le, a komponensek szmt 1 s 8 kztt vltoztatva vizsgltam a prozdiai
szegmentls eredmnyessgt. Az elzetes vrakozsokat megfelelen az alapfrekvencia
s az energiaszint menetre elegendnek bizonyul 1, esetleg 2 Gauss komponens
hasznlata (lsd 5.3 bra). Ennl tbb komponens a pontossgot egyltaln nem nveli,
st, ekkor a hatkonysg essvel is szmolhatunk. A kevesebb fggvnykomponens
egybknt egyszerbb szmtsokat is jelent, ami a futsi idt is cskkenti.

5.7 Statisztikai alap szhatr-detekci finn nyelvre


Az 1.2 szakaszban utaltam r, hogy a szupraszegmentlis szerkezet nyelvi univerzl,
mg ha az adott funkcikhoz rendelt szupraszegmentlis eszkzk hasznlatban tallunk
is eltrst. Ez motivlta a ksrleteket arra vonatkozan, hogy a magyaron kvl ms
kttt hangsly nyelvre is megvizsgljam az intoncis frzisok behatrolsn alapul
szhatr-detektls lehetsgt. A vlaszts nem elssorban a nyelvrokonsg miatt,
hanem a szintn kttt hangsly s a beszdadatbzis elrhetsge miatt esett a finn
nyelvre.
Az ehhez kapcsold tzis:

Tzis II. C. [J1, C2, C3, C4, B1] A magyar nyelvre, az intoncis osztlyok
behatrolsra kidolgozott mdszer ms kttt hangsly nyelvekre is kzvetlenl
alkalmazhat szhatr-detekci cljbl.
Ennek igazolsra a finn nyelvre a magyar nyelv esetben bemutatott eljrst kvetve
vgeztem el mind a betantst, mind a tesztelst. A betants s tesztels alapjul szolgl
adatbzis a Helsinki University of Technology ltal ksztett Finnish Speech Database
[51], amely 250 mondatot tartalmaz sszesen 4 beszl bemondsban (kzlk 2-2 a
frfi s a n).

46

5.4 bra. A pontossg s hatkonysg alakulsa az llapotszm fggvnyben (balra, 4 frfi


beszl, 2 Gauss), illetve a Gauss komponensek szmnak fggvnyben finn nyelv intoncis
modellekre (jobbra, 4 frfi, 11 llapot).

A finn nyelv esetben is a 11 llapot, 1 Gaussos HMM modellek adtk a legjobb


eredmnyt mind az alapfrekvencia, mind az energiaszint, valamint ezek els s msodik
derivltjai alapjn (lsd 5.4 bra). A kapott eredmnyeket az 5.3 tblzatban foglaltam
ssze.
Az 5.3 tblzatbl lthat, hogy finn nyelv esetn a pontossg alacsonyabb, 69,2%,
ugyanakkor a hatkonysg jval nagyobb, 76,8%, mint a magyar nyelv esetben. Ennek
magyarzata az lehet, hogy a ksrleteinkben felhasznlt finn beszdet a magyarnl
lnyegesen lassabb beszdtemp jellemzi, illetve rendkvl gyakoriak a finnben a hossz,
felpattan zrhangok. Ezeken a helyeken az alapfrekvencia s az energia is hasonlan
viselkedik, mint a szhatrokon, gy az alacsonyabb pontossg abbl addik, hogy a
szavak belsejben a hossz felpattan zrhangokat is szhatrknt detektlja a rendszer.
Mindezt a szegmentl kimenete is visszaigazolja, hiszen a tvesen detektlt szhatrok
finn nyelv esetben gyakran a hosszan ejtett felpattan zrhangok zrszakaszra estek. A
nagyobb hatkonysg ugyanennek a kvetkezmnye: a lassbb beszdtemp miatt a
szhatroknl jobban rzkelhet a sznet, illetve az alapfrekvencia s az energiaszint
leesse, gy jval tbb szhatrt tallunk meg.
5.3 tblzat: statisztikai alap, automatikus szhatr-detektls pontossga s hatkonysga finn
nyelvre, 11 llapot, a kibocstsi valsznsget 1 Gauss fggvnnyel ler rejtett Markov
modellekkel. Az sszehasonltshoz a magyar nyelv eredmnyeket is feltntettk.
Prozdiai
jellemzk
2

F0+dF0+d F0
2
+E+dE+d E

Nyelv
finn

Betant
anyag
4 f

Tesztanyag
4 f

magyar

4 f

4 f

47

Pontossg [%] /
Hatkonysg [%]
69,2 / 76,8
77,3 / 57,1

5.8 Statisztikai alap szhatr-detektls ktnyelv


rendszerrel
Ksrleti jelleggel megvizsgltam, milyen eredmnyeket kapunk, ha a magyar anyagon
tantott modellekkel finn beszdet szegmentltunk, illetve ellenkez irnyban is vgeztem
vizsglatokat. Megvizsgltam tovbb, hogy milyen teljestmny a mind magyar, mind
finn anyaggal vegyesen tantott ktnyelv rendszer. Az eredmnyeket az 5.4 tblzatban
mutatom be.
Az 5.4 tblzat eredmnyeibl az tnik ki, hogy a magyar anyagon tantott, finn nyelvre
hasznlt szegmentl pontossga megegyezik a finn nyelven tantott s finn nyelven
tesztelt rendszer pontossgval, a hatkonysg viszont leromlott. A finn anyagon tantott,
magyar nyelvre hasznlt szegmentlk esetben a pontossg leromlik, a hatkonysg nem
javul. Ezzel szemben a mindkt nyelv anyaggal vegyesen betantott rendszer pontossga
ugyan nem javul az egynyelv esetekhez kpest magyarra 75%, finnre 69% ,
ugyanakkor a hatkonysg jelentsen nagyobb az egynyelv esethez kpest, magyarnl
57% helyett 68%, finn esetben 76% helyett 83%, ami magyar nyelv esetn 19%-os, finn
nyelv esetn 9%-os, teht igen jelents hatkonysgbeli javulst jelent.
5.4 tblzat: statisztikai alap, automatikus szhatr-detektls pontossga s hatkonysga finn
s magyar nyelvre, ktnyelv rendszerrel.
(A prozdiai-akusztikai modellekre: 11 llapot, 1 Gauss)
Prozdiai
jellemzk

F0+dF0+d F0
2
+E+dE+d E

Betant anyag

Tesztanyag
(4 f)
magyar
finn
magyar
finn
magyar
finn

magyar (4 f)
magyar (4 f)
finn (4 f)
finn (4 f)
vegyes (4+4 f)
vegyes (4+4 f)

48

Pontossg [%] /
Hatkonysg [%]
77 / 57
67 / 52
70 / 52
69 / 76
75 / 68
69 / 83

6. Magyar nyelv szhatr-detektl


integrlsa gpi beszdfelismerbe
Az 5. fejezetekben bemutatott alapelveken nyugv szhatr-detekcit rdemesnek
mutatkozott beszdfelismerbe ptve is tesztelni, hogy kpet kapjunk arrl, mennyiben
segtheti a szupraszegmentlis tartomny feldolgozs a beszdfelismerst. Tzisem
ugyanis, hogy az 5. fejezetben bemutatott szupraszegmentlis feldolgozs s intoncis
osztlyokra kszlt rejtett Markov modellek alapjn megvalstott szhatr-detektl a
beszdfelismersi rtt javtja:

Tzis III. [J3, C5, B2] Lehetsg van a beszdfelismersben a helyesen felismert szavak
arnynak nvelsre a II. A-B. tzisekben bemutatott, az alapfrekvencia- s
energiamenet alapjn mkd HMM alap intoncis osztlyoz szhatr-detektl
rvn a beszd prozdiai szegmentlsval.
Mieltt bemutatnm az erre vonatkoz ksrleti eredmnyeimet, ismertetem a rendszer
felptst, majd az eddigiekben szhatr-detekci sorn szerzett tapasztalataimnak
megfelelen kicsit finomtom a szupraszegmentlis tartomny feldolgozst s
modellezst, illetve annak megfogalmazst. Ezt kveten mutatom be a ksrleti
beszdfelismer alkalmazst, s ismertetem a tesztels sorn kapott felismersi
eredmnyeket.

6.1 A beszdfelismer rendszer felptse


A szhatr-detekci kimenett a hipotzis grfok (n. N-best lattices) jraslyozsra
hasznljuk fel, hasonlan a [53] irodalomban bemutatott eljrshoz. Ktmenetes
felismerst futtatunk, a msodik felismersi menetbe mr az jraslyozott grfok
kerlnek, gy a felismers vgeredmnynek kirtkelst mr a prozdia alapjn nyert
informci is befolysolja. Utols lpsknt az jraslyozott hipotzis grfon kell a
maximlis pontszm utat megkeresni (n. parsing). A megvalstott rendszer
blokkvzlatt az 6.1 brn mutatom be. Az prozdiai szegmentlt s a beszdfelismer
rendszert is a HTK szoftvercsomag [59] felhasznlsval valstottam meg.

49

Beszdhang
HMM

Sztr

Beszdjel

Nyelvi modell

Szegmentlis
akusztikai
elfeldolgozs

Szegmentlis
tartomny
mintailleszts

Szupraszegment
lis akusztikai
elfeldolgozs

Prozdiai
szegmentls

Hipotzis
grfok
jraslyozsa
tvonal
kirtkels

Intoncis
kapcsoldsi
modell

Intoncis
osztlyok

Felismert
szveg

Intoncis
HMM

6.1 bra: Prozdiai szegmentlval kiegsztett beszdfelismer felptse

6.2 A szkapcsolati szint intoncis modellek


finomtsa
Mint azt korbban lttuk, a prozdiai szegmentls sorn az egyes mondatpt
szintaktikai elemek intoncijnak tpust szeretnnk felismerni, s jrulkosan a szavak
s a nekik megfelel szintaktikai egysgek hatrt a lehet legnagyobb pontossggal
meghatrozni.
Az 5.2 szakaszban bemutatott intoncis osztlyokat a nyelvszeti szakirodalom
tanulmnyozsa rvn neveztk el az elemi dallammenetek szerint. Ezt az elnevezst
utlagosan kiss pontatlannak vltk, hiszen az ltalunk vizsglt szkapcsolati szint
intoncinak keresztelt jelensg nem a dallammentek, hanem a sz- s mondathangsly,
illetve a mondat intoncijnak egytteseknt jn ltre.
Ezrt a kvetkezkben jradefinilom a szkapcsolati szint intoncis osztlyokat,
ugyanis a ksbbi publikciimban [J3, C5, B2] is mr ezeket az elnevezseket
hasznltam. j alapelvnk az, hogy az intoncis osztlyok elklntse a szkapcsolati
szint intonci egy ltalunk bevezetend prototpusa, alapsmja szerinti
sszehasonltsban trtnik. Korbban lttuk, hogy a hangslyos pozcikon az
alapfrekvencia s energiaszint rtkei kiemelkednek. Az els sztagon kttt hangsly
esetben az intoncis osztlyok alapsmja a hangsly jelentette prominencia, majd az
azt kvet lass ereszkeds a kvetkez hangslyos szakaszig. A fentiek kijelent
mondatra rtendek azzal a megktssel, hogy a beszl rzelmei, illetve egyb
szitucis tnyez, funkci a szupraszegmentlis jellemzket tlzottan nem
befolysoljk. A mondatbeli elhelyezkedstl s a hangslyossg mrtktl fggen
magyar nyelvre az albbi intoncis tpusokat klntettem el:

50




Mondatindt intoncis sma. Jellemzje a magas alapfrekvencia-szinten trtn


indts, illetve a relatve magasabb energiaszint, majd az ezt kvet lecseng,
ereszked szakasz. Ha a mondat hangslytalan elemmel indul, az indtst mg egy
meredek felfuts majd lecsengs jellemzi ott, ahol az els hangslyos sz
tallhat.
Ersen hangslyos intoncis sma. Mindig mondaton bell tallhat, jellemzje
az ereszked jelleg intonci, amelyet a szkapcsolat els szavnak els
sztagjn realizld ers hangsly indt.
Gyengn hangslyos intoncis sma. Az ersen hangslyos smhoz hasonl,
klnbsg csak abban van, hogy az indt hangsly gyengbb.
Mondatzr intoncis sma. A mondat utols, mg hangsllyal indt ereszked
szakasza, amely utn csnd tallhat. Jellemz az alacsony alapfrekvencia- s
energiaszint, illetve a cskken dinamikatartomny. Egyes beszlk beszde
gyakran glottalizltt vlik.
Folytatst jelz intoncis sma. Ott jelenik meg, ahol a beszl sznetet tart
(leginkbb levegvtel cljbl), de a mondat maga mg folytatdik. Tipikusan
tagmondatok hatrn fordul el. Mindig prozdiai frzishatrt is jelent, hiszen
jellemzen levegvtel kveti. A felfel ksz, enyhn, de viszonylag tartsan
(tbb sztagra kiterjed) emelked intonci jelzi, mely cscst az utols
sztagon ri el. A gyakorlatban hangsly, az azt esetlegesen kvet ereszkeds,
majd a felfuts jellemzi, biztostani kell ugyanis azt, hogy az intoncis hatrok
egybeessenek a szkapcsolati hatrokkal, ezrt clszer a megelz hangslyt s
ereszkedst is hozzvennnk.
Semleges intoncis sma. Lebeg vagy ereszked intonci jellemzi, kezd
hangsly az alapfrekvencia- vagy energiagrbn nem lthat (mert azt pldul a
megelz frzisvg elfedi). Gyakorlatilag csak a folytatst jelz intoncis sma
utn fordul el, mert egyb esetben a semleges intoncij szakaszt kln nem
jelljk, azt egy hangsllyal indt szakasz rsznek tekintjk.

A felismerni szndkozott intoncis tpusok kivlasztsnl tovbbra is tekintettel kell


lennnk arra, hogy az egyes osztlyok egymstl lesen elklnthetek legyenek, s
felleljk a leggyakrabban elfordul vltozatokat. Az les klnbsgttel kvetelmnye
miatt mindssze 6 alapvet intoncis tpust klnttettnk el a prozdiai felismershez.
A sznet adja a 7. felismerend intoncis tpust. Az eddigiekben rszletezett intoncis
tpusokat az 6.1 tblzatban foglaltam ssze. Ksbbiekben az itt megadott cmkjkkel
fogunk rjuk hivatkozni.

51

6.1 tblzat: A felismersre kivlasztott intoncis tpusok


Cmke

Jellemz intonci

Megjegyzs

me

vltoz

Mondat eleje.

fe

(emelked-)es v.

Ersen hangslyos szintaktikai egysg.

es-ereszked
fs

ereszked

Mellkhangslyos szintaktikai egysg.

mv

ereszked

Mondat vge.

fv

emelked

Folytatst jelz szintaktikai hatr.

ereszked vagy lebeg

Hangslytalan szakasz. Sznetet is


kitlthet az F0 interpolcija miatt.

sil

Sznet.

6.3 A szupraszegmentlis tartomny akusztikai


feldolgozs finomtsa
Az 5.5 szakaszban bemutatotthoz kpest az akusztikai feldolgozst is finomtottuk,
jllehet a vltoztatsok az eljrst magt kevss rintik, inkbb a paramterek
mdostsra vonatkoznak. Az alapfrekvencit tovbbra is AMDF alap algoritmussal
nyerjk, de a keretidt cskkentjk 10 ms-ra. A 25,6 ms keretidnl ugyanis gondot
jelentett, hogy az esetlegesen rviden ejtett, zngtlen mssalhangzk kz gyazott
magnhangzk esetn a 7 pontos medin szrsre is tekintettel nem maradt
hasznlhat alapfrekvencia adat. A medin szrs elhagysa vagy ablaknak szktse
utn pedig nem volt megfelel minsg a kapott alapfrekvencia-jel. Emiatt ttrtnk a
Snack programcsomag [48] hasznlatra az alapfrekvencia kinyershez, s az
oktvugrs kivdsre szrst alkalmazunk az albbiak szerint:
A felhasznlt alapfrekvencia kinyer algoritmus [48] mkdse miatt az
oktvugrs mindig csomsan jelentkezik, legjellemzbben egy-egy teljes zngs
szakaszra kiterjeden.
Az els 25 zngs keret F0 rtkeit tlagolva referencit szmtunk (Fref). Ksbb
a referencit folyamatosan frisstjk a lineris feldolgozs sorn, minden
megbzhatnak tlt adatot eltolssal belptetnk a referenciatmbbe, mely teht
marad 25 elem.
A felezs kezelse:
Felezsre gyanakodhatunk, ha a soron kvetkez F0 adatra teljesl a
0 < F 0 < Rl * Fref

(6.1)

felttel, ahol Rl konstans szorzfaktor, rtke tapasztalati alapon 0,65. Ha radsul

F 0 < Rs * Fref , Rs > Rf ,

(6.2)

ahol Rs= 0,55, akkor F0 rtkt automatikusan megduplzzuk. Ha csak az

52

enyhbb felttel ll meg (5.1), akkor a kvetkez zngtlen szakasz utni zngs
szakaszbl is tlagot vesznk, s csak akkor duplzzuk F0 rtkt, ha erre teljesl
az (5.2) ers felttel.
A duplzs kezelse:
Duplzs gyanjakor mindig megkveteljk az ellenrzst (nehogy pldul egy
magas F0 indts becsapjon minket), gy csak egy felttelnk van:

F 0 > Rd * Fref .

(6.3)

Rd= 1,80. Ha ez a felttel a kvetkez zngs szakaszra is megll, F0-t


megfelezzk, egybknt vltozatlanul hagyjuk.
Megbzhatnak tekintnk minden zngs F0 rtket, ha vele kapcsolatban sem a
felezs, sem a duplzs gyanja nem merlt fel.
Az Rs, Rf s Rd rtkeit tapasztalati ton lltottuk be.
A szrs bevezetst az indokolta, hogy cskkentsk az alapfrekvencia-menetben az
oktvugrsok szmt. Az oktvszrst 5 pontos mean szrs kvette. A medin szrst
azrt vetettk el, mert azzal a szmunkra jelentsggel br extrm szls rtkeket
teljesen elvesztennk, inkbb megengedjk a zngs-zngtlen szakaszok hatrn az
alapfrekvencia elkenst.
Bevezettem az alapfrekvencia interpollst is a zngtlen helyeken. Az interpolls a
korbban bemutatott hangmagassgszintre val tszmts analgijra logaritmikus
tartomnyban lineris, azaz logF0 rtkekre trtnik. Az interpolci a kvetkez
megfontolsok alapjn trtnt:
nem trtnt interpolci olyan zngtlen szakaszokon, amelyek hossza a 250 msot meghaladta;
illetve akkor sem, ha a zngtlen szakasz utni els zngs keret alapfrekvencija
meghaladta a zngtlen rsz eltti utols 3 keret alapfrekvencia-rtkei tlagnak
1,1-szerest.
Minderre azrt volt szksg, hogy a 250 ms-nl hosszabb, ezrt igen nagy
valsznsggel beszdsznetet tartalmaz szakaszokon az alapfrekvencit ne
interpolljuk, mivel egyrszt a sznetet magt is szeretnnk a ksbbiekben detektlni,
msrszt ilyen hossz szakaszon az interpolls mr tl durva kzelts lenne. Az
alapfrekvencia-rtk zngtlen szakasz utni emelkedst a zngtlen szakasz eltti
utols hrom rtk tlagnl pedig azrt nem engedjk magasabbra, mert ekkor
valsznbb, hogy a krdses szakaszon mondat, tagmondat vagy szkapcsolat hatra
volt, s emiatt indt magasabbrl az alapfrekvencia. E fenti rtkeket egyelre tapasztalati
ton lltottuk be, de clszer lehet ezeket a beszltl (beszdtemp, artikulcis
sebessg, stb.) fggen meghatrozni.
Az egysges kezelhetsg rdekben termszetesen ezentl az energit is 10 ms
keretidvel kezeljk, s 25 ms mret Hamming ablakkal szmtjuk, ezt azonban minden
esetben tovbbi tlagols kveti legalbb 5 pontos mean szrvel, hogy valban a
szupraszegmentlis tartomnyt vegyk figyelembe.
Ezutn mind az alapfrekvencia, mind az energiartkekhez els s msodrend
derivltjaikat is kiszmtottam. A derivltak kzeltsre alkalmazott (5.3) regresszis

53

kpletben a figyelembe vett krnyezetet hrom lpcsben fokozatosan nvelve valjban


3-3 els s msodrend derivltat kpeztem, rendre 10, 25 s 50 keretnek
megfelelen ablakolt (W a (5.3) kpletben) mintk alapjn, gy a vglegesen kapott
jellemzvektor sszesen 6 helyett 14 elemet tartalmazott: az eredeti, feldolgozott
alapfrekvencia- s energiartket, s ezek mindegyikhez 3-3 els- s msodrend
derivltat.
Az eddigiekben rszletezett akusztikai elfeldolgozsi lpseket a 6.2 brn is
feltntetem a knnyebb kvethetsg rdekben. Az bra teljes magyarzatrt lsd a 6.4
szakaszt is.

F0
F0 & energia
kinyerse
Beszdjel

Szupraszegmentlis akusztikai
elfeldolgozs

Oktvugrs
elleni
szrs

Interpolci

energia
Szrt F0 &
energia
tlagolsa

Intoncis
HMM
tants

Intoncis
osztlyokra
szegmentls

Intoncis
osztlyok
HMM-jei

6.2 bra. A szupraszegmentlis tartomny akusztikai elfeldolgozs menete s az intoncis


osztlyok rejtett Markov modelljeinek betantsa

6.4 A prozdiai szegmentl betant anyaga


A prozdiai szegmentl betantshoz ugyanazt a beszdanyagot hasznltam fel, mint
4.3-ban. A szveganyagot kzzel, majd flautomatikusan felszegmentltam20 a 6.1
tblzatban szerepl, jradefinilt intoncis osztlyokra. A kzi szegmentls a 6.2
pontban bemutatott, finomtott akusztikai feldolgozssal nyert alapfrekvencia- s
energiartkek megjelentsvel trtnt (v. 6.2 bra), a lehallgats sorn kapott
szubjektv tletet is figyelembe vve, Wavesurfer [48] programmal.

6.5 Az automatikus prozdiai szegmentls menete s


nyelvtana
Az elkszlt prozdiai szegmentl tovbbra is rejtett Markov-modell alap, a keretid a
mr emltett 10 ms, a Markov modellek linerisak, llapotaik szma tovbbra is 11, mivel
tovbbra is ez addott optimlisnak.
20

Azaz a mr felszegmentlt anyagot korrigltam az j osztlydefinciknak megfelelen.

54

Az automatikus prozdiai szegmentls mindenben a 5.4 pontban bemutatottak szerint


trtnik, az intoncis osztlyokra vonatkoz nyelvtant (IGm) azonban termszetesen az
j intoncis osztlyokra kell megadni, amely a kvetkez alakot lti (jellseket lsd a
6.1 a tblzatban):

IGm = [sil] < [me]{ fe | fv[s]}[mv][sil] > sil ,

(6.4)

ahol a <> szimblumok egy vagy tbb, a {} nulla, egy vagy tbb ismtldst jellnek.
A | szimblum kizr vagy kapcsolatot, a [] opcionlisan elmarad esemnyeket jell.
Az ily mdon formalizlva lejegyzett sorozatot tekintjk a prozdiai mondatmodellnek.
A prozdiai szegmentl mint szhatr-detektl hatkonysgt s pontossgt ismt
ellenriztem, ezttal a 6.7.2 pontban ismertetsre kerl ultrahangos leletadatbzison. Az
j intoncis osztlyok s a feldolgozs finomtsnak hatsa kismrtkben rzdik a
pontossg javulsn, amely 77,3%-rl 79,2%-ra nvekedett, a hatkonysg is javult,
57,1%-rl 58,5%-ra. Ennl jelentsebb eredmny a szhatrok idben pontosabb
elhelyezse az j osztlyokkal, a szhatr-elhelyezsek idbeli pontossgt a

t =

1
H

| ti tref |

i =1

(6.5)

szrs tpus mrtkkel definilva az j osztlyokkal s j akusztikai feldolgozssal 2,6rl 3,2-re javult. (6.5)-ben H a helyesen (100 ms-on bell) detektlt szhatrok szma, T
a keretid, ti a detektls idpontja, tref a szhatr tnyleges elhelyezkedse beszdhang
szegmentls alapjn. Az 5.2 szakaszban bemutatott osztlyokra az 5.5 akusztikai
feldolgozs alapjn ugyanis T=25,6 ms, mg a 6.3 szakasz alapjn az j osztlyokra T=10
ms, gy a szhatr-detekci tlagos idbeli pontossga kb. 67 ms-rl 32 ms-ra, teht igen
jelentsen nvekedett.

6.6 A hipotzis grfok jraslyozsa


A hipotzis grfok jraslyozsa a prozdiai szegmentls alapjn trtnhet. Az alaptlet
az, hogy azokat a szavakat s szlncokat (a hipotzis grfbl kinyerhet szsorozatokat,
amelyek egy-egy lehetsges felismersi utat adnak meg), amelyek esetn a szavak hatrai
idben egybecsengenek a prozdiai szegmentls ltal jelzett hatrokkal, valamilyen
mdon rszestsk elnyben a felismerskor, azaz a hozzjuk rendelt valsznsgi slyt
nveljk. Hasonlkpp, azokban az esetekben, amikor a prozdiai szegmentl ltal
megadott hatrok szavak belsejbe esnek, az eredetileg hozzrendelt slyokat
cskkenthetjk.
Problmt okoz azonban, hogy a prozdiai szegmentl sem mkdik hibamentesen,
azaz bizonyos szzalkkal tves tletet hoz a szintaktikai egysgek hatrait illeten.
Spontn beszdben mg gyakoribbak azok a jelensgek, amelyek az automatikusan fut
algoritmust megzavarhatjk (gyakoribbak a sztvesztsek, javtsok, elfordulhat, hogy
a prozdia eltorzul, ha a beszl mondat kzben meggondolja magt s mshogyan
folytatja kzlendjt, a hevesebben kifejezett rzelmek is befolysolhatjk a prozdit,
stb.), ezrt valamilyen mrtkben a prozdiai informcit, azaz a prozdiai szegmentl
kimentt is fenntartssal kell kezelnnk.

55

gyelnnk kell tovbb arra is, hogy a prozdiai informci ppen szupraszegmentlis
jellegbl addan az idpontokat tekintve kevsb pontos lokalizcit tesz lehetv,
mint az egyes beszdhangok gy akr az egyes szavak hatrainl a
beszdfelismerkben megszokhattunk. Gondoljunk pldul arra, hogy ha egy adott
intoncis egysg utols beszdhangjaknt zngtlen hangot (klnsen is, ha zngtlen
rshangot) tallunk21, a hanglejtsben szmunkra az utols biztos tmpontot a legutbbi
magnhangz jelenti. Ez mris egy beszdhanghossznyi bizonytalansgot jelent, amit a
prozdiai szegmentl a beszdhangsor ismeretnek hinyban nem tud feloldani. ppen
ezrt a prozdiai szegmentl ltal megjellt hatrokat intervallumm transzformljuk,
azaz megengednk bizonyos T csszst a prozdiai szegmentl ltal megllaptott
hatrhoz (tB) kpest. Az intervallumon bell a tnylegesen elrejelzett hatrtl val
tvolsg fggvnyben rtelmeznk egy a szhatr adott idpontban22 trtn
elhelyezkedsnek valsznsgvel arnyos pontszmot (LB) az albbiak szerint:

t) + A, ha t [t B T,t B + T ]
Acos (
,
LB (t) =
2T

0 egybknt

(6.6)

ahol A vlaszthat konstans. A ksrleteimben A rtke 1, T rtke 10 keret, azaz 100 ms


volt, sszhangban a korbbi kirtkelsnl megadott maximlis eltrs rtkvel. A
cosinus fggvnyt az egyszersg kedvrt vlasztottam (v. [8]), de lnyeges, hogy
minl tvolabb van a hatr az elre jelzettl, annl kisebb pontszmot rendelnk hozz.
Mindezek utn rtrhetnk a hipotzis grfok tnyleges jraslyozsnak algoritmusra,
amelyet az albbiakban mutatok be. Tudjuk, hogy a hipotzis grf leihez szavak vagy
szlncok, csompontjaihoz pedig a megfelel kezd- s vgidpontok vannak rendelve.
Az jraslyozshoz minden, a grfban tallhat szt vagy szlncot kigyjtnk, majd
kezd- s vgpontjaira pontszmot szmtunk, amely annl nagyobb (lsd (6.5)
sszefggs), minl kzelebb van a prozdiai szegmentl ltal jelzett hatrhoz a sz
eleje, illetve vge:
Sc renum = w a L B ( t start ) + w b L B ( t end ) ,

(6.7)

ahol tstart a sz grf szerinti kezd, tend a sz grf szerinti vgpontjnak felel meg (az
idben), wa s wb pedig slyok.
Ezt kveten a sz valamennyi i keretre az els s utols k darab keret kivtelvel
sszegezzk LB(ti) rtkeket, ahol ti az aktulis keretid:
N k 1

Sc punish =

i = k +1

(t i ) ,

(6.8)

A fenti kpletben N a szhoz tartoz sszes keret szma, k= T=100 ms pedig sszer
vlasztsnak knlkozik. A grf lhez tartoz j Screscored pontszm rtke pedig:
21
22

A zngtlen rshangok jellemzen igen hosszak, ezrt pp ezek okozzk a legnagyobb gondot.
Az idpont termszetesen diszkrt idtengelyen rtelmezend, hiszen a 10 ms keretidnek megfelel
idpontok adjk a diszkrt idpontok rtkkszlett.

56

Sc rescored

= w O Sc orig + w P ( Sc renum Sc

punish

),

(6.9)

ahol Scorig a grf lhez eredetileg tartoz, most fellbrlt pontszm (lsly), wO s wP
pedig slytnyezk.

6.7 Tesztels
A prozdiai szegmentl beptsvel clunk a beszdfelismers hatkonysgnak
nvelse. A 6.1 szakaszban a 6.1 brn ismertettk a bepts mdjt, az elzekben (6.6
szakasz) pedig ttekintettk azokat az algoritmikus vltoztatsokat, amelyeket a
beszdfelismers folyamatban szksges eszkzlnnk.

6.7.1 A ksrleti rendszer bemutatsa


A ksrlethez magyar nyelv, folyamatos beszdfelismert vlasztottam, amely az
orvostudomnybeli radiolgiai leletezs terlett, azon bell is a hasi s kismedencei
ultrahangos vizsglatok leletezsnl hasznlt sztrkszletet leli fel. A sztr
elemszma viszonylag csekly, mintegy 4000 sz. A terletre bi-gram nyelvi modell is
kszlt, azonban jelen ksrletben a bi-gram nyelvi modellt binarizltam, azaz csak azt
tntettem fel benne, milyen szavak utn milyen szavak elfordulsa megengedett a
szvegben. Ennek clja egyttal annak kiprblsa is, hogy kpes-e a prozdiai
informci minimlis nyelvtani informci mellett a felismers hatkonysgt javtani.
Ezzel egyttal a nagysztras alkalmazsok fel is tekintnk, ugyanis nagy sztrmret
esetn a nyelvi modell elksztshez rendkvl nagy szvegadatbzis kell, a nyelvi modell
hasznlata pedig rendkvl mveletignyes. Klnsen igaz ez az agglutinl nyelvekre
gy a magyarra is amelyek esetn viszonylag kis tmaterlet esetn is relatve nagy az
elfordul szalakok szma a toldalkol jelleg miatt.
A felismer HTK krnyezetben implementlt, felptst tekintve a klasszikus 39
MFCC egytthatt alkalmaz, a kibocstsi valsznsgeket 32 Gauss fggvny
szuperponlsval ler, 10 ms keretidej rendszer. A felismer betantshoz az MRBA
adatbzis [55] mintegy 8 rnyi, rszben beszdhang szinten felszegmentlt anyagt
hasznltam fel, sszesen 37 beszdhang modell kszlt.
Ebbe a felismerbe ptettem bele a prozdiai szegmentlt, s vizsgltam a felismersi
eredmny vltozst. A (6.7) s az (6.9) kpletekben megadott slyok rtkeit tapasztalati
ton az albbiakra lltottam be: wa=0,5, wb=0,5, wO=1, wP=2,5.

6.7.2 Teszteredmnyek
A ksrleti rendszerrel hasi s kismedencei ultrahangos leletek felismerst vizsgltam
sszesen 20 darab leletre. (Egy lelet nagysgrendileg kb. 10-20 mondatot tartalmaz.) A
felismerst azonos krlmnyek kztt azonos (rgztett majd visszajtszott) leletekre
elszr az alaprendszerrel, majd a prozdiai szegmentlval kibvtett rendszerrel
vgeztem el. Az eredmnyeket a 6.2 tblzatban mutatom be 6 darab, a teljes tesztanyag
tekintetben reprezentatvan kivlasztott leletre. A tblzatban megjelentett mrszmok
a helyesen felismert szavak arnya, illetve a sztvesztsi arny relatv javulsa,

57

mindkett szzalkosan rtend. Az alaprendszer alatt termszetesen a prozdiai


szegmentlval nem kiegsztett, minden egyb tulajdonsgban azonos felismert
rtjk.
6.2 tblzat: A helyesen felismert szavak arnynak alakulsa az alaprendszer
s a kibvtett rendszer esetn, illetve a sztvesztsi arny javulsa.
Leletazonost
03
07
08
10
16
19
sszes
lelet (20)

Helyesen felismert szavak [%]


Alaprendszer
71,2
78,8
84,6
70,8
68,3
83,8
75,99

Kibvtett rsz.
78,9
80,6
84,6
72,2
66,7
90,5
78,89

A sztvesztsi arny
vltozsa (relatv) [%]
10,9
3,6
0,0
2,0
-2,4
8,1
3,82

Az 5.2 tblzatbl lthat, hogy a prozdiai szegmentlval kibvtett rendszer


teljestmnye sszessgben 3,82%-kal javult. A javuls mrtke leletenknt vltoz,
egyes esetekben 10% fltti eredmnyt is kaptam (lsd pl. 03-as azonostj lelet),
ugyanakkor elfordul (lsd pl. 16-os azonost), hogy a felismers nem javul, hanem
ppensggel romlik a prozdiai informci figyelembe vtelekor. Az egyes
leletbemondsokat megvizsglva arra a kvetkeztetsre jutottam, hogy a prozdiai
szempontbl jobban ezzel egytt a megszokott htkznapi, ltalnosan elvrhat
kiejtsnl nem gondosabban bemondott leletek felismerse a prozdiai informci
figyelembe vtelekor jelentsebb mrtkben javul. Azokban az esetekben, amikor a
felismers a kibvtett rendszerrel nem javult, hanem romlott, a hibt jellemzen a
prozdiai szegmentl tvesztse okozta, ami a hipotzis grfok jraslyozsakor
eltorztotta a felismerst. A hiba forrsa esetenknt a prozdiailag gondatlan beszd,
esetenknt az alapfrekvencia-detektor tvesztse volt. Ez utbbi trtnt pldul egy kiss
rekedt hang beszltl szrmaz lelet esetben.
A relatv 3,82% javuls 4 ezer szavas, igen behatrolt sz- s mondatkszlet
beszdfelismer alkalmazsban vlemnynk szerint nagyon j eredmny, ez ugyanis a
sztr mretnek nvelsvel, illetve a felismerend szveganyag ktetlenebb
vlasztsval mg nagyobb teljestmnynvekedst eredmnyezhet.
Fontos megjegyeznem azt is, hogy a prozdiai szegmentl ltal meg nem jellt
szintaktikai vagy szhatrok a beszdfelismerst a hipotzis grfok jraslyozsi
algoritmusbl kifolylag nem rontjk, jllehet rdeknkben ll minl tbb szhatrt
megtallni, ezltal tbb lehetsget adva a prozdiai informcit nem hasznl felismers
hatkonysgnak nvelsre. A prozdiai szegmentltl nem vrhatjuk el, hogy
valamennyi szhatrt megtalljon23 (v. hatkonysg, illetve 5.2 s 6.3 brk),
ugyanakkor bebizonyosodott, hogy a megtallt szhatrok alapjn a felismers
hatkonysga javthat.
23

Erre mg gyakorlott szakember sem vllalkozhat pusztn az alapfrekvencia s az energiartkek


ismeretben.

58

A 6.3 bra egy a beszdfelismer ltal felismert mondatot jelent meg, a prozdiai
szegmentl kimenetvel prhuzamosan brzolva.

6.3 bra. A beszdfelismers s a prozdiai szegmentls kimenete az I-es rgi [klinika], hasi s
kismedencei UH vizsglat mondatra orvosdiagnosztikai ASR alkalmazsban. A svokban rendre
az idfggvny, a spektrogram, az interpollt alapfrekvencia, az tlagolt energia,, majd a
prozdiai szegmentls (prozdiai szegmentl) kimenete, vgl a felismert szveg lthat
bejellt szhatrokkal.

59

7. A modalits felismerse
A modalits felismerse elssorban szemantikai szint feladat, s legalbb egy, de gyakrabban
tbb mondatbl ll beszdszegmensre vgezhet el. Mivel a modalits mondat szinten
rtelmezett, ezrt a modalits felismersnek szintaktikai vonatkozsai is vannak, ez pedig a
robusztus mondathatr-, st tagmondathatr-detekci. A tagmondatokat alapveten gy
rtelmezzk, mint az rsban vesszvel jellend mondatbeli hatrokat, mg a mondatok az
rsban mondatzr rsjellel lezrand nyelvi egysgek. A modalits felismerst termszetesen
szupraszegmentlis jellemzkre alapozva fogom elvgezni, a mondatszint intonciban dnt
alapfrekvencia alapjn, de az energia menett is fel fogom hasznlni. A modalitsfelismers
beszdfelismersbeli gyakorlati hasznt a 3.4, illetve a 3.4.1 szakaszokban ismertettem, ezrt erre
most nem trek ki. A fejezetben trgyaland s bizonytand alaptzisem:
Tzis IV. A. [J2, C6] A szhatr-detektlsra kidolgozott folytonos HMM alap algoritmus a
megfelel mdostsokkal alkalmas a tagmondathatrok detektlsra, s a mondat
modalitsnak meghatrozsra.
Ehhez kapcsoldan megmutatom, hogy az alapfrekvencia- s energiajel feldolgozst nagyobb
idablakokkal kell vgezni, mint a hangslydetekci esetn, illetve hogy az gy kidolgozott
magyar nyelv rendszer kzvetlenl alkalmazhat a nmet nyelvre is (lsd IV. B tzis). Mivel a
modalits az egyes nyelvekre univerzlisabb tulajdonsg a hangslyozsnl, ezrt a mdszert ms
nyelvekre jval ltalnosabban lehet alkalmazni, mint a hangslydetekcit, amely esetn a kttt
hangsly nyelvekre szortkoztunk.

7.1 A modalitsfelismer rendszer felptse


A 7.1 brn a modalitsfelismer rendszer blokkvzlata lthat. Az bra blokkok szerinti
felptse teljesen megfelel az 5.1 brn bemutatottnak, az egyes modulok szerepe is azonos, de a
feldolgozsi tartomny most nagyobb. A szupraszegmentlis akusztikai elfeldolgozs sorn
nagyobb idablakokkal tlagolunk, ezzel az alapfrekvencia- s energiamenetbl lehetsg szerint
mg a hangslyok okozta emelkedseket is kiszrjk. A szkapcsolati szint intoncis osztlyok
helyett most tagmondatokra kszlt, de szintn a hanglejtst ler prozdiai-akusztikai modelleket
hasznlunk24, a nyelvtanunk pedig szveg szint, azaz tagmondatok, mondatok kapcsoldsi
lehetsgeit rja le, szemben az 5.1 bra mondatszint nyelvtanval. A kimenet is nagyobb
tartomny felosztst ad, szhatrok helyett tagmondat- s mondathatrokra szegmentljuk a
beszdet. Fontos klnbsg a szhatr-detektl s a modalitsfelismer rendszer kztt, hogy
elbbi esetben az illesztett intoncis osztly gyakorlatilag kzmbs volt25, a lnyeges
informcit csak az egyes osztlyok hatrai adtk, mg most az illesztett tagmondatosztly adja
meg a mondat modalitst, gy ezt is felhasznljuk, hiszen ennek alapjn lesz lehetsges az
rsjelek kittele a felismert szvegben, ha a modalitsfelismert beszdfelismerbe ptjk be.

24
25

Ne feledjk, hogy a modalits egyrtelmen a mondat egysgre tekintett intonci alapjn klnthet el.
Termszetesen itt is rdemes lehet a kimenetet hasznlni szintaktikai-szemantikai mondatelemzs
megvalstsra, ezt a krdst azonban dolgozatomban mr csak terjedelmi okokbl sem trgyalom.

60

Tagmondat
intoncis
HMM-ek

F0 & energia
kinyerse

Szupraszegmentlis akusztikai
elfeldolgozs

Szupraszegmentlis
jellemzvektorok

Tagmondat s
mondathatrok,
modalits s
rsjelek

Tagmondat
osztlyok
illesztse

Beszdjel

Tagmondatok
kapcsoldsi
modelljei

7.1 bra: Statisztikai alap modalitsfelismer rendszer blokkvzlata

7.2 Szupraszegmentlis akusztikai elfeldolgozs


A modalitsfelismershez is az alapfrekvencia s az energiamenet rtkeit hasznljuk fel,
az alapfrekvencia esetben a 6.3 pontban vzolt oktvugrs elleni szrst is alkalmazzuk.
A feldolgozs eddig teht azonos a szhatr-detektlsra bemutatott eljrssal. Ezutn
azonban mind az alapfrekvencia-, mind az energiajelet tovbb szrjk 5-50 pont kztti
tlagol (mean) szrssel. Hogy pontosan hny pontos tlagol szr lesz az optimlis,
azt majd a tesztelskor fogjuk meghatrozni, a vizsglt ablakok az 5, 10, 20, 26, 30, 36, 40
s 50 keretszmokban rtend ablakok, ezeket a 10 ms keretidvel szorozva kaphatjuk meg az
idbeli tlagols mrtkt. Az alkalmazott ablak Hamming ablak.

Az eddigiekhez tovbbra is hasonlan mind az alapfrekvencia, mind az energiartkekhez


els s msodrend derivltakat szmtunk a (5.3) sszefggs szerint, ahol a figyelembe
vett krnyezetet hrom lpcsben fokozatosan nvelve 3-3 els s msodrend derivltat
kpeztnk, ezttal rendre 10, 20 s 40 keretnek megfelelen ablakolt mintk alapjn,
gy a vglegesen kapott jellemzvektor sszesen megint 14 dimenzis. Az elkszlt
modalitsfelismer folytonos rejtett Markov modell alap, a keretid a mr emltett 10
ms, a Markov modellek linerisak, llapotaik szma ismt optimalizland, amelyet a
tesztels ismertetse sorn bemutatok.

7.3 A betant anyag s elksztse


A betant anyagot ezttal a BABEL [42] s az idkzben elkszlt MRBA [55]
adatbzisokbl vlogattuk. A tagmondat szint szegmentlst a betant anyagon a 7.1
tblzatban bemutatott kategrikra vgeztk el. Mint az a 7.1 tblzatbl kiderl,
igyekeztnk biztostani, hogy mindenfle modalits mondat s tagmondat szerepeljen
elegend szmban a betant anyagban, ami nem volt knny feladat, tekintve, hogy sem
a BABEL, sem az MRBA adatbzist nem ilyen szempontok szerint terveztk.
Minden tagmondatot kln cmkztnk, s clszernek tartottuk, ha a nem mondatzr
tagmondatokat is elklntjk aszerint, hogy milyen modalits mondat rszei, ezrt a
tovbbiakban a tagmondatok modalitsnak fogalmt26 is hasznlom, ez alatt mindig az
26

A nyelvszet termszetesen ilyen fogalmat nem hasznl.

61

rtend, hogy az adott tagmondat milyen modalits mondat rsze.


sszesen 10+1 alapvet mondat, ill. tagmondatfajtt (tpust, modalitst) klnbztettnk
meg (v. [10], [37]). A kivlasztott hangfjlokat szubjektv lehallgats s az
alapfrekvencia, illetve energiaszint megjelentse alapjn tagmondatok szerint
szegmentltuk s cmkztk a (tag)mondatok modalitsa szerint a Praat programmal [52],
ekkor a hanganyagba bejelltk a mondatok, tagmondatok hatrait, valamint a
tagmondatok tpusainak (modalitsainak) megfelel szimblumokat. Szegmentlsra,
cmkzsre a 7.2 brn lthatunk pldt.
7.1 tblzat: A szegmentls s cmkzs statisztikja
Jells

sszes elforduls
(darab)

445

287

Kiegsztend krds

40

Kiegsztend krds
tagmondata

KT

13

35

FF

52

FFT

24

hajt mondat

Felsorols

41

Semleges

125

U
10 osztly +
sznet

Modalits
Kijelent mondat, zr
tagmondata
Kijelent tagmondat,
(nem zr tagmondat)

Eldntend krds
Felszlt s felkilt
mondatok
Felszlt s felkilt
mondatok tagmondata

Csend (sznet)
sszesen:

1029

A 7.1 tblzatban bemutatott osztlyozs nagyrszt magtl rtetd, ezrt az


albbiakban csak a nem trivilis kategrikat definilom:
Eltr intoncis mintja miatt az eldntend (igen/nem vlasz) s kiegsztend
(explicit vlasz) krdseket a szakirodalmi nyelvszeti osztlyozsnak
megfelelen kln trgyaljuk ([37]).
A felkilt s a felszlt mondatok intoncija kztti szerny klnbsg miatt
ezeket egymstl nem klnbztettk meg. Ez egybknt a megfelel rsjel
(felkiltjel) kittelben nem okoz majd problmt.
hajt mondatbl sszesen 2 mintt talltunk a kt adatbzisban. Intoncija
amgy sem jellegzetes, ez a modalits sokkal inkbb tekintend rzelmi
kategrinak.27 A kevs minta miatt nem tanthat ez a kategria (osztly), ezrt a
semleges kategrira kpeztk le.
A felsorols klnvlasztsnak oka, hogy rsban vesszvel jellt, kiejtsben
azonban rendszerint nem hordozza a nem zr tagmondatokra jellemz intoncis
27

Mark szbeli kzls

62

jegyeket (tapasztalataink szerint gyakran elmarad pl. a felsorolt sz vgn a


nyjts s alapfrekvencia-emelkeds).
Semleges modalits nem ltezik, ebbe a kategriba az egybknt nem
osztlyozhat, tl monoton, vagy intoncijban durvn helytelen kiejts
tagmondatokat, mondatokat soroltuk. A semleges kategrit a felismersnl nem
fogjuk hasznlni, szerepe, hogy betantsnl elnyelje a nem megfelel minsg
mintkat, ugyanis a betantskor begyazott jrabecslst (embedded reestimation)
is alkalmazunk.
A szneteket ezttal is jelljk. A sznetrsz bejellsre a tagmondatok kztt a
kb. 400 ms-nl, mg a mondathatroknl a kb. 500 ms-nl hosszabb szneteknl
kerlt sor. Ezen rtkeknl rvidebb szneteknl ltalban csak a tagmondatok
kztti hatrt jelltnk a sznetrsz kzepn.

7.2 bra: Szegmentls s cmkzs a Praat programban.


A kijellt rsz ppen egy cmkzend sznet.

Az gy elklntett tagmondat-tpusok halmazt ezutn iteratvan optimalizltuk. Elszr


mind a 9+1 osztlyra tantottunk egy-egy rejtett Markov modellt28, majd a hamarosan
bemutatand tesztelrendezsben elemeztk az eredmnyeket, ennek megfelelen az
albbi sszevonsokat talltuk clszernek:
Felsorolsbl (F), illetve a felkilt s felszlt mondatok tagmondataibl
(FFT) is viszonylag kevs mintnk volt, tovbb intenzits-, alapfrekvencia- s
idszerkezetkben (ltalban nagyon rvid tagmondatok) ezek az osztlyok
nagyon hasonlak. Ezeket gyakran felsorolsnak (F), vagy tagmondatnak (T)
detektlta a modalitsfelismer. Tovbb mindegyikhez a vessz rsjel tartozik,
ezrt mindkt csoport sszevonhat a kijelent mondat tagmondatval: F, FFT
T.
A kiegsztend krdst tartalmaz mondatok tagmondatainak (KT) szerkezete
nagy hasonlsgot mutat az egyetlen tagmondatbl ll kiegsztend krdsvel
(K). A mondatok rtelmezse szempontjbl tovbb nem jelent klnbsget, ha
a kt tagmondatbl ll mondatot kt nll krdsbl ll egyszer mondatra
bontjuk fel, pl. a Hov menne, mit csinlna akkor? mondatot kt krdsknt:
Hov menne? Mit csinlna akkor? ismeri fel a modell. A hasznland
lekpezs teht: KT K.

28

A 10+1 osztlybl az hajt mondatok kiesse miatt lett 9+1.

63

Kiderlt teht, hogy rejtett Markov modelles modalitsfelismersnl a tagmondatok


modalits szerinti elklntse szksgtelen, vlemnynk szerint kiindulsi felttelknt
azonban indokolt volt ezt alkalmazni.
Az osztlyokra optimalizlt rendszerben vgl a csoportostssal (sszevonssal) 6
tagmondatmodellt, s egy sznetmodellt tantottunk be, s hasznltunk a
modalitsfelismershez.

7.4 Az automatikus modalitsfelismers menete s


nyelvtana
Az automatikus modalitsfelismers mindenben az 5.4, illetve a 6.5 szakaszban
bemutatottak szerint trtnik, a nyelvtan (TG) ezttal a tagmondatok kapcsoldst adja
meg:
(7.1)

TG = [U] < [T] ( S | E | FF | K | N ) [U] > [U]

A kirtkelst ezttal nem a hatkonysg-pontossg kettssel, hanem a


beszdfelismersben is hasznlatos correctness s accuracy mrszmokkal adjuk
meg, kirtkelsre pedig a HTK beptett eszkzt hasznljuk. Ennek oka, hogy
modalitsfelismersnl az osztlyozs pontossga az rdekes elssorban, nem pedig az
osztlyok kztti hatrok elhelyezkedse. A mrszmaink teht a modalits szerint
helyesen felismert tagmondatok arnya:

Corr =

H
100% ,
N

(7.2)

Valamint a beszdfelismersben hasznlt pontossg, ezttal tagmondatokra:


Acc =

H I
100% ,
N

(7.3)

ahol H a modalits szerint helyesen felismert tagmondatok, I a beszrsok s N az sszes


tagmondat szma. A kirtkels referencija most a feldolgozott beszdadatbzisokbl
kerl ki, amelyeket kt rszre bontottuk: az egyik rsszel a betantst, mg a msikkal a
tesztelst vgeztk. A mondatok nagyrszt vletlenszeren lettek kivlasztva, de arra
odafigyeltnk, hogy minden felismerend tpus kell szmban szerepeljen mind a
betantott, mind a tesztelsre sznt anyagban.

64

7.5 Modalitsfelismersbeli eredmnyek


A 7.1 brn bemutatott s HTK krnyezetben implementlt modalitsfelismert a
tesztelsi clra flretett adatbzisrszleteken (sszesen 415 tagmondat) teszteltk. Ez
vonatkozik a vgleges felismersben hasznlt, 7.3 szakaszban levezetett iteratv betantstesztels ciklusokra is.
A vgleges rendszerre teht a 6+1 tagmondat-, illetve sznetmodellt hasznl
rendszerre az eredmnyeket a 7.2 tblzatban kzlm. Mint azt a 7.2 szakaszban
emltettem, az alapfrekvencia- s energiajel tlagol szrjnek idablakt (pontosabban
azt, hogy hny keretet vegynk figyelembe) vltoz paramterknt kezeljk, ugyangy
jrunk el a HMM llapotok szmval is, mely termszetesen minden modellre
egysgesen rtend.
7.2 tblzat: A helyesen felismert tagmondatok arnya a 6+1 klnbz tagmondatosztlyra
(Corr), szzalkosan megadva.
tlagol szr ablakmrete keretszmban (x10 ms)

HMM
llapotok
szma

5
11
15
19

10

20

26

30

36

40

50

49,8
66,2
60,0
-

59,2
68,7
68,2
-

61,4
69,0
67,7
67,9

60,9
70,1
67,5
65,3

60,2
69,7
68,7
66,3

59,5
68,4
68,2
64,6

59,5
70,6
65,8
64,6

60,0
66,3
67,7
61,2

A 7.2 tblzatbl lthat, hogy az llapotok szma ismt 11-re ad optimlis eredmnyt,
de igazn kritikus csak az, hogy a Markov lncok elegenden hosszak legyenek ahhoz,
hogy az intonci tagmondat lptk vltozsainak jellegzetessgeit jl modellezzk. A
7.2 tblzat eredmnyei logPins=-80 tagmondat-beszrs logaritmikus valsznsgre
vonatkoznak. Vrakozsainkkal ellenttben az idablak nem vltoztatja tendencizusan
az eredmnyeket 100 s 400 ms kztt. A legjobb tlagos modalitsfelismers 70,6 %
volt. A tagmondattpusokra lebontott felismersi rta a 11-es llapotszm s a 40 keretnyi
tlagos intervallum mellett a 7.3 tblzatban lthat. Az utols oszlopban a
tagmondatosztlyra normlt felismersi arny lthat szzalkosan. A 7.3 tblzatbl
lthat, hogy mind az eldntend, mind a kiegsztend krdsek felismerse
problmsnak addott (33,3-33,3%), ennl jobb eredmnyeket kaptunk a kzsen kezelt
felkilt s felszlt mondatokra (50,0%). Igazn j eredmnyeket a tagmondatok
(modalitsfggetlenl egysgesen kezelt, nem zr tagmondatok) felismersre (83,3%),
s a kijelent mondatok felismersre (74,8%) kaptunk. Megnyugtat a biztos
sznetdetektls (96,0%). A semleges intoncij tagmondatok felismersi arnya
kzmbs.

65

7.3 tblzat: A tagmondattpusokra lebontott felismersi arny (Corr) a 11-es llapotszm s a


40 keretnyi tlagolsi intervallum mellett (tlagos Corr=70,6 %, Acc=50,6 %)
Tagmondat
cmke
S
T
K
E
FF
N
U

Tagmondatosztly
Kijelent mondat zr tagmondata
ltalnos, nem mondatzr tagmondat
Kiegsztend krds
Eldntend krds
Felszlts s felkilts
Semleges intoncij tagmondat
Sznet

Helyes
Corr [%]
74,8
83,3
33,3
33,3
50,0
26,7
96,0

Az eredmnyek rtkelse kapcsn hozz kell tennnk, hogy mind a BABEL, mind az
MRBA beszdadatbzis felolvasott szveget tartalmaz. Emiatt a beszlk sokszor nem a
modalitsnak megfelel hanglejtst hasznltk, ltalnosan jellemz, hogy mind a krd-,
mind a felszlt mondatok modalitsa a kijelent mondathoz konvergl.
A 7.3 bra a helyessg (correctness) s a pontossg (accuracy) mrszm kettst mutatja
a tagmondatbeszrs valsznsgnek fggvnyben. Utbbi a beszdfelismersben
elterjedten alkalmazott szbeszrsi valsznsg megfelelje.
100

Eredmnyessg szzalkban

90
80
70
60
50
40
30
20
10

log P ins:

-500 -200 -150 -100

-50

-10

10

50

100

Corr. % 51,81 62,89 65,78 69,4 72,77 74,22 74,22 74,46 77,11 80,72
Acc. % 46,99 50,6 50,6 50,6 46,99 42,65 40,72 40,24 31,81 1,45

7.3 bra: Az eredmnyessg (Corr s Acc) alakulsa a tagmondatbeszrs valsznsgnek


logaritmusa (logPins) fggvnyben

Az eredmnyek rtkelse kapcsn elmondhatjuk, hogy a fentiekben bemutatott


szemantikai szint modalitsfelismer nem tl nagy, s mondattpus eloszlsban is
egyenetlen adatbzissal lett betantva s tesztelve. Az ismertetett optimlis belltsokkal
kzel 71% a helyesen felismert tagmondatok arnya, s a pontossg is tbb mint 50%-os
rtket mutat. A kijelent mondat, illetve a nem zr tagmondatok mintegy 75%-os,
illetve 83%-os eredmnnyel detektlhatak, az sszevont felkilt s felszlt mondatok

66

helyes felismerse is elri az 50%-ot annak ellenre, hogy betantsra, ill. tesztelsre
sszesen csak 38+14 mondatunk volt.

7.6 A magyar nyelv modalitsfelismer s


mondathatr-detekcis rendszer tkletestse
Az elz, 7.5 szakaszban az eredmnyek rtkelse kapcsn emltettk, hogy gondokat
okozott az, hogy a kijelent mondatok kivtelvel gyakorlatilag minden ms
mondattpusbl keveset talltunk a BABEL s az MRBA adatbzisokban, illetve, hogy
ezek az adatbzisok felolvasott beszdre kszltek, emiatt a modalitsok intonciban
val
tkrzdse
jelentsen
csorbult.
Idkzben
a
Beszdakusztikai
Kutatlaboratriumban olyan beszdadatbzis ksztsre nylt lehetsg, amely
gyakorlatilag spontn, de prozdiai megformltsg jegyben mindenkppen gazdagabb
magyar nyelv beszdet tartalmaz, gyermekek ejtsben29. Ez lehetv tette, hogy a
modalitsfelismer rendszert magyar nyelvre egy nagysgrenddel nagyobb adatbzison
tantsuk be s teszteljk le. Az adatbzis feldolgozst, majd a tesztelst a
Beszdakusztikai Kutatlaboratrium doktorandusz hallgatja, Sztah Dvid vgezte az
ltalam kidolgozott, 7.1-4 pontokban rszletesen bemutatott eljrs alapjn.
A lnyegesen nagyobb betant adatbzis modalits szerinti szegmentlst s cmkzst
flig automatizltuk, mgpedig az addig elkszlt, 7.5 pontban bemutatott teljestmny
modalitsfelismerbl kiindulva. Az anyagon teht elzetes modalitsfelismerst
futtattunk, majd a kimenetet a Praat program ltal megkvnt formtumra hozva kzi
korrekci trtnt.
A magyar nyelvre a 7.1-2 s 7.4 szakaszokban bemutatott rendszeren nem vltoztattunk,
a betant- s teszthalmazt azonban rtelemszeren lecserltk, az erre vonatkoz
szmadatokat a 7.4 tblzatban kzlm. A 7.4 tblzat adatai termszetesen mr az
optimalizlt 6+1 osztlyra vonatkoznak, kt vltozs azrt trtnt:
A semleges kategrit elhagytuk, s megkveteltk, hogy minden mondatot
(illetve tagmondatot) hatrozott kategriba soroljunk.
A semleges kategria (N) helyett j elem a vlaszt kategria (V), amely
tipikusan a vagy-vagy tpus mondatokra jellemz hanglejts, amelyet
folyamatosan emelked, st szk intoncis tendencia jellemez (Pl. Vagy hozd
ide, vagy tedd le!, ill. Ezt vagy azt?) [37]. A BABEL-MRBA adatbzisokban ez a
hanglejts kategria nem fordult el, gy ott nem is hasznltuk.
Minden sznetet cmkztnk, tekintet nlkl annak hosszra. Ezzel a
tagmondathatrok detektlst szeretnnk preczebb tenni.
sszesen mintegy 18 ezer tagmondatot cmkztnk fel. A tesztanyag a szneteket nem
szmtva mintegy 6 ezer tagmondatbl llt. (Sznetekkel egytt a szegmentlssal
bejellt osztlyok szma a tesztanyagban a sznetekkel egytt sszesen szk 12 ezerre
n.)
A (7.1)-ben megadott nyelvtan annyiban mdosul, hogy abban N helyett V szerepel.
29

Ez az adatbzis egyelre nem nyilvnos, illetve mg bvts, feldolgozs alatt ll, gy rsos hivatkozst
egyelre nem tudok megadni hozz.

67

7.4 tblzat: A szegmentls s cmkzs statisztikja a spontnbeszd anyagon,


a szneteket nem szmtva
Jells

sszes elforduls
(darab)

Kijelent mondat zr
Ereszked
tagmondata
(Ereszked, majd) lebeg /
Nem zr tagmondat
emelked
Es-ereszked
Kiegsztend krds
(vgn esetleg szk)

6393

1289

2733

Eldntend krds

Emelked-es

4221

Felszlt s felkilt
mondatok

Szk, majd megtartott /


ereszked

FF

2810

Vlaszt tpus
mondat

Emelked, szk

608

6 osztly
(sznet nlkl)

18054

Modalits

Jellemz hanglejts

sszesen:

A modalitsfelismer rendszert jratantva s tesztelve a 7.5 tblzatban reprezentlt


eredmnyeket kaptuk 11 llapot, folyamatos, lineris Markov modellekkel, az
alapfrekvencia s az energia rtkeit 40 keretnek megfelel, 400 ms-os idablakban
tlagolva. A helyesen felismert modalitsok arnya (Corr) a 7.5 tblzatban tagmondat
kategrinknt kiolvashat. Lthat, hogy a betant anyag mretnek nvelsvel az
egyes mondattpusok osztlyokra normlt felismersi arnya jval egysgesebb.
7.5 tblzat: A tagmondattpusokra lebontott felismersi rta 11-es llapotszm s a 40 keretnyi
tlagolsi intervallum mellett gyermek adatbzison (tlagosan Corr=68,7 %, Acc=56,0 %)
Tagmondatosztly
Kijelent mondat zr tagmondata
ltalnos, nem mondatzr tagmondat
Kiegsztend krds
Eldntend krds
Felszlts s felkilts
Vlaszt tagmondat
Sznet

68

Tagmondat
cmke
S
T
K
E
FF
V
U

Helyes
Corr [%]
67
64
65
65
56
71
94

7.7 Nmet nyelv modalitsfelismer s


tagmondathatr-detekcis rendszer
A 7. fejezet eddigi rszben bemutatott modalitsfelismer rendszert nmet nyelvre is
megvalstottam a kvetkez tzis igazolsra:

Tzis IV. B. [C7] A magyar nyelvre kidolgozott HMM alap tagmondatszint


szegmentl s modalitsfelismer eljrs ms, a modalitst mondatintonciban
kifejez nyelvekre kzvetlenl alkalmazhat.
Az sszelltott nmet rendszer felptse mindenben megfelel a magyar nyelvnek
(lsd 7.1 bra), az alapfrekvencia- s energiamenet feldolgozsa is a 7.2 szakaszban
bemutatottak szerint trtnt.
A betantshoz hasznlt szveganyagot a Kiel Corpus-bl [25] vettem. A tagmondatokra
trtn szegmentls s cmkzs mdszere megegyezett a 7.3 szakaszban a magyar
nyelvre bemutatott eljrssal, a nmet nyelvre hasznlt tagmondatosztlyok a 7.6
tblzatban lthatak.
7.6 tblzat: A szegmentls s cmkzs statisztikja a nmet anyagon
Modalits

Jells

sszes elforduls
(darab)

404

336

89

FF

63

4 osztly
(sznet nlkl)

892

Jellemz hanglejts

Kijelent mondat zr
Ereszked
tagmondata
(Ereszked, majd) lebeg /
Nem zr tagmondat
emelked
Emelked-es, mondat vgn
Krds
szk
Felszlt s felkilt Szk, majd megtartott /
mondatok
ereszked
sszesen:

Lthat, hogy nmet nyelvre csak 4 alapvet osztlyt klnbztettnk meg a ngy
alapvet rsjelnek (,.!?) megfelelen. A kiegsztend s eldntend krdsek kztt
ugyanis a Kiel Corpus elemzsekor nem talltam meggyznek az intoncibeli
klnbsget, st, a kt krdstpus meglepen hasonl intoncival realizldott a
legtbb esetben. A vlaszt tpus tagmondatot adat hinyban nem szerepeltettk. Az
sszesen 4 kategria (osztly) hasznlata a Kiel Corpus szmunkra hozzfrhet rsznek
kis mrete miatt is elnys vlaszts.
gy a felismershez hasznlt nyelvtan (TGGER):
TGGER = [U] < ( [T] S | [T] E | [T] FF ) [U] > [U]

(7.4)

Minden egyb felttel megegyezik a vgs magyar nyelv rendszerre bemutatottal.

69

7.7 tblzat: A tagmondattpusokra lebontott felismersi arny (Corr) a 11-es llapotszm s a 40


keretnyi tlagolsi intervallum mellett (tlagosan Corr=78,8 %, Acc=75.7 %)
Tagmondatosztly
Kijelent mondat zr tagmondata
ltalnos, nem mondatzr tagmondat
Kiegsztend krds
Felszlts s felkilts
Sznet

Tagmondat
cmke
S
T
K
FF
U

Helyes
Corr [%]
67,5
61,3
83,3
63,6
100,0

A 7.7 tblzatbl lthat, hogy a tagmondattpusokra lebontott eredmnyek ltalnos,


nem zr tagmondatra s kijelent mondatra kzel llnak a magyar nyelv
modalitsfelismervel kapottakhoz, nmet nyelvre nagyobb a helyesen felismert
felszlt- s felkilt mondatok arnya, s kiugran j a krdsek azonostsnak
biztonsga. A sznetdetekci abszolt pontos, igaz a Kiel Corpus j minsg, zajmentes
felvteleket tartalmaz, zajosabb krnyezetben ez valsznleg cskkenne. Az eredmnyek
alapjn a nmet nyelv modalitsfelismer s tagmondathatr-detektl rendszert
mindenkppen a gyakorlatban is hasznlhatnak tartom.

70

8. sszegzs s a tzisek sszefoglalsa


Doktori rtekezsemben a beszd szupraszegmentlis szerkezete akusztikai feldolgozsi
szinten megjelen jellemzinek beszdfelismersbeli felhasznlsi lehetsgeit
tekintettem t.
Elsknt bemutattam, hogy mit rtnk a beszd szupraszegmentlis szerkezetnek
fogalma alatt. A mrnki felhasznlsi lehetsgeket jl tkrz meghatrozs, hogy a
szupraszegmentlis szerkezet a beszdprodukcis folyamat ltal ltrehozott komplex
beszdjelnek az a vetlete, amely az id, a frekvencia s az intenzits
folyamatvltozsaiknt rhat le, s amelynek szlelse lland viszonytsban
lehetsges [32]. Ez a definci jl tkrzi, hogy akusztikai szinten a szupraszegmentlis
szerkezet intenzits (vagy beszdjel-energia), frekvencia (elssorban az alapfrekvencia)
s idtartamok mrsre vezethet vissza. A szupraszegmentlis szerkezet ily mdon
definilt fogalmval egyenrtkknt a prozdiai szerkezet, vagy rviden csak a prozdia
elnevezst is hasznltam, mivel az angol nyelv szakirodalomban gyakran egyszeren
prosody-knt hivatkoznak a beszd szupraszegmentlis szerkezetre. A
szupraszegmentlis szerkezet elemei a hangsly, a hanglejts (intonci), a hanger, a
temp, a ritmus, a hangsznezet s a sznet. Ezek fonetikai meghatrozsnak ttekintse
utn [10, 21] a hangslyt, a hanglejtst, a hangert s a sznetet rszletesen is
bemutattam, mivel az rtekezs tovbbi rszben ezeket hasznltam fel.
A szupraszegmentlis szerkezet produkcijt is ttekintettem rviden, mghozz azrt,
mert annak Levelt-fle prozdiagenertoros produkcis modelljben [30] a felszni
szerkezetnek kitntetett szerepe van. Felszni szerkezet alatt szempontunkbl a beszd
mondategysge rtend annak minden szintaktikai s szemantikai sszefggsvel
egytt. Ez a modell teht altmasztja azt, ami a beszdfelismersbeli alkalmazsokban
kihasznlhat, nevezetesen, hogy a szupraszegmentlis szerkezet a beszd szintaktikai s
szemantikai sszefggseit akusztikailag tkrzi, a kzls ltal hordozott informcit
pedig tagolja s hierarchikus jelleggel slyozza.
Az rtekezs lnyegi rsze eltt nhny tovbbi fogalmat hatroztam meg, amelyet
munkm tovbbi rszben hasznltam. Ezen fogalmak zme a nyelvtudomnytl
klcsnztt, de a beszdtechnolgiban kisebb-nagyobb mrtkben ms rtelemben
hasznlatos, ezrt bemutatsukat elkerlhetetlennek tartottam. Ennek szellemben a nyelv
rtegzdst a nyelvtudomnnyal sszhangban a fonma, szelem, sz, szszerkezet,
tagmondat, mondat, szveg egysgek szerinti felosztsban tekintem. A szegmentlis s
szupraszegmentlis szerkezet kztti klnbsget azonban nem al-fl rendeltsgben,
hanem mellrendeltsgben rtelmezem, kettejk kztt a figyelembe veend
idintervallum szerint tehetnk klnbsget, gy ezekre szegmentlis, illetve
szupraszegmentlis
tartomnyknt
hivatkozom.
Hasznlom
tovbb
a
beszdfelismersbeli feldolgozsi lpsekbl szrmaztatott szintfogalmat is: eszerint
akusztikai, fonetikai, szintaktikai s szemantikai szinteket szoks megklnbztetni [1,
27].

71

Az elmleti bevezets utn rviden ttekintettem az akusztikai szinten mrhet,


szupraszegmentlis szerkezettel sszefgg mennyisgeket s szupraszegmentlis
tartomnybeli mrsk lehetsgeit abbl a szempontbl, hogy ezeket a
beszdfelismersben felhasznlva milyen nehzsgekre kell felkszlnnk.
A hagyomnyos, folyamatos beszdfelismers sorn a beszdet akusztikai szinten csak
szegmentlis tartomnyban dolgozzk fel, emiatt a szupraszegmentlis tartomnyban
hordozott informci elvsz. A kies informci rszben ugyan a felismers szveges
kimenetnek szintaktikai vagy szemantikai elemzsvel elvileg ptolhat, ez a szint
feldolgozs azonban napjainkban nem kpes az emberi beszdrtst megkzelt
teljestmnyt adni. A kies informci msik rsze ms forrsbl nem ptolhat.
Mindemellett emberekkel vgzett beszdpercepcis ksrletek is azt mutatjk, hogy a
prozdiai jellemzk alapjn az emberi hallgat meglepen pontosan rekonstrulja pldul
az elhangz szvegben a szhatrokat [50]. Ez nem lehet vletlen. Elssorban a prozdia
alapjn trtnik a modalits azonostsa s a mondat tagolsa, ez vlemnyem szerint a
magyar nyelvben gyakran egszen szszerkezeti egysgekig visszakvethet, nem csak a
frzisok, tagmondatok szintjig.
A prozdia beszdfelismersbeli felhasznlsnak clja a kezdetektl fogva ppen ez:
kinyerni a msknt nem hozzfrhet informcit, s redundancit biztostani az
esetlegesen ms forrsbl is rendelkezsre ll informcikhoz, s ezzel a
megbzhatsgot nvelni. Jllehet mr a 80-as, 90-es vek els felben felismertk ezt a
lehetsget [52, 55], az ezredfordulra ismt lankadni kezdett a prozdia irnti
rdeklds. A beszdtechnolgia szakirodalmban tbb, rendkvl j sszefoglal jelleg
munkt [27, 55] is fellelhetnk a prozdia felhasznlsi lehetsgeirl, elssorban a sz-,
frzis-, tagmondat- s mondathatrok, a sz- s mondathangsly (illetve
fkuszdetektls) s a modalits felismerst kiemelve. Ezzel egytt ezen munkk
sokszor egsz fejezetei az elmletileg lehetsges skjn maradnak, szmos vlt
alkalmazsi lehetsget azzal indokolnak, hogy az a nyelvszeti kutatsok alapjn
valsznnek ltszik, m a gyakorlati beszdtechnolgiba nem ltetik t azokat.
Munkmban ezrt igyekeztem ezt a hinyt is ptolni, s ha nem is valamennyi, de
legalbb nhny felhasznlsi lehetsg tekintetben a konkrt implementciig eljutni.
Munkm sorn igyekeztem a mr nemzetkzi szinten tekintett eredmnyeket megismerni
s ezekre ptve j algoritmusokat kidolgozni. Elssorban kt olyan lehetsget is
kiemelnk, amelyet magam is alkalmaztam. Az egyik a ktmenetes beszdfelismers,
amelynek sorn az els menetben a hipotzis grf (N-best lattice) megkonstrulsig
jutunk, majd ezen a ponton a szupraszegmentlis feldolgozssal nyert informciink
alapjn a hipotzis grfot jraslyozzuk, s a vgs kirtkelst a msodik menetben mr
ezen a mdostott grfon vgezzk (N-best lattice rescoring) [53]. A msik ilyen tlet a
szegmentlis tartomny mintaillesztsben bevlt Markov modellek alkalmazsa a
szupraszegmentlis tartomnyban is [12]. Ez lnyegben osztlyozsi, alakfelismersi
feladatnak felel meg, amelyben az alakfelismers sz szerint rtend, hiszen a
szupraszegmentlis jellemzk idbeli lefutst jelz grbinek valban ppen a meg is
jelenthet alakja az elklnt kritrium.
Vizsglataim kzppontjban a magyar nyelv llt, de igyekeztem olyan struktrban
gondolkozni, amely a ms nyelvekre trtn ltalnostst is lehetv teszi. A
kvetkezkben ttelesen felsorolom az rtekezsben rszletesen, sszefggseiben is

72

bemutatott tziseimet.

Tzis I. [J1, C1] A kttt hangslyozs magyar nyelvben lehetsges a szhatrok


detekcija a hangsly, illetve tttelesen a hangslyt meghatroz akusztikai-prozdiai
jellemzk, az alapfrekvencia s az energia menete alapjn.
A kttt hangslyozs azt jelenti, hogy ha a beszdben valamely sz hangslyos, akkor a
hangsly mindig egy rgztett sztagon realizldik. A magyar nyelv kttt hangsly,
els sztagra es hangsllyal [10, 21]. Erre alapozva ha a hangsly detektlhat, akkor a
szhatrok is jl behatrolhatak. A tzis bizonytshoz teht azt mutattam meg, hogy az
alapfrekvencia s energia alapjn lehetsges a hangslydetekci, felttelezve, hogy e kt
jellemz a hangslyos sztagon maximumot ad. Az alapfrekvencia- s energiartkeket a
rendelkezsre ll fonma szint szegmentls alapjn a sztagok magnhangzinak
kvzistacioner rszn mrtem. Az rtkekbl differencilis jelleg jellemzket is
kpeztem, majd kln-kln s egyttesen vizsgltam a hangsly detektlhatsgt az
alapfrekvencia s az energia, illetve a bellk szrmaztatott sztagrl sztagra rtelmezett
alapfrekvencia-vltozs s energiaszint vltozs fggvnyben. A legpontosabb
eredmnyek mindig a kt jellemz kombincijbl addtak.
Folytonosan tekintett jelleggrbk alapjn a hangsly-, s ezltal a szhatr-detektls
ismeretlen fonma szint szegmentls esetn is elvgezhet. A fonma szint
szegmentlstl val fggetleneds akkor rendkvl hasznos, ha a szhatr-detekcit a
beszdfelismer teljestmnynek emelsre kvnjuk hasznlni, mert ezzel a felismersi
hibk tovbbterjedst kikszblhetjk.
A tzis bizonytst ksrletileg vgeztem, a cscskeressi algoritmusra alapozott eljrs
teljestmnyelemzsre hasznlt kt mrszm:
A pontossg (Corr):
Corr =

# {helyesen _ bejellt _ szhatrok }


,
# {sszes _ bejellt _ szhatr}

(8.1)

A hatkonysg (Eff):
Eff =

# {helyesen _ bejellt _ szhatrok }


,
# {sszes _ szhatr _ a _ referenciban}

(8.2)

A teljestmnyelemzs referenciamintval val sszehasonltsban trtnt. Az


eredmnyek az algoritmus felptsnek megfelelen azt mutattk, hogy a pontossg
emelshez a hatkonysgbl fel kell adnunk, az cskkenni fog. A legnagyobb kapott
pontossg 91%, 14% hatkonysg mellett, 38% hatkonysghoz pedig 51% pontossg
tartozott.
A kvetkez tzisek a prozdiai informci a beszdfelismersben is felhasznlt
statisztikai eszkzkkel trtn kinyerst s feldolgozst, hasznostst clozzk a
beszdfelismers folyamatban.

73

Tzis II. A. [J1, C2, J3, B1] A kttt hangslyozs magyar nyelvben elklnthetk
olyan intoncis jelleg diszjunkt osztlyok, amelyek ppen a szhatrokon kapcsoldnak
egymshoz, s amelyek lptkk tekintetben a mikrointoncis s a mondatszint
intonci tartomnya kztt helyezkednek el, egyfajta szkapcsolati szint intoncis
szerkezetet ltrehozva. Az gy definilt intoncis osztlyok rejtett Markov modellekkel
felismerhetk.
Ez a tzis lnyegben azt lltja, hogy a hangslyozsi mintzat s a dallammenetek ltal
megadott prozdiai struktra elemei diszjunkt osztlyokba sorolhatk gy, hogy a
szhatrok detektlhatk a hangslyozsi minta s a dallammenetek egyttes
modellezst megvalst intoncis osztlyok alakfelismersvel, rejtett Markov modell
alap osztlyozsi eljrsban.
A tzist ksrletileg igazoltam. A kezdeti rendszer optimalizlsval elll vgleges
intonciosztlyoz rendszerben az intoncis osztlyok elklntsnek alapja a
szkapcsolati szint intonci egy ltalam bevezetett alapsmja. Az els sztagon kttt
hangsly esetben az intoncis osztlyok alapsmja a hangsly jelentette prominencia,
majd az azt kvet lass ereszkeds a kvetkez hangslyos szakaszig. A fentiek
kijelent mondatra rtendek azzal a megktssel, hogy a beszl rzelmei, illetve egyb
szitucis tnyez, funkci a szupraszegmentlis jellemzket tlzottan nem
befolysoljk. A mondatbeli elhelyezkedstl s a hangslyossg mrtktl fggen
magyar nyelvre sszesen 6 ilyen intoncis osztlyt klntettem el: mondatindt (me),
ersen hangslyos (fe), gyengn hangslyos (fs), frzisvgi folytatst jelz (fv),
mondatzr (mv) s semleges (s). A hetedik modellezend osztlyt a sznet (sil) adja.
A szupraszegmentlis tartomnyban mkd osztlyozt a statisztikai beszdfelismersre
kidolgozott eljrs alapjn valstottam meg, gy annak elmleti alapjai a kvetkezk:
A felismersi feladat megfogalmazsa:
P( I | X s ) =

P( X s | I ) P( I )
P( X s | I ) P( I ) ,
P( X s )

(8.3)

azaz a megfigyelt Xs szupraszegmentlis jellemzk kzvetlen vagy kzvetett rtkeibl


ll valsznsgi vektorvltoz-sorozat mellett a legvalsznbb I intoncis osztlyszekvencit keressk, amelyet prozdiai szegmentlsknt is felfoghatunk (lsd II.B
tzis). Felttelezve, hogy a szupraszegmentlis tartomny elemekbl ll
megfigyelsvektorok egy rejtett szupraszegmentlis Ms llapotsorozatot fednek:

P( X s | I ) = P( X s | M s , I ) P( M s | I ) .

(8.4)

Ms

Azaz intoncis osztlyozval a felismersi problma szupraszegmentlis tartomnyban


(is) egy prozdiai-akusztikai s egy prozdiai-nyelvi modellkombincira vezethet
vissza. A szegmentlis tartomny HMM alap beszdfelismer s a szupraszegmentlis
tartomny HMM alap intoncis osztlyoz mkdse elvi alapjaiban rokon, a konkrt
megvalstsban azonban klnbsgek jelentkeznek, amelyeket a megfelel fejezetben
ttekintettem. Fontos klnbsg, gy az sszegzsben is emltem, hogy a prozdiai
nyelvtan nem statisztikai, hanem szably alap vges llapot nyelvtan (FSG). A HMM
alap intoncis osztlyozt (szhatr-detektlt) HTK keretrendszerben [59]
implementltam. A kapott eredmnyek tansga szerint a szhatr-detekci pontossga
s hatkonysga optimlis esetben magyar nyelvre 77,3%, illetve 57,1%, j intoncis

74

osztlyok bevezetsvel s a feldolgozs finomtsval ezt sikerlt 79,2%, illetve 58,5%


rtkekig nvelni.

Tzis II. B. [J3, B2, C5] Az intoncis osztlyok alapjn szhatr-detekcit vgz
rendszerbl prozdiai szegmentl kszthet, amely a bemenetre rkez beszdet
szupraszegmentlis jellemzk alapjn szkapcsolati szinten tagolja.
A tzis egyenesen kvetkezik a II. A tzisbl. Ha ugyanis a II. A tzis kapcsn definilt
intoncis osztlyok rejtett Markov modellekkel felismerhetk, akkor az intoncis
osztlyok felismerse sorn a prozdiai nyelvtan alapjn generlt prozdiai hipotzis
grfban visszakereshet a vgl maximlis slynak addott tvonal ltal fedett rejtett
llapotsorozat, az llapotok idbeli elhelyezkedst is belertve. Innen egyenes t vezet a
prozdiai szegmentl megalkotsig. A II. A tzis igazolsakor ppen ezrt hasznltam
a szhatr-detekcira kidolgozott (8.1) s (8.2) formulkat.

Tzis II. C. [J1, C2, C3, C4, B1] A magyar nyelvre, az intoncis osztlyok
behatrolsra kidolgozott mdszer ms kttt hangsly nyelvekre is kzvetlenl
alkalmazhat szhatr-detekci cljbl.
A tzist a magyar nyelv intoncis osztlyoz (amely teht szhatr-detektl s
prozdiai szegmentl is egyben) finn nyelvre trtn adaptlsval igazoltam. Ennek
sorn finn nyelv beszdadatbzisra elvgeztem ugyanazokat a beszdanyag-elksztsi,
prozdiai szegmentlsi, HMM-betantsi feladatokat, amelyeket a korbban a magyar
nyelv rendszerre. A (8.1) s a (8.2) sszefggsekkel definilt (pontossg s
hatkonysg) eredmnyessgi jellemzk finn nyelv rendszerrel 69,2%, illetve 76,8%. Ez
a magyar nyelv eredmnyekkel sszevetve alacsonyabb pontossgot, ugyanakkor jval
nagyobb hatkonysgot jelent.
Vizsgltam a ktnyelv szhatr-detektl rendszer teljestmnyt is. A mindkt nyelv
adatbzissal prhuzamosan betantott intoncis osztlyoz pontossga ugyan nem javul
az egynyelv esetekhez kpest magyarra 75%, finnre 69% , ugyanakkor a hatkonysg
jelentsen nagyobb az egynyelv esethez kpest, magyarnl 57% helyett 68%, finn
esetben 76% helyett 83%, ami magyar nyelv esetn 19%-nak, finn nyelv esetn 9%-nak
megfelel, teht igen jelents hatkonysgbeli javulst jelent.

Tzis III. [J3, C5, B2] Lehetsg van a beszdfelismersben a helyesen felismert szavak
arnynak nvelsre a II. A-B. tzisekben bemutatott, az alapfrekvencia- s
energiamenet alapjn mkd HMM alap intoncis osztlyoz szhatr-detektl
rvn a beszd prozdiai szegmentlsval.
Az llts bizonytshoz az elkszlt prozdiai szegmentlt beszdfelismerbe
ptettem, s ktmenetes beszdfelismersben a hipotzis grfok jraslyozsval [53]
vettem figyelembe a prozdiai szegmentlst.
A szhatrok idpontbeli helyzett (tB) intervallumokba transzformltam az

t) + C, ha t [t B T,t B + T ] ,
Acos (
LB (t) =
2T

0 egybknt

75

(8.5)

sszefggs alapjn [8]. Itt T az intervallum hosszt befolysol paramter, rtke 100
ms volt. LB(t) a szhatr adott idpontban trtn elhelyezkedsnek valsznsgvel
arnyos pontszmot ad meg.
A beszdfelismers sorn elll hipotzis grfban azoknak a szavaknak s szlncoknak
megfelel utak slyt, amelyek esetn a szavak hatrai idben egybecsengenek a
prozdiai szegmentls ltal jelzett hatrokkal, megnveltem (8.6), hasonlkpp, azokban
az esetekben, amikor a prozdiai szegmentl ltal megadott hatrok szavak belsejbe
esnek, az eredetileg hozzrendelt slyokat cskkentettem (8.7).
Sc renum = w a L B ( t start ) + w b L B ( t end ) ,

(8.6)

ahol tstart a sz grf szerinti kezd, tend a sz grf szerinti vgpontjnak felel meg (az
idben), wa s wb pedig slyok.
N k 1

Sc punish =

(t i ) ,

(8.7)

i = k +1

ahol N a kirtkelend sz(lnc)hoz tartoz sszes keret szma.


A grf lhez tartoz j Screscored pontszm rtke:
Sc rescored

= w O Sc orig + w P ( Sc renum Sc

punish

).

(8.8)

(8.6)-ban wa=0,5, wb=0,5; (8.8)-ban wO=1, wP=2,5.


A beszdfelismer, amelybe a prozdiai szegmentlt beptettem egy magyar nyelv,
HTK rendszerben megvalstott radiolgiai leletez alkalmazs (39 MFCC, 10 ms
keretid, 37 beszdhang modell, 32 Gauss, 8 ra anyagon tantva). A sztr elemszma
mintegy 4000 sz, a ksrletben a bi-gram nyelvi modellt binarizltam.
A ksrleti rendszerrel hasi s kismedencei ultrahangos leletek felismerst vizsgltam
sszesen 20 darab leletre kb. 300 mondaton. A felismerst azonos krlmnyek kztt
azonos (rgztett majd visszajtszott) leletekre elszr az alaprendszerrel, majd a
prozdiai szegmentlval kibvtett rendszerrel elvgezve a helyesen felismert szavak
arnya sszessgben relatv 3,82%-kal javult. A javuls mrtke leletenknt vltoz,
egyes esetekben 10% fltti eredmnyt is kaptam, ugyanakkor elfordult, hogy a
felismers a prozdiai szegmentl hibzsa miatt leromlott a referencia esethez kpest.
Az sszessgben tekintett szignifikns javuls azonban igazolja a III. tzis lltst.
Tzis IV. A. [J2, C6] A szhatr-detektlsra kidolgozott folytonos HMM alap algoritmus a
megfelel mdostsokkal alkalmas a tagmondathatrok detektlsra, s a mondat
modalitsnak meghatrozsra.

A modalits felismerse elssorban szemantikai szint feladat, s legalbb egy, de


gyakrabban tbb mondatbl ll beszdszegmensre vgezhet el. Mivel a modalits
mondat szinten rtelmezett, ezrt a modalits felismersnek szintaktikai vonatkozsai is
vannak, ez pedig a robusztus mondathatr-, st tagmondathatr-detekci. A
tagmondatokat gy rtelmeztem, mint az rsban vesszvel jellend mondatbeli
hatrokat, mg a mondatok az rsban mondatzr rsjellel lezrand nyelvi egysgek.

76

Elzetes feltevsem szerint a modalitsfelismershez a szupraszegmentlis akusztikai


elfeldolgozs sorn nagyobb idablakokkal tlagolunk, az optimlis ablakmreteket,
teljestmnyelemzssel hatroztam meg. A II.-III. tziscsoportokban bemutatott esethez
kpest a HMM alap rendszer ezttal a szszerkezeti szint intoncis osztlyok helyett
tagmondatokra kszlt, de szintn hanglejtst ler prozdiai-akusztikai modellek
hasznlatval. Fontos klnbsg a szhatr-detektl s a modalitsfelismer rendszer
kztt, hogy elbbi esetben az illesztett intoncis osztly gyakorlatilag kzmbs volt, a
lnyeges informcit csak az egyes osztlyok hatrai adtk (=szhatr-detektl,
prozdiai szegmentl), mg most az illesztett tagmondatosztly adja meg a mondat
modalitst, gy ez is informatv, hiszen ennek alapjn lesz lehetsges az rsjelek kittele
a felismert szvegben, ha a modalitsfelismert beszdfelismerbe ptjk be.
A modalitsfelismer betantshoz a szupraszegmentlis tartomnyban (alapfrekvencia
s energia) feldolgozott beszdet tagmondat szinten szegmentltam s cmkztem, az
optimlis osztlyozshoz szksges osztlyokra val felbontst iteratvan szktettem a
vgs sszesen 7 osztlyra (ebbl 1 a sznet). A teljestmnyt ezttal a
beszdfelismersben szoksos helyes felismersi arnnyal (8.9) s pontossggal (8.10)
mrtem.
Corr =
Acc =

H
100% ,
N

(8.9)

H I
100% ,
N

(8.10)

H a helyesen felismert, I a beszrt, N az sszes tagmondatok szma a teszthalmazban.


A tkletestett mintegy 18 ezer tagmondattal betantott osztlyozra a helyesen
felismert tagmondatok arnya (8.9) szerint az egyes tagmondattpusokra 56-61%-ra
addtak, mg a (tag)mondatkzi sznetek felismersi arnya 96% az optimlisnak addott
100-400 ms tfogs tlagolsra. (sszessgben 68,7%-os felismersi rta addott.)

Tzis IV. B. [C7] A magyar nyelvre kidolgozott HMM alap tagmondatszint


szegmentl s modalitsfelismer eljrs ms, a modalitst mondatintonciban
kifejez nyelvekre kzvetlenl alkalmazhat.
A tzist a magyar nyelv tagmondatszint szegmentl s modalitsfelismer nmet
nyelvre trtn adaptlsval igazoltam. Ennek sorn nmet nyelv beszdadatbzisra
(Kiel Corpus) elvgeztem ugyanazokat a beszdanyag-elksztsi, tagmondat
szegmentlsi, HMM-betantsi feladatokat, amelyeket a korbban a magyar nyelv
rendszerre. A betant anyag szkssge miatt csak 4 tagmondatosztly (nem zr
tagmondat, kijelent, krd, felszlt+felkilt mondatok) s a sznet (sszesen teht 5)
modelljeit tantottam be.
A (8.9) sszefggssel definilt felismersi arny nmet nyelvre, tagmondatokra
normlva jobb mint a magyar nyelv rendszerrel, ugyanakkor az osztlyok szma is
kevesebb volt. Nmet nyelvre az egyes tagmondattpusok felismersi arnya 63-68%
kztti volt, illetve ebbl kielemkeden j lett a krdsek helyes felismersi arnya
(83%). (Az tlagos 78%-os rta a biztos sznetdetekcibl addik.)

77

Irodalomjegyzk
[1] Ainsworth, W.: Mechanisms of Speech Recognition. Pergamon Press, Oxford, 1976.
[2] Batliner, A.; Kieling, A.; Burger, S.; Nth, E.: Filled pauses in spontaneous speech. In Proc.
13th International Congress on Phonetic Sciences, Stockholm, 1995, Vol. 3, pp. 472-475.
[3] Baumann, S.; Grice, M.; Benzmller, R.: GToBI-a phonological system for the transcription
of German intonation. In: Proceedings Prosody 2000, Speech Recognition and Synthesis
Workshop, Cracow, pp. 21-28. 2000.
[4] Bechetti, C., Prina-Ricotti L.: Speech Reognition. Theory and C++ Implementation.
Fondazione Ugo-Bordoni, Rome, Italy. 1999.
[5] Collins, M.; Roark, B; Saraclar, M.: Discriminative Syntactic Language Modeling for Speech
Recognition. Proceedings of the 43rd Annual Meeting on Association for Computational
Linguistics. Ann Arbor, Michigan, USA. pp 507-14. 2005.
[6] . Kiss Katalin: Mondattan. In: Magyar nyelv (szerk: Kiefer Ferenc), Akadmiai Kiad, 2006,
pp. 110-148.
[7] Fujisaki, H. and Ohno, S.: The Use of a Generative Model of F0 Contours for Multilingual
Speech Synthesis. Fourth International Conference on Signal Processing, Vol. 1, pp. 714717,
1998.
[8] Gallwitz, F., Niemann, H., Nth, E., Warnke, W.: Integrated recognition of words and
prosodic phrase boundaries. Speech Communication, 36(2002): 81-95.
[9] Gordos Gza, Takcs Gyrgy: Digitlis beszdfeldolgozs. Mszaki Knyvkiad, Budapest,
1983.
[10] Gsy Mria: Fonetika, a beszd tudomnya. Osiris, Budapest, 2004. pp.182-243.
[11] Hess, W.; Batliner, A.; Kiessling, A.; Kompe, R.; Nth, E.; Petzold, A.; Reyelt, M.; Strom,
V.: Prosodic Modules for Speech Recognition and Understanding in VERBMOBIL. In:
Sagisaka, Y.; Campbell, N.; Higuchi, N. (Eds.) Computing PROSODY - Computational
Models for Processing Spontaneous speech New York, Berlin: Springer, 1996, 361-382.
[12] Hirose, K.; Minematsu, N.; Hashimoto, Y.; Iwano, K.: Continuous Speech Recognition of
Japanese Using Prosodic Word Boundaries Detected by Mora Transition Modeling of
Fundamental Frequency Contours, Proceedings of ISCA Tutorial and Research Workshop on
Prosody in Speech Recognition and Understanding, Red Bank, NJ, USA, pp.61-66. 2001.
[13] Hunyadi Lszl: Hungarian Sentence Prosody and Universal Grammar. Peter Lang, 2002.
[14] Iwano, Koji: Prosodic Word Boundary Detection Using Mora Transition Modeling of
Fundamental Frequency Contours - Speaker Independent Experiments. Proc. 6th European
Conference on Speech Communication and Technology (Eurospeech 99), Budapest, Hungary,
vol.1, pp.231-234. 1999.
[15] Jelinek, Frederick: Statistical Methods of Speech Recognition. MIT-Press, USA, 1998.
[20] Kahn, J. G., Lease, M, Charniak, E., Johnson, M. and Ostendorf, M.: Effective use of prosody

78

in parsing conversational speech. Proc. EMNLP-HLT, pp. 233-240, 2005. [20]


[21] Kassai Ilona: Fonetika. Nemzeti Tanknyvkiad, Budapest, 1998.
[22] Ken Chen et al.: Prosody Dependent Speech Recognition on Radio News Corpus of
American English. IEEE Transactions in Speech and Audio Processing. 2006. 14(1):232-245.
[23] Kiefer Ferenc (szerk.): Magyar nyelv, Akadmiai Kiad, 2006.
[24] Kiefer Ferenc (szerk.): Strukturlis magyar nyelvtan, Akadmiai Kiad, 2000.
[25] KIEL Corpus of read Speech, Volume I. Institut fr Phonetik und digitale Sprachverarbeitung
der Christian-Albrechts-Universitat zu Kiel, Dec. 1994.
[26] Kol, J.; Schriberg, E., Lin, Y.: Using prosody for Automatic Sentence Segmentation of
Multiparty Meetings. Proceedings of 9th International Conference on Text, Speech and
Dialogue (TSD 2006), LNAI 4188, Springer-Verlag, Berlin Heidelberg. pp. 629-636. 2006.
[27] Kompe, Ralf: Prosody in Speech Understanding Systems. LNAI 1307, Springer. 1997.
[28] Kompe, R.; Kieling, A.; Niemann, H.; Nth, E.; Schukat- Talamazzini, E.G.; Zottmann, A.;
Batliner, A.: Prosodic scoring of word hypotheses graphs. In: Proc. European Conf. on Speech
Communication and Technology (European Conf. on Speech Communication and Technology,
Madrid, September 1995) Vol. 2, pp. 1333-36. 1995.
[29] Lee, E-K., Cole, J., Kim, H.: Additive effects of phrase boundary on English accented
vowels. Proceedings of Speech Prosody 2006, Dresden. 2006.
[30] Levelt, Willem J. M.: Speaking: From Intention to Articulation. A Bradford Book, MIT
Press, Cambridge. 1989. p. 366.
[31] Mandal, S.; Gupta, B. Datta, K.: Word boundray Detection Based on Suprasegmental
Feaures, a Case Study on Bangla Speech. International Journal of Speech Technology, Vol. 9.
Num. 1-2 pp. 17-28. 2007.
[32] Mark Alexandra: A spontn beszd nhny szupraszegmentlis jellegzetessge. PhD
rtekezs, Etvs Lrnd Tudomnyegyetem, Budapest, 2005.
[33] Melin, H.: On word boundary detection in digit-based speaker verification. In Proc of
RLA2C, La Reconnaissance du Locuteur et ses Applications Commerciales et
Criminalistiques, Avignon, France. pp. 46-49. 1998.
[34] Nakagawa, S., Sakai, T.: A Recognition System of Connected Spoken Words Based on Word
Boundary Detection. Studia phonologica, Volume 13, pp 23-28. 1979.
[35] Nooteboom, Sieb: The prosody of speech: Melody and rhythm. In: Hardcastle-Laver (eds):
640-674. 1999.
[36] Olaszy Gbor: Prozdiai szerkezetek jellemzse a hrfelolvassban, a mesemondsban, a
novella- s a reklmok felolvassban. In: Gsy Mria (szerk.): Beszdkutats 2005. MTA
Nyelvtudomnyi Intzet, Budapest 2005.
[37] Olaszy Gbor: A magyar krds dallamforminak s intenzitsszerkezetnek fonetikai
vizsglata. Beszdkutats'2002 In: Beszdkutats'2002 Szerk.: Gsy Mria, MTA
Nyelvtudomnyi Intzet, Budapest, 2002. pp. 83-99.

79

[38] Olaszy Gbor: Az alapfrekvencia s a hangslyozs kapcsolata a magyarban. In: Ksrleti


fonetika - Laboratriumi fonolgia 2002. (szerk.: Hunyadi Lszl) Kossuth Egyetemi Kiad,
Debrecen, 2002.
[39] Ostendorf, M., Shafran, I., Bates, R.: Prosody Models for Conversational Speech
Recognition. Proc. for 2002 Plenary Meeting and Symposium on Prosody and Speech
Processing. Tokyo, Japan. pp 147-154. 2002.
[40] Rabiner, L. R.: A tutorial on hidden Markov models and selected applications in speech
recognition. Proceedings of the IEEE, 77(2):257-286, 1989.
[41] Rabiner, L., R.: On the use of autocorrelation analysis for pitch detection. IEEE
Transactions on Acoustics, Speech, and Signal Processing, Volume 25, No. 1. pp. 24-33. 1977.
[42] Vicsi K., Vig, A.: Az els magyar nyelv beszdadatbzis, Beszdkutats 98, MTA
Nyelvtudomnyi Intzete, Budapest, pp. 163-177. 1998.
[43] Ross, M. et al.: Average magnitude difference function pitch extractor. IEEE Transactions on
Acoustics, Speech, and Signal Processing, Volume 22, No. 5. pp. 353-62. 1974.
[44] Russell, Stuart; Norvig, Peter: Mestersges intelligencia (modern megkzeltsben), Panem
Knyvkiad, 2005.
[45] Shirai, K. and Furui, S.: Special issue on spoken dialogue. Speech Communication, 15(3-4),
1994.
[46] Shriberg, E., Stolcke, A., Hakkani-Tr, D. and Tr, G.: Prosody-based automatic
segmentation of speech into sentences and topics. Speech Communication, vol. 32, no. 1-2, pp.
127-154, 2000.
[47] Silverman, M. et al.: ToBI: A standard for labeling English prosody. In: Proceedings of the
2nd International Conference of Spoken Language Processing, Banff, pp. 867-870. 1992.
[48] Sjlander, K. and Beskow, J.: Wavesurfer - an open source speech tool. Proceedings of the 6
th International Conference of Spoken Language Processing in Beijing, China. Volume 4, pp.
464-67. 2000.
[49] Tarnczy Tams: Zenei akusztika. Zenemkiad, Budapest, 1982. pp 151-82.
[50] Tth, L: Benchmarking Human Performance on the Acoustic and Linguistic Subtasks of ASR
Systems. INTERSPEECH 2007, Antwerp, Belgium. pp. 382-85.
[51] Vainio, M., Altosaar, T., Karjalainen, M., Aulanko, R., Werner, S.: Neural network models
for Finnish prosody. Proceedings of ICPhS 1999, San Francisco (1999) 2347-2350.
[52] van Heuven, V.: PRAAT, a system for doing phonetics by computer. Glot International
5(9/10): 341-345. 2001.
[53] Veilleux, N. M., Ostendorf, M.: Prosody/parse scoring and its application in ATIS. Proc.
ARPA Human Language Technology Workshop '93. pp 335-40. 1993.
[54] Venditti, J. J.: The J_ToBI model of Japanese intonation. In: Sun-Ah Jun (ed.) Prosodic
Typology: The Phonology of Intonation and Phrasing, pp. 172-200. 2005.
[55] Vicsi, K., Kocsor, A., Teleki, Cs., Tth, L.: Beszdadatbzis irodai szmtgp-felhasznli

80

krnyezetben. II. Magyar Szmtgpes Nyelvszeti Konferencia, Szeged. Szegedi


Tudomnyegyetem Informatikai Tanszkcsoport, Szeged, 315-318., 2004.
[56] Waibel, Alex: Prosody and Speech Recognition. Pitman, London, UK. 1988.
[57] Wang, D; Narayanan, S.: A multi-pass linear fold algorithm for sentence boundary detection
using prosodic cues. IEEE International Conference on Acoustics, Speech, and Signal
Processing, May 17-21, 2004, Montreal, Canada. vol. 5. 2004
[58] Wolfgang Wahlster (ed): Verbmobil: Foundations of Speech-to-Speech Translation.
Springer, 2000.
[59] Young, S. et al.: The HTK Book (for version 3.3). Cambridge University. 2005.

81

Publikciim
[J] Folyiratok (Journals)
[J1] Vicsi, K., Szaszk, Gy.: Automatic Segmentation of Continuous Speech on Word
Level Based on Supra-segmental Features. International Journal of Speech Technology,
Vol. 8, Num. 4, pp. 363-70. (2005)
[J2] Vicsi K., Szaszk Gy., Nmeth Zs: Folyamatos magyar beszd mondatfajtinak
automatikus felismerse. Beszdkutats 15. szm: pp. 162-172. (2007)
[J3] Szaszk, Gy., Vicsi, K.: Using prosody for the improvement of automatic speech
recognition. Infocommunications Journal (English issue of Hradstechnika). Vol. LXIII.
Num 7. pp. 35-40. (2008)
[J4] Szaszk Gyrgy: Ejtsvarici modellezs a beszdfelismersben. Akusztikai szemle
VI:(1) pp. 3-12. (2005)
[J5] Vicsi K., Velkei Sz., Szaszk Gy., Borostyn G., Gordos G.: Development
experiences of a Hungarian speaker independent continuous speech recognizer.
Hradstechnika Info-Communications Technology LXI:(7) pp. 22-27. (2006)
[J6] Szaszk Gy., Vicsi K.: A magyar nyelv kiejtsvaricii s felhasznlsuk a
beszdfelismersben I. Beszdkutats 10. szm: pp. 216-234. (2002)
[J7] Vicsi K., Szaszk Gy.: A magyar nyelv kiejtsvaricii s felhasznlsuk a
beszdfelismersben II. Beszdkutats 11. szm: pp. 163-176. (2003)

[B] Publikcik szerkesztett knyvben (Publications in Edited Books)


[B1] Vicsi K., Szaszk Gy.: Prosodic Cues for Automatic Word Boundary Detection in
ASR. In: A. Esposito, M. Bratanic, E. Keller, M. Marinaro (eds.): Fundamentals of
Verbal and Nonverbal Communication and the Biometric Issue. (NATO Security through
Science Series; Vol. 18. IOS Press, Amsterdam pp. 161-170. (2007)
[B2] Szaszk, Gy; Vicsi, K: Using Prosody in Fixed Stress Languages for Improvement
of Speech Recognition. In: A. Esposito et al. (eds): Verbal and Nonverbal
Communication Behaviours, Springer, pp. 138-150. (2007)

[C] Konferenciacikkek (Conference Papers)


[C1] Szaszk Gy., Vicsi K., Borostyn G.: Folyamatos beszd sz- s frzisszint
automatikus szegmentlsa szupraszegmentlis jegyek alapjn. II. Magyar Szmtgpes
Nyelvszeti Konferencia (MSZNY-2004). Szeged, Magyarorszg, 2004. december. pp.
319-325.

82

[C2] Vicsi K., Szaszk Gy.: Automatic Segmentation of continuous speech on word and
phrase level based on supra-segmental features. Forum Acousticum. Budapest,
Magyarorszg, 2005. mjus, pp. 2669-73.
[C3] Szaszk Gy., Vicsi K.: Folyamatos beszd sz- s frzisszint automatikus
szegmentlsa szupraszegmentlis jegyek alapjn: II. rsz: Statisztikai eljrs, finnmagyar nyelv sszehasonlt vizsglat. III. Magyar Szmtgpes Nyelvszeti
Konferencia. Szeged, Magyarorszg 2005. december. pp. 360-370.
[C4] Vicsi K., Szaszk Gy.: Prosodic Cues for Automatic Phrase Boudary Detection in
ASR. Text, Speech and Dialogue: 9th International Conference on Text, Speech and
Dialogue TSD 2006. Brno, Csehorszg 2006. szeptember. pp. 547-554.
[C5] Szaszk Gy., Vicsi K.: Speech recognition supported by prosodic information for
fixed stress languages. Text, Speech and Dialogue: 10th International Conference
Proceedings, TSD 2007. Plzen, Csehorszg 2007. szeptember. Springer, 2007. pp. 262269.
[C6] Vicsi, K.; Szaszk Gy.; Nmeth Zs.: Prozdiai informci hasznlata az automatikus
beszdfelismersben; mondat modalits felismerse,, V. Magyar Szmtgpes
Nyelvszeti Konferencia, Szeged, 2007. december. pp. 69-80.
[C7] Vicsi, K.; Szaszk, Gy.: Using Prosody for the Imporvement of ASR - Sentence
Modality Recognition, Interspeech 2008, Brisbane, Australia, 2008. szeptember.
[C8] Szaszk Gy., Vicsi K.: Examination of Pronunciation Variation from Hand-Labelled
Corpora. Text, Speech and Dialogue: 7th International Conference Proceedings, TSD
2004. Brno, Csehorszg 2004. szeptember. Springer, 2004. pp. 473-480.
[C9] Vicsi K., Kocsor A., Tth Sz. L., Szaszk Gy., Teleki Cs., Bnhalmi A., Paczolay
D.: A magyar referencia adatbzis s alkalmazsa orvosi diktl rendszerek
kifejlesztshez. III. Szmtgpes Nyelvszeti Konferencia. Szeged, Magyarorszg 2005.
december. pp. 435-438.
[C10] Vicsi K., Velkei Sz., Szaszk Gy., Borostyn G., Teleki Cs., Tth Sz. L.:
Kzpsztras, folyamatos beszdfelismer rendszer fejlesztsi tapasztalatai: III. Magyar
Szmtgpes Nyelvszeti Konferencia. Szeged, Magyarorszg 2005. december. pp. 348359.

83

You might also like