Professional Documents
Culture Documents
Szaszk Gyrgy
A szupraszegmentlis jellemzk szerepe s
felhasznlsa a beszdfelismersben
PhD rtekezs
tmavezet
Dr. Vicsi Klra, DSc
2008. szeptember
Abstract
The title of my thesis is The Role and Use of Supra-segmental Features in Automatic
Speech Recognition.
The goal of my work is to demonstrate and prove that information carried acoustically by
speech prosody can improve speech recognition and add an extra functionality on
syntactic and on semantic level to ASRs.
My thesis work is constructed as follows: first I shortly review some concepts related to
supra-segmental range and prosody, and link acoustic prosodic features to them. I address
only concepts relative to speech technology engineering, but not those related strictly to
linguistics. Also, some concepts are used in a different meaning than in linguistics.
Next on, I present how prosody can be used in standard speech recognition technology,
including the extraction issues of prosodic features from the speech signal, and the
available international research results in the field.
The main part of the thesis is formed by Chapters 4 to 7. These chapters present
algorithms suited to fixed stress languages which allows word-boundary detection based
on stress detection carried out on prosodic features, fundamental frequency and energy.
Peak detection and statistical (HMM based) algorithms modelling intonation classes are
used. I confirm with experiments that by these algorithms, word boundaries can be
detected with acceptable accuracy and efficiency for fixed stress Hungarian. The system
is adapted to Finnish to prove adaptability within the family of fixed stress languages. A
bilingual architecture is also investigated. I show that a prosodic segmenter can be
constructed based on HMM word boundary detection, and that this segmenter improves
word recognition in a Hungarian language medical ASR application.
I justify that the obtained word boundary detector or prosodic segmenter can be modified
to perform clause level segmentation and modality recognition in Hungarian. This
technique allows the placement of punctuation marks and semantic processing based on
prosody of the recognized speech. I show that this so called modality recognizer can be
adapted easily to German language.
Finally, I give a summary of results and theses.
ii
Tartalomjegyzk
Bevezets .............................................................................................................................1
1. A beszd szupraszegmentlis szerkezete.........................................................................2
1.1 A szupraszegmentlis szerkezet sajtossgai ............................................................3
1.2 Az egyes szupraszegmentumok rvid jellemzse......................................................3
1.2.1 Hangsly .............................................................................................................3
1.2.2 Hanglejts, intonci ..........................................................................................5
1.2.3 Hanger...............................................................................................................6
1.2.4 Beszdtemp .......................................................................................................6
1.2.5 Ritmus s hangsznezet.......................................................................................7
1.2.6 Sznet..................................................................................................................7
1.3 A szupraszegmentlis szerkezet ltrehozsa s alapvet funkcii ............................8
1.4 Nhny alapfogalom ................................................................................................10
2. Prozdiai jellemzk akusztikai szint feldolgozsa s annotlsa ................................12
2.1 Az alapfrekvencia ....................................................................................................12
2.2 Energia .....................................................................................................................14
2.3 Idtartamok ..............................................................................................................14
2.4 Beszdfelvtelek szupraszegmentlis tartomny feldolgozsa..............................15
3. A szupraszegmentlis informci felhasznlsa a beszdfelismersben.......................16
3.1 A statisztikai alap state-of-the-art beszdfelismers ..........................................16
3.2 Elvi megfontolsok a szupraszegmentlis jellemzk felhasznlsa kapcsn ..........17
3.3 Mondat-, frzis- s szhatr-detekci ......................................................................17
3.4 Mondattagols s modalits.....................................................................................19
3.4.1 Modalits s tagmondatokra bonts..................................................................19
3.4.2 A szintaktikai elemzs elsegtse....................................................................20
3.5 A szemantikai rtelmezs tmogatsa .....................................................................20
3.6 Szupraszegmentlis jellemzk felhasznlsa a fonmafelismersben.....................22
3.7 Irodalmi ttekints konkrt alkalmazsok ............................................................22
3.7.1 Prozdiai modellezs lehetsgei .....................................................................22
3.7.2 A VerbMobil automatikus fordt- s tolmcsolrendszer...............................24
3.7.3 Szhatr-detekci alapfrekvencia alapjn ........................................................26
3.7.4 Lexikai alap mondathatr detekci .................................................................26
4. Szhatrok automatikus detekcija ...............................................................................28
4.1 A hangsly detektlsnak lehetsgei....................................................................28
4.2 Hangslydetekci cscskeresssel...........................................................................32
4.3 Ksrlet cscskeresssel trtn szhatr-detektlsra............................................34
5. Szhatr-detektls statisztikai mdszerrel ...................................................................38
5.1 Elvi megfontolsok ..................................................................................................39
5.2 Szkapcsolati intoncis osztlyok rtelmezse......................................................40
iii
iv
Ksznetnyilvnts
Ezton szeretnm megksznni tmavezetmnek, Dr. Vicsi Klrnak a sok v sorn
nyjtott segtsgt, valamint a Beszdakusztikai Kutatlaboratrium hallgatinak s
munkatrsainak elssorban Borostyn Gbornak, Nmeth Zsoltnak, Pter Attilnak s
Sztah Dvidnak kzremkdsket a munkm sorn.
Szaszk Gyrgy
2008. szeptember
Bevezets
Napjainkban, az informcis trsadalomban s a mestersges intelligencia korban
alapvet ignyknt jelentkezik az ember kpessgeinek gp ltali minl hebben val
megvalstsa, st kiegsztse. Nincs ez msknt a beszdfelismersben sem, az ember
rgi vgya, hogy gpeivel sajt nyelvn kommuniklhasson. Jllehet a kezdetek ta
jelents eredmnyek, st korszakvltsok is bekvetkeztek a beszdfelismers
trtnetben, maga a beszdfelismers problmakre napjainkban sem tekinthet mg
megoldott problmnak. St, ha arra gondolunk, hogy a valdi beszdfelismers
tulajdonkppen a beszd gp ltali rtelmezst, megrtst is jelenti sokak szmra a
beszdtechnolgiban jrtasak ekkor mr a beszdrts fogalmt hasznljk a feladat
megjellsre mg messzebb rezhetjk magunkat a cltl.
A klasszikus beszdfelismersben lassan b vtizede egyfajta egyhelyben topogs
mutatkozik. A statisztikai eljrsokkal az adott technikai sznvonalon elrhet
eredmnyek megszlettek, azokat lnyegben mr csak tovbbragozni lehet. Ennek
ellenre a kutatk figyelme csak az utbbi idben fordult az emberi beszd ms
dimenzii fel, s mostanra terjedt el az a szemllet, amely a beszdet a kommunikci
egy rsznek, egyik lehetsges csatornjnak tekinti, s megprblja a beszddel
prhuzamosan megjelen egyb informciforrsokat is kiaknzni. Ide tartozik az audivizulis beszdfelismers, de mg inkbb a multimodlis beszdfelismers, amelyet taln
helyesebb volna gy megfogalmaznunk, mint az emberi kommunikci
beszdvetletnek vizsglata a tbbi kommunikcis tnyez prhuzamos figyelembe
vtelvel.
Maga a beszd mint informcihordoz sincs mg azonban teljesen kihasznlva a
szkebben vett beszdfelismersben sem. A hagyomnyos beszdfelismers a beszdet
fonmaszekvencinak tekinti. (A ksbbiekben ezt a beszdhangok hossznak
nagysgrendjbe es idtartomnyt fogjuk szegmentlis tartomnynak nevezni.) A
beszdfelismersben a szegmentlis tartomnyba es fonetikai szervezdsi szintet, majd
e felett a szavak, st inkbb a szkapcsolatok szintjt veszik figyelembe, elbbit a fonma
modellek, utbbit a nyelvi modell testestik meg a beszdfelismerkben. Ebben a
feldolgozsi lncban a beszd mint akusztikai produktum csak a legels szinten,
szegmentlis tartomnyban jelenik meg, utna nem veszik figyelembe. Meggyzdsem,
hogy a beszd szupraszegmentlis tartomnyban akusztikailag is altmasztja a
szkapcsolati szintet, s gy informciforrsknt hozzjrulhat a teljesebb
beszdfelismershez, megnyitva az utat a valdi beszdrts irnyba is. Gondoljunk
csak arra, hogy a szupraszegmentlisan (prozdiailag) rosszul megformlt kzlemny
azaz helytelenl hangslyozott, nem megfelel hanglejts vagy ppen tl monoton,
beszd az emberi beszdrtst megzavarja, st, meg is tvesztheti, mgis
ritkasgszmba mennek a szupraszegmentlis tartomnybeli kutatsok, a
szupraszegmentlis tartomny akusztikailag is megjelen elemeit a szupraszegmentlis
beszdjellemzket pedig nem hasznljk a beszdfelismersben. rnyalja a kpet, hogy
a fonetikai s fonolgiai tudomny sem egysges rszletekbe menen mr a
szupraszegmentlis jellemzk pontos meghatrozsa krdsben sem, nemhogy az egyes
jellemzk mrnki tudomnyokban is jl felhasznlhat egzakt lersban.
1.2.1 Hangsly
A hangsly valamely sz egy sztagjnak kiemelse, megklnbztetse a tbbi
sztagtl. Attl fggen, hogy a beszd mely szintjn, milyen egysghez kapcsolva
rtelmezznk, beszlhetnk szhangslyrl, szakaszhangslyrl (szszerkezetek
esetben) s mondathangslyrl, st a szveg szintjn a ttelhangslyt is el szoks
klnteni, ez utbbi azonban szmunkra rdektelen.
Hangslyozs szempontjbl a nyelvek kt csoportba sorolhatk, a kttt s a ktetlen
vagy szabad hangslyozs nyelvek csoportjba. A hangsly ktttsge azt jelenti, hogy
ha a kzlsben valamely sz hangslyos, akkor a hangsly mindig a sz egyrtelmen
azonostott sztagjra esik. A magyar nyelvben a hangsly kttt, mivel mindig az els
Az aktulis mondattagols egy-egy mondat szintjn azt jelenti, mely szavak, szkapcsolatok milyen
viszonyban vannak egymshoz kpest, illetve melyek azok a szavak, amelyek szorosan, s melyek azok,
amelyek kevsb tartoznak ssze.
1.2.3 Hanger
A hanger a nyelvszeti szakirodalomban lnyegben a pszichoakusztikai hangossg
fogalmnak felel meg. Jllehet az szlelt hangossgot alapveten a hangintenzits
hatrozza meg, termszetesen a frekvencia, s kisebb mrtkben az idtartam is
befolysolja.
Jl ismert, hogy a hangossg megvltozsnak szlelse frekvenciafgg, alacsonyabb
frekvencin mr kisebb (200Hz-6kHz tartomnyban akr 1 dB) intenzitsvltozst is
szlelnk. A beszd esetben ez a hatr 3 dB krl felttelezhet [49].
A hanger mint szupraszegmentlis jellemz szerepet elssorban mondatok
modalitsnak elklntsben kaphat, ez a felkilt s hajt mondatokban a
legszembetnbb a kijelent mondatokhoz viszonytva.
Mint azt az 1.2.1 szakaszban mr jeleztem, a hangslyt nem tartjom a hanger ltal
meghatrozottnak, azonban ktsgtelen, hogy a hangslyos sztagot ltalban nagyobb
hangervel ejtjk.
1.2.4 Beszdtemp
A beszd tempjt a beszd- s az artikulcis sebessgekkel adhatjuk meg. Elbbi
hnyados az egysgnyi hossz kzlsfolyamra es beszdhangok szmt, utbbi a tisztn
beszdkpzsre fordtott id alatt kiejtett beszdhangok szmt adja meg. A kett kztti
klnbsget az adja, hogy a beszdsebessgbe a sznetek, hezitls, stb. idtartama is
beleszmt, mg az artikulcis sebessgbe nem.
A beszdtemp esetn is igaz, hogy az objektven azonos sebessg beszdet
szubjektven lassabbnak vagy gyorsabbnak tlhetjk a hanger, a hangmagassg, st a
hangslyozs hatsra. Lassabbnak rzkeljk pldul a beszdet mlyebb
hangfekvsben, gyr hangslyozs mellett, mg magasabb hangfekvs, illetve
hangslyozst tekintve dinamikus beszd gyorsabb beszd benyomst kelti [21].
A temprtkek jellemzen nyelv s egynfggek, de termszetesen egynen bell is
variancit mutatnak.
Az tlagos temprtkeknl kevsb ltalnos, m annl sokkal hasznosabb lehet az
egyes beszdhangok, klnsen a sztagok magnhangzinak idtartamt megllaptani,
mivel utbbi egyes nyelvekben a hangsllyal ersen korrell, illetve szmos nyelvre
jellemz, hogy a frzisok (kt beszdsznet, jellemzen levegvtel kzti szakasz),
mondatok vgn a beszdhangok idtartamai megnvekednek.
1.2.6 Sznet
A sznet az egyik legfontosabb prozdiai jellemz, alapformja a beszdet megszakt
nma szakasz, azaz az akusztikai rtelemben vett jelkimarads. Sznetnek csak a beszd
kzben fellp akusztikai jelkimarads tekinthet, a beszdet megelz s zr nma
szakaszokat ettl clszer elklnteni, ennek neve lehet a csend [21]. Termszetesen
nem tekintjk sznetnek az sszetett kpzs beszdhangokban elfordul jelmentes
szakaszt, gy a zngtlen felpattan zrhangokban a nma fzis semmikppen nem
sznet.
A sznetet a puszta akusztikai jelkimaradsnl tgabban clszer rtelmezni, gy szmos
ms n. sznethordozt azonosthatunk, amelyek a percepci szempontjbl a
jelkimaradssal kzel azonos hatst keltenek. Kassai nyomn [21] a magyar nyelvben az
albbi sznethordozkat klnthetjk el:
akusztikai jelkimarads
az egybknt jellemz alkalmazkodsok (pl. hasonulsok) elmaradsa, illetve a
gondos artikulci
beszdhangok megnyjtsa a sznet eltt vagy utn, illetve a beszdtemp
lassulsa
glottlis zr megjelense a sz eleji magnhangzk eltt
kiemelked hangsly
a hangmagassg hirtelen megvltozsa
kitlttt (hangos) sznet (pl. -zs, mm-zs)
Gyakori, hogy a fenti sznethordozk egyttesen fordulnak el, ezltal is javtva a sznet
szlelhetsgt. Univerzlis (teht minden nyelvben meglv) sznethordoznak maga az
akusztikai jelkimarads, illetve korltozottan a kitlttt sznet tekinthet, az egyb
sznethordozk jellemzen nyelvspecifikusak.
1.1 bra: A folyamatos beszd kpzsnek Levelt-fle modellje ([30] s [32] nyomn)
Mivel munkmban terjedelmi okokbl nincs lehetsgem valamennyi, az 1.3 szakaszban felbukkan
nyelvszeti fogalom ismertetsre, ezrt az olvas a [30] s [32] irodalmakban tjkozdhat pontos
defincijukat illeten.
5
Szerepe a magyarban minimlis, ellenben pldul a francia nyelv jellegzetes hangktseit (liasion) ez a
bemenet hatrozza meg.
10
11
2.1 Az alapfrekvencia
Valamennyi jellemz kzl ktsgkvl az alapfrekvencia mrse a legkomplexebb
feladat. Szmtalan algoritmus alapjn lehetsges az alapfrekvencia meghatrozsa, gy
nem vllalkozhatunk teljes kr bemutatsukra, az ltalunk a ksbbiekben hasznlt
mdszert azonban ttekintjk.
Az alapfrekvencia detektlsnak egyik rgen ismert lehetsges mdja az autokorrelcis
fggvny maximumainak meghatrozsn alapul ([9], illetve [41]). Azaz a beszdjelet
nmaghoz kpest eltolva a legjobb illeszkedst az eredeti s az eltolt fggvny kztt
akkor kapjuk, ha az eltols mrtke ppen a peridusidvel egyezik meg, zngs
beszdszakaszra teht az autokorrelcis fggvny is majdnem periodikus.
Cscskeresssel az autokorrelcis fggvny peridusideje jl meghatrozhat. Az
autokorrelcis fggvny helyett leggyakrabban egy rokon fggvnyt, az tlagos
magnitd klnbsg fggvnyt ([9], ill. [43]) AMDF, Average Magnitude Difference
Function) hasznljk, ugyanis sokkal gyorsabb szmtst tesz lehetv. Az AMDF
fggvny a beszdjel alapperidusnak megfelelen nem maximumokat, hanem
minimumokat ad. Az AMDF fggvny (Dn(k)) pldul az albbi sszefggssel
definilhat:
Dn (k ) =
1 n
| xi xi k |
N i = n N +1
(2.1)
12
12 F0
F
lg 40 lg 0
lg 2 c0
c0
(2.2)
13
2.2 Energia
A beszdjel energijnak szmtsa a legalapvetbb jelfeldolgozsi mveletek kz
tartozik.
n
En =
2
i
i = n N +1
(2.3)
2.3 Idtartamok
Az alapfrekvencihoz hasonlan az idtartamok mrse is problms. A nehzsg abbl
addik, hogy ahhoz, hogy brmilyen beszdszakasz idtartamt meghatrozhassuk,
pontosan ki kell jellnnk az adott szakaszt. Miutn automatikus algoritmusokkal
dolgozunk, gy e kijellst is automatikusan tudjuk csak vgezni, emiatt pedig
ktsgkvl hibval terhelt eredmnyeket kapunk.
Az idtartamok jellemzen a beszdhangok vagy sztagok hossza rdekelhet bennnket
14
15
3. A szupraszegmentlis informci
felhasznlsa a beszdfelismersben
3.1 A statisztikai alap state-of-the-art
beszdfelismers
A statisztikai alap beszdfelismersben [15] eredenden nem veszik figyelembe a
beszd szupraszegmentlis szerkezett, csak a szegmentlisat. A napjainkban leginkbb
elterjedtnek tekinthet folyamatos, fonma alap beszdfelismerk felismersi
alapegysge szegmentlis jelleg, hiszen ebben a tartomnyban trtnik a beszdhangok
akusztikai-fonetikai szint modellezse. Az egyes beszdhangokbl a sztr ltal
megadott specifikciknak megfelelen egy adott nyelv szavai konstrulhatk meg, s a
felismersi feladatot magt jellemzen ennek alapjn fogalmazzk meg. Leggyakrabban
az albbi meghatrozshoz hasonl defincikkal tallkozhatunk ([15], [4], [59], stb.): a
felismersi feladat nem ms, mint az ismertnek felttelezett [s szegmentlis
tartomnyban feldolgozott] akusztikai beszdjel folyamhoz legjobban illeszked
szszekvencia kivlasztsa [a sztr ltal megadott s a nyelvi modell ltal lert
kapcsoldsi tulajdonsgokkal rendelkez szhalmazbl]. Az gy rtelmezett felismersi
feladatra sszelltott beszdfelismer egyik fontos alkoteleme a beszdhangokat ler
akusztikai-fonetikai modell, msik fontos eleme pedig a nyelvi modell, amelyeket a jl
ismert formula alapjn Bayes ttelt is felhasznlva a kvetkezkppen rhatunk:
P (W | X ) =
P ( X | W ) P(W )
P ( X | W ) P (W ) ,
P( X )
(3.1)
(3.2)
P (W ) = P ( w1 , w2 ,..., wl ) P ( wi | wi 1 ,..., wi n +1 )
(3.3)
i =1
Az n-gram nyelvi modellt nyugodtan nevezhetnnk statisztikai alap szszerkezeti szintaxismodellnek is.
16
17
A szerzk [53]-ban nem a felismersi hibaarnyt, hanem azt vizsgltk, hogy a 10 legnagyobb pontszm
ton a helyes hipotzis tlagosan hnyadik helyre volt rangsorolva.
18
Az aktulis mondattagols lnyegben azt adja meg, mely szavak, szszerkezetek tartoznak egybe, illetve
ezek egymssal milyen viszonyban llnak, azaz tulajdonkppen szempontunkbl a klasszikus
mondatelemzsnek felel meg.
13
Eltekintve termszetesen attl a trivilis, de korntsem felhasznlbart megoldstl, hogy a mondat
vgn kln jelezni kell e kiteend rsjelet.
19
20
A kvantor egyfajta hatrozatlan determinns, amely a hatkrbe (pl. utna) kerl fnvhez mennyisgi
jelleg attribtumot ad.
21
P( X s | H ) = P( X s | M s ) P(M s | H )
(3.4)
Ms
Krds teht, hogy egy-egy rgztett felismersi hipotzis (H) mellett mennyire valszn
a megfigyelt Xs, ezttal szupraszegmentlis tartomnyban tekintett akusztikai realizci.
22
23
24
stb. betantott HMM modellek rvn nem lenne lehetsges. Ez trtnik, ha pldul nem
tallhat az ltaluk modellezett sznethordoz a frzishatron. (Vlemnyem szerint
klnsen a spontn beszdben ez igen gyakori eset, jllehet [8]-ben erre vonatkoz
adatokat nem talltam.) Egy keret felldozsval azonban lehetv vlik a tgabb
rtelemben, valban szupraszegmentlis tartomnyban megvalsul frzishatrdetektls, ugyanis a ms ton, teht nem HMM modellel detektlt frzishatr ily mdon
a felismersi folyamatban elll HMM lncolatba szrhat. Ehhez persze kln
prozdiai modulra van szksg, amely a VerbMobilban szupraszegmentlis jellemzk
(F0 s energia, illetve bellk szrmaztatott mennyisgek) felhasznlsval vgez
frzishatr-detekcit MLP-vel megvalstott osztlyozs alapjn. Az MLP (Multi Layer
Perceptron) osztlyoz minden keretre meghatrozza a frzishatr valsznsgt. A
prozdiai modullal kibvtett beszdfelismer felptse (a hipotzis grf elkszltig) a
3.1 brn lthat.
Szupraszegmentlis akusztikai
elfeldolgozs
Beszdjel
MLP
Frzishatrdetekci
Szegmentlis
akusztikai
elfeldolgozs
HMM
Szfelismers
Nyelvi modell
Prozdiailag
slyozott
hipotzis grf
25
26
27
28
29
f- kon-zul l- nyt.
sztagok
Lmgh/Lref
[ms/ms]
f- kon-zul l- nyt.
sztagok
Emgh/Eref
[dB]
f- kon-zul l- nyt.
sztagok
30
H
[h. oktv]
f- kon-zul l- nyt.
sztagok
Lmgh/Lref
[ms/ms]
f- kon-zul l- nyt.
sztagok
Emgh/Eref
[dB]
f- kon-zul l- nyt.
sztagok
A 4.2 brn bemutatott beszl elemzsvel aligha jutnnk arra a kvetkeztetsre, hogy a magyarban a
hangsly nyomatki, igaz ez csak egy kiragadott plda az adatbzisbl, de ltalnos tapasztalataim is ezt
a megllaptst tmasztjk al.
31
Beszdjel
Energiaszmts
Cscskeress/
Grbejellegmeghatrozs
Hangslydetekci
Szhatrok
Cscskeress/
Grbejellegmeghatrozs
32
(4.1)
kszbt hatrozunk meg, ahol k tetszleges konstans, ltalban 0,5-1,5 kztti rtkkel.
Ezt kveten minden xi-re megvizsgljuk, nagyobb-e a K kszbnl, ha igen, akkor ezt
cscsnak tekintjk, s itt hangslyos pozcit detektlunk. Az xi adatsor esetnkben az
alapfrekvencia-, illetve az energiartkekbl ll, amelyeket sztagonknt a 4.2
szakaszban ismertetett mdon hatrozhatunk meg. A kszbt clszer gy
meghatrozni, hogy folyamatosan alkalmazkodjon a mondat intoncijhoz, ezrt a
kszbt csszablakkal szmtjuk, az ablak mrett 7-17 sztag kztt clszer
vlasztanunk. Ezltal a kszbt a mondat hanglejtshez igaztjuk. Az i-edik sztaghoz
tartoz kszb teht:
K i = M ( xi A , xi A 1 ,..., xi ) + k ( xi A , xi A 1 ,..., xi ) , ha i>A
(4.2)
K i = M ( x1 , x2 ,..., x A ) + k ( x1 , x2 ,..., x A )
(4.3)
egybknt,
Mi =
1 i
x j
A j =i A
i2 =
1 i
M j x j
A j =i A
(4.4)
(4.5)
33
Ei' =
1
M
i+
M
2
(4.6)
M
m =i
2
(4.7)
Ei'' = 0
(4.8)
egybknt
34
|? O |? bEse:d |?
O | b | E | s | e: | d
Fonma szint
szegmentls
Szhatrok
idbeli
meghatrozsa
| O | bEse:d |
Referencia
szhatrok
O _ bEse:d
Ortografikus tirat
Cscskeresssel
detektlt szhatrok
sszehasonlts
&
Kirtkels
%%
Pontossg,
hatkonysg
Corr =
(4.9)
Eff =
(4.10)
35
F0
7
7
7
7
9
9
9
9
13
13
13
13
17
17
17
17
0,5
0,7
0,9
1,1
0,5
0,7
0,9
1,1
0,5
0,7
0,9
1,1
0,5
0,7
0,9
1,3
49/44
50/39
51/33
52/28
49/41
50/36
52/32
52/27
51/39
52/34
52/28
54/24
51/38
53/33
54/28
56/20
46/30
45/27
45/24
45/21
46/29
46/26
46/23
45/20
45/27
45/23
45/20
46/18
46/26
45/22
46/20
46/15
F0 & E
F0
46/20
46/16
47/13
47/10
45/18
47/15
47/12
47/9
46/16
46/13
46/11
49/9
46/16
47/10
49/10
52/7
76/24
77/23
78/21
79/20
76/24
77/22
78/21
79/19
77/22
78/20
79/19
79/17
78/21
78/19
79/18
81/15
57/21
58/19
59/17
60/15
59/21
60/19
61/17
62/15
61/19
63/18
64/16
65/14
64/19
63/17
65/15
65/11
F0 & E
82/10
83/10
86/9
87/7
84/11
83/9
83/9
85/8
84/9
84/8
87/8
88/7
86/9
86/8
86/7
90/6
18
36
Pontossg/Hatkonysg [% / %]
E
F0&E
69 / 34
91 / 14
37
5. Szhatr-detektls statisztikai
mdszerrel
A hangsly, s ezltal a szhatrok detektlsa osztlyozsi feladatknt is felfoghat,
amelyben szupraszegmentlis jellemzk alapjn valamilyen beszdegysgekre dntst
hozunk pldul hangslyossg vagy hangslytalansg tekintetben, de termszetesen
msmilyen osztlyozst is megvalsthatunk, illetve e kettnl tbb osztlyba is
sorolhatjuk az elemeket tovbbi kategrikat elklntve. Automatikus osztlyozsra
szmos statisztikai mdszereken alapul lehetsg knlkozik, szupraszegmentlis
tartomnyban trtn osztlyozst tudomsom szerint vgeztek mr dntsi fkkal [53],
diszkrt rejtett Markov modellekkel [12], illetve MLP (Multi Layer Perceptron) alap
osztlyozval is [8]. A statisztikai alapon trtn megkzelts elnyei ugyanazok, mint a
szkebb rtelemben vett beszdfelismersben: ha elegend teret biztostunk a
rendszernek a tanulsra, meglepen j eredmnyeket rhetnk el, amelyek gyakran
fellmljk a kognitv vagy szablybzis megkzeltssel kapottakat.
A Markov modellek alkalmazst a beszdfelismersben napjainkban alaptechnolginak
tekinthetjk [4]. Amellett, hogy teljes rendszerek plnek Markov modellezsi
technikra, nagyon sok, az akusztikai modellezst nem Markov modellek alapjn vgz
hibrid rendszerben is tallkozunk a Markov modellekkel, mivel a mintaillesztshez
szksges dinamikus illesztsre kitnen alkalmazhatk, hiszen a Markov modell maga
tekinthet a dinamikus programozs egy specilis estnek is [44]. Rszben a rendkvl j
idbeli illesztsi kpessg motivlta kutatsainkat abban az irnyban, hogy
szupraszegmentlis tartomnyban Markov modelleken alapul osztlyozt valstsunk
meg.
A fejezetben bizonytand egyik tzisem, hogy a kttt hangsly magyar nyelvben
folytonos rejtett Markov modellekkel lehetsg van a szhatr-detekcira dallammenetek
alakfelismerse alapjn:
Tzis II. A. [J1, C2, J3, B1] A kttt hangslyozs magyar nyelvben elklnthetk
olyan intoncis jelleg diszjunkt osztlyok, amelyek ppen a szhatrokon kapcsoldnak
egymshoz, s amelyek lptkk tekintetben a mikrointoncis s a mondatszint
intonci tartomnya kztt helyezkednek el, egyfajta szkapcsolati szint intoncis
szerkezetet ltrehozva. Az gy definilt intoncis osztlyok rejtett Markov modellekkel
felismerhetk.
A II. A tzishez kapcsoldan a Markov modell fbb paramtereit optimalizlom, ennek
sorn megmutatom, hogy a Markov modellek llapotainak szksges szma az optimlis
detektlshoz szupraszegmentlis idtartomnyba es hosszsg lncot ad meg, illetve
hogy a kibocstsi valsznsgeket elegend 1-2 normlis eloszls srsgfggvnyvel
lerni.
38
Tzis II. B. [J3, B2, C5] Az intoncis osztlyok alapjn szhatr-detekcit vgz
rendszerbl prozdiai szegmentl kszthet, amely a bemenetre rkez beszdet
szupraszegmentlis jellemzk alapjn szkapcsolati szinten tagolja.
Ekkor a szhatr-detekcit szegmentlsi feladatknt rtelmezzk, s azt szeretnnk
elrni, hogy szupraszegmentlis jellemzk alapjn minl pontosabb prozdiai
szegmentlst hajtsunk vgre. Mivel a HMM alakfelismersre kivlan hasznlhat, a
szupraszegmentlis tartomnyban trtn osztlyozshoz elegend, ha olyan minl
jobban elklnl prozdiai osztlyokat tudunk meghatrozni, amelyek ismeretben a
szhatrok is a lehet legpontosabban lokalizlhatk. Az osztlyozs jrulkos
eredmnyeknt az illesztett osztlyok kztti hatridpontok is ismertt vlnak.
39
F0 & energia
kinyerse
Szupraszegmentlis akusztikai
elfeldolgozs
Szupraszegmentlis
jellemzvektorok
Beszdjel
Intoncis
osztlyok
illesztse
Szhatrok
Intoncis
osztlyok
kapcsoldsi
modelljei
40
P( I | X s ) =
P( X s | I ) P( I )
P( X s | I ) P( I ) ,
P( X s )
(5.1)
azaz adott Xs szupraszegmentlis jellemzk mellett a legvalsznbb I intoncis osztlyszekvencit keressk, amelyet prozdiai szegmentlsknt is felfoghatunk. Xs
termszetesen valsznsgi vektorvltoz-sorozat, a vektorok szupraszegmentlis
jellemzket vagy azokbl szrmaztatott adatokat tartalmaznak. Ismt felttelezzk, hogy
a szupraszegmentlis tartomny elemekbl ll megfigyelsvektorok egy rejtett
szupraszegmentlis Ms llapotsorozatot fednek:
P( X s | I ) = P( X s | M s , I ) P(M s | I ) .
(5.2)
Ms
41
42
i (c
dt =
t +i
ct i )
i =1
W
2 i
(5.3)
i =1
43
(5.4)
ahol a <> szimblumok egy vagy tbb, a {} szimblumok nulla, egy vagy tbb
ismtldst jellnek, a | szimblum kizr vagy kapcsolatot, a [] opcionlisan
elmarad esemnyeket jell. A nyelvtan nem slyozott, a lehetsges utak egyenl
valsznsgek.
5.7 Teszteredmnyek
Az eddigiekben bemutatott mdon sszelltott rendszert magyar nyelv anyagon
teszteltem, klnbz betantsi paramterek mellett. Kln figyelmet kapott a rendszer
fbb jellemzinek optimalizlsa, ezen az llapotok szmnak optimalizlst s a
HMM-ekben a szksges Gauss komponensek szmnak ksrleti meghatrozst rtem.
Vizsgltam a prozdiai-akusztikai elfeldolgoz kimenetnek szelektv felhasznlsi
lehetsgeit is. Vizsgltam azt is, milyen hatsa van, ha a betant halmazban a beszlk
szmt szktem. A teljestmnyelemzshez a 4.3 szakaszban bemutatott kt mutatt, a
pontossgot (4.9) s a hatkonysgot (4.10) hasznltam, amelyek jelentse azonos a
cscskeresssel trtn detekcinl megismertekhez. A szhatrt akkor tekintettem
helyesen bejelltnek, ha a referencia tiratban szerepl szhatr 100 ms-os krnyezetbe
esett. A referencia tiratot fonma szint szegmentls s ortografikus tirat alapjn
lltottam el a 4.3 pontban bemutatott s a 4.4 brn illusztrlt eljrssal, azaz ugyangy,
ahogyan a cscskeresses algoritmus kirtkelse esetben.
44
Nyelv
Betant
anyag
Tesztanyag
F0+dF0+d F0
2
E+dE+d E
Pontossg [%] /
Hatkonysg [%]
67,4 / 58,4
magyar
14 frfi
18 frfi
67,4 / 63,9
F0+dF0+d F0+
2
E+dE+d E
76,5 / 53,0
F0+dF0+d F0+
2
E+dE+d E
Nyelv
magyar
Betant
anyag
1 frfi
4 frfi
14 frfi
Tesztanyag
18 frfi
Pontossg [%] /
Hatkonysg [%]
77,3 / 46,4
77,4 / 57,1
76,5 / 53,0
45
az optimlis llapotszm 11. Az 5.3 brn lthat, hogy az e feletti llapotszm esetn a
detekci pontossga hatrozott cskken tendencit mutat. Termszetesen a szakasz
elejn az 5.1 s 5.2 tblzatok eredmnyei is mind 11 llapotos modellekre vonatkoznak.
Tzis II. C. [J1, C2, C3, C4, B1] A magyar nyelvre, az intoncis osztlyok
behatrolsra kidolgozott mdszer ms kttt hangsly nyelvekre is kzvetlenl
alkalmazhat szhatr-detekci cljbl.
Ennek igazolsra a finn nyelvre a magyar nyelv esetben bemutatott eljrst kvetve
vgeztem el mind a betantst, mind a tesztelst. A betants s tesztels alapjul szolgl
adatbzis a Helsinki University of Technology ltal ksztett Finnish Speech Database
[51], amely 250 mondatot tartalmaz sszesen 4 beszl bemondsban (kzlk 2-2 a
frfi s a n).
46
F0+dF0+d F0
2
+E+dE+d E
Nyelv
finn
Betant
anyag
4 f
Tesztanyag
4 f
magyar
4 f
4 f
47
Pontossg [%] /
Hatkonysg [%]
69,2 / 76,8
77,3 / 57,1
F0+dF0+d F0
2
+E+dE+d E
Betant anyag
Tesztanyag
(4 f)
magyar
finn
magyar
finn
magyar
finn
magyar (4 f)
magyar (4 f)
finn (4 f)
finn (4 f)
vegyes (4+4 f)
vegyes (4+4 f)
48
Pontossg [%] /
Hatkonysg [%]
77 / 57
67 / 52
70 / 52
69 / 76
75 / 68
69 / 83
Tzis III. [J3, C5, B2] Lehetsg van a beszdfelismersben a helyesen felismert szavak
arnynak nvelsre a II. A-B. tzisekben bemutatott, az alapfrekvencia- s
energiamenet alapjn mkd HMM alap intoncis osztlyoz szhatr-detektl
rvn a beszd prozdiai szegmentlsval.
Mieltt bemutatnm az erre vonatkoz ksrleti eredmnyeimet, ismertetem a rendszer
felptst, majd az eddigiekben szhatr-detekci sorn szerzett tapasztalataimnak
megfelelen kicsit finomtom a szupraszegmentlis tartomny feldolgozst s
modellezst, illetve annak megfogalmazst. Ezt kveten mutatom be a ksrleti
beszdfelismer alkalmazst, s ismertetem a tesztels sorn kapott felismersi
eredmnyeket.
49
Beszdhang
HMM
Sztr
Beszdjel
Nyelvi modell
Szegmentlis
akusztikai
elfeldolgozs
Szegmentlis
tartomny
mintailleszts
Szupraszegment
lis akusztikai
elfeldolgozs
Prozdiai
szegmentls
Hipotzis
grfok
jraslyozsa
tvonal
kirtkels
Intoncis
kapcsoldsi
modell
Intoncis
osztlyok
Felismert
szveg
Intoncis
HMM
50
51
Jellemz intonci
Megjegyzs
me
vltoz
Mondat eleje.
fe
(emelked-)es v.
es-ereszked
fs
ereszked
mv
ereszked
Mondat vge.
fv
emelked
sil
Sznet.
(6.1)
(6.2)
52
enyhbb felttel ll meg (5.1), akkor a kvetkez zngtlen szakasz utni zngs
szakaszbl is tlagot vesznk, s csak akkor duplzzuk F0 rtkt, ha erre teljesl
az (5.2) ers felttel.
A duplzs kezelse:
Duplzs gyanjakor mindig megkveteljk az ellenrzst (nehogy pldul egy
magas F0 indts becsapjon minket), gy csak egy felttelnk van:
F 0 > Rd * Fref .
(6.3)
53
F0
F0 & energia
kinyerse
Beszdjel
Szupraszegmentlis akusztikai
elfeldolgozs
Oktvugrs
elleni
szrs
Interpolci
energia
Szrt F0 &
energia
tlagolsa
Intoncis
HMM
tants
Intoncis
osztlyokra
szegmentls
Intoncis
osztlyok
HMM-jei
54
(6.4)
ahol a <> szimblumok egy vagy tbb, a {} nulla, egy vagy tbb ismtldst jellnek.
A | szimblum kizr vagy kapcsolatot, a [] opcionlisan elmarad esemnyeket jell.
Az ily mdon formalizlva lejegyzett sorozatot tekintjk a prozdiai mondatmodellnek.
A prozdiai szegmentl mint szhatr-detektl hatkonysgt s pontossgt ismt
ellenriztem, ezttal a 6.7.2 pontban ismertetsre kerl ultrahangos leletadatbzison. Az
j intoncis osztlyok s a feldolgozs finomtsnak hatsa kismrtkben rzdik a
pontossg javulsn, amely 77,3%-rl 79,2%-ra nvekedett, a hatkonysg is javult,
57,1%-rl 58,5%-ra. Ennl jelentsebb eredmny a szhatrok idben pontosabb
elhelyezse az j osztlyokkal, a szhatr-elhelyezsek idbeli pontossgt a
t =
1
H
| ti tref |
i =1
(6.5)
szrs tpus mrtkkel definilva az j osztlyokkal s j akusztikai feldolgozssal 2,6rl 3,2-re javult. (6.5)-ben H a helyesen (100 ms-on bell) detektlt szhatrok szma, T
a keretid, ti a detektls idpontja, tref a szhatr tnyleges elhelyezkedse beszdhang
szegmentls alapjn. Az 5.2 szakaszban bemutatott osztlyokra az 5.5 akusztikai
feldolgozs alapjn ugyanis T=25,6 ms, mg a 6.3 szakasz alapjn az j osztlyokra T=10
ms, gy a szhatr-detekci tlagos idbeli pontossga kb. 67 ms-rl 32 ms-ra, teht igen
jelentsen nvekedett.
55
gyelnnk kell tovbb arra is, hogy a prozdiai informci ppen szupraszegmentlis
jellegbl addan az idpontokat tekintve kevsb pontos lokalizcit tesz lehetv,
mint az egyes beszdhangok gy akr az egyes szavak hatrainl a
beszdfelismerkben megszokhattunk. Gondoljunk pldul arra, hogy ha egy adott
intoncis egysg utols beszdhangjaknt zngtlen hangot (klnsen is, ha zngtlen
rshangot) tallunk21, a hanglejtsben szmunkra az utols biztos tmpontot a legutbbi
magnhangz jelenti. Ez mris egy beszdhanghossznyi bizonytalansgot jelent, amit a
prozdiai szegmentl a beszdhangsor ismeretnek hinyban nem tud feloldani. ppen
ezrt a prozdiai szegmentl ltal megjellt hatrokat intervallumm transzformljuk,
azaz megengednk bizonyos T csszst a prozdiai szegmentl ltal megllaptott
hatrhoz (tB) kpest. Az intervallumon bell a tnylegesen elrejelzett hatrtl val
tvolsg fggvnyben rtelmeznk egy a szhatr adott idpontban22 trtn
elhelyezkedsnek valsznsgvel arnyos pontszmot (LB) az albbiak szerint:
t) + A, ha t [t B T,t B + T ]
Acos (
,
LB (t) =
2T
0 egybknt
(6.6)
(6.7)
ahol tstart a sz grf szerinti kezd, tend a sz grf szerinti vgpontjnak felel meg (az
idben), wa s wb pedig slyok.
Ezt kveten a sz valamennyi i keretre az els s utols k darab keret kivtelvel
sszegezzk LB(ti) rtkeket, ahol ti az aktulis keretid:
N k 1
Sc punish =
i = k +1
(t i ) ,
(6.8)
A fenti kpletben N a szhoz tartoz sszes keret szma, k= T=100 ms pedig sszer
vlasztsnak knlkozik. A grf lhez tartoz j Screscored pontszm rtke pedig:
21
22
A zngtlen rshangok jellemzen igen hosszak, ezrt pp ezek okozzk a legnagyobb gondot.
Az idpont termszetesen diszkrt idtengelyen rtelmezend, hiszen a 10 ms keretidnek megfelel
idpontok adjk a diszkrt idpontok rtkkszlett.
56
Sc rescored
= w O Sc orig + w P ( Sc renum Sc
punish
),
(6.9)
ahol Scorig a grf lhez eredetileg tartoz, most fellbrlt pontszm (lsly), wO s wP
pedig slytnyezk.
6.7 Tesztels
A prozdiai szegmentl beptsvel clunk a beszdfelismers hatkonysgnak
nvelse. A 6.1 szakaszban a 6.1 brn ismertettk a bepts mdjt, az elzekben (6.6
szakasz) pedig ttekintettk azokat az algoritmikus vltoztatsokat, amelyeket a
beszdfelismers folyamatban szksges eszkzlnnk.
6.7.2 Teszteredmnyek
A ksrleti rendszerrel hasi s kismedencei ultrahangos leletek felismerst vizsgltam
sszesen 20 darab leletre. (Egy lelet nagysgrendileg kb. 10-20 mondatot tartalmaz.) A
felismerst azonos krlmnyek kztt azonos (rgztett majd visszajtszott) leletekre
elszr az alaprendszerrel, majd a prozdiai szegmentlval kibvtett rendszerrel
vgeztem el. Az eredmnyeket a 6.2 tblzatban mutatom be 6 darab, a teljes tesztanyag
tekintetben reprezentatvan kivlasztott leletre. A tblzatban megjelentett mrszmok
a helyesen felismert szavak arnya, illetve a sztvesztsi arny relatv javulsa,
57
Kibvtett rsz.
78,9
80,6
84,6
72,2
66,7
90,5
78,89
A sztvesztsi arny
vltozsa (relatv) [%]
10,9
3,6
0,0
2,0
-2,4
8,1
3,82
58
A 6.3 bra egy a beszdfelismer ltal felismert mondatot jelent meg, a prozdiai
szegmentl kimenetvel prhuzamosan brzolva.
6.3 bra. A beszdfelismers s a prozdiai szegmentls kimenete az I-es rgi [klinika], hasi s
kismedencei UH vizsglat mondatra orvosdiagnosztikai ASR alkalmazsban. A svokban rendre
az idfggvny, a spektrogram, az interpollt alapfrekvencia, az tlagolt energia,, majd a
prozdiai szegmentls (prozdiai szegmentl) kimenete, vgl a felismert szveg lthat
bejellt szhatrokkal.
59
7. A modalits felismerse
A modalits felismerse elssorban szemantikai szint feladat, s legalbb egy, de gyakrabban
tbb mondatbl ll beszdszegmensre vgezhet el. Mivel a modalits mondat szinten
rtelmezett, ezrt a modalits felismersnek szintaktikai vonatkozsai is vannak, ez pedig a
robusztus mondathatr-, st tagmondathatr-detekci. A tagmondatokat alapveten gy
rtelmezzk, mint az rsban vesszvel jellend mondatbeli hatrokat, mg a mondatok az
rsban mondatzr rsjellel lezrand nyelvi egysgek. A modalits felismerst termszetesen
szupraszegmentlis jellemzkre alapozva fogom elvgezni, a mondatszint intonciban dnt
alapfrekvencia alapjn, de az energia menett is fel fogom hasznlni. A modalitsfelismers
beszdfelismersbeli gyakorlati hasznt a 3.4, illetve a 3.4.1 szakaszokban ismertettem, ezrt erre
most nem trek ki. A fejezetben trgyaland s bizonytand alaptzisem:
Tzis IV. A. [J2, C6] A szhatr-detektlsra kidolgozott folytonos HMM alap algoritmus a
megfelel mdostsokkal alkalmas a tagmondathatrok detektlsra, s a mondat
modalitsnak meghatrozsra.
Ehhez kapcsoldan megmutatom, hogy az alapfrekvencia- s energiajel feldolgozst nagyobb
idablakokkal kell vgezni, mint a hangslydetekci esetn, illetve hogy az gy kidolgozott
magyar nyelv rendszer kzvetlenl alkalmazhat a nmet nyelvre is (lsd IV. B tzis). Mivel a
modalits az egyes nyelvekre univerzlisabb tulajdonsg a hangslyozsnl, ezrt a mdszert ms
nyelvekre jval ltalnosabban lehet alkalmazni, mint a hangslydetekcit, amely esetn a kttt
hangsly nyelvekre szortkoztunk.
24
25
Ne feledjk, hogy a modalits egyrtelmen a mondat egysgre tekintett intonci alapjn klnthet el.
Termszetesen itt is rdemes lehet a kimenetet hasznlni szintaktikai-szemantikai mondatelemzs
megvalstsra, ezt a krdst azonban dolgozatomban mr csak terjedelmi okokbl sem trgyalom.
60
Tagmondat
intoncis
HMM-ek
F0 & energia
kinyerse
Szupraszegmentlis akusztikai
elfeldolgozs
Szupraszegmentlis
jellemzvektorok
Tagmondat s
mondathatrok,
modalits s
rsjelek
Tagmondat
osztlyok
illesztse
Beszdjel
Tagmondatok
kapcsoldsi
modelljei
61
sszes elforduls
(darab)
445
287
Kiegsztend krds
40
Kiegsztend krds
tagmondata
KT
13
35
FF
52
FFT
24
hajt mondat
Felsorols
41
Semleges
125
U
10 osztly +
sznet
Modalits
Kijelent mondat, zr
tagmondata
Kijelent tagmondat,
(nem zr tagmondat)
Eldntend krds
Felszlt s felkilt
mondatok
Felszlt s felkilt
mondatok tagmondata
Csend (sznet)
sszesen:
1029
62
28
63
Corr =
H
100% ,
N
(7.2)
H I
100% ,
N
(7.3)
64
HMM
llapotok
szma
5
11
15
19
10
20
26
30
36
40
50
49,8
66,2
60,0
-
59,2
68,7
68,2
-
61,4
69,0
67,7
67,9
60,9
70,1
67,5
65,3
60,2
69,7
68,7
66,3
59,5
68,4
68,2
64,6
59,5
70,6
65,8
64,6
60,0
66,3
67,7
61,2
A 7.2 tblzatbl lthat, hogy az llapotok szma ismt 11-re ad optimlis eredmnyt,
de igazn kritikus csak az, hogy a Markov lncok elegenden hosszak legyenek ahhoz,
hogy az intonci tagmondat lptk vltozsainak jellegzetessgeit jl modellezzk. A
7.2 tblzat eredmnyei logPins=-80 tagmondat-beszrs logaritmikus valsznsgre
vonatkoznak. Vrakozsainkkal ellenttben az idablak nem vltoztatja tendencizusan
az eredmnyeket 100 s 400 ms kztt. A legjobb tlagos modalitsfelismers 70,6 %
volt. A tagmondattpusokra lebontott felismersi rta a 11-es llapotszm s a 40 keretnyi
tlagos intervallum mellett a 7.3 tblzatban lthat. Az utols oszlopban a
tagmondatosztlyra normlt felismersi arny lthat szzalkosan. A 7.3 tblzatbl
lthat, hogy mind az eldntend, mind a kiegsztend krdsek felismerse
problmsnak addott (33,3-33,3%), ennl jobb eredmnyeket kaptunk a kzsen kezelt
felkilt s felszlt mondatokra (50,0%). Igazn j eredmnyeket a tagmondatok
(modalitsfggetlenl egysgesen kezelt, nem zr tagmondatok) felismersre (83,3%),
s a kijelent mondatok felismersre (74,8%) kaptunk. Megnyugtat a biztos
sznetdetektls (96,0%). A semleges intoncij tagmondatok felismersi arnya
kzmbs.
65
Tagmondatosztly
Kijelent mondat zr tagmondata
ltalnos, nem mondatzr tagmondat
Kiegsztend krds
Eldntend krds
Felszlts s felkilts
Semleges intoncij tagmondat
Sznet
Helyes
Corr [%]
74,8
83,3
33,3
33,3
50,0
26,7
96,0
Az eredmnyek rtkelse kapcsn hozz kell tennnk, hogy mind a BABEL, mind az
MRBA beszdadatbzis felolvasott szveget tartalmaz. Emiatt a beszlk sokszor nem a
modalitsnak megfelel hanglejtst hasznltk, ltalnosan jellemz, hogy mind a krd-,
mind a felszlt mondatok modalitsa a kijelent mondathoz konvergl.
A 7.3 bra a helyessg (correctness) s a pontossg (accuracy) mrszm kettst mutatja
a tagmondatbeszrs valsznsgnek fggvnyben. Utbbi a beszdfelismersben
elterjedten alkalmazott szbeszrsi valsznsg megfelelje.
100
Eredmnyessg szzalkban
90
80
70
60
50
40
30
20
10
log P ins:
-50
-10
10
50
100
Corr. % 51,81 62,89 65,78 69,4 72,77 74,22 74,22 74,46 77,11 80,72
Acc. % 46,99 50,6 50,6 50,6 46,99 42,65 40,72 40,24 31,81 1,45
66
helyes felismerse is elri az 50%-ot annak ellenre, hogy betantsra, ill. tesztelsre
sszesen csak 38+14 mondatunk volt.
Ez az adatbzis egyelre nem nyilvnos, illetve mg bvts, feldolgozs alatt ll, gy rsos hivatkozst
egyelre nem tudok megadni hozz.
67
sszes elforduls
(darab)
Kijelent mondat zr
Ereszked
tagmondata
(Ereszked, majd) lebeg /
Nem zr tagmondat
emelked
Es-ereszked
Kiegsztend krds
(vgn esetleg szk)
6393
1289
2733
Eldntend krds
Emelked-es
4221
Felszlt s felkilt
mondatok
FF
2810
Vlaszt tpus
mondat
Emelked, szk
608
6 osztly
(sznet nlkl)
18054
Modalits
Jellemz hanglejts
sszesen:
68
Tagmondat
cmke
S
T
K
E
FF
V
U
Helyes
Corr [%]
67
64
65
65
56
71
94
Jells
sszes elforduls
(darab)
404
336
89
FF
63
4 osztly
(sznet nlkl)
892
Jellemz hanglejts
Kijelent mondat zr
Ereszked
tagmondata
(Ereszked, majd) lebeg /
Nem zr tagmondat
emelked
Emelked-es, mondat vgn
Krds
szk
Felszlt s felkilt Szk, majd megtartott /
mondatok
ereszked
sszesen:
Lthat, hogy nmet nyelvre csak 4 alapvet osztlyt klnbztettnk meg a ngy
alapvet rsjelnek (,.!?) megfelelen. A kiegsztend s eldntend krdsek kztt
ugyanis a Kiel Corpus elemzsekor nem talltam meggyznek az intoncibeli
klnbsget, st, a kt krdstpus meglepen hasonl intoncival realizldott a
legtbb esetben. A vlaszt tpus tagmondatot adat hinyban nem szerepeltettk. Az
sszesen 4 kategria (osztly) hasznlata a Kiel Corpus szmunkra hozzfrhet rsznek
kis mrete miatt is elnys vlaszts.
gy a felismershez hasznlt nyelvtan (TGGER):
TGGER = [U] < ( [T] S | [T] E | [T] FF ) [U] > [U]
(7.4)
69
Tagmondat
cmke
S
T
K
FF
U
Helyes
Corr [%]
67,5
61,3
83,3
63,6
100,0
70
71
72
bemutatott tziseimet.
(8.1)
A hatkonysg (Eff):
Eff =
(8.2)
73
Tzis II. A. [J1, C2, J3, B1] A kttt hangslyozs magyar nyelvben elklnthetk
olyan intoncis jelleg diszjunkt osztlyok, amelyek ppen a szhatrokon kapcsoldnak
egymshoz, s amelyek lptkk tekintetben a mikrointoncis s a mondatszint
intonci tartomnya kztt helyezkednek el, egyfajta szkapcsolati szint intoncis
szerkezetet ltrehozva. Az gy definilt intoncis osztlyok rejtett Markov modellekkel
felismerhetk.
Ez a tzis lnyegben azt lltja, hogy a hangslyozsi mintzat s a dallammenetek ltal
megadott prozdiai struktra elemei diszjunkt osztlyokba sorolhatk gy, hogy a
szhatrok detektlhatk a hangslyozsi minta s a dallammenetek egyttes
modellezst megvalst intoncis osztlyok alakfelismersvel, rejtett Markov modell
alap osztlyozsi eljrsban.
A tzist ksrletileg igazoltam. A kezdeti rendszer optimalizlsval elll vgleges
intonciosztlyoz rendszerben az intoncis osztlyok elklntsnek alapja a
szkapcsolati szint intonci egy ltalam bevezetett alapsmja. Az els sztagon kttt
hangsly esetben az intoncis osztlyok alapsmja a hangsly jelentette prominencia,
majd az azt kvet lass ereszkeds a kvetkez hangslyos szakaszig. A fentiek
kijelent mondatra rtendek azzal a megktssel, hogy a beszl rzelmei, illetve egyb
szitucis tnyez, funkci a szupraszegmentlis jellemzket tlzottan nem
befolysoljk. A mondatbeli elhelyezkedstl s a hangslyossg mrtktl fggen
magyar nyelvre sszesen 6 ilyen intoncis osztlyt klntettem el: mondatindt (me),
ersen hangslyos (fe), gyengn hangslyos (fs), frzisvgi folytatst jelz (fv),
mondatzr (mv) s semleges (s). A hetedik modellezend osztlyt a sznet (sil) adja.
A szupraszegmentlis tartomnyban mkd osztlyozt a statisztikai beszdfelismersre
kidolgozott eljrs alapjn valstottam meg, gy annak elmleti alapjai a kvetkezk:
A felismersi feladat megfogalmazsa:
P( I | X s ) =
P( X s | I ) P( I )
P( X s | I ) P( I ) ,
P( X s )
(8.3)
P( X s | I ) = P( X s | M s , I ) P( M s | I ) .
(8.4)
Ms
74
Tzis II. B. [J3, B2, C5] Az intoncis osztlyok alapjn szhatr-detekcit vgz
rendszerbl prozdiai szegmentl kszthet, amely a bemenetre rkez beszdet
szupraszegmentlis jellemzk alapjn szkapcsolati szinten tagolja.
A tzis egyenesen kvetkezik a II. A tzisbl. Ha ugyanis a II. A tzis kapcsn definilt
intoncis osztlyok rejtett Markov modellekkel felismerhetk, akkor az intoncis
osztlyok felismerse sorn a prozdiai nyelvtan alapjn generlt prozdiai hipotzis
grfban visszakereshet a vgl maximlis slynak addott tvonal ltal fedett rejtett
llapotsorozat, az llapotok idbeli elhelyezkedst is belertve. Innen egyenes t vezet a
prozdiai szegmentl megalkotsig. A II. A tzis igazolsakor ppen ezrt hasznltam
a szhatr-detekcira kidolgozott (8.1) s (8.2) formulkat.
Tzis II. C. [J1, C2, C3, C4, B1] A magyar nyelvre, az intoncis osztlyok
behatrolsra kidolgozott mdszer ms kttt hangsly nyelvekre is kzvetlenl
alkalmazhat szhatr-detekci cljbl.
A tzist a magyar nyelv intoncis osztlyoz (amely teht szhatr-detektl s
prozdiai szegmentl is egyben) finn nyelvre trtn adaptlsval igazoltam. Ennek
sorn finn nyelv beszdadatbzisra elvgeztem ugyanazokat a beszdanyag-elksztsi,
prozdiai szegmentlsi, HMM-betantsi feladatokat, amelyeket a korbban a magyar
nyelv rendszerre. A (8.1) s a (8.2) sszefggsekkel definilt (pontossg s
hatkonysg) eredmnyessgi jellemzk finn nyelv rendszerrel 69,2%, illetve 76,8%. Ez
a magyar nyelv eredmnyekkel sszevetve alacsonyabb pontossgot, ugyanakkor jval
nagyobb hatkonysgot jelent.
Vizsgltam a ktnyelv szhatr-detektl rendszer teljestmnyt is. A mindkt nyelv
adatbzissal prhuzamosan betantott intoncis osztlyoz pontossga ugyan nem javul
az egynyelv esetekhez kpest magyarra 75%, finnre 69% , ugyanakkor a hatkonysg
jelentsen nagyobb az egynyelv esethez kpest, magyarnl 57% helyett 68%, finn
esetben 76% helyett 83%, ami magyar nyelv esetn 19%-nak, finn nyelv esetn 9%-nak
megfelel, teht igen jelents hatkonysgbeli javulst jelent.
Tzis III. [J3, C5, B2] Lehetsg van a beszdfelismersben a helyesen felismert szavak
arnynak nvelsre a II. A-B. tzisekben bemutatott, az alapfrekvencia- s
energiamenet alapjn mkd HMM alap intoncis osztlyoz szhatr-detektl
rvn a beszd prozdiai szegmentlsval.
Az llts bizonytshoz az elkszlt prozdiai szegmentlt beszdfelismerbe
ptettem, s ktmenetes beszdfelismersben a hipotzis grfok jraslyozsval [53]
vettem figyelembe a prozdiai szegmentlst.
A szhatrok idpontbeli helyzett (tB) intervallumokba transzformltam az
t) + C, ha t [t B T,t B + T ] ,
Acos (
LB (t) =
2T
0 egybknt
75
(8.5)
sszefggs alapjn [8]. Itt T az intervallum hosszt befolysol paramter, rtke 100
ms volt. LB(t) a szhatr adott idpontban trtn elhelyezkedsnek valsznsgvel
arnyos pontszmot ad meg.
A beszdfelismers sorn elll hipotzis grfban azoknak a szavaknak s szlncoknak
megfelel utak slyt, amelyek esetn a szavak hatrai idben egybecsengenek a
prozdiai szegmentls ltal jelzett hatrokkal, megnveltem (8.6), hasonlkpp, azokban
az esetekben, amikor a prozdiai szegmentl ltal megadott hatrok szavak belsejbe
esnek, az eredetileg hozzrendelt slyokat cskkentettem (8.7).
Sc renum = w a L B ( t start ) + w b L B ( t end ) ,
(8.6)
ahol tstart a sz grf szerinti kezd, tend a sz grf szerinti vgpontjnak felel meg (az
idben), wa s wb pedig slyok.
N k 1
Sc punish =
(t i ) ,
(8.7)
i = k +1
= w O Sc orig + w P ( Sc renum Sc
punish
).
(8.8)
76
H
100% ,
N
(8.9)
H I
100% ,
N
(8.10)
77
Irodalomjegyzk
[1] Ainsworth, W.: Mechanisms of Speech Recognition. Pergamon Press, Oxford, 1976.
[2] Batliner, A.; Kieling, A.; Burger, S.; Nth, E.: Filled pauses in spontaneous speech. In Proc.
13th International Congress on Phonetic Sciences, Stockholm, 1995, Vol. 3, pp. 472-475.
[3] Baumann, S.; Grice, M.; Benzmller, R.: GToBI-a phonological system for the transcription
of German intonation. In: Proceedings Prosody 2000, Speech Recognition and Synthesis
Workshop, Cracow, pp. 21-28. 2000.
[4] Bechetti, C., Prina-Ricotti L.: Speech Reognition. Theory and C++ Implementation.
Fondazione Ugo-Bordoni, Rome, Italy. 1999.
[5] Collins, M.; Roark, B; Saraclar, M.: Discriminative Syntactic Language Modeling for Speech
Recognition. Proceedings of the 43rd Annual Meeting on Association for Computational
Linguistics. Ann Arbor, Michigan, USA. pp 507-14. 2005.
[6] . Kiss Katalin: Mondattan. In: Magyar nyelv (szerk: Kiefer Ferenc), Akadmiai Kiad, 2006,
pp. 110-148.
[7] Fujisaki, H. and Ohno, S.: The Use of a Generative Model of F0 Contours for Multilingual
Speech Synthesis. Fourth International Conference on Signal Processing, Vol. 1, pp. 714717,
1998.
[8] Gallwitz, F., Niemann, H., Nth, E., Warnke, W.: Integrated recognition of words and
prosodic phrase boundaries. Speech Communication, 36(2002): 81-95.
[9] Gordos Gza, Takcs Gyrgy: Digitlis beszdfeldolgozs. Mszaki Knyvkiad, Budapest,
1983.
[10] Gsy Mria: Fonetika, a beszd tudomnya. Osiris, Budapest, 2004. pp.182-243.
[11] Hess, W.; Batliner, A.; Kiessling, A.; Kompe, R.; Nth, E.; Petzold, A.; Reyelt, M.; Strom,
V.: Prosodic Modules for Speech Recognition and Understanding in VERBMOBIL. In:
Sagisaka, Y.; Campbell, N.; Higuchi, N. (Eds.) Computing PROSODY - Computational
Models for Processing Spontaneous speech New York, Berlin: Springer, 1996, 361-382.
[12] Hirose, K.; Minematsu, N.; Hashimoto, Y.; Iwano, K.: Continuous Speech Recognition of
Japanese Using Prosodic Word Boundaries Detected by Mora Transition Modeling of
Fundamental Frequency Contours, Proceedings of ISCA Tutorial and Research Workshop on
Prosody in Speech Recognition and Understanding, Red Bank, NJ, USA, pp.61-66. 2001.
[13] Hunyadi Lszl: Hungarian Sentence Prosody and Universal Grammar. Peter Lang, 2002.
[14] Iwano, Koji: Prosodic Word Boundary Detection Using Mora Transition Modeling of
Fundamental Frequency Contours - Speaker Independent Experiments. Proc. 6th European
Conference on Speech Communication and Technology (Eurospeech 99), Budapest, Hungary,
vol.1, pp.231-234. 1999.
[15] Jelinek, Frederick: Statistical Methods of Speech Recognition. MIT-Press, USA, 1998.
[20] Kahn, J. G., Lease, M, Charniak, E., Johnson, M. and Ostendorf, M.: Effective use of prosody
78
79
80
81
Publikciim
[J] Folyiratok (Journals)
[J1] Vicsi, K., Szaszk, Gy.: Automatic Segmentation of Continuous Speech on Word
Level Based on Supra-segmental Features. International Journal of Speech Technology,
Vol. 8, Num. 4, pp. 363-70. (2005)
[J2] Vicsi K., Szaszk Gy., Nmeth Zs: Folyamatos magyar beszd mondatfajtinak
automatikus felismerse. Beszdkutats 15. szm: pp. 162-172. (2007)
[J3] Szaszk, Gy., Vicsi, K.: Using prosody for the improvement of automatic speech
recognition. Infocommunications Journal (English issue of Hradstechnika). Vol. LXIII.
Num 7. pp. 35-40. (2008)
[J4] Szaszk Gyrgy: Ejtsvarici modellezs a beszdfelismersben. Akusztikai szemle
VI:(1) pp. 3-12. (2005)
[J5] Vicsi K., Velkei Sz., Szaszk Gy., Borostyn G., Gordos G.: Development
experiences of a Hungarian speaker independent continuous speech recognizer.
Hradstechnika Info-Communications Technology LXI:(7) pp. 22-27. (2006)
[J6] Szaszk Gy., Vicsi K.: A magyar nyelv kiejtsvaricii s felhasznlsuk a
beszdfelismersben I. Beszdkutats 10. szm: pp. 216-234. (2002)
[J7] Vicsi K., Szaszk Gy.: A magyar nyelv kiejtsvaricii s felhasznlsuk a
beszdfelismersben II. Beszdkutats 11. szm: pp. 163-176. (2003)
82
[C2] Vicsi K., Szaszk Gy.: Automatic Segmentation of continuous speech on word and
phrase level based on supra-segmental features. Forum Acousticum. Budapest,
Magyarorszg, 2005. mjus, pp. 2669-73.
[C3] Szaszk Gy., Vicsi K.: Folyamatos beszd sz- s frzisszint automatikus
szegmentlsa szupraszegmentlis jegyek alapjn: II. rsz: Statisztikai eljrs, finnmagyar nyelv sszehasonlt vizsglat. III. Magyar Szmtgpes Nyelvszeti
Konferencia. Szeged, Magyarorszg 2005. december. pp. 360-370.
[C4] Vicsi K., Szaszk Gy.: Prosodic Cues for Automatic Phrase Boudary Detection in
ASR. Text, Speech and Dialogue: 9th International Conference on Text, Speech and
Dialogue TSD 2006. Brno, Csehorszg 2006. szeptember. pp. 547-554.
[C5] Szaszk Gy., Vicsi K.: Speech recognition supported by prosodic information for
fixed stress languages. Text, Speech and Dialogue: 10th International Conference
Proceedings, TSD 2007. Plzen, Csehorszg 2007. szeptember. Springer, 2007. pp. 262269.
[C6] Vicsi, K.; Szaszk Gy.; Nmeth Zs.: Prozdiai informci hasznlata az automatikus
beszdfelismersben; mondat modalits felismerse,, V. Magyar Szmtgpes
Nyelvszeti Konferencia, Szeged, 2007. december. pp. 69-80.
[C7] Vicsi, K.; Szaszk, Gy.: Using Prosody for the Imporvement of ASR - Sentence
Modality Recognition, Interspeech 2008, Brisbane, Australia, 2008. szeptember.
[C8] Szaszk Gy., Vicsi K.: Examination of Pronunciation Variation from Hand-Labelled
Corpora. Text, Speech and Dialogue: 7th International Conference Proceedings, TSD
2004. Brno, Csehorszg 2004. szeptember. Springer, 2004. pp. 473-480.
[C9] Vicsi K., Kocsor A., Tth Sz. L., Szaszk Gy., Teleki Cs., Bnhalmi A., Paczolay
D.: A magyar referencia adatbzis s alkalmazsa orvosi diktl rendszerek
kifejlesztshez. III. Szmtgpes Nyelvszeti Konferencia. Szeged, Magyarorszg 2005.
december. pp. 435-438.
[C10] Vicsi K., Velkei Sz., Szaszk Gy., Borostyn G., Teleki Cs., Tth Sz. L.:
Kzpsztras, folyamatos beszdfelismer rendszer fejlesztsi tapasztalatai: III. Magyar
Szmtgpes Nyelvszeti Konferencia. Szeged, Magyarorszg 2005. december. pp. 348359.
83