You are on page 1of 186

§¹i häc quèc gia hµ néi

tr−êng ®¹i häc khoa häc tù nhiªn

Khoa to¸n-c¬-tin häc


----------------------

§Æng Ngäc §øc

M¹ng n¬ ron vµ m« h×nh markov Èn trong


nhËn d¹ng tiÕng viÖt

Chuyªn ngµnh: §¶m b¶o to¸n häc cho m¸y tÝnh vµ hÖ thèng tÝnh to¸n
M· sè: 01 01 10

dù th¶o LuËn ¸n tiÕn sÜ to¸n – Tin häc

ng−êi h−íng dÉn khoa häc:


1. TS. L−¬ng Chi Mai
2. GS. TSKH. NguyÔn Duy TiÕn

Hµ néi - 2003
2

môc lôc

Lêi nãi ®Çu.............................................................................................................9

b¶ng kª c¸c tõ viÕt t¾t................................................................................13

b¶ng kª c¸c thuËt ng÷ ANh ViÖt.............................................................14

pHÇN a: Lý thuyÕt vÒ nhËn d¹ng tiÕng nãI........................................16

Ch−¬ng 1 tæng quan vÒ nhËn d¹ng tiÕng nãi.................................. 16


1.1 Giíi thiÖu ..................................................................................................................................16

1.2 Nguyªn t¾c cña hÖ thèng nhËn d¹ng tiÕng nãi .....................................................................18

1.2.1 Ph©n tÝch c¸c ®Æc tÝnh tiÕng nãi ............................................................... 21


1.2.2 Ph©n líp mÉu............................................................................................ 22
1.2.3 M« h×nh ng«n ng÷ .................................................................................... 23
1.3 C¸c øng dông cña nhËn d¹ng tiÕng nãi ................................................................................24

1.3.1 NhËn d¹ng tiÕng nãi vµ viÔn th«ng........................................................... 24


1.3.2 HÖ thèng ®äc chÝnh t¶ b»ng giäng nãi ..................................................... 25
1.3.3 NhËn d¹ng tiÕng nãi trong c¸c s¶n phÈm tiªu dïng ................................. 26
1.4 Nghiªn cøu hiÖn thêi vÒ nhËn d¹ng tiÕng nãi.......................................................................26

1.4.1 C¸c yÕu tè ¶nh h−ëng ®Õn kh¶ n¨ng nhËn d¹ng cña m¸y tÝnh ................. 26
1.4.2 C¸c nghiªn cøu vÒ nhËn d¹ng tiÕng nãi ng«n ng÷ n−íc ngoµi................. 27
1.4.3 C¸c nghiªn cøu vÒ nhËn d¹ng tiÕng nãi tiÕng ViÖt................................... 29

Ch−¬ng 2 m« h×nh Markov Èn................................................................... 33


2.1 Qu¸ tr×nh Markov ...................................................................................................................33

2.2 M« h×nh Markov Èn ................................................................................................................35

2.3 Ba bµi to¸n c¬ b¶n cña m« h×nh Markov Èn ........................................................................38

2.4 C¸c gi¶i ph¸p to¸n häc cho ba bµi to¸n c¬ b¶n ...................................................................39
3

2.4.1 Bµi to¸n 1.................................................................................................. 39


2.4.2 Bµi to¸n 2.................................................................................................. 42
2.4.3 Bµi to¸n 3.................................................................................................. 43
2.4.4 Chøng minh c«ng thøc Baum-Welch. ...................................................... 46
2.4.4.1 Bæ ®Ò ................................................................................................ 46
2.4.4.2 Chøng minh c«ng thøc Baum-Welch............................................... 47
2.5 C¸c lo¹i m« h×nh Markov Èn .................................................................................................49

2.5.1 M« h×nh HMM rêi r¹c.............................................................................. 49


2.5.2 M« h×nh HMM liªn tôc ............................................................................ 50
2.5.3 M« h×nh HMM b¸n liªn tôc ..................................................................... 50
2.6 Giíi h¹n cña m« h×nh Markov Èn .........................................................................................51

Ch−¬ng 3 x©y dùng hÖ thèng nhËn d¹ng b»ng HMM ................... 52


3.1 Giíi thiÖu vÒ HTK ...................................................................................................................52

3.2 HuÊn luyÖn hÖ thèng nhËn d¹ng ...........................................................................................53

3.2.1 ChuÈn bÞ d÷ liÖu ....................................................................................... 53


3.2.1.1 §Þnh nghÜa ng÷ ph¸p........................................................................ 53
3.2.1.2 §Þnh nghÜa tõ ®iÓn ........................................................................... 53
3.2.1.3 C¬ së d÷ liÖu .................................................................................... 54
3.2.1.4 TrÝch chän c¸c ®Æc ®iÓm.................................................................. 54
3.2.2 Khai b¸o cÊu tróc m« h×nh Markov.......................................................... 55
3.2.3 Khëi t¹o c¸c tham sè................................................................................ 57
3.2.3.1 Dïng c«ng cô Hinit ......................................................................... 57
3.2.3.2 Dïng c«ng cô Hcompv .................................................................... 60
3.2.4 HuÊn luyÖn c¸c ®¬n vÞ nhËn d¹ng ®¬n ..................................................... 61
3.2.4.1 HuÊn luyÖn nhóng b»ng Herest. ...................................................... 62
4

3.2.4.2 G¸n nh·n c−ìng bøc d÷ liÖu huÊn luyÖn ......................................... 67


3.2.5 HuÊn luyÖn c¸c ©m ba .............................................................................. 68
3.2.5.1 T¹o c¸c ©m ba tõ c¸c ©m ®¬n........................................................... 68
3.2.6 Buéc c¸c ©m ba ........................................................................................ 70
3.2.6.1 L¸i d÷ liÖu........................................................................................ 71
3.2.6.2 Ph©n nhãm b»ng c©y........................................................................ 72
3.3 NhËn d¹ng ................................................................................................................................74

3.3.1 X©y dùng m¹ng tõ nhËn d¹ng .................................................................. 74


3.3.2 M« h×nh ng«n ng÷ bigram........................................................................ 75
3.3.3 Sö dông m¹ng tõ trong hÖ thèng nhËn d¹ng............................................. 76
3.3.4 Gi¶i m· ..................................................................................................... 77

Ch−¬ng 4 x©y dùng hÖ thèng nhËn d¹ng b»ng HMM/ANN........ 80


4.1 M¹ng neuron............................................................................................................................80

4.1.1 M¹ng Perceptron tuyÕn tÝnh ®¬n SLP ...................................................... 80


4.1.2 M¹ng Perceptron ®a líp MLP .................................................................. 84
4.2 M¹ng lai ghÐp HMM/ANN.....................................................................................................89

4.2.1 CÊu tróc m¹ng lai ghÐp ............................................................................ 90


4.2.2 HuÊn luyÖn m¹ng HMM/ANN ................................................................ 90
4.3 Bé c«ng cô CSLU ....................................................................................................................92

4.3.1 Giíi thiÖu bé c«ng cô CSLU .................................................................... 92


4.3.2 Giíi thiÖu ph−¬ng ph¸p nhËn d¹ng .......................................................... 93
4.3.2.1 §Þnh nghÜa c¸c category .................................................................. 94
4.3.3 C¬ së d÷ liÖu............................................................................................. 97
4.3.3.1 C¸c tÖp d÷ liÖu ................................................................................. 97
4.3.3.2 G¸n nh·n b»ng tay ........................................................................... 98
5

4.3.4 HuÊn luyÖn vµ nhËn d¹ng b»ng m¹ng ANN............................................. 99


4.3.4.1 HuÊn luyÖn b»ng c¸c nh·n g¸n b»ng tay ......................................... 99
4.3.4.2 T×m iteration tèt nhÊt cña m¹ng ANN .......................................... 101
4.3.4.3 HuÊn luyÖn b»ng c¸c nh·n sinh bëi g¸n nh·n c−ìng bøc.............. 103
4.3.4.4 NhËn d¹ng b»ng m¹ng ANN ......................................................... 105
4.3.5 X©y dùng m¹ng lai ghÐp HMM/ANN................................................... 105

Ch−¬ng 5 c¬ së d÷ liÖu vµ g¸n nh·n tiÕng viÖt ........................... 107


5.1 Giíi thiÖu ................................................................................................................................108

5.2 Ng«n ng÷ tiÕng VIÖt ..............................................................................................................109

5.2.1 §Æc ®iÓm ©m tiÕt tiÕng ViÖt ................................................................... 109


5.2.1.1 TÝnh ®éc lËp cao............................................................................. 109
5.2.1.2 Cã kh¶ n¨ng biÓu hiÖn ý nghÜa ...................................................... 110
5.2.1.3 Cã cÊu tróc chÆt chÏ....................................................................... 110
5.2.2 ¢m vÞ tiÕng ViÖt..................................................................................... 111
5.2.2.1 Thanh ®iÖu ..................................................................................... 111
5.2.2.2 ¢m ®Çu .......................................................................................... 112
5.2.2.3 ¢m ®Öm ......................................................................................... 113
5.2.2.4 ¢m chÝnh ....................................................................................... 113
5.2.2.5 ¢m cuèi ......................................................................................... 114
5.2.3 Sù ph©n bè cña c¸c ©m vÞ tiÕng ViÖt ...................................................... 115
5.3 B¶ng ký tù phiªn ©m .............................................................................................................115

5.4 G¸n nh·n b»ng tay ................................................................................................................116

5.4.1 Giíi thiÖu................................................................................................ 116


5.4.2 C¸c nguyªn t¾c chung vÒ g¸n nh·n b»ng tay ......................................... 118
5.4.3 C¸c ©m t¾c .............................................................................................. 119
6

5.4.4 ¢m ®ãng................................................................................................. 119


5.4.5 ¢m x¸t.................................................................................................... 120
5.4.6 ¢m mòi .................................................................................................. 121
5.4.7 Nguyªn ©m ®¬n, nguyªn ©m ®«i vµ b¸n nguyªn ©m .............................. 121
5.4.8 Phô ©m cuèi............................................................................................ 122
5.4.9 ¢m t¾c thanh hÇu ................................................................................... 123
5.4.10 ¢m ®Öm................................................................................................ 124
5.5 G¸n nh·n tù ®éng..................................................................................................................124

5.5.1 Giíi thiÖu................................................................................................ 124


5.5.2 G¸n nh·n tù ®éng c¬ së d÷ liÖu.............................................................. 126
5.5.3 KÕt qu¶ thö nghiÖm ................................................................................ 126
5.5.4 N©ng cao ®é chÝnh x¸c g¸n nh·n tù ®éng .............................................. 127
5.5.5 KÕt luËn .................................................................................................. 128

Ch−¬ng 6 hÖ thèng nhËn d¹ng ch÷ sè tiÕng ViÖt liªn tôc ... 130
6.1 X©y dùng hÖ thèng nhËn d¹ng m−êi ch÷ sè tiÕng ViÖt liªn tôc b»ng ANN....................130

6.1.1 C¬ së d÷ liÖu........................................................................................... 130


6.1.2 Ph−¬ng ph¸p nhËn d¹ng ......................................................................... 131
6.1.3 KÕt qu¶ nhËn d¹ng.................................................................................. 132
6.2 N©ng cao ®é chÝnh x¸c nhËn d¹ng.......................................................................................132

6.2.1 Vai trß cña ©m ®ãng trong phiªn ©m c¸c ch÷ sè .................................... 133
6.2.2 Sè l−îng category cho mçi nguyªn ©m .................................................. 134
6.2.3 Giíi h¹n vÒ ®é dµi .................................................................................. 135
6.2.4 Ph−¬ng ph¸p trÝch trän ®Æc ®Ýnh phæ cña tiÕng nãi................................ 136
6.3 X©y dùng hÖ thèng nhËn d¹ng m−êi ch÷ sè tiÕng ViÖt dïng m¹ng HMM/ANN...........137
7

Ch−¬ng 7 hÖ thèng nhËn d¹ng liªn tôc tiÕng ViÖt kh«ng


thanh ®iÖu kÝch th−íc trung b×nh....................................................... 139
7.1 C¬ së d÷ liÖu...........................................................................................................................139

7.2 C¸c b−íc tiÕn hµnh x©y dùng hÖ thèng nhËn d¹ng ...........................................................141

7.2.1 Tõ ®iÓn phiªn ©m.................................................................................... 141


7.2.2 Khëi t¹o c¸c tham sè cña m« h×nh Markov Èn....................................... 142
7.2.3 G¸n nh·n c−ìng bøc c¸c tÖp huÊn luyÖn................................................ 144
7.2.4 Buéc c¸c ©m ba ...................................................................................... 145
7.2.5 NhËn d¹ng d÷ liÖu kiÓm tra. ................................................................... 146
7.2.6 Sö dông m« h×nh ng«n ng÷ bigram vµo trong hÖ thèng nhËn d¹ng ....... 147
7.3 T¨ng c−êng ®é chÝnh x¸c nhËn d¹ng ..................................................................................147

7.3.1 X©y dùng hÖ thèng víi nhiÒu hµm Gaussian.......................................... 148


7.3.2 Bæ sung thªm ©m vÞ sil ........................................................................... 148
7.3.3 Vai trß cña ©m ®ãng ............................................................................... 149
7.3.4 Phô ©m cuèi lµ ©m mòi........................................................................... 151
7.3.5 Thö nghiÖm tiÕng ®Þa ph−¬ng thæ ng÷ ................................................... 151
7.4 C¸c thö nghiÖm kh¸c lµm t¨ng ®é chÝnh x¸c cña hÖ thèng nhËn d¹ng ..........................153

7.4.1 Thö nghiÖm ®¬n vÞ nhËn d¹ng lµ c¸c ©m ba liªn tõ................................ 153
7.4.2 Thö nghiÖm víi d÷ liÖu kiÓm tra vµ d÷ liÖu huÊn luyÖn trïng nhau ...... 155

Ch−¬ng 8 ch−¬ng tr×nh øng dông nhËn d¹ng tiÕng nãi........ 157
8.1 Ch−¬ng tr×nh tr×nh diÔn nhËn d¹ng tiÕng nãi liªn tôc ......................................................157

8.1.1 Ch−¬ng tr×nh tr×nh diÔn nhËn d¹ng m−êi ch÷ sè tiÕng ViÖt liªn tôc ...... 157
8.1.2 Ch−¬ng tr×nh nhËn d¹ng tiÕng ViÖt liªn tôc kÝch th−íc trung b×nh........ 159
8.2 Ch−¬ng tr×nh øng dông th«ng tin qua m¹ng ®iÖn tho¹i...................................................160

8.2.1 Giíi thiÖu................................................................................................ 160


8

8.2.2 S¬ ®å khèi............................................................................................... 161

KÕt luËn .............................................................................................................164

Danh môc c«ng tr×nh cña t¸c gi¶ vµ ®ång sù...............................169

Tµi liÖu tham kh¶o.......................................................................................171

Phô lôc A. B¶ng ký hiÖu ©m vÞ tiÕng ViÖt..........................................179

phô lôc B. So s¸nh hai ph−¬nG ph¸p nhËn d¹ng


CSLU vµ HTK... ......................................................................................................182
9

Lêi nãi ®Çu


Mét trong nh÷ng m¬ −íc tõ xa x−a cña con ng−êi ®ã lµ cã mét ngµy nµo ®ã cã mét
m¸y cã thÓ hiÓu ®−îc giäng nãi cña con ng−êi. NhËn d¹ng tiÕng nãi lµ lÜnh vùc nghiªn
cøu nh»m gióp thùc hiÖn −íc m¬ ®ã. §©y lµ ngµnh nghiªn cøu liªn quan ®Õn nhiÒu
ngµnh kh¸c nhau vµ ®· ®−îc b¾t ®Çu nghiªn cøu tõ nh÷ng n¨m n¨m m−¬i cña thÕ kû hai
m−¬i. Nh÷ng thËp kû gÇn ®©y, cïng víi sù ph¸t triÓn cña c«ng nghÖ m¸y tÝnh, nhËn
d¹ng tiÕng nãi ®· cã nh÷ng tiÕn bé v−ît bËc. Tuy cßn xa míi ®¸p øng ®−îc yªu cÇu
hiÓu tiÕng nãi con ng−êi mét c¸ch hoµn chØnh, nhËn d¹ng tiÕng nãi ®· b¾t ®Çu cã nh÷ng
øng dông trong c¸c ngµnh khoa häc còng nh− trong x· héi, ch¼ng h¹n c¸c øng dông
trong hÖ thèng ®iÖn tho¹i, trong v¨n phßng, c¸c ch−¬ng tr×nh trî gióp ng−êi tµn tËt, ...
NhiÒu trung t©m nghiªn cøu nhËn d¹ng tiÕng nãi ®· ra ®êi vµ ®· cã rÊt nhiÒu c«ng tr×nh
®· ®−îc c«ng bè ®èi víi nhËn d¹ng tiÕng nãi c¸c ng«n ng÷ n−íc ngoµi. Mét sè phÇn
mÒm nhËn d¹ng tiÕng nãi dùa vµo c¸c nghiªn cøu trªn ®· xuÊt hiÖn.
§èi víi tiÕng ViÖt, nghiªn cøu nhËn d¹ng tiÕng nãi tiÕng ViÖt míi b¾t ®Çu ®−îc
nghiªn cøu vµ ch−a cã nhiÒu c«ng tr×nh ®−îc c«ng bè. TiÕng ViÖt lµ ng«n ng÷ ®¬n ©m
vµ cã thanh ®iÖu, cã nhiÒu ®Æc thï kh¸c biÖt so víi c¸c ng«n ng÷ n−íc ngoµi. ViÖc
nghiªn cøu nhËn d¹ng tiÕng nãi ®èi víi tiÕng ViÖt lµ cÇn thiÕt. C¸c thµnh qu¶ nghiªn
cøu nhËn d¹ng tiÕng nãi cña c¸c ng«n ng÷ n−íc ngoµi cÇn ®−îc kÕ thõa vµ nghiªn cøu
®Ó ¸p dông vµo trong tiÕng ViÖt.
V× nh÷ng lý do trªn t«i ®· chän ®Ò tµi: “ M¹ng neuron vµ m« h×nh Markov Èn trong
nhËn d¹ng tiÕng ViÖt”, nh»m nghiªn cøu c¸c vÊn ®Ò vÒ nhËn d¹ng tiÕng nãi vµ ¸p dông
chóng trong nhËn d¹ng tiÕng nãi tiÕng ViÖt.
Néi dung c¬ b¶n cña luËn ¸n gåm cã t¸m ch−¬ng chia lµm hai phÇn nh− sau:
PhÇn A. Lý thuyÕt vÒ nhËn d¹ng tiÕng nãi
PhÇn nµy tr×nh bµy c¸c vÊn ®Ò lý thuyÕt cña nhËn d¹ng tiÕng nãi hiÖn thêi. PhÇn nµy
bao gåm c¸c ch−¬ng:
Ch−¬ng 1: Tæng quan vÒ nhËn d¹ng tiÕng nãi.
Ch−¬ng nµy tr×nh bµy kh¸i qu¸t vÒ nhËn d¹ng tiÕng nãi hiÖn nay. C¸c vÊn ®Ò tr×nh
bµy bao gåm: kh¸i qu¸t vÒ mét hÖ thèng nhËn d¹ng tiÕng nãi, nguyªn t¾c ho¹t ®éng cña
10

hÖ thèng nhËn d¹ng tiÕng nãi, c¸c bé phËn vµ chøc n¨ng cña chóng trong hÖ thèng nhËn
d¹ng; c¸c øng dông cña c¸c hÖ thèng nhËn d¹ng tiÕng nãi; ®é chÝnh x¸c hiÖn thêi cña
c¸c hÖ thèng nhËn d¹ng hiÖn nay. Ch−¬ng nµy còng tr×nh bµy vÒ c¸c nghiªn cøu hiÖn
nay vÒ nhËn d¹ng tiÕng nãi tiÕng ViÖt.
Ch−¬ng 2: M« h×nh Markov Èn
Ch−¬ng 2 tr×nh bµy c¬ së lý thuyÕt cña m« h×nh Markov Èn vµ øng dông cña chóng
trong nhËn d¹ng tiÕng nãi. C¸c vÊn ®Ò c¬ b¶n ®−îc tr×nh bµy lµ: m« h×nh Markov Èn vµ
xÝch Markov; ba bµi to¸n c¬ b¶n cña m« h×nh Markov Èn liªn quan ®Õn nhËn d¹ng tiÕng
nãi; c¸c lo¹i m« h×nh Markov Èn cïng c¸c −u nh−îc ®iÓm cña chóng.
Ch−¬ng 3: X©y dùng hÖ thèng nhËn d¹ng b»ng HMM
Ch−¬ng nµy tr×nh bµy ph−¬ng ph¸p x©y dùng mét hÖ thèng nhËn d¹ng tiÕng nãi liªn
tôc b»ng c«ng cô HTK. Ch−¬ng nµy tr×nh bµy c¸c b−íc x©y dùng hÖ thèng nhËn d¹ng
cïng c¬ së lý thuyÕt øng víi tõng b−íc. C¸c ph©n tÝch vµ ®¸nh gi¸ trong qu¸ tr×nh
nghiªn cøu ®−îc ®−a thªm vµo c¸c b−íc.
Ch−¬ng 4. X©y dùng hÖ thèng nhËn d¹ng tiÕng nãi b»ng HMM/ANN
Ch−¬ng nµy tr×nh bµy vÒ m¹ng lai ghÐp HMM/ANN, c¬ së lý thuyÕt cña m¹ng
ANN vµ ®Æc biÖt lµ m¹ng Perceptron ®a líp. M¹ng lai ghÐp HMM/ANN, c¬ së lý
thuyÕt, ph−¬ng ph¸p huÊn luyÖn. PhÇn cuèi tËp trung tr×nh bµy vÒ ph−¬ng ph¸p x©y
dùng hÖ thèng nhËn d¹ng dïng m¹ng lai ghÐp HMM/ANN b»ng bé c«ng cô CSLU.
PhÇn B. X©y dùng hÖ thèng nhËn d¹ng tiÕng ViÖt.
PhÇn nµy tr×nh bµy c¸c vÊn ®Ò liªn quan ®Õn x©y dùng c¸c hÖ thèng nhËn d¹ng tiÕng
ViÖt liªn tôc.
Ch−¬ng 5. C¬ së d÷ liÖu vµ g¸n nh·n tiÕng ViÖt.
Ch−¬ng nµy giíi thiÖu vÒ c¬ së d÷ liÖu tiÕng nãi, c¸c tÝnh chÊt, ph−¬ng ph¸p x©y
dùng vµ vai trß cña nã trong hÖ thèng nhËn d¹ng. PhÇn thø hai tr×nh bµy vÒ nh÷ng ®Æc
®iÓm cña ng«n ng÷ tiÕng ViÖt vµ tr×nh bµy vÒ ph−¬ng thøc phiªn ©m chÝnh t¶ vµ phiªn
©m ©m vÞ häc ®èi víi tiÕng ViÖt. PhÇn tiÕp theo tr×nh bµy vÒ mét b−íc quan träng trong
x©y dùng c¬ së d÷ liÖu: g¸n nh·n ë møc ©m vÞ cho c¸c ph¸t ©m. Ph−¬ng ph¸p g¸n nh·n
b»ng tay ®èi víi c¸c ph¸t ©m liªn tôc tiÕng ViÖt ®· ®−îc tr×nh bµy. Ngoµi ph−¬ng ph¸p
11

g¸n nh·n b»ng tay, mét ph−¬ng ph¸p tù ®éng hoµn toµn g¸n nh·n c¸c ©m vÞ trong mét
c¬ së d÷ liÖu ®· ®−îc ®Ò xuÊt. Sau cïng lµ mét vµi kÕt qu¶ thùc nghiÖm so s¸nh, ®¸nh
gi¸ ph−¬ng ph¸p g¸n nh·n tù ®éng.
Ch−¬ng 6. HÖ thèng nhËn d¹ng m−êi ch÷ sè tiÕng ViÖt liªn tôc
Ch−¬ng nµy tr×nh bµy vÒ hÖ thèng nhËn d¹ng m−êi ch÷ sè tiÕng ViÖt liªn tôc dïng
m¹ng lai ghÐp HMM/ANN cña CSLU. §Çu tiªn hÖ thèng nhËn d¹ng dïng m¹ng ANN
®−îc x©y dùng. C¸c nghiªn cøu nh»m n©ng cao kh¶ n¨ng nhËn d¹ng cña hÖ thèng ®−îc
thùc hiÖn trªn hÖ thèng dïng m¹ng ANN. Cuèi cïng hÖ thèng nhËn d¹ng cho kÕt qu¶
tèt nhÊt víi m¹ng ANN ®−îc tiÕp tôc ph¸t triÓn thµnh m¹ng HMM/ANN.
Ch−¬ng 7. HÖ thèng nhËn d¹ng liªn tôc tiÕng ViÖt kh«ng thanh ®iÖu cã kÝch th−íc
trung b×nh.
Ch−¬ng nµy tr×nh bµy hÖ thèng nhËn d¹ng liªn tôc tiÕng ViÖt cã kÝch th−íc trung
b×nh (528 tõ) dïng ph−¬ng ph¸p CD-HMM cña HTK. C¸c nghiªn cøu thö nghiÖm
nh»m n©ng cao ®é chÝnh x¸c nhËn d¹ng cña tÝn hiÖu ®· ®−îc tr×nh bµy. HÖ thèng cuèi
cïng cã ®é chÝnh x¸c cao nhÊt ®¹t 76.07% ë møc tõ.
Ch−¬ng 8. Ch−¬ng tr×nh øng dông nhËn d¹ng tiÕng nãi
PhÇn nµy giíi thiÖu mét sè ch−¬ng tr×nh tr×nh diÔn vµ øng dông ®−îc x©y dùng dùa
trªn c¸c kÕt qu¶ nghiªn cøu hÖ thèng nhËn d¹ng ®−îc miªu t¶ trong c¸c ch−¬ng tr−íc.
Cã hai ch−¬ng tr×nh tr×nh diÔn: ch−¬ng tr×nh nhËn d¹ng m−êi ch÷ sè tiÕng ViÖt liªn tôc
vµ ch−¬ng tr×nh nhËn d¹ng tiÕng ViÖt liªn tôc víi bé tõ ®iÓn 528 tõ. Mét ch−¬ng tr×nh
øng dông vÒ nhËn d¹ng m−êi ch÷ sè liªn tôc qua m¹ng ®iÖn tho¹i do NCS phèi hîp víi
Phßng NhËn d¹ng vµ C«ng nghÖ tri thøc thùc hiÖn còng ®−îc giíi thiÖu.
Sau cïng lµ mét sè kÕt luËn vµ kiÕn nghÞ cho c¸c h−íng nghiªn cøu tiÕp theo.
T«i xin ch©n thµnh c¶m ¬n Bé gi¸o dôc vµ ®µo t¹o, §¹i häc Quèc gia Hµ néi,
Tr−êng §¹i häc Khoa häc Tù nhiªn, Khoa To¸n-C¬-Tin häc, Khoa Sau §¹i häc ®· t¹o
®iÒu kiÖn thuËn lîi cho t«i hoµn thµnh ®Ò tµi nghiªn cøu sinh. T«i xin giµnh lêi c¶m ¬n
ch©n thµnh tíi thÇy gi¸o h−íng dÉn GS. TSKH. NguyÔn Duy TiÕn ®· gióp ®ì vµ cho t«i
nh÷ng lêi khuyªn quÝ b¸u trong thêi gian t«i thùc hiÖn ®Ò tµi. T«i xin c¶m ¬n c¸c thÇy
gi¸o, c¸c c¸n bé gi¶ng d¹y Khoa To¸n-C¬-Tin häc ®· t¹o ®iÒu kiÖn, gióp ®ì t«i trong
thêi gian t«i häc tËp t¹i Khoa. Sau cïng t«i xin giµnh lêi c¶m ¬n ®Æc biÖt tíi thÇy gi¸o
12

h−íng dÉn TS. L−¬ng Chi Mai, ng−êi ®· t×m ®Ò tµi, tËn t×nh chØ dÉn còng nh− t¹o ®iÒu
kiÖn ®Ó t«i ®−îc tham gia ®Ò tµi cÊp nhµ n−íc “Nghiªn cøu ph¸t triÓn c«ng nghÖ nhËn
d¹ng, tæng hîp vµ xö lý ng«n ng÷ tiÕng ViÖt, KC-01-03” t¹i ViÖn C«ng nhÖ Th«ng tin
trong suèt thêi gian lµm nghiªn cøu sinh.

Hµ néi, th¸ng 9 n¨m 2003


§Æng Ngäc §øc
13

b¶ng kª c¸c ký hiÖu viÕt t¾t

ViÕt t¾t NghÜa


ASR Automatic Speech Recognition
ANN Artificial Neural Network
CDHMM Continuous-Density Hidden Markov Model
CMS Cepstral Mean Subtraction
DFT Discrete Fourier Transform
DHMM Discrete Hidden Markov Model
DTW Dynamic Time Warping
EM Expectation-Maximization
FFT Fast Fourier Transform
HMM Hidden Markov Model (M« h×nh Markov Èn)
IPA International Phonetic Alphabet (B¶ng ký tù phiªn ©m quèc tÕ)
F0 Formant 0 (TÇn sè formant c¬ b¶n)
F1,F2,F3 Formant 1, Formant 2, Formant 3
LPC Linear Predictive Coding
LVCSR Large-Vocabulary Continuous Speech Recognition
MAP Maximum A Posterior
MFCC Mel Scale Frequency Cepstral Coefficients (C¸c hÖ sè cepstral víi
thang tÇn sè Mel)
ML Maximum Likelihood
MLP Multi-Layer Perceptron (M¹ng n¬ ron perceptron ®a líp)
NCS Nghiªn cøu sinh
PLP Perceptual Linear Prediction
RASTA RelAtive SpecTral
14

B¶ng kª c¸c thuËt ng÷ Anh-ViÖt

TiÕng Anh TiÕng ViÖt


acoustic model m« h×nh ©m häc
affricates ©m t¾c x¸t
back propagation error truyÒn ng−îc sai sè
category ®¬n vÞ nhËn d¹ng
codebook s¸ch m·
codeword tõ m·
context ng÷ c¶nh
forced alignment g¸n nh·n c−ìng bøc
classification ph©n líp
corpus c¬ së d÷ liÖu tiÕng nãi
diphthong nguyªn ©m ®«i
embedded training huÊn luyÖn nhóng
error backpropagation truyÒn sai sè ng−îc
fricate ©m x¸t
hidden layer líp Èn
initial ©m ®Çu
input layer líp vµo
language model m« h×nh ng«n ng÷
labeling g¸n nh·n
learning häc
liasion hiÖn t−îng nèi ©m
nasal ©m mòi
output layrer líp ra
pattern recognition nhËn d¹ng mÉu
pitch tÇn sè c¬ b¶n
plosive ©m næ (©m t¾c)
phoneme ©m vÞ
15

syllable ©m tiÕt
semi-vowel b¸n nguyªn ©m
segmentation ph©n ®o¹n
speaking rate tèc ®é ph¸t ©m
spectrogram biÓu ®å phæ
spontaneous speech tiÕng nãi tù nhiªn
training huÊn luyÖn
unvoiced v« thanh
vowel nguyªn ©m
vocal cord d©y thanh ©m
vocal tract ®−êng ph¸t ©m
waveform biÓu ®å sãng
voiced h÷u thanh
tone thanh ®iÖu
robustness tÝnh æn ®Þnh
vocabulary bé tõ ®iÓn
isolated word tõ rêi r¹c
state trainsition probability x¸c suÊt chuyÓn tr¹ng th¸i
likelihood probability x¸c suÊt gièng nhau
posterior probability x¸c suÊt hËu nghiÖm
prior probability x¸c suÊt tiÒn nghiÖm
supervised learning häc cã gi¸m s¸t
stop ©m næ (©m t¾c)
passing token chuyÓn thÎ bµi
16

PhÇn A: lý thuyÕt vÒ

nhËn d¹ng tiÕng nãi

_____________________________________________________

Ch−¬ng 1 tæng quan vÒ

nhËn d¹ng tiÕng nãi


Ch−¬ng nµy sÏ giíi thiÖu kh¸i qu¸t vÒ hÖ thèng nhËn d¹ng tiÕng nãi. Trong phÇn thø
2, c¬ së lý thuyÕt cña mét hÖ thèng nhËn d¹ng tiÕng nãi ®−îc tr×nh bµy, c¸c giai ®o¹n
c¬ b¶n cña hÖ thèng nhËn d¹ng tiÕng nãi ®−îc giíi thiÖu. Trong phÇn tiÕp theo lµ phÇn
liÖt kª c¸c øng dông cña hÖ thèng nhËn d¹ng tiÕng nãi. PhÇn cuèi cïng dµnh ®Ó tr×nh
bµy vÒ tr¹ng th¸i hiÖn thêi (state of art) cña c¸c hÖ thèng nhËn d¹ng trªn thÕ giíi. Ngoµi
c¸c hÖ thèng nhËn d¹ng cña c¸c ng«n ng÷ th«ng dông nh− tiÕng Anh, nhËn d¹ng tiÕng
nãi cña c¸c ng«n ng÷ gÇn gièng víi tiÕng ViÖt nh− tiÕng H¸n, tiÕng Th¸i còng ®−îc liÖt
kª. Cuèi cïng lµ c¸c nghiªn cøu hiÖn thêi vÒ nhËn d¹ng tiÕng nãi ®èi víi tiÕng ViÖt ®·
®−îc c«ng bè.

1.1 Giíi thiÖu


NhËn d¹ng tiÕng nãi lµ mét qu¸ tr×nh nhËn d¹ng mÉu, víi môc ®Ých lµ ph©n líp
(classify) th«ng tin ®Çu vµo lµ tÝn hiÖu tiÕng nãi thµnh mét d·y tuÇn tù c¸c mÉu ®· ®−îc
häc tr−íc ®ã vµ l−u tr÷ trong bé nhí. C¸c mÉu lµ c¸c ®¬n vÞ nhËn d¹ng, chóng cã thÓ lµ
c¸c tõ, hoÆc c¸c ©m vÞ. NÕu c¸c mÉu nµy lµ bÊt biÕn vµ kh«ng thay ®æi th× c«ng viÖc
nhËn d¹ng tiÕng nãi trë nªn ®¬n gi¶n b»ng c¸ch so s¸nh d÷ liÖu tiÕng nãi cÇn nhËn d¹ng
víi c¸c mÉu ®· ®−îc häc vµ l−u tr÷ trong bé nhí.
17

Khã kh¨n c¬ b¶n cña nhËn d¹ng tiÕng nãi ®ã lµ tiÕng nãi lu«n biÕn thiªn theo thêi
gian vµ cã sù kh¸c biÖt lín gi÷a tiÕng nãi cña nh÷ng ng−êi nãi kh¸c nhau, tèc ®é nãi,
ng÷ c¶nh vµ m«i tr−êng ©m häc kh¸c nhau. Mét nhiÖm vô khã kh¨n ®ã lµ x¸c ®Þnh
nh÷ng th«ng tin biÕn thiªn nµo cña tiÕng nãi lµ quan träng ®èi víi nhËn d¹ng tiÕng nãi
vµ nh÷ng th«ng tin nµo lµ kh«ng quan träng ®èi víi c«ng viÖc nhËn d¹ng tiÕng nãi.
§©y lµ mét nhiÖm vô rÊt khã kh¨n mµ ngay c¶ víi c¸c kü thuËt x¸c suÊt thèng kª m¹nh
còng khã kh¨n trong viÖc tæng qu¸t ho¸ tõ c¸c mÉu tiÕng nãi nh÷ng biÕn thiªn quan
träng cÇn thiÕt trong nhËn d¹ng tiÕng nãi.
C¸c nghiªn cøu vÒ nhËn d¹ng tiÕng nãi dùa trªn ba nguyªn t¾c c¬ b¶n:

− TÝn hiÖu tiÕng nãi ®−îc biÓu diÔn chÝnh x¸c bëi c¸c gi¸ trÞ phæ trong mét khung thêi
gian ng¾n (short-term amplitude spectrum). Nhê vËy ta cã thÓ trÝch ra c¸c ®Æc ®iÓm
tiÕng nãi tõ nh÷ng kho¶ng thêi gian ng¾n vµ dïng c¸c ®Æc ®iÓm nµy lµm d÷ liÖu ®Ó
nhËn d¹ng tiÕng nãi.

− Néi dung cña tiÕng nãi ®−îc biÓu diÔn d−íi d¹ng ch÷ viÕt, lµ mét d·y c¸c ký hiÖu
ng÷ ©m. Do ®ã ý nghÜa cña mét ph¸t ©m ®−îc b¶o toµn khi chóng ta phiªn ©m ph¸t ©m
thµnh d·y c¸c ký hiÖu ng÷ ©m.

− NhËn d¹ng tiÕng nãi lµ mét qu¸ tr×nh nhËn thøc. Ng«n ng÷ nãi lµ cã nghÜa, do ®ã
th«ng tin vÒ ng÷ nghÜa (semantics) vµ suy ®o¸n (pragmatics) cã gi¸ trÞ trong qu¸ tr×nh
nhËn d¹ng tiÕng nãi nhÊt lµ khi th«ng tin vÒ ©m häc lµ kh«ng râ rµng.
LÜnh vùc nghiªn cøu cña nhËn d¹ng tiÕng nãi lµ rÊt réng liªn quan ®Õn nhiÒu ngµnh
kh¸c nhau. Sau ®©y lµ c¸c ngµnh vµ mèi liªn hÖ cña chóng víi nhËn d¹ng tiÕng nãi :
− Xö lý tÝn hiÖu sè (digital signal proccessing): C¸c kü thuËt xö lý tÝn hiÖu sè dïng ®Ó
ph©n tÝch tÝn hiÖu tiÕng nãi biÕn thiªn theo thêi gian nh»m trÝch ra c¸c th«ng tin quan
träng tõ tiÕng nãi.

− VËt lý hay ©m häc (acoustic): Khoa häc nghiªn cøu vÒ mèi quan hÖ gi÷a tÝn hiÖu
tiÕng nãi vµ c¬ chÕ sinh lý häc cña bé m¸y ph¸t ©m cña con ng−êi, còng nh− c¬ chÕ
ho¹t ®éng cña tai ng−êi.

− NhËn d¹ng mÉu: c¸c thuËt to¸n dïng ®Ò ph©n lo¹i d÷ liÖu thµnh tËp c¸c mÉu vµ ®èi
s¸nh c¸c mÉu dùa trªn c¬ së tÝnh to¸n kho¶ng c¸ch gi÷a c¸c ®Æc ®iÓm cña mÉu.
18

− Lý thuyÕt th«ng tin vµ khoa häc m¸y tÝnh (information and computer science
theory): c¸c thuËt to¸n ®Ó tÝnh to¸n c¸c tham sè cña c¸c m« h×nh thèng kª, c¸c thuËt
to¸n gi¶i m· vµ m· ho¸ (lËp tr×nh ®éng, c¸c thuËt to¸n dïng stack, gi¶i m· Viterbi) ®Ó
t×m mét ®−êng ®i tèt nhÊt d·y c¸c tõ ®−îc nhËn d¹ng.

− Ng«n ng÷ häc (linguistics): KiÕn thøc vÒ cÊu tróc cña ng«n ng÷, ®Æc biÖt lµ ®¬n vÞ
ng÷ ©m c¬ b¶n cña tiÕng nãi vµ vai trß cña chóng trong viÖc s¶n sinh ra giäng nãi.

− Sinh lý häc (physiology): KiÕn thøc vÒ cÊu t¹o cña bé m¸y ph¸t ©m cña con ng−êi,
cña tai ng−êi còng nh− lµ qu¸ tr×nh ph©n tÝch ©m häc vµ ng«n ng÷ t¹i bé n·o.

− T©m lý häc øng dông (applied psychology). Nh÷ng kiÕn thøc vÒ qu¸ tr×nh sinh ra
tiÕng nãi còng nh− qu¸ tr×nh nhËn thøc tiÕng nãi cña loµi ng−êi.

1.2 Nguyªn t¾c cña hÖ thèng nhËn d¹ng tiÕng nãi


C¸c hÖ thèng nhËn d¹ng tiÕng nãi cã thÓ ®−îc ph©n chia thµnh hai lo¹i kh¸c nhau:
hÖ thèng nhËn d¹ng tõ rêi r¹c vµ hÖ thèng nhËn d¹ng tõ liªn tôc. Trong hÖ thèng nhËn
d¹ng tiÕng nãi liªn tôc, ng−êi ta l¹i ph©n biÖt hÖ thèng nhËn d¹ng cã kÝch th−íc tõ ®iÓn
nhá vµ hÖ thèng nhËn d¹ng víi kÝch th−íc tõ ®iÓn trung b×nh hoÆc lín [Rabiner 1993].
H×nh 1.1 cho ta c¸c líp hÖ thèng nhËn d¹ng tiÕng nãi kh¸c nhau.
Trong hÖ thèng nhËn d¹ng tõ rêi r¹c, c¸c ph¸t ©m ®−îc nhËn d¹ng ®−îc gi¶ thiÕt lµ
chØ bao gåm mét tõ hoÆc mét nhãm tõ ®éc lËp. C¸c tõ ®−îc nhËn d¹ng mµ kh«ng phô
thuéc vµo ng÷ c¶nh cña nã. NhËn d¹ng tiÕng nãi víi c¸c tõ rêi r¹c ®−îc øng dông trong
c¸c ch−¬ng tr×nh d¹ng c©u lÖnh-®iÒu khiÓn (command-control), ch¼ng h¹n nh− øng
dông quay sè b»ng giäng nãi trong ®iÖn tho¹i di ®éng. Bµi to¸n nhËn d¹ng tiÕng nãi c¸c
tõ rêi r¹c râ rµng lµ dÔ h¬n rÊt nhiÒu so víi bµi to¸n nhËn d¹ng tiÕng nãi liªn tôc v× ranh
giíi tr¸i vµ ph¶i cña c¸c tõ ®−îc coi mÆc nhiªn lµ ®· ®−îc x¸c ®Þnh. Tuy nhiªn trong
thùc tÕ viÖc t×m ranh giíi c¸c tõ trong mét ph¸t ©m liªn tôc kh«ng ph¶i lóc nµo còng lµ
dÔ dµng [Dong 2001]. Ngoµi ra x©y dùng c¬ së d÷ liÖu c¸c tõ ®¬n lÎ còng ®¬n gi¶n vµ
c¸c ph¸t ©m c¸c tõ ®¬n lÎ còng râ rµng h¬n so víi c¸c tõ ®øng liÒn nhau [Young 1996].
VÝ dô vÒ c¸c hÖ thèng nhËn d¹ng liªn tôc víi tõ ®iÓn kÝch th−íc nhá lµ hÖ thèng
nhËn d¹ng c¸c ch÷ sè tõ 0 ®Õn 9, hÖ thèng nhËn d¹ng c¸c ch÷ c¸i, hoÆc mét sè c¸c tõ
h÷u h¹n nµo ®ã. C¸c hÖ thèng nµy cã tÝnh chÊt lµ ®¬n vÞ nhËn d¹ng cña chóng cã thÓ lµ
19

c¸c tõ gièng nh− hÖ thèng nhËn d¹ng tõ rêi r¹c. Víi hÖ thèng nhËn d¹ng liªn tôc cã
kÝch th−íc bé tõ ®iÓn lín th× ®¬n vÞ nhËn d¹ng c¬ b¶n kh«ng thÓ lµ c¸c tõ mµ lµ c¸c ©m
vÞ hoÆc b¸n ©m tiÕt.

HÖ thèng nhËn d¹ng

HÖ thèng nhËn d¹ng tõ HÖ thèng nhËn d¹ng tõ


rêi r¹c liªn tôc

HÖ thèng víi kÝch HÖ thèng víi kÝch


th−íc bé tõ ®iÓn nhá th−íc bé tõ ®iÓn trung
b×nh vµ lín

H×nh 1.1. C¸c hÖ thèng nhËn d¹ng tiÕng nãi


Trong luËn ¸n nµy chØ hÖ thèng nhËn d¹ng c¸c tõ liªn tôc ®−îc nghiªn cøu. Sau ®©y
lµ nguyªn t¾c c¬ b¶n cña mét hÖ thèng nhËn d¹ng tõ liªn tôc.
Mét ph¸t ©m d−íi d¹ng .wav sÏ ®−îc ph©n tÝch thµnh mét d·y c¸c vector ®Æc tÝnh
phæ, mçi vector t−¬ng øng víi mét khung tÝn hiÖu th−êng cã ®é dµi 10ms. VÝ dô mét
ph¸t ©m Y ®−îc ph©n tÝch thµnh d·y c¸c vector ®Æc tÝnh phæ t−¬ng øng y1, y2,… , yT.
Ph¸t ©m lµ mét d·y c¸c tõ W= w1, w2, …, wn, vµ nhiÖm vô cña hÖ thèng nhËn d¹ng
lµ t×m ra ®−îc d·y tõ Ŵ cã x¸c suÊt cao nhÊt víi d·y c¸c vector ®Æc tÝnh phæ Y cho
tr−íc.
Theo luËt x¸c suÊt Bayes ta cã:
P (W ) P (Y | W )
Wˆ = arg max P (W | Y ) = arg max
w w P (Y )

Do x¸c suÊt P(Y) lµ ®éc lËp víi W, do ®ã ta thÊy thÊy ®Ó t×m ®−îc d·y tõ cã x¸c suÊt
cao nhÊt Ŵ ph¶i t×m d·y tõ sao cho hai x¸c suÊt P(W) vµ P(Y|W) cao nhÊt. X¸c suÊt
P(W) ®éc lËp víi tÝn hiÖu tiÕng nãi vµ x¸c suÊt nµy x¸c ®Þnh bëi m« h×nh ng«n ng÷
(language model). X¸c suÊt P(Y|W) ®−îc x¸c ®Þnh bëi m« h×nh ©m häc (acoustic
20

model). H×nh 1.2 cho thÊy mèi quan hÖ gi÷a c¸c x¸c suÊt nµy. Trong ®ã víi mét ph¸t
©m lµ d·y tõ “giäng nãi”, m« h×nh ng«n ng÷ sÏ cho ta x¸c suÊt P(W). B»ng tõ ®iÓn
phiªn ©m ta biÕn ®æi chóng thµnh d·y c¸c ©m vÞ t−¬ng øng. D·y c¸c ©m vÞ nµy cho ta
x©y dùng mét m« h×nh Markov Èn lín b»ng c¸ch nèi ghÐp c¸c m« h×nh Markov Èn cña
c¸c ©m vÞ t−¬ng øng. Ph¸t ©m ®−îc trÝch trän c¸c ®Æc ®iÓm ®−a vµo m« h×nh Markov Èn
lín nµy sÏ cho ta x¸c suÊt P(Y|W). VÒ mÆt nguyªn t¾c qu¸ tr×nh nµy cã thÓ lÆp ®i lÆp l¹i
víi tÊt c¶ c¸c d·y tõ cã thÓ ®Ó t×m ra d·y tõ cã x¸c suÊt lín nhÊt.

H×nh 1.2. Kh¸i qu¸t vÒ hÖ thèng nhËn d¹ng


Trong thùc tÕ viÖc t×m x¸c suÊt víi tÊt c¶ c¸c d·y tõ lµ kh«ng thÓ ¸p dông. Mét qu¸
tr×nh xem xÐt tÊt c¶ c¸c d·y tõ cã thÓ song song víi nhau ®−îc ¸p dông vµ mét qu¸
tr×nh chän läc xo¸ ®i c¸c d·y tõ khã cã kh¶ n¨ng trë thµnh d·y tõ tèt nhÊt. Qu¸ tr×nh
t×m kiÕm nµy ®−îc gäi lµ qu¸ tr×nh gi¶i m· (decoding).
H×nh 1.3 sau ®©y cho ta thÊy c¸c b−íc c¬ b¶n cña mét hÖ thèng nhËn d¹ng tiÕng nãi,
gåm cã ba giai ®o¹n: ph©n tÝch ®Æc tÝnh, ph©n líp mÉu vµ xö lý ng«n ng÷.
21

D·y c¸c ®Æc D·y c¸c tõ


tÝnh phæ hoÆc ©m vÞ Tõ, c©u ®−îc
TÝn hiÖu nhËn d¹ng
tiÕng nãi Ph©n tÝch ®Æc Ph©n líp mÉu Xö lý ng«n ng÷
tÝnh (feature (pattern (language
analysis) clasification) processing)

c¸c tõ, ©m vÞ C¸c tõ, c©u

M« h×nh ©m häc M« h×nh ng«n ng÷


(acoustic model) (language) model)

H×nh 1.3. C¸c qu¸ tr×nh nhËn d¹ng

1.2.1 Ph©n tÝch c¸c ®Æc tÝnh tiÕng nãi


Ph©n tÝch c¸c ®Æc tÝnh trÝch ra c¸c th«ng tin cÇn thiÕt cho qu¸ tr×nh nhËn d¹ng tiÕng
nãi tõ tÝn hiÖu tiÕng nãi. Qu¸ tr×nh nµy lo¹i bá nh÷ng th«ng tin kh«ng quan träng,
ch¼ng h¹n nh− tiÕng ån cña m«i tr−êng thu ©m, nhiÔu trªn ®−êng truyÒn, c¸c ®Æc ®iÓm
riªng biÖt cña tõng ng−êi nãi, ... TiÕng nãi ®−îc ph©n tÝch theo tõng khung thêi gian
(frame) víi ®é dµi dao ®éng tõ 8ms tíi 25ms [Joseph 1993]. KÕt qu¶ ra cña giai ®o¹n
nµy lµ c¸c vector ®Æc tÝnh cña mçi khung tÝn hiÖu tiÕng nãi.
Cã hai c¸ch tiÕp cËn th«ng dông hiÖn nay th−êng ®−îc ¸p dông ®Ó ph©n tÝch tÝn
hiÖu tiÕng nãi ®ã lµ ph−¬ng ph¸p dùa vµo m« h×nh ho¸ bé ®−êng ph¸t ©m (vocal tract)
vµ ph−¬ng ph¸p dùa vµo m« h×nh ho¸ c¶m nhËn ©m thanh cña con ng−êi (human
auditory system). C¶ hai cach nµy nµy ®Òu ®ang ®−îc ¸p dông thµnh c«ng trong c¸c hÖ
thèng nhËn d¹ng. Tuy nhiªn c¸c ph−¬ng ph¸p ph©n tÝch tiÕng nãi hiÖn nay míi chØ thùc
hiÖn ®−îc c«ng viÖc nhá so víi hÖ thèng ph¸t ©m vµ nhËn thøc ©m thanh cña con ng−êi.
Sù c¶i tiÕn cña c¸c ph−¬ng ph¸p nµy sÏ dÉn tíi n©ng cao n¨ng lùc nhËn d¹ng cña c¸c hÖ
thèng nhËn d¹ng tiÕng nãi. Hai ph−¬ng ph¸p trÝch trän tiÕng nãi ®ang ®−îc sö dông
réng r·i hiÖn nay trong c¸c hÖ thèng nhËn d¹ng hiÖn t¹i lµ: ph−¬ng ph¸p MFCC (Mel
Scale Frequency Cepstral Coefficients) vµ PLP (Perceptual Linear Prediction).
22

Cã hai kü thuËt xö lý tiÕng nãi cã vÞ trÝ quan träng lµ kü thuËt RASTA (RelAtive
SpecTral) vµ CMS (Cepstral Mean Subtraction). §©y lµ hai kü thuËt ¸p dông nh»m läc
bá nhiÔu, nh÷ng ©m thanh kh«ng ph¶i lµ tiÕng nãi. Hai kü thuËt nµy ®Æc biÖt cã Ých
trong xö lý tiÕng nãi thu ©m qua ®iÖn tho¹i [Avendano 1996]. C¶ hai kü thuËt ®Òu cã
thÓ dïng kÕt hîp ®−îc víi mét trong hai ph−¬ng ph¸p trÝch trän ®Æc tÝnh phæ MFCC
hoÆc PLP. Kü thuËt RASTA cã −u ®iÓm lµ cã thÓ ®−îc ¸p dông trong c¸c hÖ thèng nhËn
d¹ng trùc tiÕp (live), nhËn d¹ng ph¸t ©m mµ kh«ng cÇn ®îi ph¸t ©m ®ã kÕt thóc
[Hermansky 1994]. Kü thuËt nµy th−êng ®−îc ®i kÌm víi ph−¬ng ph¸p trÝch trän ®Æc
®iÓm PLP [Hermansky 1992]. Ng−îc l¹i kü thuËt CMS cã −u ®iÓm lµ ®¬n gi¶n, thêi
gian tÝnh to¸n nhanh, dÔ ¸p dông.

1.2.2 Ph©n líp mÉu


B−íc thø hai trong hÖ thèng nhËn d¹ng tiÕng nãi ®ã lµ ph©n líp mÉu, trong ®ã hÖ
thèng sÏ g¸n d·y c¸c vector ®Æc tÝnh thµnh d·y tèi −u c¸c ®¬n vÞ tiÕng nãi c¬ b¶n (tõ
hoÆc ©m vÞ). Cã bèn ph−¬ng ph¸p hay ®−îc ¸p dông ®ã lµ: ®èi s¸nh mÉu (template
matcher), rule-based, m¹ng neuron vµ m« h×nh Markov Èn.
Nguyªn t¾c c¬ b¶n cña ph−¬ng ph¸p ®èi s¸nh mÉu ®ã lµ cÊt gi÷ mét sè l−îng c¸c
mÉu (examples) tiÕng nãi, bao gåm c¸c vector ®Æc tÝnh. TÝn hiÖu tiÕng nãi cÇn nhËn
d¹ng ®−îc ph©n tÝch vµ c¸c vector ®Æc tÝnh cña chóng sÏ ®−îc so s¸nh víi c¸c mÉu ®·
®−îc cÊt gi÷ tr−íc ®ã. Do tèc ®é ph¸t ©m lµ rÊt kh¸c nhau, tõ ph¸t ©m nhanh ®Õn ph¸t
©m chËm, nªn kü thuËt DTW (Dynamic Time Warping) ®−îc ¸p dông ®Ó d·n hoÆc co
hÑp thêi gian trªn trôc thêi gian nh»m gi¶m sù kh¸c biÖt so víi c¸c mÉu.
HÖ thèng rule-based x©y dùng mét lo¹t c¸c tiªu chuÈn trªn mét c©y quyÕt ®Þnh ®Ó
x¸c ®Þn xem ®¬nvÞ nµo cña ng«n ng÷ n»m trong tÝn hiÖu tiÕng nãi. §èi víi hÖ thèng
nhËn d¹ng tiÕng nãi lín, ph−¬ng ph¸p nµy gÆp khã kh¨n trong viÖc tæng qu¸t ho¸ sù ®a
d¹ng cña tÝn hiÖu tiÕng nãi. Mét vÊn ®Ò n÷a lµ víi c©y quyÕt ®Þnh, rÊt khã phôc håi lçi
nÕu nh− mét quyÕt ®Þnh sai ®−îc x¸c ®Þnh ngay tõ khi b¾t ®Çu ph©n tÝch.
M« h×nh Markov Èn ®−îc nghiªn cøu réng r·i gÇn ®©y nh− lµ mét c«ng cô m¹nh
®−îc ¸p dông thµnh c«ng trong nhËn d¹ng tiÕng nãi. §a sè c¸c hÖ thèng nhËn d¹ng
tiÕng nãi ®Òu dïng m« h×nh Markov Èn. Chi tiÕt vÒ m« h×nh Markov Èn sÏ ®−îc tr×nh
bµy trong Ch−¬ng 2.
23

M¹ng neuron ®−îc ¸p dông trong nhËn d¹ng tiÕng nãi tõ nh÷ng n¨m 1980 víi mong
muèn sö dông kh¶ n¨ng ph©n líp m¹nh cña m¹ng. M¹ng neuron truyÒn th¼ng ®a líp
perceptron th−êng ®−îc sö dông trong nhËn d¹ng tiÕng nãi. Tuy nhiªn m¹ng neuron cã
h¹n chÕ vÒ kh¶ n¨ng m« h×nh ho¸ sù biÕn thiªn cña tiÕng nãi theo thêi gian. V× vËy
m¹ng neuron gÇn ®©y hay ®−îc sö dông thay thÕ c¸c hµm mËt ®é x¸c suÊt trong c¸c hÖ
thèng lai ghÐp m¹ng neuron vµ m« h×nh Markov Èn. Ch−¬ng 3 sÏ tr×nh bµy chi tiÕt vÒ
m¹ng neuron còng nh− m¹ng lai ghÐp gi÷a m¹ng neuron vµ m« h×nh Markov Èn.

1.2.3 M« h×nh ng«n ng÷


Môc ®Ých cña m« h×nh ng«n ng÷ lµ t×m ra x¸c suÊt cña tõ wk trong ph¸t ©m theo sau
c¸c tõ W1k −1 = w1, w2, ... wk-1. Mét ph−¬ng ph¸p ®¬n gi¶n hay ®−îc ¸p dông ®ã lµ dïng
N-gram, víi gi¶ thiÕt r»ng tõ wk chØ phô thuéc vµo n-1 c¸c tõ ®øng tr−íc nã tøc lµ

P ( wk | W1k −1 ) = P ( wk | Wkk−−n1+1 )

M« h×nh ng«n ng÷ N-gram cïng mét lóc chøa ®ùng c¸c th«ng tin vÒ có ph¸p
(syntax), ng÷ nghÜa (semantics), suy ®o¸n (pragmatics) vµ chóng tËp trung vµo sù phô
thuéc l©n cËn cña mét tõ. C¸c x¸c suÊt cña m« h×nh ng«n ng÷ cã thÓ ®−îc tÝnh to¸n trùc
tiÕp tõ c¬ së d÷ liÖu v¨n b¶n mµ kh«ng cÇn ®Õn c¸c luËt ng«n ng÷ nh− ng÷ ph¸p h×nh
thøc cña ng«n ng÷.
VÒ mÆt nguyªn t¾c c¸c x¸c suÊt cña m« h×nh ng«n ng÷ cã thÓ ®−îc tÝnh to¸n trùc
tiÕp tõ sè lÇn xuÊt hiÖn cña c¸c tõ trong c¬ së d÷ liÖu:
t ( wk −2 , wk −1 , wk )
Pˆ ( wk | wk −1 , wk −2 ) =
b( wk −2 , wk −1 )

trong ®ã hµm t(a,b,c) lµ sè lÇn xuÊt hiÖn cña bé ba tõ a,b,c (trigram). b(a,b) lµ sè lÇn
xuÊt hiÖn cña bé ®«i (bigram) a,b.
Tuy nhiªn mét vÊn ®Ò khã kh¨n c¬ b¶n cña m« h×nh ng«n ng÷ lµ sè l−îng c¸c bé ba
lµ qu¸ lín. Ch¼ng h¹n víi mét hÖ thèng nhËn d¹ng víi bé tõ ®iÓn V cã kÝch th−íc lµ
10000 tõ th× sè l−îng c¸c bé ba lµ V3. Sè l−îng tõ nµy râ rµng lµ qu¸ lín, sÏ cã nhiÒu
bé ba kh«ng xuÊt hiÖn hoÆc xuÊt hiÖn rÊt Ýt chØ mét hoÆc hai lÇn trong c¬ së d÷ liÖu.
Víi c¸c tr−êng hîp nµy x¸c suÊt cña c¸c bé ba lµ kh«ng tÝnh ®−îc hoÆc rÊt nhá.
24

MÆc dï cã khã kh¨n vÒ tÝnh to¸n nh− trªn, m« h×nh ng«n ng÷ vÉn chøng minh ®−îc
lµ chóng ®ãng vai trß quan träng trong c¸c hÖ thèng nhËn d¹ng. Trong c¸c hÖ thèng
nhËn d¹ng víi kÝch th−íc lín hiÖn nay, c¸c m« h×nh ng«n ng÷ 3-gram vµ 2-gram dïng
phæ biÕn [Young 1996]. Mét sè hÖ thèng nhËn d¹ng cã kh¶ n¨ng thay ®æi m« h×nh
ng«n ng÷ theo ng÷ c¶nh, tù ®iÒu chØnh m« h×nh ng«n ng÷ trong qu¸ tr×nh nhËn d¹ng
[BÐchet 2001, EstÌve 2000].

1.3 C¸c øng dông cña nhËn d¹ng tiÕng nãi

1.3.1 NhËn d¹ng tiÕng nãi vµ viÔn th«ng


Dùa vµo m¹ng ®iÖn tho¹i c«ng céng, nhËn d¹ng tiÕng nãi ngµy cµng ®−îc ®−a vµo
øng dông trong hÖ thèng ®iÖn tho¹i. Cã hai nhãm ch−¬ng tr×nh øng dông cña nhËn d¹ng
tiÕng nãi trong viÔn th«ng [Roe 1993]. Nhãm ®Çu tiªn lµ c¸c øng dông nh»m lµm gi¶m
gi¸ thµnh, ®ã lµ c¸c øng dông trong ®ã mét ng−êi thùc hiÖn mét t¸c vô trong hÖ thèng
viÔn th«ng th«ng qua mét nh©n viªn phôc vô (attendant). Trong øng dông nµy ®é chÝnh
x¸c nhËn d¹ng cña c¸c hÖ thèng nhËn d¹ng thay thÕ nh©n viªn phôc vô lµ mét yÕu tè
quan träng, do vËy ng−êi dïng sÏ khã th«ng c¶m cho c¸c lçi cña hÖ thèng nhËn d¹ng.
VÝ dô vÒ c¸c hÖ thèng nhËn d¹ng lo¹i nµy lµ:

• Tù ®éng ho¸ c¸c dÞch vô cã sù tham gia cña nh©n viªn. HÖ thèng nµy ®ang ®−îc
nghiªn cøu vµ ph¸t triÓn bëi AT&T vµ Northen Telecom.

• Tù ®éng ho¸ c¸c dÞch vô danh b¹ ®iÖn tho¹i.


Nhãm ch−¬ng tr×nh øng dông thø hai lµ nh÷ng ch−¬ng tr×nh s¶n sinh gi¸ trÞ gia
t¨ng. Trong nhãm nµy lîi Ých cña c«ng nghÖ nhËn d¹ng tiÕng nãi n»m ë phÝa ng−êi sö
dông cuèi. C¸c giíi h¹n cña ®é chÝnh x¸c nhËn d¹ng cã thÓ ®−îc th«ng c¶m bëi ng−êi
dïng. VÝ dô vÒ c¸c ch−¬ng tr×nh nµy lµ:

• C¸c dÞch vô vÒ ng©n hµng (®ang ®−îc ph¸t triÓn bëi Nippon Telecom)

• DÞch vô b¸o gi¸ chøng kho¸n (®ang ®−îc ph¸t triÓn bëi Bell Northen Research)
Nãi chung c¸c øng dông nhËn d¹ng tiÕng nãi trong viÔn th«ng th−êng cho phÐp
ng−êi dïng giao tiÕp víi m¸y tÝnh th«ng qua c¸c c©u lÖnh b»ng giäng nãi, th«ng qua ®ã
m¸y tÝnh thùc hiÖn c¸c c©u lÖnh cña ng−êi dïng. MÆc dï ®é chÝnh x¸c nhËn d¹ng cßn
25

cÇn ph¶i tiÕp tôc n©ng cao, nh−ng nhiÒu øng dông cña c«ng nghÖ nhËn d¹ng tiÕng nãi
®· ®−îc ®−a vµo sö dông vµ ®· ®−îc ng−êi dïng chÊp nhËn. Sau ®©y lµ mét vµi øng
dông hiÖn ®ang ®−îc khai th¸c.

− HÖ thèng xö lý cuéc gäi ¸p dông c«ng nghÖ nhËn d¹ng tiÕng nãi Voice Recognition
Call Processing cña h·ng AT&T ®−îc triÓn khai vµo n¨m 1991. HÖ thèng nµy cã thÓ
nhËn d¹ng mét sè l−îng giíi h¹n tõ vùng, nhËn d¹ng tiÕng nãi ®éc lËp víi ng−êi nãi,
cã kh¶ n¨ng tù ®éng mét phÇn c«ng viÖc thùc hiÖn b»ng tay bëi c¸c nh©n viªn trùc ca.
HÖ thèng nµy gi¶m ®−îc khèi l−îng c«ng viÖc thùc hiÖn b»ng tay ®ång thêi t¨ng c−êng
hiÖu qu¶ ho¹t ®éng cña hÖ thèng xö lý cuéc gäi. HÖ thèng ®· thu ®−îc thµnh c«ng nhÊt
®Þnh vµ ®· ®−îc kh¸ch hµng chÊp nhËn.

− HÖ thèng dÞch vô danh b¹ Directory Assisstance cña hµng Northern Telecom. HÖ


thèng nµy cho phÐp ng−êi dïng ®äc phiªn ©m cña mét tõ, tõ ®ã hÖ thèng sÏ nhËn ra tõ
cÇn nhËn d¹ng. Nhê c¸ch nµy hÖ thèng cã thÓ nhËn d¹ng ®−îc hµng ngh×n c¸c tõ kh¸c
nhau mµ c¸c tõ nµy kh«ng cÇn ph¶i ®−îc häc tr−íc. Ph−¬ng ph¸p nµy rÊt thuËn tiÖn
cho viÖc bæ sung mét tõ míi nh− tªn mét ng−êi vµo trong hÖ thèng danh b¹.

1.3.2 HÖ thèng ®äc chÝnh t¶ b»ng giäng nãi


MÆc dï c«ng viÖc ®äc chÝnh t¶ cho m¸y tÝnh lµ mét trong bµi to¸n khã kh¨n nhÊt
cña nhËn d¹ng tiÕng nãi, mét sè phÇn mÒm ®äc chÝnh t¶ ®· xuÊt hiÖn trªn thÞ tr−êng. VÝ
dô nh− phÇn mÒm Dragon cã kh¶ n¨ng hiÓu ®−îc 30 000 tõ, hÖ thèng nhËn d¹ng tiÕng
nãi cña IBM cã kh¶ n¨ng nhËn d¹ng ®−îc 20 000 tõ.
C¸c phÇn mÒm nµy cã kh¶ n¨ng hiÓu ®−îc c¸c ph¸t ©m liªn tôc cña ng−êi nãi.
Chóng ®Òu cã nguyªn t¾c ho¹t ®éng gièng nhau, ®ã lµ ®Çu tiªn ng−êi dïng cÇn ph¶i ®äc
mét ®o¹n v¨n ®Ó hÖ thèng cã thÓ lµm quen víi giäng ®äc. C¸c phÇn mÒm cã kh¶ n¨ng
chÊp nhËn tèc ®é ®äc kho¶ng 50 tõ trªn mét phót. §é chÝnh x¸c nhËn d¹ng phô thuéc
vµo giäng ®äc cña ng−êi nãi vµ vµo sù gièng nhau gi÷a v¨n b¶n ®−îc ®äc vµ m« h×nh
ng«n ng÷ ®−îc x©y dùng trong hÖ thèng. Tû lÖ lçi trong c¸c hÖ thèng nµy cã thÓ ®¹t tíi
3-5%, më ra kh¶ n¨ng cho phÐp con ng−êi dïng giäng nãi ®Ó ®äc chÝnh t¶ cho m¸y
tÝnh. Chøc n¨ng nµy ®−îc sö dông rÊt hiÖu qu¶ cho nh÷ng ng−êi tµn tËt, khiÕm thÞ.
26

1.3.3 NhËn d¹ng tiÕng nãi trong c¸c s¶n phÈm tiªu dïng
NhËn d¹ng tiÕng nãi ®· ®−îc ¸p dông vµo trong mét sè s¶n phÈm tiªu dïng hµng
ngµy nh− ®iÖn tho¹i, trß ch¬i vµ ®iÖn tho¹i di ®éng. C¸c ®iÖn tho¹i di ®éng hiÖn nay cho
phÐp ng−êi dïng cã thÓ quay sè b»ng giäng nãi b»ng c¸ch ®äc tªn ng−êi ®−îc gäi ë
trong danh b¹. C¸c s¶n phÈm tiªu dïng ®Òu cã ®Æc ®iÓm lµ cã vi xö lý nhá, do ®ã thuËt
to¸n nhËn d¹ng tiÕng nãi ch¹y trong c¸c s¶n phÈm th−êng kh«ng phøc t¹p nh−ng vÉn
®¶m b¶o tû lÖ ®é chÝnh x¸c nhËn d¹ng chÊp nhËn ®−îc.

1.4 Nghiªn cøu hiÖn thêi vÒ nhËn d¹ng tiÕng nãi

1.4.1 C¸c yÕu tè ¶nh h−ëng ®Õn kh¶ n¨ng nhËn d¹ng cña m¸y tÝnh
Sau ®©y lµ c¸c ®Æc ®iÓm chÝnh cña hÖ thèng nhËn d¹ng tiÕng nãi liªn quan ®Õn ®é
chÝnh x¸c nhËn d¹ng:

− Sù phô thuéc vµo ng−êi nãi. HÖ thèng nhËn d¹ng tiÕng nãi cã thÓ lµ phô thuéc vµo
ng−êi nãi (speaker dependent) hoÆc lµ ®éc lËp víi ng−êi nãi (speaker independent).
X©y dùng mét hÖ thèng nhËn d¹ng tiÕng nãi cho giäng nãi cña mét ng−êi dÔ dµng h¬n
lµ x©y dùng hÖ thèng nhËn d¹ng tiÕng nãi cho nhiÒu ng−êi, nhÊt lµ khi nh÷ng ng−êi
nµy cã giäng nãi t¹i nh÷ng ®Þa ph−¬ng kh¸c nhau. Tû lÖ lçi nhËn d¹ng tiÕng nãi cña hÖ
thèng ®éc lËp víi ng−êi nãi th−êng cao h¬n 3 ®Õn 5 lÇn so víi hÖ thèng nhËn d¹ng
tiÕng nãi phô thuéc ng−êi nãi t−¬ng ®−¬ng [Tebelskis 1995].

− KÝch th−íc cña bé tõ ®iÓn. KÝch th−íc bé tõ ®iÓn mµ hÖ thèng nhËn d¹ng tiÕng nãi
cã thÓ hiÓu ®−îc cµng lín th× kh¶ n¨ng nhÇm lÉn gi÷a c¸c tõ, c¸c c©u cµng cao vµ
nhiÖm vô nhËn d¹ng tiÕng nãi cµng trë nªn khã kh¨n.

− Tèc ®é nãi, hiÖn t−îng ®ång ph¸t ©m. Trong mét ph¸t ©m, mét ©m bÞ ¶nh h−ëng rÊt
lín cña c¸c ©m xung quanh nã. C¸c tõ rêi r¹c ®−îc nhËn d¹ng dÔ dµng h¬n lµ c¸c tõ
trong mét ph¸t ©m liªn tôc.

− Sù biÕn ®æi trong lêi nãi. Con ng−êi cã thÓ hiÓu ®−îc lêi nãi ngay c¶ khi nã bÞ xen
lÉn bëi c¸c t¹p ©m nh− tiÕng ho, tiÕng c−êi, tiÕng “µ, ê” vµ lêi nãi víi nh÷ng tõ ®−îc
nhÊn m¹nh. Tuy nhiªn ®èi víi m¸y tÝnh c¸c tr−êng hîp nh− vËy g©y ra nh÷ng khã kh¨n
®Æc biÖt trong nhËn d¹ng tiÕng nãi.
27

− §iÒu kiÖn m«i tr−êng. TiÕng nãi cã chÊt l−îng thÊp (bi mÐo tÝn hiÖu, bÞ nhiÔu kªnh
truyÒn, ...) th−êng ®Æt ra rÊt nhiÒu vÊn ®Ò ®Ó gi¶i quyÕt cho c¸c hÖ thèng nhËn d¹ng
tiÕng nãi. Theo [Siohan 1995] tû lÖ lçi cña hÖ thèng nhËn d¹ng khi lµm viÖc víi tiÕng
nãi cã SNR > 40dB (SNR- Signal to Noise Ratio) so víi tiÕng nãi cã SNR >18dB t¨ng
lªn nhiÒu lÇn, cã thÓ tíi 10 lÇn.

− C¸c ph¸t ©m tù nhiªn vµ c¸c ph¸t ©m liªn tôc. HÖ thèng nhËn d¹ng tiÕng nãi cã thÓ
lµm viÖc víi c¸c ph¸t ©m ®−îc ®äc tõ c¸c v¨n b¶n chuÈn bÞ s½n hoÆc víi c¸c ph¸t ©m
do ng−êi nãi nãi mét c¸ch tù nhiªn (spontaneous). NhËn d¹ng c¸c ph¸t ©m tù nhiªn râ
rµng lµ khã kh¨n h¬n nhiÒu so víi c¸c ph¸t ©m ®äc s½n. Lý do lµ c¸c ph¸t ©m tù nhiªn
sè l−îng tõ vùng th−êng lµ kh«ng h¹n chÕ, hÖ thèng ph¶i ph©n biÖt víi c¸c tõ kh«ng cã
trong bé tõ ®iÓn. Ngoµi ra trong c¸c ph¸t ©m ng−êi nãi võa nãi võa nghÜ vµ do ®ã ph¸t
©m kh«ng râ rµng, tèc ®é ph¸t ©m kh¸c nhau, tiÕng nãi cã thÓ xen lÉn víi c¸c t¹p ©m
kh¸c.

− C¸c giíi h¹n vÒ ng«n ng÷. C¸c hÖ thèng nhËn d¹ng cã thÓ lµm viÖc víi c¸c c©u víi
ng÷ ph¸p râ rµng trong c¸c ch−¬ng tr×nh øng dông cô thÓ. Víi c¸c hÖ thèng nµy, nhiÖm
vô nhËn d¹ng sÏ dÔ dµng h¬n hÖ thèng nhËn d¹ng mµ c¸c tõ kh«ng cã rµng buéc cô thÓ
vÒ ng÷ ph¸p, hay nãi c¸ch kh¸c c¸c tõ quan hÖ víi nhau b»ng vßng lÆp tõ (word-loop)
nghÜa lµ bÊt k× mét tõ nµo trong bé tõ ®iÓn ®Òu cã thÓ theo sau tõ kh¸c trong bé tõ ®iÓn.

1.4.2 C¸c nghiªn cøu vÒ nhËn d¹ng tiÕng nãi ng«n ng÷ n−íc ngoµi
C«ng nghÖ nhËn d¹ng tiÕng nãi ®· cã b−íc tiÕn dµi trong c¸c thËp kû qua, mét sè
c¸c phÇn mÒm nhËn d¹ng tiÕng nãi ®· cã mÆt trªn thÞ tr−êng, ch¼ng h¹n nh− c¸c phÇn
mÒm nhËn d¹ng tiÕng nãi ®äc chÝnh t¶ cña IBM, Gragon Systems, L&H. VÒ lÜnh vùc
øng dông nhËn d¹ng tiÕng nãi trong viÔn th«ng, Nuance vµ SpeechWorks lµ c¸c h·ng
phÇn mÒm næi tiÕng. RÊt nhiÒu c¸c trung t©m nghiªn cøu ®ang tËp trung nghiªn cøu vÒ
nhËn d¹ng tiÕng nãi, ch¼ng h¹n nh− Bell Labs, IBM Research Center, Microsoft
Research, CSLU, ...
§é khã cña c¸c øng dông nhËn d¹ng tiÕng nãi phô thuéc vµo nhiÒu yÕu tè. H×nh 1.4
miªu t¶ c¸c øng dông cña nhËn d¹ng tiÕng nãi phô thuéc vµo hai yÕu tè chÝnh: kÝch
th−íc tõ vùng vµ kiÓu ph¸t ©m. §é khã t¨ng tõ thÊp lªn cao, tõ tr¸i sang ph¶i.
28

Trong c¸c øng dông thùc tÕ, sù kh¸c nhau lín gi÷a m«i tr−êng thu ©m tiÕng nãi nªn
cïng víi mét thuËt to¸n c¸c hÖ thèng nhËn d¹ng cã ®é chÝnh x¸c nhËn d¹ng kÐm h¬n
nhiÒu khi lµm viÖc trong m«i tr−êng thùc tÕ so víi trong m«i tr−êng phßng thÝ nghiÖm.
VÝ dô nh− mét hÖ thèng nhËn d¹ng c¸c sè cña thÎ tÝn dông ng©n hµng ®−îc ®äc bëi
ng−êi b¸n hµng t¹i c¸c cña hµng b¸n lÎ t¹i Mü cã ®é chÝnh x¸c nhËn d¹ng lµ 98% (so
víi 99.7% trong m«i tr−êng phßng thÝ nghiÖm) [Stephen a]. Sù kh¸c nhau vÒ tû lÖ lçi
nhËn d¹ng chñ yÕu lµ do sù kh¸c nhau gi÷a chÊt l−îng tiÕng nãi ®−îc thu ©m trong m«i
tr−êng phßng thÝ nghiÖm vµ m«i tr−êng bªn ngoµi.

Giäng nãi tù §èi tho¹i tù


nhiªn nhiªn
T×m tõ
Ghi chÐp
HÖ thèng ®èi
Giäng nãi liªn tho¹i h¹n chÕ
tôc

Giäng nãi do Quay sè b»ng §äc chÝnh t¶


ng−êi nãi ®äc giäng nãi trong v¨n phßng

TiÕng nãi liªn §iÒn mÉu biÓu


tôc b»ng giäng nãi

Ra lÖnh b»ng
giäng nãi Tra cøu
C¸c tõ rêi r¹c danh b¹

20 200 2000 20000


H×nh 1.4 C¸c bµi toµn nhËn d¹ng kh¸c nhau theo kÝch th−íc bé tõ ®iÓn vµ kiÓu nãi.
B¶ng 1.1 so s¸nh tû lÖ lçi nhËn d¹ng cña c¸c hÖ thèng nhËn d¹ng tiÕng Anh so víi
kh¶ n¨ng nhËn d¹ng cña con ng−êi theo ®¸nh gi¸ cña [Barbara 2001]. Tõ b¶ng ta thÊy
tû lÖ lçi nhËn d¹ng cña con ng−êi thÊp h¬n n¨m lÇn so víi tû lÖ lçi nhËn d¹ng b»ng
m¸y tÝnh. §èi víi c¸c hÖ thèng nhËn d¹ng lµm viÖc víi giäng nãi tù nhiªn hoÆc ®èi
tho¹i th× tû lÖ lçi nhËn d¹ng cña m¸y tÝnh cao h¬n ®Õn m−êi lÇn. Víi c¬ së d÷ liÖu
tiÕng nãi cã nhiÒu nhiÔu th× sù kh¸c nhau nµy cã thÓ cßn cao h¬n n÷a. Do vËy cã thÓ
nãi kü thuËt nhËn d¹ng hiÖn thêi cßn xa míi cã thÓ ®¹t tíi kh¶ n¨ng cña con ng−êi.
29

Ngoµi ng«n ng÷ ch©u ¢u, c¸c nghiªn cøu vÒ nhËn d¹ng tiÕng nãi ®èi c¸c ng«n ng÷
®¬n ©m vµ cã thanh ®iÖu gièng tiÕng ViÖt nh− tiÕng Trung Quèc (bao gåm tiÕng B¾c
kinh vµ tiÕng Qu¶ng ®«ng), tiÕng Th¸i lan còng ®· ®−îc nghiªn cøu. Víi tiÕng Trung
quèc, rÊt nhiÒu nghiªn cøu ®· ®−îc tiÕn hµnh vµ nhiÒu hÖ thèng nhËn d¹ng tiÕng nãi
tiÕng Trung quèc ®· ®−îc c«ng bè vµ c¸c hÖ thèng nhËn d¹ng tiÕng H¸n víi kÝch th−íc
tõ vùng lín còng ®· ®−îc x©y dùng [Fu 1996]. Mét sè phÇn mÒm nhËn d¹ng tiÕng nãi
tiÕng Trung quèc còng ®· ®−îc b¸n ra thÞ tr−êng. B¶ng 1.2 tr×nh bµy c¸c hÖ thèng nhËn
d¹ng tiÕng nãi tiÕng B¾c kinh (tiÕng H¸n) ®−îc c«ng bè trong c¸c bµi b¸o khoa häc
theo thèng kª cña [Stephen b].
B¶ng 1.1 So s¸nh tû lÖ lçi nhËn d¹ng cña m¸y tÝnh vµ con ng−êi víi mét sè
hÖ thèng nhËn d¹ng.
HÖ thèng nhËn d¹ng KÝch th−íc tõ vùng M¸y tÝnh Con ng−êi
Liªn tôc 10 0.72% 0.009%
C¸c ch÷ c¸i 26 5% 1%
Giäng nãi tù nhiªn 2000 36.7% 3.8%
Giäng nãi chÊt l−îng tèt cña WSJ 5000 4.5% 0.9%
Giäng nãi cã nhiÒu nhiÔu WSJ 20000 8.6% 1.1%
Víi ng«n ng÷ Th¸i lan, hÇu hÕt c¸c nghiªn cøu tËp chung vµo nhËn d¹ng c¸c tõ rêi
r¹c [Sornlertlamvanich]. Víi c¸c nghiªn cøu hÖ thèng nhËn d¹ng liªn tôc, hÖ thèng
nhËn d¹ng m−êi ch÷ sè Th¸i liªn tôc ®¹t ®é chÝnh x¸c 96.89% víi c¬ së d÷ liÖu thu ©m
trong nhµ [Thubthong 2000a]. Víi hÖ thèng nhËn d¹ng liªn tôc kÝch th−íc lín tiÕng
Th¸i lan, hiÖn thêi c¸c nghiªn cøu míi chØ ë b−íc khëi ®Çu. Mét sè nghiªn cøu vÒ nhËn
d¹ng thanh ®iÖu tiÕng Th¸i còng ®· ®−îc nghiªn cøu [Thubthong 2000b].
B¶ng 1.2. C¸c hÖ thèng nhËn d¹ng tiÕng H¸n
Ph−¬ng ph¸p KÝch th−íc bé tõ ®iÓn §é chÝnh x¸c
HMM + modification of initials and finals 5000 syllables 93%
CDHMM complete vocabulary 92.5%
DDHMM 1254 syllables 90.1%
Time Delayed Neural Network complete vocabulary 85%
Hierarchical Neural Network complete vocabulary 90.14%

1.4.3 C¸c nghiªn cøu vÒ nhËn d¹ng tiÕng nãi tiÕng ViÖt
Cho ®Õn thêi ®iÓm hiÖn nay, ch−a cã nhiÒu c¸c nghiªn cøu vÒ nhËn d¹ng tiÕng ViÖt.
C¸c c«ng viÖc nghiªn cøu vÒ nhËn d¹ng tiÕng nãi tiÕng ViÖt ®ang ®−îc tiÕn hµnh víi
c¸c b−íc ®Çu tiªn, c¸c bµi to¸n c¬ b¶n vÒ nhËn d¹ng tiÕng nãi. VÒ nguyªn t¾c, tiÕng
30

ViÖt còng nh− c¸c ng«n ng÷ cã thanh ®iÖu kh¸c, hÖ thèng nhËn d¹ng bao gåm hai qu¸
tr×nh nhËn d¹ng song song: nhËn d¹ng c¸c tõ kh«ng cã thanh ®iÖu vµ nhËn d¹ng thanh
®iÖu [Zhang 2000]. H×nh 1.5 d−íi ®©y miªu t¶ hÖ thèng nhËn d¹ng ng«n ng÷ cã thanh
®iÖu, trong ®ã cã tiÕng ViÖt:
nhËn d¹ng c¸c tõ
kh«ng dÊu

nhËn d¹ng thanh ®iÖu

H×nh 1.5. HÖ thèng nhËn d¹ng ng«n ng÷ cã thanh ®iÖu.


Nghiªn cøu gÇn ®©y nhÊt vÒ nhËn d¹ng tiÕng ViÖt lµ nghiªn cøu cña TS. NguyÔn
Thµnh Phóc [Phóc 2000]. Trong luËn ¸n tiÕn sÜ cña m×nh TS. NguyÔn Thµnh Phóc ®·
dïng bé c«ng cô CSLU ®Ó tiÕn hµnh nghiªn cøu vµ thùc hiÖn c¸c c«ng viÖc sau:

− X©y dùng ®−îc mét sè c¬ së d÷ liÖu thu ©m trong m«i tr−êng trong nhµ:

• C¬ së d÷ liÖu gåm 10 ch÷ sè tiÕng ViÖt gåm 812 c©u, mçi c©u gåm 6 tõ, do 15
ng−êi nãi. C¸c c©u ®Òu ®−îc g¸n nh·n b»ng tay.

• C¬ së d÷ liÖu gåm s¸u ©m tiÕt kh¸c nhau vÒ thanh ®iÖu gåm 350 c©u.

• C¬ së d÷ liÖu gåm 22 tõ cã c¸c ©m ®Çu kh¸c nhau vµ cã cïng phÇn vÇn lµ EO


gåm cã 350 c©u.

− Nghiªn cøu qu¸ tr×nh x©y dùng mét c¬ së d÷ liÖu tiÕng ViÖt, ®Ò xuÊt b¶ng ký hiÖu
©m vÞ tiÕng ViÖt dïng ®Ó phiªn ©m c¸c ©m vÞ.

− Kh¶o s¸t nhËn d¹ng ®èi víi c¸c tõ kh¸c nhau vÒ thanh ®iÖu.

− TiÕn hµnh x©y dùng hÖ thèng nhËn d¹ng víi m−êi ch÷ sè tiÕng ViÖt liªn tôc víi ®iÒu
kiÖn thu ©m trong nhµ. Nghiªn cøu c¸c gi¶i ph¸p nh»m t¨ng c−êng ®é chÝnh x¸c nhËn
d¹ng: m« h×nh ©m tiÕt, ®¬n vÞ nhËn d¹ng c¬ b¶n, ¶nh h−ëng cña ng÷ c¶nh trong nhËn
d¹ng, ... §é chÝnh x¸c nhËn d¹ng cao nhÊt thu ®−îc lµ 98,83% ë møc tõ.
Mét nghiªn cøu vÒ nhËn d¹ng thanh ®iÖu tiÕng ViÖt ®−îc tiÕn hµnh bëi TS. NguyÔn
Quèc C−êng vµ céng sù t¹i phßng thÝ nghiÖm CLIPS-IMAG, tr−êng ®¹i häc Grenoble
t¹i Ph¸p [C−êng]. T¸c gi¶ ®· nghiªn cøu nhËn d¹ng thanh ®iÖu tiÕng ViÖt dïng m« h×nh
31

Markov Èn ®èi víi tõ rêi r¹c. §©y lµ mét trong nh÷ng c«ng tr×nh ®Çu tiªn nghiªn cøu vÒ
nhËn d¹ng thanh ®iÖu tiÕng ViÖt. C¸c thö nhiÖm ®−îc tiÕn hµnh trªn c¬ së d÷ liÖu gåm
9720 tõ do 18 ng−êi nãi ®Õn tõ ba miÒn B¾c Trung Nam, thu ©m víi tÇn suÊt lÊy mÉu
16kHz/s, biÕn ®æi A/D 16 bit. KÕt qu¶ thu ®−îc tû lÖ nhËn d¹ng chÝnh x¸c thµnh ®iÖu
®¹t 91,6%.
Ngoµi ra tr−íc TS. NguyÔn Thµnh Phóc cã mét sè c«ng tr×nh nghiªn cøu ®· ®−îc
c«ng bè. Theo [Phóc 2000] c¸c c«ng tr×nh trªn bao gåm:

− C«ng tr×nh nghiªn cøu nhËn d¹ng tiÕng nãi theo ph−¬ng ph¸p ©m häc-ng÷ ©m häc
cña TS. Nguyªn Anh TuÊn. KÕt qu¶ cña c«ng tr×nh nh− sau:

• H×nh thøc ho¸ ®−îc ng«n ng÷ h×nh häc cña c¸c tõ tiÕng ViÖt, cho phÐp n©ng
cao ®é tin cËy cña ph©n ®o¹n ho¸ c¸c tõ thµnh tõng ®o¹n t−¬ng øng víi phÇn
®Çu, phÇn vÇn vµ thanh ®iÖu cña ©m tiÕt tiÕng ViÖt.

• Nghiªn cøu vµ h×nh thøc ho¸ nh÷ng ®Æc tr−ng cña s¸u thanh ®iÖu tiÕng ViÖt cho
phÐp x¸c ®Þnh tù ®éng kiÓu thanh ®iÖu tiÕng ViÖt.

• Th«ng qua biÓu ®å phæ ®· x¸c ®Þnh ®−îc ®Æc tr−ng formant cña c¸c nguyªn ©m
vµ b¸n nguyªn ©m tiÕng ViÖt. C¸c ®Æc tr−ng nµy cã thÓ sö dông ®Ó ph©n lo¹i
c¸c nguyªn ©m.

• §· t×m ®−îc c¸c th«ng sè phæ vµ thêi gian cña c¸c nguyªn ©m vµ phô ©m tiÕng
ViÖt.

• Trªn c¬ së c¸c th«ng sè ®Æc tr−ng cña c¸c ©m ®· t×m ®−îc, ®· t×m ®−îc mét
thuËt to¸n nhËn d¹ng c¸c tõ tiÕng ViÖt rêi r¹c bao gåm m−êi ch÷ sè tiÕng ViÖt.
HÖ thèng nhËn d¹ng x©y dùng trªn thuËt to¸n nµy cã ®é chÝnh x¸c lµ 95%
kh«ng phô thuéc vµo giäng nãi.

− §Ò tµi nghiªn cøu cÊp nhµ n−íc m· sè KHCN 01-07 do Khoa C«ng nghÖ th«ng tin
§¹i häc B¸ch khoa Hµ néi thùc hiÖn hoµn thµnh vµo th¸ng 6/1998 ®· ¸p dông ph−¬ng
ph¸p dù b¸o tuyÕn tÝnh LPC ®Ó ®¸nh gi¸ c¸c tham sè c¬ b¶n (F0-F5 vµ t−¬ng quan F1-
F2) cña c¸c nguyªn ©m tiÕng ViÖt: “a, ©, ¨, e, ª, i, o, «, ¬, u, −”.
32

− TS. §Æng V¨n ChuyÕt vµ KS. Ng« §øc B×nh ®· ¸p dông ph−¬ng ph¸p ph©n tÝch
cepstral thêi gian ng¾n tÝn hiÖu tiÕng nãi ®Ó x¸c ®Þnh vµ quan s¸t sù biÕn ®æi cña c¸c
formant cña nguyªn ©m tiÕng ViÖt khi thay ®æi ng÷ c¶nh.

− TS. NguyÔn ThÕ HiÕu øng dông ph−¬ng ph¸p hiÖu chØnh thêi gian ®éng DTW ®Ó
nhËn d¹ng c¸c tõ rêi r¹c cho tiÕng ViÖt. C¸c tham sè ®−îc sö dông lµ c¸c F1 vµ F2. HÖ
thèng nhËn d¹ng thö nghiÖm víi n¨m nguyªn ©m tiÕng ViÖt: “a,e,i,o,u”, m−êi ch÷ sè
tiÕng ViÖt vµ c¸c tõ ®iÒu khiÓn: ”tiÕn, lïi, ph¶i, tr¸i, tr−íc, sau, dõng”. §é chÝnh x¸c
nhËn d¹ng m−êi ch÷ sè tiÕng ViÖt rêi r¹c trung b×nh lµ 78,47%.
33

Ch−¬ng 2

m« h×nh Markov Èn
Toµn bé ch−¬ng nµy ®−îc dµnh ®Ó giíi thiÖu vÒ m« h×nh Markov Èn vµ øng dông
cña chóng trong nhËn d¹ng tiÕng nãi. PhÇn giíi thiÖu ®Çu tiªn tr×nh bµy vÒ mèi liªn hÖ
cña m« h×nh Markov Èn víi lý thuyÕt vÒ xÝch Markov. Sau phÇn ®Þnh nghÜa m« h×nh
Markov Èn lµ phÇn tr×nh bµy ba bµi to¸n c¬ b¶n cña m« h×nh Markov Èn liªn quan ®Õn
nhËn d¹ng tiÕng nãi. C¸c gi¶i ph¸p cho ba bµi to¸n nµy cïng c¸c c«ng thøc liªn quan
®−îc tr×nh bµy trong phÇn sau. C¸c lo¹i m« h×nh Markov Èn cïng c¸c −u nh−îc ®iÓm
®−îc tr×nh bµy trong phÇn tiÕp theo. Cuèi cïng gièng nh− bÊt kú mét ph−¬ng ph¸p nµo,
m« h×nh Markov Èn còng cã nh÷ng nh−îc ®iÓm vµ phÇn cuèi tr×nh bµy vÒ c¸c nh−îc
®iÓm nµy.

2.1 Qu¸ tr×nh Markov


PhÇn nµy giíi thiÖu kh¸i qu¸t vÒ kh¸i niÖm xÝch Markov trong to¸n häc, tõ ®ã ®Ó
liªn hÖ víi kh¸i niÖm m« h×nh Markov Èn. Néi dung cña phÇn nµy ®−îc tham kh¶o
trong [TiÕn 2000]
Ta h·y xem xÐt sù tiÕn triÓn theo thêi gian cña mét hÖ thèng nµo ®ã (cã thÓ lµ mét
hÖ vËt lý hay hÖ sinh th¸i, ...), ký hiÖu qt lµ vÞ trÝ cña hÖ t¹i thêi ®iÓm t. C¸c vÞ trÝ cã thÓ
cã ®−îc cña hÖ ®−îc gäi lµ kh«ng gian tr¹ng th¸i, ký hiÖu lµ S= {S1, S2, S3, ...}. Gi¶ sö ë
thêi ®iÓm s hÖ ë tr¹ng th¸i Si , nÕu x¸c suÊt ®Ó hÖ ë tr¹ng th¸i Sj ë thêi ®iÓm t trong
t−¬ng lai chØ phô thuéc vµo s, t, Si, Sj th× cã nghÜa lµ sù tiÕn triÓn cña hÖ chØ phô thuéc
vµo hiÖn t¹i vµ ®éc lËp víi qu¸ khø. Ta gäi ®ã lµ tÝnh Markov vµ hÖ cã tÝnh chÊt nµy
®−îc gäi lµ qu¸ tr×nh Markov.
NÕu kh«ng gian tr¹ng th¸i S cña hÖ lµ ®Õm ®−îc th× ta gäi hÖ lµ xÝch Markov. NÕu
thêi gian t lµ rêi r¹c t=0,1,2,... th× ta cã xÝch Markov rêi r¹c. Ta cã thÓ biÓu diÔn tÝnh
Markov cña hÖ b»ng biÓu thøc sau :
P(qt = Sj | qt-1 = Si, qt-2 = Sk,...) = P(qt = Sj | qt-1 = Si)
34

§Æt P(s,i,t,j) = P(qt = Sj | qs = Si ) lµ x¸c suÊt ®Ó hÖ t¹i thêi ®iÓm s ë tr¹ng th¸i i,
®Õn thêi ®iÓm t chuyÓn sang tr¹ng th¸i j. Ta gäi P(s,i,t,j) lµ x¸c suÊt chuyÓn cña hÖ. NÕu
x¸c suÊt chuyÓn chØ phô thuéc vµo (t-s) tøc lµ
P(s,i,t,j)= P(s+h,i,t+h,j)
th× ta nãi hÖ lµ thuÇn nhÊt theo thêi gian. B¾t ®Çu tõ ®©y ta chØ xÐt xÝch Markov rêi
r¹c vµ thuÇn nhÊt.
a22

S2
a23
a12
a11 S3
a31
a14 a33
S1

a15 a43
a53
S4
a54
S5 a44
a55
H×nh 2.1. XÝch Markov víi n¨m tr¹ng th¸i S1, S2, ..., S5 vµ
c¸c x¸c suÊt chuyÓn tr¹ng th¸i.
H×nh 2.1 cho ta thÊy mét vÝ dô vÒ mét m« h×nh xÝch Markov rêi r¹c vµ thuÇn nhÊt,
trong ®ã hÖ cã thÓ ë mét trong n¨m tr¹ng th¸i S1, S2, ..., SN (trong vÝ dô trªn N=5). T¹i
mçi thêi ®iÓm t=0,1,2,... hÖ chuyÓn tr¹ng th¸i theo x¸c suÊt chuyÓn tr¹ng th¸i aij t−¬ng
øng víi mçi tr¹ng th¸i.
aij = P ( qt +1 = S j | qt = Si )

⎧∑ N aij = 1; i = 1, N
⎪ j =1

⎪⎩ aij ≥ 0; i, j = 1, N

Ngoµi ra ta ®Þnh nghÜa x¸c suÊt tr¹ng th¸i khëi ®Çu (initial state distribution ) π =
{π1, π2, ..., πN}, trong ®ã πi lµ x¸c suÊt ®Ó tr¹ng th¸i i ®−îc chän t¹i thêi ®iÓm khëi ®Çu
t=1:

πi=P(q1=Si).
35

⎧⎪∑ N π i = 1
i =1

⎪⎩π i ≥ 0; i = 1, N

Qu¸ tr×nh Markov miªu t¶ ë trªn ®−îc gäi lµ mét m« h×nh Markov quan s¸t ®−îc
(observable Markov model). §Çu ra cña qu¸ tr×nh lµ mét tËp c¸c tr¹ng th¸i t¹i c¸c thêi
®iÓm rêi r¹c liªn tiÕp nhau, trong ®ã mçi sù kiÖn t−¬ng øng víi mét sù kiÖn vËt lý cã
thÓ quan s¸t ®−îc (observation event).
VÝ dô : Ta xÐt mét m« h×nh Markov ba tr¹ng th¸i miªu t¶ thêi tiÕt: S1, S2, S3 . Trong
mét ngµy thêi tiÕt cã thÓ lµ mét trong ba tr¹ng th¸i :
S1: m−a
S2: m©y
S3: n¾ng
ma trËn x¸c suÊt chuyÓn lµ

⎡0.4 0.3 0.3 ⎤


A= {aij} = ⎢⎢0.2 0.6 0.2 ⎥⎥
⎣⎢0.1 0.1 0.8 ⎥⎦

Gi¶ thiÕt lµ thêi tiÕt t¹i ngµy t=1 lµ n¾ng. Ta sÏ t×m x¸c suÊt ®Ó trong 5 ngµy liªn tiÕp
cã thêi tiÕt nh− sau : n¾ng, n¾ng, m−a, m−a, m©y. Tøc lµ ta cã mét d·y c¸c quan s¸t
(observation) O= S3, S3, S1, S1, S2, t−¬ng øng víi c¸c thêi ®iÓm t=1,2,3,4,5
P(O|M« h×nh) = P(S3, S3, S1, S1, S2 | M« h×nh)
= P(S3).P(S3|S3).P(S1|S3).P(S1|S1). P(S2|S1)
= π3.a33.a33. .a31.a11.a12
= 1. (0.8). (0.8). (0.1).(0.4). (0.3)
= 768. 10-4

2.2 M« h×nh Markov Èn


M« h×nh Markov mµ mçi mét tr¹ng th¸i t−¬ng øng víi mét sù kiÖn quan s¸t ®−îc
më réng b»ng c¸ch c¸c quan s¸t (observation) t−¬ng øng víi c¸c tr¹ng th¸i lµ mét hµm
36

x¸c suÊt cña c¸c tr¹ng th¸i. M« h×nh nµy gäi lµ m« h×nh Markov Èn vµ ®ã lµ mét qu¸
tr×nh ngÉu nhiªn kÐp, trong ®ã cã mét qu¸ tr×nh ngÉu nhiªn kh«ng quan s¸t ®−îc. TËp
c¸c quan s¸t O ®−îc sinh ra bëi d·y c¸c tr¹ng th¸i S1, S2, ..., SN cña m« h×nh, mµ d·y c¸c
tr¹ng th¸i nµy lµ kh«ng thÊy ®−îc, ®ã chÝnh lµ lý do m« h×nh ®−îc gäi lµ m« h×nh
Markov Èn (hidden) [Rabiner 1993].
Mét m« h×nh Markov Èn ®−îc ®Æc tr−ng bëi c¸c thµnh phÇn c¬ b¶n sau :
1) N, sè tr¹ng th¸i (state) trong m« h×nh Markov. C¸c tr¹ng th¸i th−êng ®−îc ký
hiÖu b»ng S= {S1, S2, S3, ...} vµ tr¹ng th¸i cña m« h×nh t¹i thêi ®iÓm t ®−îc kÝ hiÖu lµ
q t.
2) M, sè ký hiÖu quan s¸t (observation symbol), ®©y lµ kÝch th−íc cña b¶ng tõ vùng
cña m« h×nh. C¸c ký hiÖu quan s¸t ®−îc biÓu diÔn b»ng V= {v1, v2, ...}.
3) A = {aij}, x¸c suÊt chuyÓn tr¹ng th¸i (state transition probability distribution).
Trong ®ã aij lµ x¸c suÊt ®Ó tr¹ng th¸i j xuÊt hiÖn t¹i thêi ®iÓm t+1 khi tr¹ng th¸i i ®·
xuÊt hiÖn t¹i thêi ®iÓm t .
aij = P(qt+1 = Sj | qt = Si )

⎧∑ N aij = 1; i = 1, N
⎪ j =1

⎪⎩ aij ≥ 0; i, j = 1, N

4) B={bj(k)} x¸c suÊt ph¸t x¹ quan s¸t trong mçi tr¹ng th¸i (observation symbol
probability distribution in state). bj(k) lµ x¸c suÊt cña quan s¸t vk t¹i tr¹ng th¸i j t¹i
thêi ®iÓm t.
bj(k) = P(vk t¹i thêi ®iÓm t | qt = Sj), (2.1)
⎧⎪∑ M b j (k ) = 1; j = 1, N
k =1

⎪⎩b j (k ) ≥ 0; j = 1, N ; k = 1, M

5) π = {π1, π2, ..., πN} x¸c suÊt tr¹ng th¸i khëi ®Çu (initial state distribution ). πi lµ
x¸c suÊt ®Ó tr¹ng th¸i i ®−îc chän t¹i thêi ®iÓm khëi ®Çu t=1:

πi=P(q1=Si)
37

⎧⎪∑ N π i = 1
i =1

⎪⎩π i ≥ 0; i = 1, N

Víi c¸c gi¸ trÞ thÝch hîp A, B, π, M, N, mét m« h×nh Markov Èn ®−îc dïng ®Ó sinh
ra mét d·y c¸c quan s¸t:
O= {O1, O2, O3, ...}
Trong ®ã Oi lÊy mét trong c¸c gi¸ trÞ trong V. Ho¹t ®éng cña HMM ®−îc m« t¶ nh−
sau:

6) Chän mét tr¹ng th¸i khëi ®Çu q1 t−¬ng øng víi x¸c suÊt tr¹ng th¸i khëi ®Çu π.
7) G¸n t=1.
8) Chän Oi = vk t−¬ng øng víi x¸c suÊt quan s¸t t¹i tr¹ng th¸i Si: bi(k).
9) ChuyÓn sang tr¹ng th¸i míi qt+1 = Sj t−¬ng øng víi x¸c suÊt chuyÓn tr¹ng th¸i aij.
10) G¸n t=t+1 vµ quay l¹i l¹i b−íc 3) nÕu t<T, nÕu kh«ng kÕt thóc.

Ng−êi ta th−êng dïng bé ba λ=(A, B, π) ®−îc coi lµ bé ký ph¸p gän ®Ó biÓu diÔn
mét m« h×nh Markov Èn. A, B vµ π ®−îc gäi lµ c¸c tham sè (parameters) cña m« h×nh λ.

a22 a33 a44 a55

a12 a23 a34 a45 a56


1 2 3 4 5 6

a24 a35

b2(o1) b2(o2) b3(o3) b4(o4) b4(o5) b5(o6)

o1 o2 o3 o4 o5 o6

H×nh 2.2. VÝ dô mét m« h×nh Markov Èn víi s¸u tr¹ng th¸i


H×nh 2.2 cho ta mét vÝ dô vÒ mét m« h×nh Markov Èn gåm cã s¸u tr¹ng th¸i, trong
®ã cã mét tr¹ng th¸i khëi ®Çu vµ mét tr¹ng th¸i kÕt thóc. S¸u quan s¸t {O1, O2, ..., O6...}
38

®−îc sinh ra tõ bèn tr¹ng th¸i tõ 2 ®Õn 4. Mçi tr¹ng th¸i cã thÓ chuyÓn sang tr¹ng th¸i
bªn ph¶i cña nã, hoÆc chuyÓn sang chÝnh nã. Riªng tr¹ng th¸i khëi ®Çu chØ cã mét kh¶
n¨ng duy nhÊt chuyÓn sang tr¹ng th¸i thø 2, tøc lµ a12=1.

2.3 Ba bµi to¸n c¬ b¶n cña m« h×nh Markov Èn


Cã ba bµi to¸n c¬ b¶n cña m« h×nh Markov Èn ®−îc ®Æt ra trong øng dông nhËn
d¹ng tiÕng nãi.

Bµi to¸n 1: Víi d·y quan s¸t O= {O1, O2, O3, ...} vµ m« h×nh Markov Èn λ=(A, B,
π) chóng ta cÇn tÝnh x¸c suÊt P(O⏐λ).
Bµi to¸n 2: Víi d·y quan s¸t O= {O1, O2, O3, ...} vµ m« h×nh Markov Èn λ=(A, B,
π) lµm thÕ nµo chóng ta cã thÓ t×m ®−îc d·y tr¹ng th¸i t−¬ng øng q={q1, q2, q3, ...} tèi
−u nhÊt theo mét tiªu chuÈn nµo ®ã.

Bµi to¸n 3: Lµm thÕ nµo chóng ta ®iÒu chØnh c¸c tham sè A, B, π ®Ó cã ®−îc x¸c
suÊt P(O⏐λ) lín nhÊt.
Bµi to¸n 1: ®©y lµ bµi to¸n nhËn d¹ng khi cã mét d·y c¸c quan s¸t cho tr−íc vµ mét
tËp c¸c m« h×nh Markov Èn, viÖc tÝnh to¸n c¸c P(O⏐λ) sÏ cho chóng ta t×m ra ®−îc m«
h×nh Markov Èn cã x¸c suÊt P(O⏐λ) t−¬ng øng lín nhÊt.
Bµi to¸n 2: ®©y lµ bµi to¸n t×m phÇn Èn cña m« h×nh Markov, tøc lµ d·y tr¹ng th¸i q.
Trªn thùc tÕ thùc tÕ ng−êi ta ®−a ra mét tiªu chuÈn ®Ó t×m mét d·y tr¹ng th¸i tèi −u víi
tiªu chuÈn ®ã.
Bµi to¸n 3: trong bµi to¸n nµy chóng ta ®iÒu chØnh tham sè cña m« h×nh Markov Èn
®Ó nã miªu t¶ mét c¸ch chÝnh x¸c nhÊt c¸c quan s¸t ®· ®−îc biÕt tr−íc ®ã. D·y quan s¸t
dïng ®Ó ®iÒu chØnh c¸c tham sè ®−îc gäi lµ tËp d÷ liÖu huÊn luyÖn (training data). §©y
lµ kh©u c¬ b¶n trong mét bµi to¸n nhËn d¹ng, nã cho phÐp ®iÒu chØnh c¸c tham sè ®Ó
häc c¸c d÷ liÖu tõ c¸c hiÖn t−îng thùc nh− tiÕng nãi.
39

2.4 C¸c gi¶i ph¸p to¸n häc cho ba bµi to¸n c¬ b¶n

2.4.1 Bµi to¸n 1.

Chóng ta cã d·y quan s¸t O= {O1, O2, O3, ...} vµ m« h×nh Markov Èn λ=(A, B, π),
chóng ta cÇn tÝnh x¸c suÊt P(O⏐λ)
Gi¶ sö d·y quan s¸t cã ®é dµi lµ T, vËy ta cã mét d·y c¸c tr¹ng th¸i t−¬ng øng cña
m« h×nh Markov Èn sinh ra nã : q=q1, q2, q3, ... qT. Ta cã x¸c suÊt ®Ó d·y quan s¸t O
®−îc sinh ra bëi λ víi d·y tr¹ng th¸i q lµ:
T
P(O ⏐q, λ) = ∏ P(O | q , λ )
t =1
t t

víi gi¶ thiÕt c¸c Oi lµ ®éc lËp ta cã

P(O⏐q, λ) = bq1(O1) bq2(O2)... bqT(OT)

MÆt kh¸c ta x¸c suÊt cña d·y tr¹ng th¸i q ®èi víi m« h×nh λ lµ :

P(q⏐λ) = πq1 aq1q2 aq2q3... aqT-1qT


Tõ ®ã ta cã x¸c suÊt cña d·y quan s¸t O, ®èi víi m« h×nh λ vµ d·y tr¹ng th¸i q lµ :

P(O, q|λ) = P(O⏐q, λ) P(q⏐λ)

= πq1 bq1(O1) aq1q2 bq2(O2) aq2q3... aqT-1qT bqT(OT)


X¸c suÊt cña d·y quan s¸t O ®èi víi m« h×nh λ sÏ lµ tæng cña tÊt c¶ c¸c x¸c suÊt
d·y quan s¸t O ®èi víi m« h×nh λ víi mäi d·y d·y tr¹ng th¸i q cã thÓ cã :

P (O | λ ) = ∑ P(O, q λ ) = ∑ π q1 bq1 (O1 )aq1q2 bq2 (O2 )...aqT −1qT bqT (OT )
q Q
(2.2)

§é phøc t¹p tÝnh to¸n cña c«ng thøc (2.2) lµ 2T. NT , bëi v× t¹i mçi thêi ®iÓm t, cã N
kh¶ n¨ng chuyÓn tr¹ng th¸i, trong mçi tr¹ng th¸i cã (2T-1).NT phÐp tÝnh nh©n, NT -1
phÐp tÝnh céng. Trong thùc tÕ c«ng thøc nµy kh«ng thÓ thùc hiÖn ®−îc do ®é phøc t¹p
qu¸ lín. §Ó kh¾c phôc vÊn ®Ò nµy thuËt to¸n tiÕn-lïi (forward-backward algorithms)
®−îc dïng ®Ó tÝnh x¸c suÊt d·y quan s¸t O ®èi víi m« h×nh λ.
40

Ta ®Þnh nghÜa biÕn tiÕn αt (i) forward lµ x¸c suÊt cña d·y quan s¸t O tíi thêi ®iÓm t:
O= O1, O2, ..., Ot t¹i tr¹ng th¸i Si ®−îc sinh bëi m« h×nh λ

α t (i)=P(O1, O2, ..., Ot, qt =S i⏐λ)


víi gi¸ trÞ khëi t¹o α1(i)=πi bi(O1), 1 ≤ i ≤ N

C¸c α t (i) ®−îc tÝnh b»ng thuËt to¸n ®Ö qui ®−îc miªu t¶ nh− sau:
1) Khëi t¹o

α1 (i)= πi bi(O1) 1≤i≤N


2) TÝnh c¸c αt+1(j) b»ng ph−¬ng ph¸p ®Ö qui

⎡ N

αt+1(j) = ⎢ ∑ α t (i )aij ⎥ b j (Ot +1 ) (2.3)
⎣ i =1 ⎦

1 ≤ t ≤ T −1 , 1 ≤ j ≤ N

3) KÕt thóc
N
P(O⏐λ) = ∑α
i =1
T (i )

B−íc 1) khëi t¹o c¸c α1 (i) t−¬ng øng víi c¸c tr¹ng th¸i i kh¸c nhau. T¹i b−íc 2 c¸c
αt+1(j) ®−îc tÝnh theo ph−¬ng ph¸p ®Ö quy dùa vµo c¸c αt(j) ®−îc tÝnh tr−íc ®ã. H×nh
2.3 miªu t¶ c¸c phÐp to¸n cÇn thiÕt ®Ó tÝnh c¸c αt(j). Tr¹ng th¸i cña m« h×nh t¹i thêi
®iÓm t+1 lµ Sj vµ cã tÊt c¶ N kh¶ n¨ng ®Ó dÉn tíi tr¹ng th¸i Sj tõ c¸c tr¹ng th¸i Si víi x¸c
suÊt lµ αt (i). X¸c suÊt nµy nh©n víi x¸c suÊt chuyÓn tr¹ng th¸i aij sÏ cho ta x¸c suÊt m«
h×nh ë tr¹ng th¸i Sj t¹i thêi ®iÓm t+1 víi ®iÒu kiÖn m« h×nh ë tr¹ng th¸i Si t¹i thêi ®iÓm
t. Tæng c¸c x¸c suÊt nµy víi c¸c i tõ 1 ®Õn N cho ta x¸c suÊt ®Ó m« h×nh ë tr¹ng Sj t¹i
thêi ®iÓm t+1, x¸c suÊt nµy nh©n víi x¸c suÊt bj(Ot+1) sÏ cho ta x¸c suÊt d·y quan s¸t O
tíi thêi ®iÓm t +1 ë tr¹ng th¸i Sj vµ ®ã chÝnh lµ αt+1(j).

ThuËt to¸n quy n¹p sÏ dõng ë b−íc 3) khi mµ t =T. Khi ®ã tæng cña c¸c αt(i) víi i tõ
1 ®Õn N sÏ cho ta x¸c suÊt cña d·y quan s¸t O ®èi víi m« h×nh λ: P(O⏐λ).
41

§é phøc t¹p tÝnh to¸n víi c¸ch tÝnh theo c¸c biÕn forward αt(i) lµ N2T , thÊp h¬n so
víi ®é phøc t¹p 2T. NT cña b−íc tr−íc.

S1 a1j

S2 a2j

Sj

aNj
S3
t t +1
α t(i) α t+1(j)

H×nh 2.3. Miªu t¶ c¸c d·y c¸c phÐp to¸n ®−îc thùc hiÖn ®Ó tÝnh biÕn αt (i).

BiÕn lïi (backward) βt(j) ®−îc ®Þnh nghÜa lµ x¸c suÊt cña d·y O tõ thêi ®iÓm t+1
®Õn T : O= Ot+1, Ot+2, ..., OT, víi ®iÒu kiÖn lµ m« h×nh ë tr¹ng th¸i Si t¹i thêi ®iÓm t .

βt(i) = P(Ot+1, Ot+2, ..., OT⏐qt =Si, λ), 1 ≤ t ≤ T


ThuËt to¸n tÝnh biÕn lïi βt(i) còng dùa trªn ph−¬ng ph¸p ®Ö qui gièng nh− tr−êng
hîp cña biÕn tiÕn αt (i):
1) Khëi t¹o

βT(i) = 1, 1≤i≤N
2) TÝnh c¸c βt(j) b»ng ph−¬ng ph¸p ®Ö qui
N
β t ( j ) = ∑ aij b j (Ot +1 )β t +1 ( j )
i =1

t= T-1, T-2, ..., 1, 1≤i≤T


B−íc 1) khëi t¹o c¸c βT(i) b»ng 1 cho tÊt c¶ c¸c i. C¸c tÝnh to¸n cña b−íc 2) ®−îc
m« t¶ trong H×nh 2.4, trong ®ã βt(i) ®−îc tÝnh dùa vµo c¸c βt+1(j) ®−îc tÝnh tr−íc ®ã.
Tr¹ng th¸i cña m« h×nh t¹i thêi ®iÓm t lµ Si vµ cã tÊt c¶ N kh¶ n¨ng ®Ó dÉn tíi tr¹ng th¸i
Si tõ c¸c tr¹ng th¸i Sj t¹i thêi ®iÓm t+1 víi x¸c suÊt lµ βt+1(j). X¸c suÊt nµy nh©n víi x¸c
suÊt chuyÓn tr¹ng th¸i ¹ij, kÕt hîp víi x¸c suÊt quan s¸t Ot+1 t¹i tr¹ng th¸i j sÏ cho ta x¸c
42

suÊt m« h×nh ë tr¹ng th¸i Si t¹i thêi ®iÓm t víi ®iÒu kiÖn m« h×nh ë tr¹ng th¸i Sj t¹i thêi
®iÓm t+1. Tæng c¸c x¸c suÊt nµy víi c¸c j tõ 1 ®Õn N cho ta x¸c suÊt ®Ó m« h×nh ë
tr¹ng Si t¹i thêi ®iÓm t, vµ ®ã lµ βt(i).
a i1
S1
a i2
S2
Si

a Nj

SN
t t+1
βt(i) βt+1(j)

H×nh 2.4. Miªu t¶ c¸c d·y c¸c phÐp to¸n ®−îc thùc hiÖn ®Ó tÝnh biÕn βt(i)

B»ng thuËt to¸n tiÕn-lïi ta cã thÓ tÝnh x¸c suÊt P(O⏐λ) nh− sau: P(O⏐λ) =
N N N

∑α
i =1
T (i ) = ∑π b (O )β (i ) = ∑α (i )β (i )
i =1
i i 1 1
i =1
t t

2.4.2 Bµi to¸n 2


Trong bµi to¸n nµy, ta ph¶i t×m d·y tr¹ng th¸i q=(q1, q2, ..., qT) tèi −u t−¬ng øng víi
mét d·y quan s¸t O=(O1, O2, ..., OT) vµ m« h×nh λ=(A, B, π) cho tr−íc, ®Ó cho P(O,
S⏐λ) lµ lín nhÊt.
Mét ph−¬ng ph¸p th«ng dông hay ®−îc dïng ®Ó gi¶i quyÕt bµi to¸n nµy lµ dïng
thuËt to¸n t×m kiÕm Viterbi. §©y lµ thuËt to¸n dùa trªn ph−¬ng ph¸p lËp tr×nh ®éng
(Dynamic Programing Method) ®Ó t×m ra mét d·y c¸c tr¹ng th¸i tèi −u duy nhÊt.
ThuËt to¸n Viterbi:

Ta ®Þnh nghÜa biÕn δt(i) = max P(q1 , q2 ,..., qt = i, O1 , O2 ,..., Ot λ ) lµ biÕn cã ®iÓm cao
q1 , q1 ,...q t −1 ,

nhÊt (best score) t¹i thêi ®iÓm t t−¬ng øng víi d·y tr¹ng th¸i q1, q2, ..., qt-1, kÕt thóc t¹i
tr¹ng th¸i Si.

C¸c biÕn δt(i) ®−îc tÝnh b»ng ph−¬ng ph¸p ®Ö qui dùa trªn c¸c tÝnh to¸n tr−íc ®ã
43

δt+1(i)= [max(δ t (i )aij ]b j (Ok )


1≤i ≤ N

§Ó l−u vÕt c¸c c¸c tr¹ng th¸i cña d·y ta dïng m¶ng ψ t(i), khi thuËt to¸n kÕt thóc c¸c
phÇn tö trong m¶ng chÝnh lµ c¸c tr¹ng th¸i cña d·y q cÇn t×m. Sau ®©y chi tiÕt thuËt to¸n
Viterbi
Khëi t¹o

δt(i) = πibi(O1), 1≤i≤N


ψ1(i)=0
TÝnh to¸n ®Ö qui
δ t +1 (i ) = [max(δ t (i ).aij ].b j (Ok )
1≤i ≤ N , 2≤t≤, 1≤i≤N (2.4)
ψ1 (i ) = arg max[δ t −1 (i ).aij ]
1≤i ≤ N 2 ≤ t ≤ T, 1 ≤ i ≤ N
KÕt thóc
P* = max[δ T (i )]
1≤i ≤ N

q *T = arg max[δ T (i ).aij ]


1≤i ≤ N

Truy håi c¸c tr¹ng th¸i

q*T=ψ t+1(q*t+1), t = T-1, T-2, ... ,1


KÕt thóc thuËt to¸n c¸c q*t chÝnh lµ c¸c tr¹ng th¸i cña d·y cÇn t×m.

ThuËt to¸n Viterbi gÇn giång nh− thuËt to¸n tÝnh biÕn tiÕn αt(i). §iÓm kh¸c nhau c¬
b¶n gi÷a hai thuËt to¸n nµy lµ c«ng thøc tÝnh max (2.4) ®−îc dïng thay cho c«ng thøc
tÝnh tæng (2.3).

2.4.3 Bµi to¸n 3


§©y lµ bµi to¸n khã kh¨n nhÊt cña m« h×nh Markov Èn, chóng ta ph¶i ®iÒu chØnh bé
ba c¸c tham sè (A, B, π) ®Ó x¸c suÊt P(O⏐λ) lµ lín nhÊt. Trªn thùc tÕ kh«ng tån t¹i mét
ph−¬ng ph¸p thùc sù tèi −u ®Ó P(O⏐λ) lµ lín nhÊt. Gi¶i ph¸p cho bµi to¸n nµy th−êng
lùa chän c¸c thñ tôc huÊn luyÖn lÆp (iteration) Baum-Wetch.
44

§Ó miªu t¶ thuËt to¸n ®iÒu chØnh tham sè (re-estimation) Baum-Wetch, ta ®Þnh


nghÜa biÕn γt(i) = P(qt = Si ⏐O, λ) lµ x¸c suÊt ®Ó m« h×nh ë tr¹ng th¸i Si vµo thêi ®iÓm t
víi d·y quan s¸t O vµ m« h×nh λ ®· cho. Víi ®Þnh nghÜa trªn, biÕn γt(i) ®−îc biÓu diÔn
th«ng qua hai biÕn tiÕn vµ lïi nh− sau:
P(qt = Si , O λ) αt (i )βt (i ) α (i )βt (i )
γt(i)= = = N t (2.5)
P (O λ) P (O λ)
∑ αt (i)βt (i)
i =1

Trong c«ng thøc trªn α t (i) lµ x¸c suÊt cña d·y qua s¸t O1, O2, ..., Ot vµ βt(i) lµ x¸c
suÊt cña d·y Ot+1, Ot+2, ..., OT. víi m« h×nh ë tr¹ng th¸i Si vµo thêi ®iÓm t.
Tõ c«ng thøc (2.5) ta rót ra ®−îc
N

∑γ
i =1
t (i ) = 1

Víi γt(i) ta cã thÓ t×m ®−îc t¹i thêi ®iÓm t x¸c suÊt lín nhÊt cña d·y O1, O2, ..., Ot
lµ :

qt=argmax[γt(i)], 1 ≤ i ≤ N, 1 ≤ t ≤ T

Ta ®Þnh nghÜa biÕn ξt(i, j) lµ x¸c suÊt m« h×nh ë tr¹ng th¸i Si t¹i thêi ®iÓm t vµ ë
tr¹ng th¸i Sj t¹i thêi ®iÓm t+1 víi m« h×nh λ vµ d·y quan s¸t O cho tr−íc.

ξt(i, j) = P(qt = Si, qt+1 = Sj⏐O, λ)


H×nh 2.5 miªu t¶ mèi quan hÖ chuyÓn dÞch gi÷a c¸c tr¹ng th¸i Si vµ Sj. Tõ ®Þnh nghÜa
c¸c biÕn tiÕn lïi αt(i) vµ βt(i) ta cã

P(qt = Si , qt +1 = S j , O λ) α t (i )aij b j (Ot +1 ) β t +1 ( j )


ξt(i, j) = =
P (O λ) P (O λ )

α t (i)aij b j (Ot +1 ) β t +1 ( j )
ξt(i, j) = N N

∑∑α (i)a b (O
i =1 j =1
t ij j t +1 ) β t +1 ( j )

P(qt = Si , O λ ) α t (i) β t (i )
γt(i) = P(qt = Si ⏐O, λ) = =
P (O λ ) P (O λ )
45

Víi c¸c ®Þnh nghÜa trªn ta cã


N
γt(i)= ∑ ε t (i, j )
j =1

Si Sj

αt(i) βt+1(j)

t-1 t t+1 t+2

H×nh 2.5. Miªu t¶ c¸c phÐp tÝnh cÇn thiÕt ®Ó tÝnh ξt(i, j).
Tõ ®Þnh nghÜa c«ng thøc trªn ta cã thÓ nhËn thÊy:


T −1
t =1
ξ t (i, j ) = lµ kh¶ n¨ng ®Ó m« h×nh chuyÓn tr¹ng th¸i tõ Si sang Sj


T −1
t =1
γ t (i ) = lµ kh¶ n¨ng ®Ó m« h×nh chuyÓn tr¹ng th¸i tõ Si

Tõ c¸c quan s¸t trªn ta cã tËp c¸c c«ng thøc dïng ®Ó ®iÒu chØnh (re-estimation) c¸c
tham sè cña m« h×nh Markov Èn nh− sau :

π i = kh¶ n¨ng m« h×nh ë tr¹ng th¸i Si t¹i thêi ®iÓm (t=1) = γ 1 (i ) (2.6)

a ij = kh¶ n¨ng chuyÓn tõ tr¹ng th¸i Si sang tr¹ng th¸i Sj/ kh¶ n¨ng chuyÓn tõ tr¹ng
th¸i Si


T −1
ξ (i, j )
= t =1 t
(2.7)

T −1
γ (i )
t =1 t

b j (v k ) = kh¶ n¨ng ë t¹i tr¹ng th¸i Si víi ký hiÖu quan s¸t vk / kh¶ n¨ng ë t¹i tr¹ng
th¸i Si


T
t =1,Ot = vk
γt ( j )
= (2.8)

T
γ ( j)
t =1 t
46

Víi mét m« h×nh λ=(A, B, π) ®Çu tiªn chóng ta dïng c¸c c«ng thøc (2.6), (2.7),
(2.8) ®Ó tÝnh to¸n bé tham sè míi λ = ( A, B , π) . Ng−êi ta ®· chøng minh ®−îc r»ng :

− HoÆc lµ m« h×nh khëi ®iÓm λ ®−îc ®Þnh nghÜa chÝnh x¸c lµ m« h×nh héi tô vµ do ®ã
λ= λ .
− HoÆc lµ m« h×nh míi cã P(O⏐ λ ) > P(O⏐λ)

Dùa vµo chøng minh nµy chóng ta dïng λ thay thÕ cho λ lµ lÆp l¹i c¸c tÝnh to¸n
(2.6), (2.7), (2.8) ta sÏ c¶i thiÖn ®−îc x¸c suÊt P(O⏐λ) cho tíi thêi ®iÓm thuËt to¸n héi
tô.
Trong qu¸ tr×nh tÝnh to¸n, sau mçi lÇn lÆp c¸c biÓu thøc sau ®©y lu«n ®−îc tho¶
m·n :
N

∑π
i =1
i =1

∑a
j =1
ij =1 1≤i≤N

∑ b (k ) = 1
k =1
j 1≤j≤N

2.4.4 Chøng minh c«ng thøc Baum-Welch.


2.4.4.1 Bæ ®Ò
C
Cho c¸c hÖ sè ci > 0 , i=0,1,..., C vµ mét ®iÒu kiÖn rµng buéc ∑x
i =1
i =1

Khi ®ã hµm
C
f ( x) = ∑ ci log xi
i =1

sÏ ®¹t cùc trÞ t¹i


47

ci
xi = C

∑c
i =1
i

Chøng minh
C
f a = f ( x) + λ ∑ xi
i

ci
−λ = 0
xi
C
λ = ∑ ci
i

2.4.4.2 Chøng minh c«ng thøc Baum-Welch


C«ng thøc −íc l−îng l¹i tham sè m« h×nh Markov Èn Baum-Welch ®−îc chøng
minh b»ng thuËt to¸n EM, ®−îc tr×nh bµy trong [Bilmes 1998].
D÷ liÖu kh«ng quan s¸t ®−îc Y trong thuËt to¸n EM lµ c¸c d·y tr¹ng th¸i Èn S cña
m« h×nh Markov Èn. Hµm Q ®−îc ®Þnh nghÜa nh− sau:
1
Q (λ , λ ) = ∑ Pr(O, S | λ ) log Pr(O, S | λ )
Pr(O, λ ) allS (2.9)

1
Hµm Q(λ , λ ) sÏ ®−îc xem nh− lµ hµm cña biÕn λ . Do vËy gi¸ trÞ cã thÓ
Pr(O, λ )
®−îc xem nh− lµ h»ng sè. Víi hµm Q nh− vËy ta cã ®Þnh lý sau:

§Þnh lý 2.1: NÕu Q(λ , λ ) ≥ Q(λ , λ ) th× Pr(O | λ ) ≥ Pr(O, λ )

Chøng minh:
Tõ tÝnh chÊt lâm cña hµm logarit ta cã:

Pr(O | λ ) Pr(O, S | λ ) Pr(O, S | λ )


log = log( ∑ )
Pr(O, λ ) all S Pr(O, λ ) Pr(O, S , λ )

Pr(O, S | λ ) Pr(O, S | λ )
≥∑ log( )
all S Pr(O, λ ) Pr(O, S , λ )
48

= Q (λ , λ ) − Q (λ , λ ) (2.10)

Nh− vËy nÕu m« h×nh λ cã thÓ t×m ®−îc ®Ó vÕ ph¶i cña (2.10) lµ d−¬ng th× cã nghÜa
lµ thuËt to¸n −íc l−îng l¹i Baum-Welch cã thÓ ®¶m b¶o t¨ng gi¸ trÞ cña Pr(O, λ ) . Tõ
ph−¬ng tr×nh (2.2) ta cã

P (O, S | λ ) = ∑ π q1 bq1 (O1 )aq1q2 bi2 (O2 )...aqT −1qT bqT (OT ) (2.11)
S

T −1 T
log Pr(O, S | λ ) = log π q1 + ∑ log aqt qt +1 + ∑ log bqt (Ot ) (2.12)
t =1 t =1

Thay ph−¬ng tr×nh (2.12) vµo ph−¬ng tr×nh (2.9) ta cã:


L
Q (λ , λ ) = ∑∑ ci j log aij + ∑∑ d jk log b j (k ) + ∑ ei log π i
i j j k =1 i

Trong ®ã
T −1

∑ Pr(q t = i, qt +1 = j , O | λ )
ci j = t =1

Pr(O | λ )
T −1
= ∑ ξt (i, j )
t =1


t∈ Ot = vk
Pr(qt = i, qt +1 = j , O | λ )
di j =
Pr(O | λ )

= ∑
t∈ Ot = vk
γ t ( j)

Pr(q1 = i, O | λ )
ei =
Pr(O | λ )

= γ 1 (i )

Nh− vËy theo bæ ®Ò ta thÊy hµm Q(λ , λ ) sÏ cùc ®¹i víi c¸c ®iÒu kiÖn sau:
49

ei
πi = γ1 (i ) (2.13)
∑e i
i

∑ ξ (i, j )
T −1
ci j
= = t =1 t
a ij (2.14)
∑ c ∑ ∑ γ (i)
j
ij
T −1
t =1 t
j

d jk ∑
t∈ Ot = vk
γ t ( j)
b j (v k ) = = (2.15)
∑d k
jk ∑ γ ( j)
t
t

C¸c ph−¬ng tr×nh (2.13),(2.14),(2.15) chÝnh lµ c«ng thøc −íc l−îng l¹i Baum-
Welch.

2.5 C¸c lo¹i m« h×nh Markov Èn


Cã nhiÒu c¸ch ph©n lo¹i c¸c m« h×nh Markov Èn, trong ®ã ng−êi ta th−êng ph©n biÖt
c¸c m« h×nh Markov Èn theo tÝnh chÊt cña hµm ph¸t x¹ quan s¸t. Cã ba lo¹i m« h×nh
Markov Èn: m« h×nh Markov Èn rêi r¹c, m« h×nh Markov Èn liªn tôc vµ m« h×nh
Markov Èn b¸n liªn tôc.

2.5.1 M« h×nh HMM rêi r¹c


Trong m« h×nh nµy kh«ng gian c¸c ®Æc tÝnh phæ ®−îc chia thµnh mét sè h÷u h¹n
c¸c vïng (cluster) b»ng ph−¬ng ph¸p l−îng tö ho¸ vector VQ (Vector Quantization).
Träng t©m cña mçi vïng ®−îc biÓu diÔn b»ng mét tõ m· (codeword) mµ thùc chÊt lµ
mét chØ sè chØ tíi mét s¸ch m· (codebook). Mét khung tÝn hiÖu ®−îc biÕn ®æi thµnh
mét tõ m· b»ng c¸ch t×m mét vector gÇn víi nã nhÊt trong s¸ch m·. Nh−îc ®iÓm cña
m« h×nh d¹ng nµy lµ cã sai sè trong qu¸ tr×nh l−îng tö ho¸ nhÊt lµ nÕu kÝch th−íc cña
s¸ch m· lµ nhá, ng−îc l¹i nÕu kÝch th−íc cña s¸ch m· lín th× sÏ ph¶i tr¶ gi¸ b»ng sè
l−îng tÝnh to¸n sÏ t¨ng lªn.
50

2.5.2 M« h×nh HMM liªn tôc


Nh−îc ®iÓm cña ph−¬ng ph¸p trªn cã thÓ ®−îc kh¾c phôc b»ng c¸ch dïng m« h×nh
HMM liªn tôc. Trong ph−¬ng ph¸p nµy kh«ng gian c¸c ®Æc tÝnh phæ ®−îc m« h×nh ho¸
b»ng c¸c hµm mËt ®é x¸c suÊt , th«ng th−êng lµ hµm trén cña c¸c hµm Gaussian.
K
b j ( y ) = ∑ c jk N ( y; µ jk ; Σ jk )
k =1

Trong ®ã K lµ sè thµnh phÇn trén (mixture) t¹i tr¹ng th¸i j, cjk lµ träng sè cña thµnh
phÇn thø k vµ N (.; µ ; Σ) lµ hµm mËt ®é x¸c suÊt Gaussan. Trong qu¸ tr×nh huÊn luyÖn
viÖc hiÖu chØnh c¸c x¸c suÊt hµm b() ®−îc thay b»ng hiÖu chØnh c¸c tham sè µ , Σ .
Nh−îc ®iÓm cña ph−¬ng ph¸p nµy lµ mçi tr¹ng th¸i ®Òu cã c¸c tham sè cña riªng
chóng, do ®ã sè l−îng c¸c tham sè lµ rÊt lín vµ do vËy kh«ng thÓ tr¸nh khái c¸c tr−êng
hîp kh«ng ®ñ d÷ liÖu huÊn luyÖn cho c¸c tr¹ng th¸i. Ngoµi ra m« h×nh liªn tôc sÏ cã
thêi gian tÝnh to¸n tÝnh to¸n kh¸ l©u.

2.5.3 M« h×nh HMM b¸n liªn tôc


M« h×nh HMM b¸n liªn tôc (semi-continuous) lµ m« h×nh kÕt hîp gi÷a hai m«
h×nh trªn. Gièng nh− trong m« h×nh rêi r¹c, trong m« h×nh b¸n liªn tôc còng cã mét
s¸ch m· miªu t¶ c¸c vïng ®−îc dïng chung cho tÊt c¶ c¸c tr¹ng th¸i. Tuy nhiªn thay v×
biÓu diÔn c¸c vïng b»ng mét träng t©m (centroid), trong ®ã c¸c vector l©n cËn sÏ ®−îc
nhãm vµo lµm mét, c¸c vïng ®−îc biÓu diÔn bëi c¸c hµm mËt ®é x¸c suÊt liªn tôc
Gaussian trong vïng kh«ng gian l©n cËn ®Ó tr¸nh c¸c lçi cña l−îng tö ho¸. Nh− vËy
L
b j ( y ) = ∑ c jk N ( y; µ jk ; Σ jk )
k =1

Trong ®ã L lµ kÝch th−íc cña s¸ch m·. Trong qu¸ tr×nh huÊn luyÖn gièng nh− trong
m« h×nh liªn tôc c¸c tham sè Gaussian ®−îc tÝnh to¸n. ViÖc dïng m« h×nh nµy sÏ gióp
c¶i thiÖn thêi gian tÝnh to¸n cña m« h×nh liªn tôc.
Trong khi c¶ ba m« h×nh ®Òu ®−îc sö dông réng r·i trong c¸c hÖ thèng nhËn d¹ng,
m« h×nh liªn tôc cho thÊy kh¶ n¨ng nhËn d¹ng tèt nhÊt mÆc dï tèc ®é ho¹t ®éng cña hÖ
thèng nµy chËm h¬n c¸c hÖ thèng kh¸c.[Huang 1990]
51

2.6 Giíi h¹n cña m« h×nh Markov Èn


MÆc dï m« h×nh Markov Èn ®−îc sö dông réng r·i trong c¸c hÖ thèng nhËn d¹ng,
tuy nhiªn m« h×nh Markov Èn còng cã mét sè nh−îc ®iÓm xuÊt ph¸t tõ c¸c gi¶ thiÕt cña
nã nh− sau:

− Gi¶ thiÕt vÒ bËc. Trong m« h×nh Markov Èn ta gi¶ thiÕt r»ng c¸c x¸c suÊt chØ phô
thuéc vµo tr¹ng th¸i hiÖn thêi, mµ ®éc lËp víi qu¸ khø. §iÒu nµy kh«ng ®óng trong c¸c
øng dông tiÕng nãi. HËu qu¶ cña nh−îc ®iÓm nµy lµ m« h×nh Markov Èn khã kh¨n
trong m« h×nh ho¸ hiÖn t−îng ®ång ph¸t ©m (coarticulation) do c¸c x¸c suÊt ph¸t x¹
quan s¸t bÞ ¶nh h−ëng bëi c¸c tr¹ng tr¸i trong qu¸ khø.

− Gi¶ thiÕt vÒ tÝnh ®éc lËp. Gi¶ thiÕt nµy cho r»ng kh«ng cã mèi liªn hÖ gi÷a c¸c
khung tÝn hiÖu l©n cËn nhau, ®iÒu nµy kh«ng ®óng trong giäng nãi. HMM chØ lµm viÖc
víi mét khung tÝn hiÖu t¹i mét thêi ®iÓm. §Ó lÊy thªm th«ng tin c¸c khung tÝn hiÖu
xung quanh, HMM ph¶i lÊy thªm ®Æc tÝnh phæ cña c¸c khung tÝn hiÖu l©n cËn lµm d÷
liÖu huÊn luyÖn.

− C¸c m« h×nh Markov Èn liªn tôc, rêi r¹c vµ b¸n liªn tôc khã ®¹t ®−îc tr¹ng th¸i tèi
−u. Víi m« h×nh rêi r¹c, mét tû lÖ lçi l−îng tö ho¸ lµ kh«ng tr¸nh khái. Víi m« h×nh
liªn tôc vµ b¸n liªn tôc cã mét tû lÖ nhÊt ®Þnh kh«ng hoµn toµn chÝnh x¸c cña m« h×nh
thèng kª.
Ch−¬ng 3 x©y dùng hÖ thèng

nhËn d¹ng b»ng HMM


Ch−¬ng tr−íc ®· tr×nh bµy c¸c vÊn ®Ò lý thuyÕt c¬ b¶n cña m« h×nh Markov Èn.
Ch−¬ng nµy sÏ tr×nh bµy cô thÓ vÒ qu¸ tr×nh x©y dùng mét hÖ thèng nhËn d¹ng thùc sù
b»ng HMM. C¸c vÊn ®Ò lý thuyÕt tr×nh bµy trong ch−¬ng tr−íc sÏ ®−îc ¸p dông cô thÓ
trong thùc tÕ. Toµn bé ch−¬ng nµy sÏ tr×nh bµy vÒ ph−¬ng ph¸p x©y dùng mét hÖ thèng
nhËn d¹ng b»ng c«ng cô HTK. §©y lµ mét trong nh÷ng bé c«ng cô ®−îc sö dông nhiÒu
trong c¸c nghiªn cøu vÒ nhËn d¹ng tiÕng nãi. PhÇn 1 sÏ dµnh ®Ó giíi thiÖu vÒ bé c«ng
cô HTK. PhÇn 2 sÏ tr×nh bµy qu¸ tr×nh huÊn luyÖn hÖ thèng nhËn d¹ng cïng c¬ së lý
thuyÕt sau mçi b−íc. PhÇn cuèi tr×nh bµy vÒ qu¸ tr×nh nhËn d¹ng cña hÖ thèng.

3.1 Giíi thiÖu vÒ HTK


Bé c«ng cô HTK (Hidden Markov Model Toolkit) lµ bé c«ng cô dïng ®Ó x©y dùng
vµ nghiªn cøu thao t¸c trªn c¸c m« h×nh Markov Èn. Nã bao gåm c¸c m« dun, c¸c c«ng
cô ®−îc viÕt b»ng ng«n ng÷ C. C¸c c«ng cô cung cÊp ph−¬ng tiÖn cho phÐp ph©n tÝch
giäng nãi, huÊn luyÖn HMM, kiÓm tra vµ ph©n tÝch kÕt qu¶ nhËn d¹ng. C¸c phÇn mÒm
dïng c¶ c¸c hµm mËt ®é x¸c suÊt liªn tôc vµ rêi r¹c vµ cã thÓ x©y dùng c¸c hÖ thèng
HMM phøc t¹p.
HTK ®Çu tiªn ®−îc ph¸t triÓn t¹i nhãm Speech Vision and Robotics cña Phßng
C«ng nghÖ §¹i häc Cambridge CUED (Cambridge University Engineering
Department) vµ ®· ®−îc dïng ®Ó x©y dùng hÖ thèng nhËn d¹ng tõ vùng kÝch th−íc lín
cña CUED. Vµo n¨m 1993, phßng thÝ nghiÖm nghiªn cøu Entropic ®· dµnh ®−îc quyÒn
b¸n HTK vµ sù ph¸t triÓn cña HTK ®· hoµn toµn ®−îc chuyÓn cho phßng thÝ nghiÖm
nµy vµo n¨m 1995 khi phßng thÝ nghiÖm nghiªn cøu Cambridge Entropic ra ®êi. N¨m
1999, Microsoft mua l¹i Entropic vµ hiÖn nay Microsoft cã b¶n quyÒn cña HTK. Trong
khi Microsoft gi÷ b¶n quyÒn cña m· nguån HTK, tÊt c¶ mäi ng−êi ®Òu ®−îc khuyªn
khÝch tham gia vµo ph¸t triÓn m· nguån vµ HTK ®−îc cung cÊp miÔn phÝ vµ cã thÓ t¶i
53

xuèng tõ trªn m¹ng t¹i ®Þa chØ: http://htk.eng.cam.ac.uk/download.shtml. Phiªn b¶n míi
nhÊt cña HTK lµ 3.1 [Steve 2002] vµ céng ®ång nh÷ng ng−êi nghiªn cøu sö dông HTK
®· lªn tíi 12 000 ng−êi.

3.2 HuÊn luyÖn hÖ thèng nhËn d¹ng

3.2.1 ChuÈn bÞ d÷ liÖu


3.2.1.1 §Þnh nghÜa ng÷ ph¸p
HTK cho phÐp ®Þnh nghÜa mét qui t¾c ng÷ ph¸p cña mét hÖ thèng nhËn d¹ng d−íi
d¹ng mét tÖp v¨n b¶n. C¸c qui t¾c ng÷ ph¸p nµy sÏ ®−îc sö dông trong giai ®o¹n
decoding dïng thuËt to¸n Viterbi. Tuú theo hÖ thèng nhËn d¹ng mµ ta x©y dùng ng÷
ph¸p cho hÖ thèng ®ã. VÝ dô sau lµ mét qui t¾c ng÷ ph¸p cña mét hÖ thèng nhËn d¹ng
quay sè b»ng giäng nãi, ng−êi dïng cã thÓ ®äc sè ®iÖn tho¹i cÇn gäi hoÆc ®äc tªn cña
ng−êi bÞ gäi.
$digit = ONE | TWO | THREE | FOUR | FIVE |
SIX | SEVEN | EIGHT | NINE | OH | ZERO;
$name = [ JOOP ] JANSEN |
[ JULIAN ] ODELL |
[ DAVE ] OLLASON |
[ PHIL ] WOODLAND |
[ STEVE ] YOUNG;
( SENT-START ( DIAL <$digit> | (PHONE|CALL) $name) SENT-END )

3.2.1.2 §Þnh nghÜa tõ ®iÓn


Tõ ®iÓn ®−îc ®Þnh nghÜa trong mét tÖp v¨n b¶n bao gåm c¸c tõ mµ hÖ thèng cã thÓ
nhËn d¹ng ®−îc vµ c¸c phiªn ©m cña c¸c tõ nµy thµnh c¸c ®¬n vÞ nhËn d¹ng cña hÖ
thèng. §èi víi c¸c hÖ thèng nhËn d¹ng cã sè tõ vùng lín, c¸c ®¬n vÞ nhËn d¹ng nµy
th−êng lµ ©m vÞ. Mét tõ ®iÓn bao gåm nhiÒu dßng, mçi dßng t−¬ng øng víi mét tõ vµ
phiªn ©m cña nã. Mét tõ cã thÓ cã nhiÒu phiªn ©m kh¸c nhau. Cã hai ©m vÞ ®Æc biÖt ®ã
lµ sil vµ sp. sil lµ ®¬n vÞ nhËn d¹ng biÓu thÞ mét kho¶ng yªn lÆng, sp lµ ®¬n vÞ nhËn
d¹ng biÓu thÞ mét ng¾t giäng (short pause). C¶ hai ®¬n vÞ ®Òu biÓu thÞ mét kho¶ng yªn
lÆng, sil ®−îc khai b¸o ë ®Çu vµ cuèi mçi ph¸t ©m, sp ®−îc ®Æt ë gi÷a hai tõ trong mét
c©u. M« h×nh Markov Èn cña sp ®−îc x©y dùng dùa trªn m« h×nh Markov Èn cña sil.
54

Kh¸c nhau c¬ b¶n cña hai ®¬n vÞ nhËn d¹ng lµ vai trß cña nã trong x©y dùng ng÷ c¶nh
cho c¸c ©m vÞ. VÝ dô vÒ mét tÖp ®Þnh nghÜa tõ ®iÓn nh− sau:
soo s oo sp
soo s oo sil
ddieen dd ie n sp
ddieen dd ie n sil
thoai th w aw i sp
thoai th w aw i sil
quen k w e n sp
quen k w e n sil
....

3.2.1.3 C¬ së d÷ liÖu
C¬ së d÷ liÖu bao gåm c¸c tÖp ©m thanh l−u ë d¹ng wav, vµ c¸c tÖp v¨n b¶n chøa
phiªn ©m chÝnh t¶ cña c¸c tÖp ©m thanh. Mçi tÖp ©m thanh cã mét tÖp v¨n b¶n t−¬ng
øng chøa phiªn ©m chÝnh t¶ cña ph¸t ©m. C¸c phiªn ©m ë møc ©m vÞ ®−îc l−u trong c¸c
tÖp cã ®u«i .phn. C¸c phiªn ©m ë møc ©m vÞ bao gåm nhiÒu dßng, mçi dßng chøa tªn
©m vÞ cïng víi nh·n thêi gian cña ©m vÞ ®ã trong tÖp ©m thanh.
3.2.1.4 TrÝch chän c¸c ®Æc ®iÓm
C«ng viÖc tÝnh to¸n trÝch chän c¸c ®Æc tÝnh phæ cña c¸c tÖp ©m thanh ®−îc thùc
hiÖn bëi c«ng cô Hcopy. HTK hç trî tÝnh to¸n nhiÒu lo¹i tham sè kh¸c nhau, trong ®ã
cã c¸c lo¹i th«ng dông lµ MFCC vµ PLP. C¸c hÖ sè MFCC vµ PLP ®−îc tÝnh to¸n vµ
l−u vµo mét tÖp t−¬ng øng víi tÖp ©m thanh víi phÇn ®u«i lµ .mfc. C¸c gi¸ trÞ delta cña
c¸c hÖ sè trªn ®−îc tÝnh to¸n trong qu¸ tr×nh huÊn luyÖn vµ nhËn d¹ng (on-the-fly).
Hcopy sÏ ®äc mét tÖp cÊu h×nh, trong ®ã khai b¸o c¸c tham sè dïng trong qu¸ tr×nh
tÝnh to¸n c¸c gi¸ trÞ ®Æc tÝnh phæ cña tÖp ©m thanh. VÝ dô tÖp cÊu h×nh nh− sau:
SOURCEKIND = WAVEFORM
SOURCEFORMAT = WAV
TARKETRATE = 100000
ENORMALISE = T
NUMCEPS = 12
CELPLIFTER = 22
55

PREEMCOEF = 0.970000
USEPOWER = T
USEHAMMING = T
WINDOWSIZE = 250000.000000
SAVEWITHCRC = T
SAVECOMPRESSED = T
TARGETRATE = 100000.000000
TARGETKIND = PLP_E_D_A_Z

Trong khai b¸o trªn ph−¬ng ph¸p trÝch trän ®Æc ®iÓm PLP ®−îc ¸p dông, kÝch
th−íc cöa sæ Hamming lµ 25sm, sè m¹ch läc lµ 22, hÖ sè dïng ®Ó nhÊn m¹nh (pre-
emphasis) lµ 0.97, c¸c tham sè ®−îc dïng bao gåm 12 hÖ sè PLP céng víi gi¸ trÞ n¨ng
l−îng. Gi¸ trÞ delta vµ delta+delta ®−îc sö dông t¹o thµnh vector 39 ®Æc tÝnh. Ph−¬ng
ph¸p CMS ®−îc ¸p dông ®Ó läc bá nhiÔu.

3.2.2 Khai b¸o cÊu tróc m« h×nh Markov


Mçi m« h×nh Markov chøa nhiÒu tr¹ng th¸i, trong ®ã cã mét tr¹ng th¸i khëi ®Çu vµ
mét tr¹ng th¸i kÕt thóc lµ c¸c tr¹ng th¸i ®Æc biÖt kh«ng ph¸t sinh quan s¸t (non-
emitting), nghÜa lµ kh«ng cã x¸c suÊt ph¸t x¹ quan s¸t bj(ot) kÕt hîp víi c¸c tr¹ng th¸i
nµy.
§èi víi c¸c tr¹ng th¸i kh«ng ph¶i lµ tr¹ng th¸i ®Çu vµ tr¹ng th¸i cuèi, x¸c suÊt ph¸t
x¹ quan s¸t lµ mét hµm mËt ®é x¸c suÊt ®−îc x©y dùng trªn c¬ së c¸c hµm mËt ®é x¸c
suÊt Gaussian. Hµm nµy bao gåm mét hoÆc nhiÒu c¸c dßng (stream), mçi dßng cã thÓ
cã mét hoÆc nhiÒu thµnh phÇn trén bao gåm c¸c hµm mËt ®é x¸c suÊt Gaussian. CÊu
tróc nhiÒu dßng cho phÐp hÖ thèng m« h×nh ho¸ nhiÒu dßng th«ng tin kh¸c nhau. Th«ng
th−êng sè l−îng dßng tèi ®a lµ 4 dßng.
C«ng thøc tæng qu¸t cña hµm ph¸t x¹ quan s¸t ot t¹i tr¹ng th¸i j ®−îc biÓu diÔn nh−
sau:
γs
S ⎡ M js ⎤
b j (ot ) = ∏ ⎢ ∑ c jsm N (ost ; µ jsm ; Σ jsm ) ⎥
s =1 ⎣ m =1 ⎦ (3.1)
56

Trong ®ã Mjs lµ sè thµnh phÇn trén (mixture) t¹i tr¹ng th¸i j cña dßng (stream) s, cjsm
lµ träng sè cña thµnh phÇn thø m vµ N (.; µ ; Σ) lµ hµm x¸c suÊt Gaussan ®a biÕn
(multivariate) víi c¸c tham sè µ vµ Σ .
1
1 − ( o − µ ) ′ Σ −1 ( o − µ )
N (o; µ ; Σ) = e 2

(2π ) n Σ

Trong ®ã n lµ kÝch th−íc cña quan s¸t o, γ s lµ träng sè cña dßng stream s cho phÐp
hÖ thèng tËp trung h¬n vµo mét dßng d÷ liÖu nµo ®ã vµ gi¸ trÞ ngÇm ®Þnh lµ 1.
CÊu tróc vµ c¸c tham sè cña m« h×nh Markov Èn ®−îc ®Þnh nghÜa trong mét tÖp v¨n
b¶n. VÝ dô vÒ mét tÖp ®Þnh nghÜa mét m« h×nh Markov Èn cã n¨m tr¹ng th¸i, trong ®ã
cã mét tr¹ng th¸i khëi ®Çu vµ mét tr¹ng th¸i kÕt thóc nh− sau:
1. ~o <VecSize> 39 <PLP_E_D_A_Z>
2. ~h "proto"
3. <BeginHMM>
4. <NumStates> 5
5. <State> 2
6. <Mean> 39
7. 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
8. 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
9. 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
10. 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
11. <Variance> 39
12. 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
13. 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
14. 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
15. 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
16. <State> 3
17. <Mean> 39
18. ...
19. <TransP> 5
20. 0.0 1.0 0.0 0.0 0.0
21. 0.0 0.6 0.4 0.0 0.0
57

22. 0.0 0.0 0.6 0.4 0.0


23. 0.0 0.0 0.0 0.7 0.3
24. 0.0 0.0 0.0 0.0 0.0
25. <EndHMM>

Dßng 1 cho biÕt vector ®Æc tÝnh ®−îc sö dông lµ 12 hÖ sè PLP, mét gi¸ trÞ n¨ng
l−îng (E), c¸c gi¸ trÞ delta bËc mét vµ bËc 2 ®−îc sö dông (D_A) t¹o thµnh mét vector
gåm 39 ®Æc tÝnh. Ph−¬ng ph¸p xö lý tiÕng nãi CMS ®−îc sö dông ®Ó lo¹i bá ¶nh h−ëng
cña nhiÔu (_Z).
Dßng 4 cho biÕt sè l−îng tr¹ng th¸i trong m« h×nh lµ 5 tr¹ng th¸i. Víi mçi tr¹ng
th¸i, c¸c gi¸ trÞ µ vµ Σ ®−îc khai b¸o tõ dßng 6 tíi dßng 15. Sè l−îng c¸c gi¸ trÞ nµy
b»ng sè l−îng c¸c ®Æc tÝnh phæ ®−îc dïng. Ma trËn hiÖp ph−¬ng sai th−êng lµ ma trËn
®èi xøng cã thÓ ®−îc khai b¸o b»ng c¸c gi¸ trÞ phÇn tö cña ma trËn hoÆc ®−îc khai b¸o
b»ng c¸c gi¸ trÞ trªn ®−êng chÐo cña ma trËn nh− lµ ë vÝ dô trªn (khi ®ã c¸c phÇn tö cßn
l¹i cã gi¸ trÞ 0).

3.2.3 Khëi t¹o c¸c tham sè


Sau khi ®−îc khai b¸o víi cÊu tróc vµ c¸c gi¸ trÞ tham sè ban ®Çu, c¸c m« h×nh
Markov Èn cã thÓ ®−îc khëi t¹o (initialised) b»ng theo hai c¸ch: dïng Hinit hoÆc dïng
Hcompv.
3.2.3.1 Dïng c«ng cô Hinit
H×nh 3.1 miªu t¶ ho¹t ®éng cña Hinit. Hinit ®−îc dïng ®Ó huÊn luyÖn m« h×nh
Markov Èn ®èi víi tõng ©m vÞ. D÷ liÖu vµo cña Hinit lµ tÖp ®Þnh nghÜa cÊu tróc vµ c¸c
tham sè khai b¸o b»ng tay cña ©m vÞ, vÝ dô ©m vÞ /m/ cã tÖp t−¬ng øng “m.1”. D÷ liÖu
vµo thø hai lµ d·y c¸c vector ®Æc tÝnh phæ t−¬ng øng víi ©m vÞ /m/ ®−îc lÊy trong tËp d÷
liÖu huÊn luyÖn lµ c¸c tÖp .mfc. Th«ng tin vÒ c¸c nh·n thêi gian ®−îc dïng ®Ó läc ra c¸c
vector phæ t−¬ng øng víi ©m vÞ /m/ trong sè c¸c ©m vÞ kh¸c trong d÷ liÖu huÊn luyÖn.
KÕt qu¶ huÊn luyÖn cña Hinit lµ c¸c tham sè cña m« h×nh Markov Èn cña ©m vÞ /m/ ®·
®−îc khëi t¹o.
Víi mçi d·y vector c¸c ®Æc tÝnh phæ, ®Çu tiªn thuËt to¸n Viterbi ®−îc dïng ®Ó t×m
d·y tr¹ng th¸i tèt nhÊt víi mçi d·y vector huÊn luyÖn, sau ®ã c¸c tham sè ®−îc tÝnh
58

to¸n. Mét hÖ qu¶ cña thuËt to¸n Viterbi lµ x¸c suÊt gièng nhau likelihook cña d÷ liÖu
huÊn luyÖn víi m« h×nh sÏ ®−îc tÝnh to¸n vµ qu¸ tr×nh sÏ tiÕp tôc lÆp l¹i cho ®Õn khi
viÖc t¨ng x¸c suÊt tíi gÇn ®iÓm héi tô.

C¸c mÉu HMM

Ph©n ®o¹n ®Òu nhau

Khëi t¹o tham sè

Ph©n ®o¹n b»ng


Viterbi

CËp nhËt c¸c tham sè

Sai
Héi tô

§óng
Tham sè ®· tÝnh to¸n

H×nh 3.1. ThuËt to¸n cña Hinit


Tuy nhiªn ë vßng lÆp ®Çu tiªn, thuËt to¸n Viterbi kh«ng ®−îc dïng ®Ó ph©n ®o¹n
bëi v× c¸c tham sè cña m« h×nh lóc nµy míi chØ lµ c¸c tham sè ®−îc khai b¸o b»ng tay
ch−a ®ñ chÝnh x¸c ®Ó tiÕn hµnh ph©n ®o¹n. §Ó gi¶i quyÕt tr−êng hîp nµy c¸c d·y vector
ph¸t ©m ®−îc chia thµnh c¸c ®o¹n thêi gian b»ng nhau vµ g¸n cho c¸c ®o¹n nµy c¸c
tr¹ng th¸i t−¬ng øng víi m« h×nh. C¸ch lµm nµy chØ ¸p dông ®−îc víi m« h×nh Markov
Èn cã cÊu tróc tr¸i-ph¶i (left-right). §èi víi m« h×nh Markov Èn cã cÊu tróc ergodic,
Hinit kh«ng ¸p dông ®−îc.
NÕu tr¹ng th¸i cña m« h×nh cã nhiÒu thµnh phÇn trén, vector huÊn luyÖn sÏ ®−îc kÕt
hîp víi thµnh phÇn cã x¸c suÊt gièng nhau likelihood lín nhÊt. Sè l−îng vector kÕt hîp
víi mçi thµnh phÇn trén sau nµy sÏ ®−îc dïng ®Ó tÝnh to¸n gi¸ trÞ träng sè cña thµnh
59

phÇn trén. Trong b−íc ®Çu khi ph¸t ©m ®−îc ph©n ®o¹n thµnh c¸c ®o¹n thêi gian b»ng
nhau, thuËt to¸n K-mean ®−îc ¸p dông ®Ó chia c¸c vector thµnh c¸c nhãm t−¬ng øng
víi mçi thµnh phÇn trén trong mçi tr¹ng th¸i.

§Þnh nghÜa m« mÉu huÊn luyÖn 1.mfc


h×nh m.1 mÉu huÊn luyÖn 2.mfc
mÉu huÊn luyÖn 3.mfc

Hinit

000 021 a
m« h×nh m.2 022000
055021
m a
056022000« 021
089055 m a
089056022
m « m
156089055
089056
156089
m «
089 156 m

H×nh 3.2. M« h×nh ho¹t ®éng cña Hnit


Gäi tËp huÊn luyÖn lµ Or, trong ®ã. ThuËt to¸n Viterbi ®−îc ¸p dông ®Ó t×m d·y c¸c
tr¹ng th¸i thÝch hîp nhÊt b»ng c¸ch t×m gi¸ trÞ lín nhÊt cña:
φ N (T ) = max φi (T )aiN
i

Trong ®ã 1 < i < N vµ

φ j (t ) = ⎡ max φi (t − 1)aij ⎤ b j (ot )


⎣ i ⎦

Víi ®iÒu kiÖn khëi t¹o lµ:


φ1 (1) = 1

φ j (1) = a1 j b j (ot )

Víi 1 < j < N .

NÕu ta gäi Aij lµ tæng sè chuyÓn dÞch tõ tr¹ng th¸i i sang tr¹ng th¸i j trong thuËt to¸n
trªn, khi ®ã x¸c suÊt chuyÓn tr¹ng th¸i ®−îc tÝnh to¸n nh− sau:
Aij
aˆij =

N
k =2
Aik
60

D·y c¸c tr¹ng th¸i mµ cã gi¸ trÞ φ N (T ) cao nhÊt cho ta mét d·y s¾p xÕp (alignment)
c¸c quan s¸t cña d÷ liÖu huÊn luyÖn víi d·y c¸c tr¹ng th¸i. Víi mçi tr¹ng th¸i mét d·y
s¾p xÕp gi÷a c¸c quan s¸t vµ c¸c thµnh phÇn trén ®−îc tiÕp tôc thùc hiÖn. Cã hai c¸ch
thùc hiÖn:
11) hoÆc lµ dïng thuËt to¸n ph©n vïng nh− K-mean ®Ó ph©n c¸c quan s¸t ost vµo mét
trong c¸c nhãm Ms t−¬ng øng víi c¸c thµnh phÇn trén.
12) hoÆc lµ kÕt hîp mçi quan s¸t víi thµnh phÇn trén cã x¸c suÊt lín nhÊt.

Cuèi cïng ta còng cã mét quan s¸t øng víi mçi thµnh phÇn trén. Gäi hµm ϕ rjsm (t ) cã
gi¸ trÞ lµ 1 nÕu ostr kÕt hîp víi thµnh phÇn trén m cña dßng s víi tr¹ng th¸i j, ng−îc l¹i
nã cã gi¸ trÞ lµ 0. Ta cã:

∑ ∑ ϕ
R Tr r
(t )ostr
µˆ jsm = r =1 t =1 jsm

∑ ∑ ϕ
R Tr
r =1 t =1
r
jsm (t )

∑ ∑ ϕ rjsm (t )(ostr − µˆ rjsm )(ostr − µˆ rjsm )′


R Tr

Σˆ jsm = r =1 t =1

∑ ∑ ϕ rjsm (t )
R Tr
r =1 t =1

C¸c träng sè thµnh phÇn trén ®−îc tÝnh to¸n dùa trªn sè c¸c quan s¸t t−¬ng øng víi
mçi thµnh phÇn:

∑ ∑ ϕ
R Tr r
(t )
= r =1 t =1 jsm
c jsm
∑ ∑ ∑ ϕ (t )
R Tr Ms r
r =1 t =1 l =1 jsl

3.2.3.2 Dïng c«ng cô Hcompv


Mét giíi h¹n cña c«ng cô Hinit ®ã lµ c¸c d÷ liÖu huÊn luyÖn cÇn ph¶i ®−îc g¸n
nh·n. Víi c¸c th«ng tin vÒ nh·n thêi gian cña c¸c ®¬n vÞ nhËn d¹ng, Hinit sÏ tÝnh to¸n
c¸c tham sè cña m« h×nh Markov Èn t−¬ng øng víi tõng ©m vÞ dùa trªn c¸c th«ng tin
nh·n thêi gian cña mçi ©m vÞ trong tËp d÷ liÖu huÊn luyÖn.
Víi Hcompv, khi c¸c nh·n thêi gian nãi trªn kh«ng ®−îc cung cÊp th× Hcompv sÏ
khëi t¹o c¸c tham sè cña tÊt c¶ c¸c m« h×nh Markov Èn víi cïng mét gi¸ trÞ. C¸ch lµm
61

nµy gäi lµ khëi t¹o ph¼ng (flat start). Trªn thùc tÕ, Hcompv lµm viÖc gièng nh− Hinit ë
b−íc khëi ®Çu, tøc lµ c¸c vector cña mét ph¸t ©m sÏ ®−îc chia thµnh c¸c ®o¹n ®Òu nhau
®Òu cho tÊt c¸c ©m vÞ. Tuy nhiªn kh¸c víi Hinit, c¸c ©m vÞ ®Òu chung nhau mét m«
h×nh vµ c¸c tham sè cña m« h×nh nµy sÏ ®−îc tÝnh to¸n vµ khëi t¹o gièng nhau. H×nh
3.3 miªu t¶ ho¹t ®éng cña Hcompv.

§Þnh nghÜa m«
h×nh proto

D÷ liÖu
huÊn luyÖn
Hcompv

c¸c m« ...
h×nh gièng a m b
nhau
H×nh 3.3. M« h×nh ho¹t ®éng cña Hcompv

3.2.4 HuÊn luyÖn c¸c ®¬n vÞ nhËn d¹ng ®¬n


B−íc ®Çu tiªn trong qu¸ tr×nh huÊn luyÖn lµ huÊn luyÖn c¸c m« h×nh t−¬ng øng víi
mçi ®¬n vÞ nhËn d¹ng ®¬n (monophone). §©y lµ ®¬n vÞ nhËn d¹ng c¬ b¶n ®éc lËp víi
ng÷ c¶nh xung quanh. Qu¸ tr×nh nhËn d¹ng ®−îc thùc hiÖn b»ng huÊn luyÖn nhóng
(embedded) dïng c«ng cô Herest.
Qu¸ tr×nh huÊn luyÖn ®−îc chia lµm hai giai ®o¹n, giai ®o¹n ®Çu c¸c m« h×nh ®−îc
huÊn luyÖn víi ®¬n vÞ nhËn d¹ng sil t¹i hai ®Çu ph¸t ©m mµ kh«ng cã sù tham gia cña
®¬n vÞ nhËn d¹ng sp.
Giai ®o¹n hai, m« h×nh cña ®¬n vÞ nhËn d¹ng sil ®−îc ®iÒu chØnh b»ng bæ sung thªm
hai cung chuyÓn tr¹ng th¸i tõ tr¹ng th¸i 2 sang tr¹ng th¸i 4 vµ ng−îc l¹i. Môc ®Ých cña
viÖc lµm nµy lµ nh»m cho phÐp m« h×nh cã thÓ chÞu ®−îc c¸c nhiÔu cña d÷ liÖu huÊn
luyÖn. Trong giai ®o¹n nµy, m« h×nh sp míi ®−îc t¹o gåm mét tr¹ng th¸i ph¸t x¹ quan
s¸t vµ tr¹ng th¸i nµy ®−îc buéc (tied) víi tr¹ng th¸i gi÷a cña m« h×nh sil. CÊu tróc cña
hai m« h×nh sil vµ sp ®−îc miªu t¶ trong H×nh 3.4.
62

sil

liªn kÕt buéc

sp

H×nh 3.4 S¬ ®å buéc hai ©m vÞ sil vµ sp.


C«ng viÖc t¹o chuyÓn dÞch tr¹ng th¸i míi cña m« h×nh sil, t¹o m« h×nh sp ®−îc thùc
hiÖn bëi c«ng cô Hhed. C¸c b−íc huÊn luyÖn nhóng ®−îc thùc hiÖn víi c«ng cô Herest.
3.2.4.1 HuÊn luyÖn nhóng b»ng Herest.
§©y lµ c«ng cô huÊn luyÖn chÝnh thùc hiÖn huÊn luyÖn b»ng ph−¬ng thøc nhóng
(embedded trainning), tÝnh to¸n vµ cËp nhËt c¸c tham sè cña nhiÒu m« h×nh cïng mét
lóc. §©y lµ c«ng cô quan träng nhÊt vµ ®−îc coi lµ tr¸i tim cña hÖ thèng huÊn luyÖn.

a D÷ liÖu huÊn luyÖn


C¸c m« h×nh a
®−îc huÊn luyÖn a
...

Herestv
000 021 a
022000
055021
m a
056022000
089 « 021
055 m a
a 089056022
156 m055
089 « m TÖp phiªn ©m
a 089056
156089
m « møc ©m vÞ
a 089 156 m

H×nh 3.5. Ho¹t ®éng cña Herest.


Víi mçi mét ph¸t ©m, Herest sÏ t×m tÖp chøa phiªn ©m chÝnh t¶ cña ph¸t ©m ®ã, sau
®ã nã sÏ tra cøu trong tõ ®iÓn ph¸t ©m cña mçi tõ ®Ó t×m ra ®−îc d·y c¸c ©m vÞ t−¬ng
øng víi ph¸t ©m. Mét m« h×nh Markov Èn lín sÏ ®−îc x©y dùng b»ng c¸ch nèi c¸c m«
h×nh Markov Èn cña c¸c ©m vÞ vµo víi nhau. Sau ®ã thuËt to¸n huÊn luyÖn forward-
63

backward sÏ ®−îc ¸p dông víi m« h×nh Markov Èn nµy. Herest sÏ kÕt thóc khi tÊt c¶ c¸c
ph¸t ©m trong tËp d÷ liÖu huÊn luyÖn ®−îc xö lý.
TÝnh to¸n x¸c suÊt tiÕn ®−îc thùc hiÖn b»ng ph−¬ng ph¸p ®Ö qui nh− sau:

⎡ N −1 ⎤
α j (t ) = ⎢ ∑ α i (t − 1)aij ⎥ b j (ot )
⎣ i=2 ⎦

Víi 1 < j < N , 1 < t ≤ T vµ c¸c gi¸ trÞ khëi t¹o lµ:

α1 (1) = 1

α j (1) = a1 j b j (o1 )

X¸c suÊt cuèi cïng sÏ b»ng:


N −1
α N (T ) = ∑ α i (T )aiN
i =2

T−¬ng tù nh− vËy c¸c x¸c suÊt lïi backward ®−îc thùc hiÖn b»ng ph−¬ng ph¸p ®Ö
qui:
N −1
β i (t ) = ∑ aij b j (ot +1 ) β j (t + 1)
i =2

Víi 1 < j < N , 1 ≤ t < T vµ c¸c gi¸ trÞ khëi t¹o lµ:

β i (T ) = aiN

X¸c suÊt cuèi cïng lµ:


N −1
β1 (1) = ∑ a1 j b j (o1 ) β j (1)
i=2

Víi thuËt to¸n huÊn luyÖn nhóng, c¸c m« h×nh ®−îc ghÐp l¹i víi nhau ®Ó t¹o thµnh
mét m« h×nh Markov Èn lín, trong ®ã víi mçi m« h×nh nhá cña c¸c ©m vÞ cã hai tr¹ng
th¸i ®Æc biÖt lµ tr¹ng th¸i khëi ®Çu vµ tr¹ng th¸i kÕt thóc. Hai tr¹ng th¸i nµy kh«ng sinh
c¸c quan s¸t. C«ng thøc tÝnh c¸c x¸c suÊt tiÕn vµ lïi phøc t¹p h¬n so víi tr−êng hîp
tr−íc.
64

Trong c¸c c«ng thøc d−íi ®©y, ký hiÖu (q) ë trªn ký tù biÓu thÞ m« h×nh Markov Èn
thø q trong m« h×nh lín. C¸c x¸c suÊt tiÕn forward ®−îc khëi t¹o nh− sau:

α1( q ) (1) = 1, nÕu q=1

α1( q −1) (1)a1(Nq −1) tr−êng hîp cßn l¹i


q −1

α (j q ) (1) = a1( qj )b(j q ) (o1 )


N q−1

α (1) = ∑ α i( q ) (1)aiN( q )
(q)
Nq q
i=2

C¸c gi¸ trÞ kh¸c ngoµi c¸c gi¸ trÞ trªn ®−îc khëi t¹o b»ng 0.
Víi t>1 ta cã c¸c c«ng thøc ®Ö qui nh− sau

α1( q ) (t ) = 0 , nÕu q=1

α N( q −−1)1 (t − 1) + α1( q −1) (t )a1(Nq −1)


q q −1
, tr−êng hîp cßn l¹i

⎡ N q−1

α (j q ) (t ) = ⎢α1( q ) (t )a1( qj ) + ∑ α i( q ) (t − 1)aij( q ) ⎥ b(j q ) (ot )
⎣ i =2 ⎦
N q−1

α N( q ) (t ) = ∑ α i( q ) (t )aiN( q )
q q
i=2

§èi víi tr−êng hîp cña x¸c suÊt lïi backward, ta cã c¸c ®iÒu kiÖn khëi t¹o nh− sau:

β N( q ) (T ) =
q
1 , nÕu q=Q

β N( q +1) (T )aiN( q +1)


q +1 q +1
, tr−êng hîp cßn l¹i

β i( q ) (T ) = aiN( q ) β N( q ) (T )
q q

N q−1

β 1
(q)
(T ) = ∑ a1( qj )b (j q ) (ot ) β (j q ) (T )
j =2
65

C¸c gi¸ trÞ kh¸c ngoµi c¸c gi¸ trÞ trªn ®−îc khëi t¹o b»ng 0. Víi t<T ta cã c¸c c«ng
thøc ®Ö qui nh− sau:

β N( q ) (t ) =
q
0, nÕu q=Q

β1( q +1) (t + 1) + β N( q +1) (t )a1(Nq +1)


q +1 q +1
, tr−êng hîp cßn l¹i
N q−1

β i
(q)
(t ) = a β (q)
iN q
(q)
Nq (t ) + ∑ aij( q )b (j q ) (ot +1 ) β (j q ) (t + 1)
j =2

N q −1

β1( q ) (t ) = ∑ a1( qj )b(j q ) (ot ) β (j q ) (t )


j =2

x¸c suÊt tæng Pr(O | λ ) ®−îc tÝnh b»ng:

P = α N (T ) = β1 (t )

Víi c¸c x¸c suÊt tiÕn vµ lïi ®−îc tÝnh nh− ë trªn c«ng thøc tÝnh to¸n c¸c tham sè cña
m« h×nh Markov Èn víi mét m« h×nh ®¬n nh− sau:
1
∑ ∑
Tr −1
α ir (t )aij b j (otr+1 ) β jr (t + 1)
R
r =1 t =1
Pr
aˆij =
1
∑ ∑ α ir (t ) β ir (t )
R Tr
r =1 t =1
Pr

Trong ®ã 1<i<N vµ 1<j<N, Pr lµ x¸c suÊt tæng cña quan s¸t thø r. X¸c suÊt chuyÓn
tr¹ng th¸i tõ tr¹ng th¸i khëi ®Çu lµ:
1 R 1 r
aˆ1 j = ∑ α j (1) β jr (1)
R r =1 Pr

Trong ®ã 1<j<N, x¸c suÊt chuyÓn tr¹ng th¸i tíi tr¹ng th¸i kÕt thóc lµ
1 r
∑ α i (T ) β ir (T )
R
r =1
Pr
aˆiN =
1
∑ ∑ α ir (t ) β ir (t )
R Tr
r =1 t =1
Pr

Víi 1<i<N.
66

Trong tr−êng hîp mét m« h×nh Markov Èn cã Ms thµnh phÇn trén trong dßng vµo s,
c¸c tham sè ®−îc tÝnh to¸n phøc t¹p h¬n. Ta ®Þnh nghÜa x¸c suÊt cña thµnh phÇn trén
thø m cña dßng vµo s t¹i thêi ®iÓm t cña quan s¸t thø r lµ
1 r
Lrjsm (t ) = U j (t )c jsmb jsm (ostr ) β jr (t ) β *js (otr )
Pr

Trong ®ã

U rj (t ) = a1 j
, nÕu t=1


N −1
i =2
α ir (t − 1)aij

b*js (otr ) = ∏ b jk (oktr )


k ≠s

Víi ®Þnh nghÜa nh− trªn ta cã c«ng thøc tÝnh to¸n c¸c tham sè b»ng Lrjsm (t ) nh− sau:

∑ ∑
R Tr
Lrjsm (t )ostr
µˆ jsm = r =1 t =1

∑ ∑
R Tr
r =1 t =1
Lrjsm (t )

∑ ∑ Lrjsm (t )(ostr − µˆ jsm )(ostr − µˆ jsm )′


R Tr

Σˆ jsm = r =1 t =1

∑ ∑
R Tr
r =1 t =1
Lrjsm (t )

∑ ∑
R Tr
Lrjsm (t )
c jsm = r =1 t =1

∑ ∑
R Tr
r =1 t =1
Lrj (t )

§èi víi tr−êng hîp cña Herest, qu¸ tr×nh huÊn luyÖn nhóng sö dông m« h×nh
Markov Èn ®−îc x©y dùng tõ viÖc ghÐp c¸c m« h×nh Markov Èn cña c¸c ©m vÞ vµo víi
nhau, c«ng thøc tÝnh to¸n ®−îc thay ®æi nh− sau:
1
∑ ∑
Tr −1
α i( q ) r (t )aij( q )b (j q ) (otr+1 ) β (j q ) r (t + 1)
R
r =1 t =1
Pr
aˆij( q ) =
1
∑ ∑ α i( q ) r (t ) β i( q ) r (t )
R Tr
r =1 t =1
Pr

X¸c suÊt chuyÓn tr¹ng th¸i tõ tr¹ng th¸i khëi ®Çu lµ:
67

1
∑ ∑
Tr −1
α1( q ) r (t )a1( qj )b (j q ) (otr ) β (j q ) r (t )
R
r =1 t =1
Pr
aˆ1( qj ) =
1
∑ ∑ α1( q ) r (t ) β1( q ) r (t ) + α1( q ) r (t )a1(Nq ) β1( q +1) r (t )
R Tr
r =1 t =1
Pr q

x¸c suÊt chuyÓn tr¹ng th¸i tíi tr¹ng th¸i kÕt thóc lµ:
1
∑ ∑
Tr −1
α i( q ) r (t )aiN( q ) β N( q ) r (t )
R
r =1 t =1
Pr q q

aˆiN( qq) =
1
∑ ∑ α i( q ) r (t ) β i( q ) r (t )
R Tr
r =1 t =1
Pr

x¸c suÊt chuyÓn tr¹ng th¸i tõ tr¹ng th¸i ®Çu tíi tr¹ng th¸i kÕt thóc lµ:
1
∑ ∑
Tr −1
α1( q ) r (t )a1(Nq ) β1( q +1) r (t )
R
r =1 t =1
Pr q

aˆ1(Nq )q =
1
∑ ∑ α i( q ) r (t ) β i( q ) r (t ) + α1( q ) r (t )a1(Nq ) β1( q +1) r (t )
R Tr
r =1 t =1
Pr q

x¸c suÊt tÝnh to¸n c¸c tham sè cña hµm mËt ®é x¸c suÊt t−¬ng tù nh− tr−êng hîp cña
mét m« h×nh ngoµi trõ thªm ký hiÖu (q) ë phÝa trªn vµ ngoµi ra c«ng thøc sÏ ®−îc thay
®æi thµnh:

U (j q ) r (t ) = α1( q ) r (t )a1( qj ) nÕu t=1

α1( q ) r (t )a1( qj ) + ∑ i = 2 α i( q ) r (t − 1)aij( q ) , tr−êng hîp cßn l¹i


N q −1

3.2.4.2 G¸n nh·n c−ìng bøc d÷ liÖu huÊn luyÖn


ViÖc huÊn luyÖn c¸c m« h×nh Markov Èn cña c¸c ®¬n vÞ nhËn d¹ng ®éc lËp ng÷ c¶nh
kÕt thóc bëi huÊn luyÖn d÷ liÖu ®−îc g¸n nh·n c−ìng bøc (forced-alignment). Trong tõ
®iÓn, mét tõ cã thÓ ®−îc phiªn ©m thµnh c¸c ©m vÞ theo nhiÒu c¸ch kh¸c nhau. Trong
c¸c b−íc huÊn luyÖn tr−íc, hÖ thèng lÊy phiªn ©m ®Çu tiªn gÆp trong tõ ®iÓn cña mét tõ
®Ó ph©n tÝch mét ph¸t ©m thµnh d·y c¸c ©m vÞ. T¹i b−íc nµy, sau khi c¸c m« h×nh ®·
®−îc huÊn luyÖn, c¸c tham sè ®· ®−îc tÝnh to¸n, chóng ®−îc sö dông ®Ó g¸n nh·n
c−ìng bøc l¹i d÷ liÖu huÊn luyÖn. §©y lµ qu¸ tr×nh ph©n tÝch mét ph¸t ©m lµ c¸c tõ
thµnh d·y c¸c ©m vÞ phï hîp nhÊt, trong ®ã c¸c phiªn ©m kh¸c nhau cña mét tõ sÏ ®−îc
68

chän ®Ó t×m ra phiªn ©m thÝch hîp. Qu¸ tr×nh g¸n nh·n c−ìng bøc thùc chÊt gÇn gièng
víi qu¸ tr×nh nhËn d¹ng, ®−îc thùc hiÖn bëi thuËt to¸n Viterbi.
Sau khi d÷ liÖu huÊn luyÖn ®· ®−îc g¸n nh·n c−ìng bøc, thñ tôc Herest l¹i ®−îc
dïng ®Ó huÊn luyÖn l¹i c¸c m« h×nh trªn c¬ së c¸c d·y phiªn ©m t×m ®−îc cña qu¸ tr×nh
g¸n nh·n c−ìng bøc.

3.2.5 HuÊn luyÖn c¸c ©m ba


Sau khi qu¸ tr×nh huÊn luyÖn c¸c ®¬n vÞ nhËn d¹ng ®éc lËp ng÷ c¶nh kÕt thóc. HÖ
thèng ®· s½n sµng ®Ó tiÕn hµnh nhËn d¹ng. Tuy nhiªn, mét ©m vÞ lu«n chÞu ¶nh h−ëng
cña ng÷ c¶nh xung quanh vµ hÖ thèng nhËn d¹ng chØ lµm viÖc tèt nÕu nh− chóng ®−îc
huÊn luyÖn bëi c¸c ®¬n vÞ nhËn d¹ng phô thuéc ng÷ c¶nh. Trong HTK ®¬n vÞ phô thuéc
ng÷ c¶nh ®−îc gäi lµ c¸c ©m ba (triphone) ®Ó ph©n biÖt víi c¸c ©m ®¬n, ®¬n vÞ ®éc lËp
ng÷ c¶nh.
3.2.5.1 T¹o c¸c ©m ba tõ c¸c ©m ®¬n
¢m ba (triphone) lµ ®¬n vÞ nhËn d¹ng ©m vÞ phô thuéc ng÷ c¶nh ®−îc ký hiÖu lµ a-
b+c, trong ®ã /b/ lµ ©m ®¬n, /a/ lµ ©m vÞ bªn tr¸i ©m vÞ /b/ vµ /c/ lµ ©m vÞ bªn ph¶i ©m vÞ
/b/.
C¸c ©m ba ®−îc t¹o b»ng c¸ch lÊy c¸c ©m ®¬n t−¬ng øng, bæ xung thªm ng÷ c¶nh
tr¸i vµ ng÷ c¶nh ph¶i. C¸c ®¬n vÞ nhËn d¹ng sil vµ sp kh«ng ®−îc chuyÓn ®æi sang ©m
ba v× chóng chØ lµ mét kho¶ng yªn lÆng, kh«ng phô thuéc ng÷ c¶nh xung quanh. Cã hai
c¸ch sinh ra c¸c ©m ba: ©m ba víi ng÷ c¶nh giíi néi tõ (word internal) vµ ©m ba víi ng÷
c¶nh liªn tõ (cross-word).
Trong tr−êng hîp ®Çu c¸c ©m vÞ chÞu ¶nh h−ëng cña ng÷ c¶nh trong mét tõ, c¸c tõ
®−îc coi lµ c¸ch nhau mét kho¶ng yªn lÆng vµ c¸c ©m vÞ cña c¸c tõ kh¸c kh«ng ¶nh
h−ëng ®Õn nhau. C¸c ©m vÞ ®Çu vµ cuèi mét tõ trong thùc tÕ lµ c¸c ©m hai (biphone)
thay v× ©m ba, chØ cã ©m vÞ ë gi÷a tõ míi lµ ©m ba. VÝ dô sau ®©y lµ mét d·y c¸c ©m
®¬n cña mét ph¸t ©m vµ c¸c ©m ba t−¬ng øng:
¢m ®¬n: sil ea ngz sp n o i sp t ie ngz sil v ietc sp h a sp sil
¢m ba: sil ea+ngz ea-ngz sp n+o n-o+i o-i sp t+ie t-ie+ngz ie-ngz sp
v+ietc v-ietc sp h+a h-a sp sil
69

Trong tr−êng hîp thø hai, c¸c ©m vÞ kh«ng nh÷ng chÞu ¶nh h−ëng cña c¸c ©m vÞ
trong tõ ®ã mµ cßn cña c¸c ©m vÞ cña c¸c tõ xung quanh. Cã sù kh¸c nhau gi÷a vai trß
cña ®¬n vÞ nhËn d¹ng sp vµ sil. NÕu nh− sù cã mÆt cña sp kh«ng ¶nh h−ëng ®Õn sù ¶nh
h−ëng cña ng÷ c¶nh ®Õn c¸c ©m ba, ng−îc l¹i ©m vÞ sil ®−îc coi nh− lµ kho¶ng lÆng
chia t¸ch ng÷ c¶nh vµ c¸c ©m vÞ ®øng c¹nh sil th× sÏ kh«ng bÞ ¶nh h−ëng bëi ng÷ c¶nh.
VÝ dô sau ®©y lµ mét d·y c¸c ©m ®¬n cña mét ph¸t ©m vµ c¸c ©m ba t−¬ng øng:
¢m ®¬n: sil ea ngz sp n o i sp t ie ngz sil v ietc sp h a sp sil
¢m ba: sil sil-ea+ngz ea-ngz+n sp ngz-n+o n-o+i o-i+t sp i-t+ie t-ie+ngz
ie-ngz+sil sil sil-v+ietc v-ietc+h sp ietc-h+a h-a+sil sp sil

ViÖc chuyÓn ®æi tõ c¸c ©m ®¬n sang c¸c ©m ba ®−îc thùc hiÖn bëi c«ng cô Hhed,
nh− ®−îc miªu t¶ trong H×nh 3.6. C¸c tham sè cña c¸c ©m ba ®−îc sao chÐp tõ c¸c ©m
®¬n t−¬ng øng bao gåm: c¸c x¸c suÊt chuyÓn tr¹ng th¸i aij, c¸c tham sè cña hµm
Gaussian cña x¸c suÊt ph¸t x¹ quan s¸t bj(ok).
phiªn ©m theo
©m ®¬n
©m ®¬n

Hhed Hled

©m ba phiªn ©m theo
©m ba

Hhed

tÖp thèng kª
©m ba ®· ®−îc stats
huÊn luyÖn

H×nh 3.6. Dïng Hhed chuyÓn ©m ®¬n sang ©m ba


Sau ®ã tÖp phiªn ©m c¸c ©m ®¬n còng ®−îc chuyÓn ®æi sang tÖp phiªn ©m c¸c ©m ba
t−¬ng øng b»ng c«ng cô Hled. C¸c ©m ba sau ®ã ®−îc huÊn luyÖn b»ng c«ng cô huÊn
luyÖn nhóng Herest. C¸c tham sè cña c¸c ©m ba ®−îc sao chÐp tõ c¸c ©m ®¬n t−¬ng
øng sÏ ®−îc ®iÒu chØnh l¹i theo phiªn ©m cña c¸c ©m ba t¹o bëi Hled. Víi c¸c ©m ba cã
70

cïng mét ©m ®¬n t−¬ng øng, tr−íc khi ®−îc huÊn luyÖn bëi Herest, c¸c x¸c suÊt chuyÓn
tr¹ng th¸i aij ®−îc buéc vµo nhau (tied).
§iÒu nµy ®−îc thùc hiÖn do x¸c suÊt chuyÓn tr¹ng th¸i cña mét ®¬n vÞ nhËn d¹ng Ýt
¶nh h−ëng cña ng÷ c¶nh xung quanh so víi x¸c suÊt ph¸t x¹ quan s¸t. Trong qu¸ tr×nh
huÊn luyÖn bëi Herest c¸c x¸c suÊt chuyÓn tr¹ng th¸i bÞ buéc vµo nhau sÏ cã cïng gi¸
trÞ vµ ®−îc tÝnh to¸n cïng víi nhau.

3.2.6 Buéc c¸c ©m ba

C¸c ©m ba tÖp thèng kª


stats

Hhed

Tree.hed
©m ba ®·
®−îc buéc

Herest Tied list

©m ba ®·
®−îc huÊn
luyÖn

H×nh 3.7. Qu¸ tr×nh buéc c¸c ©m ba b»ng Hhed


C¸c tham sè cã thÓ ®−îc buéc vµo nhau. Khi mét nhãm c¸c tham sè ®−îc buéc vµo
nhau, c¸c gi¸ trÞ cña c¸c tham sè nµy ®−îc dïng chung bëi tÊt c¶ c¸c thµnh viªn vµ
®−îc biÓu diÔn bëi chung mét macro trong tÖp ®Þnh nghÜa cÊu h×nh cña m« h×nh
Markov Èn. Trong qu¸ tr×nh huÊn luyÖn d÷ liÖu t−¬ng øng víi mçi thµnh viªn cña mét
nhãm sÏ ®−îc dïng chung ®Ó tÝnh to¸n c¸c tham sè cho c¶ nhãm. ChÝnh v× vËy viÖc
buéc c¸c tham sè sÏ cã Ých víi c¸c m« h×nh cña c¸c ©m vÞ mµ sè lÇn xuÊt hiÖn cña
chóng trong tËp d÷ liÖu kh«ng ®ñ. Khi ®ã viÖc buéc c¸c m« h×nh nµy víi nhau sÏ cung
cÊp ®ñ d÷ liÖu ®Ó huÊn luyÖn vµ lµm qu¸ tr×nh huÊn luyÖn trë nªn hiÖu qu¶ h¬n. Trong
71

hÇu hÕt c¸c hÖ thèng nhËn d¹ng sè l−îng tõ vùng lín, ph−¬ng ph¸p buéc tham sè ®Òu
®−îc ¸p dông hiÖu qu¶.
Nh− ®· tr×nh bµy ë phÇn trªn, c¸c m« h×nh cña c¸c ©m ba triphone ®−îc t¹o b»ng
c¸ch sao phÐp tõ c¸c m« h×nh cña c¸c ©m ®¬n t−¬ng øng. Sau ®ã c¸c ©m ba ®−îc huÊn
luyÖn l¹i b»ng Herest. Sè l−îng c¸c ©m ba ®−îc sinh tõ c¸c ©m ®¬n lµ rÊt lín (tõ vµi
chôc ®Õn vµi tr¨m ©m ba øng víi mçi ©m ®¬n), vµ do ®ã d÷ liÖu dïng ®Ó huÊn luyÖn c¸c
©m ba còng bÞ nhanh chãng gi¶m. Mét sè ©m ba sÏ kh«ng cßn ®ñ d÷ liÖu dïng ®Ó huÊn
luyÖn. Mét ph−¬ng ph¸p kh¾c phôc vÊn ®Ò nµy lµ dïng ph−¬ng ph¸p buéc. Th«ng
th−êng c¸c tr¹ng th¸i ë gi÷a cña c¸c m« h×nh sÏ ®−îc buéc vµo nhau do c¸c tr¹ng th¸i
gi÷a lµ tr¹ng th¸i Ýt bÞ ¶nh h−ëng nhÊt cña ng÷ c¶nh xung quanh. VÝ dô c©u lÖnh ®Ó
buéc c¸c tr¹ng th¸i nµy lµ:
TI "ieS3" {*-ie+*.state[3]}
TI "aS3" {*-a+*.state[3]}

C©u lÖnh ®Çu buéc tÊt c¶ c¸c tr¹ng th¸i gi÷a (tr¹ng th¸i 3, trong m« h×nh cã 5 tr¹ng
th¸i) cña c¸c ©m ba ®−îc sao chÐp tõ ©m ®¬n lµ nguyªn ©m ®«i /ie/. C©u lÖnh sau buéc
tÊt c¶ c¸c tr¹ng th¸i gi÷a cña c¸c ©m ba t−¬ng øng víi ©m vÞ /a/.
Tuy nhiªn viÖc ®Þnh nghÜa râ rµng c¸c tr¹ng th¸i buéc trªn kh«ng th−êng xuyªn
hiÖu qu¶ vµ c¸c tr¹ng th¸i bªn tr¸i vµ bªn ph¶i vÉn thiÕu d÷ liÖu ®Ó huÊn luyÖn. Mét gi¶i
ph¸p tèt h¬n hay ®−îc sö dông ®ã lµ dïng ph−¬ng ph¸p nhãm vïng (clustering). Cã hai
c¬ chÕ ®−îc sö dông: l¸i d÷ liÖu (data driven) vµ c©y quyÕt ®Þnh (decision tree-based).
3.2.6.1 L¸i d÷ liÖu
ThuËt to¸n l¸i d÷ liÖu (data driven) ®−îc khëi ®éng b»ng cho tÊt c¶ c¸c tr¹ng th¸i,
mçi tr¹ng th¸i vµo mét nhãm (cluster). Sau ®ã cÆp nhãm mµ khi chóng kÕt hîp l¹i víi
nhau sÏ t¹o thµnh nhãm míi cã kÝch th−íc nhá nhÊt sÏ ®−îc ghÐp l¹i víi nhau. Qu¸
tr×nh nµy tiÕp tôc cho ®Õn khi kÝch th−íc cña nhãm lín nhÊt v−ît qua ng−ìng ®−îc ®Þnh
nghÜa bëi c©u lÖnh TC, hoÆc lµ tæng sè c¸c nhãm nhá h¬n ng−ìng ®−îc ®Þnh nghÜa bëi
c©u lÖnh NC. KÝch th−íc cña mét nhãm ®−îc hiÓu lµ kho¶ng c¸ch lín nhÊt cña mét cÆp
tr¹ng th¸i bÊt kú trong nhãm. §èi víi tr−êng hîp hµm ph¸t x¹ quan s¸t cña tr¹ng th¸i lµ
hµm Gaussian th× kho¶ng c¸ch lµ kho¶ng c¸ch Euclidean gi÷a c¸c tham sè cña c¸c hµm
mËt ®é x¸c suÊt.
72

H×nh 3.8. Buéc c¸c tr¹ng th¸i


H×nh 3.8 miªu t¶ ho¹t ®éng cña mét tr−êng hîp dïng l¸i d÷ liÖu nh− sau:
TC 100.0 “oa” {*-a+*.state[2]}

3.2.6.2 Ph©n nhãm b»ng c©y


Mét trong c¸c nh−îc ®iÓm cña ph−¬ng ph¸p l¸i d÷ liÖu lµ kh«ng thùc hiÖn ®−îc víi
c¸c ©m ba mµ kh«ng cã d÷ liÖu huÊn luyÖn. Khi x©y dùng hÖ thèng nhËn d¹ng víi c¸c
©m ba giíi néi tõ, vÊn ®Ò nµy cã thÓ tr¸nh ®−îc bëi lùa chän d÷ liÖu huÊn luyÖn ®Ó cho
tÊt c¶ c¸c ©m ba ®Òu cã d÷ liÖu huÊn luyÖn t−¬ng øng. Tuy nhiªn nÕu c¸c ©m ba liªn tõ
®−îc sö dông th× sè l−îng c¸c ©m ba sÏ rÊt lín, cã thÓ lªn ®Õn hµng chôc ngh×n ©m ba,
sù tån t¹i cña c¸c ©m ba mµ kh«ng cã d÷ liÖu huÊn luyÖn lµ ®iÒu khã tr¸nh khái.
Ph−¬ng ph¸p dïng c©y (tree-based) lµ gi¶i ph¸p thay thÕ vµ hay ®−îc sö dông trong
c¸c hÖ thèng nhËn d¹ng ®Ó kh¾c phôc vÊn ®Ò nµy. §Ó miªu t¶ ho¹t ®éng cña thuËt to¸n,
ta sÏ xÐt mét vÝ dô:
1. RO 100.0 stats
2. TR 0
3. QS "L_Class_stop" {b-*,t-*,ch-*,tr-*,th-*,k-*,dd-*}
73

4. QS "R_Class_stop" {*+b,*+t,*+ch,*+tr,*+th,*+k,*+dd}
5. QS "L_Class_nasal" {n-*,m-*,ng-*,nh-*}
6. QS "R_Class_nasal" {*+n,*+m,*+ng,*+nh}
7. QS "L_Class_fricate" {h-*,s-*,kh-*,ph-*,v-*,x-*,g-*,r-*,dz-*}
8. QS "R_Class_fricate" {*+h,*+s,*+kh,*+ph,*+v,*+x,*+g,*+r,*+dz}
9. TR 2
10.
11. TB 350.0 "ST_b_2" {(b,*-b,*-b+*,b+*).state[2]}
12. TB 350.0 "ST_b_3" {(b,*-b,*-b+*,b+*).state[3]}
13. TB 350.0 "ST_b_4" {(b,*-b,*-b+*,b+*).state[4]}
14. TB 350.0 "ST_a_2" {(a,*-a,*-a+*,a+*).state[2]}
15. ....
16.
17. TR 1
18.
19. AU "fulllist"
20. CO "tiedlist"
21.
22. ST "trees"

Dßng 3 ®Õn dßng 8 cho ®Þnh nghÜa c¸c c©u hái, thøc chÊt lµ ®Þnh nghÜa c¸c nhãm
©m vÞ cã tÝnh chÊt gÇn gièng nhau dïng ®Ó ph©n líp c¸c ©m ba. C¸c ng÷ c¶nh ®−îc
ph©n biÖt lµ ng÷ c¶nh tr¸i vµ ng÷ c¶nh ph¶i tuú theo ¶nh h−ëng cña nã ®Õn c¸c ©m vÞ
xung quanh. Tõ dßng 11 ®Õn dßng 15 lµ ®Þnh nghÜa c¸c nhãm ©m ba b»ng c©u lÖnh TB.
C©u lÖnh nµy ho¹t ®éng nh− sau: ®Çu tiªn nhãm c¸c ©m ba ®−îc ®Þnh nghÜa b»ng lÖnh
TB tËp hîp l¹i thµnh mét cluster. Sau ®ã mçi c©u hái ®−îc dïng ®Ó chia cluster nµy lµm
hai phÇn. Do viÖc ph©n chia nµy mµ x¸c suÊt likelihood cña d÷ liÖu huÊn luyÖn sÏ t¨ng
lªn vµ c©u hái nµo lµm cho x¸c suÊt nµy t¨ng nhiÒu nhÊt sÏ ®−îc chän ®Ó t¸ch nh¸nh
®Çu tiªn trong c©y. Qu¸ tr×nh lÆp l¹i cho ®Õn khi gi¸ trÞ t¨ng x¸c suÊt cña c¸c c©u hái
kh«ng v−ît qua ®−îc ng−ìng ®−îc x¸c ®Þnh bëi c©u lÖnh TB (trong tr−êng hîp nµy lµ
350.0). Gi¸ trÞ ng−ìng ®ãng vai trß quan träng trong ®iÒu khiÓn ph©n chia c©y, nÕu gi¸
trÞ nµy lín c©y sÏ Ýt bÞ ph©n nh¸nh vµ c¸c ©m ba ®−îc buéc vµo víi nhau nhiÒu h¬n.
Ng−îc l¹i nÕu gi¸ trÞ nµy nhá th× sè l−îng c¸c tr¹ng th¸i ©m ba bÞ buéc sÏ Ýt ®i. Chän
gi¸ trÞ ng−ìng phô thuéc nhiÒu vµo kinh nghiÖm cña ng−êi nghiªn cøu vµ phô thuéc vµo
74

d÷ liÖu dïng ®Ó huÊn luyÖn. Chän gi¸ trÞ ng−ìng chÝnh x¸c lµ mét yÕu tè gióp t¨ng ®é
chÝnh x¸c nhËn d¹ng cña hÖ thèng.
TËp c¸c ©m ba ®−îc xem xÐt tíi thêi ®iÓm nµy chØ bao gåm c¸c ©m ba n»m trong tËp
d÷ liÖu huÊn luyÖn. C©u lÖnh AU chøa sanh s¸ch c¸c ©m ba mµ bao gåm tÊt c¶ c¸c ©m
ba n»m trong c¬ së d÷ liÖu. Víi c¸c ©m ba n»m trong c¬ së d÷ liÖu mµ kh«ng cã mÆt
trong tËp d÷ liÖu huÊn luyÖn th× hÖ thèng sÏ tæng hîp m« h×nh cña ©m ba ®ã trªn c¬ së
c¸c ©m ba ®· ®−îc huÊn luyÖn. §©y lµ mét −u ®iÓm cña ph−¬ng ph¸p ph©n nhãm b»ng
c©y. Tuy nhiªn ®iÒu kiÖn tèi thiÓu ®Ó cho ©m ba nµy cã thÓ ®−îc tæng hîp lµ ph¶i tån t¹i
c¸c ©m ba ®· ®−îc huÊn luyÖn mµ cã cïng nguån gèc ©m ®¬n víi ©m ba ®−îc tæng hîp.

3.3 NhËn d¹ng


§Õn ®©y hÖ thèng ®· s½n sµng ®−îc dïng ®Ó tiÕn hµnh nhËn d¹ng. Qu¸ tr×nh nhËn
d¹ng ®−îc thùc hiÖn b»ng c«ng cô Hvite.

3.3.1 X©y dùng m¹ng tõ nhËn d¹ng


Mét m¹ng tõ (word network) ®−îc ®Þnh nghÜa dïng ng«n ng÷ SLF (Standard
Lattice Format). §ã lµ mét tÖp v¨n b¶n vµ cã thÓ so¹n b»ng tay. Tuy nhiªn c«ng viÖc
®Þnh nghÜa b»ng tay kh¸ dµi dßng vµ mÊt nhiÒu c«ng søc. HTK cã hai c«ng cô hç trî ®Ó
cã thÓ sinh tù ®éng tÖp nµy, ®ã lµ HBuild vµ HParse. HParse cho phÐp sinh tù ®éng SLF
tõ mét tÖp v¨n b¶n ®Þnh nghÜa ng÷ ph¸p cña hÖ thèng nhËn d¹ng d−íi d¹ng BNF. Dï
c«ng cô nµo ®−îc dïng ®Ó ®Þnh nghÜa m¹ng tõ th× m¹ng tõ ®Òu ®−îc dïng ®Ó ®Þnh
nghÜa mét ng÷ ph¸p, mçi liªn hÖ ng÷ ph¸p gi÷a c¸c tõ ®−îc nhËn d¹ng bëi hÖ thèng.
Mét tÖp SLF chøa mét danh s¸ch c¸c nót biÓu diÔn c¸c tõ vµ mét danh s¸ch c¸c
cung biÓu diÔn chuyÓn dÞch gi÷a c¸c tõ. C¸c chuyÓn dÞch nµy cã thÓ cã c¸c x¸c suÊt g¾n
liÒn víi nã, vÝ dô c¸c x¸c suÊt cña m« h×nh ng«n ng÷ bigram. VÝ dô d−íi ®©y lµ mét
m¹ng tõ cña mét hÖ thèng nhËn d¹ng m−êi ch÷ sè liªn tôc vµ ®Þnh nghÜa ng÷ ph¸p cña
nã.
$chuso = mootj | hai | ba | boons | nawm | saus | baayr |
tams | chins | khoong ;
(
[sil] < $chuso > [sil]
)
75

mét

hai
sil sil

chÝn

H×nh 3.9. S¬ ®å ng÷ ph¸p cña hÖ thèng nhËn d¹ng m−êi ch÷ sè liªn tôc
§èi víi c¸c hÖ thèng nhËn d¹ng cã sè l−îng tõ vùng lín vµ trung b×nh, ®Þnh nghÜa
ng÷ ph¸p cña hÖ thèng th−êng chØ ®¬n thuÇn lµ cÊu tróc vßng tõ (word–loop), cã nghÜa
lµ bÊt kú mét tõ nµo trong bé tõ ®iÓn cña hÖ thèng ®Òu cã thÓ theo sau tõ bÊt kú kh¸c
trong tõ ®iÓn.

3.3.2 M« h×nh ng«n ng÷ bigram


HiÖn nay HTK míi chØ hç trî m« h×nh ng«n ng÷ tíi møc 2-gram, tøc lµ bigram. M«
h×nh ng«n ng÷ bigram ®−îc sinh ra trong HTK bëi c«ng cô HStats. Sau ®©y lµ mét vÝ dô
vÒ mét tÖp chøa th«ng tin m« h×nh ng«n ng÷ bigram.
\data\
ngram 1=530
ngram 2=2790

\1-grams:
-99.999 !ENTER -0.7008
-2.6186 aam -0.5829
-4.0658 an -0.3000
-2.3176 anh -0.8285
......
\2-grams:
-2.4372 !ENTER awn
-1.5921 !ENTER ba
-1.5195 !ENTER baay
...
-1.9912 hai cai
76

-1.7694 hai hai


-1.9912 hai khoong
\end\
P(wi/wj) full

w1

w2

w3

w4

H×nh 3.10 S¬ ®å m¹ng word-loop víi c¸c x¸c suÊt bigram


PhÇn ®Çu 1-gram ®Þnh nghÜa x¸c suÊt xuÊt hiÖn cña tõ trong bé tõ ®iÓn P(wi). Trong
phÇn thø hai (P(wi/wj) ®Þnh nghÜa x¸c suÊt cña mét cÆp tõ. C¸c th«ng tin cña m« h×nh
ng«n ng÷ ®−îc tÝch hîp vµo m¹ng tõ b»ng c«ng cô HBuild.
VÝ dô vÒ mét m¹ng tõ cña mét hÖ thèng nhËn d¹ng sö dông d¹ng phæ biÕn cña
m¹ng nhËn d¹ng lµ cÊu tróc vßng tõ word-loop, trong ®ã c¸c tõ ®−îc ®Æt song song víi
nhau vµ c¸c ®−êng ®Êu vßng loop-back ®Ó cho phÐp bÊt kú mét tõ nµo còng cã thÓ ®øng
sau tõ kia. CÊu tróc nµy ®−îc dïng phæ biÕn trong nhiÒu hÖ thèng nhËn d¹ng nh− hÖ
thèng nhËn d¹ng ®äc chÝnh t¶. C«ng cô Hbuild ®−îc dïng ®Ó bæ sung c¸c x¸c suÊt
bigram vµo mçi cung nèi gi÷a hai tõ. Trong H×nh 3.10 lµ s¬ ®å mét m¹ng word-loop
gåm bèn tõ, c¸c x¸c suÊt bigram P(wi/wj) ®−îc g¾n vµo mçi cung loop-back gi÷a c¸c tõ,
nghÜa lµ gi÷a mét cÆp tõ bÊt kú ®Òu cÇn cã mét x¸c suÊt bigram t−¬ng øng.

3.3.3 Sö dông m¹ng tõ trong hÖ thèng nhËn d¹ng


Khi m¹ng tõ ®−îc n¹p vµo trong hÖ thèng nhËn d¹ng, mét tõ ®iÓn phiªn ©m cña hÖ
thèng sÏ ®−îc dïng ®Ó t¹o ra mét m¹ng t−¬ng ®−¬ng bao gåm c¸c ®¬n vÞ nhËn d¹ng c¬
b¶n cña hÖ thèng, c¸c ©m ®¬n hoÆc c¸c ©m ba. Tuú thuéc vµo cÊu h×nh cña hÖ thèng mµ
c¸c ©m ba cã thÓ lµ c¸c ©m ba giíi néi tõ hay ©m ba liªn tõ. Mét tõ cã thÓ cã nhiÒu
phiªn ©m, khi ®ã sÏ cã nhiÒu nh¸nh cña m¹ng mçi nh¸nh t−¬ng øng víi mçi phiªn ©m
77

cña tõ. M¹ng nµy ®−îc gäi lµ m¹ng HMM. Nh− vËy ta cã thÓ thÊy mét cÊu tróc ba møc
cña mét m¹ng ®Ó dïng nhËn d¹ng: møc tõ, møc m« h×nh vµ møc tr¹ng th¸i. H×nh 3.11
m« t¶ cÊu tróc nµy cña hÖ thèng nhËn d¹ng. Trong h×nh nµy c¸c h×nh ovan biÓu th× c¸c
tõ, h×nh vu«ng biÓu diÔn mét nh·n kÕt thóc mét tõ (word end).

sau ba hai møc tõ

b a ba møc tõ

møc tr¹ng th¸i

H×nh 3.11. CÊu tróc ba líp cña m¹ng tõ nhËn d¹ng


M¹ng dïng ®Ó nhËn d¹ng cuèi cïng bao gåm c¸c tr¹ng th¸i vµ c¸c cung nèi chóng
víi nhau. C¸c cung trong mét m« h×nh HMM chÝnh lµ x¸c suÊt chuyÓn tr¹ng th¸i ®−îc
x¸c ®Þnh bëi c¸c tham sè cña HMM. C¸c cung gi÷a c¸c m« h×nh cã x¸c suÊt t−¬ng
®−¬ng nhau, c¸c cung gi÷a c¸c tõ cã x¸c suÊt ®−îc x¸c ®Þnh bëi m« h×nh ng«n ng÷.

3.3.4 Gi¶i m·
NhiÖm vô cña qu¸ tr×nh gi¶i m· lµ t×m ra mét ®−êng ®i trong m¹ng HMM cã x¸c
suÊt lín nhÊt. §Ó thùc hiÖn c«ng viÖc nµy mét thuËt to¸n t−¬ng tù thuËt to¸n Viterbi
®−îc dïng, gäi lµ thuËt to¸n chuyÓn thÎ bµi (Token Passing).
Gi¶ thiÕt mçi tr¹ng th¸i j cña m«t m« h×nh HMM t¹i thêi ®iÓm t gi÷ mét thÎ bµi
chøa x¸c suÊt b¸n phÇn ϕ j (t ) . X¸c suÊt nµy lµ x¸c suÊt cña quan s¸t tõ o1 tíi ot víi m«
h×nh t¹i tr¹ng th¸i j vµ thêi ®iÓm t. T¹i mçi tr¹ng th¸i i cã nhiÒu rÏ nh¸nh, thuËt to¸n sÏ
lµm nh− sau:
78

− ChuyÓn mét b¶n sao cña thÎ bµi t¹i tr¹ng th¸i i tíi tÊt c¶ c¸c tr¹ng th¸i j mµ cã liªn
kÕt víi tr¹ng th¸i i, t¨ng log x¸c suÊt cña b¶n sao: log[aij ] + log[(b j (ot )]

− TÝnh to¸n tÊt c¶ c¸c thÎ bµi vµ sÏ xo¸ hÕt c¸c thÎ bµi, chØ gi÷ l¹i thÎ bµi tèt nhÊt.
Mçi mét thÎ bµi di chuyÓn trong m¹ng ®Òu duy tr× mét vÕt trªn ®−êng ®i cña nã. Sè
l−îng th«ng tin l−u trªn vÕt phô thuéc vµo yªu cÇu cña hÖ thèng, th«ng th−êng chØ d·y
c¸c tõ lµ ®−îc l−u l¹i.
ThuËt to¸n chuyÓn thÎ bµi
//Khëi ®éng
<Mét thÎ bµi cã gi¸ trÞ b»ng 0 ®−îc g¸n cho tÊt c¶ c¸c tr¹ng th¸i khëi
®Çu trong m¹ng>
// ChuyÓn thÎ bµi
For t=1 to T do // T lµ sè khung tÝn hiÖu cña ph¸t ©m
For all tr¹ng th¸i i do
<ChuyÓn mét thÎ bµi cña tr¹ng th¸i i tíi tÊt
c¶ c¸c tr¹ng th¸i j mµ cã nèi kÕt víi tr¹ng
th¸i i, ®ång thêi cËp nhËt gi¸ trÞ cña thÎ
bµi log[a ] + log[(b (o )] >;
ij j t

For all tr¹ng th¸i i do


<T×m thÎ bµi cã gi¸ trÞ log x¸c suÊt lµ tèt
nhÊt. Xo¸ tÊt c¶ c¸c thÎ bµi kh¸c >;
End for
// Dõng
<T×m tÊt c¶ c¸c tr¹ng th¸i kÕt thóc, tr¹ng th¸i nµo cã thÎ bµi
tèt nhÊt sÏ øng víi ®−êng ®i tèt nhÊt cÇn t×m>

Trong H×nh 3.12 ta thÊy tr¹ng th¸i 3 ®−îc nhËn nhiÒu thÎ bµi tõ c¸c tr¹ng th¸i 1 vµ
2 vµ tõ chÝnh b¶n th©n nã. Sau ®ã chØ cã m«t thÎ bµi duy nhÊt ®−îc gi÷ l¹i.
79

1
+p13

+p33
+p23
2

H×nh 3.12 Minh häa thuËt to¸n chuyÓn thÎ bµi.


Mét m¹ng lín mµ cã nhiÒu nót th× c«ng viÖc t×m kiÕm sÏ rÊt l©u vµ tèn thêi gian.
Mét gi¶i ph¸p nh»m gi¶m cã hiÖu qu¶ viÖc tÝnh to¸n ®ã lµ chØ cho phÐp c¸c thÎ bµi mµ
cã c¬ héi lµ mét trong c¸c thÎ bµi tèt nhÊt míi ®−îc tån t¹i. C¬ chÕ nµy gäi lµ c¾t tØa
(pruning). T¹i mçi b−íc c¸c thÎ bµi mµ cã gi¸ trÞ x¸c suÊt n»m ngoµi kho¶ng gi¸ trÞ cho
phÐp so víi thÎ bµi cã x¸c suÊt cao nhÊt sÏ bÞ xo¸ ®i. Kho¶ng gi¸ trÞ cho phÐp (beam-
width) ®−îc ®iÒu chØnh bëi dung hoµ gi÷a yÕu tè tèc ®é vµ hiÖu qu¶ cña thuËt to¸n t×m
kiÕm.
KÕt thóc qu¸ tr×nh t×m kiÕm víi mçi ph¸t ©m ta nhËn ®−îc mét d·y c¸c tõ víi x¸c
suÊt cao nhÊt lµ kÕt qu¶ nhËn d¹ng.
80

Ch−¬ng 4

x©y dùng hÖ thèng nhËn d¹ng

b»ng HMM/ANN
HÖ thèng nhËn d¹ng dùa trªn m« h×nh Markov Èn ®· ®em l¹i mét b−íc tiÕn lín
trong lÜnh vùc nhËn d¹ng tiÕng nãi. Tuy nhiªn m« h×nh Markov Èn cã mét sè giíi h¹n
nhÊt ®Þnh. Mét sè nghiªn cøu ®· thö dïng m¹ng n¬ ron nh©n t¹o ANN (Artificial
Neuron Network) nh− lµ mét gi¶i ph¸p thay thÕ cho c«ng nghÖ nhËn d¹ng tiÕng nãi.
Trong ch−¬ng nµy, sau phÇn giíi thiÖu, phÇn thø hai sÏ tr×nh bµy vÒ m¹ng neuron nh©n
t¹o, ®Æc biÖt lµ m¹ng Perceptron ®a líp MLP, phÇn nµy chñ yÕu ®−îc tham kh¶o trong
tµi liÖu [Karayiannis 1993]. PhÇn tiÕp theo tr×nh bµy vÒ m¹ng lai ghÐp HMM/ANN
(hybrid HMM/ANN), nguyªn t¾c ho¹t ®éng, qu¸ tr×nh huÊn luyÖn vµ nhËn d¹ng. PhÇn
cuèi cïng dµnh ®Ó tr×nh bµy vÒ bé c«ng cô CSLU. §©y lµ bé c«ng cô ®−îc x©y dùng sö
dông m¹ng lai ghÐp HMM/ANN. Qu¸ tr×nh x©y dùng, huÊn luyÖn vµ nhËn d¹ng cña
m¹ng lai ghÐp HMM/ANN b»ng c«ng cô CSLU ®−îc tr×nh bµy theo tõng b−íc.

4.1 M¹ng neuron

4.1.1 M¹ng Perceptron tuyÕn tÝnh ®¬n SLP


M¹ng SLP (Simple Linear Perceptron) bao gåm mét líp nót vµo (input) vµ líp nót ra
(output). Víi mçi mét vector gi¸ trÞ ®Çu vµo, c¸c gi¸ trÞ input ®−îc ®−a vµo c¸c nót
input, vµ m¹ng ANN sÏ cho kÕt qu¶ t−¬ng øng t¹i c¸c nót output. Ký hiÖu c¸c nót ®Çu
vµo xi lµ x1 , x2 ,..., xn , trong ®ã ni lµ sè l−îng nót vµo; c¸c nót ®Çu ra yi lµ yˆ1 , yˆ 2 ,..., yˆ n , no
i o

lµ sè l−îng nót ra. Mçi mét nót input xi liªn hÖ ®Òu cã mét nèi kÕt (connection hay
synapses) víi mét nót output yj. Mçi nèi kÕt ®−îc g¸n mét gi¸ trÞ, gäi lµ träng sè
(synapses strength), ký hiÖu lµ wij. C¸c tÝn hiÖu vµo ®−îc lan truyÒn theo c¸c nèi kÕt vµ
®−îc nh©n víi c¸c träng sè cña mçi nèi kÕt. TÝnh to¸n t¹i líp vµo sÏ ®−îc lan truyÒn
sang líp kÕ tiÕp vµ do vËy m¹ng ®−îc gäi lµ lan truyÒn th¼ng (feed-forward).
81

ŷ1 ŷ2 ŷ3 yˆ no

...

träng sè wij

...

x1 x2 xni

H×nh 4.1. M¹ng neuron Perceptron ®¬n


T¹i mçi nót output cña m¹ng, c¸c tÝn hiÖu vµo sÏ ®−îc nh©n víi c¸c träng sè vµ sau
®ã ®−îc céng l¹i thµnh gi¸ trÞ output nh− ®−îc miªu t¶ bëi c«ng thøc sau:
ni
yi = ∑ wij x j (4.1)
j =1

Gäi tËp d÷ liÖu mÉu dïng ®Ó huÊn luyÖn lµ (xk, yk ). Víi tËp d÷ liÖu mÉu, m¹ng ANN
víi c¸c träng sè, bµi to¸n huÊn luyÖn m¹ng ®−îc ®Æt ra nh− lµ ®iÒu chØnh c¸c träng sè
sao cho víi mçi vector gi¸ trÞ vµo xk , m¹ng cho mét kÕt qu¶ t−¬ng øng yˆ k , gÇn nhÊt víi
kÕt qu¶ mong muèn yk theo mét tiªu chuÈn nµo ®ã. Lùa chän th«ng dông cho mét hµm
tiªu chuÈn lµ hµm b×nh ph−¬ng tèi thiÓu (least square criterion).

1 K no
E= ∑∑ ( yi ,k − yˆi,k )2
2 k =1 i =1
(4.2)

trong ®ã yˆi ,k lµ gi¸ trÞ output cña nót ra thø i t−¬ng øng víi vector gi¸ trÞ vµo xk. yi ,k lµ
gi¸ trÞ mong muèn t−¬ng øng cña tËp d÷ liÖu huÊn luyÖn. K lµ sè l−îng c¸c mÉu trong
tËp huÊn luyÖn. Gi¸ trÞ 1/2 trong c«ng thøc víi môc ®Ých thuËn tiÖn cho tÝnh to¸n, khi
lÊy ®¹o hµm vÕ ph¶i cña (4.2). Qu¸ tr×nh huÊn luyÖn ®−îc thùc hiÖn víi môc ®Ých gi¶m
gi¸ trÞ hµm lçi E. Mét ph−¬ng ph¸p th«ng dông ®Ó gi¶m gi¸ trÞ hµm lçi E ®−îc ¸p dông
trong hÇu hÕt c¸c m¹ng lµ ph−¬ng ph¸p gi¶m gradient.
82

Ph−¬ng ph¸p gi¶m gradient lµ mét kü thuËt tèi −u ho¸ ®¶m b¶o héi tô vÒ mét gi¸ trÞ
cùc tiÓu côc bé. Ph−¬ng ph¸p ®−îc tiÕn hµnh theo nhiÒu vßng lÆp, mçi vßng lÆp c¸c gi¸
trÞ träng sè ®−îc ®iÒu chØnh theo h−íng ng−îc víi gi¸ trÞ gradient. Gäi w lµ gi¸ trÞ träng
sè t¹i mét b−íc cña thuËt to¸n, gi¸ trÞ träng sè míi ®−îc tÝnh to¸n cho b−íc tiÕp theo:
w = w′ + ∆w

trong ®ã ∆w biÓu diÔn sù thay ®æi cña träng sè, tû lÖ víi gi¸ trÞ ∇ wC , lµ gi¸ trÞ lçi
vector gradient ®−îc tÝnh to¸n theo träng sè w
w = −α∇ wC

C¸c gi¸ trÞ träng sè ®−îc biÓu diÔn b»ng c«ng thøc:
∂C
∆wij = −α
∂wij

Trong ®ã α ®−îc gäi lµ hÖ sè häc (learning rate). HÖ sè häc quyÕt ®Þnh tèc ®é héi tô
cña m¹ng. NÕu hÖ sè häc nhá tèc ®é héi tô sÏ chËm, ng−îc l¹i nÕu hÖ sè häc lín th× tèc
®é héi tô sÏ nhanh h¬n. Tuy nhiªn nÕu hÖ sè häc qu¸ lín sÏ lµm thuËt to¸n khã tiÕp cËn
gÇn ®Õn ®iÓm cùc tiÓu. Gi¸ trÞ tèt nhÊt cña hÖ sè häc ph¶i ®¶m b¶o ®Ó m¹ng héi tô
nhanh, mÆt kh¸c ®¶m b¶o ®Ó gi¸ trÞ hµm lçi E lµ nhá nhÊt.
Trong qu¸ tr×nh huÊn luyÖn, b−íc lÆp ®Çu tiªn sÏ b¾t ®Çu víi c¸c träng sè ®−îc khëi
t¹o tr−íc. Sau ®ã qua c¸c b−íc lÆp m¹ng sÏ ®iÒu chØnh c¸c träng sè theo h−íng gi¶m
gradient ®Ó cuèi cïng héi tô t¹i mét ®iÓm cùc tiÓu ®Þa ph−¬ng (local minimum). VÒ mÆt
lý thuyÕt, qu¸ tr×nh häc cã thÓ bÞ kÑt (stuck) t¹i mét gi¸ trÞ cùc tiÓu ®Þa ph−¬ng mµ
kh«ng thÓ tíi ®−îc gi¸ trÞ cùc tiÓu toµn côc (global). §Ó gi¶i quyÕt vÊn ®Ò nµy, m¹ng cã
thÓ ®−îc huÊn luyÖn vµi lÇn víi tËp c¸c träng sè ®−îc khëi t¹o kh¸c nhau.
Qu¸ tr×nh huÊn luyÖn th−êng ®−îc tiÕn hµnh víi tÊt c¶ tËp d÷ liÖu mÉu t¹i mçi b−íc
lÆp (®−îc gäi lµ tÝnh to¸n theo l«, batch mode), qu¸ tr×nh huÊn luyÖn th−êng mÊt rÊt
nhiÒu thêi gian. Trong thùc tÕ thay cho tÝnh to¸n gi¸ trÞ gradient (4.2) cña toµn bé d÷
liÖu mÉu, gi¸ trÞ gradient ®−îc tÝnh to¸n trùc tiÕp (online) víi mçi mét cÆp d÷ liÖu mÉu
(xk, yk ).

1 no
E= ∑ ( yi − yˆi )2
2 i =1
(4.3)
83

C¸c träng sè ®−îc cËp nhËt vÉn theo c¸c c«ng thøc nh− ®· tr×nh bÇy ë trªn. Ph−¬ng
ph¸p nµy ®−îc gäi lµ gi¶m gradient ngÉu nhiªn (stochastic gradient descent) vµ ®· ®−îc
chøng minh lµ hiÖu qu¶ h¬n nÕu sè mÉu huÊn luyÖn lµ lín (kho¶ng vµi tr¨m trë lªn).
Tõ ph−¬ng tr×nh (4.3) lÊy ®¹o hµm riªng theo tõng träng sè ta cã:

∂C 1 no ∂ ( yk − yˆ k ) 2
= ∑
∂wij 2 k =1 ∂wij

1 ∂ ( yi − yˆi ) 2
=
2 ∂wij

∂yˆi
= −( yi − yˆi ) (4.4)
∂wij

Tõ ph−¬ng tr×nh (4.1) ta cã


ni
∂ ∑ wil xl
∂yˆi
= l =1

∂wij ∂wij

= xi (4.5)

Tõ hai ph−¬ng tr×nh (4.4) vµ (4.5) ta cã


∆wij = −α ( yi − yˆi ) x j (4.6)

Ph−¬ng tr×nh (4.6) cho thÊy sù biÕn thiªn cña träng sè cña m¹ng sau khi cã mét gi¸
trÞ vµo m¹ng, gi¸ trÞ nµy tû lÖ víi hiÖu sè gi÷a gi¸ trÞ t¹i c¸c nót output vµ gi¸ trÞ ra
mong muèn nhËn ®−îc.
Ta ®Þnh nghÜa ®¹i l−îng
δ i = yi − yˆi

Khi ®ã ph−¬ng tr×nh (4.6) ®−îc viÕt l¹i lµ


∆wij = −αδ x j (4.7)

Ph−¬ng tr×nh (4.7) ®−îc gäi lµ luËt delta (delta rule).


84

4.1.2 M¹ng Perceptron ®a líp MLP


Mét trong nh÷ng cÊu tróc th«ng dông nhÊt cña m¹ng neuron lµ m¹ng Perceptron ®a
líp MLP (MultiLayer Perceptron). M¹ng MLP gåm cã mét líp vµo (input), mét líp ra
(output) vµ mét hoÆc nhiÒu líp Èn (hidden). M¹ng MLP còng cã thÓ ®−îc hiÓu lµ m¹ng
Perceptron mét líp ®−îc bæ sung thªm mét hoÆc nhiÒu líp Èn. Mét vector ®Çu vµo sÏ
®−îc ®−a vµo líp vµo (input) cña m¹ng vµ sau ®ã c¸c tÝnh to¸n ®−îc thùc hiÖn lan
truyÒn th¼ng (feed-forward) tõ líp vµo input sang c¸c líp Èn vµ kÕt thóc ë líp ra output.
Hµm kÝch ho¹t kÕt hîp víi c¸c nót Èn hay c¸c nót output cã thÓ lµ hµm tuyÕn tÝnh hay
phi tuyÕn vµ cã thÓ kh¸c nhau gi÷a c¸c nót. H×nh 4.2 miªu t¶ mét vÝ dô m¹ng
Perceptron ®a líp.
Qu¸ tr×nh huÊn luyÖn m¹ng MLP lµ qu¸ tr×nh häc cã gi¸m s¸t, c¸c träng sè gi÷a c¸c
nót cña hai líp kÕ tiÕp ®−îc ®iÒu chØnh theo mét hµm tiªu chuÈn nµo ®ã (criterion
function). Hµm tiÓu chuÈn th«ng dông hay ®−îc dïng gièng nh− m¹ng Perceptron ®¬n
líp lµ hµm tæng b×nh ph−¬ng hiÖu sè gi÷a c¸c gi¸ trÞ output vµ c¸c gi¸ trÞ mong muèn
cña c¸c nót ra.

ŷ1 ŷ2 ŷ3 yˆ no

...

träng sè wij

...

träng sè vij

...

x1 x2 xni

H×nh 4.2. M¹ng neuron Perceptron ®a líp MLP


85

Gi¶ thiÕt r»ng m¹ng MLP gåm cã ba líp, trong ®ã cã mét líp Èn nh− miªu t¶ trong
H×nh 4.2. Gäi hµm kÝch ho¹t ®èi víi c¸c nut Èn lµ ρ ( x) , hµm kÝch ho¹t ®èi víi nót ra lµ
σ ( x) , ta cã träng sè wij gi÷a nót Èn j vµ nót ra i ®−îc ®iÒu chØnh theo hµm lçi E nh− sau:

1 no
E= ∑
2 n =1
( yn − yˆ n ) 2

∂E
∆wij = −α
∂wij

Ta cã thÓ tÝnh

∂E 1 no ∂ ( yn − yˆ n ) 2
= ∑
∂wij 2 n =1 ∂wij

1 ∂ ( yi − yˆi ) 2
=
2 ∂wij

∂yi
= −( yi − yˆi ) (4.8)
∂wij

Trong ®ã ta cã thÓ tÝnh:


∂yi ∂σ ( yi )
=
∂wij ∂wij

∂σ ( yi ) ∂yi
=
∂yi ∂wij

nh
∂ ∑ wil yˆl
= σ i′( yi ) l =1

∂wij

= σ i′( yi ) yˆ j (4.9)

Tõ hai ph−¬ng tr×nh (4.8) vµ (4.9) ta cã


∆wij = −( yi − yˆi )σ i′( yi ) yˆ j

§Æt:
86

ε io = ( yi − yˆi )σ i′( yi )
(4.10)
Cuèi cïng ta cã c«ng thøc ®iÒu chØnh träng sè t−¬ng tù nh− tr−êng hîp cña m¹ng
Perceptron ®¬n líp nh− sau:

∆wij = αε io yˆ j (4.11)

B©y giê ta xem xÐt tr−êng hîp cña träng sè v jk gi÷a nót vµo k vµ nót Èn j ®−îc ®iÒu
chØnh theo hµm lçi E:

1 no
E= ∑ ( yn − yˆn )2
2 n =1

∂E
∆v jk = −α
∂v jk

Ta cã thÓ tÝnh

∂E 1 no ∂ ( yn − yˆ n ) 2
= ∑
∂v jk 2 n =1 ∂v jk

no
∂yˆ n
= −∑ ( yn − yˆ n ) (4.12)
n =1 ∂v jk

Ta cã thÓ thÊy tõ ph−¬ng tr×nh (4.12) lµ sù thay ®æi cña träng sè v jk liªn quan ®Õn
toµn bé c¸c nót ra output cña m¹ng.
∂yn ∂ρ ( yn )
=
∂v jk ∂v jk

∂σ ( yi ) ∂yi
=
∂yi ∂wij

nh
∂ ∑ wil yˆl
= σ i′( yi ) l =1

∂wij

= σ i′( yi ) yˆ j (4.13)
87

Tõ hai ph−¬ng tr×nh (4.8) vµ (4.9) ta cã


∆wij = −( yi − yˆi )σ i′( yi ) yˆ j

§Æt ε io = ( yi − yˆi )σ i′( yi )

Cuèi cïng ta cã c«ng thøc ®iÒu chØnh träng sè t−¬ng tù nh− tr−êng hîp cña m¹ng
Perceptron ®¬n líp nh− sau:

∆wij = αε io yˆ j (4.14)

B©y giê ta xem xÐt tr−êng hîp cña träng sè v jk gi÷a nót vµo k vµ nót Èn j ®−îc ®iÒu
chØnh theo hµm lçi E:

1 no
E= ∑
2 n =1
( yn − yˆ n ) 2

∂E
∆v jk = −α (4.15)
∂v jk

Ta cã thÓ tÝnh

∂E 1 no ∂ ( yn − yˆ n ) 2
= ∑
∂v jk 2 n =1 ∂v jk

no
∂yˆ n
= −∑ ( yn − yˆ n ) (4.16)
n =1 ∂v jk

Ta cã thÓ thÊy tõ ph−¬ng tr×nh (4.12) lµ sù thay ®æi cña träng sè v jk liªn quan ®Õn
toµn bé c¸c nót ra output cña m¹ng.
∂yˆ n ∂ρ ( yn )
=
∂v jk ∂v jk

∂ρ ( yn ) ∂yn
=
∂yn ∂v jk

∂yn
= ρ ′( yn ) (4.17)
∂v jk
88

Trong ®ã:
nh
∂ ∑ wnl hˆl
∂yn
= l =1

∂v jk ∂v jk

nh
∂hˆl
= ∑ wnl
l =1 ∂v jk

∂hˆ j
= wnj (4.18)
∂v jk

Trong ®ã hˆ j lµ gi¸ trÞ ®Çu ra cña nót Èn thø j. Ta tiÕp tôc tÝnh:

∂hˆ j ∂ρ (h j )
=
∂v jk ∂v jk

∂ρ (h j ) ∂h j
=
hj ∂v jk

ni
∂ ∑ v jm xm
= ρ ′j ( y j ) m =1

∂v jk

= ρ ′j (h j ) xk (4.19)

Tõ c¸c ph−¬ng tr×nh (4.15), (4.16), (4.17) vµ (4.19) ta cã


no
∆v jk = α ∑ ⎡⎣( yn − yˆ n )σ n′ ( yn ) wnj ⎤⎦ρ ′j (h j ) xk
n =1

⎧ no ⎫
= α ⎨∑ ⎡⎣ wnj ( yn − yˆ n )σ n′ ( yn ) ⎤⎦ ⎬ ρ ′j (h j ) xk (4.20)
⎩ n =1 ⎭
no
= α (∑ wnjε no ) ρ ′j (h j ) xk
n =1

Trong ®ã ε no ®−îc ®Þnh nghÜa bëi (4.10)


89

no
§Æt ε hj = (∑ wnjε no ) ρ ′j (h j ) ta sÏ cã c«ng thøc cËp nhËt träng sè t−¬ng tù nh− c«ng
n =1

thøc (4.11):

∆v jk = αε hj xk (4.21)

C¸c ph−¬ng tr×nh (4.11) vµ (4.21) t¹o thµnh mét tËp ph−¬ng tr×nh ®−îc gäi lµ qui
t¾c delta tæng qu¸t (Generalized Delta Rule)
Tõ c«ng thøc (4.20) cho ta thÊy trong qu¸ tr×nh häc, gi¸ trÞ hµm lçi lµ b×nh ph−¬ng
hiÖu sè gi÷a gi¸ trÞ output cña m¹ng vµ gi¸ trÞ mong muèn cña tËp mÉu ®−îc tÝnh to¸n
t¹o thµnh gi¸ trÞ delta cña líp output, gi¸ trÞ nµy ®−îc dïng ®Ó hiÖu chØnh c¸c träng sè
liªn kÕt víi líp output. Sau ®ã gi¸ trÞ delta nµy lan truyÒn ng−îc vÒ phÝa líp Èn cho phÐp
tÝnh to¸n c¸c träng sè liªn kÕt víi líp Èn theo ph−¬ng tr×nh (4.20). ChÝnh v× vËy qu¸
tr×nh nµy ®−îc gäi lµ häc lan truyÒn ng−îc sai sè (Error Back Propagation) .

4.2 M¹ng lai ghÐp HMM/ANN


M¹ng ANN cã −u ®iÓm næi bËt ®ã lµ kh¶ n¨ng ph©n líp. Tuy nhiªn khi ¸p dông vµo
hÖ thèng nhËn d¹ng tiÕng nãi, m¹ng ANN cã mét nh−îc ®iÓm lµ kh«ng thÝch hîp víi
c¸c tÝn hiÖu tiÕng nãi dµi, biÕn thiªn theo thêi gian. §Ó kh¾c phôc nh−îc ®iÓm nµy mét
sè m¹ng ANN ®· ®−îc ®Ò xuÊt bao gåm m¹ng ANN thêi gian trÔ (Time Delayed
Neural Network), m¹ng ANN håi qui (Recurrent Neural Network). C¸c m¹ng nµy cã
kh¶ n¨ng m« h×nh ho¸ biÕn thiªn cña tÝn hiÖu tiÕng nãi theo thêi gian. MÆc dï vËy c¸c
m¹ng nµy chØ lµm viÖc tèt víi c¸c ®¬n vÞ ng÷ ©m ng¾n nh− lµ ©m vÞ mµ vÉn kh«ng dïng
®−îc cho c¸c ph¸t ©m cã ®é dµi lín h¬n.
Kho¶ng cuèi thËp niªn t¸m m−¬i, ®Çu thËp niªn chÝn m−¬i, c¸c nhµ nghiªn cøu b¾t
®Çu thö nghiÖm hÖ thèng nhËn d¹ng lai ghÐp gi÷a m¹ng neuron vµ m« h×nh Markov Èn
(HMM/ANN) víi môc ®Ých ®Ó tËn dông hai −u ®iÓm cña hai ph−¬ng ph¸p nhËn d¹ng:
kh¶ n¨ng ph©n líp cña m¹ng neuron vµ kh¶ n¨ng m« h×nh ho¸ th«ng tin thêi gian cña
m« h×nh Markov Èn [Trentin 2001].
Cã kh¸ nhiÒu kiÕn tróc m¹ng lai ghÐp HMM/ANN ®· ®−îc ®Ò xuÊt, trong ®ã th«ng
dông nhÊt lµ kiÕn tróc dïng m¹ng MLP lµm x¸c suÊt ph¸t x¹ quan s¸t trong c¸c hÖ
90

thèng m¹ng lai ghÐp [Bourlard 1998]. PhÇn sau ®©y sÏ tr×nh bµy vÒ kiÕn tróc m¹ng lai
ghÐp nµy.

4.2.1 CÊu tróc m¹ng lai ghÐp


§iÓm kh¸c biÖt chÝnh cña m¹ng lai ghÐp HMM/ANN (Hidden Markov Model
/Artificial Neural Network) so víi c¸c m« h×nh Markov th«ng th−êng lµ hµm bj(k)
kh«ng ph¶i hµm mÊt ®é x¸c suÊt mµ lµ gi¸ trÞ x¸c suÊt ®Çu ra cña m¹ng ANN.
H×nh 4.3 miªu t¶ quan hÖ gi÷a c¸c m« h×nh HMM vµ m¹ng neuron ANN trong
tr−êng hîp mçi m« h×nh Markov t−¬ng øng víi mét tõ. Mçi nót ra cña m¹ng ANN
t−¬ng øng víi mét tr¹ng th¸i cña m« h×nh HMM. Tr¹ng th¸i cña ©m vÞ /oo/ trong hai tõ
”bèn” vµ ”mét” cã chung nhau mét nót ra cña m¹ng ANN.
/b/ /oo/ /n/ /m/ /oo/ /t/

C¸c m« h×nh ...


Markov

C¸c nót ra cña


ANN ...

C¸c nót Èn
cña ANN
...

C¸c nót vµo


cña ANN ...
H×nh 4.3. M« h×nh m¹ng lai ghÐp HMM/ANN

4.2.2 HuÊn luyÖn m¹ng HMM/ANN


H×nh 4.4 miªu t¶ qu¸ tr×nh huÊn luyÖn m¹ng lai ghÐp, trong ®ã b−íc ®Çu tiªn lµ
huÊn luyÖn m¹ng neuron ANN theo tËp d÷ liÖu huÊn luyÖn, t¹m gäi lµ tËp mÉu. TËp
mÉu bao gåm tËp bé ba c¸c tÖp: tÖp tiÕng nãi .wav, tÖp phiªn ©m chÝnh t¶ c¸c ©m tiÕt vµ
tÖp phiªn ©m ©m vÞ víi nh·n thêi gian ®−îc t¹o trong qu¸ tr×nh g¸n nh·n.
C¸c ®Æc tÝnh ©m häc cña c¸c ®¬n vÞ nhËn d¹ng ®−îc tÝnh to¸n ®Ó t¹o thµnh tËp d÷
liÖu mÉu (xi, yi), trong ®ã xi lµ c¸c vector ®Æc tÝnh cña c¸c khung tÝn hiÖu, yi lµ vector
91

c¸c gi¸ trÞ output cña m¹ng ANN ®−îc x¸c ®Þnh trong qu¸ tr×nh g¸n nh·n. Trong tËp
vector mÉu yi, chØ mét nót ouput ®−îc nhËn gi¸ trÞ 1, c¸c nót cßn l¹i cã gi¸ trÞ b»ng 0.
C¸c vector mÉu ®−îc dïng ®Ó huÊn luyÖn m¹ng neuron. Qu¸ tr×nh huÊn luyÖn m¹ng lµ
qu¸ tr×nh häc cã gi¸m s¸t thùc hiÖn b»ng thñ tôc huÊn luyÖn truyÒn ng−îc sai sè. Qu¸
tr×nh huÊn luyÖn ®−îc thùc hiÖn trong nhiÒu vßng lÆp (iteration).

HuÊn luyÖn ANN


víi hand-labled data

Träng sè

NhËn d¹ng b»ng


development data
Träng sè
tèt nhÊt
Viterbi
force-alignment

HuÊn luyÖn
ANN

Träng sè

NhËn d¹ng b»ng


development data

Sai

KÕt qu¶
tèt h¬n?
§óng

H×nh 4.4. HuÊn luyÖn m¹ng lai ghÐp HMM/ANN


92

Sau qu¸ tr×nh huÊn luyÖn m¹ng, ta thu ®−îc c¸c träng sè cña c¸c vßng lÆp huÊn
luyÖn kh¸c nhau. C¸c träng sè nµy ®−îc thö nhËn d¹ng trªn tËp d÷ liÖu ph¸t triÓn ®Ó
chän ra c¸c träng sè øng víi iteration cho kÕt qu¶ tèt nhÊt.
ANN víi tËp c¸c träng sè tèt nhÊt ®−îc dïng lµm m¹ng khëi ®Çu ®Ó huÊn luyÖn
m¹ng lai ghÐp HMM/ANN b»ng c¸c vßng lÆp. §Çu tiªn ANN ®−îc dïng ®Ó tÝnh x¸c
suÊt quan s¸t trong mçi tr¹ng th¸i bj(k). Tõ c¸c x¸c suÊt nµy HMM sÏ t×m ra ®−îc d·y
quan s¸t t−¬ng øng víi d÷ liÖu mÉu.
C¸c tham sè cña HMM sau ®ã ®−îc ®iÒu chØnh b»ng thuËt to¸n forward-backward
d−íi d¹ng nhóng (embedded). C¸c m« h×nh Markov Èn cña c¸c category ®−îc nèi ghÐp
l¹i víi nhau t¹o thµnh mét m« h×nh lín vµ thuËt to¸n forward-backward ®−îc ¸p dông
®Ó ®iÒu chØnh c¸c tham sè cña c¸c m« h×nh. C¸c gi¸ trÞ output cña m¹ng ANN còng sÏ
®−îc tÝnh to¸n b»ng thuËt to¸n forward-backward ®Ó t¹o thµnh mét vector cã kÝch th−íc
lµ sè nót ra cña m¹ng ANN. C¸c gi¸ trÞ nµy ®−îc dïng ®Ó huÊn luyÖn l¹i m¹ng ANN
b»ng thñ tôc huÊn luyÖn truyÒn ng−îc sai sè. C«ng thøc sau ®−îc dïng ®Ó tÝnh to¸n c¸c
gi¸ trÞ nµy [Yan 1997]:
α t (i ) β t (i )
yi = P(qt=Si⏐O,λ) =
P (O λ )

1 ≤ i ≤ N, 1 ≤ t ≤ T
Qu¸ tr×nh huÊn luyÖn cña m¹ng HMM/ANN ®−îc thùc hiÖn trong nhiÒu vßng lÆp
(iteration).

4.3 Bé c«ng cô CSLU

4.3.1 Giíi thiÖu bé c«ng cô CSLU


Tõ n¨m 1991, Trung t©m hiÓu ng«n ng÷ nãi CSLU (Center for Spoken Language
Understanding) ®· nhËn ®−îc ng©n s¸ch tõ NSF (National Science Foundation) ®Ó ph¸t
triÓn mét c«ng cô OGI, phÇn mÒm miÔn phÝ ®Ó ph©n tÝch, hiÓn thÞ vµ g¸n nh·n tiÕng
nãi. Sau ®ã c«ng cô OGI ®−îc chuyÓn ®æi thµnh bé c«ng cô CSLU, mét bé c«ng cô hç
trî c«ng viÖc ph¸t triÓn, nghiªn cøu vÒ tiÕng nãi vµ c¸c c«ng nghÖ tiÕng nãi. CSLU
còng ®· ph¸t triÓn mét sè l−îng lín c¸c c¬ së d÷ liÖu tiÕng nãi gåm 17 c¬ së d÷ liÖu
tiÕng nãi víi h¬n 1000 giê nãi tõ trÎ con tíi ng−êi lín víi 22 ng«n ng÷ kh¸c nhau [Cole
93

1999a]. C¸c c¬ së d÷ liÖu nµy ®−îc thu ©m víi nhiÒu lo¹i micro tõ chÊt l−îng cao ®Õn
thu ©m qua ®iÖn tho¹i, ®iÖn tho¹i di ®éng; thu ©m tõ nhiÒu m«i tr−êng kh¸c nhau: trong
phßng studio, trong phßng häc, trong phßng thÝ nghiÖm ®Õn ngoµi khu vùc c«ng céng;
nhiÒu lo¹i ph¸t ©m ®· ®−îc thu ©m: c¸c tõ riªng lÎ, c¸c c©u ®äc s½n hoÆc c¸c c©u nãi tù
nhiªn. Bé c«ng cô CSLU ®· ®−îc ph©n ph¸t tíi 2000 ®Þa ®iÓm kh¸c nhau trªn 65 n−íc
vµ ®· ®−îc sö dông trong h¬n 300 bµi b¸o khoa häc kh¸c nhau [Schalkwyk 2000].
Bé c«ng cô CSLU bao gåm c¸c module chÝnh: tæng hîp tiÕng nãi, nhËn d¹ng tiÕng
nãi, m« pháng nÐt mÆt, ph©n tÝch tiÕng nãi, hiÓu ng«n ng÷ tù nhiªn, ... §Ó phôc vô môc
®Ých nghiªn cøu, NCS chØ tËp trung nghiªn cøu hÖ thèng nhËn d¹ng tiÕng nãi cña
CSLU. HÖ thèng nhËn d¹ng cña CSLU hç trî viÖc nghiªn cøu nhËn d¹ng víi nhiÒu gi¶i
ph¸p: dïng m¹ng neuron ANN, dïng m« h×nh Markov Èn vµ m¹ng lai ghÐp
HMM/ANN.

4.3.2 Giíi thiÖu ph−¬ng ph¸p nhËn d¹ng


Chia tÖp ©m thanh thµnh c¸c khung tÝn hiÖu, mçi khung tin hiÖu lµ mét ®o¹n nhá
tiÕng nãi chøa ®ùng mét sè b»ng nhau c¸c mÉu. Th«ng th−êng khung tÝn hiÖu cã ®é dµi
10ms hay ®−îc sö dông.

Ph©n tÝch frame


phæ

trÝch chän
®Æc ®iÓm

ph©n líp
b»ng
t×m kiÕm ANN
Viterbi
KÕt qu¶
nhËn d¹ng

H×nh 4.5. Kh¸i qu¸t hÖ thèng nhËn d¹ng theo ph−¬ng ph¸p CSLU
94

TÝnh to¸n ®Æc tÝnh phæ t−¬ng øng cho mçi khung tÝn hiÖu. §Æc tÝnh phæ cña khung
tÝn hiÖu hiÖn thêi vµ cña c¸c khung tÝn hiÖu l©n cËn ®−îc sö dông ®Ó t¹o thµnh mét
vector ®Æc tÝnh phæ
Ph©n líp vector ®Æc tÝnh phæ thµnh c¸c category b»ng m¹ng neuron. KÕt qu¶ tÝnh
to¸n cña m¹ng neuron lµ c¸c x¸c suÊt cña c¸c category ®Ó khung tÝn hiÖu chøa category
dã.
Dïng ma trËn x¸c suÊt thu ®−îc ë b−íc trªn vµ tËp c¸c m« h×nh ph¸t ©m trong tõ
®iÓn ®Ó x¸c ®Þnh tõ cÇn nhËn d¹ng. ViÖc t×m kiÕm sö dông thuËt to¸n Viterbi.
4.3.2.1 §Þnh nghÜa c¸c category
Category lµ ®¬n vÞ ng÷ ©m c¬ b¶n trong mét hÖ thèng nhËn d¹ng. C¸c tõ ®−îc nhËn
d¹ng trong hÖ thèng ®−îc ®Þnh nghÜa trªn c¬ së tËp c¸c category nµy.
§Þnh nghÜa tõ ®iÓn ph¸t ©m cho mçi tõ trong hÖ thèng nhËn d¹ng th«ng qua c¸c ©m
vÞ. C¸c tõ ®−îc ®Þnh nghÜa cµng chÝnh x¸c th× tû lÖ nhËn d¹ng cµng cao. Mét tõ cã thÓ
bao gåm mét vµi ®Þnh nghÜa kh¸c nhau.
VÝ dô sau ®©y cho ta mét tõ ®iÓn ph¸t ©m cña c¸c tõ trong hÖ thèng nhËn d¹ng m−êi
ch÷ sè tiÕng ViÖt.
B¶ng 4.1. Phiªn ©m ©m vÞ m−êi ch÷ sè tiÕng ViÖt
Tõ Phiªn ©m
mootj m oo tc
hai hai
ba ba
boons b oo n
nawm n aw m
saus sau
baayr b aa i
tams uc t a m
chins uc ch i n
khoong kh oo ng
Th«ng th−êng c¸c hÖ thèng nhËn d¹ng th−êng dïng c¸c ©m vÞ phô thuéc ng÷ c¶nh.
C¸c ©m vÞ ®−îc ph©n biÖt víi nhau bëi c¸c ©m vÞ ®øng xung quanh nã.
Khi x©y dùng c¸c m« h×nh phô thuéc ng÷ c¶nh nh− vËy, c¸c ©m vÞ th−êng ®−îc chia
thµnh mét, hai hoÆc ba phÇn, mçi phÇn nh− vËy t−¬ng øng víi mçi category cña hÖ
thèng nhËn d¹ng. Mçi category phô thuéc vµo ng÷ c¶nh ë bªn tr¸i hoÆc bªn ph¶i cña
95

nã. VÝ dô ©m vÞ /kh/ ®−îc chia thµnh hai phÇn, phÇn bªn tr¸i phô thuéc vµo c¸c ©m vÞ
®øng bªn tr¸i ©m vÞ /kh/ vµ phÇn bªn ph¶i phô thuéc vµo c¸c ©m vÞ ®øng bªn ph¶i ©m vÞ
/kh/. Do /kh/ lµ phô ©m ®øng ®Çu c©u vµ chØ xuÊt hiÖn duy nhÊt trong tõ “kh«ng“ nªn
phÇn bªn ph¶i cña /kh/ chØ cã thÓ lµ ©m vÞ /oo/, tõ ®ã ta cã mét category /kh>oo/. PhÇn
bªn tr¸i cña /kh/ sÏ cho ta category /.pau>kh/ khi tõ “kh«ng“ ®øng ®Çu c©u hoÆc sau
mét kho¶ng nghØ pause. Khi “kh«ng“ ®øng sau c¸c tõ kh¸c ta cã c¸c category t−¬ng
øng /oong>kh/, /oot>kh/, /ai>kh/, /a>kh/, /oon>kh/, /awm>kh/, /au>kh/, /aai>kh/,
/am>kh/, /in>kh/. Nh− vËy ©m vÞ /kh/ cho ta 12 category t−¬ng øng víi 12 nót ®Çu ta
cña m¹ng n¬ ron.
NÕu ©m vÞ ®−îc chia lµm ba phÇn, phÇn ë gi÷a sÏ kh«ng phô thuéc vµo ng÷ c¶nh
hai bªn, chØ cã hai phÇn hai bªn sÏ phô thuéc vµo c¸c ©m vÞ ®øng c¹nh nã. Mçi ©m vÞ sÏ
®−îc x¸c ®Þnh kiÓu phô thuéc ng÷ c¶nh th«ng qua ®Þnh nghÜa sè phÇn ph©n chia cña ©m
vÞ ®ã. B¶ng 4.2 sau ®©y cho ta vÝ dô ®Þnh nghÜa sè phÇn cña c¸c ©m vÞ trong hÖ thèng
nhËn d¹ng m−êi ch÷ sè tiÕng ViÖt.
B¶ng 4.2. Sè category cña mçi ©m vÞ
¢m tè Sè phÇn
.pau 1
m 2
n 2
ng 2
s 2
ch 1
h 2
kh 2
b r
oo 3
aw 3
aa 3
a 3
i 3
u 3
t 1
uc 1

VÝ dô d−íi ®©y cho ta d·y c¸c category t−¬ng øng víi ph¸t ©m hai tõ “ba t¸m”, víi
sè l−îng c¸c phÇn cña c¸c ©m vÞ nh− ®−îc liÖt kª trong B¶ng 4.2.
$sil<b b>a b<a <a> a>t a<t t>a t<a <a> a>m a<m m>$sil
96

Khi sö ph−¬ng thøc ph©n chia nh− vËy, sè l−îng category sÏ t¨ng lªn rÊt lín. Víi 17
©m vÞ nh− ®−îc liÖt kª trong B¶ng 4.2, sè l−îng category cã thÓ lªn tíi 600 category
kh¸c nhau. §èi víi tiÕng ViÖt, nÕu hÖ thèng nhËn d¹ng bao gåm tÊt c¶ c¸c tõ cã thÓ cã
th× sè l−îng category theo −íc tÝnh cã thÓ lªn tíi kho¶ng 2147 category. Víi sè l−îng
lín nh− vËy, cÇn ph¶i cã d÷ liÖu huÊn luyÖn ®ñ lín ®Ó huÊn luyÖn ®ñ c¸c category. Tuy
vËy ngay c¶ lín d÷ liÖu huÊn luyÖn lín vÉn khã tr¸nh khái tr−êng hîp mÊt c©n b»ng vÒ
sè l−îng d÷ liÖu huÊn luyÖn gi÷a c¸c category. Mét sè category cã sè l−îng d÷ liÖu
huÊn luyÖn lín, sè category kh¸c th× l¹i cã sè l−îng nhá, kh«ng ®ñ ®Ó dïng cho huÊn
luyÖn.
§Ó kh¾c phôc hiÖn t−îng nµy, mét sè c¸c ©m vÞ ®−îc tËp hîp l¹i víi nhau thµnh
tõng nhãm. VÝ dô nh− nhãm c¸c phô ©m x¸t, nhãm c¸c phô ©m t¾c, nhãm c¸c nguyªn
©m hµng tr−íc, nhãm c¸c ©m vÞ lµ kho¶ng yªn lÆng, ... C¸c nhãm cã thÓ ®−îc ph©n biÖt
lµ nhãm ng÷ c¶nh tr¸i vµ nhãm ng÷ c¶nh ph¶i nÕu nh− vai trß ng÷ c¶nh cña nã lµ kh¸c
nhau khi nã ®øng bªn tr¸i vµ bªn ph¶i mét ©m vÞ.
ViÖc chän c¸c ©m vÞ ®Ó nhãm l¹i víi nhau ph¶i c¨n cø vµo c¸c ®Æc tÝnh ©m häc còng
nh− ph−¬ng thøc ph¸t ©m cña c¸c ©m vÞ. C¸c nhãm ph¶i chøa ®ùng c¸c thµnh viªn mµ
¶nh h−ëng cña nã tíi ng÷ c¶nh cña c¸c ©m vÞ xung quanh t−¬ng ®èi gièng nhau. §Þnh
nghÜa c¸c nhãm ng÷ c¶nh cµng chÝnh x¸c th× kh¶ n¨ng nhËn d¹ng cña hÖ thèng cµng tèt
[Hosom 1999].
VÝ dô sau ®©y lµ c¸c nhãm ®−îc tËp hîp l¹i trªn c¸c ©m vÞ ®−îc liÖt kª trong B¶ng
4.2.
B¶ng 4.3. C¸c nhãm ng÷ c¶nh cña c¸c ©m vÞ
Tªn nhãm C¸c thµnh viªn cña nhãm Ghi chó
$sil .pau tc bc chc uc .garbage; nhãm c¸c ©m ®ãng, khaongr yªn lÆng
$nas n m ng; nhãm c¸c phô ©m mòi
$bck oo aw a u aa; nhãm c¸c nguyªn ©m hµng sau
$fnt i; nhãm c¸c nguyªn ©m hµng tr−íc
$pls t b ch; nhãm c¸c phô ©m næ
$uvf s kh h; nhãm c¸c phô ©m x¸t

Víi c¸ch ph©n nhãm nh− vËy danh s¸ch c¸c category t−¬ng øng víi hai tõ “ba
t¸m” sÏ nh− sau:
97

$sil<b b>$bck $pls<a <a> a>$pls $bck<t t>$bck $pls<a <a> a>$nas
$bck<m m>$sil

C¸c category mµ cã c¸c ©m vÞ xung quanh cïng n»m trong mét nhãm sÏ ®−îc buéc
l¹i víi nhau t¹o thµnh mét category duy nhÊt, ch¼ng h¹n nh− c¸c category /t<a/, /b<a/,
/ch<a/ sÏ ®−îc buéc thµnh mét category duy nhÊt lµ /$pls<a/.
Khi huÊn luyÖn d÷ liÖu dïng cho c¸c category bÞ buéc sÏ ®−îc chia xÎ gi÷a c¸c
category vµ v× vËy sÏ gióp lµm gi¶m hiÖn t−îng thiÕu d÷ liÖu ®Ó huÊn luyÖn.

4.3.3 C¬ së d÷ liÖu
4.3.3.1 C¸c tÖp d÷ liÖu
C¬ së d÷ liÖu bao gåm c¸c cÆp c¸c tÖp gåm ba lo¹i tÖp:

− TÖp ©m thanh l−u ë d¹ng .wav

− TÖp v¨n b¶n chøa phiªn ©m chÝnh t¶ cña c¸c tÖp ©m thanh

− TÖp phiªn ©m tÖp ©m thanh ë møc ©m vÞ ®−îc l−u trong c¸c tÖp cã ®u«i .phn.
C¸c cÆp ®−îc ®Þnh danh b»ng mét m· ID duy nhÊt t−¬ng øng víi ng−êi nãi. Ngoµi
ra tªn cña tÖp cßn chøa ®ùng th«ng tin vÒ lo¹i th«ng tin cña tÖp. VÝ dô sau lµ mét sè c¸c
tÖp trong c¬ së d÷ liÖu.
05/03/2002 23:31 326 VI-1024.fphone.phn
24/02/2002 11:30 33 VI-1024.fphone.txt
21/01/2002 13:20 33794 VI-1024.fphone.wav
28/09/2002 09:12 302 VI-1031.areacode.phn
08/02/2002 13:28 14 VI-1031.areacode.txt
21/01/2002 13:59 14726 VI-1031.areacode.wav

C¸c tÖp v¨n b¶n .txt chøa phiªn ©m chÝnh t¶ cña c¸c tõ trong bé tù ®iÓn cña hÖ thèng
nhËn d¹ng. Tªn phiªn ©m møc ©m vÞ chøa danh s¸ch c¸c ©m vÞ t−¬ng øng cña c¸c tõ
trong ph¸t ©m ®ã. Mçi ©m vÞ sÏ ®−îc g¸n cho hai nh·n thêi gian, thêi gian ®Çu vµ thêi
gian kÕt thóc sù tån t¹i cña ©m vÞ ®ã. §¬n vÞ ®o c¸c nh·n thêi gian lµ ms vµ c¸c nh·n
thêi gian ®−îc x¸c ®Þnh bëi qu¸ tr×nh g¸n nh·n b»ng tay. VÝ dô vÒ mét tÖp v¨n b¶n cña
ph¸t ©m “ba n¨m” lµ:
98

VI-105.inus.txt:
ba nawm
VI-105.inus.phn:
MillisecondsPerFrame: 1.0
END OF HEADER
0 134 .pau
134 190 bc
190 260 b
260 410 a
410 460 n
460 540 aw
540 600 m
600 1210 .pau

C¬ së d÷ liÖu ®−îc chia thµnh ba phÇn:

− D÷ liÖu dïng ®Ó huÊn luyÖn. Bao gåm 60% tæng sè d÷ liÖu cña hÖ c¬ së d÷ liÖu.

− D÷ liÖu ph¸t triÓn. Bao gåm 20% tæng sè d÷ liÖu cña hÖ c¬ së d÷ liÖu. D÷ liÖu nµy
®−îc dïng hoµn thiÖn, ®iÒu chØnh c¸c th«ng sè cña hÖ thèng nhËn d¹ng trong qu¸ tr×nh
ph¸t triÓn hÖ thèng nhËn d¹ng.

− D÷ liÖu kiÓm tra: Bao gåm 20% tæng sè d÷ liÖu cña hÖ c¬ së d÷ liÖu. D÷ liÖu nµy
®−îc dïng ®Ó ®¸nh gi¸ ®é chÝnh x¸c nhËn d¹ng cña hÖ thèng. §Ó cho kh¸ch quan
giäng ng−êi nãi trong tËp d÷ liÖu ph¸t triÓn vµ d÷ liÖu kiÓm tra kh«ng cã mÆt trong tËp
d÷ liÖu huÊn luyÖn. §iÒu nµy tr¸nh hÖ thèng nhËn d¹ng víi giäng nãi mµ nã ®· ®−îc
huÊn luyÖn tr−íc.
4.3.3.2 G¸n nh·n b»ng tay
G¸n nh·n (labeling) lµ c«ng viÖc x¸c ®Þnh ra c¸c ranh giíi (boundary) c¸c ©m vÞ
trong mét tõ. C¸c nh·n thêi gian (time-align label) ®−îc t¹o b»ng hai c¸ch: g¸n nh·n
b»ng tay do ng−êi g¸n nh·n (labeler hay transcriber) thùc hiÖn b»ng tay dùa vµo viÖc
®äc c¸c th«ng tin trªn biÓu ®å sãng (waveform) vµ biÓu ®å phæ (spectrogram) hoÆc g¸n
nh·n tù ®éng b»ng ph−¬ng thøc g¸n nh·n c−ìng bøc (force-alignment labeling). Chi
tiÕt vÒ g¸n nh·n ®−îc tr×nh bµy trong Ch−¬ng 5.
99

H×nh 4.6. BiÓu ®å sãng vµ biÓu ®å phæ cña ph¸t ©m “s¸u n¨m”.
H×nh 4.6 cho ta mét h×nh ¶nh vÒ mét ph¸t ©m vµ c¸c nh·n thêi gian cña c¸c ©m vÞ
t−¬ng øng

4.3.4 HuÊn luyÖn vµ nhËn d¹ng b»ng m¹ng ANN


4.3.4.1 HuÊn luyÖn b»ng c¸c nh·n g¸n b»ng tay
Qu¸ tr×nh huÊn luyÖn tr−íc tiªn b¾t ®Çu b»ng huÊn luyÖn c¸c category dïng th«ng
tin nh·n thêi gian ®−îc t¹o b»ng tay.
Víi mçi ph¸t ©m, th«ng tin nh·n thêi gian cho ta c¸c kho¶ng thêi gian thuéc vÒ ©m
vÞ cÇn huÊn luyÖn. Tuy nhiªn do c¸ch ph©n chia mét ©m vÞ thµnh c¸c category ®Ó tÝnh
®Õn ¶nh h−ëng cña ng÷ c¶nh, kho¶ng thêi gian cña ©m vÞ sÏ ®−îc chia thµnh c¸c 1, 2
hoÆc 3 phÇn tuy theo khai b¸o. C¸c phÇn nµy ®−îc chia ®Òu trong kho¶ng thêi gian cña
©m vÞ. Nh− vËy víi mçi category c¸c kho¶ng thêi gian dµnh cho chóng ®−îc x¸c ®Þnh
trong mçi ph¸t ©m. ViÖc x¸c ®Þnh c¸c kho¶ng thêi gian vµ ph©n chia chóng ®Òu nhau
cho mçi category ®−îc thùc hiÖn bëi ch−¬ng tr×nh gencat.tcl. Ch−¬ng tr×nh nµy sÏ t¹o
ra c¸c tÖp .cat, kh¸c víi tÖp .phn chøa th«ng tin vÒ c¸c nh·n thêi gian cña c¸c ©m vÞ,
tÖp .cat chøa th«ng tin vÒ c¸c nh·n thêi gian cña tõng category cña mçi ph¸t ©m. VÝ dô
vÒ mét tÖp .cat nh− sau:
100

MillisecondsPerFrame: 1.000000
END OF HEADER
0 800 <.pau>
800 872 <ch>
872 887 $pls<i
887 903 <i>
903 918 i>$nas

Sau khi t¹o ra c¸c tÖp .cat, sè l−îng c¸c category cïng sè lÇn xuÊt hiÖn cña chóng
trong tËp d÷ liÖu huÊn luyÖn ®−îc ghi l¹i. NÕu category nµo cã sè lÇn xuÊt hiÖn qu¸ Ýt
(th«ng th−êng nhá h¬n 3 lÇn), tøc lµ sè d÷ liÖu dïng ®Ó huÊn luyÖn cho nã kh«ng ®ñ th×
category nªn ®−îc buéc vµo c¸c category gÇn víi nã, ch¼ng h¹n nh− category cïng mét
©m vÞ nh−ng kh¸c nhau ng÷ c¶nh tr¸i. Qu¸ tr×nh kiÓm tra c¸c sè lÇn xuÊt hiÖn category,
buéc c¸c category ®−îc lµm nhê sù trî gióp cña ch−¬ng tr×nh revise_desc.tcl.
Tõ c¸c kho¶ng thêi gian nµy, c¸c khung tÝn hiÖu 10ms øng víi mçi category ®−îc
tËp hîp l¹i ®Ó dïng huÊn luyÖn cho m¹ng ANN sau nµy. C«ng viÖc nµy thùc hiÖn ®−îc
nhê ch−¬ng tr×nh pick.tcl. Sau ®ã mét tÖp chøa c¸c gi¸ trÞ c¸c vector ®Æc tÝnh phæ t−¬ng
øng víi c¸c category ®−îc t¹o b»ng tiÖn Ých genvec.tcl. Tõ tÖp vector nµy, m¹ng ANN
®−îc huÊn luyÖn.
Mét tham sè quan träng trong qu¸ tr×nh huÊn luyÖn m¹ng ANN lµ hÖ sè häc
(learning rate). HÖ sè häc cã gi¸ trÞ ngÇm ®Þnh lµ 0.05. Tuy nhiªn gi¸ trÞ nµy cã thÓ ®iÒu
chØnh tuú theo tõng m¹ng ANN vµ tuú theo kÝch th−íc d÷ liÖu huÊn luyÖn. NÕu hÖ sè
häc lín, hÖ thèng sÏ nhanh chãng tiÕn tíi ®iÓm héi tô, tuy nhiªn ng−îc l¹i nã l¹i khã
tiÕp cËn gÇn nhÊt ®−îc ®Õn ®iÓm cùc trÞ. NÕu hÖ sè häc nhá, qu¸ tr×nh huÊn luyÖn sÏ l©u
míi tíi ®−îc ®iÓm cùc trÞ nh−ng ng−îc l¹i hÖ thèng cã thÓ tiÕn gÇn tíi ®iÓm cùc trÞ
nhiÒu h¬n.
M¹ng neuron dïng ®−îc huÊn luyÖn gåm ba líp. Sè líp còng nh− sè nót cña líp Èn
cña m¹ng cã thÓ ®iÒu chØnh ®−îc b»ng tham sè. Sè l−îng nót ®Çu vµo phô thuéc vµo
kÝch th−íc vector ®Æc tÝnh phæ cña mçi khung tÝn hiÖu. Bëi ngÇm ®Þnh, ngoµi 12 hÖ tè
MFCC cïng víi gi¸ trÞ n¨ng l−îng vµ gi¸ trÞ delta cña c¸c gi¸ trÞ trªn t¹o thµnh 26 gi¸
trÞ ®èi víi mçi khung tÝn hiÖu. Ngoµi ra 4 khung tÝn hiÖu l©n cËn khung tÝn hiÖu chÝnh: -
60, -30, +30, +60ms còng ®−îc dïng t¹o thµnh mét vector 130 ®Æc tÝnh phæ øng víi
101

mçi khung tÝn hiÖu. NÕu vËy m¹ng ANN sÏ cã 130 nót ®Çu vµo. Sè l−îng nót thuéc líp
Èn th−êng ®−îc chän lµ 200 nót. Tuy nhiªn ch−a cã tµi liÖu nµo ®Ò xuÊt ph−¬ng ph¸p
dïng ®Ó x¸c ®Þnh sè l−îng nót Èn ®Ó m¹ng ANN ho¹t ®éng tèt nhÊt. Sè l−îng nót thuéc
líp Èn cµng lín th× qu¸ tr×nh häc cña m¹ng ANN cµng l©u. Th«ng th−êng sè l−îng nót
thuéc líp Èn ®−îc chän gÇn víi sè l−îng nót ®Çu ra cña m¹ng ANN.
Sè l−îng nót ra cña m¹ng ANN phô thuéc vµo sè l−îng category cña hÖ thèng.
Ngoµi ra m¹ng ANN cßn cã mét nót ra ®Æc biÖt, ®ã lµ garbage. Môc ®Ých sö dông
garbage ®ã lµ lµm cho hÖ thèng nhËn d¹ng mÒm dÎo vµ cã kh¶ n¨ng chÞu ®ùng c¸c
nhiÔu mµ kh«ng ¶nh h−ëng ®Õn hÖ thèng nhËn d¹ng. Trong CSLU, cã hai ©m vÞ ®−îc
xÕp vµo mét lo¹i chung lµ ©m vÞ m«i tr−êng (background): /.pau/ vµ /.garbage/. ¢m vÞ
./pau/ biÓu thÞ c¸c kho¶ng yªn lÆng, vµ ®−îc huÊn luyÖn trong tËp d÷ liÖu huÊn luyÖn.
/.garbage/ biÓu thÞ c¸c nhiÔu kh«ng mong ®îi nh− tiÕng xen vµo cña cßi « t«, tiÕng c−êi,
tiÕng ho, .... Trong m¹ng ANN, /.pau/ ®−a ra trùc tiÕp kÕt qu¶, ng−îc l¹i /.garbage/ ®−îc
tÝnh to¸n dùa vµo c¸c kÕt qu¶ cña c¸c category kh¸c. Nã ®−îc tÝnh lµ gi¸ trÞ trung b×nh
cña N gi¸ trÞ x¸c suÊt lín nhÊt, trong ®ã N lµ hµm cña sè nót ®Çu ra cña m¹ng ANN.
¢m thanh m«i tr−êng ®−îc ®Þnh nghÜa lµ gi¸ trÞ cao nhÊt cña mét trong hai ©m vÞ /.pau/
vµ /.garbage/. Víi c¸ch ®Þnh nghÜa nµy, /.garbage/ sÏ cã gi¸ trÞ cao nhÊt víi c¸c khung
tÝn hiÖu n»m ë vïng nhiÔu vµ sÏ cã gi¸ trÞ thÊp h¬n c¸c category kh¸c khi khung tÝn
hiÖu n»m ë vïng cã tiÕng nãi.
ViÖc ¸p dông gi¸ trÞ /.garbage/ gãp phÇn lµm gi¶m ®¸ng kÓ nhËn d¹ng nhÇm, ®Æc
biÖt lµ c¸c lçi do chÌn do c¸c t¹p ©m. Khi ®ã hÖ thèng ®ñ kh¶ n¨ng ph©n biÖt ®−îc c¸c
t¹p ©m, hoÆc c¸c tõ kh«ng n»m trong bé tõ ®iÓn vµ ph©n lo¹i chóng lµ c¸c ©m thanh m«i
tr−êng thay v× c¸c tõ trong bé tõ ®iÓn.
Qu¸ tr×nh huÊn luyÖn m¹ng ANN ®−îc tiÕn hµnh trªn nhiÒu vßng lÆp. Phô thuéc vµo
sè l−îng category, sè l−îng c¸c category ®−îc buéc, cÊu tróc m¹ng neuron, kÝch th−íc
d÷ liÖu huÊn luyÖn, hÖ sè häc mµ m¹ng neuron cã thÓ héi tô sau mét sè lÇn lÆp. Gi¸ trÞ
nµy cã thÓ tõ 20 ®Õn 40 lÇn lÆp.
4.3.4.2 T×m iteration tèt nhÊt cña m¹ng ANN
Do ®Æc tÝnh cña m¹ng ANN, sau mét sè lÇn lÆp m¹ng sÏ ®¹t ®Õn l©n cËn ®iÓm cùc
trÞ, tuy nhiªn lÇn lÆp sau cã thÓ sÏ kh«ng tiÕn gÇn h¬n tíi ®iÓm cùc trÞ mµ cã thÓ sÏ tiÕn
102

xa h¬n ®iÓm cùc trÞ. Khi héi tô c¸c vßng lÆp sÏ ë l©n cËn ®iÓm cùc trÞ. VÊn ®Ò lµ vßng
lÆp nµo ë gÇn ®iÓm cùc trÞ nhÊt hay nãi c¸ch kh¸c cã kh¶ n¨ng nhËn d¹ng tèt nhÊt.
§Ó t×m ®−îc gi¶i ®¸p cho c©u hái nµy hÖ thèng sÏ tiÕn hµnh nhËn d¹ng trªn tËp d÷
liÖu ph¸t triÓn, qua ®ã sÏ t×m ra ®−îc vßng lÆp nµo cho ta kÕt qu¶ nhËn d¹ng tèt nhÊt.
Qu¸ tr×nh nhËn d¹ng ®−îc tiÕn hµnh b»ng thuËt to¸n Viterbi.
Qu¸ tr×nh nhËn d¹ng b¾t ®Çu b»ng viÖc tÝnh to¸n c¸c khung tÝn hiÖu cña ph¸t ©m.
Sau ®ã vector ®Æc tÝnh phæ cña khung tÝn hiÖu ®−îc ®−a vµo m¹ng ANN ®Ó tiÕn hµnh
ph©n líp. KÕt qu¶ cña qu¸ tr×nh ph©n líp lµ tËp c¸c x¸c suÊt cã kÝch th−íc b»ng sè
l−îng b»ng sè category ®Ó khung tÝn hiÖu thêi gian hiÖn thêi thuéc vÒ mçi category.
Sau qu¸ tr×nh ph©n líp, tËp c¸c x¸c suÊt cña c¸c khung tÝn hiÖu cña mét ph¸t ©m
(utterance) t¹o thµnh mét ma trËn x¸c suÊt, trong ®ã c¸c hµng ma trËn lµ c¸c ®¬n vÞ
nhËn d¹ng, c¸c cét lµ c¸c khung tÝn hiÖu liªn tiÕp nhau cña ph¸t ©m. ThuËt to¸n t×m
kiÕm Viterbi ®−îc ¸p dông cho ma trËn nµy ®Ó t×m ra tõ cÇn nhËn d¹ng.
H×nh 4.7 cho ta thÊy mét phÇn b¶ng kÕt qu¶ c¸c x¸c suÊt do m¹ng n¬ ron tiÕn hµnh
ph©n líp mét ph¸t ©m trong mét hÖ thèng nhËn d¹ng. Trong ®ã hµng ngang lµ c¸c ®¬n
vÞ nhËn d¹ng, hµng däc lµ thêi gian, tøc lµ c¸c khung tÝn hiÖu. ThuËt to¸n Viterbi sÏ t×m
ra cho ta d·y c¸c ©m vÞ víi ®−êng ®i cã träng sè (tÝnh b»ng x¸c suÊt) lµ cao nhÊt.

H×nh 4.7: Minh häa mét phÇn b¶ng x¸c suÊt cña mét ph¸t ©m dïng cho thuËt to¸n Viterbi (®é ®Ëm nh¹t
cña c¸c « biÓu thÞ x¸c suÊt cao hay thÊp t−¬ng øng víi ®¬n vÞ nhËn d¹ng)
Th«ng th−êng viÖc thö trªn d÷ liÖu ph¸t triÓn ®−îc tiÕn hµnh ®èi víi c¸c vßng lÆp
cuèi, khi m¹ng ®· ë tr¹ng th¸i héi tô. VÝ dô sau ®©y cho ta kÕt qu¶ nhËn d¹ng cña m¹ng
103

ANN ®èi víi tËp d÷ liÖu ph¸t triÓn dïng 10 vßng lÆp cuèi. Vßng lÆp thø 23 cho kÕt qu¶
chÝnh x¸c nhÊt so víi c¸c vßng lÆp sau nã vµ tr−íc nã.
Itr #Snt #Words Sub% Ins% Del% WrdAcc% SntCorr
30 68 341 3.81% 0.88% 0.88% 94.43% 77.94%
29 68 341 3.52% 0.59% 0.88% 95.01% 79.41%
28 68 341 4.11% 0.88% 0.88% 94.13% 76.47%
27 68 341 3.81% 0.88% 0.88% 94.43% 77.94%
26 68 341 4.11% 0.88% 0.88% 94.13% 77.94%
25 68 341 3.23% 1.17% 0.88% 94.72% 77.94%
24 68 341 3.52% 0.88% 0.88% 94.72% 79.41%
23 68 341 3.23% 0.88% 0.88% 95.01% 80.88%
22 68 341 3.52% 0.59% 0.88% 95.01% 79.41%
21 68 341 3.81% 0.59% 0.88% 94.72% 79.41%
20 68 341 3.81% 0.59% 0.88% 94.72% 80.88%
Best results (95.01, 80.88) with network nnet.23

4.3.4.3 HuÊn luyÖn b»ng c¸c nh·n sinh bëi g¸n nh·n c−ìng bøc
Sau qu¸ tr×nh huÊn luyÖn m¹ng ANN b»ng c¸c nh·n thêi gian x¸c ®Þnh b»ng tay.
M¹ng ANN ®−îc huÊn luyÖn ®−îc dïng ®Ó g¸n nh·n c−ìng bøc (force-aligned). Qu¸
tr×nh g¸n nh·n c−ìng bøc nh»m x¸c ®Þnh l¹i ranh giíi cña c¸c category ®· ®−îc x¸c
®Þnh tr−íc ®ã b»ng c¸ch chia ®Òu kho¶ng thêi gian cña c¸c ©m vÞ thµnh c¸c phÇn b»ng
nhau.
Do m¹ng ANN ®· ®−îc huÊn luyÖn nªn chóng cã thÓ ho¹t ®éng hiÖu qu¶ vµ x¸c
®Þnh chÝnh x¸c ranh giíi cña c¸c category trong mét ©m vÞ h¬n lµ dïng c¸ch chia ®Òu.
Vßng lÆp cho ®é chÝnh x¸c cao nhÊt trong qu¸ tr×nh huÊn luyÖn b»ng d÷ liÖu g¸n nh·n
b»ng tay ®−îc t×m thÊy b»ng d÷ liÖu ph¸t triÓn sÏ ®−îc dïng ®Ò g¸n nh·n c−ìng bøc.
Nh− trong vÝ dô trªn vßng lÆp thø 23 sÏ ®−îc dïng ®Ó tiÕn hµnh g¸n nh·n c−ìng bøc.
104

H×nh 4.8. BiÓu ®å sãng vµ biÓu ®å phæ cña ph¸t ©m “bÈy n¨m”
H×nh 4.8 cho ta thÊy mét ph¸t ©m “bÈy n¨m”. Trªn cïng lµ th−íc ®o thêi gian víi
®¬n vÞ lµ ms, sau ®ã lµ biÓu ®å sãng vµ biÓu ®å phæ cña ph¸t ©m. TiÕp theo lµ c¸c ranh
giíi thêi gian cña c¸c ©m vÞ ®−îc x¸c ®Þnh bëi g¸n nh·n b»ng tay vµ ®−îc l−u trong tÖp
.phn. Dßng tiÕp theo lµ c¸c ranh giíi cña c¸c category ®−îc t¹o tù ®éng trong qu¸ tr×nh
huÊn luyÖn c¸c category dïng nh·n thêi gian g¸n b»ng tay. C¸c category nµy ®−îc t¹o
bëi chia ®Òu mçi ©m vÞ thµnh c¸c category t−¬ng øng. Dßng d−íi cïng cho ta thÊy ranh
giíi cña c¸c category mµ ®−îc x¸c ®Þnh b»ng g¸n nh·n c−ìng bøc. Ta thÊy cã sù kh¸c
nhau gi÷a ranh giíi c¸c category. HÖ thèng nhËn d¹ng sau khi ®· ®−îc huÊn luyÖn ®·
t×m ranh giíi cña c¸c category chÝnh x¸c h¬n lµ chia ®Òu c¸c ©m vÞ thµnh c¸c phÇn ®Òu
nhau.
Sau qu¸ tr×nh g¸n nh·n c−ìng bøc, ranh giíi cña c¸c category ®−îc x¸c ®Þnh vµ c¸c
th«ng tin nµy l¹i ®−îc dïng ®Ó x¸c ®Þnh c¸c khung tÝn hiÖu thuéc vÒ c¸c category trong
mçi ph¸t ©m. Qu¸ tr×nh lÆp l¹i gièng nh− tr−êng hîp huÊn luyÖn m¹ng ANN b»ng c¸c
th«ng tin g¸n nh·n b»ng tay. Mét tÖp chøa vector c¸c ®Æc tÝnh phæ cña c¸c khung tÝn
hiÖu t−¬ng øng víi mçi category ®−îc t¹o vµ m¹ng ANN l¹i ®−îc huÊn luyÖn l¹i b»ng
c¸c th«ng tin míi.
105

4.3.4.4 NhËn d¹ng b»ng m¹ng ANN


Sau khi kÕt thóc qu¸ tr×nh huÊn luyÖn m¹ng ANN b»ng c¸c nh·n thêi gian t¹o bëi
g¸n nh·n c−ìng bøc, qu¸ tr×nh huÊn luyÖn m¹ng ANN ®· kÕt thóc ®· cã thÓ ®−îc dïng
®Ó nhËn d¹ng. HÖ thèng cã thÓ tiÕn hµnh nhËn d¹ng trªn tËp d÷ liÖu kiÓm tra thay v× tËp
d÷ liÖu ph¸t triÓn nh− tr−íc kia. KÕt qu¶ nhËn d¹ng cho ta biÕt n¨ng lùc lµm viÖc cña hÖ
thèng. Mét c«ng cô ®−îc dïng ®Ó tiÕn hµnh nhËn d¹ng trong CSLU lµ find_best.tc.

4.3.5 X©y dùng m¹ng lai ghÐp HMM/ANN

Sau khi m¹ng neuron ®· ®−îc huÊn luyÖn b»ng c¸c nh·n thêi gian t¹o b»ng g¸n
nh·n c−ìng bøc, m¹ng ANN sÏ ®−îc dïng ®Ó thö trªn tËp d÷ liÖu ph¸t triÓn ®Ó t×m ra
vßng lÆp nµo víi tËp c¸c träng sè t−¬ng øng cho kÕt qu¶ tèt nhÊt. TËp c¸c träng sè nµy
sau ®ã ®−îc dïng ®Ó huÊn luyÖn m¹ng lai ghÐp HMM/ANN.

C¸c m« h×nh Markov Èn cña m¹ng lai ghÐp sÏ ®−îc huÊn luyÖn b»ng ph−¬ng ph¸p
huÊn luyÖn nhóng. Víi mçi ph¸t ©m, tõ d·y c¸c ©m vÞ ®· biÕt tr−íc, c¸c m« h×nh ®−îc
ghÐp nèi víi nhau thµnh mét m« h×nh Markov Èn lín. Sau ®ã m¹ng ANN víi tËp c¸c
träng sè lín nhÊt ®−îc dïng ®Ó thùc hiÖn ph©n líp víi c¸c khung tÝn hiÖu ®Çu vµo. KÕt
qu¶ ph©n líp lµ tËp c¸c x¸c suÊt ®−îc dïng lµm x¸c suÊt ph¸t x¹ quan s¸t dïng ®Ó huÊn
luyÖn m« h×nh Markov lín. Tõ c¸c tham sè ®−îc ®iÒu chØnh cña m« h×nh Markov, c¸c
gi¸ trÞ ®Çu ra cña m¹ng ANN ®−îc tÝnh to¸n vµ tõ ®ã m¹ng ANN l¹i ®−îc häc mét lÇn
n÷a, c¸c träng sè cña m¹ng ®−îc ®iÒu chØnh. Qu¸ tr×nh huÊn luyÖn ®−îc lÆp l¹i trong
nhiÒu vßng lÆp.

Sau lÇn huÊn luyÖn ®Çu tiªn c¸c träng sè vµ c¸c tham sè cña m« h×nh Markov ®−îc
®iÒu chØnh. HÖ thèng sÏ ®−îc dïng ®Ó tiÕn hµnh nhËn d¹ng trªn tËp d÷ liÖu ph¸t triÓn.
M¹ng lai ghÐp cã ®é chÝnh x¸c cao nhÊt cïng c¸c träng sè ®−îc t×m thÊy sau b−íc nhËn
d¹ng nµy. Th«ng th−êng víi sù tham gia cña m« h×nh Markov Èn ®é chÝnh x¸c nhËn
d¹ng cña hÖ thèng sÏ ®−îc c¶i thiÖn ®Æc biÖt lµ ®é chÝnh x¸c ë møc c©u.

Sau lÇn huÊn luyÖn nµy, hÖ thèng cã thÓ ®−îc tiÕp tôc huÊn luyÖn mét lÇn n÷a sö
dông m¹ng lai ghÐp cã ®é chÝnh x¸c cao nhÊt trªn tËp d÷ liÖu ph¸t triÓn nh− ®· miªu t¶
ë trªn. Qu¸ tr×nh huÊn luyÖn cã thÓ tiÕn hµnh nhiÒu lÇn cho ®Õn khi kh«ng cã sù c¶i
106

thiÖn ®¸ng kÓ cña hÖ thèng ®èi víi d÷ liÖu kiÓm tra. Th«ng th−êng qu¸ tr×nh huÊn luyÖn
dõng sau 3-4 lÇn huÊn luyÖn.

Sau khi m¹ng HMM/ANN ®−îc huÊn luyÖn xong, hÖ thèng ®−îc dïng ®Ó nhËn
d¹ng b»ng c«ng cô find_best.tcl gièng nh− tr−êng hîp m¹ng ANN. So víi hÖ thèng lµm
viÖc víi m¹ng ANN, hÖ thèng HMM/ANN th−êng cã ®é chÝnh x¸c cao h¬n ë møc c©u,
do sö dông m« h×nh HMM vµo trong hÖ thèng nhËn d¹ng. §é chÝnh x¸c ë møc tõ Ýt
®−îc c¶i thiÖn so víi hÖ thèng ho¹t ®éng b»ng ANN.
107

PhÇn B: x©y dùng hÖ thèng nhËn

d¹ng tiÕng ViÖt

_____________________________________________________

Ch−¬ng 5

c¬ së d÷ liÖu vµ g¸n nh∙n tiÕng

viÖt
C¬ së d÷ liÖu cña mét hÖ thèng nhËn d¹ng lµ mét bé phËn kh«ng thÓ t¸ch rêi
víi c¸c thuËt to¸n dïng trong nhËn d¹ng. TÝnh chÊt cña c¬ së d÷ liÖu còng lµ nh÷ng
tÝnh chÊt cña mét hÖ thèng nhËn d¹ng. §¸ng tiÕc lµ cho ®Õn thêi ®iÓm hiÖn nay ch−a
cã mét c¬ së d÷ liÖu tiÕng ViÖt nµo ®−îc x©y dùng hoµn chØnh, vµ ®©y lµ mét trong
nh÷ng trë ng¹i chÝnh trong viÖc nghiªn cøu vÒ nhËn d¹ng tiÕng nãi tiÕng ViÖt.
Ch−¬ng nµy dµnh ®Ó tr×nh bµy vÒ x©y dùng c¬ së d÷ liÖu tiÕng ViÖt. Kh¸c víi c¸c
ng«n ng÷ ch©u ¢u lµ ®a ©m vµ kh«ng cã thanh ®iÖu, tiÕng ViÖt lµ ng«n ng÷ ®¬n ©m
vµ cã thanh ®iÖu. PhÇn ®Çu cña ch−¬ng tr×nh bµy vÒ c¸c ®Æc ®iÓm riªng biÖt cña
tiÕng ViÖt. Néi dung cña phÇn nµy chñ yÕu ®−îc tham kh¶o trong c¸c s¸ch gi¸o
khoa tiÕng ViÖt. Do ch−a cã sù thèng nhÊt vÒ ph−¬ng ph¸p ghi chÝnh t¶ vµ b¶ng ký
hiÖu ©m vÞ tiÕng ViÖt nªn phÇn tiÕp theo sÏ tr×nh bµy vÒ mét ®Ò xuÊt b¶ng ký hiÖu
©m vÞ tiÕng ViÖt vµ ph−¬ng ph¸p ghi chÝnh t¶ tiÕng ViÖt.
Trong qu¸ tr×nh x©y dùng c¬ së d÷ liÖu, g¸n nh·n lµ mét trong nh÷ng c«ng viÖc
quan träng vµ còng lµ kh©u mÊt nhiÒu thêi gian nhÊt. PhÇn chÝnh cña ch−¬ng nµy tËp
trung vµo nhiÖm vô nµy. PhÇn 3 tr×nh bµy vÒ g¸n nh·n tiÕng ViÖt b»ng tay, ph−¬ng
ph¸p g¸n nh·n vµ c¸c tr−êng hîp cô thÓ g¸n nh·n c¸c ©m vÞ. PhÇn cuèi tr×nh bµy vÒ
ph−¬ng ph¸p g¸n nh·n tù ®éng c¬ së d÷ liÖu. Ngoµi viÖc tr×nh bµy ph−¬ng ph¸p, c¸c
thö nghiÖm víi ph−¬ng ph¸p nµy còng ®−îc thùc hiÖn ®Ó ®¸nh gi¸ ®é chÝnh x¸c.
108

5.1 Giíi thiÖu


C¬ së d÷ liÖu tiÕng nãi (corpus) ®ãng mét vai trß quan träng trong qu¸ tr×nh
nghiªn cøu nhËn d¹ng tiÕng nãi vµ tæng hîp tiÕng nãi. C¬ së d÷ liÖu tiÕng ®−îc dïng
®Ó ph¸t triÓn, huÊn luyÖn vµ kiÓm tra n¨ng lùc lµm viÖc cña c¸c hÖ thèng xö lý tiÕng
nãi. C¬ së d÷ liÖu tiÕng th−êng cã kÝch th−íc lín, ®−îc x©y dùng c«ng phu bao gåm
nhiÒu giäng nãi cña nhiÒu ng−êi nãi gåm nhiÒu løa tuæi, ®Õn tõ nhiÒu vïng ®Þa lý
kh¸c nhau.
Do vai trß quan träng cña c¬ së d÷ liÖu tiÕng nãi nªn nhiÒu c¬ së d÷ liÖu tiÕng
n−íc ngoµi ®· ®−îc ph¸t triÓn trong nh÷ng thËp kû qua. VÝ dô nh− c¬ së d÷ liÖu
TIMIT [Feb 1993] tiÕng Anh-Mü, c¸c c¬ së d÷ liÖu tiÕng nãi cña CSLU [Yeshwant],
WSJCAM0, [Robonson 1995], tiÕng NhËt JSST (Japanese Spontanueous Scheduling
Task), .... HÖ c¬ së d÷ liÖu ch¼ng h¹n nh− TIMIT ®· ®−îc sö dông réng r·i trong
céng ®ång c¸c nhµ nghiªn cøu vµ trë thµnh mét c¬ së ®Ó ®¸nh gi¸ so s¸nh gi÷a c¸c
nghiªn cøu.
Qui tr×nh x©y dùng mét c¬ së d÷ liÖu tiÕng gåm cã hai giai ®o¹n chÝnh: thu thËp
d÷ liÖu vµ phiªn ©m chÝnh t¶, g¸n nh·n thêi gian ë møc ©m vÞ. Ng−êi ta ph©n biÖt
c¸c tÝnh chÊt cña c¸c lo¹i c¬ së d÷ liÖu:

− C¬ së d÷ liÖu gåm c¸c tõ rêi r¹c hoÆc c¬ së d÷ liÖu gåm c¸c c©u ph¸t ©m liªn tôc.
Lo¹i c¬ së d÷ liÖu ®Çu ®−îc dïng cho c¸c hÖ thèng nhËn d¹ng rêi r¹c, lo¹i thø hai
dïng cho c¸c hÖ thèng nhËn d¹ng liªn tôc.

− C¬ së d÷ liÖu cã kÝch th−íc nhá, trung b×nh hoÆc lín t−¬ng øng víi c¸c hÖ thèng
nhËn d¹ng nhá, trung b×nh hoÆc lín. KÝch th−íc cña c¬ së d÷ liÖu ®−îc tÝnh lµ kÝch
th−íc cña bé tõ ®iÓn c¸c tõ cã mÆt trong nã.

− M«i tr−êng thu ©m cña c¬ së d÷ liÖu: trong phßng studio, trong phßng thÝ
nghiÖm, trong m«i tr−êng v¨n phßng, trong m«i tr−êng bªn ngoµi, thu ©m qua ®iÖn
tho¹i cè ®Þnh, thu ©m qua ®iÖn tho¹i di ®éng, ...

− ThiÕt bÞ thu ©m vµ chÊt l−îng thu ©m còng lµ mét tÝnh chÊt quan träng. C¬ së d÷
liÖu cã thÓ ®−îc thu ©m víi chÊt l−îng cao nh− TIMIT víi tÇn sè lÊy mÉu lµ
44kHz/s, hoÆc chØ víi 8Hzk/s khi thu ©m qua ®iÖn tho¹i nh− c¬ së d÷ liÖu cña
CSLU.
109

− §Æc ®iÓm cña ng−êi nãi trong c¬ së d÷ liÖu. Víi hÖ thèng nhËn d¹ng phô thuéc
ng−êi nãi, c¬ së d÷ liÖu cã thÓ chØ bao gåm mét ng−êi nãi. Th«ng th−êng c¬ së d÷
liÖu bao gåm hµng tr¨m ng−êi nãi.

− Ph−¬ng ph¸p ph¸t ©m. Víi hÖ c¬ së d÷ liÖu TIMIT, ng−êi nãi ®äc c¸c c©u cã néi
dông chuÈn bÞ s½n. §èi víi mét sè c¬ së d÷ liÖu cña CSLU th× ng−êi nãi ®−îc
pháng vÊn qua ®iÖn tho¹i vµ hä ph¸t ©m theo ph−¬ng thøc tù nhiªn (spontaneous),
võa nãi võa nghÜ. Ph−¬ng thøc nµy gÇn víi ng«n ng÷ tù nhiªn nhÊt nh−ng lµ khã
nhËn d¹ng h¬n v× c¸c ph¸t ©m theo c¸ch nµy hay bÞ lÉn c¸c t¹p ©m nh− tiÕng “µ, ê”,
tiÕng ®»ng h¾ng, tiÕng c−êi cña ng−êi nãi. Tèc ®é ph¸t ©m cña c¬ së d÷ liÖu lo¹i
nµy còng rÊt kh¸c nhau vµ c¸c ph¸t ©m còng kh«ng râ rµng so víi tr−êng hîp ng−êi
nãi ®äc s½n tõ c¸c c©u cã chuÈn bÞ tr−íc.
Sau qu¸ tr×nh thu ©m cña c¬ së d÷ liÖu lµ mét qu¸ tr×nh quan träng: phiªn ©m
chÝnh t¶ vµ g¸n nh·n thêi gian ë møc ©m vÞ cho c¸c ph¸t ©m. Phiªn ©m chÝnh t¶ lµ
ghi l¹i néi dung cña c¸c ph¸t ©m d−íi d¹ng v¨n b¶n, mçi tÖp v¨n b¶n t−¬ng øng víi
mét tÖp ph¸t ©m ë d¹ng .wav.

5.2 Ng«n ng÷ tiÕng VIÖt

5.2.1 §Æc ®iÓm ©m tiÕt tiÕng ViÖt


5.2.1.1 TÝnh ®éc lËp cao
Trong tiÕng ViÖt, ©m tiÕt ®−îc thÓ hiÖn kh¸ ®Çy ®ñ, râ rµng, ®−îc t¸ch vµ ng¾t
thµnh tõng khóc ®o¹n riªng biÖt. ¢m tiÕt nµo cña tiÕng ViÖt còng mang mét thanh
®iÖu vµ cÊu tróc æn ®Þnh. §iÒu nµy lµm cho sù thÓ hiÖn cña ©m tiÕt tiÕng ViÖt trong
chuçi lêi nãi næi bËt vµ t¸ch b¹ch h¬n. Do ®ã nªn viÖc v¹ch ra ranh giíi gi÷a c¸c ©m
tiÕt trong tiÕng ViÖt dÔ dµng h¬n nhiÒu viÖc ph©n chia ranh giíi ©m tiÕt trong c¸c
ng«n ng÷ ch©u ¢u [ThuËt 1999] (trong ng«n ng÷ ch©u ¢u, viÖc ph©n chia ©m tiÕt cã
khi ph¶i dïng ph−¬ng ph¸p ph©n tÝch phæ). ViÖc t¸ch b¹ch ©m tiÕt cßn ®−îc thÓ
hiÖn ë ch÷ viÕt, mçi ©m tiÕt ®−îc viÕt t¸ch ra thµnh mét tõ riªng biÖt.
Cã thÓ nãi so víi c¸c ©m tiÕt ch©u ¢u, tiÕng ViÖt cã tÝnh ®éc lËp cao h¬n h¼n.
Trong c¸c ng«n ng÷ ch©u ¢u th−êng gÆp c¸c hiÖn t−îng nèi ©m (liaison), vÝ dô
nh− :

Les amis
110

Trong tiÕng ViÖt kh«ng cã hiÖn t−îng nèi ©m nh− vËy.


5.2.1.2 Cã kh¶ n¨ng biÓu hiÖn ý nghÜa
TuyÖt ®¹i ®a sè c¸c ©m tiÕt tiÕng ViÖt ®Òu cã nghÜa. GÇn nh− toµn bé c¸c ©m tiÕt
®Òu ho¹t ®éng nh− tõ. Nãi c¸ch kh¸c trong tiÕng ViÖt ranh giíi cña ©m tiÕt trïng víi
ranh giíi cña h×nh vÞ [Tho 1997] (h×nh vÞ lµ ®¬n vÞ cã nghÜa nhá nhÊt trong mét
ng«n ng÷). ChÝnh v× vËy trong mét ph¸t ng«n, sè l−îng ©m tiÕt trïng víi sè l−îng
h×nh vÞ.
5.2.1.3 Cã cÊu tróc chÆt chÏ
Mçi ©m tiÕt tiÕng ViÖt ë d¹ng ®Çy ®ñ cã 5 phÇn nh− H×nh 5.1:

Thanh ®iÖu
VÇn
¢m ®Çu
¢m ®Öm ¢m chÝnh ¢m cuèi

H×nh 5.1. CÊu tróc cña ©m tiÕt tiÕng ViÖt


CÊu tróc tæng qu¸t cña mét ©m tiÕt tiÕng ViÖt lµ (C1)(w)V(C2). Trong ®ã C1 lµ
phô ©m ®Çu, (w) lµ ©m ®Öm, V lµ ©m chÝnh vµ C2 lµ ©m cuèi.
¢m tiÕt tiÕng ViÖt cã cÊu tróc gåm hai bËc: bËc mét bao gåm c¸c thµnh tè trùc
tiÕp ®−îc ph©n ®Þnh b»ng nh÷ng ranh giíi cã ý nghÜa ng÷ ©m häc. PhÇn thø hai bao
gåm c¸c yÕu tè cña phÇn vÇn chØ cã chøc n¨ng khu biÖt thuÇn tuý. Quan hÖ gi÷a c¸c
yÕu tè ë bËc mét lµ quan hÖ láng lÎo, gi÷a c¸c yÕu tè cña bËc hai cã quan hÖ chÆt
chÏ. C¸c thùc nghiÖm ®· chøng minh r»ng: tÝnh ®éc lËp cña thanh ®iÖu ®èi víi c¸c
©m vÞ cô thÓ lé ra ë chç ®−êng nÐt ©m ®iÖu vµ tr−êng ®é cña nã kh«ng g¾n liÒn víi
thµnh phÇn ©m thanh cña ©m tiÕt. Trong khu«n khæ mçi lo¹i h×nh thanh ®iÖu c¸c ©m
tiÕt cã mét tr−êng ®é cè ®Þnh. ¢m ®Çu kh«ng tham gia b¶o ®¶m tr−êng ®é cè ®Þnh
Êy mµ chÝnh ©m phÇn vÇn l¹i ®¶m ®−¬ng víi bÊt kÓ sè l−îng vµ phÈm chÊt cña
nh÷ng yÕu tè lµm thµnh phÇn cña nã. Trong phÇn vÇn, viÖc rót ng¾n c¸c nguyªn ©m
ë nh÷ng vÞ trÝ nhÊt ®Þnh ®−îc bï l¹i b»ng sù kÐo dµi c¸c ©m cuèi [ThuËt 1999].
Theo GS. B¶ng vµ céng sù [B¶ng 2001] sè l−îng ©m tiÕt trªn lý thuyÕt cña tiÕng
ViÖt lµ 18 958. So víi c¸c c¸c ng«n ng÷ th«ng th−êng trªn thÕ giíi cã sè l−îng ©m
tiÕt vµo kho¶ng 3000-5000, tiÕng Trung Quèc sè l−îng ©m tiÕt trªn lý thuyÕt lµ
111

1620, trªn thùc tÕ lµ 1255. §iÒu nµy cho thÊy tiÕng ViÖt cã sè l−îng ©m tiÕt rÊt lín,
vµ chÝnh v× thÕ Ýt cã hiÖn t−îng ®ång ©m, Ýt g©y trë ng¹i cho viÖc nhËn diÖn ©m tiÕt.
Theo [ThuËt 1999], trong tiÕng ViÖt cã 6 thanh ®iÖu, 21 ©m ®Çu vµ 155 phÇn vÇn vµ
phÇn vÇn ®ãng vai trß khu biÖt lín h¬n c¶ so víi c¸c yÕu tè kh¸c trong BËc 1.

¢m tiÕt

Thanh ¢m ®Çu PhÇn vÇn BËc 1

¢m ®Öm ¢m ¢m cuèi BËc 2

H×nh 5.2. CÊu tróc hai bËc cña tiÕng ViÖt

5.2.2 ¢m vÞ tiÕng ViÖt


¢m vÞ lµ ®¬n vÞ ®o¹n tÝnh nhá nhÊt cã chøc n¨ng ph©n biÖt nghÜa. VÒ mÆt x· héi
cña ng÷ ©m, trong sè c¸c ©m vÞ trong lêi nãi cña ng«n ng÷, ta cã thÓ tËp hîp mét sè
l−îng cã h¹n nh÷ng ®¬n vÞ mang nh÷ng nÐt chung vÒ cÊu t¹o ©m thanh vµ vÒ chøc
n¨ng trong ng«n ng÷ ®ã gäi lµ ©m vÞ.
Cã mét c¶n trë khi nghiªn cøu ©m vÞ tiÕng ViÖt lµ ch−a cã mét qui ®Þnh chÝnh
thøc vÒ ph¸p lý, hay mét chuÈn chung cña c¸c nhµ khoa häc ng÷ ©m vÒ mét chuÈn
tiÕng ViÖt. Cã thÓ quan niÖm t¹m thêi coi "tiÕng ViÖt chuÈn nh− mét thø tiÕng
chung ®−îc h×nh thµnh trªn c¬ së tiÕng ®Þa ph−¬ng cña miÒn B¾c víi trung t©m lµ
Hµ néi mµ c¸ch ph¸t ©m cña nã lµ c¸ch ph¸t ©m Hµ néi víi sù ph©n biÖt /ˇ-c/,/Í-
s/,/¸-z/ vµ c¸c vÇn −u/iu, −¬u/iªu”. [Tho 1997]

5.2.2.1 Thanh ®iÖu


¢m vÞ tiÕng ViÖt cã hai lo¹i ©m vÞ ®o¹n tÝnh vµ ©m vÞ siªu ®o¹n tÝnh. ¢m vÞ ®o¹n
tÝnh lµ c¸c ®¬n vÞ cã thÓ chia c¾t ®−îc trong chuçi lêi nãi nh− nguyªn ©m, phô ©m.
¢m vÞ siªu ®o¹n tÝnh lµ lo¹i ®¬n vÞ kh«ng cã ©m ®o¹n tÝnh, kh«ng ®éc lËp tån t¹i,
nh−ng còng cã chøc n¨ng ph©n biÖt nghÜa, nhËn diÖn tõ, ®ã lµ thanh ®iÖu. §©y lµ ®Æc
®iÓm riªng cña tiÕng ViÖt so víi c¸c ng«n ng÷ Ch©u ¢u. Mét sè ng«n ng÷ kh¸c nh−
tiÕng H¸n, tiÕng Th¸i còng cã ®Æc ®iÓm nµy nh− tiÕng ViÖt.
Thanh ®iÖu ®−îc h×nh thµnh b»ng sù rung ®éng cña d©y thanh, tuú theo sù rung
®ã nhanh hay chËm, m¹nh hay yÕu, biÕn chuyÓn ra sao mµ ta cã c¸c thanh ®iÖu kh¸c
112

nhau. Thanh ®iÖu tiÕng ViÖt thuéc lo¹i thanh l−ít, cã nghÜa lµ c¸c thanh ®iÖu ph©n
biÖt víi nhau b»ng sù di chuyÓn cao ®é tõ thÊp lªn cao hay tõ cao xuèng thÊp.

(1) 5
(5)
(3) 4
(4) 3
(6)
2
(2)
1

H×nh 5.3. C¸c thµnh ®iÖu tiÕng ViÖt 1. Kh«ng dÊu, 2. HuyÒn, 3. Ng·, 4. Hái, 5. S¾c, 6.NÆng
Theo c¸c nhµ ng«n ng÷ häc th× thanh ®iÖu cã ¶nh h−ëng bao chïm lªn toµn bé
©m tiÕt, mÆc dï g¸nh nÆng chñ yÕu tËp trung ë phÇn vÇn.
TiÕng ViÖt cã s¸u thanh ®iÖu. NÕu chia thang ®é cña giäng nãi b×nh th−êng
thµnh 5 bËc th× ta cã thanh ®iÖu tiÕng ViÖt ®−îc miªu t¶ nh− trong H×nh 5.3.
5.2.2.2 ¢m ®Çu
Trong c¸c s¸ch gi¸o khoa tiÕng ViÖt [C©n 1999, Tho 1997, ThuËt 1999, Trõ
1997], tiÕng ViÖt cã 21 ©m vÞ lµ ©m ®Çu. C¸c ©m vÞ /p,r/ kh«ng ®−îc liÖt kª lµ c¸c
©m vÞ ®Çu tiÕng ViÖt. Së dÜ nh− vËy v× c¸c ©m vÞ nµy th−êng ®−îc dïng trong c¸c tõ
tiÕng ViÖt vay m−în cña n−íc ngoµi nh− “®Ìn pin”, “pa tª”, “ra®i«”, tuy sè l−îng
nµy kh«ng nhiÒu, ngoµi ra mét sè ®Þa ph−¬ng ©m /r/ ®−îc ph¸t ©m rung ®Çu l−ìi, tuy
nhiªn ®Þa bµn nh÷ng thæ ng÷ nµy kh«ng réng, sè ng−êi dïng kh«ng ®«ng. Tuy nhiªn
trong thùc tÕ viÖc sö dông c¸c ©m vÞ /p,r/ vÉn ®−îc ng−êi ViÖt nam dïng trong c¸c
tr−êng hîp tªn riªng n−íc ngoµi nh− Rumani, Pakistan, ...
¢m vÞ /÷/, ©m t¾c thanh hÇu ®−îc liÖt kª trong mét sè s¸ch gi¸o khoa tiÕng ViÖt
nh− mét phô ©m ®Çu. Trong nh÷ng ©m tiÕt nh−: ”ai, ¬i, ¨n, o¶n, uèng, oanh, uyªn”
cã hiÖn t−îng khÐp khe thanh lóc më ®Çu, khi chóng ®−îc ph¸t ©m lªn. TiÕng bËt do
®éng t¸c më khe thanh ®ét ngét ®−îc nghe râ hoÆc kh«ng râ ë tõng ng−êi, trong
tõng lóc, phô thuéc vµo phong c¸ch vµ bèi c¶nh ng÷ ©m. Thõa nhËn tån t¹i ©m t¾c
thanh hÇu ®−a ®Õn x©y dùng ®−îc mét m« h×nh tæng qu¸t cña ©m tiÕt tiÕng ViÖt c©n
xøng h¬n víi ba thµnh tè lu«n cã mÆt: thanh ®iÖu, ©m ®Çu, ©m vÇn [ThuËt 1999].
Tuy nhiªn ©m t¾c thanh hÇu kh«ng ®−îc thÓ hiÖn trªn ch÷ viÕt. Së dÜ nh− vËy v×
b¶n chÊt ©m t¾c thanh hÇu vèn yÕu, trong mét sè ®iÒu kiÖn nµo ®ã kh«ng dÔ ®−îc
ng−êi b¶n ng÷ nhËn ra. Thö thÝ nghiÖm ph¸t ©m c¸c ©m tiÕt trªn cã t¾c thanh hÇu
113

hay kh«ng cã t¾c thanh hÇu, ng−êi ViÖt nam vÉn kh«ng nhËn ra sù kh¸c biÖt vµ coi
nh− lµ mét tõ. Theo [Tho 1997] sù xuÊt hiÖn cña ©m t¾c thanh hÇu trong thùc tÕ
th−êng lµ tuú tiÖn, kh«ng theo qui luËt, thËm chÝ lµ v¾ng mÆt (68%) nhiÒu h¬n lµ cã
mÆt (32%). Trong biÓu ®å phæ vµ biÓu ®å sãng, ©m t¾c thanh hÇu còng xuÊt hiÖn
nh− mét kho¶ng tr¾ng n¨ng l−îng gièng nh− tr−êng hîp cña ©m ®ãng. V× lý do trªn
trong hÖ thèng nhËn d¹ng tiÕng ViÖt, ©m t¾c thanh hÇu kh«ng nªn ®−a vµo nh− mét
©m vÞ ®ãng vai trß ©m ®Çu trong tõ.
TiÕng ViÖt cã 21 ©m ®Çu, 6 thanh ®iÖu, 2 ©m ®Öm, 16 ©m chÝnh vµ 8 ©m cuèi.
VËy so víi c¸c yÕu tè cÊu t¹o ©m tiÕt th× ©m ®Çu cã chøc n¨ng khu biÖt lín h¬n c¶.
5.2.2.3 ¢m ®Öm
¢m ®Öm cã chøc n¨ng tu chØnh ©m s¾c cña ©m tiÕt lóc khëi ®Çu, lµm trÇm ho¸
©m tiÕt vµ khu biÖt ©m tiÕt nµy víi ©m tiÕt kh¸c. Kh¸c víi ©m chÝnh lu«n n»m ë ®Ønh
©m tiÕt, ©m ®Öm n»m ë ®−êng cong ®i lªn cña ®Ønh ©m tiÕt. ¢m ®Öm kh«ng xuÊt
hiÖn tr−íc c¸c nguyªn ©m trßn m«i /u,o,ø/, nã chØ xuÊt hiÖn tr−íc c¸c nguyªn ©m
hµng tr−íc. §é më cña ©m ®Öm phô thuéc vµo ®é më cña c¸c nguyªn ©m-©m chÝnh
®i sau.
5.2.2.4 ¢m chÝnh
¢m chÝnh lµ nguyªn ©m vµ cã mÆt trong mäi ©m tiÕt qui ®Þnh ¨m s¾c cña ©m tiÕt.
¢m chÝnh tiÕng ViÖt cã tÊt c¶ 14 ©m gåm 11 nguyªn ©m ®¬n vµ 3 nguyªn ©m ®«i.
¢m chÝnh ©m tiÕt cã thÓ chia thµnh 4 nhãm :

− Nhãm nguyªn ©m ®¬n, hµng tr−íc, kh«ng trßn m«i. ¢m s¾c cña nhãm nµy
th−êng lµ bæng. Cã thÓ dµi vµ thÓ ng¾n. ThÓ ng¾n cã sù biÕn d¹ng Ýt nhiÒu vÒ tr−êng
®é, ©m s¾c, c−êng ®é, ph¸t ©m c¨ng vµ ng¾n.

− Nhãm nguyªn ©m ®¬n, hµng sau trßn m«i. ¢m s¾c trÇm. Cã thÓ dµi vµ thÓ ng¾n.
Sù thÓ hiÖn thÓ ng¾n cã cÊu ©m kh«ng gi÷ ®Òu

− Nhãm nguyªn ©m ®¬n, hµng sau, kh«ng trßn m«i. ¢m s¾c trÇm võa.

− Nguyªn ©m ®«i. ph¸t ©m yÕu dÇn, yÕu tè ®Çu ph¸t ©m m¹nh h¬n yÕu tè sau, do
®ã ©m s¾c cña nguyªn ©m ®«i lµ do yÕu tè ®Çu quyÕt ®Þnh. Nguyªn ©m chØ cã mét
thÓ dµi vµ kh«ng bÞ biÕn d¹ng vÒ ©m s¾c vµ tr−êng ®é.
114

5.2.2.5 ¢m cuèi
C¸c ©m cuèi tiÕng ViÖt cã ®Æc ®iÓm gièng nhau lµ kh«ng bu«ng (bé phËn cÊu ©m
tiÕn ®Õn vÞ trÝ cÊu ©m råi gi÷ nguyªn vÞ trÝ ®ã chø kh«ng vÒ vÞ trÝ cò). Do ®ã cã sù
kh¸c biÖt lín gi÷a ©m [t] trong ph¸t ©m hai tõ "at" vµ "ta". Trong khi ph¸t ©m tõ "ta",
lçi tho¸t cña kh«ng khÝ ®−îc khai th«ng sau khi bÞ c¶n trë b»ng mét ®éng t¸c më ra
t¹o thµnh mét tiÕng ®éng ®Æc thï. Trong khi ph¸t ©m tõ "at", bé phËn cÊu ©m ë
nguyªn vÞ trÝ cÊu ©m vµ kh«ng khÝ kh«ng ®−îc tho¸t ra ngoµi. [Tho 1997].
Trong nhiÒu tr−êng hîp phô ©m cuèi hÇu nh− chØ lµ mét kho¶ng im lÆng. VÝ dô
nh− ©m vÞ /k/ trong tõ "t¸c". Trªn d¹ng phæ ©m vÞ /k/ chØ thÓ hiÓn bëi sù biÕn ®æi
formant cña ©m vÞ /a/ theo mét h−íng nµo ®ã (locus), trªn ®å thÞ d¹ng sãng, ©m vÞ
/k/ chØ thÓ hiÖn b»ng mét vµi xung nhá kh«ng râ rµng. Do vËy ©m vÞ /k/ ®−îc nhËn
diÖn chñ yÕu lµm biÕn ®æi ©m s¾c cña ©m chÝnh ®i ë giai ®o¹n cuèi.
B¶ng 5.1. Ph©n bè gi÷a nguyªn ©m ©m chÝnh vµ c¸c ©m ®Öm vµ b¸n nguyªn ©m cuèi.
¢m ¢m phô B¸n nguyªn ©m cuèi
chÝnh /uª/ VÝ dô /uª/ /iª/ VÝ dô
i + uy + - iu
e + uª + - ªu
´ + oe + - eo
ihe + uyªn + - yªu

u - ui - + ui
o - «i - + «i
ø - oi - + oi
uho - u«i - + u«i.

} - - + + −u, −i
{ + qu¬ - + -, ¬i
{° + u©n + + ©u,ay
a + oa + + ao,ai
a° + ¨n + + au,ay
}h{ - - + + −u,−¬i

B¸n nguyªn ©m còng kh«ng th−êng xuyªn ®−îc thÓ hiÖn râ rÖt mµ chØ ®−îc nhËn
diÖn b»ng viÖc biÕn ®æi ©m s¾c cña ©m chÝnh. VÒ mÆt nµy th× b¸n nguyªn ©m cßn cã
t¸c dông m¹nh h¬n lµ phô ©m cuèi.
115

5.2.3 Sù ph©n bè cña c¸c ©m vÞ tiÕng ViÖt


C¸c ©m tiÕt tiÕng ViÖt cã cÊu tróc chÆt chÏ vµ c¸c ©m vÞ trong tiÕng ViÖt kÕt hîp
víi nhau the nh÷ng qui luËt. Sau ®©y lµ B¶ng 5.1 tæng kÕt sù ph©n bè gi÷a nguyªn
©m ©m chÝnh vµ c¸c ©m ®Öm vµ b¸n nguyªn ©m cuèi [Tho 1997].

5.3 B¶ng ký tù phiªn ©m


Mçi c¬ së d÷ liÖu sö dông mét ph−¬ng thøc ®Ó phiªn ©m chÝnh t¶ vµ phiªn ©m ë
møc ©m vÞ. §Ó phiªn ©m chÝnh t¶ tiÕng ViÖt c¸c ph¸t ©m ®−îc ghi b»ng tiÕng quèc
ng÷ th«ng th−êng. Tuy nhiªn do tiÕng ViÖt cã nhiÒu dÊu vµ c¸c ký tù ®Æc biÖt kh«ng
ph¶i m· ASCII chuÈn, viÖc ghi theo c¸c bé m· tiÕng ViÖt hiÖn ®ang sö dông nh−
TCVN3, VNI, ... sÏ t¹o ra c¸c tÖp v¨n b¶n cã m· ®Æc biÖt vµ khã dïng trong m«i
tr−êng lËp tr×nh m¸y tÝnh.
Víi mçi mét ng«n ng÷, ®Òu cã mét b¶ng ký tù phiªn ©m thèng nhÊt (phonetic
notation) ®Ó g¸n nh·n c¸c ©m vÞ. Víi tiÕng ViÖt, hiÖn t¹i c¸c s¸ch gi¸o khoa tiÕng
ViÖt sö dông b¶ng phiªn ©m ng÷ ©m quèc tÕ IPA (International Phonetic
Association) ®Ó biÓu diÔn c¸c ©m vÞ. B¶ng phiªn ©m IPA ®· ®−îc sö dông réng r·i tõ
l©u nh− ph−¬ng thøc thèng nhÊt dïng phiªn ©m c¸c ng«n ng÷ trªn thÕ giíi. Tuy
nhiªn b¶ng ký tù IPA chøa c¸c ký tù kh«ng ph¶i lµ m· ASCII chuÈn, do vËy khã sö
dông trong hÖ thèng m¸y tÝnh. B¶ng ký tù Worldbet [Hieronymus 1993] ®−îc
Hieronymus, J.L ph¸t triÓn nh»m kh¾c phôc nh−îc ®iÓm nµy. Tuy vËy b¶ng ký tù
Worldbet viÕt cho tiÕng ViÖt cã nhiÒu ®iÓm kh¸c so víi c¸c qui t¾c ng÷ ©m ®−îc
miªu t¶ trong c¸c s¸ch gi¸o khoa tiÕng ViÖt. Mét d¹ng phiªn ©m ng÷ ©m quèc tÕ
kh¸c ®ang ®−îc ph¸t triÓn cho c¸c ng«n ng÷ trªn thÕ giíi dïng c¸c ký tù ASCII lµ
SAMPA, tuy nhiªn rÊt tiÕc lµ ch−a cã b¶ng ký hiÖu ©m vÞ SAMPA cho tiÕng ViÖt.
Trong luËn ¸n tiÕn sÜ kü thuËt, t¸c gi¶ NguyÔn Thµnh Phóc [Phuc 2000] ®· ®Ò
xuÊt c¸ch phiªn ©m chÝnh t¶ vµ b¶ng ký hiÖu ©m vÞ nh− sau:

− Víi phiªn ©m chÝnh t¶, c¸c tõ tiÕng ViÖt ®−îc phiªn ©m theo c¸ch bá dÊu th«ng
dông víi c¸c ký tù : “^, ?, \,+,’,.”. VÝ dô nh− c©u “nhËn d¹ng tiÕng nãi” ®−îc ghi
l¹i thµnh “nha^.n da.ng tie^’ng no’i”. T¸c gi¶ còng ®Ò nghÞ mét ph−¬ng thøc ghi ©m
chÝnh t¶ thay thÕ theo kiÓu Telex.
116

− Víi phiªn ©m ©m vÞ, t¸c gi¶ dïng c¸ch ghi gièng nh− trong b¶ng ký hiÖu
Worldbet dïng cho tiÕng ViÖt, trong ®ã cã söa ®æi l¹i c¸c bÊt hîp lý cña b¶ng ký
hiÖu nµy cho phï hîp víi c¸c s¸ch gi¸o khoa tiÕng ViÖt.
Tuy nhiªn c¸ch phiªn ©m theo kiÓu Worldbet khã nhí vµ cßn xa l¹ ®èi víi tiÕng
ViÖt. Ngoµi ra gi÷a c¸ch ghi chÝnh t¶ vµ ghi ©m vÞ kh«ng cã mèi liªn hÖ thèng nhÊt.
Trong qu¸ tr×nh nghiªn cøu, ®Ó tiÕn hµnh x©y dùng c¬ së d÷ liÖu vµ x©y dùng c¸c
hÖ thèng nhËn d¹ng, NCS ®· x©y dùng mét ph−¬ng thøc phiªn ©m chÝnh t¶ vµ b¶ng
ký hiÖu ©m vÞ thèng nhÊt dïng m· ASCII. Ph−¬ng thøc ghi ©m chÝnh t¶ vµ ghi ©m
©m vÞ nµy ®−îc x©y dùng pháng theo ph−¬ng thøc gâ Telex, vèn ®· th«ng dông vµ
®−îc sö dông réng r·i.
Víi ghi ©m chÝnh t¶. C¸c tõ ®−îc ghi l¹i gièng nh− ph−¬ng thøc gâ Telex víi
mét sè qui −íc nh− sau:

− Ch÷ “−” chØ ®−îc ghi mét c¸ch duy nhÊt “uw”. VÝ dô tõ “tõ” ®−îc ghi thµnh
“tuwf”.

− C¸c tõ bá dÊu ®−îc ®Æt vµo cuèi tõ. VÝ dô c©u “s¾c huyÒn ng·” ®−îc ghi thµnh
“sawcs huyeenf ngax”
Ngoµi ra trong qu¸ tr×nh phiªn ©m chÝnh t¶ mét sè qui t¾c ®−îc dïng nh− sau:

− Kh«ng dïng dÊu chÊm, dÊu phÈy, ...

− ChØ bao gåm ch÷ th−êng, kh«ng cã ch÷ hoa (kÓ c¶ tªn riªng).
Víi phiªn ©m ©m vÞ, c¸c ©m vÞ còng ®−îc ghi ©m gièng nh− ph−¬ng thøc gâ
Telex. NÕu cã sù kh¸c nhau gi÷a c¸ch ghi chÝnh t¶ cña c¸c ©m vÞ, chóng sÏ ®−îc qui
®Þnh ghi theo mét c¸ch thèng nhÊt. C¸c ©m vÞ phiªn ©m IPA ®−îc biÓu diÔn d−íi
d¹ng c¸c ch÷ c¸i ASCII. B¶ng chi tiÕt ký hiÖu ©m vÞ tiÕng ViÖt ®−îc tr×nh bµy chi
tiÕt trong phÇn phô lôc.

5.4 G¸n nh∙n b»ng tay

5.4.1 Giíi thiÖu


NÕu ghi ©m chÝnh t¶ chØ dõng ë viÖc ghi l¹i néi dung cña c¸c ph¸t ©m theo mét
ph−¬ng thøc nµo ®ã, kh«ng bao gåm c¸c nh·n thêi gian th× qu¸ tr×nh g¸n nh·n ®ßi
hái mÊt nhiÒu thêi gian h¬n. C¸c ph¸t ©m ®−îc ghi l¹i d−íi d¹ng mét d·y c¸c ©m vÞ,
117

mçi ©m vÞ ®−îc g¾n víi c¸c nh·n thêi gian biÓu thÞ thêi gian b¾t ®Çu vµ kÕt thóc cña
©m vÞ ®ã.
G¸n nh·n ©m vÞ ®ãng mét vai trß quan träng trong qu¸ tr×nh x©y dùng c¬ së d÷
liÖu tiÕng nãi. TÊt c¶ c¸c hÖ thèng xö lý tiÕng nãi ®Òu gi¶ thiÕt r»ng ®¬n vÞ c¬ b¶n
cña tiÕng nãi lµ c¸c ©m vÞ. HÇu hÕt c¸c hÖ thèng nhËn d¹ng tiÕng nãi liªn tôc ®Òu
®Þnh nghÜa c¸c tõ b»ng c¸c ©m vÞ. C¸c hÖ thèng tæng hîp tiÕng nãi tæng hîp nªn mét
tõ xuÊt ph¸t tõ c¸c ©m vÞ t−¬ng øng. C¸c hÖ thèng m« pháng nÐt mÆt còng dùa vµo
c¸c ®¬n vÞ gäi lµ “©m vÞ nh×n thÊy ®−îc” (visible phonemes). Do vËy c¸c nghiªn cøu
vÒ tiÕng nãi th−êng ®−îc tiÕn hµnh trªn mét hÖ c¬ së d÷ liÖu tiÕng nãi mµ c¸c ph¸t
©m ®· ®−îc g¸n nh·n t¹i møc ©m vÞ. VÝ dô sau ®©y lµ néi dung cña mét tÖp phiªn ©m
ë møc ©m vÞ cña mét ph¸t ©m trong c¬ së d÷ liÖu TIMIT.
0 2250 h#
2250 2540 d
2540 4920 ow
4920 5320 nx
5320 7910 ae
7910 9170 s
9170 10320 kcl

Trong mçi tÖp phiªn ©m, mçi mét dßng ghi mét ©m vÞ víi hai nh·n thêi gian ghi
b»ng ®¬n vÞ 100ns. C¸c nh·n thêi gian nµy cã thÓ ®−îc t¹o b»ng g¸n nh·n b»ng tay
hoÆc g¸n nh·n c−ìng bøc. Trong qu¸ tr×nh g¸n nh·n b»ng tay, ng−êi g¸n nh·n
(labeler hay transcriber) x¸c ®Þnh ranh giíi gi÷a c¸c ©m vÞ b»ng c¸ch ®äc biÓu ®å
sãng vµ biÓu ®å phæ cña ph¸t ©m t−¬ng øng. G¸n nh·n tù ®éng ®−îc thùc hiÖn bëi
hÖ thèng nhËn d¹ng b»ng qu¸ tr×nh g¸n nh·n c−ìng bøc
C¸c nghiªn cøu cho thÊy c¸c nh·n thêi gian do hai ng−êi g¸n nh·n chuyªn
nghiÖp thùc hiÖn trªn cïng mét c¬ së d÷ liÖu cã sù sai sè t−¬ng ®èi lín [Cole 1997,
Lander 1997b]: tíi gÇn 30% c¸c nh·n kh¸c nhau. Nh− vËy cã thÓ nãi lµ kh«ng tån
t¹i mét d·y c¸c nh·n ©m vÞ chÝnh x¸c cè ®Þnh cho mçi ph¸t ©m, mét ph¸t ©m cã thÓ
®−îc phiªn ©m theo nhiÒu c¸ch phô thuéc vµo ng−êi g¸n nh·n.
Tuy cã sù khã kh¨n trong viÖc ®¸nh gi¸ ®é chÝnh x¸c cña g¸n nh·n, c¸c nghiªn
cøu cho thÊy ®é chÝnh x¸c cña g¸n nh·n b»ng tay th−êng cao h¬n so víi g¸n nh·n tù
®éng. Theo Ljolje [Ljolje 1984] th× “ do nh÷ng h¹n chÕ vÒ tham sè ho¸ tÝn hiÖu tiÕng
nãi còng nh− cÊu tróc m« h×nh tiÕng nãi, ®é chÝnh x¸c cña g¸n nh·n tù ®éng kÐm
h¬n so víi g¸n nh·n do ng−êi g¸n nh·n thùc hiÖn”. C¸c hÖ thèng nhËn d¹ng ®−îc
118

x©y dùng trªn c¬ së d÷ liÖu g¸n nh·n b»ng tay cho ®é chÝnh x¸c cao h¬n so víi hÖ
thèng nhËn d¹ng víi cïng mét c¬ së d÷ liÖu mµ ®−îc g¸n nh·n tù ®éng [Hosom
2000a]. Mét hÖ thèng nhËn d¹ng ®−îc coi lµ kh«ng bÞ ¶nh h−ëng víi c¸c nh·n thêi
gian sai kh¸c nhau mét gi¸ trÞ lµ 5ms [Hosom 2000b].
§èi víi tiÕng ViÖt, ch−a cã tµi liÖu nµo miªu t¶ biÓu ®å phæ vµ biÓu ®å sãng cña
c¸c ©m vÞ còng nh− ph−¬ng ph¸p g¸n nh·n víi c¸c ©m vÞ tiÕng ViÖt. §Ó tiÕn hµnh
x©y dùng c¬ së d÷ liÖu trong qu¸ tr×nh lµm ®Ò tµi nghiªn cøu sinh, NCS ®· dùa vµo
tµi liÖu tham kh¶o g¸n nh·n cña n−íc ngoµi [Lander 1997b] vµ c¸c ®Æc ®iÓm cña
ng«n ng÷ tiÕng ViÖt miªu t¶ trong c¸c s¸ch gi¸o khoa tiÕng ViÖt ®Ó x©y dùng mét
qui t¾c thèng nhÊt trong viÖc g¸n nh·n tiÕng ViÖt. PhÇn sau ®©y tr×nh bµy vÒ ph−¬ng
ph¸p g¸n nh·n b»ng tay c¸c ©m vÞ tiÕng ViÖt.

5.4.2 C¸c nguyªn t¾c chung vÒ g¸n nh·n b»ng tay


Th«ng tin vÒ ©m häc trªn biÓu ®å sãng ®−îc dïng ®Ó x¸c ®Þnh n¬i ®Æt c¸c ranh
giíi. §èi víi c¸c ©m cã tÇn sè cao, biªn ®é thÊp th× viÖc ®äc th«ng tin trªn biÓu ®å
sãng t−¬ng ®èi khã kh¨n, khi ®ã biÓu ®å phæ sÏ ®−îc sö dông. Sù biÕn ®æi trªn biÓu
®å sãng nãi chóng lµ ®¸ng tin cËy h¬n sù biÕn ®æi trong biÓu ®å phæ, ®Æc biÖt lµ
trong c¸c tr−êng hîp cã sù chuyÓn dÞch tõ biªn ®é thÊp sang biªn ®é cao.
Tai ng−êi kh«ng ph¶i lµ nguån c¨n cø tin cËy dïng ®Ó x¸c ®Þnh c¸c ranh giíi
gi÷a c¸c ®¬n vÞ ®−îc g¸n nh·n. Ng−êi g¸n nh·n nghe c¸c ®¬n vÞ ng÷ ©m trong ng÷
c¶nh (context) cña nã, khi mµ hiÖn t−îng nèi ©m (coarticulation) gi÷a c¸c ®¬n vÞ nµy
x¶y ra lµm cho nã kh¸c ®i so víi tr−êng hîp c¸c ®¬n vÞ nµy ®−îc ph¸t ©m riªng biÖt.
ViÖc x¸c ®Þnh vµ so s¸nh ®é chÝnh x¸c cña nh·n thêi gian lµ t−¬ng ®èi khã kh¨n
do trë ng¹i cña viÖc x¸c ®Þnh chÝnh x¸c ranh giíi (boundary) gi÷a c¸c ©m vÞ. §èi víi
c¸c ph¸t ©m liªn tôc, nhiÒu ranh giíi ®−îc nhËn thøc bëi ng−êi nghe nh−ng kh«ng
tån t¹i nÕu chóng ta ph©n tÝch chóng d−íi gãc ®é ©m häc, nhiÒu ©m vÞ bÞ trïng khíp
vµ dÝnh liÒn vµo nhau. Do vËy ranh giíi gi÷a c¸c ©m vÞ chóng ta x¸c ®Þnh trong qu¸
tr×nh g¸n nh·n cã thÓ ®−îc hiÓu nh− lµ nh©n t¹o [Lander 1997a]. C¸c tr−êng hîp
mËp mê ®−îc gi¶i quyÕt b»ng mét sè luËt ®−îc ®−îc qui −íc chung ®Ó ®¶m b¶o tÝnh
nhÊt qu¸n vµ bÒn v÷ng.
119

5.4.3 C¸c ©m t¾c


TiÕng ViÖt cã c¸c ©m t¾c: /b, d, t, t ', ˇ, c, k, p/. Khi ph¸t ©m mét ©m t¾c, c¬
quan ph¸t ©m sÏ khÐp l¹i vµ luång kh«ng khÝ tõ phæi ®i ra sÏ bÞ c¶n trë hoµn toµn.
¢m t¾c ®−îc h×nh thµnh khi luång h¬i ph¸ vì sù c¶n trë vµ bËt ra thµnh mét tiÕng næ
(do vËy ©m t¾c còng ®−îc gäi lµ ©m næ, plosive).
C¸c ©m t¾c ®−îc nhËn diÖn trªn biÓu ®å phæ b»ng mét sù t¨ng ®ét biÕn n¨ng
l−îng trong mét kho¶ng thêi gian ng¾n trªn kho¶ng tÇn sè réng t¹o thµnh mét h×nh
cét dùng ®øng gäi lµ burst. Do c¸c c¬ quan ph¸t ©m ®ãng hoµn toµn tr−íc khi ph¸t
©m mét ©m t¾c nªn trªn biÓu ®å phæ cña mét ph¸t ©m liªn tôc, tr−íc ©m t¾c th−êng
cã mét kho¶ng tr¾ng n¨ng l−îng vµ ®−îc gäi lµ ©m ®ãng (closure).
ViÖc g¸n nh·n mét ©m t¾c ®−îc dùa vµo sù thay ®æi trong biÓu ®å sãng, ®Æc biÖt
khi chóng ®øng sau mét ng¾t giäng (short pause) hay mét ©m ®ãng. C¸c ©m t¾c cã
bËt h¬i (aspirated) m¹nh rÊt dÔ ®−îc ®¸nh dÊu. C¸c ©m t¾c kh«ng cã bËt h¬i cã thÓ
dÔ nghe h¬n lµ nh×n thÊy trªn biÓu ®å phæ. G¸n nh·n c¸c ©m t¾c nµy ®−îc dùa vµo
mét xung (pulse) ë biÓu ®å sãng mµ biªn ®é thÊp h¬n nhiÒu so víi biªn ®é cña
nguyªn ©m theo sau.
Trong ph¸t ©m nhanh, c¸c ©m t¾c th−êng ®−îc bËt ra rÊt nhÑ víi rÊt Ýt hoÆc
kh«ng cã ¸p lùc (pressure). NÕu burst kh«ng xuÊt hiÖn râ rµng trong biÓu ®å phæ
hay biÓu ®å sãng th× cã thÓ coi lµ chóng kh«ng tån t¹i. Cã mét ph−¬ng ph¸p dïng ®Ó
x¸c ®Þnh c¸c burst nh− sau:

− §Æt chÕ ®é ph©n gi¶i mÞn h¬n trªn biÓu ®å sãng. Víi ®é ph©n gi¶i 0.25ms/1pixel
viÖc g¸n nh·n sÏ dÔ dµng h¬n trong tr−êng hîp nµy.

− Quan s¸t formant theo sau c¸c ©m ®ãng. NÕu cã ®o¹n formant n»m ngang vµ sau
®ã b¾t ®Çu chuyÓn sang vÞ trÝ cña nguyªn ©m ®øng ®»ng sau th× ®Æt ranh giíi vµo
phÇn formant mµ n»m ngang ®ã.

5.4.4 ¢m ®ãng
Ranh giíi tr¸i cña ©m ®ãng th−êng ®−îc x¸c ®Þnh khi n¨ng l−îng cña ©m tr−íc
®· hÕt. Ng−êi nãi th−êng t¹o ra mét l−îng t¹p ©m nhá khi di chuyÓn c¸c bé phËn
ph¸t ©m cña hä vµo vÞ trÝ cña ©m ®ãng. Khi ®iÒu nµy xuÊt hiÖn, sÏ cã mét xung nhá
trªn biÓu ®å sãng hoÆc biÓu ®å phæ. Ranh giíi tr¸i cña ©m ®ãng ®−îc x¸c ®Þnh b»ng
®iÓm nµy.
120

NÕu kh«ng cã biÓu hiÖn ©m häc vÒ ®iÓm b¾t ®Çu cña ©m ®ãng th× ©m ®ãng ®−îc
g¸n biªn giíi tr¸i 50ms nÕu ©m ®ãng ®øng tr−íc mét ©m t¾c vµ 100ms tõ khi n¨ng
l−îng ë biÓu ®å phæ kÕt thóc nÕu ©m ®ãng ®øng cuèi mét tõ.
¢m t¾c h÷u thanh (vÝ dô nh− /d/) theo sau mét ©m mòi th−êng kh«ng cã ©m
®ãng. §ã lµ bëi v× ©m ®ãng th−êng rÊt ng¾n, vßm miÖng ®−îc ®ãng l¹i chØ ngay
tr−íc burst ®Ó cho t¨ng ¸p lùc t¹o thµnh c¸c burst khi ph¸t ©m ©m t¾c. Thêi gian nµy
rÊt ng¾n vµ cã thÓ kh«ng cÇn thiÕt ph¶i g¸n nh·n.
Cã ®«i khi ©m t¾c kh«ng xuÊt hiÖn trong c¸c ph¸t ©m liªn tôc vµ nhanh. Tuy
nhiªn ©m ®ãng vÉn tån t¹i vµ v× vËy cã hai tr−êng hîp cã thÓ x¶y ra: "©m ®ãng+©m
t¾c+ nguyªn ©m" vµ "©m ®ãng + nguyªn ©m".

H×nh 2. BiÓu ®å sãng vµ biÓu ®å phæ cña hai tõ "t¸m bèn".

H×nh 5.4. BiÓu ®å sãng vµ biÓu ®å phæ cña hai tõ "t¸m bèn".
H×nh 5.4 cho ta thÊy h×nh ¶nh ©m t¾c, ©m ®ãng trªn biÓu ®å sãng vµ biÓu ®å phæ.
¢m t¾c /t/ cã h×nh ¶nh phæ lµ mét burst dùng ®øng ®»ng sau mét kho¶ng tr¾ng n¨ng
l−îng lµ ©m ®ãng /tc/. ¢m t¾c /b/ bao gåm c¸c xung tuÇn hoµn biªn ®é thÊp, mang
F2, F3 mê ¶nh h−ëng cña nguyªn ©m hai bªn. Kh«ng cã ©m ®ãng /bc/ ®øng tr−íc do
sau khi ph¸t ©m phô ©m mòi /m/, c¬ quan ph¸t ©m ®· ®ãng hoµn toµn. ¢m t¾c /b/ chØ
bËt mét tiÕng nhÑ, kh«ng ®ñ n¨ng l−îng ®Ó t¹o thµnh burst.

5.4.5 ¢m x¸t
TiÕng ViÖt cã m−êi ©m x¸t (fricatives): /f, v, s, z, Í, ¸, ≈, ©, h, l/. §Æc tr−ng
cña ©m x¸t lµ tiÕng cä x¸t ph¸t sinh do luång kh«ng khÝ ®i ra bÞ c¶n trë kh«ng hoµn
toµn ph¶i l¸ch qua mét khe hë nhá vµ trong khi tho¸t ra nh− vËy cä x¸t vµo thµnh
cña bé m¸y ph¸t ©m. Trªn biÓu ®å phæ, ©m x¸t cã h×nh d¸ng lµ mét vïng n¨ng l−îng
ë tÇn sè cao cã víi sù ph©n bè n¨ng l−îng ngÉu nhiªn.
121

C¸c ©m x¸t ®−îc ®Þnh ranh giíi t¹i n¬i cã sù thay ®æi gèc trªn biÓu ®å sãng. NÕu
kh«ng cã hoÆc rÊt Ýt sù thay ®æi trªn biÓu ®å sãng th× ranh giíi ®−îc x¸c ®Þnh lµ
®iÓm cã sù t¨ng n¨ng l−îng trªn biÓu ®å phæ.
Trªn H×nh 5.6 ta thÊy h×nh ¶nh cña ©m vÞ /s/ cã biªn ®é thÊp kh«ng tuÇn hoµn
trªn biÓu ®å sãng vµ mét h×nh ch÷ nhËt víi n¨ng l−îng ph©n bè ngÉu nhiªn t¹i vïng
tÇn sè cao trªn biÓu ®å phæ.

5.4.6 ¢m mòi
TiÕng ViÖt cã bèn ©m mòi: /m, n, µ, ¯/. ¢m mòi ph¸t sinh do luång kh«ng khÝ
tõ phæi bÞ ®ãng hoµn toµn ë ®»ng miÖng, ®i ra ë ®»ng mòi vµ nhËn ®−îc sù cæng
h−ëng cña khoang mòi. ¢m mòi ®−îc nhËn biÕt trªn biÓu ®å sãng bëi c¸c sãng ®i
lªn hoÆc ®i xuèng víi tÝnh tuÇn hoµn cao, biªn ®é thÊp trªn biÓu ®å sãng. Trªn biÓu
®å phæ c¸c ©m mòi th−êng mang c¸c formant cïng víi c¸c formant cña c¸c ©m ®øng
xung quanh nh−ng víi mÇu nh¹t vÒ mÇu s¾c vµ c−êng ®é trong biÓu ®å phæ.
T¹i cuèi cña mét ph¸t ©m, ©m mòi th−êng gi¶m dÇn, kÐo dµi ®Òu ®Æn cho ®Õn khi
kh«ng ph©n biÖt ®−îc víi m«i tr−êng hoÆc tÝn hiÖu nhiÔu. Ranh giíi ph¶i cña ©m
mòi lµ ®iÓm kÕt thóc cña formant F1, ®iÓm nµy th−êng ph¶i trïng víi ®iÓm kÕt thóc
trªn biÓu ®å sãng. Trªn H×nh 5.4 ta thÊy h×nh ¶nh cña c¸c ©m mòi /m/ vµ /n/. C¸c
©m mòi lµ c¸c sãng biªn ®é thÊp, gi¶m dÇn. H×nh ¶nh phæ cña hai ©m mòi /m/ vµ /n/
lµ c¸c formant F2, F3 cã ®é s¸ng yÕu, trïng víi c¸c formant F2, F3 cña c¸c nguyªn
©m ®øng tr−íc.

5.4.7 Nguyªn ©m ®¬n, nguyªn ©m ®«i vµ b¸n nguyªn ©m


TiÕng ViÖt cã m−êi ba nguyªn ©m ®¬n: / i, e, ´, ´°, u, o, ø, ø°, {, },{,° a, a°/ ba
nguyªn ©m ®«i: /ihe, uho, }h{/ vµ hai b¸n nguyªn ©m cuèi /uª,iª/.

Nguyªn ©m cã ®Æc ®iÓm chung lµ cã c¸c formant n»m ngang song song víi c¸c
trôc hoµnh (th−êng lµ F2, F3) trong tÊt c¶ kho¶ng thêi gian tån t¹i cña nã. ViÖc xuÊt
hiÖn cña nguyªn ©m ®øng ®»ng sau mét ©m mòi hoÆc mét ©m t¾c cã thÓ ®−îc ®¸nh
dÊu bëi xuÊt hiÖn hay t¨ng ®é ®Ëm cña formant trªn biÓu ®å phæ vµ bëi t¨ng biªn ®é
(cã thÓ lµ tuÇn hoµn) ë biÓu ®å sãng. Ranh giíi cña nguyªn ©m ®−îc x¸c ®Þnh lµ
®iÓm thay ®æi gèc trªn biÓu ®å sãng.
122

Khi hai nguyªn ©m ®i liÒn nhau, hay mét b¸n nguyªn ©m ®i sau mét nguyªn ©m,
ranh giíi gi÷a hai ©m vÞ th−êng rÊt khã ph©n biÖt. Ranh giíi ®−îc x¸c ®Þnh lµ sù
thay ®æi vÒ h×nh d¸ng tuÇn hoµn cña sãng trªn biÓu ®å sãng, vµ ®ã còng trïng víi
ranh giíi cã sù thay ®æi vÒ formant trªn biÓu ®å phæ. NÕu ranh giíi nµy khã x¸c
®Þnh b»ng m¾t th−êng, ®iÓm ranh giíi ®−îc ®Æt t¹i gi÷a phÇn chuyÓn dÞch cña
formant.

H×nh 5.5. BiÓu ®å sãng vµ biÓu ®å phæ cña hai tõ "h¹t m−a".
Nguyªn ©m ®«i cã c¸c formant kh«ng b»ng ph¼ng vµ chóng ®i lªn hoÆc ®i xuèng
trong suèt thêi gian tån t¹i cña nguyªn ©m ®«i. Formant sÏ di chuyÓn tõ ®é cao c¸c
formant cña nguyªn ©m tr−íc ®Õn nguyªn ©m sau. Trªn H×nh 5.5 nguyªn ©m ®«i
/wa/ cã c¸c formant F2 ®i lªn vµ F3 ®i xuèng tõ ©m /w/ sang nguyªn ©m /a/. Víi
tr−êng hîp cña nguyªn ©m ®¬n /a/ ta thÊy c¸c F1, F2, F3 ®Òu lµ c¸c ®−êng n»m
ngang song song víi trôc hoµnh. Trªn biÓu ®å sãng ©m vÞ /a/ cã biªn ®æi lín h¬n ©m
x¸t /h/ ®øng tr−íc.

5.4.8 Phô ©m cuèi


TiÕng ViÖt cã ba phô ©m cuèi lµ c¸c phô ©m t¾c: /p, t, k/ vµ ba phô ©m cuèi lµ
phô ©m mòi: /m, n, ¯/. Trong tr−êng hîp phô ©m cuèi lµ c¸c ©m t¾c, khi ph¸t ©m
c¬ quan cÊu ©m di chuyÓn vµo vÞ trÝ ph¸t ©m cña phô ©m cuèi t−¬ng øng, bé m¸y
ph¸t ©m ®ãng hoµn toµn. Nh−ng trªn thùc tÕ ph¸t ©m kh«ng cã giai ®o¹n bu«ng, do
®ã phô ©m cuèi kh«ng bao giê thùc sù ®−îc ph¸t ra. §©y lµ mét ®Æc ®iÓm riªng biÖt
cña tiÕng ViÖt. V× vËy trªn biÓu ®å phæ h×nh ¶nh cña phô ©m cuèi lo¹i nµy lµ mét
kho¶ng tr¾ng n¨ng l−îng vµ chóng ®−îc xÕp vµo cïng lo¹i víi ©m ®ãng. Trªn H×nh
123

5.5, kÕt thóc tõ 'h¹t' lµ kho¶ng tr¾ng n¨ng l−îng vµ ®©y lµ ©m t¾c /tc/. Vai trß cña
©m ®ãng ®−îc nhËn thÊy b»ng sù biÕn ®æi ©m s¾c cña ©m vÞ /a/ ®øng tr−íc, ®o¹n
cuèi formant F2, F3 cña ©m vÞ /a/ bÞ thay ®æi vµ kh«ng cßn hoµn toµn song song víi
trôc hoµnh n÷a.
§èi víi phô ©m cuèi mòi, h×nh ¶nh trªn biÓu ®å sãng vµ biÓu ®å phæ t−¬ng tù
nh− trong tr−êng hîp c¸c phô ©m mòi ®øng ë ®Çu c©u. C¸c phô ©m cuèi ©m mòi
th−êng mang formant F2, F3 cña nguyªn ©m ®øng tr−íc nã nh−ng víi ®é s¸ng kÐm
h¬n.
Trªn h×nh 3 chóng ta thÊy h×nh ¶nh cña phô ©m cuèi /tc/ trong tõ "h¹t", trong ®ã
©m vÞ /tc/ xuÊt hiÖn nh− mét kho¶ng tr¾ng n¨ng l−îng gi÷a nguyªn ©m /a/ ®øng
tr−íc vµ phô ©m mòi /m/ ®øng sau. H×nh ¶nh cña phô ©m cuèi mòi /ng/ ®−îc quan
s¸t trong H×nh 5.6, trong ®ã h×nh ¶nh ©m vÞ /ng/ lµ mét vÖt s¸ng ®Ëm ë tÇn sè thÊp
sau nguyªn ©m /oo/. Biªn ®é cña ©m vÞ /ng/ gi¶m dÇn cho ®Õn khi trïng víi sãng cña
m«i tr−êng.

5.4.9 ¢m t¾c thanh hÇu


¢m t¾c thanh hÇu (glottal stop) /÷/®−îc liÖt kª trong mét sè s¸ch gi¸o khoa
tiÕng ViÖt nh− mét phô ©m ®Çu. Trong mét sè ©m tiÕt cã hiÖn t−îng khÐp khe thanh
lóc më ®Çu. TiÕng bËt do ®éng t¸c më khe thanh ®ét ngét ®−îc nghe râ hoÆc kh«ng
râ ë tõng ng−êi, trong tõng lóc, phô thuéc vµo phong c¸ch vµ bèi c¶nh ng÷ ©m.
Trªn biÓu ®å phæ, ©m t¾c thµnh hÇu ®−îc nhËn biÕt b»ng mét kho¶ng tr¾ng n¨ng
l−îng ®øng ®»ng tr−íc mét sè tõ nh−: “ai”, “¬i”, “¨n”, “o¶n”, ”uèng”, “oanh”,
“uyªn”. Trªn biÓu ®å sãng ©m t¾c thanh hÇu khã nhËn biÕt do nã trïng víi h×nh ¶nh
cña m«i tr−êng hoÆc nhiÔu.

H×nh 5.6. BiÓu ®å sãng vµ biÓu ®å phæ cña hai tõ "ai sèng".
124

Trªn H×nh 5.6, ta thÊy h×nh ¶nh ©m t¾c thanh hÇu /gs/ më ®Çu b»ng mét xung
nhá trªn biÓu ®å sãng, ®©y lµ t¹p ©m do bé ph©n cÊu ©m ph¸t ra khi khe thanh khÐp
l¹i. H×nh ¶nh phæ cña ©m t¾c thanh hÇu lµ mét kho¶ng tr¾ng n¨ng l−îng gièng nh−
tr−êng hîp cña ©m ®ãng.

5.4.10 ¢m ®Öm
TiÕng ViÖt chØ cã mét ©m ®Öm duy nhÊt: /uª/. TÝnh chÊt cña nã gÇn gièng víi
nguyªn ©m /u/ t−¬ng øng.

H×nh 5.7. BiÓu ®å sãng vµ biÓu ®å phæ cña hai tõ "to¸n t¸n".
¢m ®Öm kh«ng xuÊt hiÖn tr−íc c¸c nguyªn ©m trßn m«i /u,o,ø/, nã còng chØ xuÊt
hiÖn tr−íc c¸c nguyªn ©m hµng tr−íc. §é më cña ©m ®Öm phô thuéc vµo ®é më cña
c¸c nguyªn ©m ®i sau.
Trªn biÓu ®å phæ, ©m ®Öm th−êng cã h×nh ¶nh lµ c¸c formant g¾n liÒn víi c¸c
formant cña nguyªn ©m ®øng sau nh−ng kh«ng b¼ng ph¼ng. H×nh 5.7 cho ta thÊy
h×nh ¶nh phæ cña hai tõ 'to¸n' vµ 't¸n'. ¢m ®Öm /w/ cã h×nh ¶nh lµ c¸c F2, F3 uèn
thÊp ®»ng tr−íc c¸c F2, F3 b»ng ph¼ng cña nguyªn ©m /a/. Trong khi ®ã víi tõ "t¸n"
ta thÊy c¸c F2, F3 cña nguyªn ©m /a/ kh«ng bÞ thay ®æi h×nh d¸ng vµ lµ c¸c vÖt song
song víi trôc hoµnh.

5.5 G¸n nh∙n tù ®éng

5.5.1 Giíi thiÖu


MÆc dï nh− ®· tr×nh bµy ë trªn, g¸n nh·n b»ng tay tuy cã ®é chÝnh x¸c cao h¬n
so víi g¸n nh·n tù ®éng, viÖc g¸n nh·n b»ng tay cho c¶ mét c¬ së d÷ liÖu lín sÏ lµ
mét khèi l−îng c«ng viÖc khæng lå vµ mÊt nhiÒu thêi gian vµ tèn kÐm. C«ng viÖc
g¸n nh·n b»ng tay ®· ®−îc tÝnh to¸n lµ cÇn mét thêi gian lµ tõ 11ms tíi 30ms víi
125

mçi ©m vÞ [Hosom 2000b]. Ngoµi viÖc tiªu tèn thêi gian, g¸n nh·n b»ng tay cßn cã
nh−îc ®iÓm lµ cã sù kh¸c nhau ®¸ng kÓ gi÷a nh÷ng ng−êi g¸n nh·n do ý chñ quan
cña mçi ng−êi.
Do nh÷ng lý do trªn g¸n nh·n tù ®éng lµ mét yªu cÇu tÊt yÕu khi x©y dùng mét
c¬ së d÷ liÖu. G¸n nh·n tù ®éng ®−îc thùc hiÖn bëi mét hÖ thèng nhËn d¹ng ®−îc
gäi lµ qu¸ tr×nh g¸n nh·n c−ìng bøc (force-alignment). Qu¸ tr×nh g¸n nh·n c−ìng
bøc t−¬ng tù nh− mét qu¸ tr×nh nhËn d¹ng. §èi víi qu¸ tr×nh nhËn d¹ng, víi d÷ liÖu
vµo lµ mét ph¸t ©m liªn tôc, hÖ thèng ph¶i nhËn d¹ng ra c¸c tõ cña ph¸t ©m ®ã.
Trong qu¸ tr×nh g¸n nh·n c−ìng bøc, c¸c tõ cña mét ph¸t ©m ®· ®−îc biÕt tr−íc vµ
víi mçi d÷ liÖu vµo lµ mét ph¸t ©m liªn tôc, hÖ thèng nhËn d¹ng cÇn t×m ra c¸c nh·n
thêi gian t−¬ng øng víi c¸c ©m vÞ cña c¸c tõ ®ã.
Khi nghiªn cøu vÒ g¸n nh·n tù déng, tiÕn sÜ NguyÔn Thµnh Phóc trong luËn ¸n
tiÕn sÜ cña m×nh ®· ®Ò nghÞ ph−¬ng ph¸p g¸n nh·n tù ®éng ®Ó x©y dùng c¬ së d÷
liÖu tiÕng nãi gåm c¸c b−íc nh− sau:

− G¸n nh·n mét phÇn c¬ së d÷ liÖu b»ng tay. Dùa vµo th«ng tin vÒ thêi gian cña
mét ph¸t ©m, sè l−îng ©m tiÕt trong ph¸t ©m ®ã ®−îc biÕt tõ phiªn ©m chÝnh t¶ cña
ph¸t ©m, chia ®Òu thêi gian mét ph¸t ©m thµnh c¸c phÇn ®Òu nhau ®Ó nhËn ®−îc
phiªn ©m ©m tiÕt víi nh·n thêi gian cña c¸c ©m tiÕt. HiÖu chØnh thñ c«ng c¸c tÖp
phiªn ©m nµy. Sau ®ã tõ c¸c ©m tiÕt, chia ®Òu c¸c ©m tiÕt thµnh c¸c ©m vÞ t−¬ng
øng. Qu¸ tr×nh g¸n nh·n kÕt thóc b»ng hiÖu chØnh thñ c«ng mét lÇn n÷a tÖp phiªn
©m ©m vÞ víi nh·n thêi gian. Nh− vËy qu¸ tr×nh s¶n sinh c¸c tÖp phiªn ©m ©m tiÕt vµ
©m vÞ ®−îc tù ®éng ho¸. Tõ c¸c tÖp nµy tiÕn hµnh chØnh söa b»ng tay c¸c tÖp nµy vÞ
trÝ c¸c nh·n thêi gian.

− X©y dùng hÖ thèng nhËn d¹ng tõ phÇn d÷ liÖu ®−îc g¸n nh·n b»ng tay.

− Dïng hÖ thèng nhËn d¹ng ®· ®−îc huÊn luyÖn ®Ó g¸n nh·n c−ìng bøc phÇn c¬ së
d÷ liÖu cßn l¹i.
Ph−¬ng ph¸p g¸n nh·n tù ®éng trªn dùa vµo bé c«ng cô CSLU, dïng m¹ng
ANN, do ®ã qu¸ tr×nh huÊn luyÖn hÖ thèng nhËn d¹ng b¾t buéc ph¶i cÇn cã s½n c¸c
phiªn ©m ©m vÞ cña c¸c ph¸t ©m. Do ®ã ph−¬ng ph¸p trªn vÉn ph¶i cÇn mét giai
®o¹n g¸n nh·n thñ c«ng mét phÇn c¬ së d÷ liÖu.
126

Sau ®©y lµ ph−¬ng ph¸p g¸n nh·n tù ®éng c¬ së d÷ liÖu mµ kh«ng cÇn tÖp phiªn
©m ©m vÞ. TÊt c¶ qu¸ tr×nh ®Òu ®−îc thùc hiÖn tù ®éng. Ph−¬ng ph¸p nµy dïng bé
c«ng cô HTK.

5.5.2 G¸n nh·n tù ®éng c¬ së d÷ liÖu


Ph−¬ng ph¸p g¸n nh·n tù ®éng c¬ së d÷ liÖu bao gåm c¸c b−íc sau:
B−íc 1: X©y dùng hÖ thèng nhËn d¹ng dùa trªn c¬ së d÷ liÖu víi tËp d÷ liÖu huÊn
luyÖn lµ toµn bé c¸c ph¸t ©m.
Qu¸ tr×nh x©y dùng hÖ thèng nhËn d¹ng sÏ dõng ë møc x©y dùng hÖ thèng nhËn
d¹ng víi c¸c ©m ®¬n. Qu¸ tr×nh nµy dïng bé c«ng cô HTK gåm c¸c b−íc ®· ®−îc
miªu t¶ trong Ch−¬ng 3 nh− sau:

− LËp tõ ®iÓn phiªn ©m cña hÖ c¬ së d÷ liÖu, trong ®ã c¸c tõ ®−îc phiªn ©m thµnh
c¸c ©m vÞ.

− Khëi t¹o c¸c tham sè cña c¸c m« h×nh ©m ®¬n b»ng c«ng cô Hcompv.

− HuÊn luyÖn c¸c ©m ®¬n b»ng c«ng cô nhóng Herest.


B−íc 2: Dïng hÖ thèng nhËn d¹ng ®−îc x©y dùng ë b−íc tr−íc ®Ó g¸n nh·n
c−ìng bøc toµn bé c¬ së d÷ liÖu.
HTK cung cÊp c«ng cô lµ Hvite võa cã thÓ dïng ®Ó nhËn d¹ng võa cã thÓ dïng
®Ó g¸n nh·n tù ®éng. Dïng c«ng cô nµy ®Ó g¸n nh·n tù ®éng toµn bé c¬ së d÷ liÖu
víi c¸c ©m ®¬n ®−îc huÊn luyÖn tr−íc ®ã.

5.5.3 KÕt qu¶ thö nghiÖm


§Ó tiÕn hµnh ®¸nh gi¸ ph−¬ng ph¸p nh·n nµy, mét thö nghiÖm ®· ®−îc tiÕn hµnh
®Ó g¸n nh·n mét c¬ së d÷ liÖu . C¬ së d÷ liÖu ®−îc dïng bao gåm: 442 c©u, 2340 tõ,
®−îc trÝch ra tõ hai c¬ së d÷ liÖu tiÕng nãi ®iÖn tho¹i “22 Language v1.2”, vµ
“Multi-Language Telephone Speech v1.2” cña trung t©m CSLU (Center for Speech
Language Understanding), ViÖn Sau §¹i häc Oregon, Hoa kú. C¸c c©u trong c¬ së
d÷ liÖu tiÕng nãi ®−îc thu ©m theo h×nh thøc pháng vÊn qua ®iÖn tho¹i tõ 213 ng−êi
nãi (135 nam, 78 n÷).
127

TÊt c¶ c¸c c©u trong c¬ së d÷ liÖu ®· ®−îc g¸n nh·n b»ng tay vµ c¸c th«ng tin
nh·n thêi gian ®−îc t¹o b»ng tay ®−îc coi lµ chuÈn ®Ó dïng ®Ó so s¸nh víi c¸c nh·n
thêi gian t¹o b»ng m¸y.
B¶ng 5.2 d−íi ®©y cho ta kÕt qu¶ so s¸nh gi÷a c¸c nh·n thêi gian ®−îc t¹o b»ng
tay vµ c¸c nh·n thêi gian t¹o b»ng m¸y. C¸c nh·n thêi gian t¹o b»ng tay cã ®é chÝnh
x¸c víi ®¬n vÞ lµ 1ms, ng−îc l¹i do kÝch th−íc khung tÝn hiÖu trong hÖ thèng nhËn
d¹ng lµ 10ms, nªn ®¬n vÞ nh·n thêi gian t¹o b»ng m¸y lµ 10ms. B¶ng 5.2 miªu t¶ tû
lÖ trïng khíp (agreement) ranh giíi cña c¸c ©m vÞ. §¬n vÞ ®o ®−îc tÝnh lµ % c¸c
ranh giíi trïng khíp nhau trong kho¶ng cho phÐp lµ 5ms, 10ms, 15 ms vµ 20ms.

B¶ng 5.2. Tû lÖ trïng khíp c¸c ©m vÞ víi giíi h¹n cho phÐp
lµ 5ms, 10ms, 15ms, 20ms

<5ms <10ms <15ms <20ms


55.85 65.35 72.73 77.81

B¶ng 5.3. Tû lÖ lçi c¸c lo¹i ©m vÞ víi giíi h¹n kh¸c nhau.

lo¹i ©m vÞ <5ms <10ms <15ms <20ms


©m t¾c 46.82 15.49 9.35 3.61
¾m mòi 57.69 33.93 22.51 11.59
©m x¸t 63.83 37.52 28.95 21.51
nguyªn ©m 55.75 24.43 15.62 6.62
©m ®ãng 65.36 40.72 33.57 25.61

B¶ng 5.3 miªu t¶ tû lÖ lçi c¸c lo¹i ©m vÞ ®−îc g¸n nh·n tù ®éng so víi ©m vÞ g¸n
nh·n b»ng tay víi c¸c giíi h¹n cho phÐp kh¸c nhau. Tõ b¶ng ta thÊy, ©m vÞ cã tû lÖ
lçi cao lµ ©m ®ãng, sau ®ã theo thø tù thÊp dÇn lµ: ©m x¸t, ©m mòi, nguyªn ©m vµ
©m t¾c.
KÕt qu¶ trªn cho thÊy mét ®é chÝnh x¸c cßn thÊp cña g¸n nh·n tù ®éng so víi
g¸n nh·n b»ng tay.

5.5.4 N©ng cao ®é chÝnh x¸c g¸n nh·n tù ®éng


HÖ thèng nhËn d¹ng dïng ®Ó g¸n nh·n c−ìng bøc ë trªn míi chØ sö dông mét
hµm mËt ®é x¸c suÊt Gaussian duy nhÊt. Trong khi ®ã c¬ së d÷ liÖu ®−îc g¸n nh·n
cã ®é ®a d¹ng cao, do nhiÒu ng−êi nãi, trong m«i tr−êng kh¸c nhau. Mét hµm
Gaussian kh«ng ®ñ kh¶ n¨ng ®Ó m« h×nh ho¸ sù ®a d¹ng cña giäng nãi trong c¬ së
d÷ liÖu. §Ó n©ng cao hiÖu qu¶ cña g¸n nh·n tù ®éng hÖ thèng nhËn d¹ng ®−îc c¶i
128

tiÕn b»ng c¸ch dïng hµm ph¸t x¹ quan x¸t gåm nhiÒu thµnh phÇn trén lµ hµm
Gaussian.
ViÖc t¨ng sè l−îng hµm Gaussian ®−îc tiÕn hµnh b»ng c«ng cô Hhed cña HTK.
Hhed sÏ sao chÐp tõ hµm Gaussian ë b−íc trªn t¹o thµnh hµm gåm cã hai hµm
Gaussian, sau ®ã c¸c ©m ®¬n ®−îc huÊn luyÖn l¹i b»ng Herest trªn hµm hai thµnh
phÇn nµy. Sau ®ã Hhed l¹i sao chÐp c¸c hµm Gaussiab nµy vµ t¹o thµnh hµm trén
gåm 4 hµm Gaussian, cø tiÕp tôc lÆp l¹i nh− vËy cho ®Õn khi sè l−îng hµm trén ®¹t
tíi con sè mong muèn.
HÖ thèng nhËn d¹ng dïng ®Ó g¸n nh·n tù ®éng ®· ®−îc c¶i tiÕn tõ hÖ thèng ë
trªn, hÖ thèng nµy dïng hµm trén víi 8 hµm Gaussian. KÕt qu¶ g¸n nh·n tù ®éng
cña hÖ thèng nµy nh− sau;
B¶ng 5.4. Tû lÖ trïng khíp c¸c ©m vÞ víi giíi h¹n cho phÐp
lµ 5ms, 10ms, 15ms, 20ms

<5ms <10ms <15ms <20ms


55.85 78.35 85.02 89.36

B¶ng 5.5. Tû lÖ lçi c¸c lo¹i ©m vÞ víi giíi h¹n kh¸c nhau.

lo¹i ©m vÞ <5ms <10ms <15ms <20ms


©m t¾c 35.23 7.15 5.96 2.14
©m mòi 48.57 24.33 13.22 7.11
©m x¸t 53.63 29.37 19.28 12.21
nguyªn ©m 45.55 15.24 8.15 4.63
©m ®ãng 54.65 31.40 23.33 16.25

Hai B¶ng 5.4 vµ B¶ng 5.5 cho ta thÊy mét c¶i thiÖn ®¸ng kÓ ®é chÝnh x¸c cña g¸n
nh·n tù ®éng. Sù kh¸c nhau gi÷a c¸c nh·n thêi gian t¹o b»ng tay vµ t¹o tù ®éng lµ
xÊp xØ so víi sù kh¸c nhau gi÷a nh÷ng ng−êi g¸n nh·n kh¸c nhau. Tû lÖ sai kh¸c
nµy lµ chÊp nhËn ®−îc.

5.5.5 KÕt luËn


§Ó kh¼ng ®Þnh kÕt qu¶ ®¹t ®−îc cña g¸n nh·n tù ®éng, hai hÖ thèng nhËn d¹ng
®· ®−îc x©y dùng ®Ó ®¸nh gi¸ ¶nh h−ëng cña c¸c nh·n thêi gian t¹o b»ng tay vµ
nh·n thêi gian t¹o b»ng m¸y tíi ®é chÝnh x¸c nhËn d¹ng cña hÖ thèng nhËn d¹ng.
Hai hÖ thèng nhËn d¹ng ®−îc x©y dùng dïng bé c«ng cô CSLU, dïng m¹ng
ANN. Hai hÖ thèng lµm viÖc trªn cïng mét c¬ së d÷ liÖu, nhËn d¹ng c¸c ch÷ sè
129

tiÕng ViÖt liªn tôc, dïng ®¬n vÞ nhËn d¹ng c¬ b¶n lµ ©m vÞ phô thuéc ng÷ c¶nh. C¶
hai hÖ thèng dïng chung mét qui luËt ng÷ ph¸p, ph−¬ng ph¸p trÝch trän ®Æc ®iÓm
MFCC, sè l−îng category lµ nh− nhau, c¸c nhãm ng÷ c¶nh gièng nhau. ChØ mét
kh¸c biÖt duy nhÊt gi÷a hai hÖ thèng lµ mét hÖ thèng dïng c¸c nh·n thêi gian t¹o
b»ng tay vµ hÖ thèng kia dïng nh·n thêi gian t¹o tù ®éng.
Hai tÝn hiÖu ®−îc huÊn luyÖn b»ng tËp d÷ liÖu huÊn luyÖn gåm 318 c©u vµ ®−îc
kiÓm tra trªn tËp d÷ liÖu gåm 124 c©u. KÕt qu¶ nhËn d¹ng cña hai hÖ thèng lµ nh−
sau:
B¶ng 5.6. KÕt qu¶ nhËn d¹ng cña hai hÖ thèng nhËn d¹ng dïng c¸c nh·n thêi gian kh¸c nhau.
HÖ thèng nhËn d¹ng §é chÝnh x¸c møc tõ §é chÝnh x¸c møc c©u
HÖ thèng nhËn d¹ng dïng 96.34 80.34
c¸c nh·n t¹o b»ng tay
HÖ thèng nhËn d¹ng dïng 95.97 80.04
c¸c nh·n t¹o tù ®éng
KÕt qu¶ nhËn d¹ng cho thÊy hÖ thèng nhËn d¹ng dïng c¸c nh·n thêi gian t¹o
b»ng tay cã ®é chÝnh x¸c cao h¬n so víi hÖ thèng nhËn d¹ng dïng c¸c nh·n thêi
gian t¹o b»ng m¸y. Tuy nhiªn sù sai kh¸c nµy lµ kh«ng nhiÒu. §iÒu nµy còng cho
thÊy mét ®é tin cËy nhÊt ®Þnh ®èi víi c¸c nh·n thêi gian ®−îc sinh tù ®éng.
130

Ch−¬ng 6

hÖ thèng nhËn d¹ng ch÷ sè

tiÕng ViÖt liªn tôc


NhËn d¹ng m−êi ch÷ sè liªn tôc lµ mét trong nh÷ng bµi to¸n c¬ b¶n trong nhËn
d¹ng tiÕng nãi. NhiÒu nghiªn cøu vÒ nhËn d¹ng tiÕng nãi tËp trung nghiªn cøu bµi
to¸n nµy vµ ®· thu ®· thµnh c«ng víi c¸c ng«n ng÷ kh¸c nhau: tiÕng Anh [Hosom
1998, Rabiner 1988], tiÕng Italia [Cosi 1999, Cosi 2000], tiÕng NhËt b¶n [Kawai
2001]. Bµi to¸n nµy còng ®−îc ¸p dông kh¸ phæ biÕn trong thùc tÕ, nhÊt lµ trong lÜnh
vùc viÔn th«ng [Buhrke 1994]. HÖ thèng nhËn d¹ng m−êi ch÷ sè liªn tôc cã thÓ ®−îc
dïng ®Ó nhËn d¹ng c¸c ph¸t ©m cã ch÷ sè nh− sè thÎ tÝn dông, sè tµi kho¶n, m· c¸
nh©n, ... Ch−¬ng nµy tr×nh bµy vÒ x©y dùng hÖ thèng nhËn d¹ng m−êi ch÷ sè liªn tôc
tiÕng ViÖt. Ph−¬ng ph¸p nhËn d¹ng lµ sö dông m¹ng lai ghÐp HMM/ANN cña
CSLU. Sau phÇn giíi thiÖu lµ phÇn tr×nh bµy c¸c b−íc tiÕn hµnh x©y dùng mét hÖ
thèng nhËn d¹ng m−êi ch÷ sè tiÕng ViÖt b»ng ANN. HÖ thèng nµy ®−îc dïng lµm
hÖ thèng nhËn d¹ng c¬ së (base line). Sau ®ã c¸c thö nghiÖm nh»m n©ng cao ®é
chÝnh x¸c nhËn d¹ng cña hÖ thèng nµy. PhÇn cuèi tr×nh bµy vÒ hÖ thèng nhËn d¹ng
cuèi cïng x©y dùng b»ng m¹ng lai ghÐp HMM/ANN.

6.1 X©y dùng hÖ thèng nhËn d¹ng m−êi ch÷ sè tiÕng ViÖt
liªn tôc b»ng ANN

6.1.1 C¬ së d÷ liÖu
C¬ së d÷ liÖu tiÕng nãi ®−îc dïng trong ch−¬ng nµy gièng nh− c¬ së d÷ liÖu ®·
®−îc dïng trong phÇn 5.5 bao gåm 445 c©u, 2345 tõ, ®−îc trÝch ra tõ hai c¬ së d÷
liÖu tiÕng nãi ®iÖn tho¹i “22 Language v1.2”, vµ “Multi-Language Telephone
Speech v1.2” cña trung t©m CSLU (Center for Speech Language Understanding),
ViÖn Sau §¹i häc Oregon, Hoa kú.
C¸c c©u trong c¬ së d÷ liÖu tiÕng nãi ®−îc thu ©m theo h×nh thøc pháng vÊn qua
®iÖn tho¹i tõ 213 ng−êi nãi (135 nam, 78 n÷). Ng−êi nãi ph¸t ©m c¸c c©u bao gåm
131

c¸c ch÷ sè nh−: sè ®iÖn tho¹i, ®Þa chØ, sè b−u ®iÖn, tuæi, ... C©u dµi nhÊt cã 18 tõ vµ
c©u ng¾n nhÊt cã 1 tõ.
C¸c c©u ®−îc thu ©m tõ nhiÒu m¸y ®iÖn tho¹i kh¸c nhau. KiÓu cña m¸y ®iÖn
tho¹i vµ ®Æc tÝnh cña kªnh tho¹i kh«ng ®−îc x¸c ®Þnh. C¸c c©u thu ®−îc ®a d¹ng vµ
kh¸c nhau vÒ tèc ®é ph¸t ©m; vÒ ®é to nhá; cã c©u ®−îc ng−êi nãi nãi trong v¨n
phßng yªn tÜnh, cã c©u cã lÉn nhiÒu t¹p ©m nh− tiÕng ®µi, ti vi xen vµo khi ng−êi nãi
ngåi trong nhµ, hay tiÕng « t« khi ng−êi nãi ®øng t¹i tr¹m b−u ®iÖn c«ng céng,...
C¸c c©u ®−îc thu ©m víi tÇn sè lÊy mÉu 8000Hz, biÕn ®æi A/D 8bit.
TÊt c¶ c¸c c©u trong c¬ së d÷ liÖu tiÕng ®Òu ®−îc phiªn ©m chÝnh t¶ vµ g¸n nh·n
b»ng tay t¹i møc ©m vÞ. Ph−¬ng ph¸p g¸n nh·n b»ng tay ®−îc tr×nh bµy trong
Ch−¬ng 5 ®· ®−îc ¸p dông ®Ó g¸n nh·n cho c¸c d÷ liÖu nµy. B¶ng ký hiÖu ©m vÞ vµ
ph−¬ng ph¸p ghi chÝnh t¶ tr×nh bµy trong ch−¬ng 5 còng ®−îc ¸p dông trong qu¸
tr×nh g¸n nh·n.
C¬ së d÷ liÖu ®−îc chia thµnh ba tËp: tËp d÷ liÖu huÊn luyÖn (training set) vµ tËp
d÷ liÖu kiÓm tra (test set). TËp d÷ liÖu huÊn luyÖn bao gåm 315 c©u, 1686 tõ, do 158
ng−êi nãi (104 nam vµ 54 n÷). TËp d÷ liÖu ph¸t triÓn cã 75 c©u, 342 tõ do 38 ng−êi
nãi(27 nam, 11 n÷) , tËp d÷ liÖu kiÓm tra cã 69 c©u, 317 tõ do 47 ng−êi nãi (34 nam,
13 n÷). §Ó ®¶m b¶o tÝnh kh¸ch quan, ng−êi nãi trong tËp d÷ liÖu kiÓm tra lµ ®éc lËp
víi ng−êi nãi trong tËp d÷ liÖu huÊn luyÖn.

6.1.2 Ph−¬ng ph¸p nhËn d¹ng


Ph−¬ng ph¸p nhËn d¹ng dïng x©y dùng hÖ thèng lµ ph−¬ng ph¸p x©y dùng m¹ng
HMM/ANN cña CSLU ®−îc tr×nh bµy trong Ch−¬ng 4. Cô thÓ trong qu¸ tr×nh x©y
dùng hÖ thèng nhËn d¹ng m−êi ch÷ sè tiÕng ViÖt liªn tôc, c¸c b−íc ®−îc tiÕn hµnh
sÏ ®−îc tr×nh bµy d−íi ®©y.
B¶ng 6.1 sau ®©y cho ta phiªn ©m ©m vÞ cña m−êi ch÷ sè tiÕng ViÖt. B¶ng 6.2
sau tr×nh bµy sè category ®−îc ph©n chia cho mçi ©m vÞ cña hÖ thèng.
Víi ph−¬ng ph¸p phiªn ©m vµ lùa chän trªn hÖ thèng bao gåm 75 category, cã
bèn category kh«ng ®ñ d÷ liÖu ®Ó huÊn luyÖn vµ ph¶i bÞ buéc vµo c¸c category kh¸c.
Trong hÖ thèng nhËn d¹ng nµy, m¹ng neuron bao gåm 130 nót ®Çu vµo, 200 nót
Èn vµ 75 nót ®Çu ra. Hai hÖ thèng sö dông hai ph−¬ng ph¸p trÝch trän ®Æc tÝnh kh¸c
nhau MFCC vµ PLP ®−îc x©y dùng, kü thuËt CMS ®−îc dïng ®Ó khö bá nhiÔu.
132

B¶ng 6.1. B¶ng phiªn ©m m−êi ch÷ sè tiÕng ViÖt


Ch÷ sè Phiªn ©m chÝnh t¶ Phiªn ©m ©m vÞ
0 khoong /kh/ /oo/ ng/
1 mootj /m/ /oo/ tc/
2 hai /h/ /a/ /i/
3 ba /b/ /a/
4 boons /b/ oo/ /n/
5 nawm /n/ /aw/ m/
6 saus /s/ /a/ /u/
7 baayr /b/ /aa/ /i/
8 tams /t/ /a/ m/
9 chins /ch/ /i/ n/
B¶ng 6.2. B¶ng sè category cña c¸c ©m vÞ
¢m vÞ Sè category Miªu t¶
/m/, /n/, /ng/ 2 phô ©m mòi
/s/, /h/, /kh/ 2 ©m x¸t
/ch/,/ /t/ 1 ©m t¾c v« thanh
/b/ r ©m t¾c h÷u thanh
/tc/, /chc/, /bc/ 1 ©m ®ãng
/a/, /aw/, /aa/, /oo/, /a/, /i/, /u/ 2 nguyªn ©m

6.1.3 KÕt qu¶ nhËn d¹ng


B¶ng 6.3. §é chÝnh x¸c nhËn d¹ng cña hÖ thèng nhËn d¹ng c¬ së
HÖ thèng nhËn d¹ng §é chÝnh x¸c
Møc tõ Møc c©u
MFCC 94,29 80.82
PLP 94,92 78,08
KÕt qu¶ nhËn d¹ng cho thÊy hÖ thèng cho mét kÕt qu¶ nhËn d¹ng rÊt cao khi lµm
viÖc víi hÖ thèng nhËn d¹ng cã kÝch th−íc nhá. Ngoµi ra hÖ thèng còng cho thÊy
kh¶ n¨ng lµm viÖc ®−îc cña hÖ thèng víi c¬ së d÷ liÖu cã chÊt l−îng kÐm, nhiÒu
nhiÔu nh− c¬ së d÷ liÖu ®−îc sö dông. §©y lµ mét trong nh÷ng −u ®iÓm cña m¹ng
ANN.

6.2 N©ng cao ®é chÝnh x¸c nhËn d¹ng


Víi hÖ thèng nhËn d¹ng ®−îc tr×nh bµy ë trªn lµ hÖ thèng nhËn d¹ng c¬ së, c¸c
thö nghiÖm nh»m n©ng cao kh¶ n¨ng nhËn d¹ng cña hÖ thèng ®−îc tiÕn hµnh dùa
trªn c¸c yÕu tè ¶nh h−ëng kh¸c nhau ®Õn hÖ thèng nhËn d¹ng. C¸c thö nghiÖm ®−îc
thùc hiÖn trªn hÖ thèng nhËn d¹ng dïng m¹ng neuron ®Ó so s¸nh. Cuèi cïng mét hÖ
thèng nhËn d¹ng tèt nhÊt ®−îc t×m thÊy sau c¸c thö nghiÖm.
133

C¸c thö nghiÖm ®−îc tiÕn hµnh liªn tiÕp nhau, trong ®ã kÕt qu¶ cña thö nghiÖm
nµy sÏ ®−îc sö dông trong thö nghiÖm sau ®ã. LÇn l−ît c¸c thö nghiÖm ®−îc tiÕn
hµnh ®−îc tr×nh bµy trong phÇn sau.

6.2.1 Vai trß cña ©m ®ãng trong phiªn ©m c¸c ch÷ sè


¢m ®ãng lµ ©m ®øng tr−íc c¸c phô ©m t¾c. Khi ph¸t ©m mét ©m t¾c, c¬ quan
ph¸t ©m sÏ khÐp l¹i vµ luång kh«ng khÝ tõ phæi ®i ra sÏ bÞ c¶n trë hoµn toµn. ¢m t¾c
®−îc h×nh thµnh khi luång h¬i ph¸ vì sù c¶n trë bËt ra thµnh mét tiÕng næ. ¢m ®ãng
(closure) ®−îc h×nh thµnh trong qu¸ tr×nh khi c¸c bé phËn ph¸t ©m di chuyÓn vµo vÞ
trÝ cÊu ©m vµ c¸c c¬ quan ph¸t ©m ®ãng l¹i tr−íc khi ph¸t ©m mét ©m t¾c.
Trªn biÓu ®å phæ cña mét ph¸t ©m liªn tôc, ©m ®ãng ®−îc ®¸nh dÊu b»ng sù suy
gi¶m n¨ng l−îng nÕu ©m ®ãng ®øng sau mét ©m nµo ®ã. Tuy ©m ®ãng kh«ng ph¶i
lóc nµo còng xuÊt hiÖn râ rµng trªn biÓu ®å phæ vµ biÓu ®å sãng, nh−ng nã vÉn tån
t¹i nh− lµ mét ©m vÞ ®éc lËp trong c¸c ph¸t ©m liªn tôc.
Trong m−êi ch÷ sè tiÕng ViÖt cã hai lo¹i ©m ®ãng:
¢m ®ãng h÷u thanh: /bc/ cña ©m t¾c h÷u thanh /b/.
¢m ®ãng v« thanh: /tc/ vµ /chc/ cña c¸c ©m ®ãng v« thanh /t/ vµ /ch/.
§Ó nghiªn cøu vai trß cña ©m ®ãng, c¸c thùc nghiÖm nhËn d¹ng m−êi ch÷ sè
tiÕng ViÖt ®−îc thùc hiÖn trªn bèn hÖ thèng nhËn d¹ng t−¬ng øng víi bèn m« h×nh
©m tiÕt:
I. M« h×nh ©m tiÕt kh«ng cã ©m ®ãng. M« h×nh ©m tiÕt gièng nh− miªu t¶ trong
B¶ng 6.1.
II. M« h×nh ©m tiÕt I céng víi ©m ®ãng /bc/ trong c¸c tõ:
“ba“ : /bc/ /b/ /a/
“bèn“ : /bc/ /b/ /oo/ /n/
“bÈy“ : /bc/ /b/ /aa/ /i/
III. M« h×nh ©m tiÕt I céng víi ©m ®ãng /tc/, /chc/ trong c¸c tõ:
“t¸m“ : /tc/ /t/ /a/ /m/
“chÝn“ : /chc/ /ch/ /i/ /n/
IV. M« h×nh ©m tiÕt I céng víi céng c¸c ©m ®ãng /bc/, /tc/ vµ /chc/:
134

“ba“ : /bc/ /b/ /a/


“bèn“ : /bc/ /b/ /oo/ /n/
“bÈy“ : /bc/ /b/ /aa/ /i/
“t¸m“ : /tc/ /t/ /a/ /m/
“chÝn“ : /chc/ /ch/ /i/ /n/
B¶ng 6.4. KÕt qu¶ nhËn d¹ng cña bèn hÖ thèng nhËn d¹ng víi sù tham gia cña c¸c
©m ®ãng víi hai ph−¬ng ph¸p MFCC vµ PLP.
HÖ thèng KÕt qu¶ M« h×nh
I II III IV
MFCC Møc tõ 94,29 92,70 93,97 93,97
Møc c©u 80,82 75,34 79,45 78,08
PLP Møc tõ 94,92 93,20 95,56 92,06
Møc c©u 78,08 78,08 83,56 76,71
B¶ng 6.4 miªu t¶ kÕt qu¶ c¸c thùc nghiÖm. Tõ kÕt qu¶ nhËn d¹ng víi c¸c hÖ
thèng dïng c¶ hai ph−¬ng ph¸p MFCC vµ PLP ta thÊy khi ©m ®ãng /bc/ tham gia
vµo m« h×nh ©m tiÕt, kÕt qu¶ nhËn d¹ng cña hÖ thèng nhËn d¹ng II kÐm ®i, ng−îc l¹i
khi c¸c ©m ®ãng /tc/, /chc/ tham gia vµo c¸c m« h×nh ©m tiÕt, kÕt qu¶ nhËn d¹ng
t¨ng lªn. Víi m« h×nh bao gåm tÊt c¶ c¸c ©m ®ãng /bc/, /tc/, /chc/ kÕt qu¶ nhËn d¹ng
kh«ng ®−îc c¶i thiÖn so víi hÖ thèng kh«ng bao gåm c¸c ©m ®ãng. Nh− vËy hÖ
thèng cã sù tham gia cña hai ©m ®ãng /tc/ vµ /chc/ cho kÕt qu¶ nhËn d¹ng cao nhÊt.

6.2.2 Sè l−îng category cho mçi nguyªn ©m


Nh− ®· tr×nh bµy ë trªn, c¸c ©m vÞ ®−îc nhËn d¹ng dùa vµo ng÷ c¶nh xung quanh
cña nã, do vËy mçi nguyªn ©m ®−îc chia thµnh 2 hoÆc 3 category. Mçi category phô
thuéc vµo ng÷ c¶nh ë bªn tr¸i hoÆc bªn ph¶i cña nã. Khi mét nguyªn ©m ®−îc chia
thµnh ba category, ngoµi c¸c category phô thuéc vµo bªn tr¸i vµ bªn ph¶i, cßn cã
mét category ®øng gi÷a ®éc lËp kh«ng phô thuéc vµo ng÷ c¶nh hai bªn. VÊn ®Ò ®Æt
ra ë ®©y lµ t×m sè l−îng category thÝch hîp cho mçi nguyªn ©m. C¸c hÖ thèng nhËn
d¹ng ®−îc bæ sung c¸c ©m ®ãng /tc/, /chc/ vµo trong tõ ®iÓn do kÕt qu¶ thu ®−îc tõ
b−íc tr−íc.
Hai hÖ thèng nhËn d¹ng ®−îc x©y dùng ®Ó t×m sè l−îng category thÝch hîp cho
c¸c nguyªn ©m: hÖ thèng nhËn d¹ng cã sè l−îng category lµ 2 cho mçi nguyªn ©m
gièng nh− hÖ thèng nhËn d¹ng ë b−íc 6.2.1 vµ hÖ thèng nhËn d¹ng cã sè l−îng
135

category lµ 3 cho mçi nguyªn ©m. Hai ph−¬ng ph¸p MFCC vµ PLP ®−îc ¸p dông
cho c¶ hai hÖ thèng nhËn d¹ng. KÕt qu¶ nhËn d¹ng ®−îc tr×nh bµy trong B¶ng 6.5.
B¶ng 6.5. KÕt qu¶ nhËn d¹ng cña hai hÖ thèng nhËn d¹ng dïng 2 vµ 3 category
cho mçi nguyªn ©m víi hai ph−¬ng ph¸p MFCC vµ PLP.
HÖ thèng KÕt qu¶ HÖ thèng nhËn d¹ng
2 category 3 category
MFCC Møc tõ 93,97 94,60
Møc c©u 79,45 82,19
PLP Møc tõ 95,56 95,56
Møc c©u 83,56 83,56
Tõ b¶ng kÕt qu¶ cho thÊy, hÖ thèng víi sè l−îng category lµ 3 cho mçi nguyªn
©m cho kÕt qu¶ nhËn d¹ng cao h¬n so víi hÖ thèng dïng 2 category cho mçi nguyªn
©m. KÕt qu¶ nhÊt qu¸n víi c¶ hai ph−¬ng ph¸p trÝch trän ®Æc tÝnh MFCC vµ PLP.
KÕt qu¶ nµy cã thÓ ®−îc gi¶i thÝch nh− sau: c¸c category ®−îc ph©n líp b»ng m¹ng
MLP cÇn cã cïng mét ®Æc tÝnh phæ. HiÖn t−îng ®ång ph¸t ©m (coarticulation) lµm
thay ®æi ®Æc tÝnh phæ cña c¸c nguyªn ©m, vµ c¸c nguyªn ©m phô thuéc vµo ng÷ c¶nh
xung quanh nã. Trong mét nguyªn ©m ®Æc tÝnh phæ thay ®æi vµ kh¸c nhau gi÷a c¸c
phÇn tõ phÇn ®Çu, phÇn gi÷a vµ phÇn cuèi. ViÖc chia mçi nguyªn ©m thµnh ba
category kh¸c nhau lµm t¨ng kh¶ n¨ng ph©n líp cña m¹ng MLP do c¸c category
trong d÷ liÖu huÊn luyÖn cã ®Æc tÝnh phæ gÇn nhau.

6.2.3 Giíi h¹n vÒ ®é dµi


Hai giíi h¹n vÒ ®é dµi (duration limits) tèi ®a, tèi thiÓu ®−îc g¸n cho mçi mét
category. C¸c giíi h¹n nµy ®−îc x¸c ®Þnh th«ng qua c¸c tÖp phiªn ©m ©m vÞ cña tËp
d÷ liÖu huÊn luyÖn (®−îc thùc hiÖn trong qu¸ tr×nh g¸n nh·n b»ng tay). Trong qu¸
tr×nh t×m kiÕm Viterbi, khi ®é dµi cña mét category lín h¬n gi¸ trÞ tèi thiÓu th× nã sÏ
bÞ g¸n mét gi¸ trÞ "ph¹t" (pelnaty) tû lÖ víi hiÖu sè gi÷a ®é dµi cña nã vµ gi¸ trÞ tèi
thiÓu. Gi¸ trÞ tèi thiÓu cã vai trß quan träng ®Ó giíi h¹n lçi chÌn c¸c tõ ng¾n trong
mét ph¸t ©m. Khi ¸p dông h¹n chÕ tèi thiÓu, tû lÖ nhËn d¹ng nhÇm do lçi chÌn gi¶m
®i ®¸ng kÓ.
Kh¸c víi giíi h¹n tèi thiÓu, h¹n chÕ ®é dµi tèi ®a kh«ng cã ¶nh h−ëng nhiÒu ®Õn
®é chÝnh x¸c nhËn d¹ng [Hosom1998]. Gi¸ trÞ tèi thiÓu cã thÓ ®−îc tÝnh lµ gi¸ trÞ
cña 2% category cã ®é dµi thÊp nhÊt trong tÊt c¶ lÇn xuÊt hiÖn cña category ®ã trong
tËp d÷ liÖu huÊn luyÖn. NghÜa lµ 98% lÇn xuÊt hiÖn cña category cã ®é dµi lín h¬n
®é dµi tèi thiÓu. Gi¸ trÞ tèi ®a cña mét category ®−îc x¸c ®Þnh lµ gi¸ trÞ lín nhÊt cña
category ®ã trong c¬ së d÷ liÖu.
136

Gi¸ trÞ tèi thiÓu lín sÏ h¹n chÕ ®−îc c¸c lçi do chÌn vµ hiÖu qu¶ trong nhËn d¹ng
c¸c c©u bÞ nhiÒu nhiÔu. Tuy nhiªn nÕu gi¸ trÞ nµy qu¸ lín sÏ lµm t¨ng tû lÖ lçi do
xo¸.
HÖ thèng nhËn d¹ng cã kÕt qu¶ nhËn d¹ng tèt nhÊt ë b−íc víi 3 category cho
mçi nguyªn ©m ®−îc sö dông ®Ó tiÕn hµnh nhËn d¹ng víi tËp d÷ liÖu kiÓm tra víi
c¸c gi¸ trÞ tèi thiÓu lÇn l−ît lµ 2%, 5% vµ 8%. KÕt qu¶ nhËn d¹ng ®−îc tr×nh bµy
trong B¶ng 6.6.
B¶ng 6.6. KÕt qu¶ nhËn d¹ng cña hÖ thèng nhËn d¹ng víi c¸c gi¸ trÞ
®é dµi tèi thiÓu lµ 2%, 5% vµ 8%.
HÖ KÕt qu¶ M« h×nh
thèng 2% 5% 8%
MFCC Møc tõ 94,60 95,24 94,60
Møc c©u 82,19 86,30 80,82
PLP Møc tõ 95,56 96,19 94,60
Møc c©u 83,56 84,93 78,08
Tõ b¶ng kÕt qu¶ cho ta thÊy gi¸ trÞ thÝch hîp nhÊt cho gi¸ trÞ tèi thiÓu ®é dµi c¸c
category lµ 5% víi kÕt qu¶ tèt nhÊt lµ 96,19 % ë møc tõ vµ 84,93% ë møc c©u.

6.2.4 Ph−¬ng ph¸p trÝch trän ®Æc ®Ýnh phæ cña tiÕng nãi
Ph−¬ng ph¸p trÝch trän ®Æc tÝnh phæ tiÕng nãi lµ mét trong c¸c yÕu tè ¶nh h−ëng
nhiÒu ®Õn ®é chÝnh x¸c nhËn d¹ng cña hÖ thèng [Kawai 2001]. C¸c hÖ thèng nhËn
d¹ng hiÖn nay ®ang sö dông réng r·i hai ph−¬ng ph¸p trÝch trän ®Æc tÝnh lµ MFCC
vµ PLP. Hai kü thuËt khö nhiÔu hay dïng kÕt hîp víi hai ph−¬ng ph¸p trªn lµ CMS
vµ RASTA.
§Ó t×m ra tËp ®Æc tÝnh phæ thÝch hîp víi c¬ së d÷ liÖu tiÕng nãi thu ©m qua ®iÖn
tho¹i, c¸c ph−¬ng ph¸p trÝch trän ®Æc tÝnh kh¸c nhau ®−îc thö nghiÖm ®Ó x©y dùng
c¸c hÖ thèng nhËn d¹ng. Sau ®ã c¸c hÖ thèng nhËn d¹ng tiÕn hµnh nhËn d¹ng trªn
tËp d÷ liÖu kiÓm tra, vµ tõ ®ã t×m ra ®−îc ph−¬ng ph¸p trÝch trän ®Æc tÝnh thÝch hîp
nhÊt. Cã bèn tËp ®Æc tÝnh ®−îc sö dông:

MFCC13+∆ (12 hÖ sè MFCC, n¨ng l−îng vµ delta c¸c gi¸ trÞ nµy)

PLP13+∆ (12 hÖ sè PLP, n¨ng l−îng vµ delta c¸c gi¸ trÞ nµy)

MFCC13+∆+∆2 (12 hÖ sè MFCC, n¨ng l−îng, gi¸ trÞ delta vµ delta cña delta c¸c
gi¸ trÞ nµy)
137

PLP13+∆+∆2 (12 hÖ sè PLP, n¨ng l−îng, gi¸ trÞ delta vµ delta cña delta c¸c gi¸
trÞ nµy)
Bèn ph−¬ng ph¸p trªn kÕt hîp víi hai kü thuËt xö lý CMS vµ RASTA t¹o thµnh
t¸m hÖ thèng nhËn d¹ng. KÕt qu¶ nhËn d¹ng cña c¸c hÖ thèng nµy víi t¹p d÷ liÖu
kiÓm tra ®−îc miªu t¶ trong B¶ng 6.7.
B¶ng 6.7. KÕt qu¶ nhËn d¹ng cña c¸c hÖ thèng víi
c¸c ph−¬ng ph¸p trÝch trän ®Æc tÝnh kh¸c nhau.
HÖ thèng HÖ thèng nhËn d¹ng
Møc tõ Møc c©u
MFCC13 +∆ (CMS) 95,24 86,30
MFCC13 +∆ (RASTA) 92,70 75,34
PLP13 +∆ (CMS) 96,19 84,93
PLP13 +∆ (RASTA) 93,65 79,45
MFCC13 +∆+∆2 (CMS) 95,56 83,56
MFCC13 +∆+∆2(RASTA) 93,65 78,08
PLP13 +∆+∆2 (CMS) 96,19 84,83
PLP13 +∆+∆2(RASTA) 94,29 80,82
Tõ b¶ng ta nhËn thÊy kü thuËt xö lý RASTA cho kÕt qu¶ nhËn d¹ng thÊp h¬n so
víi hÖ thèng dïng kü thuËt CMS t−¬ng øng. Ngoµi ra ta còng nhËn thÊy lµ viÖc bæ
sung c¸c gi¸ trÞ delta cña delta kh«ng lµm t¨ng ®é chÝnh x¸c nhËn d¹ng cña hÖ
thèng. HÖ thèng cho ®é chÝnh x¸c nhËn d¹ng cao nhÊt lµ hÖ thèng dïng tËp ®Æc tÝnh
phæ gåm 12 hÖ sè PLP, n¨ng l−îng vµ c¸c gi¸ trÞ delta cña c¸c gi¸ trÞ nµy, kü thuËt
CMS ®−îc kÕt hîp víi tËp ®Æc tÝnh nµy.

6.3 X©y dùng hÖ thèng nhËn d¹ng m−êi ch÷ sè tiÕng ViÖt
dïng m¹ng HMM/ANN
Sau qu¸ tr×nh x©y dùng hÖ thèng nhËn d¹ng dïng m¹ng ANN, hÖ thèng nhËn
d¹ng tèt nhÊt ®· ®−îc t×m ra. Trªn c¬ së hÖ thèng nµy, m¹ng lai ghÐp HMM/ANN
®−îc x©y dùng ®Ó n©ng cao h¬n n÷a kh¶ n¨ng nhËn d¹ng cña hÖ thèng.
Qu¸ tr×nh x©y dùng m¹ng HMM/ANN ®· ®−îc miªu t¶ trong Ch−¬ng 4. Trong
hÖ thèng nhËn d¹ng nµy, m¹ng lai ghÐp HMM/ANN ®−îc huÊn luyÖn ba lÇn, mçi
lÇn 40 vßng lÆp. Sau mçi lÇn, m¹ng ®−îc kiÓm tra trªn tËp d÷ liÖu ph¸t triÓn, vßng
lÆp tèt nhÊt ®−îc t×m thÊy ®Ó sö dông trong lÇn huÊn luyÖn tiÕp theo.
Sau ba lÇn huÊn luyÖn, m¹ng lai ghÐp cho ta kÕt qu¶ thö trªn tËp d÷ liÖu kiÓm tra
nh− sau:
138

B¶ng 6.8. §é chÝnh x¸c nhËn d¹ng cña hÖ thèng HMM/ANN


HÖ thèng nhËn d¹ng §é chÝnh x¸c nhËn d¹ng
Møc tõ Møc c©u
M¹ng lai ghÐp HMM/ANN 97.14% 90.41%
Nh− vËy hÖ thèng nhËn d¹ng m−êi ch÷ sè tiÕng ViÖt liªn tôc tèt nhÊt dïng
m¹ng lai ghÐp HMM/ANN lµ hÖ thèng dïng ph−¬ng ph¸p trÝch trän ®Æc ®iÓm PLP
kÕt hîp víi ph−¬ng ph¸p khö nhiÔu CMS; c¸c nguyªn ©m bao gåm ba category; ©m
®ãng tc vµ chc ®−îc bæ sung vµo phiªn ©m hai tõ “t¸m”, “chÝn” trong tõ ®iÓn; gi¸ trÞ
5% ®−îc ¸p dông lµm gi¸ trÞ tèi thiÓu ®é dµi cña c¸c category trong c¸c lÇn xuÊt
hiÖn trªn tËp d÷ liÖu; m¹ng lai ghÐp ®−îc huÊn luyÖn ba lÇn vµ kÕt qu¶ nhËn d¹ng lµ
97.14% ®é chÝnh x¸c ë møc tõ vµ 90.41% ë møc c©u.
§Ó so s¸nh víi ph−¬ng ph¸p nhËn d¹ng dïng m« h×nh Markov Èn liªn tôc cña
HTK, mét hÖ thèng nhËn d¹ng t−¬ng tù gåm m−êi ch÷ sè tiÕng ViÖt x©y dùng b»ng
c«ng cô HTK. HÖ thèng nµy dïng cïng mét c¬ së d÷ liÖu cña c¸c hÖ thèng tr−íc.
TËp d÷ liÖu huÊn luyÖn vµ kiÓm tra ®−îc dïng l¹i cho hÖ thèng cña HTK, Riªng tËp
d÷ liÖu ph¸t triÓn kh«ng cÇn thiÕt víi ph−¬ng ph¸p HTK kh«ng ®−îc dïng cho hÖ
thèng nµy ®Ó ®¶m b¶o viÖc so s¸nh ®−îc chÝnh x¸c. KÕt qu¶ ®é chÝnh x¸c cña hÖ
thèng dïng HTK lµ nh− sau:
B¶ng 6.9. §é chÝnh x¸c nhËn d¹ng cña hÖ thèng nhËn d¹ng dïng HTK.
HÖ thèng nhËn d¹ng §é chÝnh x¸c
Møc tõ Møc c©u
MFCC cms 90.54 24.32
B¶ng kÕt qu¶ cho thÊy, hÖ thèng nhËn d¹ng dïng m« h×nh Markov Èn liªn tôc
cña HTK cho ®é chÝnh x¸c thÊp h¬n so víi hÖ thèng nhËn d¹ng dïng m¹ng lai ghÐp
HMM/ANN cña CSLU. KÕt qu¶ nhËn d¹ng chøa nhiÒu lçi chÌn do kÕt qu¶ nhËn
d¹ng nhÇm cña hÖ thèng víi c¸c tÝn hiÖu nhiÔu, chÝnh v× vËy ®é chÝnh x¸c ë møc c©u
®¹t thÊp. Tõ ®©y ta cã thÓ rót ra kÕt luËn lµ víi hÖ thèng nhËn d¹ng cã kÝch th−íc
nhá, m¹ng lai ghÐp HMM/ANN cña CSLU ®· chøng minh cã −u ®iÓm tèt, cho ®é
chÝnh x¸c nhËn d¹ng cao. So víi ph−¬ng ph¸p sö dông CD-HMM cña HTK, ph−¬ng
ph¸p nhËn d¹ng b»ng CSLU cho ®é chÝnh x¸c cao h¬n.
139

Ch−¬ng 7 hÖ thèng nhËn d¹ng

liªn tôc tiÕng ViÖt kh«ng thanh

®iÖu kÝch th−íc trung b×nh


Trong lÜnh vùc nghiªn cøu nhËn d¹ng, x©y dùng mét hÖ thèng nhËn d¹ng cã kÝch
th−íc lín lu«n lµ môc tiªu cuèi cïng ®Ó ®¹t tíi. §Ó x©y dùng hÖ thèng nh− vËy rÊt
phøc t¹p vµ cÇn cã nhiÒu yÕu tè: c¬ së d÷ liÖu, ph−¬ng ph¸p nhËn d¹ng, hÖ thèng
m¸y tÝnh ... Mét trong c¸c b−íc ®Ó tiÕn tíi môc tiªu nµy lµ x©y dùng hÖ thèng nhËn
d¹ng cã kÝch th−íc nhá h¬n, t×m ph−¬ng ph¸p nhËn d¹ng thÝch hîp ®Ó ¸p dông vµo
trong hÖ thèng nhËn d¹ng cã kÝch th−íc lín.
Nh− ®· tr×nh bµy trong Ch−¬ng 1, hÖ thèng nhËn d¹ng tiÕng ViÖt, gièng nh− c¸c
ng«n ng÷ cã thanh ®iÖu kh¸c bao gåm hai qu¸ tr×nh xö lý song song: nhËn d¹ng c¸c
tõ kh«ng thanh ®iÖu vµ nhËn d¹ng thanh ®iÖu. Trong ch−¬ng nµy, qu¸ tr×nh ®Çu tiªn
trong hÖ thèng nhËn d¹ng tiÕng ViÖt liªn tôc ®−îc tr×nh bµy: x©y dùng hÖ thèng
nhËn d¹ng kh«ng thanh ®iÖu.
PhÇn ®Çu tr×nh bµy vÒ c¬ së d÷ liÖu ®−îc sö dông. PhÇn thø hai tr×nh bµy vÒ c¸c
b−íc ®−îc tiÕn hµnh ®Ó x©y dùng hÖ thèng nhËn d¹ng. PhÇn ba tËp trung tr×nh bµy
c¸c ph−¬ng ph¸p nh»m t¨ng c−êng ®é chÝnh x¸c nhËn d¹ng cña hÖ thèng. PhÇn bèn
lµ c¸c thö nghiÖm kh¸c víi hÖ thèng nhËn d¹ng.

7.1 C¬ së d÷ liÖu
C¬ së d÷ liÖu dïng trong hÖ thèng nhËn d¹ng nµy cã kÝch th−íc lµ 528 tõ, bao
gåm 11 784 tõ, 1516 c©u do 212 ng−êi nãi (132 nam, 80 n÷). C¬ së d÷ liÖu nµy
®−îc trÝch ra tõ hai c¬ së d÷ liÖu tiÕng nãi ®iÖn tho¹i “22 Language v1.2”, vµ
“Multi-Language Telephone Speech v1.2” cña trung t©m CSLU (Center for Speech
Language Understanding), ViÖn Sau §¹i häc Oregon, Hoa kú.
C¸c c©u trong c¬ së d÷ liÖu tiÕng nãi ®−îc thu ©m theo h×nh thøc pháng vÊn qua
®iÖn tho¹i, trong ®ã ng−êi nãi gäi ®iÖn tho¹i tíi trung t©m ghi ©m, tr¶ lêi c¸c c©u
hái do m¸y tÝnh ®Æt ra. Cã kho¶ng 20 c©u hái ®Æt ra cho ng−êi ®−îc pháng vÊn liªn
quan ®Õn c«ng viÖc hµng ngµy cña hä, ch¼ng h¹n nh− c¸c c©u hái:
140

− Sè ®iÖn tho¹i cña b¹n lµ g× ?

− B÷a ¨n tr−a cña b¹n gåm nh÷ng mãn g× ?

− §−êng ®i lµm tõ nhµ ®Õn c¬ quan cña b¹n nh− thÕ nµo ?

− H·y ph¸t ©m c¸c ch÷ sè tõ kh«ng ®Õn chÝn.

− H·y kÓ mét c©u chuyÖn nµo ®ã cña b¹n trong vßng 1 phót.
Do c¸ch thu ©m nh− vËy, ng−êi nãi võa nãi võa nghÜ mét c¸ch tù nhiªn mµ
kh«ng ®äc s½n néi dung ph¸t ©m ®· chuÈn bÞ tr−íc. C¸c c©u thu ®−îc ®a d¹ng vµ
kh¸c nhau vÒ tèc ®é ph¸t ©m; vÒ ®é to nhá, cã c©u nghe kh¸ to, cã c©u thu ©m ®−îc
rÊt nhá; cã c©u ®−îc ng−êi nãi nãi trong v¨n phßng yªn tÜnh, cã c©u cã lÉn nhiÒu t¹p
©m trong m«i tr−êng thùc ngoµi phè nh− tiÕng « t«, tiÕng nh¹c. C¸c c©u ®−îc thu
©m víi tÇn sè lÊy mÉu 8000Hz, biÕn ®æi A/D 8bit.
C¬ së d÷ liÖu tiÕng nãi ®−îc chia thµnh 2 tËp d÷ liÖu: tËp huÊn luyÖn (training
set) gåm 1169 c©u dïng ®Ó huÊn luyÖn m¹ng ANN vµ m« h×nh HMM; tËp kiÓm tra
(test set) gåm 347 c©u dïng kiÓm tra ®é chÝnh x¸c nhËn d¹ng cña hÖ thèng. §Ó
kh¸ch quan, nh÷ng giäng ng−êi nãi ®· ®−îc dïng ®Ó huÊn luyÖn kh«ng cã mÆt trong
tËp d÷ liÖu kiÓm tra.
C¬ së d÷ liÖu ®−îc nh− vËy cã nh÷ng −u ®iÓm lµ:

− Cã sè l−îng ng−êi nãi kh¸ lín. HÖ thèng còng ®−îc huÊn luyÖn vµ m« h×nh ho¸
víi nhiÒu giäng nãi, do ®ã kh¶ n¨ng nhËn d¹ng cña nã víi mét giäng nãi ch−a ®−îc
huÊn luyÖn tèt h¬n.

− C«ng viÖc thu ©m, ph−¬ng thøc thu ©m, c¸ch pháng vÊn, ... t¹o ra mét c¬ së d÷
liÖu rÊt gÇn víi thùc tÕ. Do vËy khi triÓn khai hÖ thèng nhËn d¹ng trong thùc tÕ, kÕt
qu¶ nhËn d¹ng sÏ kh«ng cã sù kh¸c biÖt lín gi÷a thÝ nghiÖm vµ øng dông.
Tuy nhiªn c¬ së d÷ liÖu cã nhiÒu nh−îc ®iÓm:

− C¸c ph¸t ©m lµ c¸c c©u nãi tù nhiªn kh«ng cã chuÈn bÞ tr−íc. Ng−êi nãi bÞ ®Æt
c©u hái vµ tr¶ lêi qua h×nh thøc pháng vÊn. Do võa nãi võa nghÜ nªn c¸c ph¸t ©m
cña hä kh«ng cã chÊt l−îng tèt nh− ph−¬ng thøc ng−êi nãi ®äc s½n mét c©u cã
chuÈn bÞ tr−íc.

− C¸c c©u, tõ trong c¬ së d÷ liÖu kh«ng ®−îc chuÈn bÞ tr−íc, dã ®ã trong c¬ së d÷


liÖu kh«ng cã sù c©n b»ng ng÷ ©m.
141

− TËp d÷ liÖu kiÓm tra chøa nhiÒu tõ kh«ng cã mÆt trong tËp d÷ liÖu huÊn luyÖn.
Hay nãi c¸ch kh¸c c¶ tËp d÷ liÖu huÊn luyÖn vµ tËp d÷ liÖu kiÓm tra kh«ng bao phñ
®−îc hÕt c¸c tõ trong bé tõ ®iÓn.

− ChÊt l−îng c¸c ph¸t ©m kh«ng cao, c¸c ph¸t ©m cã c©u cã lÉn nhiÒu t¹p ©m nh−
tiÕng ®µi, ti vi, tiÕng nh¹c, hay tiÕng ån cña m«i tr−êng xung quanh. Sù ®a d¹ng vÒ
ng−êi nãi, vÒ lo¹i m¸y ®iÖn tho¹i dïng vµ tiÕng ®Þa ph−¬ng thæ ng÷ còng lµ mét trë
ng¹i lín cho hÖ thèng nhËn d¹ng.

− ChÊt l−îng thu ©m kh«ng cao, tÇn sè lÊy mÉu 8000Hz.

7.2 C¸c b−íc tiÕn hµnh x©y dùng hÖ thèng nhËn d¹ng
C¸c b−íc tiÕn hµnh x©y dùng hÖ thèng nhËn d¹ng ®−îc thùc hiÖn theo ph−¬ng
ph¸p HTK nh− ®· tr×nh bµy trong Ch−¬ng 3. C¸c phÇn sau ®©y sÏ tr×nh bµy cô thÓ
c¸c b−íc tiÕn hµnh.

7.2.1 Tõ ®iÓn phiªn ©m


HÖ thèng nhËn d¹ng dïng ©m vÞ lµ ®¬n vÞ nhËn d¹ng c¬ së. B−íc ®Çu tiªn cña
x©y dùng hÖ thèng nhËn d¹ng ®ã lµ x©y dùng bé tõ ®iÓn phiªn ©m c¸c tõ trong bé tõ
®iÓn.
§èi víi c¸c ng«n ng÷ n−íc ngoµi, c¸c bé tõ ®iÓn dïng cho c¸c hÖ thèng nhËn
d¹ng ®· ®−îc nghiªn cøu kü tõ l©u. Mçi trung t©m nghiªn cøu tù x©y dùng cho m×nh
mét bé tõ ®iÓn cña riªng m×nh, vÝ dô nh− c¸c bé tõ ®iÓn phiªn ©m nèi tiÕng cña tiÕng
Anh: bé tõ ®iÓn Beep, bé tõ ®iÓn cña tr−êng Cambridge.
C¸c bé tõ ®iÓn cã thÓ ®−îc t¶i xuèng miÔn phÝ tõ Internet ®Ó dïng chung trong
c¸c trung t©m nghiªn cøu, hoÆc còng cã thÓ ®−îc b¸n víi gi¸ kh«ng ®¾t.
Mét trong nh÷ng ®Æc ®iÓm chÝnh cña c¸c bé tõ ®iÓn nµy lµ:

− Bao gåm tÊt c¶ c¸c ©m tiÕt cã thÓ cã trong ng«n ng÷.

− §−îc x©y dùng trªn mét tËp gåm c¸c ©m vÞ c¬ b¶n.

− Cïng mét tõ cã thÓ cã nhiÒu phiªn ©m kh¸c nhau. C¸c tõ cã thÓ phô thuéc vµo
ng÷ c¶nh c¸c tõ xung quanh mµ cã c¸ch ph¸t ©m kh¸c nhau.
§èi víi ng«n ng÷ tiÕng ViÖt, cho tíi thêi ®iÓm hiÖn nay ch−a cã mét bé tõ ®iÓn
phiªm ©m víi kÝch th−íc lín nµo ®−îc c«ng bè cho c¸c hÖ thèng nhËn d¹ng. ViÖc
142

nghiªn cøu ®Ó x©y dùng mét bé tõ ®iÓn bao gåm tÊt c¶ c¸c ©m tiÕt tiÕng ViÖt lµ mét
vÊn ®Ò cÇn ®−îc quan t©m nghiªn cøu.
§Ó tiÕn hµnh x©y dùng bé tõ ®iÓn gåm 528 tõ cho hÖ thèng nhËn d¹ng, NCS x©y
dùng mét ch−¬ng tr×nh tù ®éng ph©n tÝch mét tõ thµnh c¸c ©m vÞ t−¬ng øng. Së dÜ cã
thÓ x©y dùng mét ch−¬ng tr×nh tù ®éng nh− vËy lµ do nh− ®· tr×nh bµy trong ch−¬ng
tr−íc, tiÕng ViÖt cã mét cÊu tróc bÒn v÷ng, æn ®Þnh. Sù kÕt hîp gi÷a c¸c ©m vÞ trong
tiÕng ViÖt ®Ó t¹o thµnh tõ cã qui luËt vµ cã thÓ lËp tr×nh ®−îc.
§Ó tiÕn hµnh ph©n tÝch mét tõ thµnh c¸c ©m vÞ, NCS sö dông c¸c gi¸o tr×nh s¸ch
gi¸o khoa tiÕng ViÖt [C©n 1999, Tho 1997, ThuËt 1999, Trõ 1997], trong ®ã nÕu cã
sù kh«ng thèng nhÊt t¹m thêi gi÷a c¸c gi¸o tr×nh, NCS sö dông tµi liÖu cña NguyÔn
ThiÖn ThuËt [ThuËt 1999]. VÝ dô vÒ c¸c phiªn ©m trong tõ ®iÓn nh− sau:
nao n aw u ddinh dd i ngz an a nz
nhuwt nh uwtc thowi th ow i xawn x aw nz
ddowi dd ow i nieen n ie nz sach s eakc
gia dz a dden dd e nz xanh x ea ngz
saan s aa nz vaan v aa nz khu kh u
xa x a vieen v ie nz ddong dd oa ngz

7.2.2 Khëi t¹o c¸c tham sè cña m« h×nh Markov Èn


Khëi t¹o c¸c m« h×nh ©m ®¬n b»ng c«ng cô Hcompv víi c¸c tham sè nh− sau:
HcompV -T 1 -C word400.cfg2 -f 0.01 -m -S word400.train.scp -M hmm0
proto

Trong ®ã word400.cfg2 lµ tÖp cÊu h×nh. Néi dung tÖp cÊu h×nh nh− sau:
#coding parameters
SOURCEFORMAT = WAV
TARGETKIND = MFCC_E_D_A_Z
TARGETRATE = 100000.0
SAVECOMPRESSED = T
SAVEWITHCRC = T
WINDOWSIZE = 250000.0
USEHAMMING = T
PREEMCOEF = 0.97
NUMCHANS = 26
CEPLIFTER = 22
NUMCEPS = 12
ENORMALISE = T
143

TÖp cÊu h×nh ®Þnh nghÜa format tÖp ©m thanh lµ WAV, vector ®Æc tÝnh phæ ®−îc
dïng lµ MFCC bao gåm gi¸ trÞ n¨ng l−îng vµ 12 hÖ sè MFCC (khai b¸o NUMCEPS
= 12), ngoµi ra 13 gi¸ trÞ delta vµ gi¸ trÞ delta delta t−¬ng øng víi 13 hÖ sè trªn còng
®−îc sö dông (khai b¸o _D_A). Ph−¬ng ph¸p xö lý tÝn hiÖu CMS ®−îc sö dông ®Ó
lo¹i bá nhiÔu (khai b¸o _Z). KÝch th−íc cña cöa sæ Hamming lµ 25ms, gi¸ trÞ dïng
cho hµm preemcoef lµ 0.97, sè l−îng kªnh läc lµ 26 kªnh. Dßng cuèi cïng cho ta
biÕt gi¸ trÞ n¨ng l−îng cña c¸c khung tÝn hiÖu ®−îc chuÈn ho¸.
TÖp word400.train.scp chøa tªn c¸c tÖp ®−îc dïng ®Ó huÊn luyÖn cho hÖ thèng.
TÖp proto chøa c¸c gi¸ trÞ khëi t¹o cho c¸c tham sè cña c¸c m« h×nh Markov Èn cña
hÖ thèng.
HuÊn luyÖn c¸c ©m ®¬n b»ng c«ng cô huÊn luyÖn nhóng Herest.
Herest -C word400.cfg2 -I word400p.mlf -c 20 -t 250.0 150.0 1000.0 -S
word400.train.scp -H hmm0/macros -H hmm0/hmmdefs -M hmm1 monophones0

Trong ®ã word400p.mlf chøa tªn c¸c tÖp ®Ó huÊn luyÖn vµ néi dung c¸c tÖp ®ã
®−îc phiªn ©m thµnh c¸c ©m ®¬n. VÝ dô mét ®o¹n tÖp word400p.mlf nh− sau:
#!MLF!#
"*/VI-928.areacode.lab"
sil
b
a
s
aw
u
sil
.
"*/VI-1024.age.lab"
sil
b
a
sil
144

7.2.3 G¸n nh·n c−ìng bøc c¸c tÖp huÊn luyÖn.


C¸c ©m ba ®· ®−îc huÊn luyÖn ®−îc dïng ®Ó g¸n nh·n c−ìng bøc d÷ liÖu huÊn
luyÖn, qu¸ tr×nh nµy nh»m môc ®Ých t×m ra ph¸t ©m thÝch hîp nhÊt trong sè c¸c
phiªn ©m cã thÓ cã cña mét tõ, ®−îc khai b¸o trong tõ ®iÓn.
Hvite -l '*' -o SWT -b silence -C word400.cfg2 -a -H hmm7/macros -H
hmm7/hmmdefs -i aligned.mlf -m -y lab -I word400.mlf -S word400.train.scp
word400.dict monophones1 >hvite8.log

Sau khi ®−îc g¸n nh·n c−ìng bøc, c¸c ©m ®¬n l¹i ®−îc huÊn luyÖn l¹i mét lÇn
n÷a sö dông kÕt qu¶ cña viÖc g¸n nh·n c−ìng bøc tr−íc ®ã. C«ng cô sö dông l¹i lµ
Herest
Herest -C word400.cfg2 -I aligned.mlf -t 250.0 150.0 1000.0 -S
word400.train.scp -H hmm7/macros -H hmm7/hmmdefs -M hmm8 monophones1

Sau ®ã c¸c ©m ba sÏ ®−îc t¹o b»ng c¸ch sao chÐp tõ c¸c ©m ®¬n, c¸c ©m ba ®−îc
huÊn luyÖn b»ng c«ng cô Herest:
Herest -C word400.cfg2 -I wintri.mlf -t 250.0 150.0 1000.0 -s stats -
S word400.train.scp -H hmm10/macros -H hmm10/hmmdefs -M hmm11 triphones1

Trong ®ã wintri.mlf chøa tªn c¸c tÖp ®Ó huÊn luyÖn vµ néi dung c¸c tÖp ®ã ®−îc
phiªn ©m thµnh c¸c ©m vÞ. VÝ dô mét ®o¹n tÖp wintri.mlf nh− sau:
#!MLF!#
"*/VI-1024.age.lab"
sil
b+a
b-a
sp
sil
.
"*/VI-1024.clang.lab"
sil
t+oo

Tíi thêi ®iÓm hiÖn nay míi chØ c¸c ©m ba giíi néi tõ ®−îc ¸p dông. Do sè l−îng
c¸c ©m ba kh¸ lín (835 ©m ba), nªn d÷ liÖu dïng ®Ó huÊn luyÖn kh«ng ®ñ cho tÊt c¶
c¸c ©m ba, rÊt nhiÒu c¸c ©m ba kh«ng cã ®ñ qu¸ 3 mÉu ®Ó dïng huÊn luyÖn. Sè
l−îng c¸c ©m ba nh− vËy lµ 308 ©m ba b»ng 36.8% tæng sè ©m ba ®−îc huÊn luyÖn.
145

7.2.4 Buéc c¸c ©m ba


Do d÷ liÖu huÊn luyÖn kh«ng ®ñ cho nªn c¸c ©m ba cÇn ph¶i ®−îc buéc l¹i víi
nhau ®Ó chóng cã thÓ dïng chung nhau d÷ liÖu huÊn luyÖn. Qu¸ tr×nh buéc ®−îc
thùc hiÖn bëi c«ng cô Hhed víi tÖp khai b¸o cÊu h×nh nh− sau:
RO 100.0 stats
TR 0

QS "L_Class_stop" {b-*,t-*,ch-*,tr-*,th-*,k-*,dd-*}
QS "R_Class_stop" {*+b,*+t,*+ch,*+tr,*+th,*+k,*+dd}
QS "L_Class_nasal" {n-*,m-*,ng-*,nh-*}
QS "R_Class_nasal" {*+n,*+m,*+ng,*+nh}
QS "L_Class_fricate" {h-*,s-*,kh-*,ph-*,v-*,x-*,g-*,r-*,dz-*}
QS "R_Class_fricate" {*+h,*+s,*+kh,*+ph,*+v,*+x,*+g,*+r,*+dz}

TR 2

TB 350.0 "ST_b_2" {(b,*-b,*-b+*,b+*).state[2]}


TB 350.0 "ST_b_3" {(b,*-b,*-b+*,b+*).state[3]}
TB 350.0 "ST_b_4" {(b,*-b,*-b+*,b+*).state[4]}
.............
TB 350.0 "ST_owtc_3" {(owtc,*-owtc,*-owtc+*,owtc+*).state[3]}
TB 350.0 "ST_owtc_4" {(owtc,*-owtc,*-owtc+*,owtc+*).state[4]}

TR 1

AU "fulllist"
CO "tiedlist"

ST "trees"

C¸c c©u hái ®−îc chän lùa bao gåm: ph©n chia c¸c phô ©m thµnh ba lo¹i: c¸c ©m
t¾c, c¸c ©m x¸t vµ c¸c ©m mòi. Ba lo¹i nµy víi sù ph©n biÖt ng÷ c¶nh tr¸i vµ ng÷
c¶nh ph¶i t¹o thµnh s¸u nhãm c¸c ©m vÞ dïng ®Ó buéc c¸c ©m ba. Ph−¬ng ph¸p dïng
146

c©y (tree-based) ®−îc sö dông ®Ó ph©n tÝch vµ buéc c¸c ©m ba thÝch hîp. TÖp fulllist
chøa tÊt c¶ c¸c ©m ba cã thÓ cã trong c¬ së d÷ liÖu. Tõ tr−íc ®Õn nay c¸c ©m ba
®−îc huÊn luyÖn ®Òu dùa trªn d÷ liÖu huÊn luyÖn, tuy nhiªn trong d÷ liÖu kiÓm tra
cã thÓ chøa ®ùng c¸c tõ, c¸c ©m ba mµ kh«ng xuÊt hiÖn trong d÷ liÖu huÊn luyÖn.
C¸c ©m ba nµy sÏ ®−îc bæ xung vµo trong tÖp fulllist. TÖp fulllist cã tÊt c¶ 897 ©m
ba, nh− vËy so víi tÖp triphones cã 835 ©m ba th× cã 62 ©m ba cã mÆt trong d÷ liÖu
kiÓm tra nh−ng kh«ng cã mÆt trong d÷ liÖu huÊn luyÖn (unseen) vµ chóng ®−îc tæng
hîp tõ c¸c ©m ba ®· ®−îc huÊn luyÖn (chiÕm 7.43% sè l−îng c¸c ©m ba). KÕt qu¶
cña viÖc buéc d÷ liÖu t¹o thµnh mét danh s¸ch c¸c ©m ba ®−îc buéc l−u trong tÖp
tiedlist.
Sau khi ®−îc buéc, c¸c ©m ba tiÕp tôc ®−îc huÊn luyÖn b»ng c«ng cô Herest, do
kÕt qu¶ cña qu¸ tr×nh buéc, nªn sè l−îng ©m ba kh«ng ®ñ d÷ liÖu huÊn luyÖn ®·
gi¶m tõ 308 xuèng cßn 5 ©m ba.

7.2.5 NhËn d¹ng d÷ liÖu kiÓm tra.


HÖ thèng ®Õn ®©y ®· ®−îc x©y dùng xong vµ cã thÓ dïng ®Ó tiÕn hµnh nhËn
d¹ng. Gièng nh− tÊt c¶ c¸c hÖ thèng nhËn d¹ng víi sè l−îng lín, c¸c tõ ®−îc nhËn
d¹ng sö dông khai b¸o ng÷ ph¸p vßng tõ (word-loop). Ng÷ ph¸p nµy cho phÐp bÊt
kú mét tõ nµo còng cã thÓ ®øng sau tõ kh¸c trong bé tõ ®iÓn. Qu¸ tr×nh nhËn d¹ng
®−îc thùc hiÖn b»ng c«ng cô Hvite.
hvite -C word400.cfg2 -H hmm15/macros -H hmm15/hmmdefs -S
word400.test.scp -l '*' -i recout.mlf -w wdnet -p -40.0 -s 5.0
word400.dict tiedlist >result11

§Ó tiÖn so s¸nh, hai hÖ thèng sö dông hai ph−¬ng ph¸p trÝch trän ®Æc ®iÓm kh¸c
nhau cïng ®−îc x©y dùng song song: hÖ thèng dïng MFCC vµ hÖ thèng dïng PLP.
KÕt qu¶ nhËn d¹ng cña hai hÖ thèng lµ nh− sau:
B¶ng 7.1 KÕt qu¶ nhËn d¹ng cña hai hÖ thèng nhËn d¹ng víi hai ph−¬ng ph¸p
trÝch trän ®Æc ®iÓm kh¸c nhau MFCC vµ PLP.

HÖ thèng nhËn d¹ng §é chÝnh x¸c møc tõ §é chÝnh x¸c møc c©u
MFCC + CMS 24.76 3.75
PLP + CMS 26.05 3.17
KÕt qu¶ nµy cho mét ®é chÝnh x¸c t−¬ng ®èi thÊp, cho thÊy kh¶ n¨ng m« h×nh
ho¸ ng÷ ©m cña hÖ thèng cßn yÕu.
147

7.2.6 Sö dông m« h×nh ng«n ng÷ bigram vµo trong hÖ thèng nhËn d¹ng
Tõ tr−íc tíi giê, m« h×nh ng«n ng÷ ch−a tham gia vµo hÖ thèng nhËn d¹ng. C¸c
kÕt qu¶ nhËn d¹ng tr−íc ®ã cho ta thÊy kh¶ n¨ng m« h×nh ho¸ ©m thanh cña hÖ
thèng nhËn d¹ng. Khi ¸p dông m« h×nh ng«n ng÷ vµo trong hÖ thèng nhËn d¹ng, hÖ
thèng sÏ lµm viÖc hiÖu qu¶ h¬n v× c¸c th«ng tin thèng kª vÒ tõ vùng ®−îc sö dông vµ
tham gia vµo trong qu¸ tr×nh nhËn d¹ng. C¸c x¸c suÊt unigram vµ bigram ®−îc tÝch
hîp vµo trong m¹ng t×m kiÕm.
§Ó hÖ thèng sö dông m« h×nh ng«n ng÷ bigram, c«ng cô Hbuild ®−îc sö dông ®Ó
x©y dùng m¹ng t×m kiÕm ë møc tõ:
hbuild -n bigfn wordlist bigram.slf

Trong ®ã tÖp wordlisst chøa danh s¸ch c¸c tõ cña bé tõ ®iÓn, tÖp bigram.slf chøa
c¸c x¸c suÊt thèng kª c¸c tõ ®−îc sinh ra bëi c«ng cô Hlstats:
hlstats -b bigfn -o wordlist word400.mlf

C¬ së d÷ liÖu v¨n b¶n dïng ®Ó tÝnh c¸c x¸c suÊt ®−îc lÊy tõ chÝnh c¸c phiªn ©m
chØnh t¶ cña c¬ së d÷ liÖu. KÕt qu¶ nhËn d¹ng cña hai hÖ thèng dïng MFCC vµ PLP
víi sù tham gia cña m« h×nh ng«n ng÷ lµ nh− sau:
B¶ng 7.2. KÕt qu¶ nhËn d¹ng cña hai hÖ thèng nhËn d¹ng víi hai ph−¬ng ph¸p trÝch trän ®Æc ®iÓm
kh¸c nhau MFCC vµ PLP dïng m« h×nh ng«n ng÷ bigram.

HÖ thèng nhËn d¹ng §é chÝnh x¸c møc tõ §é chÝnh x¸c møc c©u
MFCC + CMS 55.49 10.09
PLP + CMS 55.53 7.20
So s¸nh víi B¶ng 7.1 ta thÊy kÕt qu¶ nhËn d¹ng ®· ®−îc c¶i thiÖn ®¸ng kÓ víi cã
sù tham gia cña m« h×nh ng«n ng÷ bigram: 24.76% so víi 55.49% víi ph−¬ng ph¸p
MFCC vµ 26.05% so víi 55.53% víi ph−¬ng ph¸p PLP. Tõ ®©y trë ®i c¸c thùc
nghiÖm sÏ dïng m« h×nh ng«n ng÷ bigram trong c¸c thö nghiÖm nhËn d¹ng.

7.3 T¨ng c−êng ®é chÝnh x¸c nhËn d¹ng


PhÇn nµy sÏ tr×nh bµy c¸c thö nghiÖm nh»m n©ng cao ®é chÝnh x¸c nhËn d¹ng
cña hÖ thèng. KÕt qu¶ cña c¸c thö nghiÖm tr−íc ®−îc dïng cho c¸c hÖ thèng nhËn
d¹ng ë thö nghiÖm sau.
148

7.3.1 X©y dùng hÖ thèng víi nhiÒu hµm Gaussian


HÖ thèng nhËn d¹ng tr×nh bµy ë trªn cho tíi thêi ®iÓm hiÖn nay sö dông mét hµm
mËt ®é x¸c suÊt Gaussian duy nhÊt. Tuy nhiªn hÖ thèng cña chóng ta lµm viÖc víi
d÷ liÖu cã ®é ®a d¹ng cao, do nhiÒu ng−êi nãi, trong m«i tr−êng kh¸c nhau, sö dông
c¸c hÖ thèng ®iÖn tho¹i kh¸c nhau. Mét hµm Gaussian kh«ng ®ñ kh¶ n¨ng ®Ó m«
h×nh ho¸ giäng nãi cña tÊt c¶ mäi ng−êi trong c¬ së d÷ liÖu. Mét hµm ph¸t x¹ quan
x¸t gåm nhiÒu thµnh phÇn trén lµ hµm Gaussian lµ cÇn thiÕt ®Ó n©ng cao kh¶ n¨ng
nhËn d¹ng cña hÖ thèng.
X©y dùng hµm trén nhiÒu thµnh phÇn hµm Gaussian ®−îc tiÕn hµnh b»ng c¸ch
sao chÐp tõ hµm Gaussian ë b−íc trªn. §Çu tiªn hµm trén sÏ gåm cã hai hµm
Gaussian, sau ®ã c¸c ©m ba ®−îc huÊn luyÖn l¹i b»ng Herest trªn hµm hai thµnh
phÇn nµy. Sau ®ã hµm trén nµy ®−îc dïng ®Ó sao chÐp t¹o thµnh hµm trén víi 6 hµm
Gaussian. B−íc tiÕp theo l¹i ®−îc lÆp l¹i cho ®Õn khi sè l−îng ©m ba ®¹t tíi con sè
mong muèn.
Trong lÇn thö nghiÖm nµy 8 hµm Gaussian ®−îc sö dông. Qua kiÓm tra thö nhËn
d¹ng trªn d÷ liÖu kiÓm tra, hÖ thèng míi bao gåm c¸c 8 hµm Gaussian ®· cho kÕt
qu¶ c¶i thiÖn ®¸ng kÓ so víi hÖ thèng chØ bao gåm mét hµm Gaussian.
B¶ng 7.3. KÕt qu¶ nhËn d¹ng cña hai hÖ thèng nhËn d¹ng dïng hµm trén gåm t¸m hµm Gaussian
víi hai ph−¬ng ph¸p trÝch trän ®Æc ®iÓm MFCC vµ PLP.

HÖ thèng nhËn d¹ng §é chÝnh x¸c møc tõ §é chÝnh x¸c møc c©u
MFCC + CMS 70.45 27.09
PLP + CMS 70.45 25.07

7.3.2 Bæ sung thªm ©m vÞ sil


Trong tõ ®iÓn cña c¸c hÖ thèng tr−íc ®©y, phiªn ©m mét tõ ®−îc kÕt thóc bëi ©m
vÞ sp, ®©y lµ ©m vÞ nèi kÕt gi÷a hai tõ víi nhau. VÝ dô nh−
ba b a sp
muwowi m wa i sp
baay b aa i sp
...

Tuy nhiªn do tèc ®é ph¸t ©m cña c¸c ph¸t ©m kh¸c nhau, víi mét sè ph¸t ©m c¸c
tõ cã thÓ ph©n c¸ch víi nhau bëi mét kho¶ng yªn lÆng. ¢m vÞ sp kh«ng ®ñ ®Ó m«
149

h×nh ho¸ c¸c kho¶ng yªn lÆng nh− vËy. Mét phiªn ©m míi ®−îc bæ sung vµo trong
tõ ®iÓn, trong ®ã c¸c ph¸t ©m ngoµi viÖc kÕt thóc b»ng ©m vÞ sp cßn cã thªm kh¶
n¨ng kÕt thóc b»ng ©m vÞ sil. C¸c phiªn ©m trong vÝ dô trªn sÏ ®−îc thay ®æi trong
bé tõ ®iÓn míi nh− sau:
ba b a sp
ba b a sil
muwowi m wa i sp
muwowi m wa i sil
baay b aa i sp
baay b aa i sil
...

HÖ thèng nhËn d¹ng ®−îc x©y dùng trªn tõ ®iÓn míi cho kÕt qu¶ nhËn d¹ng ®−îc
miªu t¶ trong B¶ng 7.4.
B¶ng 7.4. KÕt qu¶ nhËn d¹ng cña hai hÖ thèng nhËn d¹ng víi tõ ®iÓn ®−îc bæ sung ©m vÞ sil.

HÖ thèng nhËn d¹ng §é chÝnh x¸c møc tõ §é chÝnh x¸c møc c©u
MFCC + CMS 71.69 30.78
PLP + CMS 72.77 30.55
So s¸nh víi B¶ng 7.3 ta thÊy mét sù c¶i thiÖn ®¸ng kÓ ®é chÝnh x¸c nhËn d¹ng
khi ©m vÞ sil ®−îc bæ sung vµo bé tõ ®iÓn.

7.3.3 Vai trß cña ©m ®ãng


Trong tiÕng ViÖt cã hai lo¹i ©m ®ãng: ©m ®ãng theo tr−íc mét phô ©m t¾c vµ ©m
®ãng theo sau mét phô ©m cuèi lµ ©m t¾c.
¢m t¾c trong ph¸t ©m ®−îc h×nh thµnh khi c¬ quan cÊu ©m di chuyÓn vÒ vÞ trÝ
ph¸t ©m cña ©m t¾c. Ngay tr−íc khi ph¸t ©m ©m t¾c, bé m¸y ph¸t ©m ®ãng hoµn
toµn vµ khi c¬ quan cÊu ©m më ®ét ngét, luång h¬i bËt ra t¹o thµnh ©m t¾c hay cßn
gäi lµ ©m næ. ¢m ®ãng h×nh thµnh trong qu¸ tr×nh di chuyÓn cña c¬ quan cÊu ©m ®Ó
ph¸t ©m mét ©m ®ãng. Trªn biÓu ®å phæ ©m ®ãng chØ lµ mét kho¶ng trèng n¨ng
l−îng ®øng tr−íc mét ©m t¾c.
Trong ph¸t ©m mét ©m tiÕt víi phô ©m cuèi lµ ©m t¾c, c¬ quan cÊu ©m di chuyÓn
vµo vÞ trÝ ph¸t ©m cña phô ©m t¾c t−¬ng øng. Tuy nhiªn gièng nh− c¸c phô ©m cuèi
kh¸c trong tiÕng ViÖt, phô ©m cuèi cã ®Æc ®iÓm chung lµ kh«ng cã ®éng t¸c bu«ng
khi ph¸t ©m. Do ®ã c¬ quan ph¸t ©m chØ ®ãng l¹i mµ kh«ng ph¸t ©m ra phô ©m cuèi.
150

Trªn biÓu ®å phæ ©m ®ãng nµy ®−îc nh×n thÊy lµ sù suy gi¶m n¨ng l−îng tíi kho¶ng
tr¾ng n¨ng l−îng tõ ©m vÞ ®øng tr−íc nã.
Do kh«ng cã ®éng t¸c bu«ng khi ph¸t ©m phô ©m cuèi, ph©n biÖt gi÷a c¸c tõ cã
cïng ©m ®Çu vµ ©m gi÷a kh¸c nhau chØ lµ ©m cuèi lµ khã kh¨n cho hÖ thèng nhËn
d¹ng. VÝ dô hai tõ:
“ph¸t” -> /ph/ /a/ /tc/
“ph¸p” -> /ph/ /a/ /pc/

Do phô ©m cuèi kh«ng ®−îc ph¸t ©m do ®ã trªn biÓu ®å phæ hai phô ©m cuèi nµy
chØ lµ kho¶ng tr¾ng n¨ng l−îng. Sù kh¸c nhau cña hai tõ nµy n»m chñ yÕu ë phÇn
cuèi cña ©m vÞ /a/, khi c¬ quan cÊu ©m kÕt thóc ph¸t ©m ©m vÞ /a/ vµ di chuyÓn vµo
vÞ trÝ cÊu ©m cña hai phô ©m kh¸c nhau /tc/ vµ /pc/.
Trong tõ ®iÓn phiªn ©m ©m vÞ cña c¸c hÖ thèng tr−íc, phô ©m cuèi nh− vÝ dô hai
tõ “ph¸t” vµ “ph¸p” ë trªn ®−îc t¸ch rêi víi nguyªn ©m chÝnh ®øng tr−íc nã nh− vÝ
dô ë trªn. Mét thö nghiÖm gép nguyªn ©m chÝnh vµo cïng víi phô ©m cuèi lµ ©m t¾c
®· ®−îc thùc hiÖn. Khi ®ã hai tõ “ph¸t” vµ “ph¸p” ®−îc phiªn ©m trong tõ ®iÓn míi
nh− sau:
“ph¸t” -> /ph/ /atc/
“ph¸p” -> /ph/ /apc/

Vµ khi ®ã hai ®¬n vÞ nhËn d¹ng míi ®−îc h×nh thµnh: /atc/ vµ /apc/. Mét hÖ
thèng nhËn d¹ng ®−îc x©y dùng trªn c¬ së tõ ®iÓn míi nµy. KÕt qu¶ thu ®−îc cho
thÊy ®é chÝnh x¸c nhËn d¹ng cña hÖ thèng ®−îc t¨ng lªn nh− ®−îc miªu t¶ trong
B¶ng 7.5.
KÕt qu¶ nhËn d¹ng cho thÊy viÖc gép ©m ®ãng vµo ©m chÝnh tuy cã sù suy gi¶m
®é chÝnh x¸c nhËn d¹ng ë møc c©u, nh−ng cho ®é chÝnh x¸c nhËn d¹ng cao h¬n ë
møc tõ.
B¶ng 7.5. So s¸nh hai hÖ thèng nhËn d¹ng. HÖ thèng víi tõ ®iÓn c¸c ©m
®ãng t¸ch rêi vµ ©m ®ãng gép víi ©m chÝnh
HÖ thèng nhËn d¹ng §é chÝnh x¸c §é chÝnh x¸c
møc tõ møc c©u
C¸c ©m ®ãng t¸ch rêi 73.34 29.11
C¸c ©m ®ãng g¾n liÒn víi ©m chÝnh 73.34 28.82
151

7.3.4 Phô ©m cuèi lµ ©m mòi


Trong hÖ thèng ph¸t ©m tiÕng ViÖt cã ba phô ©m cuèi lµ ©m mòi : /m/ /n/ vµ /¯/.
C¸c ©m mòi nµy còng gièng nh− c¸c phô ©m cuèi kh¸c cña tiÕng ViÖt lµ khi ph¸t ©m
chóng, ng−êi nãi kh«ng cã ®éng t¸c bu«ng. Do vËy phô ©m mòi lµm ©m cuèi cã tÝnh
chÊt ©m häc kh¸c víi phô ©m mòi lµ ©m ®Çu. VÝ dô ©m vÞ /m/ trong tõ “ma” sÏ kh¸c
víi ©m vÞ /m/ trong tõ “am”.
Mét thö nghiÖm ®· ®−îc tiÕn hµnh trong ®ã ph©n biÖt hai ©m mòi nµy. C¸c phô
©m mòi lµm ©m ®Çu ®−îc ký hiÖu lµ /m/, /n/, /ng/, cßn phô ©m mòi dïng ®Ó lµm phô
©m cuèi ®−îc ký hiÖu lµ /mz/, /nz/, /ngz/. VÝ dô c¸c phiªn ©m mét sè tõ trong bé tõ
®iÓn míi nh− sau:
muwowi m wa i sp
muwowi m wa i sil
luoon l uo nz sp
luoon l uo nz sil
tieeng t ie ngz sp
tieeng t ie ngz sil
goom g oo mz sp
goom g oo mz sil
mua m uo sp
mua m uo sil

KÕt qu¶ nhËn d¹ng cña hÖ thèng nhËn d¹ng nh− sau:
B¶ng 7.6. HÖ thèng nhËn d¹ng víi ph©n biÖt hai lo¹i phô ©m mòi
HÖ thèng nhËn d¹ng §é chÝnh x¸c møc tõ §é chÝnh x¸c møc c©u
MFCC+CMS 73.45 31.12
PLP+CMS 75.09 31.12
So s¸nh víi B¶ng 7.5 cho thÊy bé tõ ®iÓn víi sù ph©n biÖt hai lo¹i phô ©m mòi:
phô ©m mòi lµm ©m ®Çu vµ phô ©m mòi lµm ©m cuèi cho kÕt qu¶ nhËn d¹ng tèt h¬n
tr−íc.

7.3.5 Thö nghiÖm tiÕng ®Þa ph−¬ng thæ ng÷


Trong c¬ së d÷ liÖu ®−îc sö dông trong hÖ thèng nhËn d¹ng nµy bao gåm nhiÒu
giäng nãi tõ nhiÒu ®Þa ph−¬ng kh¸c nhau, trong ®ã ®a sè lµ giäng mang thæ ng÷
Nam bé. Mét sè kh¸c cã thæ ng÷ B¾c bé vµ Trung bé. Tuy nhiªn viÖc ph©n biÖt c¸c
152

thæ ng÷ b»ng tai ng−êi còng kh«ng ph¶i lµ mét viÖc ®¬n gi¶n do giäng nãi thu ©m
qua ®iÖn tho¹i ®· bÞ biÕn ®æi nhiÒu do c¸c ®Æc ®iÓm ©m s¾c cña giäng nãi n»m ë tÇn
sè cao ®· bÞ c¾t bá trong hÖ thèng ®iÖn tho¹i. Ngoµi ra cßn yÕu tè ¶nh h−ëng cña t¹p
©m còng lµm khã ph©n biÖt giäng nãi. Ngoµi ra do ng−êi nãi ®Òu lµ ViÖt kiÒu sinh
sèng t¹i Mü, nªn b¶n th©n giäng nãi cña mét sè ng−êi còng ®· bÞ lai t¹p vµ biÕn ®æi,
vÝ dô nh− cã ng−êi nãi mang giäng B¾c bé nh−ng xen lÉn mét sè tõ mang thæ ng÷
Nam bé.
Trong c¬ së d÷ liÖu ®a sè giäng nãi lµ giäng miÒn Nam. Mét sè ®Æc ®iÓm cña
giäng miÒn Nam lµ:

− C¸c ©m cuèi /t,n/ ®−îc chuyÓn thµnh /k,¯/. VÝ dô nh− c¸c tõ: m¸t -> m¸c, mÆt -
>mÆc, lµn -> lµng.

− C¸c nguyªn ©m ®«i khi kÕt hîp víi c¸c ©m cuèi ë mét sè tr−êng hîp ®· mÊt ®i
yÕu tè thø hai vµ trë thµnh nguyªn ©m ®¬n. VÝ dô nh− kiÕp -> kÝp, tiªm -> tim,
g−¬m->g−m, chiÒu ->ch×u, h−¬u -> h−u, c−êi ->cõi.
Do c¬ së d÷ liÖu thu ©m qua ®iÖn tho¹i chÊt l−îng kh«ng cao nªn trong thö
nghiÖm nµy chØ mét sè tõ cã sù thay ®æi theo tiÕng ®Þa ph−¬ng b¶n ng÷ râ rµng ®−îc
bæ sung vµo bé tõ ®iÓn. C¸c tõ ®−îc bæ sung ®−îc thªm phÇn phiªn ©m theo tiÕng
miÒn Nam. VÝ dô:
Tõ “lu«n” ®−îc ph¸t ©m lµ tõ “lu«ng” theo tiÕng miÒn Nam , do ®ã tõ ®iÓn ph¸t
©m ®−îc ®æi nh− sau:
“lu«n” -> /l/ /uo/ /n/ ---> “lu«n” -> /l/ /uo/ /n/
“lu«n” -> /l/ /uo/ /ng/

Sau khi bæ sung thªm c¸c phiªn ©m giäng miÒn Nam, hÖ thèng nhËn d¹ng cã ®é
chÝnh x¸c nh− sau:
B¶ng 7.7. KÕt qu¶ nhËn d¹ng cña hai hÖ thèng nhËn d¹ng cã bæ sung thªm
phiªn ©m giäng miÒn Nam.
HÖ thèng nhËn d¹ng §é chÝnh x¸c møc tõ §é chÝnh x¸c møc c©u
MFCC + CMS 75.53 30.02
PLP + CMS 76.07 31.41
KÕt qu¶ nµy cho thÊy mét sù c¶i thiÖn kh¶ n¨ng nhËn d¹ng cña hÖ thèng. §iÒu
nµy cho thÊy lµ b»ng viÖc bæ sung thªm c¸c phiªn ©m mang thæ ng÷ miÒn Nam, tõ
®iÓn ph¸t ©m ®· ph¶n ¸nh chÝnh x¸c h¬n phiªm ©m ©m vÞ cña c¸c tõ vµ do vËy cho
®é chÝnh x¸c nhËn d¹ng cao h¬n.
153

7.4 C¸c thö nghiÖm kh¸c lµm t¨ng ®é chÝnh x¸c cña hÖ
thèng nhËn d¹ng

7.4.1 Thö nghiÖm ®¬n vÞ nhËn d¹ng lµ c¸c ©m ba liªn tõ


Tõ tr−íc ®Õn nay chóng ta míi chØ lµm viÖc víi c¸c ®¬n vÞ nhËn d¹ng lµ c¸c ©m
ba giíi néi tõ. Chóng cã thÓ bao gåm c¸c ©m ba víi hai ng÷ c¶nh tr¸i vµ ph¶i hai bªn
khi ©m ba n»m gi÷a mét tõ, nh−ng chóng còng cã thÓ lµ c¸c ©m ®«i (biphone) khi
chóng n»m t¹i biªn bªn tr¸i hoÆc bªn ph¶i cña mét tõ. C¸c ©m ba giíi néi tõ ®−îc
gi¶ thiÕt lµ chØ chÞu ¶nh h−ëng cña ng÷ c¶nh giíi néi trong tõ ®ã. C¸c tõ xung quanh
®−îc coi lµ kh«ng ¶nh h−ëng tíi ng÷ c¶nh cña c¸c ©m ba nµy. §iÒu nµy ®óng khi
c¸c tõ ®−îc ph¸t ©m t−¬ng ®èi rêi r¹c nhau.
Trong thùc tÕ ngay c¶ trong c¸c ph¸t ©m chËm c¸c tõ kh«ng hoµn toµn t¸ch rêi
nhau mµ chóng ®−îc ph¸t ©m nèi tiÕp nhau cïng víi qu¸ tr×nh chuyÓn ®éng liªn tôc
cña c¸c c¬ quan cÊu ©m. Trªn biÓu ®å phæ ngay c¶ víi c¸c ph¸t ©m chËm ta còng cã
thÓ thÊy ¶nh h−ëng cña phæ cña c¸c tõ ®øng c¹nh nhau. Trong H×nh 7.8 lµ ph¸t ©m
cña hai tõ “ba mét” ®−îc ph¸t ©m kh¸ chËm, chóng ta cã thÓ quan s¸t thÊy ¶nh
h−ëng cña ©m vÞ /a/ cña tõ “ba” ®Õn ©m vÞ /m/ cña tõ theo sau. Th«ng th−êng phô
©m mòi /m/ chØ lµ c¸c sãng tuÇn hoµn biªn ®é nhá, cã h×nh ¶nh phæ lµ F1 khi ®øng
®éc lËp. Tuy nhiªn trong H×nh 7.8, ©m mòi /m/ mang F2 vµ F3 mê do vÞ ¶nh h−ëng
cña F2, F3 cña ©m vÞ /a/ ®øng tr−íc trong tõ “ba”.

H×nh 7.1. H×nh ¶nh phæ cña mét ph¸t ©m chËm “ba mét”.
154

Mét hÖ thèng nhËn d¹ng ph¸t ©m liªn tôc víi bé tõ ®iÓn cã kÝch th−íc lín th−êng
xuyªn lµm viÖc víi c¸c ©m ba liªn tõ. §©y lµ c¸c ©m ba mµ sù phô thuéc ng÷ c¶nh
cña nã kh«ng phô thuéc lµ ng÷ c¶nh ®ã cã thuéc cïng mét tõ víi chóng hay kh«ng.
§¬n vÞ nhËn d¹ng kho¶ng yªn lÆng lµ sil ®−îc coi nh− mét ng÷ c¶nh ®Æc biÖt, ®¬n vÞ
nhËn d¹ng sp kh«ng ®ãng vai trß trong ¶nh h−ëng ng÷ c¶nh cña c¸c ©m ba.
Tuy nhiªn do c¸c ©m ba ®−îc h×nh thµnh bëi ba ®¬n vÞ nhËn d¹ng, do ®ã sè
l−îng c¸c tr−êng hîp cã thÓ cã sù kÕt hîp c¸c ®¬n vÞ nhËn d¹ng trong hÖ thèng nhËn
d¹ng lµ rÊt lín. NÕu ®¬n vÞ ®ã cã sè l−îng c¸c ®¬n vÞ nhËn d¹ng lµ N, th× sè l−îng
c¸c ©m ba sÏ lµ N3.
Thùc tÕ cho thÊy mét sè sù kÕt hîp cña c¸c ©m ba cã thÓ lµ kh«ng hîp lÖ vµ sè
l−îng c¸c ©m ba kh«ng bao giê ®¹t tíi con sè N3. Tuy nhiªn sè l−îng c¸c ©m ba vÉn
cßn rÊt lín. §èi víi hÖ thèng nhËn d¹ng c¸c ng«n ng÷ n−íc ngoµi, sè l−îng c¸c ©m
ba cã thÓ ®¹t tíi con sè 60 ngh×n c¸c ©m ba.
§èi víi tiÕng ViÖt, do tiÕng ViÖt cã cÊu tróc chÆt chÏ vµ tiÕng ViÖt lµ ng«n ng÷
®¬n ©m nªn sè l−îng c¸c kÕt hîp hîp lÖ cña c¸c ©m vÞ t¹o thµnh ©m ba kh«ng nhiÒu
nh− ng«n ng÷ n−íc ngoµi. §©y lµ mét trong sè nh÷ng thuËn lîi quan träng trong
viÖc x©y dùng c¸c hÖ thèng nhËn d¹ng tiÕng ViÖt.
§Ó tiÕn hµnh x¸c ®Þnh sè l−îng c¸c ©m ba trong tiÕng ViÖt, NCS tiÕn hµnh x©y
dùng mét ch−¬ng tr×nh tÝnh to¸n sè l−îng c¸c ©m ba cã thÓ cã trong tiÕng ViÖt. KÕt
qu¶ sè l−îng c¸c ©m ba ®−îc tÝnh to¸n theo ch−¬ng tr×nh nµy lµ kho¶ng 16 ngh×n ©m
ba trong tiÕng ViÖt.
Víi sè l−îng ©m ba liªn tõ lín h¬n rÊt nhiÒu so víi ©m ba giíi néi tõ cho ta thÊy
d÷ liÖu huÊn luyÖn ph¶i cã kÝch th−íc rÊt lín vµ ph¶i cã c©n b»ng d÷ liÖu ®Ó ®¶m
b¶o kh«ng cã ©m ba cã qu¸ nhiÒu d÷ liÖu huÊn luyÖn, cßn sè kh¸c th× kh«ng cã hoÆc
cã qu¸ Ýt d÷ liÖu huÊn luyÖn. Sè l−îng c¸c ©m ba cã d÷ liÖu huÊn luyÖn Ýt còng sÏ
®−îc gi¶i quyÕt b»ng ph−¬ng ph¸p buéc gièng nh− tr−êng hîp tr−íc.
§èi víi hÖ c¬ së d÷ liÖu hiÖn cã sè l−îng c¸c ©m ba thiÕu d÷ liÖu sÏ lµ rÊt lín vµ
viÖc buéc c¸c ©m ba nµy l¹i víi nhau sÏ cã thÓ khã ®em l¹i kÕt qu¶ nhËn d¹ng tèt.
Tuy nhiªn mét thö nghiÖm còng ®· ®−îc tiÕn hµnh nh»m x©y dùng mét hÖ thèng
nhËn d¹ng víi c¸c ©m ba liªn tõ.
155

HÖ thèng nhËn d¹ng víi ®¬n vÞ nhËn d¹ng c¬ b¶n lµ c¸c ©m ba liªn tõ cã thêi
gian häc l©u h¬n rÊt nhiÒu so víi hÖ thèng ®· kh¶o s¸t tõ tr−íc tíi nay. Thêi gian
nhËn d¹ng còng cao h¬n nhiÒu lÇn so víi c¸c hÖ thèng nhËn d¹ng tr−íc.
KÕt qu¶ ®é chÝnh x¸c cña hÖ thèng nhËn d¹ng lµ
B¶ng 7.9. KÕt qu¶ nhËn d¹ng cña hai hÖ thèng dïng ©m ba liªn tõ.
HÖ thèng nhËn d¹ng §é chÝnh x¸c møc tõ §é chÝnh x¸c møc c©u
MFCC + CMS 75.23 78.04
PLP + CMS 75.02 27.65
KÕt qu¶ cho thÊy hÖ thèng dïng ©m ba liªn tõ cã ®é chÝnh x¸c thÊp h¬n so víi hÖ
thèng nhËn d¹ng tr−íc. Nh− vËy cã thÓ kÕt luËn lµ víi d÷ liÖu huÊn luyÖn hiÖn cã,
víi sè l−îng tõ trong bé tõ ®iÓn lµ 528 tõ th× x©y dùng hÖ thèng nhËn d¹ng víi ©m
ba liªn tõ kh«ng ®em l¹i hiÖu qu¶.

7.4.2 Thö nghiÖm víi d÷ liÖu kiÓm tra vµ d÷ liÖu huÊn luyÖn trïng nhau

− Trong phÇn nµy mét hÖ thèng nhËn d¹ng ®−îc x©y dùng trªn toµn bé hÖ c¬ së d÷
liÖu. D÷ liÖu kiÓm tra dïng ®Ó ®¸nh gi¸ n¨ng lùc cña hÖ thèng còng chÝnh lµ d÷ liÖu
®−îc dïng ®Ó huÊn luyÖn. HÖ thèng míi nµy sÏ cho mét kÕt qu¶ nhËn d¹ng cao h¬n
rÊt nhiÒu, do c¸c d÷ liÖu dïng ®Ó kiÓm tra ®· ®−îc dïng ®Ó huÊn luyÖn tr−íc ®ã.
KÕt qu¶ nhËn d¹ng cña hÖ thèng ®−îc huÊn luyÖn víi toµn bé c¬ së d÷ lµ nh−
sau:
B¶ng 7.10. KÕt qu¶ nhËn d¹ng cña hai hÖ thèng víi d÷ liÖu huÊn luyÖn vµ d÷ liÖu
kiÓm tra trïng nhau.
HÖ thèng nhËn d¹ng §é chÝnh x¸c møc tõ §é chÝnh x¸c møc c©u
MFCC + CMS 90.65 26.97
PLP + CMS 91.49 27.38
KÕt qu¶ trªn cho chóng ta thÊy mét kÕt qu¶ nhËn d¹ng kh¸ cao møc tõ vµ møc
c©u. KÕt qu¶ nµy cho chóng ta mét tiÖm cËn trªn, mét ®é chÝnh x¸c mµ hÖ thèng
nhËn d¹ng cã thÓ thùc hiÖn ®−îc nÕu nh− nã ®−îc cung cÊp ®Çy ®ñ d÷ liÖu huÊn
luyÖn. MÆt kh¸c hÖ c¬ së d÷ liÖu ®−îc dïng ë ®©y lµ hÖ c¬ së d÷ liÖu cã chÊt l−îng
kÐm nh− ®· tr×nh bµy ë phÇn 1, do ®ã chóng ta cã thÓ thÊy mét kh¶ n¨ng cã thÓ x©y
dùng hÖ thèng nhËn d¹ng ph¸t ©m liªn tôc cã sè l−îng tõ vùng lín víi ®é chÝnh x¸c
cao h¬n nÕu chóng ta cã c¬ së d÷ liÖu víi chÊt l−îng tèt. Víi nhËn d¹ng c¸c tõ
kh«ng dÊu hÖ thèng nhËn d¹ng tiÕng ViÖt hoµn toµn cã kh¶ n¨ng ®¹t tíi ®é chÝnh
x¸c mµ c¸c hÖ thèng nhËn d¹ng c¸c ng«n ng÷ n−íc ngoµi ®· lµm ®−îc.
156

Së dÜ cã sù kh¸c biÖt lín vÒ ®é chÝnh x¸c so víi c¸c hÖ thèng tr−íc lµ do c¸c khÝa
c¶nh sau:

− C¸c giäng nãi ®−îc dïng trong tËp d÷ liÖu kiÓm tra ®· ®−îc hÖ thèng häc tr−íc
®ã. Do ®ã khi tiÕn hµnh nhËn d¹ng hÖ thèng sÏ cho kÕt qu¶ víi ®é chÝnh x¸c cao
h¬n khi ph¶i lµm viÖc víi giäng nãi ch−a ®−îc häc. Khi sè l−îng ng−êi nãi lín vµ
bao gåm c¸c giäng nãi ®Æc tr−ng bao phñ ®¹i diÖn cho c¸c giäng nãi kh¸c th× khi
tiÕn hµnh nhËn d¹ng víi giäng nãi l¹ ch−a ®−îc häc hÖ thèng vÉn cã thÓ ho¹t ®éng
cho kÕt qu¶ tèt. HÖ thèng ®−îc häc víi cµng nhiÒu giäng nãi th× kh¶ n¨ng nhËn
d¹ng cña chóng ®èi víi mét giäng nãi l¹ cµng tèt.

− C¸c tõ cã mÆt trong d÷ liÖu kiÓm tra ®Òu ®· ®−îc häc tr−íc ®ã. Víi c¸c tõ cã mÆt
trong d÷ liÖu kiÓm tra nh−ng kh«ng cã mÆt trong d÷ liÖu huÊn luyÖn, ®Ó nhËn d¹ng
chóng hÖ thèng ph¶i tiÕn hµnh tæng hîp c¸c ©m vÞ t−¬ng øng víi c¸c tõ ®ã tõ c¸c
©m vÞ ®· ®−îc häc. ViÖc tæng hîp nµy râ rµng lµ kh«ng chÝnh x¸c vµ lµ mét trong
c¸c yÕu tè lµm gi¶m ®¸ng kÓ ®é chÝnh x¸c nhËn d¹ng cña hÖ thèng.
Sè l−îng mÉu d÷ liÖu trªn mét ®¬n vÞ nhËn d¹ng t¨ng lªn ®¸ng kÓ. HÖ thèng
nhËn d¹ng víi sè l−îng tõ vùng lín lu«n lu«n ph¶i gi¶i quyÕt víi vÊn ®Ò kh«ng ®ñ
d÷ liÖu huÊn luyÖn, nhÊt lµ khi hÖ thèng lµm viÖc víi c¸c ©m ba. Ngay c¶ khi nÕu c¬
së d÷ liÖu ®−îc x©y dùng víi sù lùa chän kü cµng vÒ sù c©n b»ng ng÷ ©m th× kh¶
n¨ng thiÕu d÷ liÖu huÊn luyÖn vÉn th−êng xuyªn x¶y ra. Khi ®ã ph−¬ng ph¸p buéc
c¸c ®¬n vÞ nhËn d¹ng ®−îc thùc hiÖn nh»m kh¾c phôc hiÖn t−îng thiÕu d÷ liÖu huÊn
luyÖn. Tuy nhiªn viÖc buéc c¸c ®¬n vÞ nhËn d¹ng còng ®ång nghÜa víi viÖc kh¶ n¨ng
nhËn d¹ng cña hÖ thèng víi c¸c ®¬n vÞ nhËn d¹ng bÞ gi¶m ®i, vµ ®©y còng lµ yÕu tè
lµm gi¶m kh¶ n¨ng ho¹t ®éng cña hÖ thèng.
157

Ch−¬ng 8 ch−¬ng tr×nh øng dông

nhËn d¹ng tiÕng nãi


Trong c¸c ch−¬ng tr−íc, c¸c hÖ thèng nhËn d¹ng ®· ®−îc tr×nh bµy. TÊt c¶ c¸c
thö nghiÖm ®Òu ®−îc thùc hiÖn b»ng tay. Ch−¬ng nµy sÏ tr×nh bµy c¸c phÇn mÒm
nhËn d¹ng ®−îc lËp tr×nh trªn c¬ së c¸c hÖ thèng nhËn d¹ng ®· ®−îc tr×nh bµy trong
c¸c ch−¬ng tr−íc. C«ng viÖc ph¸t triÓn phÇn mÒm nhËn d¹ng ®ßi hái nhiÒu c«ng søc,
thêi gian, trang thiÕt bÞ, c¬ së d÷ liÖu, ... Trong khu«n khæ ®Ò tµi nghiªn cøu sinh,
chØ hai phÇn mÒm tr×nh diÔn nhá ®−îc ph¸t triÓn: ch−¬ng tr×nh nhËn d¹ng m−êi ch÷
sè tiÕng ViÖt liªn tôc ®−îc x©y dùng trªn c¬ së hÖ thèng nhËn d¹ng ®−îc tr×nh bµy
trong ch−¬ng 6 vµ ch−¬ng tr×nh nhËn d¹ng tiÕng ViÖt liªn tôc kh«ng thanh ®iÖu kÝch
th−íc trung b×nh x©y dùng trªn c¬ së hÖ thèng nhËn d¹ng ®−îc tr×nh bµy trong
Ch−¬ng 7. C¶ hai ch−¬ng tr×nh nµy ®Òu ho¹t ®éng d−íi d¹ng kh«ng trùc tiÕp (off-
line). Hai ch−¬ng tr×nh nµy ®−îc miªu t¶ chi tiÕt trong phÇn 1 vµ phÇn 2 cña ch−¬ng.
PhÇn cuèi cña ch−¬ng giíi thiÖu mét ch−¬ng tr×nh nhá, nhËn d¹ng m−êi ch÷ sè
tiÕng ViÖt ho¹t ®éng trùc tiÕp (on line) víi sù tham gia cña phÇn cøng vµ phÇn mÒm
cña h·ng Dialogic. Ch−¬ng tr×nh nµy ®· ®−îc NCS ph¸t triÓn cïng kü s− Vò TÊt
Th¾ng, Phßng NhËn d¹ng vµ Xö lý tri thøc, ViÖn C«ng nghÖ th«ng tin. Ch−¬ng
tr×nh ®· ®−îc giíi thiÖu trong khu«n khæ ®Ò tµi cÊp nhµ n−íc t¹i ViÖn C«ng nghÖ
th«ng tin.

8.1 Ch−¬ng tr×nh tr×nh diÔn nhËn d¹ng tiÕng nãi liªn tôc

8.1.1 Ch−¬ng tr×nh tr×nh diÔn nhËn d¹ng m−êi ch÷ sè tiÕng ViÖt liªn tôc
Ch−¬ng tr×nh nhËn d¹ng m−êi ch÷ sè tiÕng ViÖt liªn tôc ®−îc viÕt b»ng ng«n ng÷
Visual C++ 6.0 trªn hÖ ®iÒu hµnh Windows. PhÇn x©y dùng vµ chuÈn bÞ d÷ liÖu ®−îc
tiÕn hµnh gi¸n tiÕp off-line bao gåm:

− C¬ së d÷ liÖu. TËp d÷ liÖu huÊn luyÖn cao gåm 445 c©u, 2345 tõ, do 213 ng−êi
nãi (135 nam, 78 n÷). TËp d÷ liÖu ph¸t triÓn cã 75 c©u, 342 tõ do 38 ng−êi nãi(27
nam, 11 n÷) , tËp d÷ liÖu kiÓm tra cã 69 c©u, 317 tõ do 47 ng−êi nãi (34 nam, 13
158

n÷). Ng−êi dïng cã thÓ chän mét trong c¸c c©u trong tËp d÷ liÖu kiÓm tra ®Ó hÖ
thèng nhËn d¹ng hoÆc chän mét tÖp ©m thanh do hä ®· thu ©m tr−íc.

− TËp c¸c tÖp cÊu h×nh cña hÖ thèng nhËn d¹ng vµ quan träng nhÊt lµ tÖp chøa
®ùng c¸c träng sè cña m¹ng neuron vµ m« h×nh Markov.
Ch−¬ng tr×nh nhËn d¹ng ®−îc x©y dùng dùa trªn hÖ thèng nhËn d¹ng cã ®é
chÝnh x¸c 97,46% ë møc tõ vµ 90.41% ë møc c©u ®−îc tr×nh bµy ë Ch−¬ng 6. HÖ
thèng cã ®Æc ®iÓm sau:

− Dïng ph−¬ng ph¸p trÝch trän ®Æc ®iÓm PLP. Vector ®Æc tÝnh phæ bao gåm 12 hÖ
sè PLP, gi¸ n¨ng l−îng vµ 13 gi¸ trÞ delta cña c¸c gi¸ trÞ trªn. Ph−¬ng ph¸p xö lý
CMS ®−îc dïng ®Ó läc bá nhiÔu.

− Sè l−îng category ®èi víi c¸c ©m vÞ nguyªn ©m lµ ba category.

− Tû lÖ phÇn tr¨m gi¸ trÞ ®é dµi nhá nhÊt cña ©m vÞ lµ 5%.

− ¢m ®ãng /tc/, /chc/ ®−îc bæ sung vµo trong tõ ®iÓn trong c¸c tõ “t¸m”, “chÝn”.
B¾t ®Çu

Chän mét c©u


trong tËp d÷ liÖu
kiÓm tra

Ph¸t ©m c©u nµy

NhËn d¹ng vµ
tr×nh bµy kÕt qu¶

Cã TiÕp tôc

Kh«ng

KÕt thóc

H×nh 8.1. S¬ ®å khèi cña ch−¬ng tr×nh


159

Ho¹t ®éng cña ch−¬ng tr×nh ®−îc miªu t¶ b»ng H×nh 8.1. H×nh 8.2 sau ®©y miªu
t¶ giao diÖn cña ch−¬ng tr×nh ch¹y trªn hÖ ®iÒu hµnh Windows 2000.

H×nh 8.2. Giao diÖn ch−¬ng tr×nh tr×nh diÔn nhËn d¹ng ch÷ sè tiÕng ViÖt liªn tôc.

8.1.2 Ch−¬ng tr×nh nhËn d¹ng tiÕng ViÖt liªn tôc kÝch th−íc trung b×nh
Ch−¬ng tr×nh nhËn d¹ng tiÕng ViÖt liªn tôc cã kÝch th−íc trung b×nh ®−îc viÕt
b»ng ng«n ng÷ Visual C++ 6.0 trªn hÖ ®iÒu hµnh Windows. PhÇn x©y dùng vµ chuÈn
bÞ d÷ liÖu ®−îc tiÕn hµnh gi¸n tiÕp off-line nhê bé c«ng cô HTK.
KÕt qu¶ nghiªn cøu c¸c hÖ thèng nhËn d¹ng tr×nh bµy ë Ch−¬ng 7 ®−îc dïng
trong ch−¬ng tr×nh nµy. HÖ thèng nhËn d¹ng cña ch−¬ng tr×nh lµ hÖ thèng cã ®é
chÝnh x¸c 76,07% ë møc tõ vµ 31.41% ë møc c©u ®· ®−îc tr×nh bµy ë Ch−¬ng 7
bao gåm c¸c ®Æc ®iÓm sau ®©y:
160

− C¬ së d÷ liÖu. cã kÝch th−íc 11 784 tõ, 1516 c©u do 212 ng−êi nãi (132 nam, 80
n÷).

− Dïng ph−¬ng ph¸p trÝch trän ®Æc ®iÓm PLP. Vector ®Æc tÝnh phæ bao gåm 12 hÖ
sè PLP, gi¸ n¨ng l−îng vµ 13 gi¸ trÞ delta cña c¸c gi¸ trÞ trªn. Ph−¬ng ph¸p xö lý
CMS ®−îc dïng ®Ó läc bá nhiÔu.

− Tõ ®iÓn bao gåm 528 tõ. ¢m vÞ sil cã tham gia vµo tõ ®iÓn. C¸c ©m ®ãng ®−îc
g¾n liÒn víi ©m chÝnh. Tõ ®iÓn cã bæ xung phiªm ©m giäng miÒn Nam.

− Sè l−îng hµm Gaussian trong hµm trén lµ 8 hµm.

− ¢m cuèi lµ phô ©m mòi ®−îc ph©n biÖt víi phô ©m mòi ®øng lµm ©m ®Çu.

− M« h×nh ng«n ng÷ bigram ®−îc sö dông trong bé tõ ®iÓn.


Nguyªn t¾c ho¹t ®éng cña ch−¬ng tr×nh t−¬ng tù nh− ®· tr×nh bµy trong ch−¬ng
tr×nh tr−íc. Ng−êi dïng chän mét c©u trong sè c¸c ph¸t ©m ®· ®−îc ghi ©m s½n
trong tÖp .wav, ch−¬ng tr×nh sÏ nhËn d¹ng vµ hiÓn thÞ kÕt qu¶. Kh¸c víi ch−¬ng tr×nh
tr−íc, phÇn hiÓn thÞ kÕt qu¶ chØ giíi h¹n lµ c¸c tõ kh«ng dÊu.
H×nh 8.3 miªu t¶ giao diÖn cña ch−¬ng tr×nh ch¹y trªn hÖ ®iÒu hµnh Windows
2000.

8.2 Ch−¬ng tr×nh øng dông th«ng tin qua m¹ng ®iÖn tho¹i

8.2.1 Giíi thiÖu


Mét trong nh÷ng lÜnh vùc mµ c«ng nghÖ nhËn d¹ng tiÕng nãi ®−îc ®−a vµo øng
dông ®Çu tiªn ®ã lµ viÔn th«ng. Ngµy nay víi sù ph¸t triÓn cña c«ng nghÖ th«ng tin
c¸c trung t©m xö lý cuéc gäi (call center) ®· ngµy cµng ®−îc sö dông réng r·i th×
nhËn d¹ng tiÕng nãi ®−îc dïng nh− mét c«ng cô dïng ®Ó giao tiÕp víi ng−êi gäi.
C¸c trung t©m xö lý cuéc gäi tiÕp nhËn c¸c cuéc gäi, nhËn c¸c yªu cÇu cña kh¸ch
hµng vµ ®¸p øng c¸c yªu cÇu ®ã, nã ®ãng vai trß thay cho c¸c nh©n viªn thao t¸c
(operator) víi kh¶ n¨ng xö lý nhanh h¬n, cïng mét lóc phôc vô cho nhiÒu kh¸ch
hµng.
Mét trong c¸c bµi to¸n ®−îc øng dông réng r·i lµ hÖ thèng nhËn d¹ng m−êi ch÷
sè ph¸t ©m liªn tôc. Bµi to¸n nµy ®−îc ¸p dông ®Ó nhËn d¹ng c¸c c©u gåm c¸c ch÷
sè nh−: sè tµi kho¶n, sè thÎ b¶o hiÓm, sè thÎ tÝn dông, ... PhÇn sau ®©y sÏ tr×nh bµy
161

mét ch−¬ng tr×nh øng dông th«ng tin ng©n hµng ¸p dông ch−¬ng tr×nh nhËn d¹ng
m−êi ch÷ sè tiÕng ViÖt liªn tôc.

H×nh 8.3. Giao diÖn ch−¬ng tr×nh tr×nh diÔn nhËn d¹ng tiÕng ViÖt liªn tôc
kh«ng thanh ®iÖu kÝch th−íc trung b×nh

8.2.2 S¬ ®å khèi
Mét kÞch b¶n cã thÓ x¶y ra víi ch−¬ng tr×nh øng dông nµy nh− sau: Ng−êi dïng
gäi ®iÖn tho¹i tíi trung t©m cuéc gäi (call center), thùc chÊt ®©y lµ mét m¸y chñ
server cã chøa card xö lý tiÕng nãi cña h·ng Dialogic. M¸y chñ sÏ yªu cÇu ng−êi
dïng ®äc sè tµi kho¶n cña hä bao gåm c¸c ch÷ sè tõ kh«ng tíi chÝn. Sau khi nghe
yªu cÇu cña m¸y chñ, ng−êi dïng sÏ ®äc sè tµi kho¶n bao gåm kho¶ng 6 ®Õn 9 ch÷
sè. Sau ®ã m¸y chñ tiÕp tôc yªu cÇu ng−êi dïng ®äc m· kh¸ch hµng, lµ mét con sè
cã thÓ bao gåm bèn ch÷ sè.
162

Ng−êi dïng gäi ®iÖn


tho¹i tíi trung t©m
cuéc gäi

“Mêi b¹n ®äc sè


tµi kho¶n”

Ng−êi dïng ®äc sè


tµi kho¶n
“Mêi b¹n ®äc m·
kh¸ch hµng”

Ng−êi dïng ®äc


m· kh¸ch hµng
T×m kiÕm
Kh«ng C¬ së d÷ liÖu
t×m thÊy T×m thÊy

§äc th«ng tin vÒ


tµi kho¶n cña
kh¸ch hµng

“Mêi b¹n chän m·


dÞch vô ”
Ng−êi dïng ®äc
m· dÞch vô

DÞch vô 1 DÞch vô 2 DÞch vô n

“Cã”
TiÕp tôc

“Kh«ng”

KÕt thóc
H×nh 8.4. S¬ ®å chøc n¨ng cña ch−¬ng tr×nh
163

Sau khi ®· nhËn ®−îc ®ñ hai th«ng tin: sè tµi kho¶n vµ m· kh¸ch hµng, ch−¬ng
tr×nh sÏ t×m kiÕm trong c¬ së d÷ liÖu tµi kho¶n cña kh¸ch hµng. NÕu kh«ng t×m thÊy,
cã nghÜa lµ sè tµi kho¶n hoÆc m· kh¸ch hµng bÞ ®äc sai hoÆc nhËn d¹ng nhÇm,
ch−¬ng tr×nh sÏ yªu cÇu kh¸ch hµng ®äc l¹i. Cßn nÕu t×m thÊy, ch−¬ng tr×nh sÏ ®äc
c¸c th«ng tin vÒ tµi kho¶n cña kh¸ch hµng nh−: tªn cña chñ tµi kho¶n, sè d− tµi
kho¶n hiÖn thêi, ...
TiÕp theo kh¸ch hµng cã thÓ chän mét trong c¸c dÞch vô tiÕp theo b»ng c¸ch ®äc
m· dÞch vô t−¬ng øng víi c¸c dÞch vô, ch¼ng h¹n nh− ®äc m· sè 1 ®Ó biÕt sè lÇn
chuyÓn tiÒn gÇn nhÊt tíi tµi kho¶n, ®äc m· 2 ®Ó biÕt nh÷ng lÇn rót tiÒn gÇn nhÊt, ...
Nh− vËy hÖ thèng nhËn d¹ng m−êi ch÷ sè tiÕng ViÖt liªn tôc cã thÓ ®−îc øng
dông trong mét trung t©m dÞch vô ng©n hµng. Nã cã thÓ ®−îc cµi ®Æt trªn mét m¸y
chñ cã trang bÞ c¸c thiÕt bÞ xö lý cuéc gäi nh− card Dialogic. Khi ®−îc tÝch hîp vµo
hÖ thèng phÇn mÒm, nã ®ãng vai trß giao tiÕp víi kh¸ch hµng, nhËn c¸c th«ng tin tõ
phÝa kh¸ch hµng d−íi d¹ng c¸c con sè liªn tôc, nhËn d¹ng chóng vµ göi kÕt qu¶ nhËn
d¹ng cho c¸c module kh¸c. Nh÷ng øng dông t−¬ng tù hoµn toµn cã thÓ ®−îc x©y
dùng nh− hÖ thèng th«ng b¸o ®iÓm thi ®¹i häc, hÖ thèng tra cøu danh b¹ ®iÖn tho¹i,
...

H×nh 8.5. Giao diÖn ch−¬ng tr×nh th«ng tin ng©n hµng sö dông c«ng nghÖ nhËn d¹ng tiÕng nãi
H×nh 8.4 miªu t¶ s¬ ®å khèi chøc n¨ng cña ch−¬ng tr×nh. H×nh 8.5 lµ giao diÖn
cña ch−¬ng tr×nh ch¹y trªn hÖ ®iÒu hµnh Windows 2000.
164

KÕt luËn
Trong thêi gian thùc hiÖn ®Ò tµi nghiªn cøu sinh, NCS ®· thùc hiÖn c¸c c«ng
viÖc sau:
Nguyªn cøu lý thuyÕt
C¸c vÊn ®Ò lý thuyÕt sau ®©y ®· ®−îc nghiªn cøu:
1) Lý thuyÕt chung vÒ nhËn d¹ng tiÕng nãi. Nguyªn t¾c chung cña hÖ thèng nhËn
d¹ng tiÕng nãi, lý thuyÕt vÒ c¸c ph−¬ng ph¸p trÝch trän ®Æc tÝnh phæ cña tiÕng nãi.
Lý thuyÕt vÒ m« h×nh ng«n ng÷ vµ ph−¬ng ph¸p gi¶i m·, t×m kiÕm trong nhËn d¹ng
tiÕng nãi.
2) M« h×nh Markov Èn. XÝch Markov vµ liªn hÖ cña nã víi m« h×nh Markov Èn.
C¸c bµi to¸n c¬ b¶n cña m« h×nh Markov Èn, c¸c gi¶i ph¸p cho ba bµi to¸n nµy còng
nh− ph−¬ng ph¸p chøng minh c¸c c«ng thøc cña c¸c bµi to¸n nµy.
3) M¹ng ANN vµ hÖ thèng nhËn d¹ng lai ghÐp HMM/ANN. Lý thuyÕt vÒ m¹ng
ANN vµ ®Æc biÖt lµ m¹ng Perceptron ®a líp MLP. Ph−¬ng ph¸p nhËn d¹ng tiÕng nãi
b»ng m¹ng lai ghÐp HMM/ANN, nguyªn t¾c ho¹t ®éng, ph−¬ng ph¸p huÊn luyÖn vµ
nhËn d¹ng.
4) Ng«n ng÷ tiÕng ViÖt, hÖ thèng ©m vÞ tiÕng ViÖt, ph−¬ng ph¸p ph¸t ©m, c¸c
®Æc ®iÓm riªng biÖt cña tiÕng ViÖt. Ph−¬ng ph¸p x©y dùng c¬ së d÷ liÖu tiÕng nãi
tiÕng ViÖt.
5) Nghiªn cøu c¸c hÖ thèng nhËn d¹ng theo c¸c ph−¬ng ph¸p CSLU vµ HTK
th«ng qua c¸c bé c«ng cô. Qua nghiªn cøu x©y dùng hÖ thèng nhËn d¹ng
HMM/ANN cña CSLU vµ hÖ thèng nhËn d¹ng CD-HMM cña HTK cña mét sè ®Æc
®iÓm cña hai ph−¬ng ph¸p nµy ®−îc tæng kÕt vµ so s¸nh trong phÇn Phô lôc B.
C¸c c«ng viÖc ®· thùc hiÖn
1) Nghiªn cøu ph−¬ng ph¸p g¸n nh·n c¬ së d÷ liÖu. G¸n nh·n lµ mét kh©u quan
träng trong x©y dùng c¬ së d÷ liÖu. LuËn ¸n trªn c¬ së tµi liÖu h−íng dÉn g¸n nh·n
b»ng tiÕng Anh, c¸c ®Æc ®iÓm ng«n ng÷ tiÕng ViÖt, kinh nghiÖm thùc tÕ khi tiÕn
hµnh g¸n nh·n c¸c ©m tiÕt tiÕng ViÖt, NCS ®· tr×nh bµy mét c¸ch hÖ thèng ph−¬ng
ph¸p g¸n nh·n tiÕng ViÖt b»ng tay trªn c¬ së ®äc biÓu ®å phæ vµ biÓu ®å sãng cña
ph¸t ©m.
165

Trªn c¬ së nghiªn cøu vÒ tù ®éng mét sè kh©u trong qu¸ tr×nh g¸n nh·n cña t¸c
gi¶ trong n−íc, luËn ¸n ®· ®Ò xuÊt mét ph−¬ng ph¸p g¸n nh·n hoµn toµn tù ®éng
mét c¬ së d÷ liÖu. Ph−¬ng ph¸p nµy cho phÐp hoµn toµn tù ®éng g¸n nh·n c¸c ©m vÞ
c¸c ph¸t ©m trong mét c¬ së d÷ liÖu. C¸c thö nghiÖm ®· chøng minh r»ng hÖ thèng
g¸n nh·n c¸c ©m vÞ dïng 8 Gaussian sÏ cho kÕt qu¶ g¸n nh·n cao h¬n so víi hÖ
thèng dïng mét hµm Gaussian. Hai hÖ thèng nhËn d¹ng ®−îc x©y dùng dùa trªn c¸c
nh·n t¹o b»ng tay vµ c¸c nh·n t¹o tù ®éng ®−îc x©y dùng ®Ó kiÓm nghiÖm ®é chÝnh
x¸c cña g¸n nh·n, kÕt qu¶ cho thÊy ®é chÝnh x¸c nhËn d¹ng cña hai hÖ thèng kh«ng
kh¸c nhau nhiÒu vµ do vËy ®é chÝnh x¸c cña g¸n nh·n lµ cã thÓ chÊp nhËn ®−îc.
LuËn ¸n ®Ò xuÊt mét ph−¬ng ph¸p phien ©m chÝnh t¶ c¸c ph¸t ©m tiÕng ViÖt vµ
mét b¶ng ký hiÖu ©m vÞ tiÕng ViÖt dïng trong g¸n nh·n c¬ së d÷ liÖu tiÕng ViÖt.
Ph−¬ng ph¸p nµy dùa trªn c¸ch gâ Telex th«ng dông ®Ó ghi l¹i c¸c ©m vÞ tiÕng ViÖt
dïng b¶ng m· ASCII.
2) X©y dùng c¸c c¬ së d÷ liÖu tiÕng nãi tiÕng ViÖt. C¸c c¬ së d÷ liÖu tiÕng nãi
nµy ®Òu ®−îc trÝch ra tõ hai c¬ së d÷ liÖu tiÕng nãi ®iÖn tho¹i “22 Language v1.2”,
vµ “Multi-Language Telephone Speech v1.2” cña trung t©m CSLU (Center for
Speech Language Understanding), ViÖn Sau §¹i häc Oregon, Hoa kú

− C¬ së d÷ liÖu gåm m−êi ch÷ sè tiÕng ViÖt bao gåm 445 c©u, 2345 tõ, bao gåm
213 ng−êi nãi (135 nam, 78 n÷). TÊt c¶ c¸c ph¸t ©m trong c¬ së d÷ liÖu ®Òu ®−îc
phiªn ©m chÝnh t¶ vµ g¸n nh·n b»ng tay.

− X©y dùng c¬ së d÷ liÖu víi bé tõ ®iÓn kÝch th−íc trung b×nh (538 tõ). C¬ së d÷
liÖu bao gåm 11 784 tõ, 1516 c©u do 212 ng−êi nãi (132 nam, 80 n÷). C¸c c©u ®Òu
®−îc phiªn ©m chÝnh t¶.
3) Nghiªn cøu x©y dùng hÖ thèng nhËn d¹ng m−êi ch÷ sè tiÕng ViÖt liªn tôc
dïng hÖ thèng nhËn d¹ng HMM/ANN cña CSLU. HÖ thèng sö dông c¬ së d÷ liÖu
m−êi ch÷ sè, dïng ®¬n vÞ nhËn d¹ng c¬ b¶n lµ ©m vÞ phô thuéc ng÷ c¶nh.
Nghiªn cøu n©ng cao kh¶ n¨ng nhËn d¹ng cña hÖ thèng. C¸c thö nghiÖm ®· ®−îc
tiÕn hµnh ®Ó so s¸nh ®é chÝnh x¸c nhËn d¹ng cña c¸c hÖ thèng nhËn d¹ng kh¸c
nhau:

− X¸c ®Þnh sè l−îng c¸c category cña c¸c nguyªn ©m. Mét nguyªn ©m ®−îc chia
thµnh ba category cho hÖ thèng nhËn d¹ng kh¶ n¨ng nhËn d¹ng tèt h¬n
166

− ¢m ®ãng /tc/, /chc/ bæ sung vµo phiªn ©m c¸c tõ “t¸m”, “chÝn” cho kÕt qu¶ nhËn
d¹ng cao h¬n

− X¸c ®Þnh ®é dµi tèi thiÓu cña ®¬n vÞ nhËn d¹ng. Gi¸ trÞ tèi thiÓu ®−îc x¸c ®Þnh lµ
gi¸ trÞ cña 2% category cã ®é dµi thÊp nhÊt trong tÊt c¶ lÇn xuÊt hiÖn cña category
®ã trong tËp d÷ liÖu huÊn luyÖn.

− C¸c ph−¬ng ph¸p trÝch trän ®Æc tÝnh ®−îc thö nghiÖm vµ ph−¬ng ph¸p trÝch trän
®Æc tÝnh PLP víi 12 hÖ sè PLP, n¨ng l−în vµ gi¸ trÞ delta cña chóng ®em l¹i kÕt qu¶
nhËn d¹ng tèt nhÊt khi kÕt hîp víi kü thuËt xö lý CMS.
KÕt qu¶ hÖ thèng nhËn d¹ng m−êi ch÷ sè liªn tôc tiÕng ViÖt tèt nhÊt dïng m¹ng
HMM/ANN lµ 97.14% ®é chÝnh x¸c ë møc tõ vµ 90.41% ë møc c©u.
4) Nghiªn cøu x©y dùng hÖ thèng nhËn d¹ng tiÕng ViÖt liªn tôc kh«ng thanh ®iÖu
kÝch th−íc trung b×nh dïng ph−¬ng ph¸p nhËn d¹ng CD-HMM cña HTK.
§Ó x©y dùng tõ ®iÓn cho hÖ thèng nhËn d¹ng mét ch−¬ng tr×nh ph©n tÝch mét ©m
tiÕt thµnh c¸c ©m vÞ t−¬ng øng trong tiÕng ViÖt ®· ®−îc ph¸t triÓn b»ng ng«n ng÷
Visual C++. Mét hÖ thèng nhËn d¹ng sö dông c¬ së d÷ liÖu víi tõ ®iÓn gåm 528
tõ ®· ®−îc x©y dùng, hÖ thèng dïng m« h×nh CD-HMM, víi ®¬n vÞ nhËn d¹ng c¬
b¶n lµ ©m vÞ phô thuéc ng÷ c¶nh, m« h×nh ng«n ng÷ bigram ®−îc sö dông.
C¸c nghiªn cøu n©ng cao ®é chÝnh x¸c ®−îc cña hÖ thèng ®−îc tiÕn hµnh. C¸c
thö nghiÖm sau ®©y ®· ®−îc tiÕn hµnh ®Ó n©ng cao ®é chÝnh x¸c nhËn d¹ng:

− X©y dùng hÖ thèng nhËn d¹ng víi nhiÒu hµm Gaussian. HÖ thèng nhËn d¹ng cho
kÕt qu¶ cao h¬n rÊt nhiÒu so víi hÖ thèng dïng mét hµm Gaussian.

− Bæ sung ©m vÞ sil vµo cuèi phiªn ©m mçi tõ trong tõ ®iÓn, hÖ thèng nhËn d¹ng
cho kÕt qu¶ cao h¬n.

− X©y dùng bé tõ ®iÓn phiªn ©m ©m vÞ, trong ®ã c¸c ©m ®ãng ®−îc g¾n liÒn víi
c¸c ©m chÝnh ®øng tr−íc ®ã, c¸ch lµm nµy cho kÕt qu¶ nhËn d¹ng tèt h¬n tr−íc.

− X©y dùng bé tõ ®iÓn phiªn ©m ©m vÞ, trong ®ã c¸c phô ©m mòi ®−îc t¸ch lµm hai
lo¹i: phô ©m mòi lµm ©m ®Çu vµ phô ©m mòi lµm ©m cuèi. KÕt qu¶ nhËn d¹ng tèt
h¬n cho thÊy viÖc t¸ch ©m mòi nµy n©ng cao ®−îc ®é chÝnh x¸c nhËn d¹ng.
167

− Bæ sung thªm tiÕng ®Þa ph−¬ng thæ ng÷ vµo trong bé tõ ®iÓn. C¸c phiªn ©m theo
giäng miÒn Nam mét sè tõ ®· ®−îc bæ sung vµo tõ ®iÓn vµ kÕt qu¶ nhËn d¹ng ®·
cao h¬n so víi tr−íc.
C¸c thö nghiÖm kh¸c nh»m t¨ng c−êng ®é chÝnh x¸c nhËn d¹ng.

− Thö nghiÖm víi c¸c ©m ba liªn tõ. Thö nghiÖm víi ©m ba liªn tõ ®· kh«ng ®−a ra
®−îc ®é chÝnh x¸c cao h¬n. Lý do chñ yÕu lµ do sè l−îng ®¬n vÞ ®−îc qu¸ lín vµ d÷
liÖu dïng ®Ó nhËn d¹ng kh«ng ®ñ ®Ó huÊn luyÖn cho c¸c ©m ba.

− Thö nghiÖm víi d÷ liÖu huÊn luyÖn vµ d÷ liÖu kiÓm tra trïng nhau. Toµn bé d÷
liÖu trong c¬ së d÷ liÖu ®−îc dïng ®Ó huÊn luyÖn hÖ thèng vµ chÝnh tËp d÷ liÖu nµy
®−îc dïng ®Ó kiÓm tra ®é chÝnh x¸c nhËn d¹ng. KÕt qu¶ thö nghiÖm cho ®é chÝnh
x¸c lµ 91.49%. KÕt qu¶ cho ta thÊy mét giíi h¹n trªn mét con sè ®Ó hÖ thèng nhËn
d¹ng tiÕp cËn ®Õn. §ång thêi nã còng cho thÊy nÕu cã c¬ së d÷ liÖu ®Çy ®ñ vµ chÊt
l−îng tèt, b»ng ph−¬ng ph¸p nh− ®· tr×nh bµy, kh¶ n¨ng x©y dùng mét hÖ thèng
nhËn d¹ng víi ®é chÝnh x¸c cao lµ hoµn toµn cã thÓ.
C¸c kiÕn nghÞ vµ h−íng nghiªn cøu tiÕp theo
1) X©y dùng mét c¬ së d÷ liÖu tiÕng ViÖt
Cho ®Õn hiÖn nay ch−a cã mét c¬ së d÷ liÖu tiÕng ViÖt nµo ®Çy ®ñ vµ chÊt l−îng
tèt. ViÖc x©y dùng mét c¬ së d÷ liÖu tiÕng nãi tèt ®ang trë thµnh mét nhu cÇu cÊp
thiÕt ®Ó thóc ®Èy c«ng viÖc nghiªn cøu nhËn d¹ng tiÕng ViÖt. C¬ së d÷ liÖu cÇn ph¶i
®−îc x©y dùng víi tiªu chuÈn cao, trªn c¬ së ®ã viÖc nghiªn cøu nhËn d¹ng míi ®em
l¹i kÕt qu¶ tèt. C¸c tiªu chÝ ®Ó x©y dùng c¬ së d÷ liÖu nµy xin ®−îc ®Ò nghÞ nh− sau:

− C¬ së d÷ liÖu bao gåm nhiÒu giäng nãi cña nhiÒu ng−êi kh¸c nhau, sè ng−êi nãi
cã thÓ lµ tõ 200-300 ng−êi. Ng−êi nãi cã giäng cña c¸c miÒn kh¸c nhau B¾c, Trung
, Nam.

− Sè l−îng tõ trong bé tõ ®iÓn ph¶i lín, cã thÓ bao gåm tÊt c¶ c¸c ©m tiÕt tiÕng
ViÖt. C¬ së d÷ liÖu cÇn thiÕt ph¶i bao phñ ®−îc vÒ mÆt ng÷ nghÜa, có ph¸p, ng«n
®iÖu cµng nhiÒu cµng tèt.

− C¬ së d÷ liÖu bao gåm c¸c c©u ph¸t ©m liªn tôc ®−îc thu ©m trong phßng thÝ
nghiÖm víi chÊt l−îng thu ©m cao tõ tÇn sè 16kHz/s, lÊy mÉu 16 bit trë lªn.
168

− C¬ së d÷ liÖu ph¶i bao gåm hai tËp d÷ liÖu: tËp d÷ liÖu huÊn luyÖn vµ tËp d÷ liÖu
kiÓm tra. TËp d÷ liÖu huÊn luyÖn ph¶i chøa ®−îc hÕt c¸c tõ trong bé tõ ®iÓn. TËp d÷
liÖu kiÓm tra ph¶i chøa c¸c giäng nãi kh«ng cã trong tËp d÷ liÖu huÊn luyÖn.

− C¸c c©u trong c¬ së d÷ liÖu ph¶i ®¶m b¶o sù c©n b»ng ng÷ ©m. Cã nghÜa lµ ng÷
c¶nh cña c¸c ©m vÞ cµng c©n b»ng víi nhau cµng nhiÒu cµng tèt.

− Ph−¬ng ph¸p ph¸t ©m cña ng−êi nãi lµ ng−êi nãi ®äc s½n theo v¨n b¶n ®· chuÈn
bÞ tr−íc.
2) Nghiªn cøu nhËn d¹ng thanh ®iÖu tiÕng ViÖt
Trªn thÕ giíi sè l−îng c¸c ng«n ng÷ cã thanh ®iÖu kh«ng nhiÒu: tiÕng H¸n, tiÕng
Qu¶ng ®«ng, tiÕng ViÖt, tiÕng Th¸i, tiÕng NhËt, ...C¸c nghiªn cøu vÒ thanh ®iÖu víi
c¸c ng«n ng÷ n−íc ngoµi nh− tiÕng Anh, tiÕng Ph¸p lµ rÊt Ýt. Nghiªn cøu vÒ nhËn
d¹ng thanh ®iÖu chñ yÕu do c¸c t¸c gi¶ Trung quèc tiÕn hµnh, nh−ng rÊt Ýt c¸c bµi
b¸o vÒ vÊn ®Ò nµy. HÖ thèng nhËn d¹ng tiÕng ViÖt bao gåm hai qu¸ tr×nh song song:
nhËn d¹ng c¸c tõ kh«ng thanh ®iÖu vµ nhËn d¹ng thanh ®iÖu. §Ó x©y dùng hÖ thèng
nhËn d¹ng tiÕng ViÖt hoµn chØnh, nhÊt thiÕt ph¶i tiÕn hµnh nghiªn cøu nhËn d¹ng
thanh ®iÖu tiÕng ViÖt. §©y lµ mét bµi to¸n khã vµ míi chØ cã mét bµi b¸o vÒ nhËn
d¹ng thanh ®iÖu tõ rêi r¹c ®−îc thùc hiÖn [C−êng]. NhiÒu vÊn ®Ò nghiªn cøu cßn ë
phÝa tr−íc víi nhËn d¹ng thanh ®iÖu.
3) X©y dùng hÖ thèng nhËn d¹ng tiÕng ViÖt víi kÝch th−íc lín.
Cho tíi thêi ®iÓm hiÖn nay, ch−a cã hÖ thèng nhËn d¹ng tiÕng ViÖt nµo víi kÝch
th−íc lín ®−îc c«ng bè. §©y còng lµ mét ®Ých mµ c¸c hÖ thèng nhËn d¹ng tiÕng
ViÖt cÇn ph¶i v−¬n tíi. Trªn c¬ së d÷ liÖu tiÕng ViÖt tèt, bµi to¸n nhËn d¹ng thanh
®iÖu tiÕng ViÖt ®−îc gi¶i quyÕt th× c«ng viÖc x©y dùng hÖ thèng nhËn d¹ng tiÕng
ViÖt cã kÝch th−íc lín cã ®ñ ®iÒu kiÖn ®−îc x©y dùng vµ ®©y còng lµ −íc m¬ cña
nh÷ng ng−êi nghiªn cøu nhËn d¹ng tiÕng ViÖt.
169

Danh môc c«ng tr×nh cña t¸c gi¶ vµ ®ång sù


[1] §Æng Ngäc §øc, L−¬ng Chi Mai (2003), “NhËn d¹ng tõ cã thanh ®iÖu kh¸c nhau
trong tiÕng ViÖt”. T¹p chÝ TÝnh to¸n vµ §iÒu khiÓn, 01/2002, TËp 19, sè 2, 2003, tr.
131-138.
[2] §Æng Ngäc §øc, L−¬ng Chi Mai. Mét sè thö nghiÖm nhËn d¹ng tiÕng nãi tiÕng
ViÖt. Héi th¶o Quèc gia vÒ C«ng nghÖ th«ng tin lÇn thø 5, Mét sè vÊn ®Ò chän läc
cña C«ng nghÖ th«ng tin, Nha Trang, 5-7 th¸ng 6 n¨m 2002.
[3] Luong Chi Mai, Ngo Hoang Huy, Dang Ngoc Duc, Nguyen Duc Dung, Bach
Hung Khang (Sep 2002), Development of Automatic Data Entry Systems with
Pattern Recognition Techniques, Proc. of International Symposium on Knowledge
Creation in Economic, Environmental and Societal Systems (Japan Advanced
Institute of Science and Technology). Sep.30 – Oct. 1, 2002, pp. 72-78.
[4] Dang Ngoc Duc, Luong Chi Mai (Nov 2002). Speech recognition system for
Vietnamese continuous digits over telephone line. Proc of 28th AIC conference,
Phillipin 11-2002, pp 538-545.

[5] §Æng Ngäc §øc (2002). "øng dông m¹ng neuron trong nhËn d¹ng tiÕng nãi
m−êi ch÷ sè tiÕng ViÖt". T¹p chÝ B−u chÝnh viÔn th«ng, chuyªn san C¸c c«ng tr×nh
nghiªn cøu - triÓn khai viÔn th«ng vµ c«ng nghÖ th«ng tin, 9/ 3-2003, tr 88-96.
[6] Dang Ngoc Duc, John-Paul Hosom, Luong Chi Mai, (June 2003), HMM/ANN
System for Vietnamese Continuous Digit Recognition, Proc. of The 16h International
Conference on Industrial & Engineering Applications of Artificial Intelligence and
Expert Systems, IEA/AIE 2003, Loughborough, UK.

[7] §Æng Ngäc §øc, NguyÔn Duy TiÕn. “¶nh h−ëng cña ©m ®ãng trong nhËn d¹ng
tiÕng ViÖt b»ng ph−¬ng ph¸p HMM/ANN”. T¹p chÝ TÝnh to¸n vµ §iÒu khiÓn.
[8] §Æng Ngäc §øc. “G¸n nh·n ©m vÞ trong qu¸ tr×nh
x©y dùng c¬ së d÷ liÖu tiÕng ViÖt”. T¹p chÝ B−u chÝnh viÔn th«ng, chuyªn san C¸c
c«ng tr×nh nghiªn cøu - triÓn khai viÔn th«ng vµ c«ng nghÖ th«ng tin, 10/ 11-2003.
[9] §Æng Ngäc §øc, L−¬ng Chi Mai. “T¨ng c−êng ®é chÝnh x¸c cña hÖ thèng m¹ng
neuron nhËn d¹ng tiÕng ViÖt”. T¹p chÝ B−u chÝnh viÔn th«ng, chuyªn san C¸c c«ng
170

tr×nh nghiªn cøu - triÓn khai viÔn th«ng vµ c«ng nghÖ th«ng tin (®· nhËn ®¨ng sè
11/2004)
[10] §Æng Ngäc §øc, L−¬ng Chi Mai. HÖ thèng nhËn d¹ng tiÕng ViÖt kh«ng dÊu
kÝch th−íc trung b×nh. Héi th¶o Quèc gia vÒ C«ng nghÖ th«ng tin lÇn thø 6, Mét sè
vÊn ®Ò chän läc cña C«ng nghÖ th«ng tin, Th¸i nguyªn, 29-30 th¸ng 8 n¨m 2003.
171

Tµi liÖu tham kh¶o


[B¶ng 2001] Vò Kim B¶ng, TriÖu ThÞ Thu H−¬ng, Bïi §¨ng B×nh (2001). "¢m tiÕt
tiÕng ViÖt kh¶ n¨ng h×nh thµnh vµ thùc tÕ øng dông", Toµn v¨n B¸o c¸o Khoa häc,
Héi nghÞ kû niÖm 25 n¨m thµnh lËp ViÖn C«ng nghÖ Th«ng tin, tr 525-533.
[C©n 1999] Vò Ngäc C©n, Lª §inh T− (1999), NhËp m«n ng«n ng÷ häc, Nhµ xuÊt
b¶n Gi¸o dôc.
[Phóc 2000] NguyÔn Thµnh Phóc (2000). Mét ph−−ng ph¸p nhËn d¹ng lêi ViÖt: ¸p
dông ph−¬ng ph¸p kÕt hîp m¹ng neuron víi m« h×nh Markov Èn cho c¸c hÖ thèng
nhËn d¹ng lêi ViÖt, LuËn ¸n TiÕn sÜ Kü thuËt, §¹i häc B¸ch khoa Hµ néi.
[Tho 1997] §ç Xu©n Tho (1997), Lª H÷u TØnh, Gi¸o tr×nh tiÕng ViÖt 2, Nhµ xuÊt
b¶n Gi¸o dôc.
[ThuËt 1999] §oµn ThiÖn ThuËt (1999), Ng÷ ©m TiÕng ViÖt, Nhµ xuÊt b¶n §¹i häc
Quèc gia Hµ néi.
[TiÕn 2000] NguyÔn Duy TiÕn, Vò ViÖt Yªn (2000). Lý thuyÕt x¸c suÊt. Nhµ xuÊt
bn gi¸o dôc.
[Trõ 1997] Mai Ngäc Trõ, Vò §øc NghiÖu, Hoµng Träng PhiÕn (1997), C¬ së Ng«n
ng÷ häc vµ TiÕng ViÖt, Nhµ xuÊt b¶n Gi¸o dôc.
[Avendano 1996] Carlos Avendano, Sarel van Vuuren and Hynek Hermansky,
“Data Based Filter Design for RASTA-like Channel Normalization in ASR”,
Proceedings of the International Conference on Spoken Language Processing,
Philadelphia, PA, October, 1996.
[Barbara 2001] Santa Barbara (2001), High-Performance Automatic Speech
Recognition via Enhanced Front-end Analysis and Acoustic Modeling , Ph.D.
Thesis, University of California
[Bilmes 1998] Jeff A. Bilmes (1998), A Gentle Tutorial of the EM Algorithm and its
Application to Parameter Estimation for Gaussian Mixture and Hidden Markov
Models, Technical Report ICSI-TR-97-021, University of Berkeley.
[Bourlard 1998] Bourlard, H. and N. Morgan (1998). "Hybrid HMM/ANN systems
for speech recognition: Overview and new research directions", Adaptive Processing
172

of Sequences and Data Structures, Volume 1387 of Lecture Notes in Artificial


Intelligence, pp. 389--417. Springer.
[Bourlard 1996] Bourlard, H., Konig, Y., Morgan, N., and Ris, C., ``A New Training
Algorithm for Hybrid HMM/ANN Speech Recognition Systems'', VIII European
Signal Processing Conference (EUSIPCO'96), Trieste, Italy, September, 1996.
[Buhrke 1994] E. R. Buhrke, R. Cardin, Y. Normandin, M. Rabin, J. Wilpon (1994),
“Application of vector quantized hidden modeling to telephone network based
connected digit recognition“, IEEE International Conference on Acoustics, Speech
and Signal Processing, ICASSP Proceedings , V1.
[Cole 1999] Cole R., "Tools for research and education in speech science" (Aug
1999). Proceedings of the International Conference of Phonetic Sciences, San
Francisco, CA.
[Cole 1997] R.Cole, B.T. Oshika, M.Noel, T. Lander and M. Fanty (1997). Labeler
Agreement in Phonetic Labeling of Continuous Speech. Center for Spoken
Language Understanding, Oregon Graduate Institute of Science and Technology.
[Cosi 1998] Cosi, P., Hosom, J.P., Shalkwyk, J., Sutton, S., and Cole, R. A.
(September 1998), "Connected Digit Recognition Experiments with the OGI
Toolkit's Neural Network and HMM-Based Recognizers", 4th IEEE Workshop on
Interactive Voice Technology for Telecommunications Applications, Turin, Italy.
[Cosi] Piero Cosi and John-Paul Hosom (1999), “HMM/Neural Network-based
System for Italian Continuous Digit Recognition”. Proc of ICPHS, Sans Francisco
1999
[Cosi 2000] Piero Cosi and John-Paul Hosom Fabio Tesser (2000), “High
Performance Itilian Continuous digit recognition”, Proceedings of ICSLP, Beijing
China 2000.
[Dong 2001] Minghui Dong and Kim-Teng Lua (2001), “Automatic prosodic break
labeling for Mandarin Chinese speech data”, ICASSP2001, International
Conference on Acoustics, Speech, and Signal Processing, Salt Palace Convention
Center in Salt Lake City, Utah, during May 7-11, 2001
173

[Elsner 1974] R. Elsner, W. Endres, H. Mangold, P. Noll, E. Paulus, D. Wolf


”Recent Progress in Digital Processing of Speech” (Invited Paper)
IEEE Transactions on Communications, Vol. COM-22, No. 9, S. 1168-1172, 1974.
[Fu 1996] Fu, S. W. K., C. H. Lee, and O. L. Clubb (1996). "A survey on Chinese
speech recognition". Communications of COLIPS, 6 (1), 1--17.
[Garofolo 1993] J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G. Fiscus, D. S.
Pallet and N. L. Dahlgren (Feb 1993), DARPA TIMIT
Acoustic_Phonetic Continuos Speech Corpus CD_ROM. National Institute of
Standards.
[Hermansky 1994] Hynek Hermansky, Nelson Morgan, “Rasta processing of
speech”, IEEE Trans. Speech and Audio Processing, Vol. 2, No. 4, October 1994.
[Hermansky 1992] H. Hermansky, N. Morgan, A. Bayya and P. Kohn, "RASTA-
PLP Speech Analysis Technique", Proc. IEEE International Conf. Acoustics, Speech
and Signal Processing, San Francisco, 1992, Vol. 1, pp. 121-124.
[Hieronymus 1993] Hieronymus, J.L (1993), Ascii phonetic symbols for the world’s
language: Worldbet. Technical report. Bell Labs.
[Hosom 2000a] J.P. Hosom, A Comparison of Speech Recognizers Created Using
Manually-Aligned and Automatically-Aligned Training Data, CSE-00-002,
Computer Science and Engineering, Oregon Graduate Institute, Beaverton, OR,
USA, Jan, 2000
[Hosom 2000b] Hosom J.P. (May 2000), Automatic Time Alignment of
Phonemes Using Acoustic-Phonetic Information, PhD Thesis. Center for Spoken
Language Understanding, Oregon Graduate Institute.
[Hosom 1999] Hosom J. P., Cole R., Fanty M., Schalkwyk J., Yan Y., Wei W.
(1999), Training Neural Networks for Speech Recognition, Center for Spoken
Language Understanding (CSLU), Oregon Graduate Institute of Science and
Technology USA.
[Hosom 1998] Hosom J.P., Cole R.A, and Cosi P., "Improvements in Neural-
Network Training and Search Techniques for Continuous Digit Recognition”
174

(Summer 1998), Australian Journal of Intelligent Information Processing Systems


(AJIIPS), vol. 5, no. 4, pp. 277-284.
[Huang 1992] X. Huang, F. Alleva, H.-W. Hon, K. Hwang, M.-Y. Lee, and R.
Rosenfeld ( 1992). "The SPHINX-II speech recognition system: an overview".
Computer Speech and Language, 7(2):137--148.
[Hwang 1993] M. Hwang and X. Huang (1993), "Shared Distribution Hidden
Markov Models for Speech Recognition" IEEE Trans. Speech and Audio
Processing, pp. 414--420, Vol. 1, No. 4.
[Huang 1990] X.D Huang, Y.Ariki, M.A. Jack (1990), Hidden Markov Models for
Speech Recognition, Edinburgh university press. ISBN 0-7486-0162-7.
[James 1979] James L. Flanagan, Manfred R. Schroeder, Bishnus S. Atal, Ronald E.
Crochiere, Nuggehally s. Jayant and Jose M. Tribolet (April 1979), "Speech
Coding". IEEE Transactions on Communications", Vol. Com-27, No. 4.
[Joseph 1993] Joseph P. (1993), "Signal Modeling Techniques in Speech
Recognition", Proceedings of the IEEE, Vol. 81, No. 9, pp. 1215-1247.
[Ljolje 1984], Ljolje A., Hirschberg J., and Van Santen J.P.H. “Automatic Speech
Segmentation for Concatenative Inventory Selection”. In Proceedings of ICASSP ’84
(San Diego, California, 1984), pp 2.7.1 2.7.4
[Karayiannis 1993] Karayiannis N.B., Venetsanopoulos A.N. (1993), Artificial
Neural Network- Learning Algorithms, Performance Evaluation, and Applications,
Kluwer Academic Publishers.
[Kari 1991] Demetrios Karis and Kathryn M. Dobroth (May 1991). "Automating
Services with Speech Recognition over the Public Switched Telephone Network:
Human Factors Considerations". IEEE Journal on Selected Areas in
Communication. Vol 9, No. 4.
[Kawai 2001] Kawai, H., Shimizu, T. and Higuchi, N. (March 2001), "Recognition
of Connected Digit Speech in Japanese Collected over the Telephone Network".
IEICE Trans. Inf. & Syst., Vol.E84-D, No.3.
[Kershaw ] Dan Kershaw, Tony Robinson, Mike Hochberg, Context-dependent
classese in Hybrid Recurrent Network-HMM Speech Recognition System,
Cambridge University Engineering Department.
175

[Lander 1997a] Lander T., CSLU Labeling Guide (1997), Center for Spoken
Language Understanding, Oregon Graduate Institute of Science and Technology,
USA.
[Lander 1997b] T. Lander , B.T. Oshika, R.Cole and M. Fanty (1997). Multi-
language Speech Database: Creation and Phonetic Labeling Agreement. Center for
Spoken Language Understanding, Oregon Graduate Institute of Science and
Technology.
[Morgan 1995] Nelson Morgan and HervÐ Bourlard (May 1995), “An Introduction
to Hybrid HMM/Connectionist Continuous Speech Recognition”. IEEE Signal
Processing Magazine, pp. 25-42.
[C−êng] Quoc-Cuong Nguyen, Eric Castelli, Ngoc-Yen Pham . Tone Recognition
for Vietnamese. CLIPS-IMAG Laboratory, France
[Rabiner 1993] L.Rabiner B.H. Juang (1993). Fundamentals of Speech Recognition.
Prentice Hall, ISBN 0-13-01517-2.
[Rabiner 1989] L. R. Rabiner (1998), “A Tutorial on Hidden Markov Models and
Selected Applications in Speech Recognition”, Proc. IEEE, Vol. 77, No. 2, pp.
257-286, February 1989
[Rabiner 1988] L. R. Rabiner, J. G. Wilpon, and F. K. Soong (1998), “High
Performance Connected Digit Recognition, Using Hidden Markov Models”,
Conference Record 1988 IEEE International Conference on Acoustics, Speech, and
Signal Processing, Paper S3.6, pp. 119-122, April 1988
[Rabiner 1997] L. R. Rabiner (1997), “Applications of Speech Recognition in the
Area of Telecommunications”, 1997 IEEE Workshop on Automatic Speech
Recognition and Understanding Proceedings, S Furui, B. H. Juang, and W. Chou,
Editors, Santa Barbara, CA, pp. 501-510, 1997
[Rabiner 1981] Lawrence R. Rabiner, Stephen E. Levinson (1981), "Isolated and
Connected Word Recognition-Theory and Selected Applications", IEEE Trans. on
Communications, Vol. COM-29, No. 5, pp. 621-659, May 1981
[Robinson 1995] T. Robinson, J.Fransen, D.Pye, J.Foote, and S. Renals ( May
1995), WSJCAM0: “A British English speech corpus for large vocabulary
continuous speech recognition”. In Proc. ICSSSP95, pages 81-84, Detroit, IEEE .
176

[Roe 1993] D.B. Roe, J.G.Wilpon, "Whither Speech Recognition: the next 25
years", IEEE Comm. Magazine, Vol 31, nº 11, 1993
[Schalkwyk 2000] Schalkwyk J., Hosom J.P., Kaiser E., Shobaki K. (2000), CSLU-
HMM: The CSLU Hidden Markov Markov Modelling Environment, Center for
Spoken Language Understanding (CSLU), Oregon Graduate Institute of Science and
Technology.
[Sornlertlamvanich] Virach Sornlertlamvanich, Tanapong Potipiti, Chai
Wutiwiwatchai and Pradit Mittrapiyanuruk, “The State of the Art in Thai Language
Processing”, 38th Annual Meeting of the Association for Computational Linguistics,
Hong Kong, China, 1-8 October 2000.
[Stephen] Stephen E. Levinson and David B. Roe. A Perspective on Speech
Recognition
[Stephen] Stephen W. K. Fu, C. H. Lee, Orville L. Clubb, A Survey on Chinese
Speech Recognition. Department of Computer Science City University of Hong
Kong
[Steve2002] Steve Young, Gunnar Evermann, Dan Kershaw, Gareth Moore, Julian
Odell, Dave Ollason, Valtcho Valtchev, Phil Woodland (2002), The HTK Book,
Cambridge University Engineering Department.
[Tebelskis 1995] Joe Tebelskis (May 1995), Speech Recognition using Neural
Networks, PhD thesis, CMU-CS-95-142. Cambridge University Engineering
Department.
[Thubthong 2000a] Nuttakorn Thubthong, Boonserm Kijsirikul, "Improving
Connected Thai Digit Speech Recognition using Prosodic Information", National
Computer Science and Engineering Conference (NCSEC'2000), Thailand.
[Thubthong 2000b]Nuttakorn Thubthong, Apirath Pusittrakul, Tanongkiat
Sookawat, Boonserm Kijsirikul, "Tone Recognition of Continuous Thai using Half-
Tone Model", National Computer Science and Engineering Conference
(NCSEC'2000), Thailand.
[Trentin 2001] Edmondo Trentin (2001), Robust Combination of Neural Nwtwork
and Hidden Markov Models for Speech Recognition, PhD thesis, Universita di
Firenze, V.S. Marta, 3 –Firenze, Italy.
177

[Veth 1996] Johan de Veth and Louis Boves (1996), "Comparison of channel
normalisation techniques for automatic speech recognition over telephone", MCM in
Stockholm, 1996.
[Wei 1998] Wei W. and Van Vuuren S, (May 1998), "Improved Neural Network
Training of Inter-Word Context Units for Connected Digit Recognition". In
Proceedings of International Conference on Acoustic Speech and Signal Processing
(ICASSP ’98), Seattle, Washington, Vol. 1, pp. 497-500.
[Wu 1996] J. Jian-Xiong Wu, L. Deng, J. Chan (1996), “Modeling context-
dependent phonetic units in a continuous speech recognition system for Mandarin
Chinese“, IEEE International Conference on Spoken Language Processing (ICSLP),
Proceedings V4.
[Yeshwant ] Yeshwant K. M., Cole R. A. Beatrice T. O., The OGI multi-language
telephone speech corpus, Center for Spoken Language Understanding (CSLU),
Oregon Graduate Institute of Science and Technology.
[Young 1996] Steve Young (April 1996), Large Vocabulary Continuous Speech
Recognition: a Review. Cambridge University Engineering Department.
Trumpington Street, Cambridge CB PZ.
[Yan 1997] Yan Y., Fanty M., Cole R. (1997), "Speech Recognition using Neural
Networks with Forward-Backward Probability Generated Tagets", Proeedding of the
IEEE International Conference on Acoustics, Speech and Signal Processing.
[Young 1994] S.J. Young, J.J. Odell, P.C. Woodland (March 1994), "Tree-Based
State Tying for High Accuracy Acoustic Modelling," Proc. ARPA Human Language
Technology Workshop, Plainsboro, NJ, pp. 405-410, Morgan Kaufmann.
[Yuk 1999] DongSuk Yuk and James Flanagan (Mar 1999), "Telephone Speech
Recognition Using Neural Networks and Hidden Markov Models". IEEE
International Conference on Acoustic, Speech and Signal Processing, ICASSP
Proceedings , Vol. 1, pp 157-160.
[Zhang 2000] Guoliang Zhang, Fang Zheng, Wenhu Wu (2000), "Tone recognition
of Chinese continuous speech". International Symposium on Chinese Spoken
Language Processing, Beijing, pp. 207-210.
178

[BÐchet 2001] F. BÐchet, Y. Estève, R. De Mori (2001), “ModÌles de langage


hiérarchiques pour les applications de dialogue en parole spontanÐe”, 8Ìme
ConfÐrence Annuelle sur le Traitement Automatique des Langues Naturelles, vol. 1,
pp327-332, Tours, France.
[Candille] L. Candille, H. MÐloni, T. Spriet, R. CarrÐ (1994), “Inversion du modÌle
DRM pour la reconnaissance de la parole : application à l'identification de diphones
vocaliques”, 1994 XXÌmes JEP, TrÐgastel, 1-3 juin 1994
[Dumouchel 1996] P. Dumouchel, R. Vergin, D. O'Shaughnessy et J. Rouat (1996),
"La reconnaissance automatique de la parole en francais", L'intelligence artificielle
dans les technologies de l'information, 64 congrÐs de l'ACFAS, 13-17 mai.
[EstÌve 2000] Y. EstÌve, F. BÐchet, R. De Mori (2000), “SÐlection dynamique de
modÌles de langage dans une application de dialogue”, XXIII Journees d'Etude sur
la Parole - JEP'2000, Aussois juin 2000, pages 185-188
[Siohan 1995] Siohan Olivier (1995), Reconnaissance Automatique de la parole
continue en Environnement bruitÐ: application µ dÐ modÌlÐ stochastiques de
trajectaires. ThÌse de Doctorat de de l'UniversitÐ Henri PoincarÐ –Nancy I.
[LefÌvre 1999] Fabrice LefÌvre (1999), Etimation de ProbabilitÐ de Non-
paramÌtrique pour la Reconnaissance Markovvienne de la parole. ThÌse de
Doctorat de de l'UniversitÐ Pierre et Marie Curie.
[Rogozan 1999] Alexandrina Rogozan, Fusion des donnÐes hÐtÐrogÌnes pour la
reconnaissance automatique de la parole audiovisuelle, ThÌse de Doctorat de
l'UniversitÐ Paris XI - Orsay, soutenue le 9 juillet 1999
179

Phô lôc A. B¶ng Ký hiÖu ©m vÞ tiÕng ViÖt


¢m vÞ
IPA Phiªn
©m
Con ch÷ VÝ dô
ASCII
b b b buån b·
d d ® ®Éy ®µ
t t t tan t¸c
t’ th th th¬m tho
ˇ tr tr trôc trÆc
c ch ch chuån
k k k (®øng tr−íc i, e, ´) kiªu kú
c (®øng tr−íc u, o, a, {, }) cÇu c¹nh
q (®øng tr−íc w) qu©y quÇn
m m m m−ît mµ
n n n no nª
µ nh nh nhanh
¯ ng ngh (®øng tr−íc /i/,/e/,/´/) nghi, nghª
¢m ®Çu

ng ngñ ngµy
f ph ph phÊt phíi
v v v véi v·
S x x xa x«i
z dz d dÔ d·i
gi giái giang
g g×

l l l long lanh
Í s s sím sña
¸ d r ra ruéng
≈ kh kh kh«ng khÝ
© g gh (®øng tr−íc i, e, ´) ghÕ, ghi
g gµ
h h h hèi h¶
¢m ®Öm

uª w o (®øng tr−íc a, a°, ´) hoa hoÌ


u (cßn l¹i) huy, tuÇn, phuy
180

i i y (®øng sau uª) suy, nguy


i (cßn l¹i) tinh tÝch
e ee ª ªnh Õch
¢m chÝnh

´ e e nghe, ve
´° ea a (tr−íc /k, ¯/) s¸ch, xanh
u u u sóng, vui
o oo « « t«
ø o o cán con
ø° oa o (tr−íc k, ¯) vßng, tãc
} uw − lõ ®õ
{ ow ¬ l¬ m¬
{° aa © ©n cÇn
a a a lan can
a° aw ¨ ¨n n¨n
¢m chÝnh

a (tr−íc uª, iª ) lau tay


ihe ie ia (khi tr−íc kh«ng cã ©m ®Öm vµ sau kh«ng cã ©m cuèi) kia, th×a, bia
ya (khi tr−íc cã ©m ®Öm khuya
iª (khi tr−íc kh«ng cã ©m ®Öm vµ sau cã ©m cuèi) tiªn tiÕn
yª (khi tr−íc cã ©m ®Öm hoÆ sau nã cã ©m cuèi lµ b¸n yªu, uyÓn chuyÓn
nguyªn ©m)
uho uo ua (khi sau kh«ng cã ©m cuèi) mua, vua chóa
u« (khi sau cã ©m cuèi) muén, tuån
}h{ wa −a (kh«ng cã ©m cuèi) m−a, võa
−¬ (khi cã ©m cuèi) −¬ng, −íng
p pz p chËp
t tz t c¾t,
m mz m ®om dãm
n nz n mµn, s¬n
k kz ch (®øng sau i,e,´) thÝch, s¹ch
¢m cuèi

c (cßn l¹i) ®−îc,viÖc


¯ ngz nh (®øng sau i,e,´) m×nh, ¸nh
nhanh
ng (cßn l¹i) vïng,v»ng

uz o (®øng sau ´,a) leo cao
u (cßn l¹i) kªu cøu
181


iz y (®øng sau {°,a°) m©y bay
i (cßn l¹i) nãi, råi
®øng tr−íc c¸c phô ©m t¾c: /b, d, t, t ', ˇ, c, k/
¢m ®ãng

tc,chc t¸m, c«ng


,bc,dc
,kc,th
c,cc
182

phô lôc B. So s¸nh hai ph−¬ng ph¸p


nhËn d¹ng CSLU vµ HTK
C¬ së d÷ liÖu
HTK: HTK cã hai c¸ch khëi t¹o c¸c tham sè cña c¸c m« h×nh Markov Èn. Dïng
Hinit nÕu nh− th«ng tin vÒ nh·n thêi gian s½n cã trong c¬ së d÷ liÖu. NÕu kh«ng
HTK cã thÓ dïng ph−¬ng ph¸p khëi t¹o ph¼ng (flat start) ®Ó khëi t¹o c¸c tham sè
cña c¸c m« h×nh. C¸c tham sè nµy sau ®ã sÏ ®−îc tÝnh to¸n b»ng ph−¬ng ph¸p
nhóng sau ®ã. Nh− vËy HTK kh«ng b¾t buéc c¸c ph¸t ©m trong c¬ së d÷ liÖu cÇn
ph¶i ®−îc g¸n nh·n b»ng tay.
CSLU: V× CSLU dïng m¹ng ANN ®Ó häc c¸c ©m vÞ tr−íc khi x©y dùng m¹ng lai
ghÐp HMM/ANN. C¸c d÷ liÖu t−¬ng øng víi mét ©m vÞ ®−a vµo ®Ó huÊn luyÖn cÇn
ph¶i cã tÝnh chÊt ©m häc cña ©m vÞ ®ã ®Ó m¹ng ANN cã thÓ häc ®−îc. Do ®ã c¸c
th«ng tin vÒ nh·n thêi gian lµ b¾t buéc ph¶i s½n cã trong c¬ së d÷ liÖu ®Ó hÖ thèng
t×m ra c¸c khung tÝn hiÖu t−¬ng øng víi c¸c ©m vÞ, tõ ®ã tÝnh to¸n c¸c vector ®Æc
tÝnh phæ dïng ®Ó huÊn luyÖn m¹ng ANN.
§¬n vÞ nhËn d¹ng c¬ b¶n
HTK: §−îc thiÕt kÕ ®Ó cã thÓ x©y dùng hÖ thèng nhËn d¹ng tõ nhá tíi hÖ thèng
lín. Víi c¸c hÖ thèng nhËn d¹ng nhá, ®¬n vÞ nhËn d¹ng c¬ b¶n cã thÓ lµ c¸c tõ. Khi
®ã sè l−îng c¸c tr¹ng th¸i trong m« h×nh cã thÓ cã thÓ ®−îc ®iÒu chØnh nhiÒu h¬n,
th«ng th−êng lµ lªn 6 hoÆc 8 tr¹ng th¸i. Víi hÖ thèng nhËn d¹ng cã kÝch th−íc lín,
®¬n vÞ nhËn d¹ng c¬ b¶n th−êng lµ ©m vÞ hoÆc b¸n ©m tiÕt, sè tr¹ng th¸i trong m«
h×nh khi ®ã ®−îc ®iÒu chØnh nhá h¬n, kho¶ng tõ 3-5 tr¹ng th¸i.
CSLU: §¬n vÞ nhËn d¹ng c¬ b¶n cña CSLU lu«n lµ category, lµ mét phÇn cña ©m
vÞ. Do ®Æc tÝnh biÕn thiªn tiÕng nãi theo thêi gian, trong kho¶ng thêi gian tån t¹i cña
mét ©m vÞ, c¸c ®Æc tÝnh phæ cña ©m vÞ biÕn thiªn tõ lóc b¾t ®Çu tíi khi kÕt thóc mét
©m vÞ. Kho¶ng thêi gian mµ c¸c ®Æc tÝnh phæ t−¬ng ®èi tÜnh, tøc lµ cã thÓ dïng ®−îc
cho huÊn luyÖn m¹ng ANN chØ lµ mét phÇn cña ©m vÞ: phÇn bªn tr¸i cña ©m vÞ, n¬i
©m vÞ chÞu ¶nh h−ëng cña ng÷ c¶nh ph¶i, phÇn gi÷a cña ©m vÞ kh«ng chÞu ¶nh h−ëng
cña ng÷ c¶nh vµ phÇn bªn ph¶i cña ©m vÞ, chÞu ¶nh h−ëng cña ng÷ c¶nh ph¶i.
Kho¶ng lÆng
183

HTK: Sö dông hai ®¬n vÞ nhËn d¹ng ®Æc biÖt sp vµ sil ®Ó m« h×nh ho¸ kho¶ng
lÆng trong tiÕng nãi. ¢m vÞ sil ®−îc dïng m« h×nh ho¸ nh− lµ mét ng¾t giäng (short
pause) trong mét ph¸t ©m. ¢m vÞ sp gåm chØ mét tr¹ng th¸i vµ tr¹ng th¸i nµy ®−îc
buéc vµo tr¹ng th¸i thø 3, tr¹ng th¸i gi÷a cña ©m vÞ sil. ¢m vÞ sp ®−îc coi nh− lµ cã
mÆt ë gi÷a c¸c tõ, lµ sù chuyÓn tiÕp tõ tõ nµy sang tõ kia. Trong HTK c¸c ©m ®ãng
(closure) kh«ng cã mÆt trong c¸c ®¬n vÞ nhËn d¹ng. Chóng ®−îc gép vµo c¸c phô
©m ë ®»ng tr−íc hoÆc ®»ng sau t−¬ng øng víi nã. M« h×nh Markov Èn tù chóng cã
kh¶ n¨ng m« h×nh ho¸ sù biÕn thiªn c¸c ®Æc tÝnh phæ trong ©m ®ãng.
CSLU: Víi CSLU, c¸c kho¶ng lÆng ®−îc nhãm vµo mét ®¬n vÞ nhËn d¹ng lµ
.pau. ¢m ®ãng ®−îc coi lµ mét ®¬n vÞ nhËn d¹ng riªng. Tuy nhiªn vÒ ¶nh h−ëng cña
nã ®Õn ng÷ c¶nh c¸c ©m vÞ kh¸c th× chóng l¹i ®−îc xÕp chung víi ®¬n vÞ nhËn d¹ng
.pau. Víi m¹ng ANN, CSLU cã c¬ chÕ hiÖu qu¶ lµ dïng mét ®¬n vÞ nhËn d¹ng ®Æc
biÖt lµ .garbage ®Ó lo¹i bá ¶nh h−ëng cña nhiÔu, ©m thanh kh«ng ph¶i tiÕng nãi vµ
lo¹i bá c¸c ph¸t ©m kh«ng cã trong tõ ®iÓn. Víi c¬ chÕ nµy tû lÖ lçi nhËn d¹ng nhÇm
do lçi chÌn ®−îc gi¶m xuèng, hÖ thèng chÞu ®−îc ¶nh h−ëng cña nhiÔu vµ c¸c ©m
thanh ®an xen vµo trong tiÕng nãi.
Phô thuéc ng÷ c¶nh
HTK: Do ®Æc tÝnh cña tiÕng nãi, tÊt c¶ c¸c hÖ thèng nhËn d¹ng ®Òu dïng ®¬n vÞ
nhËn d¹ng lµ phô thuéc ng÷ c¶nh. §Ó tÝnh ®Õn ng÷ c¶nh tr¸i vµ ng÷ c¶nh ph¶i cña
©m vÞ, HTK dïng ©m ba (triphone), trong ®ã mét ©m vÞ ®−îc bæ sung thªm ng÷
c¶nh tõ ©m vÞ ®éc lËp ng÷ c¶nh t−¬ng øng. VÝ dô nh− ©m vÞ /a/ sÏ ®−îc chuyÓn
thµnh ©m ba /b-a+n/ trong tõ “bµn”, vµ khi ®ã ®©y lµ ®¬n vÞ nhËn d¹ng kh¸c víi ©m
vÞ /a/ trong tõ “®µn”: /dd-a+n/. Cã hai lo¹i ©m ba ®−îc ph©n biÖt: ©m ba giíi néi tõ
(word internal) vµ ©m ba liªn tõ (cross-word). Trong ©m ba giíi néi tõ, ¶nh h−ëng
cña ng÷ c¶nh ®−îc coi lµ chØ cã t¸c dông trong tõ ®ã, gi÷a c¸c tõ víi nhau ®−îc coi
lµ ®−îc ng¨n c¸ch bëi kho¶ng lÆng. Ph−¬ng ph¸p nµy cña HTK t¨ng sè l−îng c¸c
©m ba lªn rÊt lín, víi tiÕng ViÖt sè l−îng c¸c ©m ba liªn tõ cã thÓ lªn tíi h¬n 16
ngh×n ©m ba. Víi sè l−îng lín nh− vËy, d÷ liÖu huÊn luyÖn cÇn cã lµ rÊt lín vµ vÊn
®Ò thiÕu hôt d÷ liÖu huÊn luyÖn lµ khã tr¸nh khái.
CSLU: §Ó tÝnh ®Õn ¶nh h−ëng cña ng÷ c¶nh ®Õn c¸c ®¬n vÞ nhËn d¹ng, CSLU
kh«ng thÓ lµm nh− HTK bëi v× m¹ng ANN chØ cã thÓ tiÕn hµnh ph©n líp víi mét
phÇn cña ©m vÞ, n¬i c¸c ®Æc tÝnh phæ kh«ng thay ®æi nhiÒu. CSLU tÝnh ®Õn sù thay
®æi ng÷ c¶nh b»ng c¸ch chia mét ©m vÞ thµnh nhiÒu category. Mét ©m vÞ cã thÓ ®−îc
184

chia thµnh 2 hoÆc 3 hoÆc hoÆc ®−îc khai b¸o lµ mét category phô thuéc ph¶i. Nh−
vËy ®¬n vÞ nhËn d¹ng c¬ b¶n phô thuéc ng÷ c¶nh cña CSLU thùc chÊt lµ ©m ®«i
(biphone) chø kh«ng ph¶i lµ ©m ba. Víi c¸ch lµm nµy th× sè l−îng c¸c ®¬n vÞ nhËn
d¹ng c¬ b¶n cña CSLU kh«ng lín nh− trong tr−êng hîp cña HTK. Víi tiÕng ViÖt,
nÕu bé tõ ®iÓn bao gåm tÊt c¶ c¸c tõ, th× sè l−îng category lµ kho¶ng 2147 category.
G¸n nh·n c−ìng bøc
HTK: Gièng nh− tÊt c¶ c¸c hÖ thèng nhËn d¹ng, g¸n nh·n c−ìng bøc lµ mét kh©u
quan trong trong qu¸ tr×nh huÊn luyÖn. Sau khi hÖ thèng ®−îc khëi t¹o nã cÇn ph¶i
g¸n nh·n d÷ liÖu huÊn luyÖn ®Ó tõ ®ã dïng c¸c th«ng tin nµy cho phÇn huÊn luyÖn
tiÕp theo. Trong HTK g¸n nh·n c−ìng bøc cßn cã vai trß quan träng lµ t×m d·y ph¸t
©m phï hîp nhÊt trong sè c¸c phiªn ©m ©m vÞ cña mét tõ. Trong g¸n nh·n c−ìng bøc
cña HTK, ranh giíi gi÷a c¸c tõ, c¸c ©m vÞ ®Òu ®−îc x¸c ®Þnh l¹i.
CSLU: CSLU tiÕn hµnh g¸n nh·n c−ìng bøc sau qu¸ tr×nh khëi t¹o ®Çu tiªn ®Ó
x¸c ®Þnh l¹i ranh giíi gi÷a c¸c category trong cïng mét ©m vÞ. Trong khëi t¹o lÇn
®Çu tiªn, c¸c category trong mét ©m vÞ ®−îc chia ®Òu tõ kho¶ng thêi gian cña ©m vÞ.
Sau khi hÖ thèng ®· ®−îc khëi t¹o, nã ®−îc dïng ®Ó x¸c ®Þnh l¹i ranh giíi nµy vµ
b»ng nh÷ng g× ®· häc ®−îc hÖ thèng x¸c ®Þnh ranh giíi chÝnh x¸c h¬n lµ chia ®Òu
trong giai ®o¹n khëi ®Çu. Nh− vËy trong g¸n nh·n c−ìng bøc cña CSLU chØ ranh
giíi cña category ®−îc x¸c ®Þnh l¹i, ranh giíi cña tõ, ©m vÞ ®−îc x¸c ®Þnh trong g¸n
nh·n b»ng tay kh«ng thay ®æi.
Ph−¬ng ph¸p buéc
HTK: VÊn ®Ò kh«ng ®ñ d÷ liÖu huÊn luyÖn lu«n lu«n tån t¹i trong c¸c hÖ thèng
nhËn d¹ng. HTK gi¶i quyÕt vÊn ®Ò nµy b»ng mét trong hai ph−¬ng ph¸p: dïng
driven data hoÆc tree-based. Dï c¸ch nµo ®−îc dïng th× HTK ®Òu cho phÐp ng−êi
dïng khai b¸o c¸c tÝnh chÊt, tiªu chÝ mong muèn ®Ó tiÕn hµnh buéc. Sau ®ã hÖ thèng
sÏ tù ®éng tÝnh to¸n vµ buéc c¸c ®¬n vÞ nhËn d¹ng tuú theo d÷ liÖu cña nã. Trong
qu¸ tr×nh nµy, sù can thiÖp tõ bªn ngoµi lµ h¹n chÕ. Víi c¸ch nµy, c¸c ®¬n vÞ nhËn
d¹ng ®−îc buéc vµo nhau phô thuéc vµo d÷ liÖu ®−îc dïng ®Ó huÊn luyÖn chóng vµ
nh− vËy qu¸ tr×nh buéc sÏ chÝnh x¸c.
CSLU: §Ó buéc c¸c ®¬n vÞ, CSLU kh«ng cã c¬ chÕ tù ®éng tÝnh to¸n theo d÷ liÖu
huÊn luyÖn mµ nã cho phÐp ng−êi dïng khai b¸o c¸c nhãm ng÷ c¶nh. C¸c ®¬n vÞ
nhËn d¹ng cã ng÷ c¶nh thuéc cïng nhãm ng÷ c¶nh sÏ ®−îc buéc vµo nhau. Nh− vËy
185

viÖc buéc c¸c ©m vÞ víi nhau hoµn toµn phô thuéc vµo chñ quan cña ng−êi nghiªn
cøu.
HuÊn luyÖn
C¶ hai hÖ thèng CSLU vµ HTK gièng nh− c¸c hÖ thèng nhËn d¹ng dïng HMM
®Òu dïng huÊn luyÖn nhóng ®Ó huÊn luyÖn c¸c m« h×nh Markov Èn. C¸c HMM cña
c¸c ®¬n vÞ nhËn d¹ng ®−îc nèi vµo nhau t¹o thµnh mét m« h×nh HMM lín. Sau ®ã
c¸c tham sè cña c¶ m« h×nh lín nµy ®−îc ®iÒu chØnh theo d÷ liÖu huÊn luyÖn.
Cã mét ®iÓm kh¸c vÒ huÊn luyÖn cña CSLU so víi HTK lµ do hÖ thèng cña CSU
dïng m¹ng ANN, cho nªn trong qu¸ tr×nh huÊn luyÖn m¹ng ANN sÏ cã nhiÒu tËp
gi¸ trÞ träng sè t−¬ng øng víi mçi vßng huÊn luyÖn (iteration). Víi m¹ng ANN, cÇn
ph¶i t×m ra ®−îc vßng lÆp nµo cho ®é chÝnh x¸c cao nhÊt vµ ®Ó x¸c ®Þnh ®iÒu nµy hÖ
thèng sÏ thö nhËn d¹ng trªn mét tËp d÷ liÖu gäi lµ tËp d÷ liÖu ph¸t triÓn. KÝch th−íc
tËp d÷ liÖu nµy cÇn ®ñ lín ®Ó ®¶m b¶o r»ng iteration cho kÕt qu¶ chÝnh x¸c nhÊt
còng sÏ cho kÕt qu¶ chÝnh x¸c nhÊt víi d÷ liÖu kiÓm tra. Nh− vËy víi CSLU mét tËp
d÷ liÖu ph¸t triÓn cÇn ®−îc bæ sung vµo tËp d÷ liÖu huÊn luyÖn vµ d÷ liÖu kiÓm tra.
NhËn d¹ng
HTK: Trong hÖ thèng nhËn d¹ng, nhÊt lµ víi hÖ thèng nhËn d¹ng sè l−îng tõ
vùng lín, m« h×nh ng«n ng÷ ®ãng mét vai trß quan träng. HTK cho phÐp dïng m«
h×nh ng«n ng÷ bigram trong qu¸ tr×nh t×m kiÕm nhËn d¹ng b»ng c¸ch tÝch hîp c¸c
x¸c suÊt bigram vµo trong m¹ng nhËn d¹ng. Sù cã mÆt cña m« h×nh bigram ®· c¶i
thiÖn ®¸ng kÓ ®é chÝnh x¸c nhËn d¹ng cña hÖ thèng (t¨ng kho¶ng 50% trong c¸c thö
nghiÖm ®−îc tr×nh bµy trong Ch−¬ng 7)
CSLU ch−a cã c¬ chÕ ®Ó dïng m« h×nh ng«n ng÷ trong t×m kiÕm nhËn d¹ng vµ
do ®ã h¹n chÕ nµy ®· lµm CSLU khã ¸p dông trong c¸c hÖ thèng nhËn d¹ng kÝch
th−íc lín.
C¶ CSLU vµ HTK ®Òu cho phÐp khai b¸o mét ng÷ ph¸p cho hÖ thèng nhËn d¹ng
vµ ®Òu dïng ph−¬ng ph¸p t×m kiÕm chuyÓn thÎ bµi ®Ó tiÕn hµnh gi¶i m·.
M« h×nh ho¸ ®é dµi
CSLU dïng mét c¬ chÕ ph¹t (penalty) ®Ó khèng chÕ ®é dµi cña c¸c ®¬n vÞ nhËn
d¹ng trong hÖ thèng nhËn d¹ng. Trong qu¸ tr×nh huÊn luyÖn, giíi h¹n vÒ ®é dµi tèi
thiÓu vµ tèi ®a víi c¸c ®¬n vÞ nhËn d¹ng ®−îc x¸c ®Þnh. Trong qu¸ tr×nh nhËn d¹ng,
nÕu ©m vÞ v−ît qu¸ mét trong hai gi¸ trÞ nµy th× chóng sÏ bÞ g¸n mét gi¸ trÞ ph¹t tïy
186

thuéc vµo ®Þnh nghÜa hÖ thèng nhËn d¹ng. C¸ch lµm nµy nh»m khèng chÕ kh¶ n¨ng
nhËn d¹ng nhÇm do lçi chÌn.
HTK ch−a cã c¬ chÕ nµo ®Ó m« h×nh ho¸ ®é dµi cña c¸c ®¬n vÞ nhËn d¹ng c¬
b¶n. KÕt qu¶ nhËn d¹ng trong c¸c thö nghiªm cho thÊy HTK rÊt nh¹y c¶m víi c¸c
nhiÔu vµ c¸c ©m thanh kh«ng ph¶i tiÕng nãi trong ph¸t ©m, chóng th−êng ®−îc nhËn
d¹ng nhÇm vµ do vËy lµm t¨ng lçi nhËn d¹ng nhÇm cho chÌn.
KÕt luËn
Mçi hÖ thèng nhËn d¹ng ®Òu cã nh÷ng −u ®iÓm vµ nh−îc ®iÓm riªng. Ph−¬ng
ph¸p x©y dùng hÖ thèng nhËn d¹ng b»ng HMM/ANN thÝch hîp cho c¸c hÖ thèng
nhËn d¹ng cã kÝch th−íc nhá. HÖ thèng còng tá ra cã kh¶ n¨ng chÞu nhiÔu vµ c¸c ©m
thanh xen lÉn tèt.
Ph−¬ng ph¸p nhËn d¹ng cña HTK víi ®Çy ®ñ c¸c chøc n¨ng thÝch hîp cho x©y
dùng c¸c hÖ thèng nhËn d¹ng kÝch th−íc lín. D÷ liÖu huÊn luyÖn kh«ng cÇn ph¶i
g¸n nh·n tr−íc, m« h×nh ng«n ng÷ bigram lµ nh÷ng −u ®iÓm næi bËt cña HTK.