You are on page 1of 7

Nh n d ng ti ng Vi t dùng m ng neuron k t

h p trích c tr ng dùng LPC và AMDF


Vietnamese Speech Recognition Using Neural Networks
Combined with LPC Formant Extraction and AMDF
Pitch-Detection

Hoàng ình Chi n

Abstract: This paper describes a method of creating cho k t qu nh n d ng chính xác cao qua th nghi m.
neural network based isolated Vietnamese speech
recognizer. The formant extraction process uses the current II. C S LÝ THUY T
popular model LPC (Linear Predictive Coding) in which
1. Mã hóa d báo tuy n tính (LPC - Linear
LPC parameters are converted to cepstral coefficients. The
Predictive Coding) [4]
neural network is used to estimate the word probabilities
and we will choose the maximum for the target words. We G i r(k) là giá tr t t ng quan c a tín hi u d i i k
also combine LPC method with AMDF (Average m u:
Magnitude Difference Function) method to increase the
accuracy. The experiments are stimulated by Matlab 6.5. r (k ) x(n) x(n k ) (1)
n
The high accuracy of results leads the conclusion that the
studied way is suitable. Khi ó các h s LPC s là nghi m c a h ph ng
trình:
Keyword: Vietnamese speech recognition, Neural
r (0) r (1) r (2) ... r ( P 1) a1 r (1)
Network, LPC, AMDF.
r (1) r (0 ) r (1) ... r ( P 2) a 2 r (2)
r ( 2) r (1) r (0) ... r ( P 3) a 3 r (3) (2)
I. GI I THI U . . . . . .
Nh n d ng ti ng nói là m t k thu t có th ng . . . . . .
. . . . . .
d ng trong r t nhi u l nh v c c a cu c s ng: trong
r ( P 1) r ( P 2) r ( P 3) . r (0) aP r ( P)
vi c i u khi n ( i u khi n robot, ng c , i u khi n
xe l n cho ng i tàn t t...), an ninh qu c phòng... H ph ng trình trên c gi i b ng thu t toán
Vi t Nam, trong nh ng n m g n ây ã có m t s k t Levinson-Durbin. T t c các h s LPC s là c
qu nghiên c u ban u v nh n d ng ti ng Vi t, tuy tr ng c a tín hi u ti ng nói.
nhiên còn có gi i h n v chính xác, s t , v n a) Thu t toán Levinson-Durbin: [4]
thanh i u c thù ti ng vi t h u nh ch a c Kh i t o: p=1
c p.... Bài báo trình bày m t h ng ng d ng thanh Tính sai s bình ph ng trung bình b c nh t:
i u vào vi c nh n d ng ti ng Vi t c r i r c nh m E1 r (0)(1 a12 (1)) (3)
nâng cao chính xác: ph ng pháp k t h p trích c
tr ng b ng LPC v i trích chu k c b n dùng AMDF
r (1) III. M NG NEURON
trong ó a1 (1) (4)
r ( 0) M i neuron nhân t o g m m t s các ngõ vào (t
qui: V i p=2,3,…,P d li u g c, hay t ngõ ra các neuron khác trong
m ng). M i k t n i n ngõ vào có m t tr ng s và
1. Tính h s Kp:
m t giá tr ng ng. Tín hi u c truy n qua hàm
r ( p ) rpbT1 a p 1 kích ho t (hay còn g i là hàm truy n) t o giá tr ngõ ra
Kp (5)
Ep 1 neuron.
2. Tính các h s d báo b c p: Nguyên t c c a m ng neuron là h c theo m u và
ánh x d li u vào qua m t hàm truy n cho ra k t
a p ( p) Kp (6)
qu . Ki u m ng c s d ng ph bi n nh t là m ng
a p ( p) a p 1 (k ) K pa p 1( p k) (7) lan truy n ng c (back propagation) v i k thu t c
b n là c p nh t tr ng s theo h ng gi m gradient
v i k=1,2,…,p-1
tìm v trí t t nh t trên m t l i.
3. Tính sai s bình ph ng trung bình b c p:
Ep E p 1 (1 K p2 ) (8)

4. Quay l i b c 1, thay p b ng p+1 n u p P


K t thúc, thay:
[ap(1) ap(2) … ap(P)]= -[a p(1) ap(2) … ap(P)]
b) Hàm hi u biên trung bình (AMDF - Average
Magnitude Difference Function) [3] Hình 1: C u trúc Neural Networks
Hàm hi u biên trung bình là hi u biên c a tín
hi u v i chính nó d i i p m u. IV. TRÍCH C TR NG
N 1 p
d ( p) n 0
x(n) x(n p) (9) 1. Trích c tr ng b ng LPC [4]

N u x(n) là tín hi u tu n hoàn v i chu k T (m u) B c 1: L c nhi u, s d ng b l c thông cao có


thì AMDF s t c c ti u n u tín hi u b d i i m t hàm truy n:
o n úng b ng T m u. s
H ( s) (10)
s wc
Nh n d ng gi ng c a ng i có t n s c b n t
80Hz (t ng ng v i s m u là n 1=Fs / 80) n 200Hz v i t n s c t d i là 300 Hz l c nhi u t n s
(t ng ng n2=Fs/200, Fs là t n s l y m u). th p do microphone gây ra.

S tính AMDF c a tín hi u v i d i thay i t B c 2: Pre-emphasis, s d ng b l c thông cao có


n2 n n1. Gi s AMDF t c c ti u ng v i d i áp ng xung:
P0 (m u). ó chính là chu k c a tín hi u (ho c g n y(n) = x(n) – a*x(n-1) v i 0.9 a 1 (11)
v i chu k c a tín hi u nh t), và t n s c b n c a tín B c 3: Tách i m u và cu i c a m t t dùng
hi u là F0=Fs/P0. Giá tr này chính là c tr ng c a hàm n ng l ng th i gian ng n:
m N 1 2
tín hi u v m t thanh i u.
Em [ x( n) * w( n m)] (12)
Do ti ng nói là tín hi u không d ng nên c m i n m

30ms ph i tính l i các giá tr m i. T t c các giá tr B c 4: Phân o n thành các frame (frame này
tính c s là c tr ng c a m t t và c dùng khác v i các frame trong giai o n tìm i m u i m
hu n luy n m ng neuron. cu i), m i frame có N m u, ch ng l p M m u,
1
th ng M N.
3
B c 5: C a s hóa. Hàm c a s thông d ng nh t (19)
là c a s Hamming c nh ngh a nh sau: Trong ó giá tr C kho ng 1/3 biên c c ic a
0.54 0.46 cos( 2 n / M ) 0 n M (13) tín hi u.
w( n )
0 n [0, M ] B c 5: Tín hi u sau khi xén c a n hàm l y
B c 6: Xác nh các h s d báo tuy n tính dùng hi u biên trung bình :
thu t toán Levinson-Durbin. N 1 p
d ( p) n 0
x ( n) x(n p) (20)
B c 7: Chuy n các h s d báo tuy n tính thành
trong ó N là dài khung và p c l y trong
các h s cepstral.
kho ng pitch t ng ng v i t n s c b n 80-200Hz.
1m1
cm am kc k a m k v i 1 m P (14) Ch n P0 có d c c ti u, ó chính là chu k pitch và t n
mk1 s c b n là Fs/P0. i v i các khung có d(P0) > 0.7
1m1 dmax(p) c phân lo i là khung vô thanh và gán F0 =
Và c m kc k a m k v i m >P (15)
k k1 0.
Các h s cepstral này có t p trung cao h n và B c 6: Sau khi ã xác nh F0 c a toàn b âm ti t,
áng tin c y so v i các h s d báo tuy n tính. Thông c n ph i x lý các khung có F0 = 0. N u các khung là
th ng ch n Q =3/2P. vô thanh u hay cu i âm ti t, thay các khung ó
B c 8: Chuy n sang cepstral có tr ng s : b ng F0 c a khung h u thanh k c n. N u các khung
c’ m = wmcm v i 1 m Q (16) vô thanh gi a âm ti t thì thay F0 c a khung ó b ng
Hàm tr ng s thích h p là b l c thông d i (trong trung bình c a hai khung h u thanh hai bên.
mi n cepstral) B c 7: ng nét F0 c làm tr n b ng b l c
Q m (17) trung bình có tr ng s v i áp ng xung
wm 1 sin 1 m Q
2 Q h=[0.1 0.2 0.4 0.2 0.1]
B c 9: Tính o hàm cepstral. B c 8: Do s ngõ vào c a m ng neuron là c nh
dc m (t ) K
nên c n chu n hóa kích th c F0, nên c ng ph i
c m (t ) kc m (t k) (18)
dt k K chu n hóa l n c a F0 và chuy n qua thang log:
v i là h ng s chu n và (2K+1) là s l ng frame F0n[i] = -20log(F0 a[i] –min + )/(max-min) v i
c n tính. K= 3 là giá tr thích h p tính o hàm c p i=0,1, …, L-1
m t. max và min là giá tr c c i và c c ti u c a F0 l y
Vect c tr ng c a tín hi u g m Q h s cepstral trên toàn b d li u, là s d ng tránh log0.
và Q h s o hàm cepstral. B c 9: L y L giá tr o hàm c a logF0, ghép L
2. Trích chu k c b n b ng AMDF [3] giá tr logF0 v i L giá tr o hàm thành vect c
B c 1, b c 2 và b c 3 gi ng nh ph ng pháp tr ng c a t .
LPC. i v i b l c nhi u, s d ng b l c thông cao
có t n s c t là 60Hz do t n s c b n c a ng i t V. HU N LUY N M NG VÀ K T QU THU
C
80Hz n 200Hz.
B c 4: Tín hi u s c xén b t nh m làm n i rõ 1. Hu n luy n m ng dùng LPC
chu k c b n: Tín hi u ti ng nói s c trích c tr ng b ng
ph ng pháp LPC-cepstrum. Vect c tr ng c a m i
t có 144 h s . Nh v y m ng neuron s có 144 ngõ
vào, s nút xu t: 10 (t ng ng v i 10 s ), s nút n: “chín”. u tiên, dùng ph ng pháp AMDF nh n
220. d ng xem t thu c nhóm nào, sau ó s a qua m ng
Tr c d c là ch s c nh n d ng, s k t qu neuron th hai xác nh t c th . Nh v y s c n
nh n d ng úng th hi n ng chéo, tr c ngang ba m ng neuron, hai m ng nh n d ng theo ph ng
th hi n s l n s nh n d ng sai. pháp AMDF và m ng th ba nh n d ng theo ph ng
B ng 1: K t qu nh n d ng hu n luy n m ng dùng LPC pháp LPC.
Không, m t, hai, ba, b n, n m, sáu,
0 1 2 3 4 5 6 7 8 9
0 98 2
1 84 13 1 2
2 88 12 Ph ng pháp AMDF: M ng 10
3 100 nút nh p, 40 nút n, 2 nút xu t
4 6 91 3
5 2 84 1 13
6 1 98 1 Không, hai, ba, b n, n m M t,
7 4 1 94 1 sáu, tám, chín b y
8 1 99
9 100
chính xác trung bình: 93,6% Ph ng pháp LPC: M ng Ph ng pháp AMDF
Ví d c nh n d ng 100 l n s 1 , nh n d ng úng 144 nút nh p, 220 nút n, 8 M ng 10 nút nh p,
là 84 l n. Nh n d ng sai thành s 4 là 13 l n, s 6 là 1 nút xu t 40 nút n, 2 nút xu t
l n, s 8 là 2 l n .
Trong cách nh n d ng dùng ph ng pháp LPC, ta Không Hai Ba B n N m Sáu Tám Chín M t B y
th y có m t s t có phát âm g n gi ng nhau b nh m Hình 2: S kh i ph ng pháp nh n d ng
l n nhi u. Ví d , t “m t” và “b n” , “hai”, và “b y”,
“n m”, và “tám”. kh c ph c hi n t ng này, kh o B ng 2: K t qu nh n d ng hu n luy n m ng
dùng LPC k t h p AMDF
sát gi i pháp AMDF k t h p LPC.
0 1 2 3 4 5 6 7 8 9
2. Hu n luy n dùng LPC k t h p v i AMDF 0 97 1 2
V i ý t ng c n ph i phân chia t p m u nh n d ng 1 99 1
2 96 1 1 2
kh c ph c nh ng h n ch c a ph ng pháp LPC, 3 99 1
ph ng pháp trích c tr ng dùng AMDF t ra có 4 4 1 1 90 1 2 1
hi u qu khi tách c t “b y” và t “m t” ra m t 5 1 94 5
nhóm riêng. Nh trên ã c p, ph ng pháp AMDF 6 1 95 4
7 1 2 97
ch trích c tr ng v m t thanh i u c a tín hi u nên 8 1 3 1 95
ít b nh h ng v m t phát âm nh ph ng pháp 9 100
LPC. M t khác, n u xét v m t thanh i u thì thanh chính xác trung bình: 96,2%
ngang s g n gi ng v i thanh s c, và hai thanh này Ví d nh n d ng úng s 1 là 99 l n , sai s nh n
khác xa so v i thanh n ng và thanh h i, nên vi c tách d ng là 1 l n . chíng xác nh n d ng cao nh s k t
t “m t” và t “b y” ra là có th . h p x lý h p lý.
Ph ng pháp nh n d ng: T p m u c chia làm Nh n xét v ph ng pháp AMDF:
hai nhóm: nhóm 1 g m nh ng t thanh h i và thanh Nh v y vi c k t h p hai ph ng pháp LPC và
n ng, t ng ng v i “m t” và “b y”, nhóm 2 g m AMDF ã nâng cao xác su t nh n d ng úng, th i
nh ng t thanh ngang và thanh s c, t ng ng v i các gian hu n luy n có t ng lên không áng k . u i m
t “không”, “hai”, “ba”, “b n”, “n m”, “sáu”, “tám”, c a AMDF là s ngõ vào ít, kích th c m ng hu n
luy n nh . M t khác, ph ng pháp AMDF là ít ph M ng neuron c ng c th nghi m v i m t s t
thu c vào cách phát âm nên t l c sai s th p h n ghép nh : xoay trái, xoay ph i, xoay lên, xoay
so v i ph ng pháp LPC. Tuy nhiên, khuy t i m c a xu ng, i t i, i lui, d ng l i, ti p t c. M i t c
ph ng pháp AMDF là ch phân bi t ti ng nói v m t c ng t qu ng, ví d t “xoay trái” c c có s
thanh i u, do ó kh n ng ng d ng trong th c ti n ng t quãng gi a t “xoay” và t “trái”.
là h n ch . M t khuy t i m khác là ph ng pháp này
Các k t qu kh o sát trên cho th y vi c nh n d ng
r t khó s d ng trong tr ng h p t c liên t c.
có chính xác r t cao.
So v i AMDF, ph ng pháp LPC cho ra k t qu c
B ng 4: K t qu v i b t v ng i u khi n dùng m ng
th h n, nh ng có khuy t i m là s c tr ng khá l n
neuron
và d b tác ng b i cách phát âm c a ng i nói.
Xoay Xoay Xoay Xoay i i Ti p D ng
T nh ng u và khuy t i m c a ph ng pháp LPC lên xu ng trái ph i t i Lui t c l i
và ph ng pháp AMDF, cho th y h ng k t h p hai Xoay 199 1
ph ng pháp này là h p lý. Tuy nhiên, c n ph i có lên
Xoay 3 194 3
nh ng nghiên c u y h nn a có th m r ng
xu ng
lên b t v ng l n h n c ng nh ng d ng ph ng Xoay 199 1
pháp AMDF r ng rãi h n trong th c ti n. L u ý là s trái
c r i r c, m i ng i c hu n luy n c x lý c Xoay 200
ph i
l p. i 200
u i m c a m ng neuron trong nh n d ng ti ng t i
nói. Th nh t là v m t t c hu n luy n c ng nh i 200
Lui
t c nh n d ng, m ng neuron t ra v t tr i. Th Ti p 200
hai là u th trong vi c m r ng b t v ng , c t c
phát tri n thêm cho nh n d ng t i u khi n d i ây. D ng 200
l i
B ng 3: K t qu v i b t v ng i u khi n chính xác trung bình: 99,5%
Lên Xu ng Trái Ph i T i Lui Xoay D ng
Lên 200 VI. H NG PHÁT TRI N
Xu ng 200
Trái 196 4 Vi c k t h p LPC v i AMDF cho k t qu nh n
Ph i 200 d ng ti ng nói ti ng vi t r t cao nh k t h p h p lý
T i 200 ph ng pháp nh n d ng. B c ti p theo là phát tri n
Lui 198 2 b t v ng l n h n, nâng c p gi i thu t.
Xoay 1 197 2 Ph ng pháp AMDF làm vi c r t t t v i t cr i
D ng 200 r c. Tuy nhiên, hi n nay ph ng pháp này ch a c
chính xác trung bình: 99,4% khai thác t t, có th là vì nó ch phân bi t c ti ng
3. Nh n d ng t i u khi n nói v m t thanh i u. C n có nh ng ý t ng k t
h p ph ng pháp này v i nh ng ph ng pháp khác
Bài báo này c ng xây d ng b t v ng nh g m
nh m nâng cao chính xác và nh n d ng trên n n
m t s t nh m m c ích i u khi n t ng. B t
nhi u
v ng: lên, xu ng, trái, ph i, t i, lui, xoay, d ng.
Vi c hu n luy n b t i u khi n không khác gì so Nghiên c u kh n ng k t h p m ng neuron v i
v i hu n luy n b t v ng s c trình bày ph n nh ng công c khác trong nh n d ng ti ng Vi t, ví d
trên. v i logic m , v i wavelet …
Xây d ng b nh n d ng t c liên t c dùng mô and Computer Networks in MIT Cambidge, USA.
hình âm v , nhi u ng i nói. November 08 to November 10, 2004.

[6] Cao Xuân H o, “Ti ng Vi t m y v n ng âm – ng


TÀI LI U THAM KH O:
pháp – ng ngh a”, Nhà xu t b n Giáo D c, 1998.
[1] Lê Ti n Th ng, Hoàng ình Chi n. “Vietnamese
Speech Recognition Applied to Robot Communications” . [7] Claudio Becchetti and Lucio Prina Ricotti, “Speech
Au Journal of Technology, Volume 7 No. 3 January 2004. recognition. Theory & C++ Implementation” , Fondazione
Published by Assumption University (ABAC) Hua Mak, Ugo Bordoni, Rome, Italy. John Wiley and Sons, LTD.
Bangkok, Thailand.
[8] Patrick M.Mills, “Fuzzy Speech Recognition”,
[2] Lê Ti n Th ng (ch nhi m), Hoàng ình Chi n, University of South Carolina-1996.
Tr n Ti n c… “ ng d ng Wavelets nh n d ng ti ng nói
ti ng vi t trong i u khi n và thông tin”. Báo cáo nghi m [9] Quách Tu n Ng c, “X lý tín hi u s ”, Nhà Xu t b n
thu tài NCKH tr ng i m HQG TP HCM ngày 28-01- Giáo d c, 1995.
2004.
[10] Lê Ti n Th ng, Tr n Ti n c, “Nh n d ng ti ng
[3] Lê Ti n Th ng, Tr n Ti n c, “Nh n d ng thanh
nói ti ng Vi t liên t c b ng m ng neuron”, T p chí Phát
i u ti ng nói ti ng Vi t b ng m ng neuron phân t ng”,
tri n Khoa h c và Công ngh , i h c Qu c gia TP. HCM,
T p chí Tin h c và i u khi n h c, 2004.
s 10, T p 5, 2002.
[4] L.Rabiner and B.H.Juang, “Fundamental of speech
recognition”, Prentice-hall. Englewood Cliffs. New Jersey Ngày nh n bài: 05/08/2005
07632, 1993.
[5] Hoàng ình Chi n, Lê Ti n Th ng. “An Efficient
Approach Combining Wavelets And Neural Networks For
Signal Procesing In Digital Communications” . Proceedings
of IASTED-International Conference on Communication

S L C TÁC GI
HOÀNG ÌNH CHI N
Sinh ngày: 17-4-1955 t i Qu ng Ngãi.
T t nghi p i h c MTYCI-Moscow 1979. Nh n
b ng Th c s i n t Vi n thông, H Bách khoa TP.
HCM n m 1998, nh n b ng Ti n s n m 2003.
Hi n ang gi ng d y t i Khoa i n- i nt , H
Bách khoa TP. HCM,
L nh v c nghiên c u: Truy n thông v tinh, x lý
tín hi u s , h th ng truy n thông, wavelets, neuron
networks.
Email: hdchien@hcmut.edu.vn

You might also like