You are on page 1of 21

NHN DIN NGI NI S DNG

MFCC V GMM
NHM
Nhn din ngi ni Nhm

Mc lc

I. Gii thiu chung .................................................................................................................................. 2


1. Ting ni v nhn din ngi ni .................................................................................................. 2
2. Cc loi nhn din ngi ni ......................................................................................................... 2
3. ng dng ......................................................................................................................................... 3
4. Phng php c trnh by ......................................................................................................... 3
II. H thng nhn din ngi ni ........................................................................................................ 4
III. Rt trch c trng ting ni s dng c trng MFCC ............................................................ 5
1. Tng quan v m ha m thanh, ting ni v c trng ca ting ni ...................................... 5
2. Rt trch c trng Mel-Frequency Cepstrum Coefficients ....................................................... 9
IV. M hnh ha ngi ni s dng gaussian mixture model v nhn din ngi ni ................. 13
1. Phn phi Gaussian v gaussian mixture model ........................................................................ 13
2. M hnh ha ngi ni bng gaussian mixture model............................................................... 15
3. Nhn din ngi ni ...................................................................................................................... 17
V. Thc nghim ...................................................................................................................................... 18
1. Chng trnh ................................................................................................................................. 18
2. Kt qu thc nghim..................................................................................................................... 18
VI. Kt lun .......................................................................................................................................... 19

1
Nhn din ngi ni Nhm

Tm tt
Sinh trc hc hay cng ngh s dng cc c im sinh hc ca con ngi nhn din l
mt lnh vc rt a dng v c nhiu ng dng quan trng trong thc tin. Trong cc lnh vc ca
sinh trc hc, ting ni nhn c rt nhiu s quan tm do tnh t nhin ca ging ni, s d dng
trong thu thp v s dng ging ni trong qu trnh nhn din ngi ni. Nhiu phng php
c nghin cu v t c nhng hiu qu nht nh trong qu trnh nhn din ngi ni.

Bi bo co s ln lt trnh by gii thiu chung v ging ni, cc bi ton trong nhn din
ngi ni v cc phng php nhn din ngi ni. Sau , bi bo co s i su vo phng php
rt trch c trng MFCC v m hnh ha ngi ni s dng GMM. Cui cng, bi bo co s
trnh by mt s kt qu thc nghim nhn din ngi ni da trn phng php va c trnh
by.

I. Gii thiu chung


1. Ting ni v nhn din ngi ni

Ting ni l hnh thc giao tip c bn nht ca con ngi. Ting ni ca con ngi bao gm
rt nhiu loi thng tin: Ni dung ca li ni (t v ngn ng), cm xc ca ngi ni, gii tnh
v nh danh ngi ni Mc tiu ca qu trnh nhn dng ngi ni l rt trch, m t v nhn
din ngi da vo cc c trng ca ting ni.

2. Cc loi nhn din ngi ni

Nhn din ngi ni thng c chia lm hai nhnh khc nhau l xc nhn ngi ni (speaker
verification) v nh danh ngi ni (speaker identification).

Hnh 1: Cc nhnh ca bi ton nhn din ngi ni

2
Nhn din ngi ni Nhm

Xc nhn ngi ni l qu trnh xc nhn ngi hin ti c phi l ngi mong mun da
vo ging ni. Qu trnh ny l qu trnh xc nh c / khng v khng quan tm c th
ngi ni l ai
nh danh ngi ni li c chia lm hai nhnh nh hn, l nh danh ngi ni trn tp
m v nh danh ngi ni trn tp ng. nh danh ngi ni trn tp m cn phi xc
nh xem ngi ni l ai trong danh sch ngi ni bit, hoc kt lun ngi ny khng
thuc danh sch ngi ni bit. nh danh ngi ni trn tp ng ch xt d liu chc
chn l ca mt ngi trong danh sch nhng ngi bit.
Ngoi ra, da vo thut ton, ngi ta cng chia ra hai loi, l nhn din ngi ni ph thuc
vn bn v nhn din ngi ni khng ph thuc vn bn. Nhn din ngi ni ph thuc vn bn
yu cu ngi ni phi ni chnh xc nhng t c cho trc, trong khi nhn din ngi
ni khng ph thuc vn bn c th nhn din khi ngi ni ni bt c t g.

3. ng dng

ng dng ca h thng nhn din ngi ni trn thc t l cc k a dng. Mt s ng dng


gn y c th c k n nh sau:
Vo thng 5/2013, Barclays Wealth cng b rng ng dng h thng nhn dng
ngi ni xc minh cc khch hng qua in thoi trong 30 giy thng qua mt cuc
tr chuyn bnh thng. H thng ny c pht trin bi chuyn gia phn tch ging
ni Nuance cng ty ng sau cng ngh ca siri ca Apple.
Cc ngn hng t nhn ca Barclays l cng ty dch v ti chnh u tin trin khai sinh
trc hc bng ging ni xc minh khch hng gi n trung tm ca h. 93% khch
hng nh gi h thng ny 9/10 im v tc , d s dng v bo mt.
Thng 8/2014 tp on GoVivace pht trin mt h thng nhn dng ngi ni cho php
h tm kim mt ngi trong hng triu ngi ch bng cch n gin l ghi m ging
ni ca h.

H thng nhn dng ngi ni cn c th dng s dng trong iu tra hnh s.

4. Phng php c trnh by

C rt nhiu phng php rt trch c trng nh MFCC, LPCC v phng php phn lp, m
hnh ha ngi ni nh s dng HMM, GMM, hay khng m hnh ha v s dng mt thut ton
phn lp nh neural networks, SVM. Bi bo co s tp trung trnh by phng php nhn din
ngi ni khng ph thuc vn bn trn tp ng s dng c trng MFCC (Mel Frequency
Cepstrum Coeffecient) v GMM (Gaussian mixture model).

3
Nhn din ngi ni Nhm

II. H thng nhn din ngi ni


Qu trnh nhn din ngi ni c thc hin qua cc pha. C hai pha trong qu trnh ny:

Hnh 2: S pha ng k ngi ni

Pha ng k ngi ni: Ting ni ca ngi cn nhn din c thu thp v s dng
hun luyn m hnh. Tp cc m hnh ca nhiu ngi ni cn c gi l c s d liu
ngi ni.

Hnh 3: S pha nhn din ngi ni

Pha nh danh ngi ni: D liu ting ni ca mt ngi dng khng r nh danh
c a vo h thng v so khp vi cc m hnh trong c s d liu ngi ni.
Chi tit hai pha nh sau:
C hai pha u c chung hai bc u. Bc u tin l thu thp ting ni. Ting ni c
th c thu thp thng qua micro v chuyn thnh tn hiu ri rc tn hiu s (digital).
Tuy nhin d liu ny thng thng s b nhiu, do cn phi c tin x l trc
khi a vo pha bc th hai.

4
Nhn din ngi ni Nhm

Bc th hai l rt trch c trng, nhm mc ch gim kch thc d liu nhng


vn m bo thng tin phn bit ngi ni. Trong bi bo co s trnh by c
trng MFCC.
bc th ba ca pha ng k, thng tin ngi ni sau khi c rt trch c trng
c m hnh ha (modeling) v lu vo c s d liu. Bi bo co s s dng Gaussian
mixture model m hnh ha d liu ngi ni v s dng EM (Expectation
Maximization) xy dng GMM tng ng vi cc c trng MFCC c truyn vo.
bc th ba ca pha nh danh, d liu rt trch c so khp vi cc d liu trong
c s d liu v a ra quyt nh xem ngi l ai.
C th thy hai pha c thc hin tch bit nhau nhng c lin quan rt gn vi nhau, trong
hai pha kh thc hin nht l rt trch c trng v m hnh ha, so khp d liu. Phn tip
theo ca bi bo co s trnh by cc chnh trong thut ton rt trch c trng v m hnh ha.

III. Rt trch c trng ting ni s dng c trng MFCC


1. Tng quan v m ha m thanh, ting ni v c trng ca ting ni
a. M ha m thanh
C nhiu phng php m ho m thanh.
Cch n gin nht l m ho bng cch xp x dao ng sng m bng mt chui cc byte th
hin bin dao dng tng ng theo tng khong thi gian bng nhau. Cc n v thi gian
ny cn phi nh khng lm ngho m thanh. n v thi gian ny gi l tn s ly mu
(sample rate). Gi tr ti mi ln ly mu c biu din trong mt min gi tr xc nh c gi
l su s (bit depth). Khi pht, mt mch in s khi phc li sng m vi mt sai lch chp
nhn c.

Hnh 4: S ha tn hiu m thanh

5
Nhn din ngi ni Nhm

Tn s ly mu khc nhau:

Hnh 5:Cc phng php ly mu vi tn s khc nhau

su s khc nhau:

Hnh 6: Ly mu vi su s (depth) khc nhau

Mt cch khc l phn tch dao ng m thanh thnh tng cc dao ng iu ho (cc dao ng
hnh sinh vi tn s v bin khc nhau) v ch lu li cc c trng v tn s, v bin .

6
Nhn din ngi ni Nhm

Hnh 7: Chuyn tn hiu min thi gian thnh tn hiu tn s

b. S hnh thnh ging ni


Ging ni l m thanh c thc hin bi mt ngi bng cch s dng nhng np gp thanh
qung ni chuyn, c sch, ht, ci, khc, la ht vv Ging ni l mt phn ca m thanh m
con ngi c th to ra, trong cc np gp thanh qung (dy thanh m) l ngun m thanh chnh.
Cc b phn to ra ting ni ca con ngi c th c chia thnh ba phn; phi, cc np
gp trong thanh qun, v cc b phn cu m.
Phi bm phi y lung khng kh v p sut khng kh lm rung thanh qun. Cc np gp
thanh qun (dy thanh m) l mt van rung bm nh cc lung khng kh t phi vo cc xung m
thanh hnh thnh cc ngun m thanh qun. Cc c bp ca thanh qun iu chnh di v
cng ca nhng np gp thanh m iu chnh cao v m sc. Cc b phn cu m (gm li,
vm ming, m, mi, vv) lc nhng m thanh pht ra t thanh qun v n mc no c th
tng tc vi cc lung khng kh thanh qun tng cng hoc suy yu n nh mt ngun m
thanh. Cc np gp thanh qung kt hp vi cc b phn cu m, c kh nng to ra cc cc m
rt phc tp.

7
Nhn din ngi ni Nhm

Hnh 8: Cc b phn to thnh ting ni

c. Rt trch thng tin t ting ni.


Tn hiu ting ni bao gm rt nhiu loi thng tin khc nhau v ngi ni. Thng tin ny bao
gm cc thng tin cp cao nh h ngn ng, ng cnh, phong cch ni, tnh trng cm xc v.v...
Vic s dng cc thng tin cp cao ny vo vic s dng nhn din ngi ni c nghin
cu kh nhiu nhng rt kh thc hin v khng th ng dng trong thc t. Thay vo , cc
thng tin cp thp nh cao (pitch), cng , tn s, bng tn, ph m thanh v.v.. c s dng
v p dng thnh cng hn.
Thng tin c lu tr trong ting ni rt nhiu, tuy nhin ta ch cn rt trch lng thng tin
va phn bit gia nhng ngi ni vi nhau. Qu trnh rt trch lng thng tin ny c
gi l qu trnh rt trch c trng ngi ni.
Da trn nhng phn tch trn, c trng ca ngi ni cn c nhng c im sau:
C kh nng phn bit gia cc ngi ni khc nhau nhng ng thi cng khng qu nhy vi
nhng thay i nh trong cch ni chuyn ca cng mt ngi ni.
C th o c c chnh xc.
n nh qua thi gian.
Biu hin mt cch t nhin v thng xuyn trong ting ni.
Thay i t khi thay i mi trng thu m.
Khng d b nh la bi nhng ngi bt chc.

8
Nhn din ngi ni Nhm

Tuy nhin, rt kh c th rt trch cc c trng tha mn tt c cc tnh cht trn. Thng


thng, cc c trng ny c rt trch da trn ph m thanh. Phn tip theo s trnh by phng
php MFCC.

2. Rt trch c trng Mel-Frequency Cepstrum Coefficients

Mel-Frequency Cepstrum Coefficients l c trng thng c dng din t m thanh ting


ni. N da trn quan st l thng tin c mang bi cc thnh phn c tn s thp thng
quan trng hn cc m thanh c tn s cao do ting ni con ngi bin i chm. Cc bc
rt trch c trng ny nh sau:

Hnh 9: M hnh cc bc rt trch c trng MFCC

Bc th nht l windowing, chia tn hiu m thanh ban u thnh cc frame lin tip
nhau. Mi frame ny s c a vo v rt trch c trng MFCC tng ng.
Bc th hai l bin i fourier ri rc. Bc ny nhm chuyn i tn hiu ban u
thnh t hp ca cc sinusoid tng ng vi tng tn s khc nhau.
Bc th ba l bc chuyn tn hiu dng tn s thu c bc hai sang mt vng
tn s theo cm nhn ca tai ngi.
Bc th t l ly log tch tn hiu tn s thp v tn s cao thnh 2 vng khc nhau.
Bc th nm thc hin php bin i fourier o, ta thu c c trng MFCC.
Chi tit ca cc bc nh sau

a. Windowing
Ting ni trn thc t thng bin i chm, do nu thc hin phn tch trn mt khong
thi gian ngn (20 30 ms) th nhng c trng m thanh ca ting ni tng i n nh. Vic
rt trch c trng trn nhng khong thi gian ny nhiu kh nng s din t c c trng ca
ngi ni. Qu trnh ny c gi l short-term analysis.

9
Nhn din ngi ni Nhm

Hnh 10: Qu trnh framing

Tn hiu ni ban u c chuyn thnh cc frame c kch thc c nh (20-30 ms), mi


window s c mt phn chng ln nhau (30 50%) vi cc frame cnh n nhm trnh mt mt
thng tin. trnh bin i t ngi cui frame, mi frame thng c nhn vi mt hm
window (window function), m ph bin nht l hamming window function:
2
() = 0.54 0.64 ( )
1
Vi N l kch thc ca frame. Kt qu thu c s c ln lt a v qu trnh rt trch
c trng.

Hnh 11: Tn hiu trc v sau khi p dng hm window

b. Discrete fourier transform


Mi frame thu c sau qu trnh x l s c a vo php bin i fourier ri rc chuyn
t min thi gian sang min tn s. Sau khi thc hin bin i ny, ta thu c mt biu din khc

10
Nhn din ngi ni Nhm

ca m thanh c gi l cepstrum. Biu din ny th hin tt hn s bin i v c trng ting


ni nm trong m thanh.

Hnh 12: Cepstrum

Bin i Fourier hay chuyn ha Fourier, c t tn theo nh ton hc ngi Php Joseph
Fourier, l mt bin i tch phn dng khai trin mt hm s theo cc hm s sin c s, c
ngha l di dng tng hay mt tch phn ca cc hm s sin c nhn vi cc hng s khc
nhau (hay cn gi l bin ). Bin i Fourier c rt nhiu dng khc nhau, chng ph thuc vo
dng ca hm c khai trin.
Trong ton hc, php bin i Fourier ri rc (DFT), i khi cn c gi l bin i Fourier
hu hn, l mt bin i trong gii tch Fourier cho cc tn hiu thi gian ri rc. u vo ca bin
i ny l mt chui hu hn cc s thc hoc s phc, lm bin i ny l mt cng c l tng
x l thng tin trn cc my tnh. c bit, bin i ny c s dng rng ri trong x l tn
hiu v cc ngnh lin quan n phn tch tn s cha trong trong mt tn hiu, gii phng
trnh o hm ring, v lm cc php nh tch chp. Bin i ny c th c tnh nhanh bi
thut ton bin i Fourier nhanh (FFT).
Mt bin i Fourier nhanh (FFT) l mt thut ton hiu qu tnh bin i Fourier ri rc
(DFT) v bin i ngc. Khi ci t thc t, ta s dng php FFT ny ln cc frame, kt qu s
c chuyn qua bc tip theo, l lc Mel-frequency.

c. Lc mel-frequency

11
Nhn din ngi ni Nhm

Sau bc bin i DFT, ta thu c thng tin v tn hiu di dng tn s v cng . Tuy
nhin, tai ngi cm nhn m thanh khng ging vi nhng bin i vt l ca m thanh. Do ,
ngi ta s dng mt thang o tn s khc c gi l tn s mel, c o theo cm nhn ca tai
con ngi. Bng chuyn i tn s vt l sang thang o mel nh sau, ngi ta ly 1000 Hz lm
mc chuyn i gia hai thang o:
Hz 40 161 200 404 693 867 1000 2022 3000 3393 4109 5526 6500 7743 12000
mel 43 257 300 514 771 928 1000 1542 2000 2142 2314 2600 2771 2914 3228

Ngi ta xy dng nhiu cng thc chuyn t Hz sang mel, trong ph bin nht l cng
thc ca Lindsay v Loman:

Thng qua mt b lc, ngi ta c th tnh ton li tn s v bin thang o Hz sang thang
o mel, khi ta thu c mt vector tn s v bin mi.

Hnh 13: B lc mel

d. Ly log v php bin i fourier o


Tn hiu ting ni ca con ngi c th c biu din bi hai thnh phn l nhng thnh
phn bin i nhanh v vng bin i chm. Cc nh ph m thanh cng vi
C th biu din s tng quan ca hai thng tin nhanh v chm ny nh sau:
|S(x)| = |E(x).H(x)|
Trong E(x) l thnh phn c tn s cao, H(x) l thnh phn c tn s thp, S(x) l tn hiu
gc.
Khi thc hin logarit trn biu thc trn, ta c th chuyn tng thnh tch nh sau:
log(|S(x)|) = log(|E(x)|) + log(|H(x)|)

12
Nhn din ngi ni Nhm

thc hin phn tch, ngi ta thc hin mt mo, l s dng php bin i fourier trn
chnh log(|S(x)|) v php bin i ny c gi l php bin i fourier o. T kt qu ca php
bin i ny, ta c th lc ra hai vng c tn s cao v thp, vng cn ly l vng c tn s thp.
Biu din trc quan ca cch lm ny nh sau:

Hnh 14: IDFT v lc kt qu ra c trng MFCC

Kt qu thu c sau ton b qu trnh ny l c trng Mel-frequency Cepstral Coefficients.


Mi frame s thu c mt vector c trng v cc vector ny s c a vo qu trnh m hnh
ha v nhn din ngi ni.

IV. M hnh ha ngi ni s dng gaussian mixture model v nhn din


ngi ni
1. Phn phi Gaussian v gaussian mixture model

Phn phi chun hay cn gi l phn phi gaussian l mt phn phi quan trng thng gp
trong i sng v trong k thut. Phng trnh mt xc sut ca phn phi ny nh sau:
1 ( )2
(, , ) = ( )
2 2 2

13
Nhn din ngi ni Nhm

Trong l trung bnh (hay k vng), l l lch chun. Phn phi xc sut c dng nh
hnh chung:

Hnh 15: Phn phi mt xc sut ca phn phi chun

Vi hm nhiu bin, phng trnh mt xc sut ca gaussian nh sau:


1 1
(, , ) = 1 exp ( 2
( ) . 1 ( ))
(2) ||2
2

Vi x l mt vector, l vector k vng, l ma trn hip phng sai, N l kch thc ca


vector x.

Hnh 16: Phn phi chun 2 bin

M hnh trn gaussian (gaussian mixture model) l tng c trng s ca nhiu thnh phn phn
phi gaussian c s, c th nh sau:

14
Nhn din ngi ni Nhm

() = . ()
=1

Vi pi l trng s ca thnh phn th i, bi(x) l mt xc sut ca thnh phn th i vi x, M


l tng s thnh phn. Tng ca pi bng 1.

Hnh 17: M hnh trn gaussian

2. M hnh ha ngi ni bng gaussian mixture model

C hai nguyn nhn chnh khin cho gaussian mixture model c s dng cho m hnh ha
ngi ni. Ngi ta thy rng ting ni cng c to thnh t nhiu lp m thanh khc nhau,
c to thnh khi i qua li, thanh qun, ming to thnh nguyn m, ph m, hi khc nhau.
Mt khc, vic s dng gaussian mixture model cho php biu din c s lng rt ln nhng
m hnh phn phi khc nhau tng ng vi nhng ngi ni khc nhau. Do , GMM c th
c s dng m hnh ha cc ngi ni khc nhau.
Vic xy dng m hnh ngi ni c da trn cc vectors MFCCs c ly t giai on rt
trch c trng. Phng php thng ng s dng l phng php maximum likelihood
nhm tm nhng h s ca m hnh gaussian sao cho xc sut ca cc vector hun luyn l cao
nht. C th, likelihood c th vit di dng:

(|) = ( |)
=1

15
Nhn din ngi ni Nhm

Vi X = {x1, x2xT) l cc vector hun luyn, l m hnh cn tm.


Tuy nhin, hm trn l mt hm phi tuyn v khng th maximize n mt cch trc tip c,
thay vo , ngi ta x dng thut ton Expectation Maximization (EM) lp li tun t tm
m hnh ti u.
Chi tit thut ton: Ban u khi to mt m hnh vi cc h s ngu nhin. Sau mi ln lp,
c lng li cc h s sau:
Trng s

1
= (| , )

=1

K vng:
=1 (| , )
=
=1 (| , )
Phng sai:
=1 (| , )
2 = 2
=1 (| , )
( )
Vi (| , ) =
=1 ( )

Trong , M l s m hnh gaussian c s. Theo tc gi thut ton, s M vo khong 20 32


em li kt qu tt nht.

16
Nhn din ngi ni Nhm

Hnh 18: M t cch thc hot ng ca EM

3. Nhn din ngi ni

Sau khi c c m hnh ngi ni, ta c th nhn din ngi ni vi d liu mi ban u.
D liu mi s c qua tin x l, rt trch c trng MFCC v a vo so khp vi cc m hnh
c lu trong c s d liu.
Gi s tp ngi ni gm S ngi c biu din bi S m hnh GMM 1 , 2 , . Mc tiu
l tm m hnh cho xc sut tin nhim cao nht vi mt d liu u vo mi thm vo, c th:
(| )Pr( )
= 1 Pr( |) = 1
()
Theo lut Bayes. Gi s xc sut ca ngi ni Pr( ) u bng nhau, do xc sut p(X) nh
nhau vi mi m hnh ngi ni, cng thc trn c th n gin li nh sau:

= 1 (| )
Trong thc t vi nhiu vector c trng MFCC c rt trch t mt mu m thanh ban u,
h thng nhn din ngi ni thc hin tnh nh sau:

= 1 ( | )
=1

17
Nhn din ngi ni Nhm

V. Thc nghim
1. Chng trnh
Chng trnh c xy dng da trn on m ngun rt trch c trng MFCC ca Kamil
Wojcicki (http://www.mathworks.com/matlabcentral/fileexchange/32849-htk-mfcc-
matlab/content/mfcc/mfcc.m) v m hnh ha ngi ni da trn gaussian mixture model c ci
t sn trong matlab.
File m ngun c vit trong test.m.
C php:

test(nGaussianModels)

Trong :
nGaussianModels l s lng m hnh (25)

2. Kt qu thc nghim

Trong nghin cu gc ca tc gi [6] s dng 16 ngi trong cng mt b d liu, chnh xc


thu c nh sau:
Phng php chnh xc (%)
GMM 94.5
VQ-100 92.9
VQ-50 90.7
RBF 87.2
GC 67.1
Bng 1: So snh chnh xc ca GMM vi mt s phng php m hnh ha khc

B d liu c nhm s dng hun luyn v l b d liu ca Azarias Reda t i hc


Michigan. B d liu gm 35 nam v 48 n, s lng thc s c s dng l 15 nam v 15 n
vi nhiu khong 30%. 4 file u tin dng hun luyn, file cui cng dng kim th.
http://www.azreda.org/audiodata/audio_data_umich.tar.gz

Khi thay i s lng m hnh gaussian vi s chiu MFCC l 12, chnh xc ca chng
trnh bin i nh sau

18
Nhn din ngi ni Nhm

chnh xc khi thay i s m hnh Gaussian vi


s chiu MFCC = 12
80 79.31 79.31

79

78

77

76 75.56

75

74

73
15 20 25

chnh xc khi thay i s m hnh Gaussian vi s chiu MFCC = 12

Biu 1: nh hng ca s nhm Gaussian n chnh xc

C th thy c, s nhm gaussian khong 20 l t c hiu nng v chnh xc tt nht.


Tuy nhin chnh xc ch t 80% do nhm cha x l nhiu v cht lng tn hiu m thanh
khng cao.
Do gii hn ca hm tnh cc tham s ca gaussian mixture models trong matlab nn nhm
khng th tng s chiu ca c trng MFCC ln c.

VI. Kt lun
Nhn din ngi ni c nhiu ng dng trong thc t cuc sng. Nhn din ngi ni l mt
bi ton c nghin cu t rt lu v c nhiu thut ton c s dng trong qu trnh nhn
dng ngi ni.
Phng php nhn din ngi ni s dng c trng MFCC v m hnh ha s dng GMM
em li kt qu tng i n nh vi chnh xc cao, tuy nhin chnh xc d b nh hng
bi cht lng u thu v nhiu. Do , qu trnh tin x l ng vai tr rt quan trng n
chnh xc ca thut ton.

*Ti liu tham kho:


1. Anil K. Jain, Patrick Flynn, Arun A. Ross: Handbooks of Biometric, chapter 8: Voice
Biometrics.

19
Nhn din ngi ni Nhm

2. Evgeny Karpov: Real-Time Speaker Identification, Masters Thesis at University of


Joensuu.
3. Ling Feng: Speaker Recognition, Masters Thesis at Technical University of Denmark.
4. Phm Minh Nht: nh danh ngi ni c lp vn bn bng m hnh thng k, Lun
vn thc s ti i hc Khoa hc t nhin i hc Quc Gia TPHCM.
5. Kishore Prahallad: Speech Technology Courses slides at CMU.
6. Douglas Reynolds, Richard Rose: Robust text-independent Speaker Identification using
Gaussian mixture models, IEEE Transactions on Speech and Audio Processing, Vol 3, No. 1,
1995

20

You might also like