Professional Documents
Culture Documents
Speaker Recognition - Ok PDF
Speaker Recognition - Ok PDF
MFCC V GMM
NHM
Nhn din ngi ni Nhm
Mc lc
1
Nhn din ngi ni Nhm
Tm tt
Sinh trc hc hay cng ngh s dng cc c im sinh hc ca con ngi nhn din l
mt lnh vc rt a dng v c nhiu ng dng quan trng trong thc tin. Trong cc lnh vc ca
sinh trc hc, ting ni nhn c rt nhiu s quan tm do tnh t nhin ca ging ni, s d dng
trong thu thp v s dng ging ni trong qu trnh nhn din ngi ni. Nhiu phng php
c nghin cu v t c nhng hiu qu nht nh trong qu trnh nhn din ngi ni.
Bi bo co s ln lt trnh by gii thiu chung v ging ni, cc bi ton trong nhn din
ngi ni v cc phng php nhn din ngi ni. Sau , bi bo co s i su vo phng php
rt trch c trng MFCC v m hnh ha ngi ni s dng GMM. Cui cng, bi bo co s
trnh by mt s kt qu thc nghim nhn din ngi ni da trn phng php va c trnh
by.
Ting ni l hnh thc giao tip c bn nht ca con ngi. Ting ni ca con ngi bao gm
rt nhiu loi thng tin: Ni dung ca li ni (t v ngn ng), cm xc ca ngi ni, gii tnh
v nh danh ngi ni Mc tiu ca qu trnh nhn dng ngi ni l rt trch, m t v nhn
din ngi da vo cc c trng ca ting ni.
Nhn din ngi ni thng c chia lm hai nhnh khc nhau l xc nhn ngi ni (speaker
verification) v nh danh ngi ni (speaker identification).
2
Nhn din ngi ni Nhm
Xc nhn ngi ni l qu trnh xc nhn ngi hin ti c phi l ngi mong mun da
vo ging ni. Qu trnh ny l qu trnh xc nh c / khng v khng quan tm c th
ngi ni l ai
nh danh ngi ni li c chia lm hai nhnh nh hn, l nh danh ngi ni trn tp
m v nh danh ngi ni trn tp ng. nh danh ngi ni trn tp m cn phi xc
nh xem ngi ni l ai trong danh sch ngi ni bit, hoc kt lun ngi ny khng
thuc danh sch ngi ni bit. nh danh ngi ni trn tp ng ch xt d liu chc
chn l ca mt ngi trong danh sch nhng ngi bit.
Ngoi ra, da vo thut ton, ngi ta cng chia ra hai loi, l nhn din ngi ni ph thuc
vn bn v nhn din ngi ni khng ph thuc vn bn. Nhn din ngi ni ph thuc vn bn
yu cu ngi ni phi ni chnh xc nhng t c cho trc, trong khi nhn din ngi
ni khng ph thuc vn bn c th nhn din khi ngi ni ni bt c t g.
3. ng dng
C rt nhiu phng php rt trch c trng nh MFCC, LPCC v phng php phn lp, m
hnh ha ngi ni nh s dng HMM, GMM, hay khng m hnh ha v s dng mt thut ton
phn lp nh neural networks, SVM. Bi bo co s tp trung trnh by phng php nhn din
ngi ni khng ph thuc vn bn trn tp ng s dng c trng MFCC (Mel Frequency
Cepstrum Coeffecient) v GMM (Gaussian mixture model).
3
Nhn din ngi ni Nhm
Pha ng k ngi ni: Ting ni ca ngi cn nhn din c thu thp v s dng
hun luyn m hnh. Tp cc m hnh ca nhiu ngi ni cn c gi l c s d liu
ngi ni.
Pha nh danh ngi ni: D liu ting ni ca mt ngi dng khng r nh danh
c a vo h thng v so khp vi cc m hnh trong c s d liu ngi ni.
Chi tit hai pha nh sau:
C hai pha u c chung hai bc u. Bc u tin l thu thp ting ni. Ting ni c
th c thu thp thng qua micro v chuyn thnh tn hiu ri rc tn hiu s (digital).
Tuy nhin d liu ny thng thng s b nhiu, do cn phi c tin x l trc
khi a vo pha bc th hai.
4
Nhn din ngi ni Nhm
5
Nhn din ngi ni Nhm
Tn s ly mu khc nhau:
su s khc nhau:
Mt cch khc l phn tch dao ng m thanh thnh tng cc dao ng iu ho (cc dao ng
hnh sinh vi tn s v bin khc nhau) v ch lu li cc c trng v tn s, v bin .
6
Nhn din ngi ni Nhm
7
Nhn din ngi ni Nhm
8
Nhn din ngi ni Nhm
Bc th nht l windowing, chia tn hiu m thanh ban u thnh cc frame lin tip
nhau. Mi frame ny s c a vo v rt trch c trng MFCC tng ng.
Bc th hai l bin i fourier ri rc. Bc ny nhm chuyn i tn hiu ban u
thnh t hp ca cc sinusoid tng ng vi tng tn s khc nhau.
Bc th ba l bc chuyn tn hiu dng tn s thu c bc hai sang mt vng
tn s theo cm nhn ca tai ngi.
Bc th t l ly log tch tn hiu tn s thp v tn s cao thnh 2 vng khc nhau.
Bc th nm thc hin php bin i fourier o, ta thu c c trng MFCC.
Chi tit ca cc bc nh sau
a. Windowing
Ting ni trn thc t thng bin i chm, do nu thc hin phn tch trn mt khong
thi gian ngn (20 30 ms) th nhng c trng m thanh ca ting ni tng i n nh. Vic
rt trch c trng trn nhng khong thi gian ny nhiu kh nng s din t c c trng ca
ngi ni. Qu trnh ny c gi l short-term analysis.
9
Nhn din ngi ni Nhm
10
Nhn din ngi ni Nhm
Bin i Fourier hay chuyn ha Fourier, c t tn theo nh ton hc ngi Php Joseph
Fourier, l mt bin i tch phn dng khai trin mt hm s theo cc hm s sin c s, c
ngha l di dng tng hay mt tch phn ca cc hm s sin c nhn vi cc hng s khc
nhau (hay cn gi l bin ). Bin i Fourier c rt nhiu dng khc nhau, chng ph thuc vo
dng ca hm c khai trin.
Trong ton hc, php bin i Fourier ri rc (DFT), i khi cn c gi l bin i Fourier
hu hn, l mt bin i trong gii tch Fourier cho cc tn hiu thi gian ri rc. u vo ca bin
i ny l mt chui hu hn cc s thc hoc s phc, lm bin i ny l mt cng c l tng
x l thng tin trn cc my tnh. c bit, bin i ny c s dng rng ri trong x l tn
hiu v cc ngnh lin quan n phn tch tn s cha trong trong mt tn hiu, gii phng
trnh o hm ring, v lm cc php nh tch chp. Bin i ny c th c tnh nhanh bi
thut ton bin i Fourier nhanh (FFT).
Mt bin i Fourier nhanh (FFT) l mt thut ton hiu qu tnh bin i Fourier ri rc
(DFT) v bin i ngc. Khi ci t thc t, ta s dng php FFT ny ln cc frame, kt qu s
c chuyn qua bc tip theo, l lc Mel-frequency.
c. Lc mel-frequency
11
Nhn din ngi ni Nhm
Sau bc bin i DFT, ta thu c thng tin v tn hiu di dng tn s v cng . Tuy
nhin, tai ngi cm nhn m thanh khng ging vi nhng bin i vt l ca m thanh. Do ,
ngi ta s dng mt thang o tn s khc c gi l tn s mel, c o theo cm nhn ca tai
con ngi. Bng chuyn i tn s vt l sang thang o mel nh sau, ngi ta ly 1000 Hz lm
mc chuyn i gia hai thang o:
Hz 40 161 200 404 693 867 1000 2022 3000 3393 4109 5526 6500 7743 12000
mel 43 257 300 514 771 928 1000 1542 2000 2142 2314 2600 2771 2914 3228
Ngi ta xy dng nhiu cng thc chuyn t Hz sang mel, trong ph bin nht l cng
thc ca Lindsay v Loman:
Thng qua mt b lc, ngi ta c th tnh ton li tn s v bin thang o Hz sang thang
o mel, khi ta thu c mt vector tn s v bin mi.
12
Nhn din ngi ni Nhm
thc hin phn tch, ngi ta thc hin mt mo, l s dng php bin i fourier trn
chnh log(|S(x)|) v php bin i ny c gi l php bin i fourier o. T kt qu ca php
bin i ny, ta c th lc ra hai vng c tn s cao v thp, vng cn ly l vng c tn s thp.
Biu din trc quan ca cch lm ny nh sau:
Phn phi chun hay cn gi l phn phi gaussian l mt phn phi quan trng thng gp
trong i sng v trong k thut. Phng trnh mt xc sut ca phn phi ny nh sau:
1 ( )2
(, , ) = ( )
2 2 2
13
Nhn din ngi ni Nhm
Trong l trung bnh (hay k vng), l l lch chun. Phn phi xc sut c dng nh
hnh chung:
M hnh trn gaussian (gaussian mixture model) l tng c trng s ca nhiu thnh phn phn
phi gaussian c s, c th nh sau:
14
Nhn din ngi ni Nhm
() = . ()
=1
C hai nguyn nhn chnh khin cho gaussian mixture model c s dng cho m hnh ha
ngi ni. Ngi ta thy rng ting ni cng c to thnh t nhiu lp m thanh khc nhau,
c to thnh khi i qua li, thanh qun, ming to thnh nguyn m, ph m, hi khc nhau.
Mt khc, vic s dng gaussian mixture model cho php biu din c s lng rt ln nhng
m hnh phn phi khc nhau tng ng vi nhng ngi ni khc nhau. Do , GMM c th
c s dng m hnh ha cc ngi ni khc nhau.
Vic xy dng m hnh ngi ni c da trn cc vectors MFCCs c ly t giai on rt
trch c trng. Phng php thng ng s dng l phng php maximum likelihood
nhm tm nhng h s ca m hnh gaussian sao cho xc sut ca cc vector hun luyn l cao
nht. C th, likelihood c th vit di dng:
(|) = ( |)
=1
15
Nhn din ngi ni Nhm
K vng:
=1 (| , )
=
=1 (| , )
Phng sai:
=1 (| , )
2 = 2
=1 (| , )
( )
Vi (| , ) =
=1 ( )
16
Nhn din ngi ni Nhm
Sau khi c c m hnh ngi ni, ta c th nhn din ngi ni vi d liu mi ban u.
D liu mi s c qua tin x l, rt trch c trng MFCC v a vo so khp vi cc m hnh
c lu trong c s d liu.
Gi s tp ngi ni gm S ngi c biu din bi S m hnh GMM 1 , 2 , . Mc tiu
l tm m hnh cho xc sut tin nhim cao nht vi mt d liu u vo mi thm vo, c th:
(| )Pr( )
= 1 Pr( |) = 1
()
Theo lut Bayes. Gi s xc sut ca ngi ni Pr( ) u bng nhau, do xc sut p(X) nh
nhau vi mi m hnh ngi ni, cng thc trn c th n gin li nh sau:
= 1 (| )
Trong thc t vi nhiu vector c trng MFCC c rt trch t mt mu m thanh ban u,
h thng nhn din ngi ni thc hin tnh nh sau:
= 1 ( | )
=1
17
Nhn din ngi ni Nhm
V. Thc nghim
1. Chng trnh
Chng trnh c xy dng da trn on m ngun rt trch c trng MFCC ca Kamil
Wojcicki (http://www.mathworks.com/matlabcentral/fileexchange/32849-htk-mfcc-
matlab/content/mfcc/mfcc.m) v m hnh ha ngi ni da trn gaussian mixture model c ci
t sn trong matlab.
File m ngun c vit trong test.m.
C php:
test(nGaussianModels)
Trong :
nGaussianModels l s lng m hnh (25)
2. Kt qu thc nghim
Khi thay i s lng m hnh gaussian vi s chiu MFCC l 12, chnh xc ca chng
trnh bin i nh sau
18
Nhn din ngi ni Nhm
79
78
77
76 75.56
75
74
73
15 20 25
VI. Kt lun
Nhn din ngi ni c nhiu ng dng trong thc t cuc sng. Nhn din ngi ni l mt
bi ton c nghin cu t rt lu v c nhiu thut ton c s dng trong qu trnh nhn
dng ngi ni.
Phng php nhn din ngi ni s dng c trng MFCC v m hnh ha s dng GMM
em li kt qu tng i n nh vi chnh xc cao, tuy nhin chnh xc d b nh hng
bi cht lng u thu v nhiu. Do , qu trnh tin x l ng vai tr rt quan trng n
chnh xc ca thut ton.
19
Nhn din ngi ni Nhm
20