You are on page 1of 53

Komunikacija čovjek stroj

Stohastičko modeliranje signala


Prikriveni Markovljevi modeli

2018/2019

prof. dr. sc. Ivo Ipšić


Stohastičko modeliranje govora
• modeliranje promjenljivosti (varijabilnost)
govora vektorima značajki za kratkotrajne
vremenske isječke signala govora
• modeliranje vremenske varijabilnosti govora –
izgovor pojedinih glasova, utjecaj položaja
pojedinih glasova unutar riječi, dužina trajanja
pojedinih glasova, ...
govor

FFT

FFT spektar

trokutasti filteri
mel-skale
vektor
MFCC
značajki
(39 elemenata)
diskretna
log kosinusna 13 mel-kepstralnih
transformacija koeficijenata

13 

13 2

prozor 1

prozor 2

prozor3 prozorn

Niz uzoraka
govornog signala
...

uzorak 1 uzorak 2 uzorak 3 uzorak n

 2-1 3-2 ... n-n-1

2 3-2-2-1 4-3-3-2 ... n-n-1-n-1-n-2


Stohastičko modeliranje govora
• pomoću teorije vjerojatnosti i teorije obrade
signala slučajne procese, kao što je signal
govora, moguće je opisati sa Markovljevim
procesom prvog ili višeg reda
• opis dvojnog slučajnog procesa u kojem jedan
proces ovisi o drugom pomoću Markovljevih
modela
• pomoću Markovljevih modela signala govora
možemo izvesti postupke nelinearnog
uspoređivanja uzoraka signala
Markovljev lanac
• skup slučajnih varijabli X={X1,..XT}
– zauzimaju konačnu vrijednost iz skupa S={s1,..sN}
• Prema Bayesovom pravilu vrijedi:
n
P( X 1 , X 2 ,... X n ) = P( X 1 ) P( X i | X 1i −1 )
i =2
• Markovljeva pretpostavka:
P( X i | X 1i −1 ) = P( X i | X i −1 )
• slučajne varijable X tvore Markovljev lanac
n
P( X 1 , X 2 ,... X n ) = P( X 1 ) P( X i | X i −1 )
i =2
Markovljeva pretpostavka
• vjerojatnost da slučajna varijabla X u vremenu t
zauzme određenu vrijednost ovisi samo o njenoj
vrijednosti u vremenu t-1
– ukoliko slučajna varijabla X zauzima stanje s u
trenutku t možemo reći da je vjerojatnost prelaska
između stanja jednaka
P( X i = s | X i −1 = s ') = P(s | s ')
– vjerojatnost da se Markovljev lanac nalazi u stanju s
ovisi samo o prethodnom stanju u kojem se lanac
nalazio
Parametri Markovljevog lanaca
• Markovljev lanac sa N različitih stanja {1,..N} u
vremenu t nalazi se u stanju st
– aij vjerojatnost prijelaza iz stanja i u stanje j
aij = P( st = j | st −1 = i ) 1 i, j  N
– i vjerojatnost da na početku Markovljev lanac nalazi
u stanju i
 i = P(s1 = i) 1 i  N

N N

 aij = 1
j =1

j =1
j =1 1 i  N
Primjer 1: Dow-Jones burzovni indeks
• Dow-Jones na kraju svakog burzovnog dana u
odnosu na indeks na zatvaranju prethodnog može:
1 porasti , 2 pasti ili 3 ostati nepromijenjen
Početna vjerojatnost: Matrica vjerojatnosti prijelaza:
0,6 0,2 0,2
0,5 
 
0,6 0,3

 = 0,2 0,5 A = aij = 0,5 0,3 0,2


0,3  1 0,2 2
0,4 0,1 0,5
0,4 0,2

0,2 0,1

0,5
Definicija (PMM, HMM)
• Prikriven Markovljev model =(A, B, )
– izlazna abeceda O = {o1, o2,..,oM} M - broj simbola u abecedi
– skup stanja  = {1, 2, ..N} N- broj stanja
– matrica vjerojatnosti prijelaza A={aij},
• aij vjerojatnost prijelaza iz stanja i u stanje j: aij=P(st=j|st-1=i)
– matrica vjerojatnosti izlaza B ={bi(k)}, vjerojatnost pojave
simbola k u stanju i
• Ako je X=X1..Xt,... izlaz procesa do trenutka t, i slijed stanja koje je
proces pritom zauzeo S=s1,s2,..st,.. prikriven onda se može napisati:
bi(k)=P(Xt=ok|st=i)
– početna distribucija vjerojatnosti  ={i}; i=P(s0=i) 1iN
– aij  0, bi(k)  0 i 0
N N
 aij = 1
M
 bi (k ) = 1  i = 1
j =1 k =1 i =1
Pretpostavke
za diskretne PMM-e prvog reda vrijede:
• Markovljeva pretpostavka o ovisnosti stanja samo o
prethodnome
P( st | s1t −1 ) = P( st | st −1 )
• pretpostavka o neovisnosti izlaznih simbola X u slijedu
izlaznih simbola simbol emitiran u vremenu t ovisan je
samo o stanju st i uvjetno ovisan o prošlim izlazima:

P( X t | X 1t −1 , s1t ) = P( X t | st )
Primjer 2: Dow-Jones indeks
• indeks u svakom stanju može porasti, pasti ili
ostati nepromijenjeno (odnos događaja i stanja
nije 1:1)
• svojstvo prikrivenosti modela
– promatrač na osnovu opaženog izlaznog simbola (npr. indeks
raste), ne zna u kojem se stanju proces nalazi
0,6 0,3

0,5
0,7 0,1
0,1 0,6
0,2 1 0,2 2 0,3

0,4 0,2

0,2 0,1

3
P(raste) 0,3
funkcija izlaza= P(pada) 0,3
P(isti) 0,4

0,5
Primjer 3: Posude
O={crvena, plava, žuta, zelena}
P(crvena)=b1(1) P(crvena)=b2(1) P(crvena)=b3(1)
P(plava)=b1(2) P(plava)=b2(2) P(plava)=b3(2)
P(žuta)=b1(3) P(žuta)=b2(3) P(žuta)=b3(3)
P(zelena)=b1(4) P(zelena)=b2(4) P(zelena)=b3(4)

izaberemo

0,4 0,3 1
0,6 0,7
1 2 3
Podjela PMM
• po izlaznom znaku
– izlazni znak vezuju na dolazak u stanje
– vezivanje izlaznog stanja na prijelaz
• po načinu povezanosti
• po funkciji vjerojatnosti emitiranja izlaznog simbola
– diskretni PMM-i
– kontinuirani i
– polu-kontinuirani PMM-i
• po povezanosti stanja
– potpuno povezani PMM (ergodički) i
– Lijevo-desni PMM (Bakisov, linearan).
Potpuno povezni PMM-i
• ili ergodički
• potpuna povezanost stanja
– u svako stanje j možemo doći iz svih ostalih stanja u
jednom koraku
– sve vjerojatnosti aij su pozitivne
Lijevo-desni PMM
• Bakisov PMM ili linearan PMM
– posebni slučaj potpuno povezanih PMM-a
– moguć prijelaz samo iz stanja s nižim indeksom u
stanje s višim indeksom
– s povećanjem vremena t raste indeks stanja odnosno
kroz prostor stanja napredujemo samo prema desnoj
strani
– posebno je pogodan za modeliranje govora
Lijevo-desni PMM II
• počinje uvijek u stanju 1 tako da je početna raspodjela
vjerojatnosti
 i = 10,..i =1
 ,..i  1
• nije moguć povratak u stanje, odnosno nema prijelaza u stanje s
nižim indeksom
aij=0 za j<i,
• postoji jedno završno stanje u kojem model završava s radom u
vremenu T, odnosno u kojem završavaju svi sljedovi prolaska
kroz stanja:
aNN=1 aNi=0 za i<N
Tri problema PMM

• problem procjene (The Evaluation Problem)


– vjerojatnosti niza simbola X
• problem dekodiranja (The Decoding Problem)
– slijeda stanja za dani niz X
• problem ocjene (The Learninig/Estimation Problem)
– učenja, optimiranja parametara PMM =(A, B, )
Problem procjene
• koja je vjerojatnost P(X|) da je upravo
model =(A, B, ) generirao izlazni slijed
opažanja X={X1,X2,..XT}?
• pri znanom modelu i poznatim opažanjima potrebno je
izračunati vjerojatnost da je izlazni slijed nastao baš u
tom modelu
• problem određivanja koliko je model prilagođen
opaženom izlaznom slijedu
• problem klasifikacije koji od potencijalnih modela
najbolje odgovara opaženom izlaznom slijedu
Problem dekodiranja
• koji je najvjerojatniji slijed stanja S={s1,s2,..sT} u
kojima je model =(A, B, ) generirao izlazni slijed
X={X1,X2,..XT}?
• rješavanje problema prikrivenosti unutarnjeg procesa
– znamo kako se prikriven proces ponaša
– pokušavamo otkriti optimalan slijed stanja koji nije nužno i
˝pravilan˝ slijed stanja
– kriteriji za određivanje optimalnosti predstavljaju dodatan
problem i u velikoj su mjeri ovisni od vrste procesa
Problem ocjene
• ukoliko imamo izlazni slijed opažanja
X={X1,X2,..XT} i neki početni model =(A, B, )
kako ćemo odrediti parametre modela '=(A',B',
'), koji maksimiziraju produkt vjerojatnost ?
• rješavanjem ovog problema znamo na osnovi podataka
s kojima učimo model ocijeniti parametre modela
– problemom učenja
– parametre modela učenjem možemo maksimalno prilagoditi
podacima na kojim učimo
– problem prevelike prilagodbe podacima koji nastaju zbog
premale količine podatak za učenje (ovefitting)
Algoritmi
• problem procjene:
– algoritam naprijed i algoritam natrag
• problema dekodiranja:
– Viterbijev algoritam
• problem ocjene:
– Baum–Welchev algoritam odnosno Naprijed-natrag
algoritam
Algoritam naprijed I
• vjerojatnost P(X|) gdje je  model =(A, B, ) i izlazni slijed
opažanja X={X1,X2,..XT} možemo računati tako da zbrojimo
vjerojatnost svih mogućih sljedova stanja:
P( X | ) =  P( S |) P( X | S , )
S*
– najprije označimo (numeriramo) sve moguće sljedove stanja
S* dužine T, koji generiraju izlazni slijed X
– zbrojimo sve vjerojatnosti tih događaja
– za određen slijed stanja S=(s1,s2,..sT), gdje je s1 početno a sT
završno stanje u vremenu T pomoću Markovljeve
pretpostavke zapišemo
T
P( S | ) = P( s1 | )  P( st | st −1, ) =  s1 as1s2 ...asT −1sT = as0 s1 as1s2 ...asT −1sT
t =2
Algoritam naprijed II
• za isti slijed stanja S dužine T zajedničku vjerojatnost izlaznog
slijeda možemo primjenom pretpostavke o neovisnosti izlaznih
simbola napisati
T
P ( X | S ,  ) = P ( X1T | S1T ,  ) =  P( X t | st , ) = bs ( X1)bs
1 2
( X 2 )..bsT ( X T )
t =1
• uvrštavanjem dobivamo
P( X | ) =  P(S |)P( X | S , ) =  as s bs ( X1)as s bs ( X 2 )...as
0 1 1 1 2 2 s bsT ( X T )
T −1 T

S* S*
– postupak označavanja skupa S* koji sadrži sve sljedove stanja
S dužine T
– za svaki od sljedova S  S* počnemo s početnim stanjem s1, u
kojem nastane izlazni simbol X1 s vjerojatnošću bs1(X1)
– u slijedeće stanje pređemo s vjerojatnošću as1s2. postupak
nastavimo do stanja sT
– ocjena vremenske kompleksnosti ovog postupka je reda O(NT)
– zato moramo predložen postupak poboljšati
Algoritam naprijed III
• uvodimo novu varijablu
– pohranjuje trenutnu parcijalnu vjerojatnost izlaznog
niza te se koristi za daljnjem računanju u slijedu
stanja
• varijabla  je definirana kao vjerojatnost da je
PMM u stanju i u vremenu t generirao parcijalni
izlazni slijed X1t:
t (i) = P( X1t , st = i | )
• algoritam naprijed temelji na izračunu varijable
 i učinkovito rješava problem procjene
Algoritam naprijed III
1.Inicijalizacija α1(i) =  i bi (X1)

1iN
2.Indukcija rekurzivno izračunamo
t t+1
N 
α t (j) =  t −1(i)aij  b j (X t ) s1
  a1j
i =1  s2
s3 sj
2tT; 1jN

3.Završetak N aNj
P(X |  ) = T (i) sN
i =1
 t(i)  t+1 (j)
1iN
i kod završnog stanja sF:

P(X | ) = T (sF ) N
P(X | ) = T (i ) P(X | ) = T (sF )
i =1
Algoritam natrag I
• definiramo varijablu 
– ocjenjuje vjerojatnosti ˝unatrag˝
–  predstavlja vjerojatnost da je PMM od vremena
t+1 do kraja T generirao parcijalni izlazni slijed X tT+1
t (i ) = P( X tT+1, st = i | )

• varijablu t(i) izračunamo po induktivnom


postupku: algoritam natrag
Algoritam natrag II
1.Inicijalizacija
1
T (i) = t t+1

N s1
1iN ai1
s2

2.Indukcija rekurzivno izračunamo prema natrag si s3


za t=T-1, T-2,...1
aiN
N 
 t (i) =   t +1( j )aij b j (X t +1) sN
 
 j =1  t(i)  t+1 (j)
1tT-1; 1iN
Primjer 4: Izračunavanje algoritma
naprijed za Dow-Jones PMM
matrica početnih vjerojatnosti matrica prijelaznih vjerojatnosti
0,5  0,6 0,2 0,2
 = 0,2  
A = aij =  0,5 0,3 0,2
0,3  0,4 0,1 0,5
X1 =raste X1=raste
t=1 t=2

0,7
0,1  1 (1)  2(1)  1 (1)=0,50,7=0,35
0,2
 1 (2)=0,20,1=0,02
0,35 0,1792  1(3)=0,30,3=0,09

0,1
0,6  1 (2)  2(2)  2(1)=(0,350,6+0,020,5+0,090,4)0,7=0,1792
0,3
 2(2)=(0,350,2+0,020,3+0,090,1)0,1=0,0085
0,02 0,00854
 2 (3)=(0,350,2+0,020,2+0,090,5)0,3=0,0357

0,3
 1 (3)  2(3)
0,3
0,4
0,09 0,0357
Viterbijev algoritam
• određuje najvjerojatniji slijed stanja u PMM-u
• traži se slijed stanja S={s1,s2..sT} takav da je
vjerojatnost P(S, X|) maksimalna
• uvede se nova varijabla V
– pamti vjerojatnost najboljeg puta

Vt (i ) = P( X1t , S1t −1, st = i | )

– označava najvjerojatniji slijed stanja S do trenutka t, koji je


generirao izlazni slijed X i u trenutku t se nalazi u stanju i
Viterbijev algoritam II
VRIJEME
s 1(1) s 1(2) s 1(3) s 1(4) s 1(T)
...

S ...
T ...
A
NJ
A s N(1) s N(2) s N(3) s N(4) s N(T)
1.Inicijalizacija V1(i) =  ibi ( X i ) B1(i) = 0
za 1iN i
2.Indukcija na svakom koraku
rekurzivno izračunamo

 
Vt (i) = Max Vt −1(i)aij b j (X t )
za 2tT-1;1jN
1i  N

Bt (i) = Arg max Vt −1(i)aij 
1i  N
za 2tT-1;1jN Viterbijev
3. Završetak u koraku t izaberemo
maksimum vjerojatnosti
algoritam
Pmax = Max Vt (i)
1i  N
III
i najvjerojatniji slijed
st* = Arg max Bt (i)
1i N

4.Povratak u povratku unatrag


pročitamo najvjerojatniji
slijed stanja
st* = Bt + 1( st +1)
t=T-1, T-2,...1

najbolji slijed = S * = ( s1*, s*


2 ,....s* ,)
T
Primjer 4: Izračunavanje viterbijevog
algoritma za Dow-Jones PMM
X1=raste X1=raste
t=1 t=2

0,7
0,1 V1 (1) V2(1) V1(1)=0,50,7=0,35 B1 (1)=0
0,2
V1(2)=0,20,0,1=0,02 B1 (2)=0
0,35 0,147 V1 (3)=0,30,3=0,09 B1(3)=0

0,1
0,6 V1(2) V2 (2) V2(1)=[Max(0,350,6;0,020,5;0,090,4)]*0,7=0,147
0,3
V2(2)=[Max(0,350,20,020,30,090,1)]*0,1=0,007
0,02 0,007
V2 (3)=[Max(0,350,20,020,20,090,5)]*0,3=0,021

B2(1)=1 → najbolji put do stanja 1 u koraku 2 je iz stanja 1


0,3
V1(3) V2(3)
0,3 B2 (2)=1 → najbolji put do stanja 2 u koraku 2 je iz stanja 1
0,4
B2 (3)=1 → najbolji put do stanja 3 u koraku 2 je iz stanja 1
0,09 0,021
Baum-Welchev algoritam
• Baum–Welchev algoritam ili metoda očekivanja i
popravaka (Expectation-Modification Method – EM)
• najzahtjevniji problem - nema direktnog analitičkog načina
za izračun optimalnih parametara modela
• rješenje kombinacija Naprijed-natrag algoritama
• pokušava iz podataka naučiti parametre modela, pri čemu
podaci nisu potpuni zbog prikrivenog procesa u modelu
• Baum-Welchev algoritam temelji na varijablama ,  i :
P( st = i, st +1 = j , X1T | )  t (i)aij b j ( X t +1)  t +1( j )
 t (i, j ) = P( st = i, st +1 = j | X1T , ) = =
P( X1T | ) N N
 t (i)aij b j ( X t +1) t +1( j)
i =1 j =1
–  definira vjerojatnost prijelaza iz stanja si u vremenu t u stanje sj
u vremenu t+1, pri danom modelu  i izlaznom slijedu X
Baum-Welchev algoritam II
• zbrojimo  po indeksu j dobijemo vjerojatnost da se
model u vremenu t nalazi u stanju si N t (i) t (i)
t (i) =   t (i, j ) =
P( X | )
j =1

• mjeru očekivanog posjeta stanju si do vremena t=T ili


očekivanog broja prijelaza iz stanja si do vremena t=T-1
dobijemo ukoliko  zbrojimo po vremenu
– broj očekivanih prijelaza iz stanja si T −1
 t (i)
t =1

– broj prijelaza iz stanja si u stanje sj do vremena T-1 T −1


  t (i , j )
t =1
Baum-Welchev algoritam:
ocjene parametra
• ocjena za početnu distribuciju vjerojatnosti: i'=1(1)
– i'=očekivan broj posjeta stanju si u vremenu t=1
• ocjena vjerojatnosti prijelaza iz stanja si u stanje sj:
T −1 T −1
ocekivan broj prijelaza iz si u s j  t (i, j ) t (i)aij b j ( X t +1) t +1( j)
aij' = aij' = t =1 = t =1
ocekivan broj svih prijelaza iz si T −1 T −1
t (i) t (i) t (i)
t =1 t =1

• ocjena vjerojatnosti izlaznog znaka k u stanju sj:


T −1 T −1
 t ( j )  t ( j )  t ( j )
t =1 t =1
ocekivan broj dolazaka u s j i generiranj a k b'j (k ) =
pri .. X t k = pri.. X t = k
=
b'j (k ) = T −1 T −1
ocekivan broj svih dolazaka u s j  t ( j )   t ( j )  t ( j )
t =1 t =1
Baum-Welchev algoritam III
t-1 t t+1 t+2
Xt Xt+1
s1 s1
a1i aj1
s2 s2
s3 s3
si sj
aNi aijbj(Xt+1) ajN

sN sN

 t-1 (i)  t(i) t(j) t+1 (j)


Baum-Welchev algoritam IV
1.Inicijalizacija izaberemo početnu vrijednost parametara
model  (proizvoljno)
2.Ocjena izračunamo nove parametre modela ‘
', a' i b' pomoću pomoćne funkcije Q

i slijeda izlaznih znakova X

3.Iteracija provjerimo uvjet konvergencije


P(X|')>P(X|)

ako je zadovoljen postavimo ='


i ponovimo korak 2
inače pređemo na korak 4

4.Završetak nalazimo se u lokalnom maksimumu i ocjenjeni


su parametri modela '
Diskretni i kontinuirani
Markovljevi modeli
Kontinuirani PMM
• funkcija gustoće vjerojatnost izlaznih znakova svakog
stanja kontinuiranog PMM-a je neprekinuta funkcija i
predstavlja gustoću vjerojatnosti vektora značajki
ulaznog signala
• najčešće se koristi Gaussova ili normalna funkcija N(x,
 jk,  jk):
(− ( X t −  j )T ( j ) ( X t −  j )T
1 −1
1
b j( X t ) = 1 e 2
n

(2 )   j
2
2
za j=1..N i t=1..T,

– gdje je Xt vektor značajki,  jk – vektor srednjih vrijednosti u stanju j,  jk –


matrica kovarijaci u stanju j, n- dimenzija vektora značajki, a N – broj
stanja PMM-a
Kontinuirani PMM II
• neprekinutu funkciju gustoće vjerojatnost u stanju sj možemo
zapisati kao linearnu kombinaciju M Gaussovih funkcija N(x,  jk,
 jk): M M
b j ( X ) =  c jk N ( x,  jk ,  jk ) =  c jkb jk ( X )
k =1 k =1
• gdje su jk - vektor srednjih vrijednosti za stanje sj, jk matrica
kovarijanci za stanje sj i cjk težinski koeficijent za svaku pojedinu
Gaussovu funkciju i za koju vrijedi
M
 c jk = 1 c jk  0,.. 1  j  N ,.. 1  k  M .
k =1
• kombinaciju Gaussovih funkcija nazivamo i mješavinom
Gaussovih funkcija distribucije vjerojatnosti ili Gaussovom
mješavinom (Gaussian Mixture)
Kontinuirani PMM:
ocjena parametara modela
• ocjena vektora srednjih vrijednosti jk k-te distribucije u
stanju sj
ocekivana srednja vrijednos t k - te distribuci je u stanju s j
 jk =
ocekivan broj obilazaka stanja s j
T T
p( X , st = j , kt = k | )
 P( X | )
Xt t ( j, k ) X t
 jk = T =1 = t =1 =
T T
p( X , st = j , kt = k | )
 P( X | )
t ( j, k )
T =1 t =1
T N
 t −1(i)aij c jkb jk ( X t ) t ( j ) X t
= t =1i =1
T N
 t −1(i)aij c jkb jk ( X t ) t ( j )
t =1i =1
Kontinuirani PMM:
ocjena parametara modela II
ocjena matrice kovarijanci jk k-te distribucije u stanju sj
ocekivana kovarijanc a k - te distribuci je u stanju s j
 jk =
ocekivan broj obilazaka stanja s j
T p( X , s = j , k = k | )
 t t
P( X | )
X t ( X t −  jk )( X t −  jk )t
 jk = T =1 =
T
p( X , st = j , kt = k | )
 P( X | )
T =1
T
t ( j, k ) X t ( X t −  jk )( X t −  jk )t
 jk = t =1 =
T
 t ( j , k )
t =1
T N
 t −1(i)aij c jkb jk ( X t ) t ( j ) ( X t −  jk )( X t −  jk )t
= t =1i =1
T N
 t −1(i)aij c jkb jk ( X t ) t ( j )
t =1i =1
Kontinuirani PMM:
ocjena parametara modela III
• ocjena koeficijenta cjk k-te distribucije u stanju sj

ocekivano pojavljiva nje k - te distribuci je u stanju s j


c jk =
ocekivan broj obilazaka stanja s j

T T N
 t ( j , k ) t −1(i)aij c jkb jk ( X t ) t ( j )
c jk = t =1 = t =1i =1
T M T N
  t ( j , k ) t ( j ) t ( j )
t =1k =1 t =1i =1
Polu kontinuirani PMM
• koriste postupke izjednačavanja Gaussovih mješavina
pri svakom stanju
• izlazna funkcija je određena kao linearna kombinacija
neprekinutih funkcija vjerojatnosti za L kvantizacijskih
razreda s faktorima težine
– težinski faktori su njihova a-priori vjerojatnost
• omogućavaju korištenje kontinuiranih funkcija gustoće
vjerojatnosti izlaznih simbola u stanjima model
– pri tome nije potrebno izračunati prevelik broj parametara
• dobri rezultati i sa smanjenim brojem podataka za
ocjenu parametara modela
• dobro akustičko modeliranje uz mogućnost učenja na
manjoj količini govornih signala
Raspoznavanje govora
• PMM je stohastički model, koji se pomoću vjerojatnosti
može najbolje prilagoditi promijenjivim obilježjima
govora,
• za ocjenjivanje parametara PMM postoje dobro
definirani, iterativni i konvergentni postupci,
• PMM omogućava opisivanje različitih govornih
jedinica na nivou riječi (riječi, rečenice) i dijelova riječi
(glasovi, slogovi) koji se dijele na:
– lingvističke jedinice: monofoni, difoni, trifoni, i kontekstno
ovisni fonetski modeli,
– akustičke jedinice: fenonski modeli i modeli segmenata,
– hibridne jedinice kao generalizacija trifonskih modela s
alofonima.
Raspoznavnje govora II
• proces pretvaranja akustičkog signala u niz riječi
• traženje maksimalno vjerojatnog niza riječi W'
pri danim akustičkim opažanjima

P ( X | W ) P(W )
W ' = arg max P (W | X ) = arg max
P( X )
w w
= arg max P ( X | W ) P(W )
w
Raspoznavnje govora III

Akustični Jezični
model model

HMM RASPOZNAT GOVOR


GOVOR Predprocesiranje
raspoznavanje
govornog signala
Raspoznavanje govora

Osnovne Jezični
akustičke model
jedinice

HMM RASPOZNAT GOVOR


GOVOR Predprocesiranje
raspoznavanje
govornog signala
Raspoznavanje govora
• baza govornih signala i transkripcija
• faza „učenja” modela
– akustičko modeliranje
– jezično modeliranje
• faza testiranja - raspoznavanje govora
transcriptions speech signal

Phonetic SPEECH
labels
dictionary PARAMETERIZATION

L monophone feture vector


labels MFCC,,  2
A A
N C
G STATISTICAL MONOPHONE O
U LANGUAGE MODEL
HM M U
(equally segmented)
A S
automatic
G segmentation
parameter T
bigram estimation
E languagei I
model
increase MONOPHONE C
number of HMM
Gaussian
M mixtures
O triphone monophone parameter
labels HMM estimation
D
E M
TRIPHONE
L HMM
O
D
E
L
STATE
Phonetic
rules
TYING

phonetic
parameter
decision estimation
trees
ncrease TIED TRIPHONE
number of
HMM
Gaussian
mixtures
triphone
HMM

speech RECOGNITION

triphone HMM bigram speech


SPEECH languag. model
PARAMETERIZATION recognition
...... system

recognized speech

text
Sinteza govora
TTS

tekst analiza teksta


(označen tekst) (otkrivanje strukture, lingvistička analiza)

fonetska analiza
(pretvaranje grafema u foneme)

analiza prosodije
(pitch, trajanje)

sinteza govora
Razumijevanje
prirodnog Aplikacija Baza
podataka

govora Analiza Strategija


Dijalog
diskursa dijaloga

Generiranje Interpretacija
odgovora rečenice

Sinteza
govora Raspoznavanje
govora

Modul za
dostup
Sustav za govorni dijalog

You might also like