Professional Documents
Culture Documents
2018/2019
FFT
FFT spektar
trokutasti filteri
mel-skale
vektor
MFCC
značajki
(39 elemenata)
diskretna
log kosinusna 13 mel-kepstralnih
transformacija koeficijenata
13
13 2
prozor 1
prozor 2
prozor3 prozorn
Niz uzoraka
govornog signala
...
N N
aij = 1
j =1
j =1
j =1 1 i N
Primjer 1: Dow-Jones burzovni indeks
• Dow-Jones na kraju svakog burzovnog dana u
odnosu na indeks na zatvaranju prethodnog može:
1 porasti , 2 pasti ili 3 ostati nepromijenjen
Početna vjerojatnost: Matrica vjerojatnosti prijelaza:
0,6 0,2 0,2
0,5
0,6 0,3
0,2 0,1
0,5
Definicija (PMM, HMM)
• Prikriven Markovljev model =(A, B, )
– izlazna abeceda O = {o1, o2,..,oM} M - broj simbola u abecedi
– skup stanja = {1, 2, ..N} N- broj stanja
– matrica vjerojatnosti prijelaza A={aij},
• aij vjerojatnost prijelaza iz stanja i u stanje j: aij=P(st=j|st-1=i)
– matrica vjerojatnosti izlaza B ={bi(k)}, vjerojatnost pojave
simbola k u stanju i
• Ako je X=X1..Xt,... izlaz procesa do trenutka t, i slijed stanja koje je
proces pritom zauzeo S=s1,s2,..st,.. prikriven onda se može napisati:
bi(k)=P(Xt=ok|st=i)
– početna distribucija vjerojatnosti ={i}; i=P(s0=i) 1iN
– aij 0, bi(k) 0 i 0
N N
aij = 1
M
bi (k ) = 1 i = 1
j =1 k =1 i =1
Pretpostavke
za diskretne PMM-e prvog reda vrijede:
• Markovljeva pretpostavka o ovisnosti stanja samo o
prethodnome
P( st | s1t −1 ) = P( st | st −1 )
• pretpostavka o neovisnosti izlaznih simbola X u slijedu
izlaznih simbola simbol emitiran u vremenu t ovisan je
samo o stanju st i uvjetno ovisan o prošlim izlazima:
P( X t | X 1t −1 , s1t ) = P( X t | st )
Primjer 2: Dow-Jones indeks
• indeks u svakom stanju može porasti, pasti ili
ostati nepromijenjeno (odnos događaja i stanja
nije 1:1)
• svojstvo prikrivenosti modela
– promatrač na osnovu opaženog izlaznog simbola (npr. indeks
raste), ne zna u kojem se stanju proces nalazi
0,6 0,3
0,5
0,7 0,1
0,1 0,6
0,2 1 0,2 2 0,3
0,4 0,2
0,2 0,1
3
P(raste) 0,3
funkcija izlaza= P(pada) 0,3
P(isti) 0,4
0,5
Primjer 3: Posude
O={crvena, plava, žuta, zelena}
P(crvena)=b1(1) P(crvena)=b2(1) P(crvena)=b3(1)
P(plava)=b1(2) P(plava)=b2(2) P(plava)=b3(2)
P(žuta)=b1(3) P(žuta)=b2(3) P(žuta)=b3(3)
P(zelena)=b1(4) P(zelena)=b2(4) P(zelena)=b3(4)
izaberemo
0,4 0,3 1
0,6 0,7
1 2 3
Podjela PMM
• po izlaznom znaku
– izlazni znak vezuju na dolazak u stanje
– vezivanje izlaznog stanja na prijelaz
• po načinu povezanosti
• po funkciji vjerojatnosti emitiranja izlaznog simbola
– diskretni PMM-i
– kontinuirani i
– polu-kontinuirani PMM-i
• po povezanosti stanja
– potpuno povezani PMM (ergodički) i
– Lijevo-desni PMM (Bakisov, linearan).
Potpuno povezni PMM-i
• ili ergodički
• potpuna povezanost stanja
– u svako stanje j možemo doći iz svih ostalih stanja u
jednom koraku
– sve vjerojatnosti aij su pozitivne
Lijevo-desni PMM
• Bakisov PMM ili linearan PMM
– posebni slučaj potpuno povezanih PMM-a
– moguć prijelaz samo iz stanja s nižim indeksom u
stanje s višim indeksom
– s povećanjem vremena t raste indeks stanja odnosno
kroz prostor stanja napredujemo samo prema desnoj
strani
– posebno je pogodan za modeliranje govora
Lijevo-desni PMM II
• počinje uvijek u stanju 1 tako da je početna raspodjela
vjerojatnosti
i = 10,..i =1
,..i 1
• nije moguć povratak u stanje, odnosno nema prijelaza u stanje s
nižim indeksom
aij=0 za j<i,
• postoji jedno završno stanje u kojem model završava s radom u
vremenu T, odnosno u kojem završavaju svi sljedovi prolaska
kroz stanja:
aNN=1 aNi=0 za i<N
Tri problema PMM
S* S*
– postupak označavanja skupa S* koji sadrži sve sljedove stanja
S dužine T
– za svaki od sljedova S S* počnemo s početnim stanjem s1, u
kojem nastane izlazni simbol X1 s vjerojatnošću bs1(X1)
– u slijedeće stanje pređemo s vjerojatnošću as1s2. postupak
nastavimo do stanja sT
– ocjena vremenske kompleksnosti ovog postupka je reda O(NT)
– zato moramo predložen postupak poboljšati
Algoritam naprijed III
• uvodimo novu varijablu
– pohranjuje trenutnu parcijalnu vjerojatnost izlaznog
niza te se koristi za daljnjem računanju u slijedu
stanja
• varijabla je definirana kao vjerojatnost da je
PMM u stanju i u vremenu t generirao parcijalni
izlazni slijed X1t:
t (i) = P( X1t , st = i | )
• algoritam naprijed temelji na izračunu varijable
i učinkovito rješava problem procjene
Algoritam naprijed III
1.Inicijalizacija α1(i) = i bi (X1)
1iN
2.Indukcija rekurzivno izračunamo
t t+1
N
α t (j) = t −1(i)aij b j (X t ) s1
a1j
i =1 s2
s3 sj
2tT; 1jN
3.Završetak N aNj
P(X | ) = T (i) sN
i =1
t(i) t+1 (j)
1iN
i kod završnog stanja sF:
P(X | ) = T (sF ) N
P(X | ) = T (i ) P(X | ) = T (sF )
i =1
Algoritam natrag I
• definiramo varijablu
– ocjenjuje vjerojatnosti ˝unatrag˝
– predstavlja vjerojatnost da je PMM od vremena
t+1 do kraja T generirao parcijalni izlazni slijed X tT+1
t (i ) = P( X tT+1, st = i | )
N s1
1iN ai1
s2
0,7
0,1 1 (1) 2(1) 1 (1)=0,50,7=0,35
0,2
1 (2)=0,20,1=0,02
0,35 0,1792 1(3)=0,30,3=0,09
0,1
0,6 1 (2) 2(2) 2(1)=(0,350,6+0,020,5+0,090,4)0,7=0,1792
0,3
2(2)=(0,350,2+0,020,3+0,090,1)0,1=0,0085
0,02 0,00854
2 (3)=(0,350,2+0,020,2+0,090,5)0,3=0,0357
0,3
1 (3) 2(3)
0,3
0,4
0,09 0,0357
Viterbijev algoritam
• određuje najvjerojatniji slijed stanja u PMM-u
• traži se slijed stanja S={s1,s2..sT} takav da je
vjerojatnost P(S, X|) maksimalna
• uvede se nova varijabla V
– pamti vjerojatnost najboljeg puta
S ...
T ...
A
NJ
A s N(1) s N(2) s N(3) s N(4) s N(T)
1.Inicijalizacija V1(i) = ibi ( X i ) B1(i) = 0
za 1iN i
2.Indukcija na svakom koraku
rekurzivno izračunamo
Vt (i) = Max Vt −1(i)aij b j (X t )
za 2tT-1;1jN
1i N
Bt (i) = Arg max Vt −1(i)aij
1i N
za 2tT-1;1jN Viterbijev
3. Završetak u koraku t izaberemo
maksimum vjerojatnosti
algoritam
Pmax = Max Vt (i)
1i N
III
i najvjerojatniji slijed
st* = Arg max Bt (i)
1i N
0,7
0,1 V1 (1) V2(1) V1(1)=0,50,7=0,35 B1 (1)=0
0,2
V1(2)=0,20,0,1=0,02 B1 (2)=0
0,35 0,147 V1 (3)=0,30,3=0,09 B1(3)=0
0,1
0,6 V1(2) V2 (2) V2(1)=[Max(0,350,6;0,020,5;0,090,4)]*0,7=0,147
0,3
V2(2)=[Max(0,350,20,020,30,090,1)]*0,1=0,007
0,02 0,007
V2 (3)=[Max(0,350,20,020,20,090,5)]*0,3=0,021
sN sN
(2 ) j
2
2
za j=1..N i t=1..T,
T T N
t ( j , k ) t −1(i)aij c jkb jk ( X t ) t ( j )
c jk = t =1 = t =1i =1
T M T N
t ( j , k ) t ( j ) t ( j )
t =1k =1 t =1i =1
Polu kontinuirani PMM
• koriste postupke izjednačavanja Gaussovih mješavina
pri svakom stanju
• izlazna funkcija je određena kao linearna kombinacija
neprekinutih funkcija vjerojatnosti za L kvantizacijskih
razreda s faktorima težine
– težinski faktori su njihova a-priori vjerojatnost
• omogućavaju korištenje kontinuiranih funkcija gustoće
vjerojatnosti izlaznih simbola u stanjima model
– pri tome nije potrebno izračunati prevelik broj parametara
• dobri rezultati i sa smanjenim brojem podataka za
ocjenu parametara modela
• dobro akustičko modeliranje uz mogućnost učenja na
manjoj količini govornih signala
Raspoznavanje govora
• PMM je stohastički model, koji se pomoću vjerojatnosti
može najbolje prilagoditi promijenjivim obilježjima
govora,
• za ocjenjivanje parametara PMM postoje dobro
definirani, iterativni i konvergentni postupci,
• PMM omogućava opisivanje različitih govornih
jedinica na nivou riječi (riječi, rečenice) i dijelova riječi
(glasovi, slogovi) koji se dijele na:
– lingvističke jedinice: monofoni, difoni, trifoni, i kontekstno
ovisni fonetski modeli,
– akustičke jedinice: fenonski modeli i modeli segmenata,
– hibridne jedinice kao generalizacija trifonskih modela s
alofonima.
Raspoznavnje govora II
• proces pretvaranja akustičkog signala u niz riječi
• traženje maksimalno vjerojatnog niza riječi W'
pri danim akustičkim opažanjima
P ( X | W ) P(W )
W ' = arg max P (W | X ) = arg max
P( X )
w w
= arg max P ( X | W ) P(W )
w
Raspoznavnje govora III
Akustični Jezični
model model
Osnovne Jezični
akustičke model
jedinice
Phonetic SPEECH
labels
dictionary PARAMETERIZATION
phonetic
parameter
decision estimation
trees
ncrease TIED TRIPHONE
number of
HMM
Gaussian
mixtures
triphone
HMM
speech RECOGNITION
recognized speech
text
Sinteza govora
TTS
fonetska analiza
(pretvaranje grafema u foneme)
analiza prosodije
(pitch, trajanje)
sinteza govora
Razumijevanje
prirodnog Aplikacija Baza
podataka
Generiranje Interpretacija
odgovora rečenice
Sinteza
govora Raspoznavanje
govora
Modul za
dostup
Sustav za govorni dijalog