You are on page 1of 11

Primena skrivenog Markovljevog modela u

prepoznavanju govora na ogranienom reniku


Ratko Amanovi, Smederevska Palanka, ure akovia 15, 1997. III, Palanaka gimnazija
Nemanja Mikovi, Beej, Sonje Marinkovi 53, 1997. III, Tehnika kola Beej
Mentori: Marko Beulj, Milo Stojanovi i Natalija Todorevi

Apstrakt

U ovom radu analizirano je prepoznavanje govora na ogranienom reniku nezavisno Formatted: Justified
od govornika korienjem skrivenih Markovljevih modela (SMM). Koriena karakteristina
obeleja govornog signala su kepstralni koeficijenti Melove skale, po uzoru na (Davis and Formatted: Font: (Default) Times New Roman, 12 pt,
Mermelstein, 1980) [1]. Za potrebe istraivanja formirana je baza na srpskom jeziku sa 48 Font color: Auto, Pattern: Clear
govornika, od 30 rei podeljenih u grupe od po jedan, dva, tri i etri sloga. Za obeleavanje
baze, raunanje karakteristinih obeleja, treniranje i testiranje SMM-a korien je Hidden Commented [NT1]: ta je obeleavanje baze?
Markov Model Toolkit. Na snimljenoj bazi ostvarena je PPV 95% ukoliko je broj skrivenih Commented [RA2R1]: Labeliranje na srpskom
stanja vei od 15. Dodatno, pokazano je da ne postoji optimalni broj stanja SMM-a, kao i da
Commented [NT3]: ?
broj stanja SMM-a nije srazmeran broju slova ili slogova rei iz baze.
Commented [RA4R3]: Positive predictive value
Commented [NT5]: Pokazano je
Uvod Commented [RA6R5]: Done

Prepoznavanje govora je proces koji omoguava maini da identifikuje zvuke ljudskog


govora. Kao i kod svih govornih tehnologija, re je o multidisciplinarnom problemu za ije su
reavanje potrebna znanja iz brojnih oblasti, poev od akustike, fonetike i lingvistike, pa do
matematike, telekomunikacija, obrade signala i programiranja. (Ghahramani, 2001) [6] Formatted: Font:
Formatted: Font: (Default) Times New Roman, 12 pt,
Zadatak prepoznavanja govora je da se na osnovu ulaznih podataka u vidu zvuka neke Font color: Auto, Pattern: Clear
rei iz renika ta re prepozna. Prepoznavanje govora ima primenu u davanju komandi Formatted: Justified
mainama glasom, upotreba telefona bez ruku, zapisivanje teksta bez kucanja ili pisanja,
automatsko prevoenje.
U radovima koji se bave slinim problemima najece se koriste algoritmi bazirani na
Skrivenim Markovljevim modelima (SMM) (Rabiner, 1989) [5], Dynamic time warping Commented [NT7]: Pogledaj kako se navodi literatura u
(DTW) (Juang, 1984)[7] i Neuronskim mreama (Lippmann, 1989) [8]. U ovom radu je za tekstu. Navode se imena autora rada na koj se poziva..
moe da pogleda u nekim radovima iz petnike sveske
prepoznavanje govora korien metod baziran na Skrivenim Markovljevim modelima jer su se
oni, u navedenoj literaturi, bolje pokazali u odnosu na druga dva algoritma. Commented [RA8R7]: Done
Formatted: Serbian (Cyrillic, Serbia)
Ideja ovog projekta jeste analiza sistema baziranog na SMM koji nezavisno od Formatted: Font: (Default) Times New Roman, 12 pt,
govornika prepoznaje izgovorenu reu iz unapred zadatog renika. Karakteristina obeleja Font color: Auto, Pattern: Clear
govoronog signala koja se koriste za treniranje SMM su bazirana na kepstralnim koeficijentima Formatted: Serbian (Cyrillic, Serbia)
melove skale (MFFC).
Formatted: Default Paragraph Font, Font: (Default)
Times New Roman, 12 pt
Za potrebe ovog istraivanja kreirana je baza (Tabela 1.) koja se sastoji od trideset
razliitih rei srpskog jezika koje su razvrstane u grupe od po 1, 2, 3 i 4 sloga. Svaka grupa ima Formatted: Serbian (Cyrillic, Serbia)
po est reilanova, osim etvrte koja se sastoji od dvanaest rei. Unutar etvrte grupe postoje Commented [NT9]: rei
manje podgrupe, od po tri rei koje su sline. Razlog za ovako formiranu etvrtu grupu je Commented [RA10R9]: Done
poreenje rezultata sa referentnim radom (Davis and Mermelstein, 1980) [1], koji se bavi
Commented [NT11]: Preformulii
analizom problema prepoznavanja slinih rei. Prilikom sastavljanja nae baze uestvovalo je
48 razliitih osoba , 24 mukih i 24 enskih, koji su po dva puta izgovorili svaku re iz nae Commented [RA12R11]: Done
baze. Dakle po 96 snimaka svake od 30 rei koje je izgovorilo 48 ljudi. Baza je podeljena na Formatted: Font: Serbian (Cyrillic, Serbia)
trening (40%), test (40%) i validaciju(20%).
Formatted: Font: (Default) Times New Roman, 12 pt,
Font color: Auto, Pattern: Clear
1 slog 2 sloga 3 sloga 4 sloga
Formatted: Font: Serbian (Cyrillic, Serbia)
hlad unka kajgana rastaviti
cvet jaje paprika sastaviti Formatted: Strikethrough

mu tata uenik nastaviti Formatted: Strikethrough


mit pei raketa gramatika Commented [NT13]: Ovo si isto rekao u prethodnoj
no bata saditi fanatika reenici
konj prozor bandera dramatika Commented [RA14R13]: Sredjeno
suilica
brusilica
builica
eprkati
pobrkati
posrkati

Tabela 1. Tabela korienih rei

Prepoznavanje govora na srpskom jeziku je posebno zanimljivo za prouavanje zato to


svako slovo oznaava jedan glas, za razliku od drugih jezika kod kojih jedno slovo moe Commented [RA15]:
oznaavati vie glasova. Zbog toga su nae pretpostavke da e broj skrivenih stanja SMM-a biti
srazmeran broju slova i/ili slogova u rei. U problemima prepoznavanja govora sa SMM, ne
postoji fizika reprezentacijanije poznato ta su skrivenaih stanja. Commented [NT16]: U problemima ne postoji fizika
reprezentacija skrivenih stanja?
Idealno bi bilo ako bi istraivanje bilo vreno na celom reniku srpskog jezika, meutim Commented [RA17R16]: Nije poznato sta su skrivena
kako zbog vremena potrebnog za snimanje i obeleavanje baze tako i zbog vremena potrebnog stanja
za procesiranje tako neto nije mogue.

U ovom radu, za obeleavanje baze, raunanje karakteristinih obeleja, treniranje i


testiranje SMM-a korien je Hidden Markov Model Toolkit (HTK)(Hidden Markov Model
Toolkit (HTK), 2002)[10].
Slika 1. ema sistema

Na slici 1. prikazan je analizirani sistem za prepoznavanje govora. U ovom sistemu za


svaku re iz renika treniran je zaseban SMM. Kada se odreuje kKlasa nepoznate rei, se
izraunava tako to se izraunata MFCC karakteristina obeleja nepoznate rei proslede se
prosleuju na SMM za svaku re iz baze, a reavanjem problema evaluatcije dolazimo do
informacije kojoj klasi ta re pripada. Commented [NT18]: Malopreformulii ovu reenicu
Commented [RA19R18]: Malo preformulisano, da li
treba jos?

Kepstralni koeficijenti Melove skale


Prvi korak u prepoznavanju govora je odreivanje karakteristika audio signala koji nose
informacije koje su potrebne za prepoznavanje odreene rei.
Kepstralni koeficijenti Melove skale (eng. Mel Frequency Cepstral Coefficients,
MFCC) su jedan od najrasprostranjenijih karakteristika za prepoznavanje i obradu govora.
MFCC karakteristina obeleja su koriena zato to imaju dobre rezultate u referentnim
radovima (Davis and Mermelstein, 1980) [1]. Jedan od razloga za dobre rezultate je Melova Commented [RA20]:
skala koja je logaritamska, to je ini priblinijom ljudskom sluhu. (Practicalcryptography.com, Formatted: Serbian (Cyrillic, Serbia)
n.d.) [3].
Formatted: Font: (Default) Times New Roman, 12 pt,
Za raunanje MFCC karakteristika korien je alat HCopy iz paketa HTK. Font color: Auto, Pattern: Clear
Formatted: Serbian (Cyrillic, Serbia)
MFCC karakteristina obeleja raunata su na sledei nain (Practicalcryptography.com,
n.d.) [3](Young et al. 2009)[4]:
1. Primena prozorske funkcije: signal je podeljen na prozore irine 25ms Hamming
metodom, pri emu svaki novi prozor poinje 10 ms od poetka prethodnog . (Gales and
Young, 2007) [2] (Practicalcryptography.com, n.d.)[3]
2. Na Za svakiom prozoru izraunata je brza Furieova transformacija, pri emu su se Commented [NT21]: Preformulii
dobijene vrednosti kvadrirale kako bi se od amplitudskog spektrogramara napona dobio Commented [RA22R21]: Samo malo sam preformulisao,
spektrogramtar sange. nije mi bas jasno sta treba ovde da radim
2 Commented [NT23]: ta znai ova jednaina ?
=
Commented [RA24R23]: Napon na kvadrat je snaga
P je snaga, U je napon, a R je otpor.
Formatted: Font: (Default) Times New Roman, Not
3. Raunanje filterbanke :
Italic
3.1. Izabrane su dve take za najniu i najviu frekvenciju 0Hz i 8000Hz (jer je
Formatted: Justified
to opseg ljudskog glasa). Frekvencije su preracunate u Melovu skalu pomou
formule

() = 1125ln(1 + 700). Formatted: Justified

3.2. Izmeu izabranih taaka linearno je rasporeeno onoliko taaka koliko ima
i filtera, da bi svaki filter, osim prvog i poslednjeg imao tri take koje bi
obuhvatio. Zatim su dobijene vrednosti preraunate u Herce formulom Commented [NT25]: Zato ?

1 () = 700(exp(1125)). Commented [RA26R25]: Done
3.3. Sledei korak je bio skaliranje dobijenih frekvencija od 0 do 512 (polovine Formatted: Justified, Indent: First line: 0.48"
broja taaka furijeove transformacije). Nad dobijenim takama formirana je filter banka.
Svaki filter je obuhvatao tri uzastopne take, u prvoj je poinjao i ima vrednost 0, u
drugoj je dostizao maksimum i imao vrednost 1 i u treoj se vraao u nulu. Prvi filter je
poinjao u prvoj taki, drugi u drugoj...
3.4. Proizvodi vVrednosti svakog filtera i filtera pomnoena je sa vrednostima
spektrograma snage su sabrani , da bi frekvencijski domen bio logaritmovan, te Commented [NT27]: Ovde prvi put pominjes
vrednosti su sabrane, a potom logaritmovanie (jer je to bio korak ka dobijanju spektrogram snage
keprstrograma). Zatim je od tih vrednosti odreena Inverzna Brza Furieova Commented [RA28R27]: Greska bila svuda sam pisao
Transformacija i dobijen je kepstrogram. Iz kepstrograma je uzeto prvih 12 koeficijenata spektar a ustvari je spektrogram
koji su potrebni za prepoznavanje govora. Koeficijenti gube brojnu vrednost sa Commented [NT29]: Mnogo pominje ovo je sabrano sa
porastom rednog broja n i zato su skalirani formulom tim i uzeta je ta vrednost.. ne kae konkretno koju vrednost
posmatra, pa je malo nejasno ta ste hteli da kaete
Commented [RA30R29]: Done
= (1 + ( ))
2 Commented [NT31]: Objasni malo formulu.. ta ti je L u
voju formuli, ta je nm ta je cn i kakve veze ima sa onim to
gde je L vrednost koja opisuje koliko puta poveavamo vrednost kepstralnih si priao u 3.4
koeficijenata, neskalirani kepstralni koeficienti, a skalirani kepstralni koeficienti..
Commented [RA32R31]: L je bilo objasnjeno, n isto
4. Od tih skaliranih kepstralnih koeficijenata su izraunati Delta kepstralni koeficijenti, koji objasnio sam i cn
daju vrednost promene MFCC karakteristika (Practicalcryptography.com, n.d.), pomou Commented [NT33]: ta su delta koeficijenti ?
formule: Commented [RA34R33]: Done
(n+1 n1 ) + 2(+2 2 )
=
10
5. A od Delta kepstralnih koeficijenata su izraunati Acceleration (Delta-Delta) Commented [NT35]: ?
koeficijenti, koji daju dodatne informacije o promeni MFCC karakteristika u vremenu Commented [RA36R35]: Done
(Practicalcryptography.com, n.d.), pomou formule:
(n+1 n1 ) + 2(+2 2 )
an =
10
Kako jednaine 4. i 5. zavise od prolih i buduih koeficienata, neophodna je
modifikacija na poetku i na kraju signala. Prvi ili poslednji koeficient e se koristiti umesto Commented [RA37]:
onih koji nedostaju.

Parametri pri raunanju MFCC karakteristinih obeleja:


1. Broj koeficijenata iz kepstrograma : NUMCEPS = 12
2. Koriena je Hamingova prozorska funkcija : USEHAMMING = T
3. Koeficijent pred-obrade : PREEMCOEF = 1 Commented [NT38]: Koj je ovo koeficijent ?

4. Broj filterbanaka : NUMCHANS = 26 Commented [RA39R38]: Koeficient pred obrade koji u


sustini nije bitan ni za sta i cak sam citao da vise nicemu ne
sluzi
5. Vrednost L u formuli za skaliranje : CEPLIFTER = 52
I da se i ne koristi ali ga ima u tutorijalu za HTK pa smo ga
stavili

Skriveni Markovljevi modeli


Skriveni Markovljevi modeli (SMM) su metod za modeliranje vremenskih serija
podataka. Koriste se u skoro svim sistemima za prepoznavanje govora, prepoznavanja oblika i
drugim granama vetake inteligencije. (Ghahramani, 2001) [6]
SMM su metod za odreivanje verovatnoe da su se neki skriveni procesi (x0,x1,...,xT)
dogodili na osnovu niza posmatranja(y0,y1,...,yT) (Slika 2.).

Slika 2. Skriveni Markovljev model

Kako bismo formirali odgovarajuci model - neophodno je da znamo njegove


karakteristike. Osnovne karakteristike SMM-a su broj stanja u modelu N, broj diskretnih
simbola u alfabetu posmatranja M, matrica verovatnoa tranzicije stanja A, verovatnoa
generisanja odreenog posmatranja iz odreenog stanja B, inicijalna verovatnoa . (Rabiner,
1989) [5] Formatted: Font: Serbian (Cyrillic, Serbia)

U problemima prepoznavanja govora, nije poznata fizika reprezentacija skrivenih Formatted: Font:

stanja SMM-a. Upravo zato ovaj rad pokuava da odgovori na pitanje ta je zapravo skriveno
stanje SMM-a kod prepoznavanja govora ili od ega zavisi. M je broj rei u reniku, A je
matrica tranzicije stanja koja se inicijalizuje nasumino, a zatim se treniranjem SMM-a dobija
konana matrica tranzicija. Reavanjem ovog problema nije raunato B, meutim moda bi
upravo analiza generisanih posmatranja iz stanja pomogla pri razumevanju ta su to skrivena
stanja.. Commented [RA40]:

Ne postoji metod za odreivanje optimalne topologije SMM-a (Moreau, 2002) [9]. Red
modela odreuje na koliko narednih stanja e trenutno stanje uticati. U ovom radu odabran je
model drugog reda kao na slici (Slika 3.) zato to je ovakva topologija preporuena u
korienom okruenju, kao i u referentnoj literaturi (Gales and Young, 2007) [2]. Kod modela
drugog reda e svako stanje uticati na 2 sledea stanja.

Slika 3. Izgled modela drugog reda

Prilikom analize SMM-a, reavaju se tri osnovna problema (Rabiner, 1989) [5]:
Problem ocenjivanja, koji reavamo pomou Forward - Backward algoritma,
ovaj problem se pojavljuje kod testiranja sistema.
Problem odreivanja verovatnoe redosleda pojavljivanja skrivenih stanja, koji
nismo reavali.
Problem optimizacije modela, koji reavamo pomou Baum Welch algoritma
prilikom treniranja modela

Rezultati i diskusija
Performanse algoritma su okarakterisane pozitivnom prediktivnom vrednou (PPV,
eng. Positive predictive value, precision) i tanom pozitivnom stopom (TPS, True positive rate,
recall) po formulama

=


=

Gde su:
broj tano pozitivno detektovanih rei(rei koje su detektovane tano)
broj pozitivno detektovanih rei(rei koje su detektovane) Formatted: Serbian (Latin, Serbia)
broj pozitivnih rei(rei koje treba da se detektuju) Commented [NT41]: ta je proj tano pozitivno
detektovanih rei, a ta broj pozitivnih rei i broj pozitivno
detektovanih rei
Uspenim prepoznavanje je postignuto ako je PPV vea od 95%, zato to je u ovom Commented [RA42R41]: Done
sluaju TPS uvek 100%.

100

95

90

85

80
PPV

jedan slog
75
dva sloga

70 tri sloga
etiri sloga
65

60

55

50
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

Broj stanja

Slika 4. Grafik zavisnosti PPV od broja stanja za rei od 1, 2, 3 i 4 sloga

Na slici 4. je prikazan grafik PPV u zavisnosti od broja stanja SMM-a za rei od 1, 2, 3


i 4 sloga. Sa slike 4. zakljuuje se da su rei od 1, 2 i 3 sloga uspeno prepoznate za 7 stanja i
vie. Dok rei od 4 sloga nemaju uspeno prepoznavanje (maksimalna PPV 91%). Moe se
zakljuiti da optimalni broj stanja nije srazmeran broju slogova.
100

95

90

85

80
PPV

tri slova
75
etiri slova

70 pet slova
est slova
65

60

55

50
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

Broj stanja

Slika 5. Grafik zavisnosti PPV od broja stanja za rei od 3, 4, 5 i 6 slova


Na slici 5. je prikazan grafik PPV u zavisnosti od broja stanja za rei od 3, 4, 5 i 6
slova.
100

95

90

85

80

75
PPV

est slova
70
sedam slova
65 osam slova

60 devet slova

55

50

45

40
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

Broj stanja

Slika 6. Grafik zavisnosti PPV od broja stanja za rei od 6, 7, 8 i 9 slova

Na slici 6. je prikazan grafik PPV u zavisnosti od broja stanja za rei od 6, 7, 8 i 9 slova.


Sa slika 5. i 6. moe se zakljuiti da rei od 3, 4, 5 i 6 slova imaju uspeno prepoznavanje
za 5 stanja i vie. Rei od 7 i 8 slova imaju uspeno prepoznavanje za 7 stanja i vie. Dok rei
od 9 slova ne dostiu uspeno prepoznavanje, ve dostiu maksimalnu PPV od 85% i to tek pri
15 stanja. Moe se zakljuiti da optimalni broj stanja nije srazmeran broju slova.

Zakljuak
Prema rezultatima koji su dobijeni zakljueno je da optimalan broj stanja nije srazmeran
broju slogova kao ni broju slova.
Ne moe se tvrditi da zakljuak vai za sve rei u srpskom jeziku. Kako bi bilo mogue
tvrditi da zakljuak vai i za ostale rei u srpskom jeziku potrebno je ponoviti metod koji je
korien na celokupnom srpskom reniku.
Na slici 4. moe se primetiti da uspenost za grupu 4 (4 sloga, sa slinim reima) ne
prelazi prag od 95% koji je zadat, dok je u referentnom radu (Davis and Mermelstein, 1980) [1]
postignuto uspeno prepoznavanje za 12 slinih rei. Kako su u ovom radu sline rei due Commented [NT43]: Uspeno ako prelazi 95% ? msm
nego u referentnom radu, ovaj pad uspenosti prepoznavanja pripisan je duini rei. Kako bi to tako si definisao uspenost ?
bilo i potvreno, potrebno je napraviti bazu sa slinim ali i kraim reima i ponoviti Commented [RA44R43]: Tako je
eksperiment. Commented [NT45]: Da li zavisi i od jezika na kom se
izgovaraju rei ili samo od duine rei ?
Commented [RA46R45]: Nije provereno

Reference
Davis, S. and Mermelstein, P. (1980). Comparison of parametric representations for
monosyllabic word recognition in continuously spoken sentences. IEEE Transactions on
Acoustics, Speech, and Signal Processing, 28(4), pp.357-366.
[1] Davis, S. and Mermelstein, P. (1980). Comparison of parametric representations for
monosyllabic word recognition in continuously spoken sentences. IEEE Transactions on
Acoustics, Speech, and Signal Processing, 28(4), pp.357-366.

Gales, M. and Young, S. (2007). The Application of Hidden Markov Models in Speech
Recognition. FNT in Signal Processing, 1(3), pp.195-304.
[2] Gales, M. and Young, S. (2007). The Application of Hidden Markov Models in Speech
Recognition. FNT in Signal Processing, 1(3), pp.195-304.
Practicalcryptography.com. (n.d.). Practical Cryptography. [online] Available at:
http://practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-
cepstral-coefficients-mfccs/.
[3] Practicalcryptography.com, (2015). Practical Cryptography. [online] Available at:
http://practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-
cepstral-coefficients-mfccs/
[4] Young, S., Evermann, G., Gales, M., Hain, T., Kershaw, D., Liu, X., Moore, G., Odell, J.,
Ollason, D., Povey, D., Valtchev, V. and Woodland, P. (2009). The HTK Book. 3rd ed.
Cambridge.
Rabiner, L. (1989). A tutorial on hidden Markov models and selected applications in speech
recognition. Proceedings of the IEEE, 77(2), pp.257-286.
[5] Rabiner, L. (1989). A tutorial on hidden Markov models and selected applications in
speech recognition. Proceedings of the IEEE, 77(2), pp.257-286.
Ghahramani, Z. (2001). An Introduction To Hidden Markov Models And Bayesian
Networks. International Journal Of Pattern Recognition And Artificial Intelligence, 15(01),
Pp.9-42.
[6] Ghahramani, Z. (2001). An introduction to Hidden Markov Models and Bayesian
networks. International Journal of Pattern Recognition and Artificial Intelligence, 15(01),
pp.9-42.
Juang, B. (1984). On the Hidden Markov Model and Dynamic Time Warping for Speech
Recognition-A Unified View. AT&T Bell Laboratories Technical Journal, 63(7), pp.1213-
1243.
[7] Juang, B. (1984). On the Hidden Markov Model and Dynamic Time Warping for Speech
Recognition-A Unified View. AT&T Bell Laboratories Technical Journal, 63(7), pp.1213-
1243.
Lippmann, R. (1989). Review of Neural Networks for Speech Recognition. Neural
Computation, 1(1), pp.1-38.
[8]Lippmann, R. (1989). Review of Neural Networks for Speech Recognition. Neural
Computation, 1(1), pp.1-38.
[9] Moreau, N. (2002). HTK Basic Tutorial. [online] Available at:
hhttp://my.fit.edu/~vkepuska/HTK/HTK_basic_tutorial.pdf.
Hidden Markov Model Toolkit (HTK). (2002). Cambridge University Engineering
Department. [10] Hidden Markov Model Toolkit (HTK), Cambridge University Engineering
Department, 2002

Apstrakt na engleskom
Application of the hidden Markov model in speech recognition on a reduced dictionary.
This paper analyzes speaker independent speech recognition on the reduced dictionary using
hidden Markov models (HMM) (Rabiner, 1989) [5]. HMMs are used because they are better for
speech recognition in relation to other algorithms (Juang, 1984)(Lippmann, 1989)[7] [8]. Features
of the speech signals that are used are Mel frequency cepstral coefficients (MFCC) because of their
good results in the reference work (Davis and Mermelstein, 1980) [1]. For the purpose of this
research the database of 30 words divided into groups of one, two, three and four syllables
spoken by 48 people was made (Tabela 1.). The Hidden Markov Model Toolkit (HTK) was
used to label the database, to calculate features and for training and
testing HMMs. Number of hidden states of HMM in speech recognition is unknown, so we
expected because Serbian is language where for one letter there is one phoneme that number of
hidden states of HMM would be proportional to number of letters or number of syllables.
However, results show the number of hidden states of HMM is not proportional to the number
of syllables or letters. Further, it is shown that there is no optimal number of hidden states of
HMM (Slika 5, 6 i 7.). Accuracy archived on the database was 95% if the number of hidden
states was greater than 15.