You are on page 1of 4

ZAVISNOST DUGOVREMOG USREDNJENOG SPEKTRA GOVORA

OD DUŽINE GOVORNOG SIGNALA


Vojnović Milan
Institut bezbednosti, Kraljice Ane bb, Beograd
I UVOD Verifikacija autentičnosti audio snimka podrazumeva
postupke i metode analize snimka govora kojima se može
Poslednjih par decenija forenzička akustika doživljava
konstatovati da li je snimak sačinjen iz više segmenata, da li
sve veći značaj najviše zbog naglog razvoja računarske
su svi segmenti govora snimljeni na istom uređaju, da li su
tehnike i algoritama za digitalnu obradu signala. Polje
svi segmenti snimljeni u istim ambijentalnim uslovima (na
primene akustike u forenzičkim naukama je široko ali su
istom mestu), da li su na snimku govornici nespornog
sigurno najatraktivnije govorne komunikacije, odnosno
identiteta i sl.
problemi generisanja i analize govornog signala. Problemi iz
Istraživanja u oblasti prepoznavanja govornika pokazuju
ove oblasti grubo se mogu svrstati u četiri grupe:
da perceptivni sistem čoveka ima izuzetno veliku sposobnost
prepoznavanja govornika. Ovo je posebno naglašeno u
- identifikacija govornika,
slučajevima kada slušalac poznaje govornika. Takođe je
- povećanje razumljivosti snimljenog govora,
pokazano da svedoci koji su razgovarali sa osumnjičenim
- verifikacija autentičnosti snimljenog govora i
pre, u toku, ili nakon izvršenog kriminalnog dela mogu da
- auditivno prepoznavanje govornika.
budu pouzdani učesnici identifikacije osumnjičenog.
Uspešnost prepoznavanja direktno zavisi od proteklog
Identifikacija govornika je najčešći i najkompleksniji
vremena između vođenja razgovora i suočavanja svedoka i
zahtev u forenzičkoj akustici. Suština problema identifikacije
osumnjičenog. Takođe je evidentno da se moć prepoznavanja
govornika sastoji se u proceni sličnosti govora nespornog
povećava ako je svedok bio pod stresom, npr. ako je u
govornika (govornika čiji je identitet poznat) i govora
pitanju otmica osobe bliske svedoku, ili je on bio na neki
osumnjičenih. U teoriji prepoznavanja govornika egzistiraju
način zastrašen. Zbog svega toga značaj i moć prepoznavanja
dve discipline: identifikacija i verifikacija govornika.
govornika auditivnim metodama ne sme biti zanemarena.
Postupci i metode obrade govornog signala su slični za ova
Test prepoznavanja osumnjičenog na osnovu govora se
dva slučaja, ali postoje dve bitne razlike:
izvodi po uzoru na vizuelno prepoznavanje: test
postrojavanja, odnosno parada osumnjičenih i nevinih.
- u postupku verifikacije govornik je kooperativan jer želi da
Razlika je što u ovom slučaju očevidac sluša unapred
bude prepoznat za razliku od postupka identifikacije gde je
pripremljen govorni materijal svih "postrojenih". Priprema
govornik uglavnom nekooperativan jer želi da sakrije svoj
govornog materijala je posao akustičara-forenzičara. Snimak
identitet,
osumnjičenih i nevinih se dobija kroz intervju i nastojanja su
- kod verifikacije govornika broj mogućih govornika je
da se za svakog govornika snimi isti govorni materijal i da
ograničen za razliku od identifikacije gde je broj govornika
bude isti ili sličnog sadržaja kao izvorni snimak
(broj osumnjičenih) neograničen.
osumnjičenog.
Dok je identifikacija govornika našla primenu u
Osnovni problem identifikacije govornika se javlja zbog
forenzičkim naukama, verifikacija govornika se koristi u
nedeterminističke prirode govornog signala. Kada god neki
sistemima za kontrolu pristupa objektima/oblastima,
govornik izgovori jednu istu reč/rečenicu vremenski zapis
bankomatima, računarskim mrežama, računarskim resursima
ovog signala (zvučni pritisak u funkciji vremena registrovan
i sl.
mikrofonom) uvek je različit. Izgovorena reč/rečenica
U forenzičkim veštačenjima govora bitno je utvrditi
"zvuči" i znači isto ali njen analitički zapis je različit.
identitet govornika a isto tako i šta je govornik rekao.
Promene u izgovoru iste reči/rečenice od strane istog
Problem je što su snimci govora toliko lošeg kvaliteta da je
govornika nazivaju se intra-govorničke promene. Za razliku
govor najčešće nerazumljiv. U tom smislu koriste se
od ovih promena, inter-govorničke promene se odnose na
najrazličitije tehnike obrade govornog signala (filtracije,
razlike u izgovoru istih reči/rečenica od strane različitih
čišćenje od šuma i drugih smetnji, restauracija od
govornika. Osnovna premisa na kojoj se zasniva proces
amplitudno-frekvencijskih izobličenja i dr.) a sve u cilju
identifikacije govornika je postojanje individualnih
povećanja razumljivosti. Mada se za kontrolu postignutih
osobenosti kod svakog govornika koje čine njegov govor
rezultata koriste objektivne metode (npr. spektrogramski
specifičnim u poređenju sa drugim govornicima. Cilj
prikaz govora), ipak se glavna ocena postignutog povećanja
eksperta za identifikaciju govornika je da pronađe takav
razumljivosti procenjuje auditivno od strane samog veštaka.
parametar, ili grupu parametara govornog signala koji će
Drugim rečima, procena povećanja razumljivosti zavisi od
minimizirati intra-govorničke razlike, a istovremeno
subjektivne ocene i potrebno je određeno iskustvo iz ovog
maksimizirati inter-govorničke.
domena obrade govornog signala.
Aktuelne metode identifikacije govornika koriste više
parametara i oni pokrivaju sva tri nivoa govornih
komunikacija: lingvistički, fiziološki i fizički (akustički). Analizirani snimci govora dobijeni su snimanjem
Identifikacija govornika najčešće počiva na analizi sledećih Dnevnika TV stanice B92 u periodu od 30.05. do 25.08.
parametara govora: 2005. godine. Izabran je jedan muški spiker (GD) i jedan
ženski (IK). U tabeli 1 dati su osnovni podaci o analiziranim
- osnovna frekvencija govora, snimcima. Kao što se vidi, analizirano je ukupno 30 govornih
- formantne frekvencije vokala, signala: 16 za govornika GD i 14 za govornika IK. Snimci iz
- dugovremeni usrednjeni spektar, tabele 1 predstavljaju pročišćene snimke govora u smislu da
- prozodijske karakteristike, se na njima nalazi govor samo spikera GD ili IK.
- promene intenziteta,
- intonacioni tok,
- stil izražavanja, Tabela 1: Osnovni podaci o snimcima govora korišćenim za
- idiosinkratički izgovor reči i rečenica i sl. estimaciju DUSG.

Dugovremeni usrednjeni spektar govora (DUSG) je vrlo RB Spiker Trajanje Datum


pouzdan i robustan parametar u procesu identifikacije snimka snimanja
govornika jer je imun na različite vrste smetnji i izobličenja
[1] [2]. DUSG predstavlja prosečni spektar govora dobijen 1. GD 287 s 30.05.2005.
procesom linearnog, neponderisanog usrednjavanja u dužem 2. GD 249 s 31.05.2005.
vremenskom intervalu. On u suštini odražava opštu, globalnu 3. GD 261 s 02.06.2005.
"boju" glasa neke osobe. 4. GD 237 s 06.06.2005.
Kao parametar u postupku identifikacije govornika,
5. GD 307 s 07.06.2005.
DUSG ima svoje dobre i loše strane. Loše osobine ovog
6. GD 208 s 08.06.2005.
parametra su: podložnost imitiranju i potreba za što dužim
7. GD 158 s 14.06.2005.
segmentom govornog signala. Međutim, izuzetna robustnost
8. GD 250 s 12.07.2005.
na šum, klipovanje i ostale vrste izobličenja, kao i njegova
relativno jednostavana i brza računarska estimacija svrstavaju 9. GD 203 s 01.08.2005.
ga među primarne parametre u procesu identifikacije 10. GD 180 s 02.08.2005.
govornika. 11. GD 282 s 03.08.2005.
Praksa pokazuje da su snimci govora osumnjičenih osoba 12. GD 183 s 04.08.2005.
uglavnom u obliku telefonskog razgovora i vrlo često dužine 13. GD 147 s 08.08.2005.
samo 10÷20 sekundi. Ostavljajući po strani problem kvaliteta 14. GD 206 s 13.08.2005.
govornog signala dobijenog snimanjem telefonskog 15. GD 195 s 16.08.2005.
razgovora, osnovno pitanje je: Da li je dužina govornog 16. GD 170 s 19.08.2005.
signala od 10÷20 sekundi dovoljna za estimaciju validnog 17. IK 294 s 30.05.2005.
DUSG? 18. IK 309 s 31.05.2005.
19. IK 222 s 02.06.2005.
II POSTAVKA PROBLEMA I POSTUPAK ANALIZE 20. IK 198 s 16.06.2005.
Kao što je rečeno, DUSG predstavlja prosečni, usrednjeni 21. IK 279 s 17.06.2005.
spektar govornog signala. Za njegovu estimaciju polazna 22. IK 261 s 12.07.2005.
osnova su kratkovremeni spektri koji se izračunavaju za 23. IK 226 s 22.07.2005.
segmente govornog signala dužine 10-20 ms. Ovako dobijeni 24. IK 238 s 27.07.2005.
kratkovremeni spektri se usrednjavaju linearnim postupkom 25. IK 241 s 28.07.2005.
(srednje aritmetičko usrednjavanje) tako da se na kraju dobija 26. IK 194 s 11.08.2005.
jedan, usrednjen spektar. Obzirom da se radi o velikom broju 27. IK 160 s 13.08.2005.
kratkovremenih spektara (par stotina) ceo postupak dobijanja 28. IK 212 s 16.08.2005.
DUSG se može prekategorisati u "statističko" usrednjavanje. 29. IK 194 s 19.08.2005.
Zbog toga je broj spektara, odnosno vremenski interval 30. IK 223 s 25.08.2005.
usrednjavanja bitan za estimaciju validnog DUSG.
DUSG, u suštini, predstavlja zavisnost intenziteta govora
u funkciji frekvencije. Postoje različiti tipovi DUSG u Za svaki govorni signal iz tabele 1 estimiran je
zavisnosti od odabrane frekvencijske rezolucije i jedinica za dugovremeni spektar za ukupnu dužinu trajanja signala.
izražavanje intenziteta govora. U ovom radu pod pojmom Estimacija je obavljena pomoću programa PRAAT [3]. Ovih
DUSG podrazumeva se zavisnost spektralne gustine snage od 30 DUSG predstavljali su referentne spektre i sva dalja
frekvencije. Frekvencijska skala je sa apsolutnim propusnim poređenja rađena su u odnosu na njih. U sledećem koraku su
opsegom širine oko 43 Hz (11025/256 ≈ 43). Naime, estimirani DUSG za segmente govornog signala trajanja: 10
frekvencija odmeravanja govornih signala je bila 22050 Hz, a s, 20 s, 30 s, ... , 180 s. Dakle, uzeto je prvih 10 sekundi
kratkovremeni spektri su estimirani FFT analizom (Fast govornog signala za estimaciju prvog DUSG, zatim je uzeto
Fourier Transform) pri čemu je izabrana takva frekvencijska prvih 20 sekundi za estimaciju drugog DUSG i na kraju je
rezolucija da se dobije 256 spektralnih komponenti. uzeto prvih 180 sekundi za estimaciju osamnaestog DUSG.
Estimirani DUSG se mogu tretirati kao vektori sa 256 Krajnji rezultat je 540 (18 × 30) dugovremenih spektara
komponenti. dobijenih postupkom usrednjavanja u različitim vremenskim
intervalima. Ovih 540 spektara je upoređivano sa 30 frekvencijski opseg. Na primer, ako se usvoji dozvoljena
referentnih DUSG (spektri dobijeni usrednjavanjem u tolerancija od ±1 dB za svaki frekvencijski opseg onda
intervalu ukupnog trajanja signala) kako bi se procenila Euclid-ovo rastojanje iznosi 16 dB:
njihova validnost.

III REZULTATI ANALIZE


E = 11
2
+
44 +4
122... +4
312 = 256 = 16 dB (2)
Kriterijum za vrednovanje validnosti estimiranih DUSG 256
za različite vremenske intervale usrednjavanja dobijen je
merenjem Euclid-ovog rastojanja prema sledećoj relaciji: Razlike dugovremenih spektara od ±2 dB uzrokuju
Euclid-ovo rastojanje od 22,6 dB. Na slici 2 prikazana je
zavisnost Euclid-ovog rastojanja u funkciji prosečnog
256 odstupanja dugovremenih spektara sa 256 spektralnih
∑ (A − AiT )
2
E= iR (1) komponenti. Prosečno odstupanje se odnosi na odstupanje
i =1 nivoa svake spektralne komponente.

gde je:
AiR – nivo i-ta spektralna komponenta referentnog DUSG, 50
AiT – nivo i-ta spektralna komponenta DUSG estimiranog u

Euclid-ovo rastojanje dugovremenih spektara [dB]


±1 dB --> 16,0 dB
vremenskom intervalu T (T∈{10, 20, ... , 180}).
±2 dB --> 22,6 dB
Referentni DUSG i DUSG estimiran u vremenskom 40 ±1 dB --> 27,7 dB
intervalu T mogu se tretirati kao vektori sa 256 komponenti
tako da Euclid-ovo rastojanje predstavlja klasičnu relaciju za
rastojanje između dva vektora. 30
Rezultati analize prikazani su na slici 1 punom debelom
linijom za spikera GD, a isprekidanom punom linijom za
spikera IK. Prikazani dijagrami predstavljaju zavisnost
20
Euclid-ovog rastojanja od vremena usrednjavanja. Kao što se
vidi, validnost estimiranog DUSG se povećava sa
povećanjem vremena usrednjavanja jer Euclid-ovo rastojanje
opada. 10

50 0
Euclid-ovo rastojanje dugovremenih spektara [dB]

Muški spiker 0 1 2 3 4 5 6 7 8
Ženski spiker
40 Muški spiker (300-4000 Hz) Srednje odstupanje dugovremenih spektara [dB]
Ženski spiker (300-4000 Hz)
Slika 2: Zavisnost Euclid-ovog rastojanja od srednjeg
odstupanja DUSG koji ima 256 spektralnih komponenti.
30

Ako se usvoji kriterijum od 23 dB Euclid-ovog rastojanja


20 proizilazi da je za validnu estimaciju DUSG potrebno da
govorni signal bude dužine 30 s ili više. Primećuje se da je
kod ženskog spikera potrebno nešto duži signal govornog
signala za estimaciju DUSG.
10
Kao što je napomenuto, govorni signali koji se analiziraju
za forenzičke svrhe najčešće su rezultat snimanja telefonskog
razgovora. Zbog toga je interesantno pogledati kako izgleda
0 zavisnost Euclid-ovog rastojanja u funkciji vremena
0 20 40 60 80 100 120 140 160 180 200 usrednjavanja kada se frekvencijski opseg analize suzi na
telefonski: od 300 do 4000 Hz. Postupak analize je isti kao u
Vreme [s] prethodnom slučaju kada je frekvencijski opseg bio do
11025 Hz. Rezultati analize za telefonski opseg prikazani su
Slika 1: Euclid-ovo rastojanje DUSG u funkciji vremena na slici 3.
usrednjavanja. Na prvi pogled proizilazi da je za estimaciju DUSG
potreban kraći govorni signal. Međutim, treba imati u vidu da
Ono što je problematično je kako odrediti kriterijum za je u ovom slučaju broj spektralnih komponenti manji i iznosi
vrednovanje validnosti DUSG. Jedno od rešenja je da se 86 za razliku od prethodnog slučaja gde je on iznosio 256.
usvoje dozvoljene promene DUSG od par decibela za svaki
50 Dugovremeni usrednjeni spektar govora (DUSG) je
Euclid-ovo rastojanje dugovremenih spektara [dB]

Muški spiker parametar govora koji se često koristi u postupku


Ženski spiker identifikacije govornika. Validnost estimacije DUSG zavisi
40 od vremena usrednjavanja jer je u pitanju jedna vrsta
″statističkog″ usrednjavanja.
Da bi se odredilo vreme potrebno za estimaciju DUSG
najpre se moraju definisati kriterijumi vrednovanja, odnosno
30 odstupanja DUSG. Ako se usvoji tolerancija od ±1 dB za
nivo svake spektralne komponente, prema slici 1, dužina
govornog signala treba da bude 50 s za muške govornike,
20 odnosno 60 s za ženske. Za odstupanja od ±2 dB dužina
govornog signala treba da bude 30 s (muški govornik) i 35 s
(ženski govornik) dok je za odstupanja od ±3 dB dužina
10 govornog signala 20 s (muški govornik) i 25 s (ženski
govornik). U praktičnim situacijama sasvim je prihvatljivo
dozvoliti odstupanja od ±2 dB za svaku spektralnu
komponentu tako da se može zaključiti da za validnu
0 estimaciju DUSG minimalno trajanje govornog signala treba
0 20 40 60 80 100 120 140 160 180 200 da bude 30 s. Kod ženskih govornika ovo vreme je nečto
duže i iznosi 35 s.
Vreme [s]
Potrebna dužina govornog signala za estimaciju DUSG
ne menja se značajnije ni kada se frekvencijski opseg analize
Slika 3: Zavisnost Euclid-ovog rastojanja DUSG u funkciji svede na telefonski kanal: od 300 do 4000 Hz.
vremena usrednjavanja za frekvencijski opseg od 300 do Rezultate prikazane analize treba shvatiti kao
4000 Hz. preliminarne jer su analizom obuhvaćeni samo po jedan
ženski i jedan muški govornik. U svakom slučaju rezultate
analize treba potvrditi za veći broj ispitanika.
Polazeći ponovo od kriterijuma da se mogu tolerisati
promene DUSG u granicama ±1 dB dobija se Euclid-ovo LITERATURA
rastojanje od 9,3 dB:
[1] Vojnović Milan, Prepoznavanje govornika pomoću
dugovremenog usrednjenog spektra, Nauka Tehnika
E = 11
2
+ 2
+4
... + 12 = 86 = 9,3 dB Bezbednost, Beograd, u pripremi za štampu.
4142 43 (3)
86 [2] Hollien Harry, The Acoustics of Crime: The New Science
of Forensic Phonetics, New York and London, Plenum
U prethodnom slučaju (za frekvencijski opseg do Press, 1990.
11025 Hz) za isti ovaj kriterijum dobijeno je Euclid-ovo
rastojanje od 16,3 dB (relacija (2)). Dakle, da bi se mogla [3] Boersma Paul, and Weenink David, PRAAT: A System for
porediti Euclid-ova rastojanja za različiti broj spektralnih Doing Phonetics by Computer, http://www.praat.org/,
komponenti mora se primeniti sledeća transformacija: 1992-2005.

Zahvalnica: Rad je delom finansiran sredstvima


Ministarstva za nauku, tehnologiju i razvoj Republike Srbije
256 preko projekta br. OI-1784.
E256 = E86 (4)
86
gde je: Abstract: Long-time average spectrum (LTAS) provides an
E256 – Euclid-ovo rastojanje za slučaj DUSG sa 256 effective index of speaker voice quality. Because of that,
spektralnih komponenti, LTAS has been used for a long time in speaker identification
E86 – Euclid-ovo rastojanje za slučaj DUSG sa 86 process. Great robustness in relation to noise and amplitude
spektralnih komponenti. distortions and text independence are the most important
features of LTAS. The main problem of the LTAS estimation
Kada se dijagrami sa slke 3 podvrgnu transformaciji is to determine the time necessary for averaging.
prema relaciji (4) dobijaju se dijagrami prikazani tankim Investigations show that the speech signal length must be at
linijama na slici 1. Sada se vidi da nema značajnijih razlika least 30 s for a valid LTAS estimation.
Euclid-ovog rastojanja, odnosno u izboru vremena
usrednjavanja ako se analiza ograniči na frekvencijski opseg
telefonskog kanala. U svakom slučaju, za validnu estimaciju INFLUENCE OF THE SPEECH SIGNAL LENGTH
DUSG potrebno je da govorni signal bude dužine 30 ili više ON LONG TIME AVERAGE SPECTRUM
sekundi.
Milan Vojnović
IV ZAKLJUČAK

You might also like