You are on page 1of 10

Kompresija audio i video signala

Lekcija 1:
Uvod. Osnovne osobine audio signala.
dr Amela Zeković
21. oktobar 2020

1 Uvod
U ovoj lekciji biće date osnovne osobine audio signala, radi daljeg ispitivanja
audio signala u smilu:

• akustike i čula sluha ljudi,

• kodovanja audio signala,

• kompresije audio signala i smeštanja audio sadržaja,

• prenosa audio signala kroz komunikacione sistem,

• ispitivanja kvaliteta audio signala.

2 Osnovne osobine audio signala


Gde je potrebno procesiranje audio i govornog signala? Neki od primera su:

• konvertovanje snimljene muzike u kompresovani mp3 format i smeštanje na


hard disk radi kasnijeg preslušavanja (audio kodovanje),

• kodovanje govornog signala prilikom prenosa u mreži mobilne telefonije,

• dodavanje reverberacije, korekcija tona pevača (studio tehnologija),

• poboljšanje kvaliteta govornog signala (uklanjanje šuma, ukidanje eho signala).

Tipični sistemi za digitalno procesiranje signala obuhvataju:

• digitalizacija signala (odabiranje, kvantizacija),

• procesiranje u digitalnom obliku radi skladištenja ili izmene,

• obrada radi konverzije nazad u analogni signal.

1
Reč zvuk može da se odnosi na doživaljaj koji se oseća čulom sluha ili na lon-
gitudalni talas pritiska u materijalu medijuma za prenos (kao što je vazduh) koji
stvara osećaj zvuka.
Ljudsko čulo sluha može da oseća frekvencije u opsegu od 20 Hz do 20 kHz.
Audio signal predstavlja numeričku reprezentaciju zvuka ili se može posmatrati kao
funkcija nivoa zvučnog pritiska u zavisnosti od vremena, izmerenja korišćenjem mi-
krofona, na primer. Često se audio signal razdvaja od govornog signala, iako je
tehnički govorni signal zapravo audio signal.

2.1 Osnove akutstike: zvučni talasi


Zvuk nastaje kao posledica vibracija nastalih usled propagacije longitudalnih
talasa kroz molekularnu strukturu medijuma, kao što je gas, tečnost, čvrsta tela.
Zvuk se čuje kada ove vibracije stignu na čulo sluha, procesiraju se od strane uva,
koje dalje šalje informaciju mozgu.
Zvruk počinje kada objekt vibrira i započinje kretanje molekula u njegovoj
neposrednoj blizini. Ovi molekuli dalje prenose energiju susesnim molekulima,
započinjujući reakciju, zvučni talas.

Slika 1: Formiranje zvučnog talasa.

Transfer momenta od jednog pomerenog molekula do narednog dovodi do pro-


pagacije originalne vibracije longitudalno od objekta koji vibrira do slušaoca. Ono
što omogućava ovu reakciju je osobina elestičnosti molekularne strukture kroz koju
se vibracija prenosi, na primer vazduh. Elastičnost predstavlja fenomen po kome
molekuli koji su pomereni imaju tendenciju da se vrate na svoju originalnu poziciju,
nakon što je početni moment uticao da promene svoju poziciju.
Kada se objekat koji vibrira pomera ka sredini u kojoj se nalazi kompresuju se
molekuli koji se nalaze u neposrednoj blizini, stvarajući povećanje pritiska. Kompre-
sija se nastavlja udaljavanjem od objekta koji vibrira kada se momenat pomerenih

2
molekula prenosi na njima susedne molekule, kreirajući maksimum na zvučnom ta-
lasu.
Kada se objekat koji vibrira udaljava od sredine u kojoj se nalazi i pomera ka
unutra, povlači molekule koji se nalaze u njegovoj blizini jedne od drugih kreirajući
smanjenje u vrednosti amplitude (zvučnog pritiska) zvučnog talasa. Ovo smanjenje
vrednosti takode putuje udaljavajući se od objekta koji vibrira, stvarajući zvučni
talas.
Ove pojave su ilustrovane na Slici 1.

2.2 Frekvencija i visina tona (Pitch)


Kada vibracija prode kroz jedan kompletan proces od do maksimalne vrednosti
pritiska kroz minimalnu vrednost prilikom povlačenja, i nazad, formira se jedan
kompletan ciklus. Broj ovih ciklusa u sekundi predstavlja frekvenciju. Ako vibracije
naprave 50 ciklusa u sekundi, frekvencija je 50 Hz.
Ljudi sa odličnim čulom sluha mogu da čuju izmedu 20 Hz i 20000 Hz, medutim
većina ljudi čuje u opsegu od 35 Hz do 16000 Hz. Frekvencije ispod audio opsega
ljudi označavaju se kao infrazvučne, dok su frekencije neposredno iznad ovog opsega
ultrazvučne.
U muzičkoj terminologiji frekvenciju doživljavamo kao visinu tona (pitch) – re-
lativna visina ili dubina zvuka. Viša visina tona se dobija u slučaju kada postoji
više ciklusa vibracije u sekundi. Na primer srednje C (C4) klavira vibrira sa fre-
kencijom 261.63 Hz – fundamentalna frekvencija, dok nota A iznad srednje C ima
frekenciju 440 Hz odnosno veću visinu tona. Fundamentalna frekvencija se naziva i
prvi harmonik ili osnovna frekvencija.
Frekvencijski opseg audio frekvencija podeljen je na podopsege, obično po prin-
cipu oktava. Oktava je interval izmedu dve frekvencije, čiji je odnos tonova 2:1.
Ljudski audio frekvencijski opseg obuhvata oko 10 oktava: prva je od 20 Hz do
40 Hz, druga od 40 Hz do 80 Hz, treća od 80 Hz do 160 Hz, itd.

2.3 Amplituda i jačina zvuka


Vibracije u objektu stimulišu kretanje molekula formirajući talas pritiska sa sme-
nom minimalnih i maksimalnu vrednosti koja odreduje frekvenciju talasa. Vibracija
je odredena i brojem molekula koji su pokrenuti iz svog ravnomernog stanja krei-
rajući maksimalne i minimalne vrednosti talasa. Ovaj broj molekula zavisi od inten-
ziteta vibracije: intenzivnija vibracija – više molekula je pomereno iz ravnomernog
položaja.
Veći broj molekula koji su pomereni iz svog ravnomernog položaja znači i veće
vrednosti maksimalne amplitude i manje vrednosti minimalne amplitude zvučnog
talasa. Broj molekula u pokretu odreduje jačinu zvučnog talasa, tj. njegovu ampli-
tudu. Subjektivni osećaj amplitude zvuka se označava kao jačina zvuka (loudness).
Aplituda zvuka se obično izražava u decibelima (dB). Decibeli se koriste prilikom
poredenja dve veličine pomoću njihovog odnosa. Ovo je dato izrazom:
P1
dB = 10log10 ,
P0

3
Slika 2: Amplituda zvuka: (a) manja amplituda za manji broj molekula izvedenih
iz ravnotežnog položaja, (b) veća amplituda zvuka za više molekula koji formiraju
zvučni talas.

gde je P0 referentna vrednost snage u odnosu na koju se snaga P1 poredi.


Nivo zvučnog pritiska (Sound Pressure Level, SPL) ili nivo zvuka Lp je logari-
tamska mera efektivne vrednosti zvučnog pritiska u odnosu na referentnu vrednost.
SPL se izražava u decibelima, na osnovu sledećeg izraza:
p2rms prms
dB = 10log10 2
= 20log10 ,
pref pref

gde je prms efektivna vrednost zvučnog pritiska koji se meri u odnosu na referetni
zvučni pritisak pref = 2 · 10−5 P a.
Ljudsko uvo može se čuje veoma širok raspon amplituda zvučnih vibracija, od
SP L = 0 dB (prag čujnosti) do oko SP L = 120 dB, dok se nivo SP L = 140 dB
označava kao prag bola. Pregled različitih nivoa amplituda zvučnog talasa dat je na
Slici 3.

2.4 Parametri zvučnog talasa


Talasna dužina, λ, zvučnog talasa deniše se kao rastojanje izmedu dva susedna
maksimuma zvučnog pritiska ili sva susedna minimumama ili kao rastojanje koje
zvuk prede da bi se kompletirao jedan pun ciklus. Talasna dužina je jednaka brzini
zvuka podeljenoj sa frekvencijom zvuka:
v
λ= .
f
Talsna dužina i frekvencija su obrnuto proporcionalne: što je veća talasna dužina
to je niža frekvencija i obrnuto.
Brzina zvuka ili brzina zvučnog talasa obično ima veoma mali uticaj na visinu
tona ili jačinu zvuka. Brzina zvuka u vazduhu u opsegu normalni sobnih temperatura
može imati vrednosti 340–350 m/s, dok se u opsegu temperatura od −20 ◦C do 50 ◦C
brzine zvuka u vazduh se kreću od oko 320 m/s do oko 360 m/s. Svaki stepenom

4
Slika 3: Primeri vrednosti nivao zvučnog pritiska i njegov raspon.

Slika 4: Frekvencija i talasna dužina zvučnog talasa.

5
promene temperature vazduha brzina zvuka u njemu menja se za oko 0.6 m/s. Što
je gušća sredina u kojoj se prenosi zvuk to je i njegova brzina veća, pa je tako brzina
prenosa zvuka u vodi oko 1460 m/s, dok je u čvrstim telima kao što je drvo ili čelik
izmedu 3560 m/s i 5490 m/s.
Ako dva identična talasa započinju svoje cikluse u isto vreme, pojave njihovih
maksimuma i minimuma će se poklapati i ovi talasi će biti u fazi. Sa druge strane,
ako ciklusi dva zvučna talasa ne počinju u istom trenutku ovi talasi neće biti u fazi.
Talsi koji su u fazi dovode do pojačanja amplitude, dok talasi koji nisu u fazi dovode
do njenog smanjenja (Slika 16).

Slika 5: Faza zvučnog talasa: (a) faze se meri kao ugao u stepenima, (b) primeri
talasa sa različitom fazom.

Slika 6: Faza zvučnog talasa: (a) zvučni talasi u fazi – povećanje amplitude (nije
linearno u dB), (b) zvučni talasi nisu u fazi – smanjenje amplitude.

Radi jednostavnije ilustracije, u prethodnim primeri zvuk je brio prikazan kao


jednostavn prostoperiodični sinusni signal. Ovaj signal sa odgovarajućom frekven-
cijom predstvlja realan zvučni signal. Medutim, mnogo je češća situacija kada se
signal ne sastoji samo od jednog čistog tona – jedne frekvencije, već predstvlja kom-

6
binaciju više različitih frekvencija. Ovo dovodi do kreiranja složenog talasnog oblika
– gračke reprezentacije zvuka.
Jedan zvuk predstavlja jedinstvenu kombinaciju tonova osnovne frekvencije i
njenih harmonika koja se razlikuje od drugih zvukova koji imaju istu osnovnu fre-
kvenciju, jačinu i trajanje. Ova osobina se označava kao boja zvuka.

Slika 7: Karaktristične zvučne anvelope i frekvencijske karakteristike nekih muzičkih


instrumenata i šuma. Uočava se tamnije predstavljanje osnovne frekvencije i nižih
harmonika, što znači da su njihove amplitude veće.

2.5 Vremenski i frekvencijski prikaz audio signala


Za predstavljanje audio signala u zavisnosti od aplikacije koristi se:
• vremenski domen,
• frekvencijski domen,
• vremensko–frekvencijski domen.
Za predstavljanje u vremenskom domenu, koristi se zavisnost nivoa zvučnog priti-
ska kao funkcija vremena, gde nivo nule predstavlja normalan pritisak vazduha. Ovo
je prirodno predstavljanje audio signala. Analogni zvučni signal se beleži pomoću
mikrofona i reprodukuje pomoću zvučnika.
Na Slici 8 analogni signal je predstavljen punom linijom. Ovaj signal se može
predstaviti svojim diskretnim odbircima (tačke označene na Slici) uz veoma male
gubitke informacije, ako je frekvencija odabiranja veća ili jednaka dvostrukoj fre-
kvenciji najveće frekvencije signala.
Za muziku se tipično koriste frekvencije odabiranja od 44.1 kHz, 48 kHz ili
96 kHz, što je dovoljno za predstavljanje zvuka u opsegu čujnosti ljudi (približno
od 20 Hz do 20 kHz). Za govor se koriste frekvencije odabiranja od 8 kHz za
telefoniju (suglasnici s i f imaju distorziju) ili 16 kHz za širokopojasni govor (Voice
over IP, VoIP). Veliki deo energije (i informacije) prirodnih zvukova se nalazi na
malim frekvencijama (oko 200 Hz do 5 kHz).
Na Slici 9 dat je primer zvučnog signala jednog tona odsviranog na oboi. Ampli-
tuda je nula na početku pre nego što zvuk počen, a zatim se formira zvučni signal
čija je anvelopa približno konstantna tokom trajanja.

7
Slika 8: Analogni i diskretizovan zvučni signal.

Slika 9: Primer audio signala jednog tona odsviranog na oboi.

Slika 10: Primer audio signala jednog tona odsviranog na oboi – zumirana sekcija.

8
Na Slici 10 dat je zumiran audio signal sa Slike 9 u intervalu trajanja 90 ms
sa početkom u t = 0.45 s. Na ovoj Slici se vidi periodični talasni oblik. Veliki
broj zvukova je periodičan, većina zvukova muzičkih instrumenata i vokali govornog
signala.
Predstvljanje audio signala u frekvnecijskom domenu (spektar) omogućeno je
na primer diskretnom Furijeovom transformacijom. Mnoge percepcijske osobine su
jasnije vidljive prikazom u frekvencijskom domenu. Za amplitude na spektru se šešće
koristi skala u dB, jer više odgovara dinamici ljdske percepcije prirodnih zvukova.

Slika 11: Primer frekvancjskog prikaza audio signala oboe.

Slika 12: Linarane i logaritamske skale na frekvnecijskom prikazu audio signala.

Za predstvaljanje audio signala u frekvencijskom domenu najčešće se koriste lo-


garitamska skala na frekvencijskoj osi i amplituda predstavljena u decibelima. Ako
se za obe ose koriste linerne skale, obično je veoma teško videti detalje u signalu.
Korišćenje logaritamske frekvencijske ose je od značaja pošto svaka oktava ima pri-
bližno jednaki uticaj na percepciju. Logaritamska skala na amplitudi (linearni prikaz

9
dB) je korisna pošto je osećaj promene sa 50 dB na 60 dB približno jednak kao osećaj
promene sa 60 dB na 70 dB.
Na Slici 13 dat je primer vremenskog oblika audio signala bubnja (snare drum),
gde se vidi ekspoencijalno opadanje amplitude. Zumiranjem ovog signala (Slika 14)
uočava se postojanje neperiodičnih komponenti. Na Slici 15 dat je primer frekven-
cijskog oblika audio signala bubnja (snare drum), koji nema izražene harmonike
kao spektar oboe, već više podseća na šum. Na Slici 16 dat je primer vremensko–
frekvencijskog oblika audio signala bubnja (snare drum) – spektrogram.

Slika 13: Primer vremenskog oblika audio signala bubnja (snare drum).

Slika 14: Primer vremenskog oblika audio signala bubnja (snare drum) – zumirana
sekcija.

Slika 15: Primer frekvencijskog oblika audio signala bubnja (snare drum).

Slika 16: Primer vremensko–frekvencijskog oblika audio signala (spektrogram) bub-


nja (snare drum).

10

You might also like