You are on page 1of 27

1.

pitanje
1. Subjektivne karakteristike zvuka
Svojim fizičkim veličinama zvuk djeluje na čovjeka preko organa sluha. Nastale
fizičke promjene stvaraju određene subjektivne osjećaje, koje u izvjesnoj mjeri zavise od
odgovarajućih fizičkih veličina zvuka i njihovih promjena. Karakteristike zvuka u domenu
subjektivnog osjećaja (tzv. subjektivne psihološke ili biofizičke karakteristike zvuka) koje
odgovaraju objektivnim veličinama su: visina tona, boja zvuka i glasnoća (subjektivna mjera
jačine zvuka).
Visina tona je osjećaj na osnovu koga se može reći da je jedan ton visok ili nizak
(dubok) vezana je prvenstveno za frekvenciju. Kod složenog tona bitna je frekvencija
osnovnog tona. Postoji diferencijalni prag visine tona koji se može zapaziti (df / f). On je
konstantan samo na srednjim frekvencijama. Na osjećaj visine tona utiče i intenzitet zvuka.
Zvuk vrlo malog intenziteta na pragu čujnosti ne daje osjećaj visine tona. Po usvojenoj
akustičkoj terminologiji, koncertni ton (ton A iznad srednjeg C) ima frekvenciju od 440 Hz.
Najveća muzička mjera opsega tonova je oktava. Ton koji je za oktavu viši od nekog datog
tona ima zapravo dva puta veću frekvenciju, dok ton koji je za oktavu niži ima dva puta
manju frekvenciju. Oktava je podijeljena u 12 polustepeni koji odgovaraju notama (C, Cis, D,
Dis, E, F, Fis, G, Gis, A, Ais, H).
Boja zvuka je kvalitet koji dopušta da se prepoznaju dva zvuka iste visine i istog
osjećaja jačine kada su emitovani iz dva različita zvučna izvora. Ona je određena brojem
viših harmonika, odnosom njihovih intenziteta i njihovom faznom razlikom u odnosu na
osnovni ton.
Glasnoća zvuka je fiziološka veličina koja opisuje osjećaj jačine zvuka u našem uhu.
Odnos između objektivne jačine zvuka (L) i subjektivnog osjećaja, glasnoće (Λ), određuje se
eksperimentalno. Nivo glasoće se izražava bezdimenzionalnom jedinicom fon koja je
analogna decibelu. Naime, nivo glasnoće od n fona ima onaj zvuk čija je glasnoća jednaka
glasnoći koju izaziva zvuk frekvencije od 1000 Hz i nivoa zvučnog pritiska n dB iznad praga
čujnosti. Fonska skala oslanja se na subjektivni osjećaj glasnoće, dok je decibelska skala
usmjerena ka mjerenju jačine zvuka. Krive koje uspostavljaju vezu između objektivne jačine
i subjektivnog osjećaja glasnoće dobijene su na osnovu ispitivanja grupe slušalaca koji su,
slušajući sa oba uha, upoređivali glasnoće tonova različite visine sa glasnoćom referentnog
tona frekvencije 1 kHz. Pri tome se jačina zvuka mijenja dok se glasnoća oba tona ne
izjednači. Nivoi zvučnih pritisaka izmjereni u tim trenucima u decibelima na raznim
frekvencijama određuju jednu krivu sa konstantnim subjektivnim osjećajem glasnoće.

2. Objektivne karakteristike zvuka


Osnovne fizičke karakteristike zvučnog talasa(tzv.objektivne karakteristike zvuka) su:
- osnovna frekvencija,
- zvučni spektar i
- intenzitet zvučnog talasa- zvuka.
Frekvencija zvuka zavisi od talasne dužine zvučnog talasa. Talasna dužina je
razdaljina koju prelazi talas u jednom periodu odašiljanja. Dakle, postoji direktna veza
između talasne dužine i frekvencije. Niska frekvencija odgovara velikim talasnim dužinama i
obratno. Zvuk se (prenosi) odašilja kroz vazduh sa brzinom od otprilike 340 m/s. To znači da
jedan ton 1 Hz ima talasnu dužinu od 340 m. Vrijedi da je:
v
λ=
f
gdje je λ talasna dužina u metrima, v brzina prostiranja zvučnog talasa u m/s i f frekvencija u
Hz. Tako, npr. frekvenciji od 20 kHz odgovara talasna dužina od 1,7 cm.
Ovo je važno znati da bi smo mogli odrediti koju visinu tona možemo pustiti u nekoj
sobi. Naime, da bi smo pratili ton dužina sobe traba da bude veća ili jednaka talasnoj dužini
tona. Npr., ako želimo dobar prijem tonova od 50 Hz treba nam dužina sobe koja je jednaka
polovini talasne dužinu od 340/50 = 6,80 metara, dakle 3,40 metara. Za prijem najnižeg tona
iz čujnog opsega (otprilike 20 Hz), potrebna dužina prostorije iznosi 8,5 metara.
Zavisno od opsega osnovnih frekvencija, zvučne signale dijelima na:
- Infrazvuk: 0-20 Hz
- Zvuk iz čujnog opsega: 20 Hz – 20 kHz
- Ultrazvuk: 20 kHz – 1 GHz
- Hiperzvuk: 1 GHz – 10 THz

3. Percepcije glasnoće zvuka


Percepcija glasnosti zvuka zavisi od frekvencije: na nižim frekvencijama zahtijeva se
više snage da se isporuči jednaka primljena glasnost kao na srednjim i visokim
frekvencijama. Zvuk se ponekad više osjeća nego čuje. Npr. nivo buke na radnom mjestu viši
od 90 dB dovodi do razdražljivosti i grešaka, posebno ako su u buci prisutne visoke
frekvencije. Ako je nivo buke viši od 80 dB nemoguće je koristiti telefon. Eksperimenti su
pokazali da nivo buke do 45 dB ne proizvodi reakciju, od 45-55 dB proizvodi sporadične
žalbe, od 50-60 dB žalbe na sve strane, od 55-65 dB prijetnje, a preko 65 dB žestoke reakcije.
Ovakva istraživanja mogu poslužiti kao koristan vodič za stvaraoce multimedije.
Dinamički opseg uha dakle iznosi oko 130 dB. Diferencijalni prag osjetljivosti uha
iznosi 1 dB i predstavlja najmanju razliku u nivou jačine zvuka koja se može uhom
razlikovati. Naravno da ovi podaci predstavljaju statističku srednju vrijednost. Osjećaj zvuka
zavisi od mnogo faktora: jačini zvuka koji je nastao u njegovom izvoru, vrsti medija u kome
je generisan, vrsti medija kroz koga prolazi, o udaljenosti i smjerovima u kojima se zvuk širi,
ambijentu, godinama slušaoca i drugim subjektivnim faktorima.

4. Digitalizacija audio signala


Zvuk koji nastaje kao posljedica varijacija akustičkog pritiska se koristeći mikrofon
prevodi u električni signal (napon ili struja). Mikrofon se sastoji od dijafragme koja spojene
sa namotajem žice koji se kreće u magnetnom polju. Zvučni talas pomijera dijafragmu što
dovodi do kretanja namotaja žice u magnetnom polju i indukovanja struje. Struja se prenosi
do zvučnika koji imaju svoju sopstvenu zavojnicu u magnetnom polju. Promjena struje
uzrokuje promjene magnetnog polja koje utiču na pomijeranje druge zavojnice vezane na
dijafragmu čime se mijenja vazdušni pritisak i prozvodi zvuk.
Prije nego počnemo ozbiljnije razmatranje o audio signalima, ponovimo osnovnu
podjelu signala. Ako signal postoji u svakom trenutku vremena ili ne, govorimo o
kontinualnom ili diskretnom signalu u vremenu, respektivno. Za signale koji mogu da
poprime proizvoljnu vrijednost iz dozvoljenog opsega kažemo da su kontinualni po
amplitudi, dok za signale čije vrijednosti amplitude pripadaju konačnom skupu kažemo da su
kvantovani. Ako je signal kontinualan u vremenu i po amplitudi kažemo da se radi o
analognom signalu. Za signal diskretan u vremenu i kvantovane amplitude kažemo da je
digitalan.
5. Spektralna analiza audio signala

6. Obrada audio signala – digitalni audio efekti


Ako prilikom digitalizacije dolazi do odsijecanja signala zbog previsokih nivoa,
rezultat će biti neprijatno “krckanje”. Obrnuto, snimci koji se naprave na suviše niskom nivou
će često biti neupotrbljivi jer količina snimljenog zvuka može biti nedovoljna da se pokriju
šumovi koji poptiču od samog procesa snimanja. Digitalna obrada audio signala obuhvata
postupke kojima se popravlja kvalitet snimljenog audio zapisa, zatim editovanje snimljenih
datoteka, pa do složenih metoda obrade signala:
- ODSIJECANJE - Uklanjanje praznog prostora sa početka i dodatnog vremena sa
kraja snimka (može jako da smanji veličinu datoteke).
- UPLETANJE I SASTAVLJANJE - Moguće je odstraniti dodatne šumove koji
neminovno ulaze u snimak. Takođe je moguće od mnoštva manjih napraviti duži snimak.
- PRILAGOĐAVANJE JAČINE - Neophodna je normalizacija svih segmenata koji se
“lijepe” jer oni skoro nikad nisu jednake jačine.
- KONVERZIJA FORMATA - Koristi se pri editovanju fajlova različitih formata.
- FEJD-IN I FEJD-OUT - Lagano pojačavanje i lagano utišavanje.
- PROMJENA BRZINE ODMJERAVANJA - Neophodna za ujednačavanje audio
sadržaja koji su odmjereni različitim frekvencijama.
- OBRADA AUDIO SIGNALA - Omogućava uklanjanje dijela spektra (šuma I sl.), te
razne efekte (eho, dodavanje dubine, unošenje nadrealnih efekata,…)
Obradu audio signala moguće je vršiti u vremenskom ili frekvencijskom domenu.

7. Reverberacije
Zvučni talasi koji se prostiru od izvora do prijemnika mogu da prođu različitim putevima.
Ako talas na svom putu ne nailazi na prepreke govorima o direktnom zvuku. Eho nastupa kad
do slušaoca dolazi zvuk koji se odbija (prelama) od neke prepreke. Ako prelamanje proizvodi
signale koji kasne manje od 100 ms govorimo o refleksiji, a ako je kašnjenje signala koji
nastaju usljed prelamanja veće, to označavamo kao reverberacije.
Zvuk se odbija od ravne čvrste plohe. Refleksija zvuka je bolja, ako je površina plohe
glatkija i veće gustoće. Ako je ploha konveksna, dolazi do disperzije (raspršivanja) zvuka, a
ako je površina konkavna, dolazi do usnopljavanja zvuka.
Difrakcija je pojava savijanja zvuka oko prepreke. Difrakcija je obrnuto
proporcionalna visini tona (frekvenciji zvučnog talasa), te je više izražena na nižim
frekvencijama.
Refrakcija je pojava loma zvučnog talasa, odnosno promjene smjera zvuka , a događa
se uslijed promjene medija kojim se zvuk kreće (temperatura, pritisak vazduha i sl.). Tipični
primjer je skretanje zvuka pod uticajem vjetra.
Apsorpcija je pojava upijanja zvuka. Prilikom udara zvučnog talasa u neku površinu
jedan dio zvučne energije se predaje materiji, dok se drugi reflektuje.
Doplerov efekt je pojava koja se očituje u promjeni visine tona zbog kretanja izvora
zvuka. Ako nam se izvor zvuka približava zvučni talasi se zgušnjavaju, tj. povećava im se
frekvencija, a ako se izvor zvuka udaljava, talasi se prorjeđuju, a zvuk ima sve manju
frekvenciju.
Interferencija nastaje uzajamnim djelovanje dva talasa koji se susreću, pri čemu im
se amplitude sabiraju ili oduzimaju, zavisno od faze.
Stojeći talas je pojava kad zbog intrferencije direktnog i reflektovanog talasa nastaje
mjestimično poništavanje (nule) i maksimalno pojačavanje (maksimumi) zvuka. Pojava se
očituje kao potpuna odsutnost zvuka u nekim dijelovima prostora. Izbjegava se tako da se
zidovi prostorije ne postavljaju paralelno.
Jasno je da na kvalitet zvuka utiče ambijent u kom se nalaze izvor zvuka i slušalac.
Ambijent se može posmatrati kao sistem kroz koji zvuk prolazi do slušaoca pa se, prema
tome, može opisati impulsnim odzivom. Na sljedećim slikama su prikazani impulsni odzivi
koncertne hale i obične sobe. Impulsni odziv koncertne hale je dužeg trajanja što znači da će i
zvuk koji nastane da se duže čuje u koncertnoj hali nego u sobi.

8. Uticaj digitalizacije zvuka na količinu podataka i kvalitet audio


signala
Zadatak analogno/digitalnog (A/D) konvertora je da izvrši odmjeravanje, kvantizaciju
i kodovanje analognog signala, tj. da ga prevede u digitalni oblik. Prije same A/D konverzije
neophodno je ukloniti frekvencijske komponente iznad frekvencije određene Nikvistovim
kreiterijem. Digitalno/analogni (D/A) konvertor rekonstruiše analogni signal iz niza brojeva.
Audio signal govornog kvaliteta je moguće digitalizovati sa 8 kHz i 8 bita po
odmjerku, dok je za CD-kvalitet audio signala potreban digitalni audio zapis signala
digitalizovan sa 44.1 kHz i 16-bita. Dinamički opseg koji prekriva digitalni signal je
odreĎen brojem bita koji se koristi pri zapisu odmjeraka audio signala. Svaki bit doprinosi
dinamičkom opsegu sa 6 dB. Dodavanjem jednog bita udvostručava se opseg brojeva kojim
predstavljamo amplitude zvučnog signala. Nivo čujnosti se ne povećava dva puta, već za .

2p p
20log − 20log = 20log2 ≈ 6[dB]
p0 p0

Prema tome, 8 bitni audio može da pokrije dinamički opseg audio kasete (48 dB), dok
je 16 bita dovoljno za dinamički opseg audio CDa (96dB), što je približno jednako
dinamičkom opsegu ljudskog uha.
2. pitanje
1. Histogram slike i operacije nad histogramom
Histogram h[a] je funkcija svjetline koja daje broj piksela za svaku vrijednost svjetline
u posmatranom regionu. Histogram se može normalizovati ukupnim brojem piksela, tako da
je ukupna oblast ispod histograma jednaka jedinici. Tada je procijenjena funkcija gustine:

1
p[a] = h[a], Λ = � h[a]
Λ
a

Na sljedećoj Slici 31. su prikazani funkcija distribucije i nenormalizovani histogram


(proporcionalan funkciji gustine) jedne slike. Visine u histogramu odgovaraju broju piksela
za svaku vrijednost svjetline.

Slika 31. [14] Funkcija distribucije (a) i histogram (b)

Važna klasa operacija se zasniva na manipulaciji nad histogramom slike ili regiona.
Na Slici 34 su su dati primjeri histograma slika.

Slika 34. Histogram slike:(a) suviše tamne, (b) suviše svijetle,


(c) sa lošim kontrastom, (d) sa dobrim kontrastom
Promjena kontrasta
Često je slika skenirana na takav način da se rezultujuće vrijednosti svjetline ne
protežu preko cijelog raspoloživog dinamičkog opsega. U ovakvim slučajevima, slika se
koriguje razvlačenjem histograma preko cijelog raspoloživog dinamičkog opsega. Na taj
način se pojačava kontrast. Ako nivoi svjetline na slici treba da se kreću u granicama od 0 do
2B-1, tada se, u opštem slučaju, 0% svjetlini (odnosno, minimumu) pridružuje vrijednost 0, a
100% svjetlini (maksimumu) vrijednost 2B-1. Odgovarajuća transformacija je data sa:
γ
a[m, n] − minimum
b[m, n] = (2B − 1) ∙ � �
maksimum − minimum

Ako je razvlačenje histograma linearno γ je jednako 1. Druge vrijednost γ daju nelinearno


razvlačenje histograma.
Za različite vrijednosti γ krive transformacije histograma imaju oblik dat na Slici 37.
Za γ=1 transformacija je linearna, dok su ostale dvije transformacije nelinearne. Kada je γ<1
dolazi do razvlačenja histograma u području nižih vrijednosti svjetlina, a područje histograma
viših vrijednosti svjetlina se sabija, dok je za γ>1 situacija obrnuta.

Slika 37. Krive transformacije histograma

Negativ slike se dobije obrtanjem histograma, Slika 44. Interesantno je primijetiti da


se na negativu mogu uočiti detalji koji nisu vidljivi na originalnoj slici. Negativ slike ”Lena”
sa odgovarajućim histogramom je prikazan na Slici 45.
2. Filtriranje slike u prostornom domenu
Osnovna ideja se sastoji u tome da se jedna slika (prozor) konačnih dimenzija I oblika
“prevlači” preko slike i izlazne vrijednosti piksela izračunavaju kao težinska sumu vrijednosti
piksela ulazne slike, gdje su težine određene vrijednostima piksela prozorske slike. Prozorska
slika određenog oblika sa pridruženim vrijednostima piksela (težinama) se naziva
konvolucioni kernel. Kako su vrijednosti konvolucionog kernela h[j,k], {j=0,1,…J-1;
k=0,1,…K-1} jednake nuli izvan pravougaonog prozora dimenzija J×K, ova obrada slike,
koju zovemo konvolucija.

Slika 48. Ilustracija dvodimenzionalne konvolucije

Za prostorno usrednjavanje koriste se posebni konvolucioni kerneli koje zovemo


smoothing filtri. Riječ smoothing znači “zagladiti, izglačati, umanjiti neravnine…”. Stoga se
ovi filtri koriste da redukuju šum ili za pripremu slike za dalju obradu, npr., segmentaciju.
3. Geometrijske operacije nad slikama
Geometrijske operacije mijenjaju prostorne odnose elemenata na slici. Ove operacije
se mogu posmatrati kao kretanje objekata unutar slike. Za izvođenje geometrijskih operacija
neophodne su dvije grupe algoritama: jedni koji definišu prostorne transformacije same po
sebi, tj. zadaju način kretanja svakog piksela, i drugi koji omogućavaju gray-level
interpolaciju.
Definisanje kretanja svakog piksela slike ponaosob je neracionalno, te je uobičajeno
da se kretanje piksela specificira matematički, prostornom relacijom koja povezuje piksele
izlazne sa pikselima ulazne slike. Opšte forma geometrijskih operacija je prema tome
𝐛𝐛(𝐱𝐱, 𝐲𝐲) = 𝐚𝐚(𝐱𝐱 ′ , 𝐲𝐲 ′ ) = 𝐚𝐚[𝐟𝐟(𝐱𝐱, 𝐲𝐲), 𝐠𝐠(𝐱𝐱, 𝐲𝐲)]
gdje je a(x,y) ulazna slika, b(x,y) izlazna slika, a funkcije f(x,y) i g(x,y) specificiraju
prostornu transformaciju.
Iako su vrijednosti ulazne slike definisane samo u cjelobrojnim vrijednostima x i y,
navedena jednačina može generisati vrijednosti izlazne slike na koordinatama koje nisu cijeli
brojevi. Ako se neka geometrijska operacija posmatra kao mapiranje slike a u sliku b, pikseli
slike a se mogu mapirati na pozicije izmeĎu piksela na slici b i obrnuto. Mi ćemo (radi lakše
diskusije) podrazumijevati da su pikseli locirani tačno na cjelobrojnim koordinatama.

4. Detekcija ivica na slici


Detekcija ivica (rubova) jedan je od osnovnih problema u digitalnoj obradi slike, ali i
jedna od najkorisnijih i najčešće korišćenih operacija na slici. Ivice su područja slike sa
velikim razlikama u intenzitetu tačaka, i predstavljaju granice objekata. To se može iskoristiti
za prepoznavanje objekata, detekciju položaja objekta u slici i detekciju orijentacije objekta.
Detekcija ivica u slici smanjuje (u mnogo primena) količinu podataka koja se mora
koristiti i filtrira sve nepotrebne ili nebitne informacije, tako što ostavlja samo ivice. Iako
postoji mnogo metoda detekcije ivica većina se može podeliti na gradijentne i Laplasove
(Laplaceove). Gradijentne metode rade tako da traže maksimume i minimume u prvom
izvodu slike, dok Laplaceove metode traže nule u drugom izvodu slike.

Gradijentne metode i Laplaceove metode

Slika 1.1: Ivica u jednodimenzionalnom signalu

Na slikama 1.1 i 1.2 vidi se ideja detekcije ivice korišćenjem gradijenta. Ivica na slici
znači naglu promenu intenziteta tačaka, a upravo je to područje u kome prvi izvod ima
maksimum. Slike u digitalnoj obradi nisu kontinuirane nego diskretne pa se ne može
izračunati prava vrednost izvoda. Da bi se to moglo slika bi morala imati analitički opis.
Uprkos diskretnosti slike, postoji mnogo metoda za procenu iznosa prvog izvoda. Nakon
procene izvoda, kod gradijentnih metoda koristi se prag koji određuje koliki treba da bude
iznos izvoda da bi tačku na tom mestu smatrali ivičnom.

Slika 1.2: Prvi izvod


Slika 1.2 ujedno prikazuje i probleme koji mogu nastati kod ovih metoda. Može se
desiti da je iznos gradijenta veći od odabranog praga na području širem od stvarne širine ivice
te se javljaju „široke ivice” i gubi se bitna informacija o tačnom položaju ivice.
Iz te slike može se naslutiti i jedno moguće rešenje za određivanje tačnog položaja ivice.
Može da se vidi da tačnom položaju ivice odgovara maksimum prvog izvoda koji se može
odrediti tako da se izračuna/proceni drugi izvod i odredi njegova nula, drugim rečima
položaju ivice odgovaraju mesta u slici u kojima drugi izvod prolazi kroz 0. Metode koje
koriste drugi izvod nazivaju se Laplaceove metode.

Slika 1.3: Drugi izvod

Drugi izvod je prikazan na slici 1.3. Na njoj se može primetiti nedostatak metoda koje
rade s drugim izvodom, a to je da se na područjima slike koja ne predstavljaju ivice ali se
javljaju sitne promene u intenzitetu tačaka javljaju nule u drugom izvodu i detektuju lažne
ivice. Laplaceove metode su stoga osetljive na šum.
Gradijentne metode obično se zasnivaju na definisanju operatora za procenu
gradijenta. Svaki operator detektuje ivice samo u jednom smeru i zato se koriste u parovima.
Dva operatora u jednom paru operatora detektuju ivice u međusobno ortogonalnim
smerovima. Računanje ivica u slici obavlja se operacijom konvolucije slike i maski
gradijentnih operatora. Ako su maske operatora h1 i h2 tada su ivice g1 i g2 definisane sa:

Ukupna slika s ivicama tada se dobija po formuli:

Nekad se zbog jednostavnijeg i bržeg računanja umesto gornje formule za rezultantnu


sliku jednostavno uzima suma apsolutnih vrednosti pojedinih gradijenata.

5. Reprezentacija boje
Mnoge aplikacije koje koriste obradu slike generišu sliku koju će posmatrati čovjek
(za razliku od, recimo, automatske inspekcije u industriji). Zbog toga je veoma važno
poznavati karakteristike i ograničenja ljudskog vida – “prijemnika” 2D signala. Važno je
znati da:
- ljudski vizuelni sistem nije dovoljno ispitan,
- ne postoji objektivna mjera kvaliteta slike koja odgovara ljudskoj prosudbi o
kvalitetu slike,
- “tipični” posmatrač ne postoji.
Uprkos svemu, istraživanja u oblasti perceptualne psihologije obezbjeđuju neka važna
sagledavanja vizuelnog sistema. Uopštena građa ljudskog oka je prikazana na Slici 5. Retina
ljudskog oka je prekrivena fotoreceptorskim ćelijama. Fotoreceptorske ćelije apsorbuju
svjetlost od slike koju na retinu fokusiraju leća i rožnica (cornea). One generišu nervne
impulse koji putuju ka mozgu kroz optičke nerve od kojih se svaki sastoji od oko milion
vlakana. Frekvencija ovih impulsa je funkcija osvjetljenosti retine. Fotoreceptorske ćelije su
najgušće u području žute mrlje (fovea). Pri jakoj svjelosti, otvor zjenice je mali i svjetlost je
fokusirana na žutu mrlju, što omogućava dobro razaznavanje detalja. Pri slaboj svjetlosti,
otvor zjenice je veći, te je svjetlost rasuta po većem dijelu retine i slika je loše fokusirana.
Slika 5. Uproštena građa ljudskog oka

Fotoreceptorske ćelije su mješavina ćelija dva tipa: štapića i čunića (konusnog oblika),
tako nazvanih po njihovom obliku. Štapići su mnogo osjetljiviji i omogućavaju
monohromatski vid u noći. Čunići omogućavaju gledanje u boji, ali samo pri visokom nivou
osvjetljenosti. Postoje tri tipa konusnih ćelija. One dijele vidljivi dio spektra u tri opsega:
crveni, zeleni i plavi. Zbog toga su ove tri boje označene kao osnovne boje ljudskog vida.
Slika 6 prikazuje osjetljivost ova tri tipa konusnih ćelija po talasnim dužinama svjetlosti iz
vidljivog dijela spektra.
Zasnovano na psihofizičkim mjerenjima, CIE (Commision Internationale de
I’Eclairage) je prihvatila ove krive kao kao krive osjetljivosti “tipičnog” posmatrača za tri
navedena pigmenta.

Slika 6. [14] Osjetljivost fotoreceptorskih ćelija ljudskog oka


6. Digitalizacija slike
Uobičajeno je da se opšta definicija slike ograniči. Ako se drugačije ne naglasi,
digitalnu sliku definišemo kao odmjerenu, kvantovanu funkciju dvije varijable koja je
generisana optičkim sredstvima, odmjerena u jednako razmaknutim tačkama i kvantovana
jednakim intervalima amplitude. Prema tome, digitalna slika se predstavlja
dvodimenzionalnom matricom kvantovanih vrijednosti.
Dvodimenzionalna slika se može razmatrati kao funkcija dvije realne varijable, npr., a(x, y),
gdje je a amplituda(što odgovara svjetlini) slike na poziciji datoj realnim koordinatama (x, y).
Digitalna slika a[m,n] u 2D diskretnom prostoru se izvodi iz analogne slike a(x, y) iz
2D kontinualnog prostora procesom odmjeravanja koji se često naziva digitalizacija.
Kontinualna 2D slika se podijeli u M vrsta i N kolona, Slika 16. Presjek vrste i kolone je
označen kao piksel. Pridružena vrijednost a[m, n] u cjelobrojnim kordinatama [m,n]
{m=0,1,2,...,M -1} i {n=0,1,2,...,N-1} odgovara nivou svjetline.
Slika 17. U većini slučajeva kontinualna slika je funkcija više varijabli, uključujući
dubinu (perspektivu), boju i vrijeme. Mi ćemo u ovom kursu obrađivati samo 2D statičke
slike.
Riječ skeniranje (scanning) koristimo da označimo selektivno adresiranje specifičnih
lokacija unutar slike. Svaki od malih podregiona slike u procesu skeniranja se naziva element
slike ili piksel (pixel). Pravougaona matrica za skeniranje je poznata pod imenom raster. U
slučaju trodimenzionalnih slika svaki od malih podregiona slike u prostoru se naziva voksel
(voxel).Gustina odmjeravanja (sampling density) digitalne slike je broj odmjerenih tačaka po
jedinici mjere (npr., piksela po milimetru) u domenu slike. Recipročna vrijednost gustine
odmjeravanja je razmak piksela.
Odmjeravanje (sampling) označava mjerenje svjetline na mjestu svakog piksela.
Odmjeravanje se obično izvodi sa uređajima koji su osjetljivi na svjetlost i koji proizvode
napon proporcionalan intenzitetu svjetlosti u svakom pikselu slike.
Kvantizacija (quantization) je metod predstavljanja izmjerenih vrijednosti cijelim
brojevima. Senzori slike su uobičajeno praćeni analogno/digitalnim konvertorima koji
generišu broj proporcionalan naponu.
Rezolucija u nivou sivila (gray scale resolution) je broj nivoa svjetline po jedinici
mjere amplitude slike (jačine osvjetljenosti slike). Smještajući digitalnu sliku sa 8-bitnim
bajtovima, npr., vodi skali od 256 nivoa svjetline. Slika 18 ilustruje efekat korištenja
različitog broja nivoa sivila (256, 64 i 16) za zapis svjetline sivih slika, dok je na Slici 19
prikazan proces digitalizacije na primjeru slike ”Lena” sa 256 nivoa sivila.

7. Rezolucija slike i rezolucija uređaja


8. Strukture podataka kod digitalne slike
Jedna od klasifikacija dijeli digitalne slike na binarne, sive (gray-scale) i
multispektralne slike. Kod binarnih slika vrijednost svjetline u svakoj tački (pikselu) se
kvantuje sa “0” (crno) ili “1” (bijelo). Primjeri binarnih slika su dati na Slici 20. Često se
slike sa samo dva nivoa nazivaju monohromatskim slikama. Jedna monohromatska slika
dimenzija 640 x 480 zahtijeva oko 37.5 KB za memorisanje.

Slika 20. [11] Predstavljanje binarnih slika

Sive slike imaju više nivoa sivila, što znači da je svjetlini u svakoj tački pridružena
jedna brojčana vrijednost iz konačnog skupa. Često se koristi opseg vrijednosti 0-255, gdje je
0- crno, a 255-bijelo, ili 0-1, kao na Slici 21, gdje je 0-crno a 1-bijelo. Uobičajeno se ove
slike nazivaju crno-bijele slike (kao kod crno-bijele fotografije ili crno-bijele televizijske
slike). Mi ćemo zadržati naziv sive slike da bi ih razlikovali od binarnih slika. Siva slika
dimenzija 640 x 480 zauzima oko 300 KB memorijskoh prostora.

Slika 21. [11] Predstavljanje sivih (crno-bijelih) slika


Multispektralne slike čine podskup fizičkih slika koje imaju više od jedne lokalne
osobine definisane u svakoj tački. Primjer su tri-spektralne, crveno-zeleno-plave (redgreen-
blue) slike koje se uobičajeno koriste kod fotografije i televizije u boji. Dok binarne i sive
slike imaju samo jednu vrijednost za svjetlinu u svakoj tački, slike u boji imaju tri vrijednosti
svjetline, po jednu za crvenu, zelenu i plavu, Slika 22a. Ove tri vrijednosti predstavljaju
intenzitet svjetlosti u različitim spektralnim opsezima koje oko vidi kao različite boje.

Slika 22a. [11] Predstavljanje slika u boji


Kod bit-mapiranih slika u boji memorišu se tri matrice, za svaku komponentu boje
posebno, tako da je i potreban memorijski prostor tri puta veći nego kod sivih slika. Kod
indeksiranih slika, koje koriste look-up tabele, potreban memorijski prostor je znatno manji.
U ovom slučaju, svaki element matrice (koji odgovara pikselu) sadrži pokazivač na lokaciju u
drugom vektoru gdje se nalazi informacija boji. Veličina ove druge matrice zavisi od broja
upotrijebljenih boja. Na Slici 22b prikazana je slika gdje je boja kodovana sa 8 bita (256
različitih boja). Ova slika (uz korištenje look-up tabele) zauzima 307.2 KB. Na Slici 22c
prikazana je slika sa 24 bita (256x256x256=16.777.216 mogućih boja) koja zauzima 921.6
KB.
3. pitanje
1. Kompenzacija pokreta u videu
Inter-frejm kodovanje
Veći stepen kompresije se dobija ako se pri kodovanju vodi računa i o vremenskoj, a
ne samo prostornoj redundansi, jer je poznato da između susjednih frejmova u video sekvenci
postoji velika vremenska korelacija. Princip inter-frejm kodovanja je prikazan na sljedećoj
slici.

Osnovu ovog kodovanja čini kompenzacija pokreta pri kojoj se formira vector
pomjeraja. Posmatra se luminentna komponenta makrobloka tekućeg frejma. U šemi 4:1:1 to
je blok veličine 16x16 piksela (4 bloka luminanse). Posmatranom makrobloku tekućeg frejma
se traži najsličniji dio na ograničenom području referentnog (prethodnog, mada ćemo kasnije
vidjeti da to može biti i sljedeći) frejma. Kada se pronađe najbolje preklapanje formira se
razlika vrijednosti luminantnih i hrominentnih blokova pronađenog i tekućeg makrobloka.
Makroblok razlike se koduje preko DCT. Prije Hafmanovog kodovanja, kvantovanim
koeficijentima DCT se dodaje vector pomjeraja.

2. Pododmjeravanje hromatskih komponenata boje


Postoji video oprema koja koristi direktno R'G'B' komponente slike u boji. Međutim,
ljudski vid je znatno manje osjetljiv na boju nego na osvjetljenje. Iz tog razloga se
informacija o osvjetljenju koju nosi luminentna komponenta zadržava u punom obliku, dok
se informacija o boji koju nose hrominentne komponente može redukovati procesom koji
nazivamo pododmjeravanje (subsampling), a on se može posmatrati kao neka vrsta digitalnog
filtriranja ili usrednjavanja. Pododmjeravanje hromatskih komponenti se vrši na različite
načine te je, shodno tome, usvojena notacija kao na sljedećoj slici.
Oznaka 4:2:2 se odnosi na horizontalno pododmjeravanje oba signala boje sa
faktorom 2, dok 4:1:1 znači da je odnos luminentne prema svakoj od hrominentnih
komponenti 4:1, tj. izvršeno je horizontalno pododmjeravanje komponenti boje sa faktorom
4. Treća cifra u znaci je jednaka drugoj cifri osim u slučaju kada se radi i vertikalno
pododmjeravanje. Za vertikalno pododmjeravanje se za sada koristi samo faktor 2. Kako bi se
naglasilo da se pododmjeravnje radi i vertikalno (a ne samo horizontalno), usvojeno je da
treća cifra bude nula. Tako oznaka 4:2:0 znači da je izvršeno pododmjeravanje obje
hrominentne komponente horizontalno sa faktorom 2 i vertikalno sa faktorm 2. U
standardima za kompresiju se najčešće koriste šeme 4:1:1 i 4:2:0.

3. Osnovne karakteristike videa


Format slike (aspect ratio) predstavlja odnos širine i visine slike. To je neimenovan
broj i piše se kao proporcija (na primjer 4:3), s tim da je uobičajeno da se proporcija
skraćivanjem svede na prost razlomak. Standardni formati slike za film i video su dati na
sljedećoj slici.
Konvencionalna televizija (televizija standardne definicije ili standarddefinition television
(SDTV)) koristi format slike 4:3. Televizija sa širokim ekranom, kao i televizija visoke
definicije ili high definition television (HDTV), koristi format slike 16:9. Bioskopski film
koristi formate 1.85:1 i 2.39:1.
Često je u praksi potrebno promijeniti odnos širine i visine slike zbog prilagođenja veličini
ekrana. Filmska slika se može transformisati u dimenzije 4:3 za video odsijecanjem dijela
slike sa strane, to jest sa gubitkom tih dijelova slike (pillarbox format). Moguće je, takođe,
umjesto fiksnog odsijecanja sa strana, ram pomijerati lijevo ili desno u zavisnosti od scene
filma (pan-and-scan metod). Ovakav način omogućava da prikaz u novom format obuhvati
značajne dijelove scene, dok one manje bitne odsijeca. Nedostatak ovog metoda je što se
prilikom transformacije mora ručno podešavati pozicija od kadra do kadra. Pozicija rama u
čitavoj slici se prenosi do krajnjeg korisnika tako da uređaj koji se koristi za prikaz slike ima
informaciju koji dio slike treba da prikaže. Umjesto odsijecanja dijela slike, češće se koristi
takozvani letterbox format, koji omogućava zadržavanje čitave slike. Ovakav način nema
gubitka dijelova slike, koristi se čitava širina ekrana, s tim što se gornji i donji dio slike
dopunjava crnim ili sivim, i ne koristi se za prikaz.Različiti metodi su prikazani na sljedećoj
slici.

Pojavom tv prijemnika sa širokim ekranom postalo je uobičajeno vidjeti 4:3 materijal


prikazan na ovakvoj vrsti prijemnika u pillarbox formatu (negdje poznat i kao sidebar
format). Ovdje se koristi čitava visina ekrana, dok su lijeva i desna strana zatamnjene.
Tipična video kamera ili digitalni fotoaparat imaju jedan ili više CCD senzora slike, a svaki
od njih se sastoji od stotina hiljada, ili čak nekoliko miliona foto-osjetljivih elemenata.
Ukupan broj piksela koji sadrži slika je proizvod broja kolona slike (tehnički rečeno uzoraka
po aktivnoj liniji, SAL) i broja redova slike (aktivnih linija, LA). Ukupan broj piksela se
obično izražava u kilopikselima ili megapikselima.
Za sistem koji ima jednaku horizontalnu i vertikalnu gustinu odmjeraka kaže se da
ima kvadratno odmjeravanje. Kod takvog sistema, broj odmjeraka po širini slike jednak je
proizvodu formata slike i broja horizontalnih linija slike. Na primjer, za format slike 4:3 koja
ima 480 horizontalnih linija, dobijamo 480·(4:3)=640 odmjeraka po širini slike.

4. Udaljenost i ugao gledanja kod SDTV i HDTV


Ako prikažemo bijelu površinu na ekranu sa katodnom cijevi i sa tipičnom veličinom
tačke, linijska struktura slike na ekranu će se primijetiti ukoliko se posmatrač nalazi na
udaljenosti manjoj od one na kojoj susjedne linije slike zahvataju ugao od jedne minute.
Da bi se postiglo posmatranje pri kojem razmak između linija (d) zahvata manje od
šezdesetine stepena, udaljenost gledanja bi trebala biti oko 3400 puta veća od tog razmaka,
tako da se dobija:
3400 1
udaljenost ≈ 3400 ∙ d ≈ ; 3400 ≈
ppi 1
sin � �
60°

gdje ppi označava gustinu linija (piksela po inču).


Udaljenost gledanja može se izraziti i kao:

3400
udaljenost ≈ × PH
LA

gdje je sa PH označena visina slike (picture height), a sa LA broj redova piksela (linija) slike.
Televizija standardne definicije (Standard definition television - SDTV) ima oko 480 redova
slike. Razmak između linija slike zahvata šezdesetinu stepena na udaljenosti od oko sedam
puta većoj od visine slike, kao što je skicirano na sljedećoj slici. Za format slike 4:3, i SDTV
sa 480 linija slike dobijamo 480·(4:3)=640 piksela po širini slike. Ako jedna linija, odnosno
piksel zahvata 1/60o stepena vidnog polja posmatrača onda po širini slike dobijamo ugao
gledanja od 640·(1/60o)=10.667o≈11o , dok po vertikali imamo 480·(1/60o)=8o

Optimalna udaljenost gledanja se često izražava prema dijagonali ekrana


televizora.Uzmimo format slike 4:3 na primjer. Dijagonala, visina i širina slike čine pravougli
trougao. Prema Pitagorinoj teoremi, za pravougli trougao čije su katete proporcionalne sa
odnosom 4:3, proporcionalnost hipotenuze i kateta je respektivno 5:3 i 5:4. Prema tome,
visina ekrana iznosi tri petine dijagonale ekrana, pa prethodna relacija dobija oblik:

3400 3400 3 2040


udaljenost ≈ × PH = × D= × D
LA LA 5 LA

gdje je D dijagonala ekrana


Za 480 linija slike dobijamo da je minimalna udaljenost posmatrača od ekrana 4.25
puta veća od dijagonale ekrana. Sličnu analizu možemo izvršiti i za televiziju visoke
definicije (High definition television - HDTV) za standard sa 1080 linija slike. U ovom
slučaju format slike 16:9, broj piksela po širini je 1080·(16:9)=1920..
Kako vidimo na prethodnoj slici, horizontalni ugao koji slika zahvata u vidnom polju
posmatrača je 1920·(1/60o)=32o, što je praktično skoro tri puta više nego kod SDTV sa 480
linija. Vertikalni ugao koji slika zahvata je 1080·(1/60o)=18o, pa je i on povećan u odnosu na
SDTV. Iz tog razloga, glavni efekat povećanja broja piksela slike kod HDTV treba tumačiti
kao povećanje ugla koji slika zauzima u vidnom polju posmatrača.

5. Tehnike skeniranja kod videa


Pod skeniranjem (raster scanning) se u oblasti videa podrazumijeva proces u kome se
ispisuje slika (piksel po piksel, linija po linija) preko čitavog ekrana televizora ili računarskog
monitora. Niz mirnih slika prikazanih dovoljno velikom brzinom mogu da stvore iluziju
pokreta u slici. Jedna mirna slika u tom nizu čini frame.
Mnogi ekrani koji prikazuju pokretne slike emituju svjelost samo dio vremena
predviđenog za prikaz jedne slike (frame time). Preostali dio vremena ekran je zatamnjen.
Brzina ispisivanja, odnosno učestanost kojom se ispisuju slike između zatamnjenja ekrana
naziva se frekvencija osvježavanja (flash rate ili refresh rate). Ako je ova frekvencija
preniska, primjećuje se treperenje slike odnosno flicker. Najniža frekvencija pri kojoj se
primjećuje treperenje zavisi i od osvjetljenja ambijenta u kojem se nalazi ekran, kao i od ugla
gledanja. Što je svjetlije okruženje i veći ugao koji slika zahvata u vidnom polju posmatrača,
to je potrebna veća frekvencija osvježavanja da bi se izbjeglo treperenje. Ugao gledanja ili
ugao koji slika zauzima u vidnom polju posmatrača zavisi od udaljenosti posmatrača od
ekrana, i to tako da se s povećanjem udaljenosti ugao gledanja smanjuje i obratno. Zbog te
zavisnosti umjesto da kažemo da treperenje ekrana zavisi od ugla gledanja, možemo reći da
treperenje ekrana zavisi od udaljenosti posmatrača od ekrana.
Zbog veće vremenske osjetljivosti periferalnog vida od centralnog (fovealnog), prag
primjećivanja treperenja se donekle povećava sa većim horizontalnim uglovima gledanja.
Uobičajeno se za vrijednosti frekvencije osvježavanja (flash/refresh rate) koriste
frekvencije od 50-60Hz. U mraku kino sale za prevazilaženje treperenja dovoljna je
frekvencija osvježavanja (flash rate) od 48Hz. Kad su se tek pojavile pokretne slike, smatralo
se da je frekvencija osvježavanja od 48Hz bila prevelika zbog velike potrošnje filmske trake,
pa su se za prikaz koristile 24 slike u sekundi, što je bilo dovoljno dobro za prikaz pokreta u
filmu. Da bi se ispoštovala frekvencija osvježavanja od 48Hz, konvencionalni kino projector
je koristio dvostruki poklopac, kao na sljedećoj slici, sa kojim je svaka slika bila dva puta
prikazana. Rijetko su se koristili i projektori sa trostrukim poklopcem, dok se veća
realističnost postiže sa projektorom sa jednostrukim poklopcem i prikazom 60 slika u
sekundi.
U tamnijim prostorijama, kao što su na primjer dnevne sobe, frekvencija osvježavanja
od 60Hz je dovoljna za prikaz bez treperenja. Tehnika skeniranja sa preplitanjem, koja će
biti objašnjena naknadno, može se uporediti sa projektorom sa dva poklopca. Svaka slika se
prikazuje u dva polja. Za dati broj slika u sekundi tehnika preplitanja udvostručuje
frekvenciju osvježavanja i omogućuje bolji prikaz pokreta. Skeniranje bez preplitanja se
naziva progresivno skeniranje.
Kod progresivnog skeniranja, prikaz čitave slike se dobija skeniranjem, odnosno
ispisivanjem jedne po jedne linije slike odozgo na dole. Dovoljno je jedno prebrisavanje
ekrana da bi se prikazala čitava slika. Kod skeniranja sa preplitanjem, slika se prikazuje u dva
prebrisavanja ekrana, s tim da se prikazuju jednom parne, a drugi put neparne linije slike.
Kod analognog videa, informacija u ravni slike se skenira sa lijeva u desno tokom
kratkog fiksnog intervala vremena koji se naziva vrijeme (interval) aktivne linije.
Horizontalne linije slike se ispisuju (skeniraju) postepeno, jedna po jedna i to sa lijeva na
desno i odozgo na dole. Skeniranje linija se vrši konstantnom brzinom tako da se može
uspostaviti direktna veza između pozicije piksela u slici koja se skenira i vremenske pozicije
u električnom signalu koji prenosi sliku. Stacionarni uzorak paralelnih linija duž slike koji se
koriste pri skeniranju naziva se raster. Kod digitalnog videa, uzorci iz matrice slike su
poredani isto kao i kod analognog videa, sa lijeva na desno po liniji, a zatim vertikalno
odozgo prema dole po linijama.
Prelazak sa kraja tekuće na početak sljedeće linije slike, kao i prelazak sa posljednje
linije tekuće slike na prvu liniju sljedeće, nije trenutan i odvija se u toku određenog interval
vremena u procesu skeniranja. Tokom ovog vremenskog intervala odvija se proces koji se
naziva retracing (repozicioniranje), i on je posljedica konstrukcije ekrana sa katodnom
cijevi (Cathode Ray Tube display - CRT - display). Elektronski top kod ekrana sa katodnom
cijevi se mora isključiti (biti zatamnjen - blanked) pri prelasku sa kraja jedne na početak
sljedeće linije skeniranja, pa se ovi intervali nazivaju blanking intervali ili intervali
zatamnjivanja. Horizontalni blanking intervali se vremenski pojavljuju između skeniranja
dvije susjedne linije, dok se vertikalni blanking intervali (VBI) pojavljuju između skeniranja
dve slike – rama (frame) ili polja. Treba naglasiti da signal koji prenosi televizijsku sliku
sadrži i blanking intervale.
Tehnika skeniranja sa preplitanjem ili interlaced scanning je postupak kod kojeg
možemo smanjiti veličinu tačke bez bojazni da će se primijetiti linijska struktura slike. Duž
čitave visine slika se skenira tačkom čija je vertikalna dimenzija takva da prilikom skeniranja
ostaju praznine između susjednih linija skeniranja. Zatim se, nakon 1/50 s ili 1/60 s, slika
ponovo skenira, ali sad sa pomjerajem tako da se popune dobijene praznine. Zbog toga se
kompletna slika kod skeniranja sa preplitanjem dobija nakon dva prebrisavanja ekrana. Dio
slike koji se dobije jednim prebrisavanjem, a koji sadrži samo polovinu informacija iz slike
naziva se polje. Frame ili slika se sad sastoji od dva polja, naznačenim kao prvo i drugo
polje. Način skeniranja je skiciran na sljedećoj slici.

Skeniranje bez preplitanja (progresivno ili sekvencijalno) je uobičajeno kod stolnih


računara i uopšte u računarstvu. Ovaj način skeniranja podrazumijeva da se slika dobije
jednim prebrisavanjem ekrana, skeniranjem jedne po jedne linije od vrha slike prema dole.
Kod televizije, progresivno skeniranje nije bilo toliko rasprostranjeno i njegova veća
primjena je zaživjela tek pri pojavi digitalne televizije. Iz tog razloga tehnika skeniranja sa
preplitanjem još uvijek preovladava kod radiodifuznog emitovanja, a takođe je dominantna
kod televizije visoke definicije.
Procedura poznata kao deinterlacing se koristi da konvertuje signal namijenjen za
skeniranje sa preplitanjem u signal pogodan za prikaz na uređajima koji koriste progresivno
skeniranje. Kvalitet video signala koji se dobije na ovaj način je lošiji od originalnog video
signala namijenjenog za progresivno skeniranje.
Osjetljivost vida na treperenje zavisi i od širine slike. Pošto je visina slike manja od
širine, ona ima manji uticaj na treperenje. Kod skeniranja sa preplitanjem po visini se javlja
problem prilikom prikaza detalja čije su vertikalne dimenzije veoma male. Kada se u slici
nalaze detalji čija je rezolucija po vertikali uporediva sa razmakom između linija skeniranja,
kao na sljedećoj slici, prilikom skeniranja sa preplitanjem sadržaj slike u dva polja će se bitno
razlikovati. Pri praktičnim frekvencijama osvježavanja od 50 ili 60Hz ovo uzrokuje pojavu
koja se naziva twitter. Ovakav fenomen se opaža kao svjetlucanje, ili kao veoma brzo
kretanje gore-dole. Twitter se ponekad naziva i međulinijsko treperenje.

6. Kompresija multimedijalnih podataka


7. JPEG kompresija slike
JPEG (Joint Photographic Experts Group) je standard za kompresiju mirnih slika sa
više nivoa svjetline, kao i slika u boji. To je zajednički standard tri međunarodne
organizacije: ISO, IEC i ITU. On omogućava kompresiju bilo kakve digitalne slike, sive ili u
boji, sa gubicima ili bez gubitaka, nezavisno od njene rezolucije. Postoje četiri načina
kompresije po JPEG standardu:
- Kodovanje bez gubitaka
- Sekvencijalno DCT kodovanje
- Progresivno DCT kodovanje
- Hijerarhijsko kodovanje
Blok dijagram sekvencijalnog kodera i dekodera je prikazan na sljedećoj slici.
Blok šema JPEG sekvencijanog kodera i dekodera

JPEG koder
Koder se sastoji od tri osnovna bloka:
1. Blok za računanje direktne diskretne kosinusne transformacije,
2. Kvantizer,
3. Entorpijski koder.
Na ulazu kodera, originalne vrijednosti piksela, koje su pozitivni cijeli brojevi iz
opsega [0, 2p-1], se pomijeraju u opseg [ -2p-1, 2p-1 -1]. Na primjer, za sive slike kod kojih je
p=8, originalni odmjerci iz opsega [0, 255] se oduzimanjem 128 pomijeraju u opseg [-128,
+127].
Zatim se slika dijeli na blokove dimenzija 8x8. Dimenzija blokova je odabrana na bazi
opsežnih ispitivanja subjektivnog osjećaja kvaliteta kompresovane slike sa različitim
deimenzijama blokova. Svaki od blokova se transformiše diskretnom kosinusnom
transformacijom u skup od 64 DCT koeficijenata.
Diskretna kosinusna transformacija je diskretna funkcija dvije prostorne dimenzije, k i l, koje
nazivamo prostornim frekvencijama. Vrijednosti ove funkcije nazivamo DCT koeficijentima.
Koeficijent F(0,0) se naziva DC koeficijent, dok se preostala 63 koeficijenta nazivaju AC
koeficijenti. Za sive slike DCT koeficijenti su iz opsega vrijednosti [-1024, 1023], što znači
da u poređenju sa originalnim vrijednostima piksela slike trebamo 3 bita više za njihov zapis.
Za tipičan 8x8 blok većina DCT koeficijenata je jednaka nuli, ili ima vrijednost blisku
nuli, odnosno znatno manju od koeficijenata na niskim prostornim frekvencijama, (vidi
sljedeću sliku), te ih ne treba kodovati. Ova osobina se koristi za postizanje kompresije slike.
Matrica vrijednosti originale slike i DCT koeficijenti. U sljedećem bloku, kvantizeru, 64
DCT koeficijenta se kvantujnu koristeći kvantizacione matrice (zavisno od aplikacije) koje
redukuju amplitudu koeficijenata koji malo ili nimalo ne utiču na kvalitet slike, s ciljem da se
poveća broj nultih vrijednost u matrici DCT koeficijenata. Kvantizacijom se gube informacije
koje nisu vizualno od značaja. Kvantovanje se vrši dijeljenjem svakog DCT koeficijenta sa
odgovarajućim elementom neke od kvantizacionih matrica (prikazane na sljedećoj slici) i
zaokruživanjem na najbliži cio broj:

𝐹𝐹(𝑘𝑘, 𝑙𝑙)
𝐹𝐹𝑞𝑞 (𝑘𝑘, 𝑙𝑙) = 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 � �
𝑄𝑄(𝑘𝑘, 𝑙𝑙)

Standardne kvantizacione matrice

Kvantovanje se vrši sa različitim korakom kvantovanja za svaki DCT koeficijent. Za


maksimalnu kompresiju slike bez vidljivih izobličenja, svaka vrijednost u kvantizacionoj
matrici mora da bude izabrana tako da predstavlja prag percepcije odgovarajuće kosinusne
bazisne funkcije. Sproveden je niz psihovizuelnih eksperimenata za određivanje najboljih
vrednosti pragova. Sam standard ne propisuje sadržaj kvantizacionih matrica, ali daje
određene tabele kao preporuke.
Za regulaciju stepena kompresije uveden je faktor kvaliteta Q, cio broj kojim se
množe elementi kvantizacione matrice. Tako se omogućava jednostavno, ali grubo, zadavanje
željenog stepena kompresije, pri čemu veće vrijednosti parametra Q odgovaraju grubljem
kvantovanju, odnosno većem stepenu kompresije. Većem stepenu kompresije odgovara lošiji
kvalitet rekonstruisane slike.
Nakon kvantizacije od 63 AC koeficijenta se formira jednodimenzionalna sekvenca,
cik-cak redoslijedom, kao na sljedećoj slici. Ovakav poredak koeficijenata olakšava
entropijsko kodovanje jer su niskofrekvencijski koeficijenti, čija je vjerovatnoća da su
različiti od nule veća nego kod visokofrekvencijskih, smješteni u donji lijevi ugao matrice, te
se dobiju duge sekvence nula. Ova činjenica je potvrđena nizom eksperimentalnih ispitivanja.

Cik-cak poredak AC koeficijenata


Konačo, poslednji blok JPEG kodera je entropijski koder, kojim se postiže dodatna
kompresija kodujući kvantovane DCT koeficijente. Nakon kvantovanja, Hafmanov koder
konvertuje DCT koeficijente u kompaktnu binarnu sekvencu kroz dva koraka: (1) formira se
tabela simbola, (2) na osnovu Hafmanove tabele konvertuju se simboli u binarnu sekvencu.
U tabeli simbola, svaki koeficijent se predstavlja parom simbola:
- (DUŽINA_NIZA, VELIČINA)
- (AMPLITUDA)
DUŽINA_NIZA je broj koji pokazuje koliko koeficijenata nultih vrijednosti prethodi AC
koeficijentu nenulte vrijednosti. Vrijednost za DUŽINU_NIZA je u opsegu 0-15, te su
potrebna 4 bita za njenu reprezentaciju.
VELIČINA je broj bita koji je potreban da se koduje AMPLITUDA. AMPLITUDA se
koduje sa 0-10 bita, što znači da se neophodna 4 bita za kodovanje VELIČINE.
AMPLITUDA je vrijednost nenultih koeficijenata koja se kreće u opsegu [-1024, 1023], te je
potrebno maksimalno 10 bita za njeno kodovanje.

8. H.261 kompresija videa


Video standardi dati preporukama H.261 i H.263 se primjenjuju na videotelefonske,
videokonferencijske i multimedijalne komunikacije preko ISDN kanala. Oni opisuju
organizaciju signala (govor, video, podaci) za audiovizuelnu komunikaciju niskim bitskim
brzinama (px64 kb/s, 1<p<30). Bitski niz se dobija multipleksiranjem video i audio signala,
te drugih podataka. Način multipleksiranja se opisuje posebnim protokolima. Ne koriste se u
TV aplikacijama jer nude sliku znatno lošijeg kvaliteta nego što se zahtijeva kod TV
emitovanja.
Princip rada se zasniva na korištenju intra-frejm i inter-frajm kodovanja. Rezolucija
slika sa kojima se radi je QCIF (176x144) ili CIF (352x288), a vector pomjeraja se kreće u
granicama -15 do 15. Tipična sekvenca H.261 frejmova je prikazana na sljedećoj slici.

Za svaki I-frejm se koristi samo intra-frejm kodovanje (pododmjeravanje je 4:2:0), te


stoga za rekonstrukciju I-frejmova nije neophodno poznavanje susjednih frejmova. Za
kodovanje P-frejmova koristi se inter-frejm kodovanje, te ja za njihovu rekonstrukciju
neophodno poznavanje prethodnog frejma na osnovu kojeg su formirani vektori pomjeraja i
kodovane razlike makroblokova. Da bi se izbjeglo nagomilavanje predikcionih grešaka
zahtijeva se intra-kodovanje u svakom 132-om uzastopnom frejmu.
Mnogi praktični problemi nisu riješeni u ovom standardu: šta uraditi ako dođe do
gubitka dijela ili cijelog frejma, koliki je potreban stepen kvantovanja da bi se postigao
željeni bitski protok i slično.
Osnovni algoritam kodovanja video signala koji se koristi u standardu datom
preporukom H.263 se zasniva na istom algoritmu kao u standardu H.261. Primjenjuje se pet
formata slika: Sub-QCIF (128x96), QCIF (176x144), CIF (352x288), 4CIF(704x576), 16CIF
(1408x1152).
9. MPEG-1 kompresija videa
MPEG-1 je inicijalno bio projektovan za brzinu prenosa od 1.5 Mb/s i rezoluciju
352x254 za NTSC i 352x288 za PAL. Kasnije je prilagođen brzini prenosa od 4 Mb/s, uz
poboljšanje kvaliteta video signala. Na četiri bita luminanse dolazi po jedan bit hrominentnih
komponenti. Trenutno je MPEG-1 najkompatibilniji format i upotrebljiv je na skoro svim
plejerima.
MPEG-1, slično kao H.261, koristi i intra-frajm i inter-frajm kodovanje. Međutim,
inter-frejm kodovanje je ovdje puno složenije jer omogućava bidirekcionalnu vremensku
predikciju. Ideja bidirekcionalnog kodovanja je prikazana na sljedećoj slici. Makrobloku
tekućeg frejma se traži najsličniji makroblok u prethodnom i sljedećem frejmu i određuju se
dva vektora pomjeraja. Makroblok za kodovanje se formira kao razlika tekućeg makrobloka i
usrednjenih vrijednosti (na slici je usrednjavanje označeno sa %) najsličnijih makroblokova
iz susjednih frejmova, ukoliko se nađe dovoljno sličan makroblok u oba frejma. Ukoliko se
sličan blok nađe samo u jednom frejmu, on se zadržava i ne radi se usrednjavanje. Frejmovi
za koje se radi bidirekcionalna predikcija su označeni kao B-frejmovi.

Potreba uvođenja bidirekcionalne predikcije postaje jasna ako se pogleda sljedeća


slika.

Lopta tekućeg frejma je u prethodnom frejmu bila maskirana drugim objektom i


sasvim je jasno da je predikcija makrobloka koji sadrži loptu na osnovu sljedećeg frejma
mnogo bolja (signal razlike nakon pomjeraja je manji) nego na osnovu prethodnog frejma.
Tipičan raspored frejmova u grupi slika (group of pictures - GOP) kod MPEG-1 kodovanja je
prikazan na sljedećoj slici. Prvi frejm u svakoj video sekvenci mora biti I-frejm. I-frejmovi se
ponavljaju i na početku svake grupe slika. Iako se kod I-frejmova postiže mali stepen
kompresije, njihovo korištenje je neophodno kako bi bio moguć slučajni pristup, FF/FR i
oporavak od grešaka. Prvi P-frejm se koduje N frejmova nakon I-frejma. N-1 frejmova
između I-frejma i P-frejma ili između dva P-frejma se koduju kao B-frejmovi. Predikcija pri
kodovanju P-frejma se vrši na osnovu prethodnog P-frejma ili I-frejma. Treba napomenuti da
redoslijed slanja frejmova nije isti kao redoslijed njihovog pojavljivanja u vremenu, jer je za
rekonstrukciju B-frejmova neophodno poznavanje susjednih I-frejmova ili P-frejmova.

Za razliku od H.261, vektor pomjeraja kod MPEG-1 je precizniji (do ½ piksela) i


može da poprimi vrijednost iz skupa [-512, 511.5]. MPEG-1 bitski tok dopušta slučajni
pristup jer je svaka grupa slika (GOP) neovisno kodovana. Tipičan broj bita neophodan za
kodovanje I-slika je veći nego kod P-slika, dok je najmanji kod B-slika. Prosječan stepen
kompresije I,P i B slika je dat sljedećom tabelom. Prosječan faktor kompresije video signala
u MPEG-1 standardu iznosi 27:1.

10. Objektno zasnovano kodovanje u MPEG-4 kompresiji videa


MPEG-4 je uveden krajem devdesetih (1994, a postao je standard 2000. godine), za
web striming i prenos mobilnom mrežom, ali i za distribuciju TV signala i videotelefoniju.
On predstavlja proširenje prethodnih standarda u smislu podrške video/audio objektima, 3D
sadržajima i malim brzinama prenosa. Za razliku od svojih prethodnika, umjesto rada sa
pravougaonim blokovima slike, MPEG-4 je objektno orijentisan. Objekti video sekvence se
odvojeno koduju i prenose zasebnim sekvencama bita. Korisniku se omogućava niz
interaktivnih aplikacija sa videom. Standard pokriva širok opseg bitskih brzina, od veoma
niskih (5-64 Kb/s) do 2 Mb/s za TV/film aplikacije.
Istraživanja u okviru ovog standarda su još uvijek aktuelna, posebno vezano za
internet streaming, bežični prenos videa i digitalne kamere u mobilnim uređajima.
Ciljevi uvođenja ovog standarda su bili:
- manipulacija sadržajem i editovanje sekvence bita u komprimovanom domenu,
- mogućnost kombinovanja sintetizovanih i prirodnih scena i objekata,
- slučajan pristup frejmovima i objektima,
- bolji vizuelni kvalitet na uporedivim bitskim brzinama, u odnosu na prethodne
standarde,
- mogućnost kodovanja višestrukih pogleda, npr. stereoskopski vid,
- otpornost na greške,
- skalabilnost sa finom granularnošću u sadržaju, kvalitetu i složenosti.
Audio i video podaci su vezani za sadržaj, što omogućava neovisan pristup i
manipulaciju pojedinačnim objektima u komprimovanom domenu: transformaciju postojećih
objekata (repozicioniranje, skaliranje, rotaciju), dodavanje novih i uklanjanje postojećih
objekata sa scene, a sve to jednostavnim operacija nad komprimovanom sekvencom bita.
Kako bi se postigla interaktivnost na nivou sadržaja, sekvenca se posmatra kao kolekcija
video objekata (VO), koji predstavljaju neki sadržaj, npr. osobe u dijalogu, portret (glavu I
poprsje) osobe, objekat u pokretu ili pozadinu, itd... Izgled video objekta u jednom frejmu se
definiše kao jedna ravan video objekta (video object plane – VOP) i predstavlja elementarnu
formu reprezentacije sadržaja. Svaki frejm ulazne video sekvence se segmentira u niz regiona
proizvoljnog oblika (VOP-ovi). Oblik i položaj VOP-ova jednog VO variraju od frejma do
frejma. Informacije o obliku, pomjeraju i teksturi VOP-ova koji pripadaju istom video
objektu se koduju i prenose kao jedan bitski tok (Video Object Layer - VOL). Pod teksturom
VOP-a se podrazumijeva informacija o luminentnim i hrominentnim komponentama piksela
odgovarajućeg VO. Kako postoji više video objekata, sekvenca bita mora sadržavati I
informaciju o načinu kombinovanja VOL-ova kako bi bila moguća rekonstrukcija videa.

You might also like