Ms Odgovori Na Pitanja Za Ispit 2008 2009 03-06-2009

MULTIMEDIJSKI SUSTAVI Odgovori za ispit
2008./2009.
1.
Huffmanovo kodiranje (znaajke i primjer) Predavanje: 2_kompresija_1 Za dani niz podataka rauna se frekvencija ponavljanja Huffmanovim algoritmom rauna se minimalni broj bitova za svaki znak ovisno o frekvenciji ponavljanja kodovi se pohranjuju u rjenik koji se alje dekoderu kod ima tzv. svojstvo prefiksa nijedna kodna rije nije prefiks neke druge omoguava dekodiranje Huffmanov kod je optimalni kod koji osigurava najmanji izlazni broj bitova kada se kodiraju znakovi iste duljine Primjer 1: Kodirat emo sekvencu go go gophers Svakom znaku pridijelimo broj ponavljanja Pravimo stablo spajajui po dvije grane sa najmanjim brojem ponavljanja
Nastavljamo postupak
To daje tablicu g o 00 01
p 1110 h 1101 r 1111 s 1100 100
0 0 0 0 1 0 0 1 0 1 1 1
ukupan broj bitova potreban za kodiranje je (2x2 + 2x2+2x3+4x4+1x3) za kodiranje + 26 za kodnu tablicu = 33 + 26 =59 bitova za originalni niz uz 8 znakova treba 3 bita za kodiranje znaka x 13 = 39 za efikasnu kompresiju trebamo duu sekvencu
Primjer 2: - Slika je kodirana s 1 bitom po pikselu (bi-level) 480 x 903 x 1 bit = 433 440 bita Huffmanovo kodiranje: 406 888 Stupanj kompresije: 433440 : 406 888 = 1.065 Rezultat ukazuje na problem koji se javlja kod Huffmanova kodiranja kada se jedan znak pojavljuje s velikom vjerojatnou kod ne moe biti krai od 1-og bita
2.
Aritmetiko kodiranje (znaajke i primjer) Predavanje: 2_kompresija_1 temelji se na statistici simbola ne kodira svaki simbol zasebno, ve u ovisnosti o prethodnim podacima nije mogu sluajan pristup daje bolje rezultate od Huffmanovog kodiranja kod digitalne grafike jer sa manje bitova kodira simbole koji se uzastopce ponavljaju prosjean broj bitova ovdje je manji od jedan za sekvencu koju kodira daje realni broj izmeu 0 i 1 Primjer: kodirat emo sekvencu BILL GATES izraunat emo frekvenciju ponavljanja svakog znaka
ZNAK razmak A B E G I L S T
VJEROJATNOST 1/10 1/10 1/10 1/10 1/10 1/10 2/10 1/10 1/10
rezultat kodiranja e biti broj koji se odreuje na temelju statistike za svaki znak moramo odrediti njegovo podruje vjerojatnosti ZNAK razmak A B E G I L S T VJEROJATNOST PODRUJE 1/10 1/10 1/10 1/10 1/10 1/10 2/10 1/10 1/10 0.00 0.10 0.10 0.20 0.20 0.30 0.30 0.40 0.40 0.50 0.50 0.60 0.60 0.80 0.80 0.90 0.90 1.00

prvu decimalu odreuje prvo slovo u sekvenci - B, to znai da e konani broj biti u podruju od 0.20 do 0.30 sljedeu decimalu odreuje drugo slovo na nain da konani broj mora biti od 0.50 do 0.60 podruja od 0.20 do 0.30 ( = 0.1) dalje se kodira prema algoritmu Set low to 0.0 Set high to 1.0 While there are still input symbols do get an input symbol code_range = high - low. high = low + range*high_range(symbol) low = low + range*low_range(symbol) End of While output low zadnja donja granica 0.2572167752 predstavlja e kod ulazne sekvence BILL GATES Poznavajui vjerojatnost pojavljivanja pojedinog znaka dekoder moe iz ovog broja dekodirati poruku Iz broja 0.2572167752 dekoder zna da je prvi znak onaj kojem pripada granica 0.2 do 0.3, odnosno B Od ulaznog broja oduzima donju granicu i i to dijeli s =0.1 za taj znak Dobijeni broj 0.572167752 je u podruju znaka I Dalje se dekodira na isti nain Primjer 2: nekomprimirana slika 403 x 353 piksela x 8 bita = 1 138 072 bita komprimirana 694 419 stupanj kompresije 1.64 : 1
3.
LZW kodiranje (znaajke i primjer) Predavanje: 2_kompresija_1 Postavlja se inicijalna kodna tablica (rjenik), a ostatak se stvara dinamiki Ograniava se duljina tablice iz praktinih razloga vea tablica znai due vrijeme pretrage, ali i veu mo kompresije Dekodiranje bre i jednostavnije, dinamiki se gradi tablica
Primjer 1: koristimo znakove (A,B,C,D) kodiramo sekvencu ABACABADABACAB poetna tablica #1 = A #2 = B #3 = C #4 = D itamo string i popunjavamo tablicu: A je u tablici kao #1 , A se upisuje u izlazni tok podataka sa #1 AB nije u tablici, upisuje se kao #5 u tablicu , a u izlazni tok podataka se upisuje #2 slijedi BA koji nije u tablici, upisuje se kao #6 u tablicu, a u izlazni tok podataka #1, itd. IZLAZ #1 #2 #1 #3 #5 #1 #4 #9 #8 #2 Primjer 2: nekomprimirana slika 480 x 903 x 1 bit = 433 440 bita komprimirana s LZW algoritmom ( u Corel-u) 83 560 bita stupanj kompresije 5.19 : 1 6 ABA = 9 AD = 10 DA = 11 ABAC = 12 KODNA TABLICA AB = 5 BA = 6 AC = 7 CA = 8
Moe li bolje? WinZip kodira s 48 936 bita kompresija 8,86: 1
4.
Vektorska kvantizacija (znaajke i primjer) Predavanje: 2_kompresija_1 Vektorska kvantizacija (VQ) je metoda kompresije s gubitcima temelji se na zamjeni bloka podataka kodnom rijei (radi se aproksimacija) izbor i optimizacija kodnog rjenika predstavlja sloeni problem viedimenzionalne integracije 1980.Linde, Buzo i Gray (LBG) predstavili su algoritam za VQ primjenom probne sekvence (LBG-VQ) Vektorski kvantizator preslikava k-dimenzionalni prostor Rk u konani set vektora C={ci: i=1,2,3,...,N} Svaki vektor ci je k-dimenzionalan i predstavlja jednu kodnu rije, a C predstavlja rijenik. ci = (ci1 , ci 2 ,..., cik ) Uz svaki kodni vektor pridrueno je kodno podruje - podruje najbliih susjeda (Voronoi podruje) definirano kao
Vi = x R k : x ci
x c j j = 1, 2,...N
gdje su x ulazni vektori koje kodiramo Cijeli prostor kodiranja Rk je unija kodnih podruja
Vi = R k
i =1
VV
i i =1 i j
=0
P = {V1 , V2 , ..., VN }
Primjer: originalna slika 403 x 353 piksela x 8 bita= 1 138 072 bita kompresija N = 256 k = 16 kodni rjenik 256 x 16 x 8 bita = 32 768 7

5.
kodirana slika (403 x 353)/16 x 8 bita=70 400 ukupno 103 168 stupanj kompresije 11.03:1 S/N = 27.064 dB
Diskretna Fourierova transformacija (periodina vs. neperiodina fja., diskretna vs. kontinuirana F. transf., odnos broja uzoraka, frekvencije uzorkovanja i perioda promatranja) Predavanje: 4_transformacije
Za neperiodine signale koristimo Fourierovu transformaciju:
X(f ) =
x(t )e
j 2 ft
dt
x(t ) =
X ( f )e
j 2 ft
df
Vrijedi Parsevalova jednakost energije signala u vremenskoj i frekvencijskoj domeni
Ex =
x(t ) dt =
X ( f ) df
Zato govorimo o Fourierovoj transformaciji?
Koeficijenti dobijeni Fourierovom transformacijom predstavljaju frekvencijski sadraj signala moemo raditi spektralnu analizu signala Moramo razmotriti to je s F. transformacijom neperiodinog signala i k tome jo diskretnog (s kakvim se susreemo u multimediji)
Fourierova transformacija diskretnog signala
Diskretni signal moemo iskazati kao umnoak kontinuirane funkcije x(t) i impulsnog niza T
Dobijena diskretna funkcija xS(t) moe se napisati u obliku
xS (t ) =
n =
n =
x(nT ) (t nT )
Niz T je periodian s periodom T=1/fs pa ga moemo iskazati preko Fourierova reda
1 1 ck = (t )e jk 2 f s t dt = T 0 T
(t ) =
k =
ck e j 2 kf st =
1 j 2 kf s t e T k =
Sad moemo nai Fourierovu tansformaciju diskretnog niza xS(t)
XS ( f ) =
xS (t )e j 2 ft dt =
1 j 2 kf s t j 2 ft x t dt ( ) T e e k =
kontinuirani signal
kontinuirani spektar
diskretni signal
kontinuirani spektar
10
Fourieova transformacija diskretnog periodinog signala
Realni diskretni signali su konani, i elimo ih prikazati konanim brojem frekvencijskih komponenti Nain da to postignemo je da od signala duljine N uzoraka umjetno napravimo periodini tako da ga ponavljamo Diskretni signal x(n) ima PERIODIAN SPEKTAR (zbog diskretnosti signala u vremenskoj domeni) koji se ponavlja svakih 2 (podruje frekvencija se moe iskazati kao (- , ) ili (0, 2) Diskretni periodini signal x(n) ima PERIODIAN I DISKRETAN SPEKTAR (diskretan zbog periodinosti u vremenskoj domeni) razmak izmeu komponenti je 2/N
Periodini signal se moe iskazati preko Fourierovog reda
x(n) = ck e
k =0
N 1
2 kn N
n = 0,1, 2,..., N 1
Gdje ck predstavljaju amplitude spektralnih komponenata signala

ck = 1 N
x ( n )e
n =0
N 1
2 nk N
k = 0,1, 2,..., N 1
U sluaju diskretnog periodinog signala govorimo o Diskretnoj Fourierovoj Transformaciji DFT DFT moemo raunati brzim postupkom FFT
6. DCT (princip, karakteristike, primjena) Predavanje: 4_transformacije
Kod DCT bazne funkcije transformacije su kosinusne (realne) funkcije. Diskretni signal z(n) moemo predoiti kao sumu kosinusnih funkcija
x ( n) = 2 N
c
k =0
N 1
k cos (2n + 1) d k 2N
Gdje se amplitude cosinusnih funkcija (DCT koeficijenti) raunaju kao:

dk = 2 N
c
n =0
N 1
k cos (2n + 1) x( n) 2 N
1 za k = 0 ck = 2 1 za ostale k
DCT se koristi u transformacijskom kodiranju mirnih i pokretnih slika u veini standarda (JPEG, MPEG-1, MPEG-2, MPEG-4) 11
prednost nad fft je u boljoj aproksimaciji linija s manje koeficijenata
7.
DWT (karakteristike baznih fja, DWT kao digitalno filtriranje, primjena na slikama) Predavanje: 4_transformacije
Bazne funkcije DCT
12
Wavelet transformacija
Waveleti su lokalizirane oscilirajue funkcije definirane kao dilatacije i translacije osnovne wavelet funkcije ili mother wavelet (t)
j,k ( t ) = 2 j / 2 (2 j t k )
Waveleti su bazne funkcije wavelet transformacije tako da funkciju f(t) moemo prikazati kao sumu waveleta s odreenom amplitudom xj,k
Analiza funkcije f(t)
Sinteza funkcije f(t)

j k
f , j ,k =
f (t )
j ,k
(t )dt = w j ,k
f (t ) = f , j ,k j ,k (t )
Waveleti kao digitalni filtri
primjenom konvolucije raunaju se koeficijenti c i d d ( n) = c ( k ) g ( k 2n) c ( n) = c ( k ) h( k 2n) koeficijenti c predstavljaju aproksimaciju signala na razini m a koeficijenti d
j-m j-m
j 1
j 1
predstavljaju detalje na toj razini (rezoluciji)
j-m
j-m
Primjer: wavelet 5/3 koji se koristi u JPEG 2000 za kompresiju mirnih slika ima filtere
analize definirane preko koeficijenata
1 6 6 6 1 hA = , , , , 8 8 8 8 8
1 1 g A = ,1, 2 2
Zahtjevi na wavelete za kompresiju slike
dobra prostorna i frekvencijska lokalizacija primjena FIR filtera simetrija ortogonalnost biortogonalnost poeljno svojstvo odreena glatkoa wavelet funkcija sinteze
13
Wavelet filtri
Wavelet koeficijenti u piramidalnom algoritmu proraunavaju se preko konvolucije, tako da se ovaj postupak moe predstaviti digitalnim filtriranjem uz decimaciju (poduzorkovanje). Koeficijenti h(k) i g(k) definiraju wavelet filtre sa frekvencijskim karakteristikama H(f) i G(f)
h (k ) j2 fk H (f ) = e 2 k =0
G (f ) =
g (k ) j2 fk e 2 k =0
Wavelet filtar sa karakteristikom H(f) predstavlja niskopropusni pojasni filtar, dok wavelet filtar sa karakteristikom G(f) predstavlja viskopropusni pojasni filtar.
DCT
x(n)
DWT
14
8.
Svojstva ljudskog vizualnog sustava (graa ljudskog oka, receptori) Predavanje: 5_slike_1r
Ljudsko oko je sfera promjera oko 20 mm cornea ronica retina mrenica iris arenica lens lea Mrenica prekrivena receptorima cones unjii ima ih 6 7 miliona smjeteni u sredinjem dijelu mrenice svaki povezan s jednim ivcem raspoznavanje detalja osjetljivi na boju zadueni za vid pri dobrom osvjetljenju (photopic vision) rods tapii ima ih 75-150 miliona vie ih je vezano na isti ivac nisu osjetljivi na boje osjetljivi pri niskom intezitetu svjetla (scotopic vision) Fovea u sreditu ute pjege veline 1.5 mm x 1.5 mm gustoe oko 150 000 receptora po mm2 u podruju fovee centralis oko 307 000 receptora
to je prostorna frekvencija (definicija, osjetljivost oka na prostorne frekvencije)

9.
Predavanje: 5_slike_1r
R rezolucija (piksela/cm)
10 10 D x monitor
D udaljenost u cm x=D tan ( 10) x. R je maks. broj piksela unutar 10 vizualnog kuta
f max =
tan(
RD tan( ) 2 180
) = 0.017455
[ perioda/10]
180
15
Osjetljivost ljudskog vizualnog sustava na prostorne frekvencije
1,0 0,8
HVS sensitivity
0,6 0,4 0,2 0,0 0 5 10 15 20 25
Mannos-Sakrison Nill
Spatial frequancies [cycle/1o)

10. Percepcija boje i sustavi za prikaz boje u slici Predavanje: 5_slike_1r
Boja je sloeni fenomen sa svojim objektivnim i subjektivnim aspektima; nije uvijek neophodna u slikama slike bez boje: zahtjevaju manje memorije imune su na razlike u prikazu boje na razliitim monitorima neki ljudi ne raspoznaju boje ipak
ljudi oekuju boju nekad je informacija koju nosi boja od vitalnog znaaja boju moramo efikasno koristiti, svjesni ogranienja
Boja kao fizikalni fenomen

Boja je subjektivna senzacija stvorena u mozgu. Za elektroniku produkciju i manipulaciju bojom trebamo matematiki model koji povezuje subjektivni doivljaj boje sa mjerljivim i ponovljivim fizikalnim fenomenom. Vidljivo svjetlo je elektromagnetski val valnih duljina izmeu 380 nm i 730 nm, odreenog inteziteta. 16
Distribucija spektralne snage svjetlosnog izvora definira intezitet pojedine spektralne komponente
Ljudski vid i doivljaj boje

ljudska mrenica sastoji se od dvije vrste receptorskih stanica tapii unjii postoje 3 vrste - svaka osjetljiva na drugu grupu valnih duljina to vodi do tzv. tristimulus teorije: svaka boja se moe definirati sa samo neosjetljivi na boju omoguavaju vid kod niskih inteziteta svjetlosti
3 komponente razliitih teina aditivne primarne boje : crvena (R - red), zelena (G - green), plava (B -blue)
Prikaz boje
CRT (Cathod Ray Tube) TV zasloni i raunalni monitori izvedeni su od 3 vrste zrnaca fosfora razliite vrste, koji zrae dominantne valne duljine crvene, zelene i plave boje. za prikaz odreene boje odabire se prikladan intezitet elektronskog snopa katodne cijevi koji udara u odreenu vrstu fosfora, pa se time regulira intezitet svjetlosti koju emitira ta vrsta zrnaca optiko mjeanje svjetlosti koju emitiraju fosforna zrnca za svaki element slike daje doivljaj boje za dani piksel LCD (Liquid Christal Display) zasloni sadre kolor filtre koji proputaju svjetlost crvene, zelene ili plave boje. Napon na eliji s tekuim kristalima odreuje zakretanje kristala, a time koliinu polarizirane svjetlosti koja prolazi do kolor filtara, odosno na zaslon.
RGB model boja

Primari RGB: crvena, plava i zelena, mjeanjem. za raunalne monitore ne postoji standard koji odreuje boje (valne duljine) koje odgovaraju ovim primarima, ali najee se koristi preporuka za HDTV (High Definition TV - televiziju visoke kvalitete) - ITU-R BT.709 Red = 700 nm Green = 546 nm Blue = 436 nm 17 koriste se za dobijanje boja aditivnim

11.
nepostojanje standarda rezultira u velikim razlikama u prikazu boja na razliitim monitorima RGB primarima nije mogue prikazati sve valne duljine koje oko vidi
Manipulacija slikom operacije na pojedinanom pikselu (promjena svjetline,
kontrasta, gamma korekcija, manipilacija histogramom) Predavanje: 6_manipulacija_slikom
radi se promjena inteziteta (ili razine sivog) selekcija - primjena maske ili filtra na selektiranom dijelu slike pravokutna, eliptika, laso, Bezier, magini tap (oznaava podruje iste ili sline boje) ... maska - razliite razine prozirnosti obino se naziva alfa kanal (8-bitni) svjetlina slike (brightness) linearno mjenjamo sve vrijednosti na skali sivog poveavamo ili smanjujemo razliku izmeu najsvjetlijeg i najtamnijeg nelinearna promjena kontrasta kontrast manipulacija histogramom
18
original
Promjena svjetline
g ( x, y ) = k f ( x, y )
k=1.2
k=0.5
19
Promjena kontrasta
intezitete u podruju (low_in, high_in) ulazne slike transformira u podruje (low_out, high_out) u izlaznoj slici moe biti linearna ili nelinearna transformacija kod nelinearne transformacije funkciju pretvorbe opisuje parametar gama ovakve transformacije se rade za potrebe poboljanja slike, ali i zbog nelinearnih karakteristika prikaza slike na zaslonu katodne cijevi
Ei = k(Eu)1/
R ' = R1 / G ' = G1 / B ' = B1 /
R = R ' G = G ' B = B '
kamera
ekran
19
Gama korekcija
Manipulacija histogramom
Histogram slike s L moguih razina intenziteta u podruju [0, G] je diskretna funkcija h(rk)=nk
rk je k-ta razina intenziteta, a nk je broj piksela koji imaju tu razinu intenziteta
esto se koristi normalizirani histogram
pr (rk ) =
h(rk ) nk = nk n
- gdje je n ukupan broj piksela

12. Filtriranje slike (niskopropusno, visokopropusno) Predavanje: 6_manipulacija_slikom
Filtriranje
Ako je x(n) ulazni diskretni signal, a y(n) izlazni signal nakon filtriranja, vrijedi konvolucija:
y(n) =
k =0
K 1
h (k ) x ( n k )
U frekvencijskoj domeni to odgovara izrazu
Y ( j ) = =

n =
y (n) e
j n
=
j ( k + n k )
n = k =
h( k ) x ( n k ) e
=H ( j ) X ( j )
gdje su Y(j) i X(j ) dobijeni Fourierovom transformacijom y(n), odnosno x(n)
20
Niskopropusno filtriranje
omekava otre rubove (blur)
Gaussov niskopropusni filtar
konvolucijska maska u obliku Gaussove krivulje mogue je mjenjati promjer irine maske (praktino to znae mjenjanje standardne devijacije Gaussove krivulje)
promjer od 4 do 8 piksela omekava rubove maksimalni promjer maske, 250 piksela, daje srednju vrijednost u podruju na kojem je primjenjen filtar
esto se koristi za pravljenje sjene na objektima
Original
Blur sa Gaussovom maskom radijusa 29 piksela
Gaussov niskopropusni filtar proraunava se iz formule
hg (n1 , n2 ) = e h(n1 , n2 ) =
primjer uz =4 0.0587 0.0624 h= 0.0624 0.0587 0.0624 0.0665 0.0665 0.0624
2 2 ( n1 + n2 )
2 2
hg (n1 , n2 )
h
n1 n2
0.0624 0.0665 0.0665 0.0624
0.0587 0.0624 0.0624 0.0587
21
Visokopropusno filtriranje
Visokopropusno filtriranje koristi se za izotravanje slike
Ovakvo filtriranje obino je preotro Bolji se rezultati dobiju ako se od originala oduzme njegova
niskopropusna verzija, tzv. unsharp masking
13.
Geometrijske operacije na slici

Predavanje: 6_manipulacija_slikom
definirane su kao funkcije poloaja piksela, a ne njihova inteziteta skaliranje, translacija, refleksija, rotacija, rezanje esto se zahtjeva interpolacija piksela interpolacija najbliim susjedom vie piksela u novoj slici ima isti izvor u originalu - nedostatak je to se obino vide blokovi piksela bi-linearna interpolacija koristi 4 najblia piksela originala sa teinama proporcionalno povrini koju zauzima novi piksel na njima bi-kubina interpolacija koriste se kubini splineovi, ostvaruju se meki prijelazi
22
Translacija slike
g ( x, y ) = f ( x a , y b )
translacija za a u horizonatalnom smjeru, i za b u vertikalnom smjeru
Rotacija slike za kut
g ( x, y ) = f ( x cos y sin , x sin + y cos )
kod rotacije izazna slika esto nije u podruju ulazne slike, pa se primjenjuje
Zumiranje slike
smanjivanje ili poveavanje slike gdje vrijedi
g ( x, y ) = f ( x / d , y / d )
uz d 1 sliku emo uveati uz d < 1 sliku emo smanjiti
potrebna je interpolacija
Interpolacija
Interpolacija najbliim susjedom
g ( x, y ) = f ( INT ( x + 0.5), INT ( y + 0.5))

INT(z) oznaava cjeli broj manji ili jednak z Interpolacija najbliim susjedom daje za vie piksela u izlaznoj slici vrijednost jednog piksela ulazne slike smanjena rezolucija blokovi u slici
Detekcija objekata na slici (detekcija rubova) Predavanje: 6_manipulacija_slikom
14.
Postupak detekcije ruba odnosi se na proces identifikacije i lociranja naglih diskontinuiteta na slici. Detekcija ruba u prostornoj domeni ukljuuje konvoluciju pomou operatora (2-D filtri) koji su osjetljivi na velike promjene gradijenta intenziteta elemenata slike Gradijent se rauna konvolucijom sa odgovarajuim dvodimenzionalnim filtrima 23
(i, j ) = (i + k 1, j + l 1)K (k , l )
k =1 l =1
- I je originalna slika, K je konvolucijska maska (impulsni odziv dvodimenzionalnog filtra) Operatori su definirani prema sljedeim zahtjevima: orijentacija ruba geometrija operatora ukazuje na smjer ruba utjecaj uma
detektiranje ruba je oteano ukoliko je um jako izraen. Pokuaji smanjenja uma izazivaju iskrivljene rubove. Operatori koji mogu zanemariti utjecaj uma mogu raditi s veom koliinom podataka izuzimajui pritom one elemente slike gdje je um jako izraen, ali se u tom sluaju znatno smanjuje ukupna tonost detekcije rubova
struktura rubova ne ukljuuju svi rubovi stepenastu promjenu intenziteta. Efekti kao to je npr. refrakcija na objektu rezultira rubom koji je definiran postupnom promjenom intenziteta elemenata slike, a operator koji koristimo mora biti prilagoen takvoj promjeni
Detekcija rubova objekta
PREWITT-ov OPERATOR
koristi centralnu derivaciju i konvolucijsku masku veliine 3x3

1 1 1 Gy = 0 0 0 I 1 1 1
1 0 1 Gx = 1 0 1 I 1 0 1
SOBEL-ov OPERATOR
koristi centralnu derivaciju i konvolucijsku masku veliine 3x3, ali proputenu kroz niskopropusni filtar [1 2 1] 2 1 1 Gy = 0 0 0 I 1 2 1
1 0 1 Gx = 2 0 2 I 1 0 1
24

15.
CANNY-jev OPERATOR prvo se primjenjuje Gaussov filtar za smanjenje uma koriste se 4 matrice za detekciju horizontalnih, vertikalnih i dijagonalnih rubova radi se mapa poloaja rubova i njihove orijentacije Canny operator koristi metodu praga s histerezom koja postavlja dvije vrijednosti praga: gornji i donji. Koritenjem gornjeg praga odreuju se oni rubovi koji e sigurno biti ispravno detektirani. Zatim se promatraju susjedni elementi slike (oko oznaenog ruba) i ukoliko je njihova vrijednost izmeu gornjeg i donjeg praga, takoer se proglaava rubom Tonost rubova izdvojenih Canny detektorom je 1 element slike.
Formati za bitmap slike, formati za vektorsku grafiku, glavne znaajke (s
obzirom na kompresiju i prikaz boje) Predavanje: 8_formati_1_web Bitmapslike(piksel mape)
slike modelirane kao polje elemenata slike(piksela) na monitoru slikese uvijek prikazuju kao polje piksela
Vektorska grafika
slika je spremljenauobliku matematikog opisa skupine individualnih linija,krivuljairazliitih oblika slika je spremljenaugrafikom jeziku kao to jePostScriptiliPDF prikaz zahtjeva odreeni proraun za generiranje polja piksela Encyclopedia of Graphic File Formats (J.D. Murray, W.vanRyper, 1996)definira preko100razliitih formata zabitmapslike glavna razlikauformatima jeunainu na koji je slika komprimirana GIF -razviliu Computer Serve -uobiajeniformatza razmjenubitmapslika izmeu razliitih platformi kompresija bez gubitakaLZW (Lampel,Ziv, Welch) 256boja 1bojasemoe definirati kao transparentna najboljiformatza jednostavne slike kao to su crtii ili raunalne sintetike slike loiji razultati za fotografije
25
JPEG standardmoe biti ukomponiranudatoteke razliitih formata zabitmapslike sa kontinuiranim tonovimaivelikim brojem boja JFIF -JPEG File Interchange Format SPIFF -Still Picture Interchange File Format JPEG standardje ugraeni u TIFF i EPS format PNG -Portable Network Graphics -(itase ping)novijiformat,razvijen za razmjenu naWeb-u bez gubitaka-LZ77algoritam(ne plaase) nije ogranien na256boja transparentnost je ugraenausofisticiranoj formi razvijen premaW3C (WWW Consortiumosnovan1994)preporuci1996.
IzvanWeb-auobiajeni formati su
TIFF -Tag Image File Format podrava vie kompresija ukljuujuii JPEG 256*256*256boja podrava ga veinapaintingprograma(ponekad neupotpunosti) podran Windowsima BMP -Microsoft Windows Bitmap ovisanoplatformi ipak,veinom ga podravajuidrugi operacijski sustavi najeenije komprimiran TGA -Truevision Targa jedan od prvih koji je podravao vie od256boja prihvaen na veini platformi
Formati za vektorsku grafiku
DominiraPostScript format -razviliuAdobaSystem sredinom80-tih programski jezik opisuje koji su grafiki elementiikako su postavljeni na stranici PostScriptje predvien kaopage layoutjezik-slikaseukomponiraustranicu sa tekstom EPS -encapsulated PostScript slika je samostalnaimoe biti ubaenaudrugi dokument za prikaz slika.eps potreban je puniPostScript interpreter SVG -Scalable Vector Graphics format (1999) definiranu XMLjeziku(zaWeb) izvedenica PostScripta sa manjim brojem operacija-prilagoen prijenosu preko mree 26
SWF-originalno napravljen za vektorsku animacijuuMacromediaFlash programu sada predstavlja otvorenistandardza vektorsku grafiku esto koritenipodran preglednicima WMF -Microsoft Windows metafile PICT -Macintosh format DXF -formatza AutoCad datoteke
16. Karakteristike JPEG norme, elementi JPEG kodera. (zato se radi blok-DCT) Predavanje: 7_jpeg_jpeg2000_web
Joint Photographic Expert Group - radna grupa zajednikog ISO/IEC komiteta (JTC1) JPEG standard za kompresiju mirnih slika- ISO/IEC 10918-1 (takoe ITU-T Rec. T.81) 1993. JPEG koder komprimirana_slika.JPEG Standard za kompresiju slika u nijansama sivog slika u boji korisnik odreuje kvalitetu slike primjenjiv na slike razliitih dimenzija dobri rezultati za slike kontinuiranih prijelaza, slabiji za raunalom generirane slike podrava nekoliko naina rada: sekvencijalni ( baseline koder) progresivni (slika se prikazuje kroz nekoliko prolaza sa sve vie detalja) bez gubitaka (lossless)
Prikaz digitalne slike

slika je predstavljena dvodimenzionalnom matricom (bitmap) svaki element matrice predstavlja jednu toku na slici; element slike - pixel (od picture element) broj bita za jedan element slike odreuje raspon boja na slici - dubinu (pixel depth, picture depth) 8 bita za slike u nijansama sive (256 nijansi) 3 x 8 bita za slike u boji 3 komponente boje (R GB, YUV, YIQ,..)
27
neke komponente mogu biti poduzorkovane (npr. krominantne komponente U i V u YUV sustavu - oko je manje osjetljivo na prijelaze boja)
JPEG koder
8x8 blok
JPEG
DCT bloka
Kvantizator
Entropijski koder
Komprimirana slika
Originalna slika
Kvantizacijska tablica
Specifikacijska tablica
Zato se koristi DCT?

DCT prebacuje sadraj slike u frekvencijsko podruje Ljudski vizualni sustav manje je osjetljiv (slabije razaznaje) detalje - to odgovara visokim frekvencijama, najosjetljiviji je na srednje frekvencije, te ima neto smanjenu osjetljivost na niskim frekvencijama Slike iz prirode veinom imaju izraenije niskofrekvencijske komponente (vrijednosti susjednih elemenata slike imaju pribline vrijednosti na veem dijelu slike)
17. Blok shema JPEG2000 kodera. Karakterisike JPEG2000 (kako je ugraeno kodiranje bez gubitaka, to je ROI, objasniti skalabilne modove) Predavanje: 7_jpeg_jpeg2000_web
Novi standard za kompresiju mirne slike JPEG2000 je komplementaran starom JPEG standardu bez namjere da ga zamjeni Razvijen u okviru ISO/IEC JTC1 Temelji se na DWT - Diskretnoj Wavelet Transformaciji, a ne na DCT
Znaajke JPEG2000
Visoka efikasnost kompresije Transformacija boje bez gubitaka Lossy i lossless kodiranje u jednom algoritmu ugraeno lossy u lossless kodiranje 28
progresivni prijenos po rezoluciji, kvaliteti, Statiko i dinamiko Region-of-Interest (ROI) kodiranje otpornost na pogreke kodiranje prema percepcijskoj kvaliteti viekomponentno kodiranje slike dijeljenje slike u ploice (tiling) kodiranje slika sa paletama
slik
Tiling
DW
Podjela u blokove za kodiranje
Kvantizacij
Alokacija bitova
Entropijsko kodiranje bez
Tiling

18.
slika se dijeli u ploice jednake veliine
od 64x64 do 256x256 piksela
na svakoj ploici radi se DWT smanjuje se procesorsko vrijeme omoguava jednstavno izdvajanja pojedinog podruja slike ploice mogu biti transformirane sa razliitim brojem DWT razina
ROI podruje za koje bitovi idu na poetku bitstreama

Osnovne znaajke analognih TV sustava (brzine okvira, broj linija, sustav boja, analiziranje s proredom) Predavanje: 9_video_1
NTSC (National Television System Committee)-1953 koristi se u Sjevernoj Americi, Japanu, Tajvanu i dijelu June Amerike PAL (Phase Alternating Line) - 1963.
29
koristi se u veini Zapadnoevropskih zemalja, Australiji, Novom Zelandu, Kini, dijelu June Amerike postoje lokalne varijacije osnovnog standarda SECAM (Sequential Couleur avec Memoire) koristi se u Francuskoj, bivem Sovjetskom Savezu i Istonoj Europi Osnovna razlika izmeu standarda je u nainu na koji se dva signala boje ukomponiraju sa signalom luminacije u isti frekvencijski pojas. Razlika postoji i u ostalim karakteristikama, kao to je broj okvira u sekundi, te broj linija u okviru Za ostvarivanje dojma kontinuiranog pokreta potrebno je najmanje 24 okvira u sekundi. PAL radi sa 25 okvira u sekundi NTSC radi sa 29.97 okvira u sekundi film za kino projekciju ima 24 okvira u sekundi Za sliku koja ne titra potrebno je najmanje 40 okvira (slika) u sekundi. primjenjuje se princip razlaganja slike na dvije poluslike (interlacing ili interleaving)
analiziranje s proredom
PAL 50 poluslika u sekundi NTSC 59.94 poluslika u sekundi ( 30 x1000/10001 - sa 60 poluslika pojavila se interferencija boje sa zvukom) za film se koristi prikaz svakog okvira dva puta Princip razlaganja okvira na poluslike analiziranje s proredom Broj linija NTSC: 525 linija, od toga 480 aktivnih PAL: 625 linija, od toga 576 aktivnih pasivne linije slue za povrat elektronskog mlaza sa kraja okvira (desni donji ugao) na poetak sljedeeg okvira (gornji lijevi ugao slike) - signal je u naponskom podruju crnje od crnoga
19. 4:1:1)) Predavanje: 9_video_1 Digitalizacija videa (BT.601,poduzorkovanje komponenata boje (4:2:2, 4:2:0,
Koristi se YUV signal Iskoritava se manja osjetljivost ljudskog vizualnog sustava na promjenu boje u odnosu na promjenu svjetline poduzorkovanje komponenata boje razliite kvantizacijske tablice za boju 30
Poduzorkovanje (subsampling) Preporuka ITU-R BT.601 uzorkovanje Y sa 13.5 MHz uzorkovanje CR (V) i CB (U) 6.75 MHz odnos broja uzoraka luminacije i krominantnih komponenti kod uzorkovanja se oznaava kao Y : C1 : C2 CCIR 601 tj. ITU- R BT.601 720 uzoraka po liniji za luminaciju 360 uzoraka po liniji za svaku krominantnu komponentu 4:2:2 shema poduzorkovanja uzorci za boju uzimaju se za svaki drugi piksel u svakoj liniji uz 8 bita po uzorku ovakvo uzorkovanje daje
720 +360 +360 =1440 elemenata/liniji 1440 x 576 x 8x25 = 160 Mb/s (20 MB/s)
Poduzorkovanje komponenata boje
31
20.
Podruje primjene MPEG 1, MPEG 2, MPEG 4, MPEG 7 i MPEG 21 norme.Intraframe kodiranje prema MPEG 2 normi Predavanje: 9_video_2
MPEG-1 (1993.) ISO 11172 VCR kvaliteta i CD-ROM CIF (288 x 352) ili SIF (240 x 352) na 1.2 Mbps
MPEG-2 (1994.) ISO 13818 Namjenjen za digitalnu televiziju standardne kvalitete, vie audio kanala, pogodan i za HDTV obino iznad 10 Mbps
MPEG-3 Naputen
MPEG-4 (1998./1999.) ISO 14496 interaktivna multimedija (WWW), interaktivne grafike aplikacije tri moda rada: niska brzina (< 64 kbit/s) srednja (64 do 384 kbit/s) 32
visoka (384 kbit/s do 4 Mbit/s)
MPEG-7 (2001.) zapoet u listopadu 1996. suelje za opis multimedijskoh sadraja
MPEG-21 multimedijski sustavi Za neke primjene koristi se samo unutarokvirna kompresija (intra-frame) motion JPEG, motion JPEG2000 neosjetljiv na gubitak okvira tijekom prijenosa malo kanjenje okvira (compression delay) 8 - 10 Mbps U veini sluajeva koristi se unutarokvirna (intra-frame) i meuokvirna (inter-frame) kompresija postiu se vii stupnjevi kompresije nedostatak je znaajno kanjenje zbog prorauna i redosljeda okvira
22.
Interframe kodiranje prema MPEG 2 normi (vektori pokreta, predikcija pokreta) Predavanje: 9_video_2
33
prostorna kompresija - intra-frame redundancija u horizontalnoj i vertikalnoj dimenziji slike-slinost piksela kompresija unutar jednog okvira slina JPEG-u vei dio slike je isti u nizu okvira neki objekti se miu manji dio je novih podataka proraunava se vektor pokreta - smjer translacije makrobloka za P okvire iz prethodnog okvira za B okvire iz prethodnog i slijedeeg okvira manje se bitova troi na slanje vektora pokreta nego za komprimirani makroblok
Iskoritava se temporalna redundancija
Pokret se istrauje na makroblokovima 16 x 16 piksela tehnikama korelacije
Predikcija makrobloka kompenzacijom pokreta
U MPEG-2 normi makroblok je dio okvira veliine 16 x 16 piksela, i predstavlja osnovnu jedinicu za predikciju pokreta kompenzacijom. Makroblok sadri
za svjetlinu16 x 16 piksela (4 bloka) za boju (s poduzorkovanjem) dva bloka s 8 x 8 elemenata (Cb i Cr)
Makroblok
Predikcija pokreta makrobloka ukljuuje pronalaenje slinih podruja veliine 16 x 16 u referentnom okviru Referentni okvir je prethodno kodirani okvir i moe biti prije ili poslije u redoslijedu prikazivanja u sekvenci. U referentnom okviru trai se makroblok najsliniji makrobloku u trenutnom okviru i proraunava se VEKTOR POKRETA 34
Predikcija pokreta i kompenzacija temeljena na blokovima
Postupak predikcije pokreta
Pretrai podruje u referentnom okviru (prijanji ili budui okvir, prethodno kodiran i poslan) kako bi se nalo odgovarajue polje najsliniji trenutnom makrobloku s 16x16 elemenata slike (piksela) Odabrano podruje postaje prediktor za trenutni 16x16 blok te se oduzima od trenutnog makrobloka kako bi stvorio rezidualni 16x16 makroblok
Rezidualni blok se kodira i prenosi. Takoer se prenosi i razlika izmeu poloaja trenutnog bloka i poloaja odabranog podruja (prediktora) kao vektor pokreta.
Ako se predikcija radi samo na temelju prethodnog okvira tada rezidualni blok i vektori pokrate ine P okvir, a ako se predikcija radi na temelju prethodnog i sljedeeg okvira radi se o B okviru
23.
I, P, B okviri, GOP struktura (osnovne karakteristike pojedine vrste okvira, kako se slau u GOP strukturu i kako utjeu na brzinu) Predavanje: 9_video_2
B okvir
B okvir - bidirectionally predicted okvir predviaju se iz I-okvira i/ili P-okvira iz prethodnog i budueg okvira to osigurava dobru predikciju dijelova okvira koji ne postoje jo u prethodnom okviru poveavaju koliinu prorauna ali znaajno poveavaju kvalitetu videa
Intracoded frame (I-frame) (independant frame)

-ne nastaje iz drugog okvira
Predicted frame (P-frame)

je okvir koji nastaje samo iz (nekog od) prethodnih okvira uvijek nastaje od I-okvira
35
GOP Group of Pictures
Slijed izmjene okvira
I-frame

B-frame
najslabije komprimiran slui za sinkronizaciju mora se pojavljivati svakih 300 do 400 msec za VCR svakih 150 P-okvira ili I-okvira
najbolje komprimiran ali ovisi i unatrag i unaprijed
PAL: n=9, m=3 IBBPBBPBBI

36
NTSC: n=12, m=3 IBBPBBPBBPBBI
36
24.
Profili i razine kod MPEG 2 norme Predavanje: 9_video_2
Profile Level Low
Simple
Main
4:2:0 352 x 288 4 Mb/s I,P,B 30 okvira/s 4:2:0 720 x 576 15 Mb/s I,P,B 30 okvira/s 4:2:0 1440 x 1152 60 Mb/s I,P,B 60 okvira/s 4:2:0 1920 x 1152 80 Mb/s I,P,B 60 okvira/s
SNR
4:2:0 352 x 288 4 Mb/s I,P,B 30 okvira/s 4:2:0 720 x 576 15 Mb/s I,P,B 30 okvira/s
Spatial
High
Main
4:2:0 720 x 576 15 Mb/s I,P 30 okvira/s
High1440 High
4:2:0 1440 x 1152 60 Mb/s I,P,B 60 okvira/s
4:2:0, 4:2:2 720 x 576 15 Mb/s I,P,B 30 okvira/s 4:2:0, 4:2:2 1440 x 1152 60 Mb/s I,P,B 60 okvira/s 4:2:0, 4:2:2 1920 x 1152 100 Mb/s I,P,B 60 okvira/s
Profili:
osnovni (SP = Simple Profile) daje najniu kvalitetu signala, ne podrava slojevito kodiranje, ne ukljuuje dvosmjerno predvianje, shema uzorkovanja 4:2:0;
glavni (MP = Main Profile) ne podrava slojevito kodiranje, ali postoji dvosmjerno predvianje; shema uzorkovanja 4:2:0;
profil sa slojevitou u odnosu na omjer signal/um (SNR) omoguava razliite kvalitete slike s obzirom na odnos signala i uma; profil s prostornom slojevitou (Spatial) podrava razliite prostorne rezolucije slike;
visoki profil (HP = High Profile) podrava potpunu slojevitost i najviu kvalitetu slike
37
Razine:

25.
niska (LL = Low Level) SIF format slike glavna (ML = Main Level) BT 601 formati TV slike visoka 1440 (High-1440) videosignal s 1440 uzoraka po liniji visoka (HL = High Level) videosignal s 1920 uzoraka po liniji
Osnovne karakteristike MPEG 4 norme (podruje primjene,brzine, postavke,
karakteristike MPEG-4 Visual, VOP i VO)) Predavanje: 10_video_3x
postaje meunarodna norma poetkom 1999. drastino smanjenje bitne brzine 4.8 do 64 Kbps uz jo uvijek prihvatljivu kvalitetu podrava i vee brzine prijenosa srednja (64 do 384 kbit/s) - visoka (384 kbit/s do 4 Mbit/s) (u nekim profilima ide i na vie brzine) od sub-QCIF veliine okvira do studio veliine 4k x4k namijenjena za interaktivnu multimediju (web) interaktivne grafike aplikacije digitalnu televiziju s mogunou koritenja za video konferencije video telefoniju Osnovne postavke nove norme
Univerzalne mogunosti i robusnost u okolini osjetljivoj na pogreke
Multimedijski audio-vizualni podaci moraju se prenositi i moraju biti pristupani u heterogenoj umreenoj okolini, posebice u tekim uvjetima.
Velika interaktivna funkcionalnost
Velika vanost daje se interaktivnom pristupu i upravljanju audio-vizualnim podacima.

Kodiranje stvarnih i sintetiziranih podataka Uinkovita kompresija
Za pohranjivanje i prijenos audio-vizualnih podataka potrebna je velika efikasnost kodiranja uz dobru kvalitetu rekonstruiranih podataka.
38
Ovisnost brzine prijenosa i funkcionalnosti
64 kbit/s do 2 Mbit/s
5- 64 kbit/s
MPEG-4 Part 2. Visual
MPEG-4 Part 2. Visual definira algoritme za rad s razliitim tipovima vizualnih objekata
pokretni video (pravokutni okviri) video objekti (proizvoljno oblikovana podruja videa) 2-D i 3-D mreasti animirani objekti animirano ljudsko lice i tijelo statine (mirne) slike
Uvodi nove alate za kompresiju ovih objekata Osnovno kodiranje je blok-DCT + entropijsko kodiranje ali su dodani napredni alati
uveden je koncept VOP-a (Video Object Plane). Svaki se okvir ulazne sekvence segmentira u nekoliko proizvoljno oblikovanih podruja odnosno VOP-ova: svako podruje pokriva jedan dio scene i na taj nain opisuje objekt unutar jednog okvira.
Uzastopni VOP-ovi koji pripadaju istom objektu definirani su kao VO (Video

Object).
Svi VO-i imaju svoja prostorna i vremenska obiljeja tj. sadre lokalne koordinate koje utvruju fiksni poloaj danog objekta, a smjeteni su unutar scene 39
transformacijama lokalnog koordinatnog sustava u opi, scenski koordinatni sustav. Sve informacije o VOP-ovima koji pripadaju jednom VO kodiraju se unutar zasebnog
VOL-a (Video Object Layer),
informacije nune za identifikaciju svakog VOL-a, te kako se VOL-ovi sastavljaju i rekonstruiraju na prijemnoj strani ukljueni su u sloj toka bitova (bitstream layer).
26.
Napredni alati u MPEG 4 Visual (4 vektora pokreta, neogranieni vektori pokreta, ) Predavanje: 10_video_3x
Osnovno kodiranje videa u MPEG-4 temelji se na blok DCT u te predikciji pokreta (vektori pokreta) Poboljanje kvalitete komprimiranog videa ostvaruje se koritenjem naprednih alata 4 vektora pokreta po makrobloku Unrestricted MV neogranieni vektori pokreta Intra- prediction Globalna kompenzacija pokreta Kompenzacija pokreta na piksela H.263 / MPEG-2 kvantizator
4 vektora pokreta po makrobloku
makroblokovi 16x16 ili 8x8 elemenata okvira(bira koder za svaki makroblok) bolja predikcija uz rubove pokretnog objekta i kod brzih pokreta 1 ili 4 vektora pokreta
40
Unrestricted MV neogranieni vektori pokreta
koristi se kada je podruje matching makrobloka dijelom izvan granica referentnog okvira
Intra- prediction
DC koeficijenti 8x8 blokova se predviaju iz susjednih prethodno kodiranih blokova opcionalna je predikcija i prvog reda i prvog stupca matrice AC koeficijenata DCT
27.
Profili i razine kod MPEG 4 standarda Predavanje: 10_video_3x Profili za prirodne video sadraje
1.
Simple Visual Profile
2.
za male brzine i rezolucije, s visokom otpornosti na um mobilne aplikacije, pravokutni okviri
Simple Scalable Visual Profile
3.
Core Visual Profile
ukljuuje opciju skalabilnosti za primjene s mogunou promjene parametara kvalitete (Internet, programski dekoderi), pravokutni okviri
podrava kodiranje objekata proizvoljnog oblika s mogunou skalabilnosti, ukljuuje i jednostavnu interaktivnost (Internetske multimedijske aplikacije)
4.
Main Visual Profile
5.
podrava kodiranje interlaced videa, sprite objekata i transparentnih objekata za interaktivni video za DVD i difuziju
N-bit Visual Profile
sustave
kodiranje objekata sa dubinom bita od 4 do 12 za video nadzorne
Simple Visual Profile

VLBV Core model kodeka Osnovna struktura kodiranja sastoji se od blok DCT kodiranje i predikcije pokreta Kodiranje pravokutnih okvira, male brzine I-VOP 41
8x8 blok DCT, kvantizacija, cik-cak skeniranje i run-length i variable-length kodiranje standardna estimacija i kompenzacija pokreta na makroblokovima 16x16 elemenata okvira, razluivost piksela Dodatni alati poveavaju uinkovitost kodiranja i prijenosa
P-VOP
4 vektora pokreta po makrobloku, neogranieni vektori pokreta, intra predikcija Video paketi, dijeljnje podataka, reverzibilni kodovi promjenjive duljine, kratko zaglavlje s GOB-ovima
Profili za prirodne video sadraje
(dodani u verziji 2) 7.
Advanced Real-Time Simple (ARTS)
napredne tehnike zatite od pogreke za pravokutne video objekte, koritenje povratnog kanala, mogunost koritenja proizvoljnog referentnog okvira (tj. VOP-a), mogunost smanjenja rezolucije kod loih uvjeta prijenosa, malo kanjenje videotelefonija, videokonferencije, daljinski nadzor
8.
Core Scalable Profile
9.
kodiranje objekata sa opcijom temporalne, rezolucijske i SNR skalabilnosti - za Internet, mobilne i broadcast primjene
Advance Coding Efficiency (ACE)
unaprijeena efikasnost kodiranja i za blok kodiranje i za objektno kodiranje primjene za mobilnu TV difuziju, kamere
Profili za prirodne video sadraje (dodani u sljedeim verzijama standarda) 8. Advaced Simple Profile
Za pravokutne objekte, s dodatnim alatima: B okviri, kompenzacija pokreta na piksela, globalna kompenzacija pokreta, dodatne kvantizacijske tablice, interlaced alati
10.
Fine Granularity Scalability Profile
11.
Za sloj poboljanja dozvoljava prekid bitnog niza na bilo kojoj poziciji kao osnovni sloj moe koristiti Simple ili Advance Simple profil
Simple Studio Profile
12.
Profil za visoko kvalitetni video za studijske aplikacije. Koristi samo I okvire, ali i objekte proizvoljnog oblika i viestruke alfa kanale brzine do 2 Gb/s
Core Studio Profile
Dodaje P okvire na Simple Studio
Profili za sintetike i hibridne sadraje
42
13. 14. 15.
Simple Facial Animation Visual Profile

16.
animacija lica primjena kod prezentacija za gluhe osobe skalabilno kodiranje za mirne slike osigurava prostornu i SNR skalabilnost, animaciju na osnovi mreaste strukture i jednostavnu animaciju lica
Scalable Texture Visual Profile Basic Animated 2-D Texture Visual Profile
Hybrid Visual Profil
dekodiranje objekata proizvoljna oblika i temporalne skalabilnosti s mogunou dekodiranja nekoliko sintetikih i hibridnih objekata ukljuujui animirano lice i animirane mirne slike
Profili za sintetike i hibridne sadraje (verzija 2) 17. Advanced Scalable Texture Profile
dekodiranje objekata i mirnih slika sa skalabilnou, uz wavelete tiling i otpornost na pogreke- omoguava sluajan pristup primjena kod pretraivanja Interneta
18. Advanced Core Profile
dekodiranje video objekata + dekodiranje skalabilnih objekata kod mirnih slika primjena kod interaktivnog streaminga multimedije preko Interneta
19. Simple Face and Body Animation Profile
animacija lica + animacija tijela

28. H.261, H.263 standard Predavanje: 11_video_4
H.261 standard
Standard za videokonferencije i videotelefoniju tip videa glava koja govori zapoet 1984., odobren u prosincu 1990. Predvien za male brzine p x 64 kb/s, p je cijeli broj od 1 do 30 Broj okvira 29,97 okvira/s Formati okvira CIF (352 x 288), QCIF (176 x 144) za video i 4 CIF (704 x 576) za mirnu sliku 4:2:0 poduzorkovanje boje Blok DCT kodiranje -blokovi 8x8 piksela Predikcija pokreta makroblokovi 4 bloka Y, 1 blok Cr i 1 blok Cb 43
Raunaju se vektori pokreta i matrica razlike za svaki makroblok opcionalno se koristi niskopropusni filtar u petlji za proraun kompenzacije pokreta
33 makro bloka ini grupu blokova (GOB)
H.263 standard

29.
Cilj razvoja novog standarda je dizajniranje postupka kodiranja videa za brzine ispod 64 kb/s (specifikacija za 33.4 kb/s V.34 modem) Rad na standardu zapoeo je u studenom 1993. a zavren u oujku 1996. Temelji se na H.261 uz poboljanje algoritama i iri raspon parametara videa U odnosu na MPEG-1 daje do 30% veu kompresiju uz istu kvalitetu
H.264 standard (karakteristike, unutarokvirna predikcija, kompenzacija
pokreta, transformacijsko kodiranje, adaptivni deblokirajui filtar, entropijsko kodiranjeVSL i NAL sloj, profili) Predavanje: 11_video_4
AVC Advanced Video Coding U prosincu 2001. od MPEG i VCEG grupe formiran JVC (Joint Video Team) standardi u ITU-T i ISO/IEC zavreni 2003. u srpnju 2004. zavren FRExt Fidelity Range Extension Sijeanj 2005. skalabilno video kodiranje
Zahtjevi na novi standard

znaajno poboljanje efikasnosti kodiranja visoka otpornost na pogreke i gubitke (paketa) dobre osobine u prijenosu mreama podravanje sustava koji zahtjevaju malo kanjenje dekodiranje s tonim podudaranjem
Karakteristike H.264
poboljano kodiranje za interaktivne aplikacije (videotelefonija, videokonferencije) poboljana svojstva u mreama podlonim smetnjama (mobilne UMTS i GSM) i gubitcima paketa (Internet) drugaija rjeenje u odnosu na prethodne standarde predikcija za unutarokvirno kodiranje filtri za deblokiranje u predikcijskoj petlji za proraun vektora pokreta 44
proraun vektora pokreta u odnosu na vie referentnih okvira ne koristi DCT nego cjelobrojnu transformaciju
Unutarokvirna predikcija (Intra Prediction)

Unutarokvirna predikcija se koristi za kodiranje I slika (okvira) Za predikciju se koriste blokovi 4x4 i 16x16 elemenata slike za svjetlinu, i 8x8 za kromatske komponente za 4x4 blok 9 modova predikcije koeficijenti unutar bloka se raunaju iz ve dekodiranih okolnih elemenata mod 0: vertikalna predikcija mod 1: horizontalna predikcija mod 2: DC predikcija (srednja vrijednost) ... Razlika izmeu predvienih i stvarnih vrijednosti se kodira prvo se koristi cjelobrojna transformacija, a zatim entropijsko kodiranje
Kompenzacija pokreta
Makroblokovi svjetline mogu biti 16x16, 16x8, 8x16, 8x8 elemenata slike Daljnje dijeljenje je u 8x8 pod-makroblokove veliine 8x8, 8x4, 4x8 ili 4x4 Vie referentnih slika se moe koristiti za predikciju Tonost predikcije je na piksela Kod B slika predikcija se temelji na prethodnom i buduem okviru s mogunou koritenja razliitih teina Predikcija se temelji na B-slice (odsjeku B slike) koji moe biti i referentna slika
Transformacijsko kodiranje
Koristi cjelobrojnu transformaciju (ne DCT, ali baziranu na DCT) primjenjenu na 4x4 blokove Koristi se i za I i za P, odnosno B okvire za rezidualne podatke nakon oduzimanja predvieog od stvarnog okvira Cjelobrojna transformacija jednostavnija je za proraun i zahtjeva samo pomak, zbrajanje i oduzimanje DC koeficijenti se ponovno transformiraju Hadamard transformacijskim matricama 4x4 veliine za DC koeficijente bloka luminacije 2x2 veliine za DC koeficijente blokova krominacije Koristi se skalarna kvantizacija
45
Adaptivni deblokirajui filtar

Podjela u blokove potrebna za efikasnu primjenu algoritama (kao i u svim prethodnim standardima) uzrokuje pojavu vidljive pogreke oko rubova blokova U dekoderu je mogue napraviti post-procesiranje filtriranjem ovih efekata Postavljanjem deblokirajuih filtara u koder popravlja se predikcija vektora pokreta i poveava kvaliteta Filtar je adaptivan na tri razine na razini odsjeka (slice) na razini ruba bloka na razini uzorka (za ouvanje rubova objekata)
Entropijsko kodiranje
Dvije tehnike set varijabilnih kodova niske kompleksnosti adaptivno koritenih ovisno o sadraju videa CAVLC (Context Adaptive Variable Length Coding) binarno aritmetiko kodiranje adaptivno sadraju CABAC (Context Adaptive Binary Arithmetic Coding)
Robusnost na pogreke i prilagodljivost mrenom okruenju

Uvedena su dva sloja Video Coding Layer VCL Network Adaptation Layer NAL Oba sloja sadre odreene mehanizme za zatitu od pogreke i gubitaka paketa isputanje ne-referentnih okvira switching-predictive (SP) pictures i switching-intra (SI) pictures omoguavaju prebacivanje izmeu razliiti tokova podataka kodiranih razliitim brzinama koritenje vie referentnih slika omoguava izbor referentne slike kada je neka od njih korumpirana unaprijedna zatita s nejednakom zatitom ovisno o vanosti bita dijeljenje slike u odsjeke koji se neovisno kodiraju smanjuje se propagacija pogreke NAL slae podatke u pakete koji najbolje odgovaraju MTU (maximum transfer unit) za pojedinu mreu fleksibilno slaganje makroblokova (FMO) ubacivanje intra kodiranih makroblokova koritenjem informacije o kanalu putem povratnog kanala 46
Profili H.264 standarda

Baseline profile Videotelefonija, videokonferencije, beine mree Main profile Televizijska difuzija, pohranjivanje video sadraja Extended profile Streaming aplikacije
30. Karakteristike govornog signala, model vokalnog trakta Predavanje: 12_govorx
audio signal govor glazba (i ostalo)
svojstva audio signala vana za multimediju ovise o karakteristikama izvora, kao i o ljudskom sluhu zvuk stvara titranje molekula zraka odreenom frekvencijom. Ono pobuuje na titranje bubnji u ljudskom uhu to se preko mehanizama unutarnjeg uha prenosi impulsima neurona u mozak koji to inerpretira kao zvuk
kod percepcije zvuka postoje limiti amplitude, frekvencije, vremena unutar kojih postoji percepcija zvuka; Spektralne komponente mijenjaju se u vremenu po frekvencijama i po amplitudama audio signal je nestacionaran sluajni signal govor 50 Hz do 10 000 Hz za razumljivost najznaajniji dio 300 Hz do 3400 Hz
ujni spektar 20 Hz do 20 kHz gonja granica je ee izmeu 15 i 18 kHz i pada sa godinama ogranienje spektra na 15 kHz neznatno smanjuje kvalitetu - koristi se u radiodifuziji
47
Pojednostavljeni model vokalnog trakta
Pobuda
Vokalni trakt
h(t ) H ( j , t )
Izlaz - govor
s0 (t ) S0 ( j , t )
frekvencije f0 31.
s(t) S(j)
za zvune glasove pod utjecajem pritiska zraka iz plua glasnice trepere i proizvode varijacije zranog tlaka s0(t), koji ima oblik impulsa (glotalni puls) osnovne
f0 ovisi o govorniku 35 450 Hz prosjeno 120 Hz za mukarce, 200 Hz za ene

Statistika svojstva govora, digitalizacija govora (spektar, amplitudna dinamika,
frekvencija uzorkovanja, brzina) Predavanje: 12_govorx
Srednja snaga za jednog govornika

P = lim 1 2T
T
s
T
(t )dt
Srednja snaga prosjenog govornika

P = lim 1 2T
(t )dt
Spektralna gustoa snage
( f ) =
dP df
Funkcija gustoe vjerojatnosti trenutnih vrijednosti govornog signala moe se aproksimirati Laplaceovom raspodjelom
1 f ( s) e 2
2 s
vrh raspodjele odgovara malim amplitudama bezvunih glasova i umu sustava standardna devijacija govornog signala odgovara njegovoj efektivnoj vrijednosti
= s2 , s = 0
48
V0+ 2.35 V
PROSJEcNI H
V0
V0-2.35 V
amplitudna dinamika ukupno 62 dB
Digitalizacija govora
u mikrofonu se tlak zraka na membrani pretvara u elektriki signal analogno-digitalno pretvorbom kontinuirani elektriki signal se pretvara u niz brojeva dvije faze uzorkovanje za telefonski signal koristi se spektar od 300 Hz do 3.4 kHz 8 kHz (125 sec) uzorkovanje (Nyquistov kriterij)
Kvantizacija dinamika odreena dinamikom govornika 98% amplituda unutar 62 dB 1:1260 moe se ostvariti s 12 bitnom linearnom kvantizacijom koristi se 8 bitno kodiranje logaritamsko osigurava podjednaki odnos snage signala i snage uma kvantizacije, S/Nq, kroz cijelo amplitudno podruje
32. zakon) Predavanje: 12_govorx Razlika izmeu linearne i nelinearne kvantizacije (primjena kod govora) (A
-law (US) i A-law (EU) nelinearna kompresija razliite tablice pretvorbe 49
A s 1 + ln A x= 1 + ln( A s ) 1 + ln A
1 0 s A 1 s 1 A
za nekomprimirani govor protok 64 kb/s
Normirana A-87.6 karakteristika

33. Standardi ITU-T za kodiranje govora (G.711, G.722, ) Predavanje: 12_govorx
ITU-TS G.721 64 kbps pretvara u 32 kbps ADPCM tehnika - 4 bita 8 kHz uzorkovanje
ITU-TS G.723 bit rate 24 kbps ADPCM tehnika - 3 bita G. 723.1 standard 6.3 kb/s (ACELP Algebraic Code Excited Linear Prediction) i 5.3 kb/s (MP-MLQ- Multi Pulse-Maximum Likehood Quantization), vrlo dobre kvalitete
ITU-TS G.726 zamjenjuje G.721 i G.723 ADPCM kodiranje sa 16 kb/s - kodiranje razlike sa 2 bita 24 kb/s - kodiranje razlike sa 3 bita 40 kb/s -kodiranje razlike sa 5 bita 32 kb/s -kodiranje razlike sa 4 bita
50
ITU-TS G.722 standard za audio kodiranje koristi se za visoko kvalitetno kodiranje govora kodira signal irine spektra 50Hz do 7kHz sub-band ADPCM (SB-ADPCM) signal se dijeli na dva frekvencijska pojasa (vii i nii) za svaki pojas primjenjuje se ADPCM 16 kHz uzorkovanje i 14 bita razluivost proizvodi 48, 56 ili 64 kbps
34.
LPC koder govora (digitalni model govornog trakta, koji se parametri prenose) Predavanje: 12_govorx
LPC (Linear Predictive Coding) koristi matematiki model govornog trakta umjesto uzoraka alje parametre modela bit rate 2.4 kbps mehaniki govor
LPC metoda kao digitalni model

Brzina prijenosa 2.4 kb/s Velika kompresija izvornog govornog signala Sintetiki (strojni) zvuk 1984. FS1015 LPC-10 DoD (Department of Defense) koristi se filtar sa 10 koeficijenata
Digitalni model vokalnog trakta
51
H (z ) =
1 1 + ak z k
k =1 p
z = e j
H(z) u(n) V (voiced/zvuni glasovi) T (pitch period) UV (unvoiced/bezvuni glasovi) G (gain/pojaanje)
Vokalni trakt Zrak Titranje glasnica Frekvencija/vrijeme titranja glasnica Oputenost glasnica Pritisak zraka
Vremenska domena
Frekvencijska domena
n pobuda u(n) izlaz s(n) impulsni odziv filtra h(n)
z = e j
U(z) S(z) H(z)
H (z ) =
S ( z) = U ( z)
1 1 + ak z k
k =1 p
U ( z ) = S ( z ) a1S ( z ) z 1 a2 S ( z ) z 2
a p S ( z) z p
u (n) = s (n) a1s (n 1) a2 s (n 2)

s(n) = ak s (n k ) + u (n)
k =1 p
a p s (n p)
52
LPC analiza
Izlaz iz filtra odgovarat e sumi prethodna p uzorka uzetih s razliitim teinama
( n ) = ak s ( n k ) s
k =1
Koeficijenti filtra ak odreuju se tako da se minimizira srednja kvadratna pogreka. e(n) razlika originalnog signala i signala predvienog modelom
( n ) = s ( n ) ak s ( n k ) e (n) = s (n) s
k =1 p
Pri tome se koeficijenti ak odreuju se iz kratkog segmenta u okolini signala s(n) (koriste se segmenti duljine 20 ms odnosno 160 uzoraka)
sn ( m ) = s ( m + n )
35. CELP koder govora Predavanje: 12_govorx
53
hibridni koder temelji se na LPC-u za 4.8 kbps govor se analizira po okvirima duljine 30 ms (240 uzorka) okvir se dijeli na 4 podokvira za svaki podokvir kodni rjenik sadri 512 kodnih vektora (valnih oblika) stohastiki vektori fiksni ( FS-1016 rjenik 60 uzoraka po vektoru) prilagodljivi vektori (iz prethodnih uzoraka govora)
pojaanje se kodira sa 5 bitova za svaki podokvir LPC parametri se definiraju na razini okvira i kodiraju sa 34 bita u frekvencijskoj domeni Filter za predikciju perioda T
H ( z) =
Vizualno teinski filtar
1 1 + bz T
W ( z) =
H (z / 2 ) H (z / 1)
1 = 0.9, 2 = 0.5
LD-CELP
Standard G.728
Parametri
320 bita po okviru, okvir 20 ms, 16 kb/s
bitovi po parametru bitovi po okviru veliine 20ms 12 144 12 LPC koeficijenata ,a1...a12 pojaanje,G 13 52 koeficijent pitch filtera,b 13 52 lag pitch filtera,T 8 32 indeks knjige kodiranja,k 10 40 ------------Ukupno: 320
54
36.
Karakteristike audio signala(spektar, dinamika, maskiranje) Predavanje: 13_audio
Spektar audio signala

Spektralne komponente mijenjaju se u vremenu po frekvencijama i po amplitudama audio signal je nestacionaran sluajni signal govor 50 Hz do 10 000 Hz za razumljivost najznaajniji dio 300 Hz do 3400 Hz ujni spektar 20 Hz do 20 kHz gonja granica je ee izmeu 15 i 18 kHz i pada sa godinama ogranienje spektra na 15 kHz neznatno smanjuje kvalitetu - koristi se u radiodifuziji
Dinamiki raspon ljudskog sluha

Odreen je donjom granicom ujnosti za sinusoidu frekvencije 1 kHz to je zvuni tlak od 2.10-5 N/m2 na 1 kHz granica bola je na 120 dB iznad granice ujnosti
gornjom granicom bola (oteenja) zbog uma prostorije dinamiki opseg audio signala uzima se oko 96 dB Doivljaj glasnoe je subjektivan (daje se u fonima) i ovisi o frekvenciji Poveanje glasnoe doivljavamo logaritamski ne linearno - koristimo dB
Maskiranje
Prisustvo jednog zvuka moe maskirati drugi zvuk ili promjeniti ujnost drugog zvuka frekvencijsko maskiranje temporalno maskiranje
FREKVENCIJSKO MASKIRANJE
efekt maskiranja ovisi o razlici frekvencija pojedinih zvukova kao i o njihovoj amplitudi niske frekvencije bolje maskiraju one vilje
55
37.
CD audio zapis, DVD audio zapis Predavanje: 13_audio
CD audio
pojavio se 1982. ne samo za govor ve i glazbu linearno PCM kodiranje sa 16 bita dinamiko podruje 96 dB frekvencijski odziv 0 do 20 kHz uzorkovanje 44.1 kHz (23 sec) stereofonija - dva kanala 1.411 Mbps data rate Reed-Solomon zatitni kod trajanje 74 min
DVD audio
16-, 20-, 24- bitno LPCM kodiranje uzorkovanje sa 44.1, 48, 88.2, 96, 176.4 ili 192 kHz 1 do 6 kanala Meridian Lossless Packing (MLP) kompresija bez gubitaka trajanje zapisa od 86 min (96 kHz uzorkovanje sa 24 bita i sa 6 kanala) do 25 h (44.1 kHz uzorkovanje sa 16 bita i 1 kanal) granina brzina 9.6 Mb/s frekvencijski odziv 0 do max 96 kHz dinamiko podruje do 144 dB zatita od kopiranja CPPM (content protection for prerecorded media)
DVD audio MLP kompresija

razvili u Meridian Audio Ltd. u suradnji s Dolby Labaratories Inc. kompresija bez gubitaka tonost rekonstrukcije na razini bita bez obzira na broj prekodiranja u audio zapisu se trae kanali bez informacije kanali koji ne iskoritavaju u potpunosti frekvencijski pojas
uklanja se meukanalna korelacija matricama bez gubitaka npr. mono signal prezentiran kao stereo, blisko postavljeni mikrofoni za razliite kanale, stereo signal (uklanjanje korelacije koritenjem sume i razlike L i D kanala)
56
38.
MPEG 1 audio kodiranje (MUSICAM, razlike u slojevima) Predavanje: 13_audio
MPEG-1 Audio
tri algoritma (downward compatible) Layer-1, 2 i 3 brzina 1.5 Mb/s za video + audio, od toga 0.3 Mb/s za audio podrava 4 moda rada mono dual-mono (npr.dva jezika) stereo udrueni stereo (iskoritava korelaciju u stereo kanalima)
radi na 32 do 448 kpbs po kanalu uzorkovanje 32, 44.1, 48 kHz stupanj kompresije od 2.7 do 24 rade s gubitkom, ali ne osjetilnim (perceptivnim) koristi pojavu frekvencijskog i temporalnog maskiranja s kompresijom 6:1 (za 16 bitni stereo s uzorkovanjem s 48 kHz to je 256 kb/s) eksperti ne razlikuju kodirani od originalnog audia
MPEG 1 audio kompresija

metoda ulaz je podijeljen u 32 frekvencijska podpojasa na temelju psihoakustikog modela definira se koliina maskiranja u pojedinom pojasu ako je snaga pojasa ispod praga maskiranja ne kodiraju se uzorci ako je snaga pojasa iznad praga maskiranja odreuje se potreban broj bitova tako da kvantizacijski um pada ispod praga maskiranja
MUSICAM
(Masking pattern adapted Universal Subband Integrated Coding and Masking)

audio okvir se razlae na 32 frekvencijska podpojasa 12 uzoraka u svakom pojasu ukupno 384 uzorka u okviru 12 uzoraka ini blok vrna vrijednost bloka kodira se sa 6 bitnim faktorom skale koji odreuje dinamiki opseg kvantizatiora 57
primjenom psihoakustikog modela odreuje se alokacija bitova paralelna FFT analiza svakog podpojasa s rezolucijom fs/256 za svaki podpojas rauna se prag maskiranja u vremenskoj i frekvencijskoj domeni uklanjaju se podpojasevi ispod apsolutne granice ujnosti kvantizacija svakog podpojasa odreena je trenutnim odnosom signala i maskiranja - dinamika alokacija bitova
MPEG 1 Audio Layer-1

uzorkovanje 32 kHz, 44.1 kHz, 48 kHz koristi QMF za filtriranje u 32 podpojasa jednake irine kod kodiranja koristi samo jedan okvir od 12 uzoraka psihoakustiki model koristi samo frekvencijsko maskiranje
MPEG 1 Audio Layer-2

koristi QMF za filtriranje u 32 podpojasa kod kodiranja koristi tri okvira (prijanji, trenutni i budui) ukupno 1152 uzorka psihoakustiki model koristi uz frekvencijsko maskiranje i temporalno maskiranje u odreenoj mjeri
MPEG 1 Audio Layer-3 (mp3 format)

1987. Fraunhofer institut zapoeo rad na audio koderu u okviru EUREKA projektu EU147 za Digital Audio Broadcasting (DAB) koristi filtre koji bolje pokrivaju kritine pojaseve (nejednake irine pojasa) dijeli signal u 576 pojaseva prvo u 32 glavna pojasa (kao u layer 1 i 2), a zatim primjenom MDCT svaki pojas dijeli u 18 podpojaseva (za 48 kHz uzorkovanje to ini irinu pojasa od oko 41.67 Hz u odnosu na 750 Hz za Layer 1 i 2) ukljuuje temporalno maskiranje koristi Huffmanovo kodiranje komplementarno maskiranju signali slini umu male su redundancije ali dobro maskiraju, signali sa izraenim formantima slabije maskiraju, ali velike su redundancije kvantizacija nelinearna vee amplitude se kodiraju sa veim korakom kvantizacije kvantizirane vrijednosti se kodiraju Huffmanovim koderom
58
Usporedba MPEG-1 Layer I, II i III

MPEG-1 Layer I Layer II Layer III
Analysis/synthesis 32 subbands Output bit-rate Effcient bit-rate 32-448kbps 160-224kbps
32 subbands Subband+MDCT 32-384kbps 96-128kbps 32-320kbps 64-96kbps
Sampling freq. 32,44.1,48kHz 32,44.1,48kHz 32,44.1,48kHz Intensity stereo Quantization Window Entropy coding Frame size Bit-allocation representation Frame selfdecodable Suggested psychoacoustic model Model 1 Model 1 Model 2 Yes Yes No Yes Uniform Fixed No Yes Uniform Fixed No Yes Non-uniform Dynamic Yes 1152 samples Indexing
384 samples 1152 samples Explicit Indexing
39.
MPEG 2 audio, MPEG 4 audio (razlike u odnosu na MPEG 1 audio, AAC) Predavanje: 13_audio
MPEG-2 Advanced Audio Coding AAC

vea frekvencijska rezolucija ukupno 1024 pojasa (max. rezolucija 23 Hz za 48 kHz uzorkovanje) poboljano stereo kodiranje poboljano Huffmanovo kodiranje koristi samo MDCT (Modified Discrete Cosine transformation) krai odziv (5.3 ms) u odnosu na layer 3 filtre (19.6 ms)
bolja prezentacija brzih promjena
59
Temporal Noise Shaping (TNS) tehnika koristi predikciju u frekvencijskoj domeni otklanja pojavu proirenja pogreke kvantizacije u podruje ispred signala s naglim porastom -poboljanje kvalitete kod malih brzina do 48 glavnih audio kanala do 16 niskofrekvencijskih kanala za efekte do 16 viejezinih kanala 3 profila main profil (AAC) za primjene kada nema restrikcija na procesor i memoriju Low Complexity (LC) profil Scalable Sampling Rate (SSR) profil MPEG- 2 AAC s vektorskom kvantizacijom CELP + CELP kompresija tiine kodiranje sintetikog i hibridnog zvuka obuhvaa vie naina kodiranja za razliite brzine i za razliite vrste audio signala
skalabilno kodiranje od 2 kbps do 64 kbps otpornost na pogreke
Digitalni zvuk - primjene

telefonija preko IP integracija beini sustavi audio on demand
audio broadcasting (radio) audio conferencing CD i DVD pohrana video + pripadajui audio
60
40.
Problemi kod prijenosa multimedije mreom Predavanje:
Paketni prijenos govora

Problemi paketnog prijenosa varijabilno kanjenje paketa kod stvarnovremenskih aplikacija zahtjeva se malo srednje kanjenje i mala varijabilnost kanjenja Govor podnosi odreenu koliinu gubitaka i distorzije, ali je jako osjetljiv na kanjenje Openito je prihvaeno 100 do 600 ms za maksimalno kanjenje Kako bi se minimiziralo kanjenje preporuene su male veliine paketa od 200 do 700 bita, i trebaju sadravati manje od 10 do 50 ms govora 64 kb/s PCM za 10 ms govora = 640 bita LD-CELP 16 kb/s okviri 20 ms = 320 bita
Mreni protokoli trebaju osigurati manja zaglavlja (4 do 8 byta) U mreama s malom vjerojatnou pogreke nije neophodno koristiti zatitne kodove ili zahtjeve za transmisiju Ipak kod poveanja prometa moe doi do odbacivanja nekih paketa, pa je potrebno osigurati kodiranje takvo da je smanjenje kvalitete postupno Dekoder koristi dodatno kanjenje paketa kako bi se ujednaila kanjenja mora se postii kompromis jer due dodatno kanjenje poveava ukupno kanjenje govora, a krae poveava vjerojatnost izgubljenih paketa
Poveanje efikasnosti i kvalitete prijenosa osigurava kodiranje govora s razliitim prioritetima za podatke razliitih vanosti za kvalitetu U vorovima mree u sluaju prometnog zaguenja prvo se odbacuju paketi s manjim prioritetom Podaci o prioritetima moraju se nalaziti u mrenom dijelu zaglavlja, dok se podaci o klasifikaciji kao i parametri kodiranja nalaze u aplikacijskom dijelu zaglavlja
61
A ta sad????????????
Vrati se na poetak!!!!
Sale, d_inenjer
62

Ms Odgovori Na Pitanja Za Ispit 2008 2009 03-06-2009

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Ms Odgovori Na Pitanja Za Ispit 2008 2009 03-06-2009

Uploaded by

Copyright:

Available Formats

MULTIMEDIJSKI SUSTAVI Odgovori za ispit

p 1110 h 1101 r 1111 s 1100 100

Moe li bolje? WinZip kodira s 48 936 bita kompresija 8,86: 1

Za neperiodine signale koristimo Fourierovu transformaciju:

Vrijedi Parsevalova jednakost energije signala u vremenskoj i frekvencijskoj domeni

Zato govorimo o Fourierovoj transformaciji?

Fourierova transformacija diskretnog signala

Dobijena diskretna funkcija xS(t) moe se napisati u obliku

Niz T je periodian s periodom T=1/fs pa ga moemo iskazati preko Fourierova reda

Sad moemo nai Fourierovu tansformaciju diskretnog niza xS(t)

Fourieova transformacija diskretnog periodinog signala

Periodini signal se moe iskazati preko Fourierovog reda

Gdje ck predstavljaju amplitude spektralnih komponenata signala

Gdje se amplitude cosinusnih funkcija (DCT koeficijenti) raunaju kao:

prednost nad fft je u boljoj aproksimaciji linija s manje koeficijenata

Bazne funkcije DCT

Analiza funkcije f(t)

Sinteza funkcije f(t)

Waveleti kao digitalni filtri

predstavljaju detalje na toj razini (rezoluciji)

Zahtjevi na wavelete za kompresiju slike

Osjetljivost ljudskog vizualnog sustava na prostorne frekvencije

0,6 0,4 0,2 0,0 0 5 10 15 20 25

Spatial frequancies [cycle/1o)

Boja kao fizikalni fenomen

Ljudski vid i doivljaj boje

RGB model boja

kontrasta, gamma korekcija, manipilacija histogramom) Predavanje: 6_manipulacija_slikom

R ' = R1 / G ' = G1 / B ' = B1 /

R = R ' G = G ' B = B '

rk je k-ta razina intenziteta, a nk je broj piksela koji imaju tu razinu intenziteta

esto se koristi normalizirani histogram

- gdje je n ukupan broj piksela

U frekvencijskoj domeni to odgovara izrazu

gdje su Y(j) i X(j ) dobijeni Fourierovom transformacijom y(n), odnosno x(n)

Gaussov niskopropusni filtar

esto se koristi za pravljenje sjene na objektima

Blur sa Gaussovom maskom radijusa 29 piksela

Gaussov niskopropusni filtar proraunava se iz formule

0.0624 0.0665 0.0665 0.0624

0.0587 0.0624 0.0624 0.0587

Geometrijske operacije na slici

translacija za a u horizonatalnom smjeru, i za b u vertikalnom smjeru

Rotacija slike za kut

g ( x, y ) = f ( x cos y sin , x sin + y cos )

smanjivanje ili poveavanje slike gdje vrijedi

uz d 1 sliku emo uveati uz d < 1 sliku emo smanjiti

g ( x, y ) = f ( INT ( x + 0.5), INT ( y + 0.5))

Detekcija rubova objekta

koristi centralnu derivaciju i konvolucijsku masku veliine 3x3

obzirom na kompresiju i prikaz boje) Predavanje: 8_formati_1_web Bitmapslike(piksel mape)

Prikaz digitalne slike

Zato se koristi DCT?

Podjela u blokove za kodiranje

Entropijsko kodiranje bez

slika se dijeli u ploice jednake veliine

od 64x64 do 256x256 piksela

ROI podruje za koje bitovi idu na poetku bitstreama

Poduzorkovanje komponenata boje

visoka (384 kbit/s do 4 Mbit/s)

MPEG-7 (2001.) zapoet u listopadu 1996. suelje za opis multimedijskoh sadraja

Iskoritava se temporalna redundancija

Pokret se istrauje na makroblokovima 16 x 16 piksela tehnikama korelacije