Professional Documents
Culture Documents
Dragan Knežević 2020 Kompresija Video I Audio Signala U TV Sistemima
Dragan Knežević 2020 Kompresija Video I Audio Signala U TV Sistemima
BANJA LUKA
Seminarski rad
Profesor: Student:
Prof. Dr Dražen Marinković Dragan Knežević
Indeks: 28-17/RRMG
Seminarski rad
SADRŽAJ
1. UVOD........................................................................................................................4
2. Slika............................................................................................................................5
2.5. Boja.......................................................................................................................14
3. ZVUK.......................................................................................................................16
4. VIDEO ZAPIS.........................................................................................................25
4.2.1. MPEG-4............................................................................................................27
Stranica 2 оd 42
Seminarski rad
5. ZAKLJUČAK..........................................................................................................39
6. LITERATURA.........................................................................................................40
Stranica 3 оd 42
Seminarski rad
1. UVOD
Stranica 4 оd 42
Seminarski rad
2. Slika
Čovjek naime prima informacije putem svojih čula, ali čulo vida ipak nadmašuje
sva druga čula sa svojim vrlo velikim informacijskim kapacitetom. Sa kratkim
razgledanjem neke slike, svaki čovjek može da primi onu količinu informacija koju bi
primio sa višesatnim slušanjem verbalnoga opisa te potpuno iste slike. Zato je prenos
slike na daljinu postao vrlo važan faktor kod efikasnog rada, učenja ili zabave
savremenog čovjeka. Slika tako može da bude prikazana na 2 načina: može da bude
pokretna ili mirna. Slika je naime pokretna onda kada postoji i neki pokret u samoj slici,
odnosno onda ada se izgled slike mijenja s vremenom.
Stranica 5 оd 42
Seminarski rad
Kod nekih mirnih slika, dakle, sama frekvencija kao pojam koji obično označava
broj promjena (ili broj perioda) u nekom vremenu [Hz][b] gubi sav svoj smisao, te je
zbog toga potrebno uvesti i pojam prostorne frekvencije.
Stranica 6 оd 42
Seminarski rad
slike po jedinici dužine zavise od toga koji bi detalji trebali da budu viđeni, prije nego o
nekim formalnim ograničenjima koja su određena sa teoremom samog uzorkovanja.
Tačnije rečeno, ako na slici imamo puno nekih detalja potrebna nam je samim
tim i veća količina elemenata date slike po jedinici dužine, tako da data količina nije
fiksno ni određena kao što je to zapravo frekvencija uzorkovanja kod, recimo
televizijske slike.
2.2.Kompresija slike
Stranica 7 оd 42
Seminarski rad
Ovakvi načini same kompresije su neophodni kod mnogih slučajeva, kao što su
na primjer kompresija tekstualnih podataka, zatim EXE datoteka i tome slično. U
takvim slučajevima se ne može dozvoliti nikakva zamjena ili gubitak ni jednog jedinog
bajta, jer se kasnije najvjerovatnije ne bi mogla ni pokrenuti. Sa druge strane, datoteke
koje zapravo sadrže neku sliku ne moraju da budu savršeno očuvane da bi se
uskladištile ili da bi se prenosile.
Digitalizacija signala tako unosi određene količine šuma. Ako se naprave takve
izmjene na podacima koje unose male količine dodatnoga šuma u neki originalni
podatak, neće se tada napraviti neka velika šteta na kvalitetu samog signala. Tehnike
komprimiranja koje nam dopuštaju takve neke načine degradacije različitih podataka,
nazivaju se tehnikama sa gubicima.
Ovakva razlika jeste bitna zato što su tehnike sa raznim gubicima puno
uspješnije pri samom komprimiranju nego neke tehnike bez gubitaka. Što je tako veći
stepen kompresije (ili na engl. compression ratio), to se naime dodaje više šuma u same
komprimirane podatke [2].
Delta MPEG
LZW
Stranica 8 оd 42
Seminarski rad
Kako je naše oko manje osjetljivo na promjene boja, ovakav jedan način
kompresije ne unosi vizuelna značajna degradacije kvaliteta slike [2]. U Tabeli broj 2 je
prikazano da sam CS&Q ima određene vrijednosti ulazne ili određene vrijednosti
izlazne veličine samih blokova, odnonsno određena vrijednost kod broja bitova se
zapravo učitava iz same ulazne datoteke originala i od toga zapravo manja određena
vrijednost broja bitova se dalje ispisuje u samu izlaznu datoteku.
Stranica 9 оd 42
Seminarski rad
Stranica 10 оd 42
Seminarski rad
Jednačina nam prikazuje DCT funkciju same baze. Varijable x i y su dati indeksi
prostornog domena, dok su u i v indeksi frekvencijskoga spektra (ili prostorne
Stranica 11 оd 42
Seminarski rad
Ovakav postupak jeste prikazan slikom broj 3. DCT ima jednu polovinu periode
od same svoje funkcije baze, odnosno S[0,1] i S[1,0]. Kako je to zapravo prikazano na
prethodnoj slici, vidi se da se dati talasi “lagano kreću” sa jedne strane matrice na drugu
stranu. Sa druge strane, najniže frekvencije u samoj Fourierovoj transformaciji se
sastoje od onih cijelih perioda. Slike skoro uvijek sadrže ona područja u kojima se
svjetlina u postupnosti mijenja, i zbog toga koristeći sve osnovne funkcije, koje
odgovaraju datom osnovnom uzorku slike, dobijamo zapravo bolju kompresiju.
Stranica 12 оd 42
Seminarski rad
2.4.Mirne slike
Ljudsko oko, sfera je kod njega promjera od oko 20 mm. Oko se sastoji od
rožnjače (cornea), zatim mrežnjače (retina), dalje šarenice (iris) kao i sočiva (lens). Na
principu građe oka, izrađuju se upravo i kamere. Mrežnjača je prekrivena sa
receptorima:
Stranica 13 оd 42
Seminarski rad
Zato promatrajući sliku broj 5, mozak uzima u obzir svaku sjenu koja prekriva
polje i na osnovu toga određuje koje je to dato polje boje. Čini se tako da boja
pravougaonika prelazi iz svjetlije u tamniju boju jer mozak poredi taj pravougaonik sa
okolinom koja prelazi iz tamnije boje u svjetliju.
Stranica 14 оd 42
Seminarski rad
2.5.Boja
Stranica 15 оd 42
Seminarski rad
3. ZVUK
Stranica 16 оd 42
Seminarski rad
Stranica 17 оd 42
Seminarski rad
zvuka kao i uređaji za pretvaranje energije zvučnog talasa u mehanički ili fizički pomak
same igle.
Stranica 18 оd 42
Seminarski rad
Zvuk sam po sebi predstavlja jednu analognu fizikalnu veličinu (bilo da je data
veličina pritisak vazduha ili ekvivalentna el. struja, magnetna indukcija ili nešto drugo),
koja je uvijek zapravo neprekidna. Digitalni zapis prema definiciji jeste zapis koji je
isprekidan, te se nameće samo pitanje kako pretvoriti analognu veličinu (ili zvuk) u neki
njemu digitalan ekvivalent. Za to nam je prije svega neophodan neki elektromehanički
pretvarač, ali i jedan analogno digitalan pretvarač. Elektromehanički pretvarač koji se
zapravo najčešće koristi jeste mikrofon, a analogno digitalni pretvarač je bilo koji
električni analogno digitalni pretvarač.
Stranica 19 оd 42
Seminarski rad
𝑓𝑠 = 𝑓𝑚𝑎𝑥 ∙ 2
Stranica 20 оd 42
Seminarski rad
Stranica 21 оd 42
Seminarski rad
(PSK) kao i kompresiju podataka kako bi postigli protoci podataka sa približnih 56 kbps
(a to je recimo u praksi maksimalnih 52 do 54 kbps).
Ulazni signal se tako dijeli na 32 frekvencijska područja. Nad svima njima radi
se Fourierova transformacija i pri tome se primjenjuje psiho-akustički model maskiranja
signala kod jedne frekvencije sa jačim signalom druge frekvencije. Sa time se redukuje
količina informacija koje su potrebne za spremanje ili reprodukciju. Protok kod
kodiranog zvuka može se tako kretati u području od 32 pa do 448 kbps po kanalu uz
uzorkovanje od nekih 32, 44.1 i 48 kHz. Niži protoci ujedno označavaju lošiji kvalitet,
ali i manju količinu ukupnih podataka i obrnuto.
Stranica 22 оd 42
Seminarski rad
Taj algoritam je zapravo kreiran tako da prilikom samog kodiranja izbaci neke
uzorke sa ciljem smanjenja same veličine audio snimka, a da se pri tome bitno ne utiče
na kvalitet, odnosno da čovjek sa prosječnim sluhom ne može da osjeti razliku između
snimka koji je kodiran u MP3 formatu i snimka koji je memorisan na CD-u. Najveća
prednost jeste veličina datoteke koja se dobija sa kodiranjem u MP3 formatu, prilikom
čega kodiranjem u području kod srednjih bitrate[m] - a (oko 128 kbit/s) veličina
datoteke iznosi samo 1/10 od veličine datoteke sačuvane na Audio CD-u.
Svaki od datih kodera ima i svoje prednosti, dok sam kvalitet kodiranja najviše
zavisi od optimizacije samog algoritma. Za Fraunhoferov koder se tako smatra da
najvjernije kodira jedan izvorni audio format u dati MP3 format, a radi u datom
području frekvencija do nekih 20 kHz. Međutim sama cijena kvaliteta je naplaćena sa
brzinom. Xing koder jeste najbrži koder, on kodira zvuk u frekvencijskom području sve
do približno 20 kHz. Xing nam nudi mogućnost promjenjivoga bitrate-a što nam
omogućava dodatno smanjenje veličine same datoteke, ali zvuk nije ni približno istog
kvaliteta kao kod recimo Fraunhoferovog kodera.
LAME koder jeste u ovom trenutku najbolji i zapravo najčešće korišteni koder, a
iz tog razloga što je i open source, omogućena mu jezapravo masovna upotreba. Iako je
sporiji od pomenutog Xing kodera, sa LAME koderom može se kodirati sve do bitrate-a
od nekih 320 kbit/s, prilikom čega se, na svim istim postavkama, osjeti jedna bitna
Stranica 23 оd 42
Seminarski rad
razlika između muzike kodirane Xing ili Lame koderima. Prilikom toga jeste kvalitet na
strani pomenutog LAME kodera. BladeENC je zapravo još jedan od kodera koji se
koristi u datom procesu kodiranja, ali ipak nešto rjeđe u odnosu na recimo Fraunhofer,
LAME ili Xing kodere [5].
Postoji tako 15 bitrate-a koji su prihvaćeni kao neki standard prilikom kodiranja
a to su: 32, 40, 48, 56, 64, zatim 80, 96, 112, 128, 144, 160, 192, 224, kao i 256 i 320
kbit/s sa frekvencijama otipkavanja od 32, od 44.1 i od 48 kHz. Za poređenje, bitrate
CD formata iznosi ukupno 1,411.2 kbit/s (odnosno 16 bita po uzorku × 44100 uzoraka
po ekundi × 2 kanala / 1000 bita/kilobit). Iako bi se svako, na sam prvi pogled, složio da
treba bitrate postaviti na neki najveći mogući nivo (320 kbit/s), veći bitrate znači to da
će audio datoteka u MP3 formatu da zauzima više prostora na samom disku. Niži bitrate
znači I manju veličinu same audio datoteke, ali je kvalitet zvuka dosta manji, pri čemu
postoji i dosta velika mogućnost za pojavu nepravilnih smetnji, koje nastaju prilikom
procesa same kompresije, odnosno pojave neželjenih ili nepostojećih informacija
(pucketanja, pre-echo...) u odnosu na samu originalnu snimku.
Stranica 24 оd 42
Seminarski rad
okvir se još sastoji od MP3 zaglavlja i od MP3 podataka. Niz uzastopnih okvira se
naziva tako elementarni niz (ili Elementary Stream).
Najveći nedostatak jeste korištenje kompresije sa gubicima, pri čemu jedan udio
sadržaja ipak ostane zauvijek izgubljen. Upravo je kompletni sadržaj bitan muzičarima i
ljubiteljima muzike koji imaju bolje čulo sluha, te su u mogućnosti da čuju zvukove na
višim frekvencijama od nekog prosječnog slušaoca. Audio sadržaj sačuvan u CD
formatu ima bitrate od 1,411.2 kbit/s, dok prilikom kodiranja u dati MP3 format bitrate
se može podešavati na maksimalnu vrijednost do 320 kbit/s a i to je više od neka 4 puta
manje informacija u svakoj sekundi u odnosu na sam CD format.
Stranica 25 оd 42
Seminarski rad
4. VIDEO ZAPIS
MPEG (odnosno Moving Picture Experts Group) jeste ime radne grupe 11
(odnosno work group – WG11) pododbora SC29. Pomenuti pododbor SC29 (ili Coding
of Picture, Audio, Multimedia and Hypermedia) jeste jedan od pododbora Joint
Technical Committee 1 – JTC1 koji je zapravo nastao sa spajanjem ISO (International
Standards Organization) Technical Committee 97 Data Processing) sa IEC
(International Electrotechnical Commission) TC 46 Microprocessors. Službeni naziv
ove grupe jeste ISO/IEC JTC1/SC29/WG11.
MPEG grupa je zapravo razvila čitav jedan niz normi za kompresiju nekog
videa. Sve do sada su objavljene sljedeće norme, recimo MPEG-1, MPEG-2, zatim
MPEG-4, MPEG7 kao i MPEG-21. Zadnje 2 norme, MPEG-7 kao i MPEG21 ne daju
algoritme za kodiranje samog videa, već su razvijene za neki kvalitetniji opis samog
Stranica 26 оd 42
Seminarski rad
Stranica 27 оd 42
Seminarski rad
sadržaja videa ili promjenjive brzinom prenosa – VBR (ili Variable Bit
Rate) gdje se sama brzina mijenja zavisno od sadržaja videa.
4.2.Profili i nivoi
MPEG-2 norma zapravo uvodi profile i nivoe koji nam daju veliku fleksibilnost
primjene normi za mnoge različite aplikacije. MPEG-2 definiše ukupno 5 profila:
Simple, Main, zatim SNR, Spatial, kao i High. Profili zapravo određuju izlaznu
bitstream sintaksu, tj., vezano sa tim, podskup alata koji dati koder koristi.
Većina sistema koji koriste MPEG-2 radi upravo na main profile at main level -
MP@ML kao što je to zapravo slučaj sa SDTV – sa televizijom standardnog kvaliteta.
MPEG-4 definiše čak 19 profila za sve prirodne i sve sintetizovane sadržaje. U praksi se
tu najčešće koriste Simple Visual, zatim Advanced Simple kao i Advanced Real-Time
Simple Profil.
4.2.1. MPEG-4
Stranica 28 оd 42
Seminarski rad
Nakon što se svi podaci prihvate sa nekog medija, oni se predaju u jedan
prikladni FlexMux demultipleksor[s] iz koga zapravo izlaze neki elementarni podaci.
Elementarni podaci (ili engl. Elementary Streams) se rastavljaju ali i prosljeđuju
prikladnim dekoderima. Dekoderi obnavljaju sve podatke audiovizuelnog objekta, te
izvode tako neke prikladne operacije radi same rekonstrukcije u neki originalni
audiovizuelni objekt koji je preman za prikazivanja.
Stranica 29 оd 42
Seminarski rad
Struktura kao stablo ne mora uvijek da bude statička odnosno atributi kod
pojedinih čvorova (oni parametri koji opisuju položaje pojedinih objekata) mogu da se
mijenjaju ili se u stablo mogu da dodaju neki novi čvorovi.
Stranica 30 оd 42
Seminarski rad
a) teksta i grafike
c) sintetizovanog zvuka.
Stranica 31 оd 42
Seminarski rad
instrumenta ili iz nekih kodiranih parametara kako bi se na taj način omogućili efekti
kao što su neka jeka ili prostornost. Predstavnik nam tako omogućava kompresiju,
mogućnost za skaliranje i za efekte procesuiranja.
TTS koderi zapravo imaju brzinu prenosa od nekih 200 bit/s, pa sve do nekih 1.2
kbit/s, što nam dopušta da se tekst ili tekst sa prozodičnim informacijama (poređenje i
trajanje fonema u rimovnome obliku) kao ulaznim signalima pretvara u sintetičan
govor.
Stranica 32 оd 42
Seminarski rad
VLBV ljuska (ili na engl. Very Low Bitrate Video) podržava sve algoritme i
alate za aplikacije koje su namijenjene sa tipičnim brzinama prenosa između 5 i 64
kbita/s podržavajući tako čitav jedan niz slika niske prostorne rezolucije kao i niskog
frame ratea (tipično do nekih 15 Hz). Osnovne primjene kod specijalnih funkcija koje
podržava sama VLBV ljuska jesu sljedeće:
Područje velikih brzina prenosa, područje iznad same VLBV ljuske, podržava
zapravo iste osnovne algoritme kao i alate kao i sama VLBV ljuska, samo što se ovdje
sama brzina prenosa podataka kreće još od 64 kbit/s pa sve do 10 Mbit/s.
Stranica 33 оd 42
Seminarski rad
Kodiranje kod konvencionalnih slika ili videa je dosta slično kao kod MPEG-1 i
kod MPEG-2 kodiranja. Takvo kodiranje koristi predviđanja i sažimanja, a nakon toga
slijedi kodiranje same teksture. Kod slika nekih proizvoljnih oblika kodiranje se tu
svodi na kodiranje samih oblika slika i njihovih informacija. Oblik se tako može
prikazati recimo kao 8-bitna informacija. Na slici broj 10. je prikazan jedan osnovni
pristup MPEG-4 video algoritama za kodiranje pravougaonih nizova, kao i nizova svih
proizvoljnih oblika.
Stranica 34 оd 42
Seminarski rad
Osnovna struktura kod kodiranja sastoji se zapravo od kodiranja oblika slike (za
sve video objekte proizvoljnoga oblika) i pokretnoga sažimanja, kao što su DCT
teksturna kodiranja (koriste se standardna 8×8 DCT ili prilagodljiva DCT). Jedna od
najvažnijih prednosti kod korištenja sadržajno baziranoga kodiranja jeste mogućnost
značajnoga povećanja efikasnog kodiranja nekih videa, sa korištenjem prikladno
odabranih I objektno baziranih pokretnih predikcija samih “alata” za svaki objekat na
sceni.
Skalirani podaci nam nude mogućnosti dekodiranja samo onog nekog dijela
bitstreama i rekonstruisane slike ili redoslijeda slika pomoću akcija kao što su:
Ovakva svojstva su zapravo poželjna kod progresivnoga kodiranja slika ili videa
koji se zapravo prenose sa heterogenim mrežama, kao I sam kod aplikacija kod kojih
sam prijemnik nije baš sposoban da prikažeti cijelu rezoluciju ili neku potpunu
kvalitetnu sliku i video snimak. Veliki problem može da predstavlja i sama jačina datog
procesora, te hardvera u cjelosti.
Stranica 35 оd 42
Seminarski rad
Simple Visual Profile jeste VLBV Core model codeca (ili na engl. Very Low
Bit-rate Video Core), koji zapravo vrši kodiranje pravougaonih okvira, male je brzine.
Osnovna struktura kod kodiranja sastoji mu se od blok DCT kodiranja, te predviđanja
pokreta:
Stranica 36 оd 42
Seminarski rad
Stranica 37 оd 42
Seminarski rad
4.4.Vrste okvira
3. Predicted frame (P-frame) jeste okvir koji nastaje samo iz (nekoga od)
prethodnih okvira. Uvijek on nastaje od I-okvira.
Tok kodiranja:
Stranica 38 оd 42
Seminarski rad
Ovdje se koristi takozvana pojava “tromosti oka”, odnosno jedno svojstvo oka
da kraće vrijeme zadržava onu sliku koja više ni ne postoji. Svaka statična slika se zove
okvir (ili frame). Brzina izmjene datih okvira u mjeri se u jedinici fps (ili na engl.
frames per second). Što je tu veća brzina, pokret je sve glađi.
30 fps TV - NTSC
60 fps HDTV
Stranica 39 оd 42
Seminarski rad
NTSC
TV kadar na sam ekran nacrta elektronski zrak koji njime prolazi 2 puta
(ispreplitanje na engl. interlacing). Pri svemu tome se data TV slika čini stabilnom, bez
nekog titranja, a sam kadar ima rezoluciju od nekih 525 vodoravnih crta, sa
iscrtavanjem od nekih 30 kps. Omjer slike jeste 4:3.
PAL
Stranica 40 оd 42
Seminarski rad
5. ZAKLJUČAK
Stranica 41 оd 42
Seminarski rad
6. LITERATURA
3. Jain, Anil K.: Fundamentals of Digital Image Processing, Prentice Hall, 1989
URL: http://mpeg.chiariglione.org/standards/mpeg-4/mpeg-4.htm
8. Optical illusion
URL:http://en.wikipedia.org/wiki/File:Optical_grey_squares_orange_brown.svg
URL: http://en.wikipedia.org/wiki/HDTV
10. Zvuk
URL: http://www.carnet.hr/referalni/obrazovni/imme/mmelem/audio.html
11. Blu-ray
URL:http://www.blu-
raydisc.com/Assets/Downloadablefile/general_bluraydiscformat-15263.pdf
Stranica 42 оd 42