You are on page 1of 42

PANEVROPSKI UNIVERZITET „APEIRON“

BANJA LUKA

Seminarski rad

KOMPRESIJA VIDEO I AUDIO SIGNALA U TV


SISTEMIMA

Profesor: Student:
Prof. Dr Dražen Marinković Dragan Knežević
Indeks: 28-17/RRMG
Seminarski rad

Banja Luka, jun 2020. godine

SADRŽAJ

1. UVOD........................................................................................................................4

2. Slika............................................................................................................................5

2.1. Analiza i prikaz digitalne slike...............................................................................5

2.2. Kompresija slike.....................................................................................................7

2.3. JPEG - transformacijska kompresija....................................................................10

2.4. Mirne slike............................................................................................................12

2.5. Boja.......................................................................................................................14

3. ZVUK.......................................................................................................................16

3.1. Digitalizacija i kompresija zvuka.........................................................................16

3.2. Analogna pohrana zvuka......................................................................................17

3.3. Digitalna pohrana zvuka.......................................................................................18

3.4. Kodiranje i kompresija audio signala...................................................................20

3.4.1. Kodiranje govora..............................................................................................20

3.4.2. Kodiranje audio signala....................................................................................21

3.5. MPEG-1 Audio Layer 3 (MP3) oblik zapisa........................................................21

3.5.1. Ograničenja i nedostaci MP3 formata..............................................................23

4. VIDEO ZAPIS.........................................................................................................25

4.1. MPEG norme za kodiranje videa.........................................................................25

4.2. Profili i razine.......................................................................................................27

4.2.1. MPEG-4............................................................................................................27

Stranica 2 оd 42
Seminarski rad

4.2.2. Tehnički opis MPEG-4 standarda.....................................................................28

4.2.3. Audio kodiranje................................................................................................30

4.2.4. Video kodiranje.................................................................................................31

4.3. Profili i razine kod MPEG-4.................................................................................34

4.4. Vrste okvira..........................................................................................................36

4.5. Video – pokretne slike..........................................................................................37

4.6. Standardi video signala.........................................................................................38

5. ZAKLJUČAK..........................................................................................................39

6. LITERATURA.........................................................................................................40

Stranica 3 оd 42
Seminarski rad

1. UVOD

Govoreći o pojmu multimedije podrazumijevamo integraciju svih već postojećih


oblika medijalnih komuniciranja poput digitalniog teksta, grafike, fotografije, animacije,
video i stereo zvuka). Interaktivna multimedija nam omogućava jedno dvosmjerno
komuniciranje u odnosu na TV na koji mi nemamo uticaja. Postoji određeno mišljenje
da multimedija postaje alat koji zapravo podjednako uspješno koristi i poslovni ali i
umjetnički svijet. Multimedija se samim tim može opisati i kao nova filozofija u
pristupu računaru koja ravnopravno koristi upravo sve načine interakcije (tastaturu, miš,
olovku, sliku, kretanje, zvuk) [1].

Multimedijalni sadržaji kombinuju različite oblike medijalnih komuniciranja, a


za njihovu reprodukciju ranije su zapravo korištena vrlo različita sredstva. U zadnje
vrijeme za reprodukciju raznih multimedijalnih zapisa najčešće koristi multimedijalni
računar, a za čuvanje podataka CD-ROM ili recimo Internet.

Multimedija zapravo predstavlja bilo koju kombinaciju 2 ili više medija,


predstavljenih u jednoj digitalnoj formi, dovoljno integrisanih tako da mogu biti
prikazani putem jedinstvenog sučelja ili ih je samim tim moguće obrađivati uz pomoć
jedne računarske aplikacije. Pri svemu tome, bar jedan od tih medija mora da bude
vremenski definisan, poput recimo zvuka ili nekog video zapisa. Distribucija same
multimedije može se vršiti na više različitih načina:

1. on line putem mreže od jednog računara do nekog krajnjeg korisnika ili


bežičnim sistemima preko WLAN mreže, kao i mobilne telefonije

2. off line putem CD ROM-a, DVD-ova ili sa kombinacijom CD-a sa


nekim poveznicama na WWW.

Multimedijalni elementi zapravo imaju svoje mjesto u različitim područjima


primjene računara. Sve od web stranica pa do programskih paketa koji su namijenjeni
igri ili učenju.

Stranica 4 оd 42
Seminarski rad

2. Slika

2.1.Analiza i prikazivanje digitalne slike

Čovjek naime prima informacije putem svojih čula, ali čulo vida ipak nadmašuje
sva druga čula sa svojim vrlo velikim informacijskim kapacitetom. Sa kratkim
razgledanjem neke slike, svaki čovjek može da primi onu količinu informacija koju bi
primio sa višesatnim slušanjem verbalnoga opisa te potpuno iste slike. Zato je prenos
slike na daljinu postao vrlo važan faktor kod efikasnog rada, učenja ili zabave
savremenog čovjeka. Slika tako može da bude prikazana na 2 načina: može da bude
pokretna ili mirna. Slika je naime pokretna onda kada postoji i neki pokret u samoj slici,
odnosno onda ada se izgled slike mijenja s vremenom.

Primjera radi, kod PAL-a, televizijskog sistema slike se izmjenjuju zapravo 25


puta u sekundi što nam stvara doživljaj kontinuiranoga pokreta u ljudskom oku. Nije tu
potreban veći broj promjena, jer je zapravo ljudsko oko relativno i tromo i ne zapaža
promjene ništa brže od navedenog.

Slike nam prikazuju kako se to intenzitet svjetlosti mijenja po svojoj površini.


Međutim, svjetlo nije jedini parametar koji se tu koristi u naučnim prikazima nekih
slika. Recimo, slika može da prikazuje: temperature nekog integrisanog kruga, brzine
krvi u nekoj pacijentovoj arteriji, zatim emisije X-zraka iz nekih udaljenih galaksija,
pomijeranja tla za vrijeme nekog zemljotresa, itd.

Sve ove egzotične slike se zapravo obično pretvaraju u konvencionalne slike


(odnosno slike koje prikazuju neku promjenu intenziteta svjetlosti), tako da ih sam
čovjek može vidjeti u njemu nekim smislenim oblicima. Mirne slike zapravo sadrže
informacije u nekom prostornom domenu (ili engl. spatial domain), što je zapravo
ekvivalent za vremenski domen kod informacija (ili signala) koje se izmijenjuju u
zavisnosti od vremena.

Stranica 5 оd 42
Seminarski rad

Kod nekih mirnih slika, dakle, sama frekvencija kao pojam koji obično označava
broj promjena (ili broj perioda) u nekom vremenu [Hz][b] gubi sav svoj smisao, te je
zbog toga potrebno uvesti i pojam prostorne frekvencije.

Vizuelna rezolucija p∙v zapravo predstavlja broj elemenata slike unutarsamo 1°


vizuelnog ugla ([element slike/1°]), a zavisi od udaljenosti posmatrača (L [cm]) i od
rezolucije ekrana (p [element slike/cm]), kako je to šematski prikazano sa slikom 1. Sa
druge strane, sama prostorna frekvencija kod slike v je definisana kao broj promjena (ili
nekih perioda) unutar 1° vizuelnog ugla ([perioda/1°])

Slika 1: Prikaz same veze udaljenosti posmatrača i područja ekrana obuhvaćenoga sa 1°


vizuelnog ugla

x L tg (1) cm/1

p∙v p∙x p∙L tg (1) element slike /1

Ako bi se na nekom posmatranom području ekrana naizmjenično smijenjivali


crno-bijeli elementi neke slike, tada bi na datom dijelu bila takozvana maksimalna
frekvencija, koja se definiše kao vizuelna rezolucija podijeljena sa brojem 2:

Vidi se tako da se maksimalna frekvencija mijenja u zavisnosti od vizuelne


rezolucije ekrana i o njegovoj udaljenosti od posmatrača. Razmak kao i broj elemenata

Stranica 6 оd 42
Seminarski rad

slike po jedinici dužine zavise od toga koji bi detalji trebali da budu viđeni, prije nego o
nekim formalnim ograničenjima koja su određena sa teoremom samog uzorkovanja.

Tačnije rečeno, ako na slici imamo puno nekih detalja potrebna nam je samim
tim i veća količina elemenata date slike po jedinici dužine, tako da data količina nije
fiksno ni određena kao što je to zapravo frekvencija uzorkovanja kod, recimo
televizijske slike.

2.2.Kompresija slike

Prenos podataka kao i njihovo skladištenje zapravo zahtijevaju određeno


vrijeme, neki memorijski prostor a samim time i novac. Što se tu više podataka
obrađuje, to i cijena sve više I više raste.

I poredtoga, većina digitalnih podataka nije zapravo smještena u nekom svom


najkompaktnijem obliku. Oni se zapravo prije stavljaju u jedan oblik koji nam je
najpogodniji za neko korištenje, kao što su to recimo ASCII[c] tekstovi, neki binarni
kodovi koji mogu da budu pokrenuti odmah na računaru, ili zasebni podaci dobijeni
pomoću sistema za razna mjerenja i slično. Obično su svi dati podaci, koji se zapravo
lako pokreću, u prosjeku 2 puta veći nego što je to potrebno za neko njihovo
prikazivanje.

Kompresija datih podataka je opšti izraz za neke zličite algoritme i računarske


aplikacije koji su razvijeni tako kako bi se riješio neki navedeni problem. Računarske
aplikacije za kompresiju koriste se dakle u slučajevima kada želimo da pretvorimo
podatke iz onog oblika u kojima ih je zapravo najlakše koristiti u onaj oblik koji je
najpogodniji za njihov prenos i za njihovo skladištenje.

Sa druge strane postoje računarske aplikacije namjenjene za dekompresiju koji


vraćaju informacije iz nekih komprimiranih oblika u onaj njihov prvobitni oblik. Tabela
1. prikazuje 2 različita načina na koja se algoritmi same kompresije podataka mogu
podijeliti. U tabeli su metode podijeljene u 2 grupe: bez gubitaka (ili na engl. lossless) i
sa gubicima (ili na engl. lossy). Kompresija bez ikakvih gubitaka označava sam

Stranica 7 оd 42
Seminarski rad

postupak u kome je nakon same primjene odgovarajućeg algoritma za neku


dekompresiju na onaj komprimirani podatak, konačan dobijeni podatak zapravo
identičan onom originalnom podatku.

Ovakvi načini same kompresije su neophodni kod mnogih slučajeva, kao što su
na primjer kompresija tekstualnih podataka, zatim EXE datoteka i tome slično. U
takvim slučajevima se ne može dozvoliti nikakva zamjena ili gubitak ni jednog jedinog
bajta, jer se kasnije najvjerovatnije ne bi mogla ni pokrenuti. Sa druge strane, datoteke
koje zapravo sadrže neku sliku ne moraju da budu savršeno očuvane da bi se
uskladištile ili da bi se prenosile.

Digitalizacija signala tako unosi određene količine šuma. Ako se naprave takve
izmjene na podacima koje unose male količine dodatnoga šuma u neki originalni
podatak, neće se tada napraviti neka velika šteta na kvalitetu samog signala. Tehnike
komprimiranja koje nam dopuštaju takve neke načine degradacije različitih podataka,
nazivaju se tehnikama sa gubicima.

Ovakva razlika jeste bitna zato što su tehnike sa raznim gubicima puno
uspješnije pri samom komprimiranju nego neke tehnike bez gubitaka. Što je tako veći
stepen kompresije (ili na engl. compression ratio), to se naime dodaje više šuma u same
komprimirane podatke [2].

Tabela 1: Algoritmi kompresije datih podataka

Bez gubitaka Sa gubicima

Run – length CS&C

Huffmanov kod JPEG

Delta MPEG

LZW

Stranica 8 оd 42
Seminarski rad

Drugi način za klasifikaciju podataka je prikazan u Tabeli broj 2. Većina


programa za različito komprimiranje podataka zapravo radi na način da uzima sami blok
podataka iz neke datoteke originala, komprimira ga na neki svoj način, i zatim takav
komprimirani blok se snima u datu izlaznu datoteku. Jedna od takvih metoda
kompresije (prikazana je u tabeli 2) jeste CS&Q[d] (ili na engl. coarser sampling and
quantization).

Recimo, neka se komprimira digitalizovani talasni oblik, kao što je to audio


signal digitalizovran sa 12 bita. Mogli bismo tako učitati neka 2 bliska uzorka ili bloka
iz datoteke originala (od 24 bita), odbacimo 1 od ta 2 uzorka potpuno, odbacimo I neka
4 najmanje značajna bita i upišemo svih preostalih 8 bita u datu izlaznu datoteku. Sa 24
ulazna bita I sa 8 izlaznih bitova smo zapravo uveli kompresijski omjer od nekih 3:1
koristeći prilikom toga algoritam sa određenim gubicima. Ovo je veoma efikasan način
komprimiranja iako se čini dosta grub. Koristi se tu u JPEG[e] koderu namjenjenom za
komponente boje unutar YUV[f] sistema.

Kako je naše oko manje osjetljivo na promjene boja, ovakav jedan način
kompresije ne unosi vizuelna značajna degradacije kvaliteta slike [2]. U Tabeli broj 2 je
prikazano da sam CS&Q ima određene vrijednosti ulazne ili određene vrijednosti
izlazne veličine samih blokova, odnonsno određena vrijednost kod broja bitova se
zapravo učitava iz same ulazne datoteke originala i od toga zapravo manja određena
vrijednost broja bitova se dalje ispisuje u samu izlaznu datoteku.

Neke drugačije metode, sa druge strane, omogućavaju i to da se i ulazni ili


izlazni broj bitova mogu izmijenjivati. U tabeli broj 2 nisu prikazane kompresijske
metode JPEG kao i MPEG[g], jer one koriste više različitih algoritama, te se tako ne
mogu svrstati u neke jednostavne kategorije.

Tabela 2: Kompresije podataka uz promjenjive veličine bloka

Metoda Veličina bloka

Ulazni blok Izlazni blok

CS&Q fiksni fiksni

Stranica 9 оd 42
Seminarski rad

Huffmanova fiksni promjenjivi

Aritmetička promjenjivi promjenjivi

Run length, LZW promjenjivi fiksni

2.3.JPEG - transformacijska kompresija

Razvijene su zapravo mnoge metode koje koriste kompresiju sa određenim


gubicima. Grupa takvih nekih tehnika, nazvana transformacijskom kompresijom, se
pokazala kao zapravo najvrjednija. Najbolji takav primjer transformacijske kompresije
jeste u popularnom JPEG standardu za kodiranja slika. JPEG je zapravo skraćeno od
engl. Joint Photographers Experts Group koja zapravo donosi navedeni standard.

Transformacijska kompresija jeste zasnovana na jednoj jednostavnijoj


pretpostavci, a to je da kada se napravi Fourierova (ili druga) transformacija samog
signala, dobijeni koeficijenti transformacije ne prikazuju više intenzitete boje ili
svjetline slike, već tada prikazuju frekvencijske komponente same slike, tzv.
koeficijente date transformacije [3]. U datom slučaju, kada se dobiju svi podaci o
frekvencijama umjesto o nivoima boje, može se manipulisati sa slikom u jednom sasvim
drugačijem domenu nego što je bio početni (mijenja se tada slika u frekvencijskom
umjesto u onom prostornom domenu).

Sa frekvencijama slike bolje se manipuliše nego sa nivoima boja, jer se zna


kakvo one zaparvo imaju značenje za datu sliku. One su zbog toga “objektivniji
pokazatelji” same strukture slike. Zna se tu da su za slike komponente nekih nižih
frekvencija signala dosta bitnije od nekih viših frekvencija, i zbog toga uklanjajući oko
50% bitova od onih visokofrekvencijskih komponenata kod slike, slika se samim tim
srozava samo za negdje otprilike 5% u odnosu na sam original. Na takav jedan način ne
bi mogli da razmišljamo i u originalnom, odnosno u prostornom domenu date slike.

Stranica 10 оd 42
Seminarski rad

Iz svega navedenog može se zaključiti to da se zapravo mogu komprimirati


zapravo bolje sve one slike koje imaju nešto manje izražene visoke frekvencije. Ako
one imaju značajne amplitude kod viših frekvencija (odnosno ako imaju puno finih
detalja ili rubova) tada ih se ne može baš dobro komprimirati, a da im se njihov kvalitet
pri tome ne naruši u većoj mjeri. Naravno, sve slike koje imaju slabije izražene visoke
frekvencije, odnosno slike sa nešto malo detalja ili rubova, moći će se vrlo dobro
komprimirati. Tada se mogu ovdje ukloniti neke postojeće visoke frekvencije, a da to
previše ne utiče na kvalitet same slike.

Neke različite matematičke transformacije ispitane su kako bi se tako odredila


najpogodnija za komprimiranje samih podataka: Karhunen-Loeve-ova transformacija
osigurava zapravo najbolji mogući kompresijski odnos, međutim teška je za
implementaciju; Fourierovu transformaciju je zapravo vrlo lako iskoristiti, ali ne
osigurava nam primjerenu kompresiju. Sama diskretna kosinusna transformacija (ili
kraće, DCT[h]) zbog jednostavnosti svoje primjene, postojanja brzoga algoritma za
proračun, kao i transformacije slike iz onog prostornog u frekvencijski domen
prihvaćena je baš kao najpogodnija transformacija za samu kompresiju slike. Kao što i
Fourierova transformacija zapravo koristi sinusne ili kosinusne talase za prikazivanje
određenih signala, DCT koristi naime samo kosinusne talase. Postoji više takvih verzija
DCT koje se vrlo malo razlikuju.

Sa druge strane, pomenuti JPEG standard propisuje sam postupak kompresije na


naredni način. Slika se tu prvo dijeli na razne blokove veličine od 8 x 8. Kada se traži
DCT nekoga bloka podataka koji je veličine 8 x 8 (kao što je to zapravo slučaj sa
slikom), i dobije se tako spektar tih podataka koji je, takođe, date veličine 8 x 8.
Drugačije rečeno, 64 broja originalnoga bloka se “mijenjaju” u druga 64 broja. Sve
nove dobijene vrijednosti su zapravo realne, odnosno, nema nekih kompleksnih brojeva
kao što je to zapravo slučaj sa običnom Fourierovom transformacijom. Takođe, kao i
kod Fourierove analize, svaka vrijednost u datom spektru je amplituda funkcije baze. Te
funkcije za blokove veličine 8 x 8 date su:

Jednačina nam prikazuje DCT funkciju same baze. Varijable x i y su dati indeksi
prostornog domena, dok su u i v indeksi frekvencijskoga spektra (ili prostorne

Stranica 11 оd 42
Seminarski rad

frekvencije). Ovo vrijedi za samo 8 x 8 DCT, čineći na takav način da indeksi u i v


poprimaju sve vrijednosti od 0 do 7.

Slika 2: DCT bloka podataka 8 x 8

Sve niske frekvencije su u prikazima spektra datom na slici broj 2 smještene u


gornjem lijevom uglu, dok su sve visoke frekvencije u donjem desnom uglu. Ista
komponenta je tu smještena upravo u krajnjem gornjem lijevom uglu, odnosno u tački
(0,0). Osnovna funkcija za tačku (0,1) jeste jedna polovina periode kosinusnoga talasa u
jednome smjeru, dok je u drugome smjeru konstantna. To potpuno isto vrijedi i za tačku
(1,0), samo što je sve zakrenuto za nekih 90°.

Ovakav postupak jeste prikazan slikom broj 3. DCT ima jednu polovinu periode
od same svoje funkcije baze, odnosno S[0,1] i S[1,0]. Kako je to zapravo prikazano na
prethodnoj slici, vidi se da se dati talasi “lagano kreću” sa jedne strane matrice na drugu
stranu. Sa druge strane, najniže frekvencije u samoj Fourierovoj transformaciji se
sastoje od onih cijelih perioda. Slike skoro uvijek sadrže ona područja u kojima se
svjetlina u postupnosti mijenja, i zbog toga koristeći sve osnovne funkcije, koje
odgovaraju datom osnovnom uzorku slike, dobijamo zapravo bolju kompresiju.

Stranica 12 оd 42
Seminarski rad

Slika 3: Blok šema DCT kodera

2.4.Mirne slike

Mirne slike su zapravo digitalne slike, digitalizovane sa skenerom ili sa


digitalnom kamerom, zatim rentgenske slike, stvorene sa hvatanjem video okvira,
kreirane sa nekim grafičkim paketom (sa aplikacijom za izradu nekih različitih grafičkih
radova, kao i tehničke dokumentacija, obrade određenih slika i tome slično), generisane
računarskim programom iz nekih matematičkih funkcija, te sačuvane u digitalnim
oblicima.

Slika 4: Ljudsko oko i kamera, sličnosti i razlike

Ljudsko oko, sfera je kod njega promjera od oko 20 mm. Oko se sastoji od
rožnjače (cornea), zatim mrežnjače (retina), dalje šarenice (iris) kao i sočiva (lens). Na
principu građe oka, izrađuju se upravo i kamere. Mrežnjača je prekrivena sa
receptorima:

1. Čunjići (ili cones). Ima ih 6 do 7 miliona. Smješteni su u centralnom


dijelu mrežnjače, a svaki je povezan sa jednim nervom radi
raspoznavanja samih detalja. Osjetljivi su na boju i zaduženi su za vid
prilikom dobrog osvjetljenja (photopic vision).

Stranica 13 оd 42
Seminarski rad

2. Štapići (ili rods). Ima ih 75 do 150 miliona, te ih je tako više vezano na


isti nerv. Nisu oni osjetljivi na boje, ali su zato osjetljivi na plavi i na
zeleni dio vidljivoga spektra prilikom niskog intenziteta svjetla (ili
scotopic vision).

3. Fovea (odnosno plitka udubina najosjetljivija na svjetlost, odgovorna je


za oštar centralni vid) a nalazi se u centru žute mrlje, sa gustinom oko
150000 receptora po 1 mm². U području same fovee centralis nalazi se
negdje oko 307 000 receptora. Međutim koliko ovakvi podaci zvučali
savršeno, oko nam ne percipira uvijek baš „tačne“ boje. Razlog toga je
jednostavan – kriv je mozak. On nam stavlja boje u kontekst, odnosno
prepoznajemo svaku boju objekta i ako je on u nekoj sjeni i ako je na
nekom svjetlu.

Zato promatrajući sliku broj 5, mozak uzima u obzir svaku sjenu koja prekriva
polje i na osnovu toga određuje koje je to dato polje boje. Čini se tako da boja
pravougaonika prelazi iz svjetlije u tamniju boju jer mozak poredi taj pravougaonik sa
okolinom koja prelazi iz tamnije boje u svjetliju.

Slika 5: Optička iluzija boje

Snimanje kao i prikaz slike:

a) Zavisno od vrste slike (rentgen, zatim ultrazvuk, fotoparat,...) koristimo


sve senzore koji detektuju energiju koja je izračena u području
elektromagnetnog spektra datog izvora

Stranica 14 оd 42
Seminarski rad

b) Odziv samog senzora zavisi od inteziteta zračenja izvora i od same


refleksije (ili eventualno apsorpcije) ovakve energije od strane objekta
koji u momentu snimamo

c) Sliku možemo da prikažemo kao jednu dvodimenzionalnu funkciju 𝑓 𝑥,


𝑦 , gdje su x i y zapravo prostorne koordinate

d) Kada je data slika stvorena sa fizikalnim procesom, 𝑓 𝑥, 𝑦 zavisi od


inteziteta zračenja izvora 𝑖 𝑥, 𝑦 i od količine reflektovanog zračenja 𝑟 𝑥,
𝑦

f (x, y)  i(x, y)r(x, y)

2.5.Boja

Boja je zapravo jedan složeni fenomen sa svim svojim objektivnom i


subjektivnom spoljašnošću, međutim nije uvijek neophodna u svim slikama. Postoje
slike koje su bez boje koje zahtijevaju neke manje memorije, te su one imune na razlike
u prikazu raznih boja na nekim različitim ekranima. Boja je subjektivni osjećaj koji je
stvoren u mozgu.

Za elektronsku produkciju i za manipulaciju sa bojom trebamo matematički


model (sa slike slika 6), koji povezuje zapravo jedan subjektivni doživljaj same boje sa
mjerljivim I sa ponovljivim fizikalnim fenomenom. Ipak, svu vidljivu svjetlost
predstavlja zapravo elektromagnetni talas dužina od 380 nm do 730 nm. Talas je
određenog intenziteta, a sama distribucija kod spektralne snage izvora definiše sam
intenzitet kod pojedine spektralne komponente.

Stranica 15 оd 42
Seminarski rad

Slika 6: Matematički model prikazivanja boja

3. ZVUK

3.1.Digitalizacija i kompresija zvuka

Zvuk je u jednom analognom svijetu zapravo kontinuirani niz koji je iskazan u


vremenu i određenog je raspona. Raspon je tako moguće približno izmjeriti u bilo kojoj
vremenskoj tački [10]. Kod digitalnoga zvuka, signal je definisan za tačnu vremensku
tačku te može imati čvrsto definisan broj vrijednosti. Frekvencijski uzorci od nekih 44.1
KHz I recimo 48 KHz potpuno ispunjavaju sve zahtjeve rekonstrukcije kod zvučnih
signala u čujnom području kod čovjeka od 20 KHz. Prednosti digitalnoga zvuka pred
analognim zvukom su te što se dinamičko područje (razlika između najslabijeg i
najglasnijeg zvuka koji ne može da se reprodukuje) proširuje na više od 90 dB, kod
procesuiranja je moguće ispravljanje određenih grešaka, te ubacivanje nekih efekata.

U današnjim sistemima globalne ili lokalne komunikacije izuzetan značaj ima


prenos govora, a sve više i prenos audio informacija. Pod audio informacijama
podrazumijevamo jedan širi spektar zvukova u odnosu na sam govor, a to uključuje
muziku, šumove iz prirode, neke umjetno stvorene zvuke i slično.

Stranica 16 оd 42
Seminarski rad

S obzirom na sve razlike ova 2 tipa informacije razvijeni su uređaji namjenjeni


za kodiranje za govor I određeni uređaji za kodiranja za audio, koji koristeći sva
saznanja o svojstvima neke pojedine informacije, kao i ljudskoga vokalnog trakta i
ljudskoga slušnog sistema, osiguravaju visoki stepen kompresije uz zadržavanja
kvaliteta signala. Još s početkom 19. v. napravljen je jedan značajan iskorak u razvijanju
telekomunikacije. Alexander Graham Bell je prvi razvio dati prvi uređaj za prenos
govora, dok je u to isto vrijeme Thomas Alva Edison zapravo napravio prvi uređaj za
čuvanje audio zapisa ili takozvani “fonograf”. To su dakle bili počeci razvoja čuvanja
audio informacija i prenosa govora.

Od Edisonovog izuma započeo je tako razvoj audio industrije čuvanja zvuka, a


Bellov izum podstakao je razvijanje govorne komunikacije na veću daljinu, telefonije
(tzv. analogne). Danas sve audio informacije zauzimaju veoma mjesto u ljudskom
životu; od zabave i određene edukacije pa sve do naučnoistraživačkih ili medicinskih
usluga.

3.2.Analogno memorija zvuka

Memorija zvuka u analognom obliku vezana je za pretvaranje energije zvučnog


talasa u modifikaciju oblika kod nekog materijala na koga se on zapravo sprema. U
početku su to sve bili neki zvučnomehanički pretvarači koji su zasnovani na fizičkom
pomaku nekog alata za promjenu oblika zapisanoga materijala, pomjerani sa
membranom na kojoj se to nalazi. To je ujedno bila I sama Edisonova zamisao kod
“fonografa” koji je zapravo, posredstvom šupljeg cilindra (ili lijevka), energiju
zvučnoga talasa pojačavao pretvarajući je samim tim u fizičku veličinu pritiska, koji je
recimo sa razlikom pritisaka na obe strane membrane deformisao membranu na kojoj se
nalazila data igla.

Igla je sa svojim aksijalnim pomjeranjem strugala voštani cilindar ostavljajući


pri tome na njemu jedan spiralni kanal sa dubinom zareza koja je proporcionalna snazi i
frekvenciji registrovanog zvučnog talasa. Ovakav jedan princip je bio osnova za kasniji
razvoj gramofona, međutim samo su se mijenjali razni materijali namjenjeni za zapis

Stranica 17 оd 42
Seminarski rad

zvuka kao i uređaji za pretvaranje energije zvučnog talasa u mehanički ili fizički pomak
same igle.

Neki noviji, moderniji pristup kod analogne memorije zvuka utemeljen je na


Bellovom otkriću odnosno telefonu. Bell je tako prvi elektromehanički zvučni pretvarač
razvio, s čime je otvorio vrata kompletnoj analognoj memoriji zvuka ne u obliku fizičke
konverzije zapisanog materijala, nego čuvanju zvuka prepravkom električnih i
magnetnih svojstava samog materijala.

Najčešće se tako primjenjivala magnetna prepravka materijala od čega je


zapravo i nastao prvi magnetofon. Memorija zvuka na magnetofonu zasniva se na
principu promjene jačine struje kroz neki zapisni elektromagnet u skladu s promjenom
energije/pritiska zvučnog talasa i trajnoj modifikaciji magnetnih svojstava zapisnoga
materijala (tzv. feromagnetika).

Stranica 18 оd 42
Seminarski rad

3.3.Digitalna memorija zvuka

Zvuk sam po sebi predstavlja jednu analognu fizikalnu veličinu (bilo da je data
veličina pritisak vazduha ili ekvivalentna el. struja, magnetna indukcija ili nešto drugo),
koja je uvijek zapravo neprekidna. Digitalni zapis prema definiciji jeste zapis koji je
isprekidan, te se nameće samo pitanje kako pretvoriti analognu veličinu (ili zvuk) u neki
njemu digitalan ekvivalent. Za to nam je prije svega neophodan neki elektromehanički
pretvarač, ali i jedan analogno digitalan pretvarač. Elektromehanički pretvarač koji se
zapravo najčešće koristi jeste mikrofon, a analogno digitalni pretvarač je bilo koji
električni analogno digitalni pretvarač.

Takođe, uz ove 2 komponente potreban je i sistem za čuvanje podataka, a to je


najčešće digitalni računar. Princip pretvaranja je sljedeći: nad samim ekvivalentom
zvučnoga signala (električni signal, zapravo najčešće) izvrši se jedna vremenska ili
amplitudna diskretizacija.

Slika 7: Vremenska kao i amplitudna digitalizacija signala

Vremenska diskretizacija samog signala tako znači da se u nekim određenim


(obično jednakim) vremenskim intervalima uzima jedan uzorak analognog signala (slika
broj 8). Kako bi se data amplituda ovakvih uzoraka mogla zapisati nekim određenim
brojem bitova, sa kodom - mora se najprije provesti diskretizacija samih amplituda –
kvantizacija.

Stranica 19 оd 42
Seminarski rad

Najčešće dok se obavljaju obe diskretizacije ujedno se samim tim obavlja i


kodiranje datog signala. Pod kodiranjem ovog signala podrazumijeva se da se nad
amplitudno diskretizivanim signalom zvuka u realnome vremenu obavlja i neka
matematičko logička operacija s funkcijom smanjivanja količine podataka dobijenih sa
diskretizacijom, a kvantizacija samog signala se može provesti sa linearnim i sa
nelinearnim postupcima [4].

Kod same linearne kvantizacije sve amplitude diskretizovanog signala kodiraju


se sa potpuno jednakim korakom kvantizacije, što nam daje jednak raspon greške
kvantizacije kao i šuma kvantizacije na svim amplitudama datog signala. To uzrokuje
nešto manji odnos snaga signal i šum (S/N) na vrlo malim amplitudama, nego na onim
velikim. Kako naše ljudsko uho ima pemar prirodi logaritamsku karakteristiku
percepcije jačine zvučnog talasa, daleko je osjetljivije na neku grešku kvantizacije na
manjim amplitudama.

Upravo zbog toga se za samu kvantizaciju zvuka primjenjuje jedno nelinearno -


logaritamsko kvantizovanje kod koga se mali intenziteti signala uzorkuju sa nešto
većom rezolucijom, odnosno sa nekim manjim korakom kvantizacije, nego što je to
zapravo slučaj sa velikim intenzitetima (slika br. 8).

Slika 8: Vremenska i amplitudna kod digitalizacije signala

Primjer gdje je takav jedan način koristan je zapravo kod prenosa


digitalizovanog zvuka preko telefonske žice koja povezuje telefon sa telefonskim
pružaocem usluga. Ljudski govor obuhvata frekvencije od 50 Hz pa sve do 10000 Hz.
Za razumljiv ljudski govor je dovoljno prenositi frekvencijskoa područja od 300 do
3400 Hz. Za digitalizaciju ovakvog jednog signala prema Nyquistovom zakonu koji
kaže da je ovako:

𝑓𝑠 = 𝑓𝑚𝑎𝑥 ∙ 2

Stranica 20 оd 42
Seminarski rad

gdje je 𝑓𝑠 frekvencija samog uzorkovanja analognog signala, dok je 𝑓𝑚𝑎𝑥


maksimalna frekvencija signala koji se tu uzorkuje, izabere se frekvencija uzorkovanja
od nekih 8 kHz. Uobičajeno je tako da se ovakav jedan signal logaritamski kvantizuje u
rezoluciji od 8-bita, sa čime se postiže jedno efektivno kodiranje signala nekih nižih
intenziteta kao sa rezolucijom od oko 12-bita. Čujni spektar obuhvata tako frekvencije
od 20 Hz sve do 20 kHz, a rezanje svih frekvencijskih komponenti iznad nekih 15 kHz
ne smanjuje ešto značajno kvalitet zvuka.

3.4.Kodiranje i kompresija kod audio signala

3.4.1. Kodiranje govora

Kod digitalizacije samog govora frekvencijom uzorkovanja od oko 8 kHz, sa 8-


bitnim nelinearnim kodiranjem postiže se jedan visok kvalitet govora uz protok od
nekih 64 kbps. Noviji sistemi telefonije traže dosta veću kompresiju uz zadržavanje
kvaliteta, a to se osigurava sofisticiranim sistemima za kodiranje, koji se zasnivaju na
iskorištavanju svojstava samog govora.

Mobilni digitalni telefonski sistemi (ili GSM), kao i standardi za kodiranje


videa, odnosno neke multimedijske informacije (ili MPEG-4), koriste posebne kodere
namjenjene za govor. Najvažniji CODEC-i (ili Coder/Decoder) koji su razvijeni za
kompresiju govora a koji su najčešće u upotrebi jesu: PCM, zatim ADPCM (ili
Adaptive Differential Pulse Code Modulation), te LPC (ili Linear Predictive Coding) -
računaju se dati parametri kodera na osnovu karakteristika izgovorenoga govora, 2.4
kbps protoka, zatim CELP-Code Excited Linear Prediction – koji je namijenjen
isključivo za kodiranje govora uz 4.8 kbps protoke, kao i GSM (RPE-LTP) - Regular
Pulse Excitation – ili Long Term Prediction – odnosno Linear Predictive Coder.

Sa današnjim metodama kodiranja samog signala postižu se određeni protoci


podataka preko telefonske žice od 64 kbps, pa sve do većeg broja Mbps sa
specijalizovanim sklopovima. Najjeftiniji tako dostupan uređaj za prenos podataka
preko telefonske žice jeste modem koji najčešće koristi diskretnu faznu modulaciju

Stranica 21 оd 42
Seminarski rad

(PSK) kao i kompresiju podataka kako bi postigli protoci podataka sa približnih 56 kbps
(a to je recimo u praksi maksimalnih 52 do 54 kbps).

Protoci određenih podataka od većeg broja Mbps, takođe mogu da se ostvare


preko telefonske žice, ali to nije obična žica, nego su potrebne neke posebne mjere
predostrožnosti za polaganje takvih žica i kablova, gdje se pri tome pazi na oklapanje
kablova (izolovanje od svih vanjskih elektromagnetskih uticaja), uglove i lukove
savijanja žice kablova u kombinaciji sa posebnim tehnikama za kodiranje signala da bi
se postigli tako protoci ovakvih iznosa.

3.4.2. Kodiranje audio signala

MPEG-1 Codec jeste korišten u različitim sistemima digitalnoga kodiranja


zvuka (u digitalnim sistemima reprodukcije zvuka za samu zabavu, radio difuziju,
memoriju zvučnog zapisa). Razrađena su 3 algoritma za kodiranje zvuka koja su
usklađeni, a to su MPEG-1 Layer 1, zatim MPEG-1 Layer 2, kao i MPEG-1 Layer 3
(poznatiji je kao MP3 format). Visoki stepen kompresije uz očuvanje visokog kvaliteta
signala, MPEG-1 algoritmi zapravo postižu sa frekvencijskom analizom signala i sa
odbacivanjem frekvencijskih komponenti koje uho niti ne čuje.

Ulazni signal se tako dijeli na 32 frekvencijska područja. Nad svima njima radi
se Fourierova transformacija i pri tome se primjenjuje psiho-akustički model maskiranja
signala kod jedne frekvencije sa jačim signalom druge frekvencije. Sa time se redukuje
količina informacija koje su potrebne za spremanje ili reprodukciju. Protok kod
kodiranog zvuka može se tako kretati u području od 32 pa do 448 kbps po kanalu uz
uzorkovanje od nekih 32, 44.1 i 48 kHz. Niži protoci ujedno označavaju lošiji kvalitet,
ali i manju količinu ukupnih podataka i obrnuto.

3.5.MPEG-1 Audio Layer 3 (ili MP3) oblik zapisa

Stranica 22 оd 42
Seminarski rad

Jedan od najpoznatijih oblika ovakvog zapisa, koji je u današnjem vremenu


raširen i u svakodnevnoj je uporabi, jeste MPEG-1 Audio Layer 3, nama poznatiji kao
MP3[l]. To je zapravo oblik zapisa za kodiranje audio zapisa koji se bazira na jednom
algoritmu za kompresiju sa određenim gubicima (ili Lossy compression algorithm).

Taj algoritam je zapravo kreiran tako da prilikom samog kodiranja izbaci neke
uzorke sa ciljem smanjenja same veličine audio snimka, a da se pri tome bitno ne utiče
na kvalitet, odnosno da čovjek sa prosječnim sluhom ne može da osjeti razliku između
snimka koji je kodiran u MP3 formatu i snimka koji je memorisan na CD-u. Najveća
prednost jeste veličina datoteke koja se dobija sa kodiranjem u MP3 formatu, prilikom
čega kodiranjem u području kod srednjih bitrate[m] - a (oko 128 kbit/s) veličina
datoteke iznosi samo 1/10 od veličine datoteke sačuvane na Audio CD-u.

Postupak kreiranja ovakve datoteke u samom MP3 formatu zapravo započinje sa


kodiranjem audio signala. Sam MP3 koder jeste računarska aplikacija koja koristi MP3
kompresijske algoritme za memorisanje audio signala u datom MP3 formatu. Većina
MP3 kodera može da kodira audio datoteke koje su memorisane u drugim formatima
(recimo WAV, WMA,...) u pomenuti MP3 format. U široj praksi se za postupak
kodiranja uglavnom koriste samo 4 kodera: recimo LAME[n], BladeENC, zatim
Fraunhofer kao i Xing. Takvi koderi dolaze ugrađeni u različitim programima koji
omogućavaju samom korisniku da lakše obavljai postupke kodiranja.

Svaki od datih kodera ima i svoje prednosti, dok sam kvalitet kodiranja najviše
zavisi od optimizacije samog algoritma. Za Fraunhoferov koder se tako smatra da
najvjernije kodira jedan izvorni audio format u dati MP3 format, a radi u datom
području frekvencija do nekih 20 kHz. Međutim sama cijena kvaliteta je naplaćena sa
brzinom. Xing koder jeste najbrži koder, on kodira zvuk u frekvencijskom području sve
do približno 20 kHz. Xing nam nudi mogućnost promjenjivoga bitrate-a što nam
omogućava dodatno smanjenje veličine same datoteke, ali zvuk nije ni približno istog
kvaliteta kao kod recimo Fraunhoferovog kodera.

LAME koder jeste u ovom trenutku najbolji i zapravo najčešće korišteni koder, a
iz tog razloga što je i open source, omogućena mu jezapravo masovna upotreba. Iako je
sporiji od pomenutog Xing kodera, sa LAME koderom može se kodirati sve do bitrate-a
od nekih 320 kbit/s, prilikom čega se, na svim istim postavkama, osjeti jedna bitna

Stranica 23 оd 42
Seminarski rad

razlika između muzike kodirane Xing ili Lame koderima. Prilikom toga jeste kvalitet na
strani pomenutog LAME kodera. BladeENC je zapravo još jedan od kodera koji se
koristi u datom procesu kodiranja, ali ipak nešto rjeđe u odnosu na recimo Fraunhofer,
LAME ili Xing kodere [5].

Dekodiranje pomenutog MP3 formata jeste u odnosu na kodiranje puno


jednostavniji proces, jer sam algoritam za dekodiranje mora jedino pravilno čitati iz
datog niza bitova (ili bitstream) sve informacije o različitim spektralnim
komponentama, te na osnovu istih mora pravilno obnoviti sam audio signal.

U samim počecima ove primjene MP3 kodiranja ili dekodiranja, proces je


zavisio od karakteristika sistema na kojima se odvija, a to se zapravo odnosilo
prvenstveno na brzinu hardvera. Sa ubrzanim razvojem hardvera karakteristike sistema
u pogledu brzine odvijanja samog kodiranja/dekodiranja, nemaju više baš toliki uticaj.
Kvalitet zvuka same datoteke memorisane u MP3 formatu najviše zavisi od bitrate
postavki (ili kbit/s), koje se podešavaju prije samoga postupka kodiranja, pri čemu što
veći bitrate znači to da će unutar samo jedne sekunde biti sadržano dosta više
informacija o izvornome audio sadržaju.

Postoji tako 15 bitrate-a koji su prihvaćeni kao neki standard prilikom kodiranja
a to su: 32, 40, 48, 56, 64, zatim 80, 96, 112, 128, 144, 160, 192, 224, kao i 256 i 320
kbit/s sa frekvencijama otipkavanja od 32, od 44.1 i od 48 kHz. Za poređenje, bitrate
CD formata iznosi ukupno 1,411.2 kbit/s (odnosno 16 bita po uzorku × 44100 uzoraka
po ekundi × 2 kanala / 1000 bita/kilobit). Iako bi se svako, na sam prvi pogled, složio da
treba bitrate postaviti na neki najveći mogući nivo (320 kbit/s), veći bitrate znači to da
će audio datoteka u MP3 formatu da zauzima više prostora na samom disku. Niži bitrate
znači I manju veličinu same audio datoteke, ali je kvalitet zvuka dosta manji, pri čemu
postoji i dosta velika mogućnost za pojavu nepravilnih smetnji, koje nastaju prilikom
procesa same kompresije, odnosno pojave neželjenih ili nepostojećih informacija
(pucketanja, pre-echo...) u odnosu na samu originalnu snimku.

Kodiranje uz korištenje jednog promjenjivog bitrate-a (ili Variable Bitrate)


nameće se zapavo kao veoma dobro rješenje kako optimalno kodirati neki audio sadržaj,
a da se pri tome maksimalno očuva kvalitet i da se ujedno uštedi na veličini same
datoteke. Datoteka unutar MP3 formata sastoji se od višestrukih MP3 okvirova, a svaki

Stranica 24 оd 42
Seminarski rad

okvir se još sastoji od MP3 zaglavlja i od MP3 podataka. Niz uzastopnih okvira se
naziva tako elementarni niz (ili Elementary Stream).

3.5.1. Ograničenja i nedostaci kod MP3 formata

Iako se MP3 zapravo smatra veoma dobrim formatom za optimalno


memorisanje audio sadržaja, on ipak ima i nekoliko ograničenja kao i nedostataka koji
bitno utiču na njegovu upotrebu u nekoj profesionalnoj audio tehnici.

Najveći nedostatak jeste korištenje kompresije sa gubicima, pri čemu jedan udio
sadržaja ipak ostane zauvijek izgubljen. Upravo je kompletni sadržaj bitan muzičarima i
ljubiteljima muzike koji imaju bolje čulo sluha, te su u mogućnosti da čuju zvukove na
višim frekvencijama od nekog prosječnog slušaoca. Audio sadržaj sačuvan u CD
formatu ima bitrate od 1,411.2 kbit/s, dok prilikom kodiranja u dati MP3 format bitrate
se može podešavati na maksimalnu vrijednost do 320 kbit/s a i to je više od neka 4 puta
manje informacija u svakoj sekundi u odnosu na sam CD format.

Drugi problem jeste to što je frekvencijska rezolucija ovdje ograničena sa


veličinom dugih okvira, prilikom čega se smanjuje efikasnost tokom kodiranja. Problem
postoji i kod nedefinisanog ukupnog vremena za kašnjenje kodera ili dekodera pri čemu
postoji mogućnost za izvođenje muzike bez razmaka između samih pjesama (ili Gapless
playback). Ovo su samo neki od različitih problema i ograničenja kod MP3 formata.
Neki od datih problema neće niti moći da budu otklonjeni zbog tehničkih ograničenja.

Stranica 25 оd 42
Seminarski rad

4. VIDEO ZAPIS

Razvoijanje digitalnih sistema za prenos informacija, kao i povećanje računarske


moći, kao i kapaciteta memorije, omogućili su nam raširenu primjenu digitalnoga videa.
Budući da nekomprimiran video materijal zauzima zaparvo puno prostora na medijima
na kojima se inače memoriše i traži baš velike brzine kod prenosa mrežom, razrađene su
metode kako da se uz očuvanje kvaliteta video materijala osigura i visok stepen
kompresije samog videa.

Za različite aplikacije razvijene su različite međunarodne norme za kompresiju


videa kao i pridruženog audia (MPEG ili H.26x norme), koje zapravo iskorištavaju
prostornu ili vremensku zalihost u samom videu, za ostvarivanje potrebnih stepenova
kompresije.

4.1.MPEG norma za kodiranje videa

MPEG (odnosno Moving Picture Experts Group) jeste ime radne grupe 11
(odnosno work group – WG11) pododbora SC29. Pomenuti pododbor SC29 (ili Coding
of Picture, Audio, Multimedia and Hypermedia) jeste jedan od pododbora Joint
Technical Committee 1 – JTC1 koji je zapravo nastao sa spajanjem ISO (International
Standards Organization) Technical Committee 97 Data Processing) sa IEC
(International Electrotechnical Commission) TC 46 Microprocessors. Službeni naziv
ove grupe jeste ISO/IEC JTC1/SC29/WG11.

MPEG grupa je zapravo razvila čitav jedan niz normi za kompresiju nekog
videa. Sve do sada su objavljene sljedeće norme, recimo MPEG-1, MPEG-2, zatim
MPEG-4, MPEG7 kao i MPEG-21. Zadnje 2 norme, MPEG-7 kao i MPEG21 ne daju
algoritme za kodiranje samog videa, već su razvijene za neki kvalitetniji opis samog

Stranica 26 оd 42
Seminarski rad

sadržaja različitih medija (recimo MPEG-1), te za definisanje okvira unutar koga se


ugrađuju mnogi različiti mediji, koji su različitih formata (MPEG-21).

Moge različite MPEG norme razlikuju se međusobno prema brzinama i po


područjima same primjene:

I. MPEG-1: brzina od oko 1.5 Mbit/s, norma koja je razvijena za kodiranje


i memorisanje digitalnog signala

II. MPEG-2: brzina veća od 10 Mbit/s, norma koja je razvijena za kodiranje


digitalnoga televizijskog signala standardnog kvaliteta, a sa
proširivanjem ulaznih parametara, omogućeno je tu i kodiranje samog
HDTV signala

III. MPEG-4: brzina do 4 Mbit/s zavisno od načina rada, norma koja je


razvijena za primjenu na samom Internetu, VoD (ili Video On Demand),
video-telefone, zatim videokonferencije, kao i interaktivne grafičke
aplikacije. Ima dosta bolju zaštitu autorskih prava kao i mnogo veću
zaštitu od grešaka.

Postoje 4 ključna procesa kod kompresije nekog videa:

1. pred-procesiranje odnosno priprema slike za efikasnije komprimiranje


(to je prilagođavanje ulaznih parametara, kao i poboljšanje kvaliteta i
slično).

2. vremensko sažimanje ili međuokvirno kodiranje koje zapravo koristi


podatke od nekih više okvira, a rezultat su P (predviđanja u odnosu na
prethodne okvire) i B okviri (takozvana dvosmjerna predviđanja koja za
predviđanje koriste prethodno pomenuti i sljedeći okvir).

3. prostorna komprimiranja ili unutar-okvirno kodiranje koje koristi samo


podatke od jednog okvira ili jednog polja, veoma slično JPEG-u.

4. Rate control – koder može da kodira sa konstantnom brzinom prenosa –


CBR (ili Constant Bit Rate) gdje se kvalitet zapravo mijenja zavisno od

Stranica 27 оd 42
Seminarski rad

sadržaja videa ili promjenjive brzinom prenosa – VBR (ili Variable Bit
Rate) gdje se sama brzina mijenja zavisno od sadržaja videa.

MPEG-2 komprimiranje je zapravo asimetričan, odnosno onaj kod koga je koder


dosta složeniji od dekodera. Bitno je pri tome napomenuti da su sa standardom
definisani dekoder kao i video zapis, ali ne i sam koder.

4.2.Profili i nivoi

MPEG-2 norma zapravo uvodi profile i nivoe koji nam daju veliku fleksibilnost
primjene normi za mnoge različite aplikacije. MPEG-2 definiše ukupno 5 profila:
Simple, Main, zatim SNR, Spatial, kao i High. Profili zapravo određuju izlaznu
bitstream sintaksu, tj., vezano sa tim, podskup alata koji dati koder koristi.

Većina sistema koji koriste MPEG-2 radi upravo na main profile at main level -
MP@ML kao što je to zapravo slučaj sa SDTV – sa televizijom standardnog kvaliteta.
MPEG-4 definiše čak 19 profila za sve prirodne i sve sintetizovane sadržaje. U praksi se
tu najčešće koriste Simple Visual, zatim Advanced Simple kao i Advanced Real-Time
Simple Profil.

4.2.1. MPEG-4

MPEG-4 jeste ISO/IEC standard. Završen je još u septembru 1998. godine, a


međunarodnim standardom on postaje tek 1999. godine. MPEG-4 je tako pronašao
jednu uspješnu primjenu u oblati digitalne televizije, sa interaktivnim grafičkim
aplikacijama i sa interaktivnom multimedijom. Podržava čita jedan niz različitih
tehnologija kako bi tako zadovoljio sve potrebe samog autora, davaoca usluga, te samih
korisnika. Omogućava autorima izradu različitog sadržaja koji ima mnoge mogućnosti i
veliku raznovrsnost.

Stranica 28 оd 42
Seminarski rad

Sa mrežnim davaocima usluga MPEG-4 nudi nam transparentne informacije


koje mogu da se prevedu u neke prihvatljive signalne poruke koje recimo podržavaju
različite mreže. Svim korisnicima MPEG-4 donosi veći stepen interakcije sa samom
tom aplikacijom. MPEG-4 standard odnosi se upravo na:

a) jedinice za zvučni, za vizuelni ili za audiovizualni sadržaj, nazvanih


„media objects“ (mogu da budu prirodni ili sintetizovani)

b) opis kompozicije datih objekata zbog stvaranja složenoga objekta koji


definiše audiovizuelnu scenu

c) multipleksiranje[p] kao i sinkronizaciju[r] podataka povezanih uz „media


objects“, kako bi se mogli prenositi sa mrežom

d) interakciju samih korisnika sa audiovizuelnom scenom.

4.2.2. Tehnički opis MPEG-4 standarda

Nakon što se svi podaci prihvate sa nekog medija, oni se predaju u jedan
prikladni FlexMux demultipleksor[s] iz koga zapravo izlaze neki elementarni podaci.
Elementarni podaci (ili engl. Elementary Streams) se rastavljaju ali i prosljeđuju
prikladnim dekoderima. Dekoderi obnavljaju sve podatke audiovizuelnog objekta, te
izvode tako neke prikladne operacije radi same rekonstrukcije u neki originalni
audiovizuelni objekt koji je preman za prikazivanja.

Dekodiranje kod audiovizualnih objekata, zajedno sa svim informacijama koji


opisuju neku scenu, koristi se upravo zbog prikazivanja scene koju je definisao sam
autor. Korisnik samim tim ima mogućnost za interakciju sa scenom samo ukoliko je sve
to sam autor dozvolio. Sa određenom kombinacijom nekih pojedinih informacija
možemo da opišemo scenu koja je zapravo kodirana i prenesena sve do samog
prijemnika kao skup određenih objekata. Počevši tako od VRML (ili na engl. Virtual
reality Modeling Language), MPEG je tu razvio jedan binarni jezik za opisivanje date
scene koji je nazvan BIFS (ili na engl. Binary Format for Scenes).

Stranica 29 оd 42
Seminarski rad

Scena se samim tim opisuje sa primitivnim objektima, te se dati objekti prenose


nezavisno jedan od drugog. Posebna pažnja se pri svemu tome posvećuje upravo
parametrima koji opisuju određenu scenu. To se zapravo ostvaruje uz pomoć
karakterističnih parametara sa čijom se upotrebom poboljšava sama efikasnost kodiranja
objekta (recimo pokretni vektor u video kodiranju).

Karakteristični parametri mogu da se koriste za modifikacije objekata odnosno


mogu određivati položaje objekata na sceni. MPEG-4 audiovizualne scene sastoje se od
nekoliko objekata koji su organizovani hijerarhijski. Scene i individualni objekti opisani
su u čvorovima kao jedan set parametara.

Struktura kao stablo ne mora uvijek da bude statička odnosno atributi kod
pojedinih čvorova (oni parametri koji opisuju položaje pojedinih objekata) mogu da se
mijenjaju ili se u stablo mogu da dodaju neki novi čvorovi.

Slika 9: Primjer kod MPEG-4 prizora

Stranica 30 оd 42
Seminarski rad

Na nekim pojedinim stepenovima hijerarhije možemo definisati tzv. primitive


objekata:

a) mirne slike (recimo neka pozadina scene)

b) video objekte (recimo neki govornik - bez pozadinske scene)

c) audio objekat (recimo neki glas govornika) MPEG-4 opisuje tako


nekoliko primitiva objekata koji mogu da budu dvodimenzionalni ili čak
trodimenzionalni.

MPEG-4 definiše tako kodirane predstavnike narednih objekata:

a) teksta i grafike

b) sintetizirane glave govornika i pridruženog glasa

c) sintetizovanog zvuka.

Objekat u svojoj kodiranoj formi zapravo sadrži opise pojedinačnih primitiva,


što nam omogućava nezavisnu interpretaciju (recimo prikazivanje ili preslušavanje)
pojedinih objekata (audio ili video fajlova) bez prikaza pozadine ili okoline. U MPEG-4
modelu audiovizuelni objekti imaju I jednu prostornu ali i privremenu veličinu, a svaki
objekat posjeduje i svoj lokalni koordinatni sistem.

Lokalni koordinatni sistem koristi se za manipulisanje sa objektom u prostoru i u


vremenu. Objekti se tako pozicioniraju na datu scenu uz pomoć posebnih transformacija
svih lokalnih koordinata u date koordinate globalnog koordinatnog sistema. Globalni
koordinatni sistem definisan je u čvoru datog stabla kao opis neke glavne scene.

4.2.3. Audio kodiranja

MPEG-4 kodiranja audio podataka podržavaju alate za prirodni zvuk (govor,


muziku) i za sintetizovani zvuk, koji se zasnivaju na strukturnome opisu. Predstavnik
sintetizovanog zvuka može da bude dobijen iz tekstualnoga podatka, opisa nekog

Stranica 31 оd 42
Seminarski rad

instrumenta ili iz nekih kodiranih parametara kako bi se na taj način omogućili efekti
kao što su neka jeka ili prostornost. Predstavnik nam tako omogućava kompresiju,
mogućnost za skaliranje i za efekte procesuiranja.

Alati kod MPEG-4 audio kodiranja pokrivaju zapravo područje od 6 kbit/s pa


sve do 24 kbit/s, I samim tim imaju ispravnost testa za sve AM digitalne audio
aplikacije (tzv. broadcasting application) u saradnji s NADIB (engl. Narrow Band
Digital Broadcasting) konzorcijem. Sam MPEG-4 standardizuje samo audio kodiranje
prirodnih zvukova sa brzinom prenosa od 2 kbit/s pa sve do nekih 64 kbit/s. MPEG-4
omogućava tako kodiranje i za sve brzine manje od 2 kbit/s uz korištenja varijabilnog
kodiranja.

Kako bi se na taj omogućio najbolji audio kvalitet u čitavom jendom području


brzine prenosa podataka, zajedno sa svim dodatnim funkcijama, a tehnike kodiranja
govora, glavne audio tehnike kodiranja jesu zapravo integrisane u zajednički
framework:

a) kodiranje govora sa brzinom prenosa od 2 do 24 kbit/s podržano sa


korištenjem HVXC (engl. Harmonic Vector eXcitation Coding) za sve
brzine prenosa od 2-4 kbit/s i sa korištenjem CELP (ili na engl. Code
Excited Linear Predictive) za brzinu prenosa od 4 do 24 kbit/s

b) generalno audio kodiranje za sve brzine prenosa veće od 6 kbit/s. Koriste


se tehnike TwinVQ kao i AAC (audio signal u tome području se
otipkava sa početnom frekvencijom koja zapravo iznosi 8kHz).

MPEG-4 definiše sve dekodere za generisane zvukove koji su bazirani na


nekoliko vrsta strukturisanih ulaza. Tekstualni ulaz se konvertuje tako u govor pomoću
Text-To-Speech (ili TTS) dekodera dok se svi ostali zvukovi, uključujući i muziku,
mogu sintetisati. Sintetisana muzika može se obnoviti na veomao niskim brzinama
prenosa, a da i dalje dobro opisuje taj egzaktan zvučan signal.

TTS koderi zapravo imaju brzinu prenosa od nekih 200 bit/s, pa sve do nekih 1.2
kbit/s, što nam dopušta da se tekst ili tekst sa prozodičnim informacijama (poređenje i
trajanje fonema u rimovnome obliku) kao ulaznim signalima pretvara u sintetičan
govor.

Stranica 32 оd 42
Seminarski rad

4.2.4. Video kodiranje

MPEG-4 algoritmi namjenjeni za kodiranje slika i videa efikasno predstavljaju


vizuelni objekt proizvoljnoga oblika, te podržavaju sve takozvane sadržajno bazirane
funkcije. Dati algoritmi podržavaju sve funkcije koje su omogućene u MPEG-1 i u
MPEG-2 standardima uključujući tako i efikasnu kompresiju svih standardnih
pravougaonih nizova različitih nivoa kod ulaznih formata, ili frame rates, dubine svih
piksela, brzine prenosa i promjenjivih nivoa kod prostornog, kod privremenog i kod
kvalitativnog skaliranja.

VLBV ljuska (ili na engl. Very Low Bitrate Video) podržava sve algoritme i
alate za aplikacije koje su namijenjene sa tipičnim brzinama prenosa između 5 i 64
kbita/s podržavajući tako čitav jedan niz slika niske prostorne rezolucije kao i niskog
frame ratea (tipično do nekih 15 Hz). Osnovne primjene kod specijalnih funkcija koje
podržava sama VLBV ljuska jesu sljedeće:

a) kodiranja konvencionalnih pravougaonih nizova sa visokom efikasnošću


kodiranja i sa visokom zaštitom od same greške, sa niskim vremenom
pristupa i sa niskom složenošću za sve real-time multimedijske
komunikacijske aplikacije.

b) random access kao i brzo pozicioniranje napred - nazad kod VLB


multimedijskih baza različitih podataka kao i aplikacija.

Područje velikih brzina prenosa, područje iznad same VLBV ljuske, podržava
zapravo iste osnovne algoritme kao i alate kao i sama VLBV ljuska, samo što se ovdje
sama brzina prenosa podataka kreće još od 64 kbit/s pa sve do 10 Mbit/s.

U ovakvom području aplikacije sadrže neko multimedijalno emitovanje ili


interaktivni povratni signal nekog jednakog kvaliteta kao I sam digitalni TV signal.
Sadržajno bazirana funkcija podržava odvojeno kodirane ili dekodirane objekte. Taj dio
kod MPEG-4 standarda omogućava najviše elementarnih mehanizama koji su nam

Stranica 33 оd 42
Seminarski rad

potrebni za sve interaktivne aplikacije (raznolikost u samom prikazivanju i mogućnost


izmjene određenih dijelova video objekata).

Za hibridna kodiranja prirodnih i sintetizovanih video podataka sadržajno


bazirano kodiranje omogućava nam miješanje video objekata iz nekih različitih izvora
sa sintetizovanim objektima kao što su recimo neke virtuelne pozadine. Kao što je prije
u ovom radu spomenuto, MPEG-4 video zapravo podržava konvencionalne
pravougaone nizove slika kao i videa, a pored svega toga podržava slike ili video
sadržaje mnogih proizvoljnih oblika.

Kodiranje kod konvencionalnih slika ili videa je dosta slično kao kod MPEG-1 i
kod MPEG-2 kodiranja. Takvo kodiranje koristi predviđanja i sažimanja, a nakon toga
slijedi kodiranje same teksture. Kod slika nekih proizvoljnih oblika kodiranje se tu
svodi na kodiranje samih oblika slika i njihovih informacija. Oblik se tako može
prikazati recimo kao 8-bitna informacija. Na slici broj 10. je prikazan jedan osnovni
pristup MPEG-4 video algoritama za kodiranje pravougaonih nizova, kao i nizova svih
proizvoljnih oblika.

Slika 10: Osnovni blok dijagram kod MPEG-4 kodera

Stranica 34 оd 42
Seminarski rad

Osnovna struktura kod kodiranja sastoji se zapravo od kodiranja oblika slike (za
sve video objekte proizvoljnoga oblika) i pokretnoga sažimanja, kao što su DCT
teksturna kodiranja (koriste se standardna 8×8 DCT ili prilagodljiva DCT). Jedna od
najvažnijih prednosti kod korištenja sadržajno baziranoga kodiranja jeste mogućnost
značajnoga povećanja efikasnog kodiranja nekih videa, sa korištenjem prikladno
odabranih I objektno baziranih pokretnih predikcija samih “alata” za svaki objekat na
sceni.

Efikasno kodiranje vizuelnih tekstura kao i mirnih slika podržava vizuelni


teksturni mod MPEG-4 standarda. Ovakav jedan mod utemeljen je na sve zerotree
wavelet algoritmu, što nam omogućuje veoma visoku efikasnost kod kodiranja u
velikome rasponu brzine prenosa. Pored toga, omogućava prostorno ali i kvalitetno
skaliranje (sve do 11 nivoa prostornoga skaliranja i neprekidnoga kvalitetnog
skaliranja), kao I samo kodiranje slika proizvoljnoga oblika. MPEG-4 tako podržava
kodiranje slika kao i video objekata sa prostornom i sa privremenom skaliranošću
nezavisno od toga da li je riječ o nekim slikama sa standardnim pravokutnim ili sa
nekim proizvoljnim oblikom.

Skalirani podaci nam nude mogućnosti dekodiranja samo onog nekog dijela
bitstreama i rekonstruisane slike ili redoslijeda slika pomoću akcija kao što su:

1. smanjenje složenosti dekodera i kvaliteta

2. smanjenje prostorne rezolucije

3. smanjenje privremene rezolucije

4. jednaka privremena i prostorna rezolucija, ali sa smanjenim kvalitetom.

Ovakva svojstva su zapravo poželjna kod progresivnoga kodiranja slika ili videa
koji se zapravo prenose sa heterogenim mrežama, kao I sam kod aplikacija kod kojih
sam prijemnik nije baš sposoban da prikažeti cijelu rezoluciju ili neku potpunu
kvalitetnu sliku i video snimak. Veliki problem može da predstavlja i sama jačina datog
procesora, te hardvera u cjelosti.

Stranica 35 оd 42
Seminarski rad

4.3.Profili i nivoi kod MPEG-4

Profili za prirodne video sadržaje su poput:

a) Simple Visual Profile – koji se koristi se za neke male brzine i za


rezolucije, sa visokom otpornosti na šumove - mobilne aplikacije,
pravougaoni okviri.

b) Simple Scalable Visual Profile – koji recimo uključuje opciju


skalabilnosti za sve primjene sa mogućnošću promjena parametara
kvaliteta (Interneta, programskih dekodera, pravougaoni okviri).

c) Core Visual Profile – koji zapravo podržava kodiranja objekata


proizvoljnoga oblika sa mogućnošću skalabilnosti, uključuje i vrlo
jednostavno međudjelovanje (Internetska multimedijska aplikacija).

d) Main Visual Profile – koji recimo podržava kodiranja interlaced videa,


sprite objekata kao i standardnih objekata (8x8, ili 16x16) - za
interaktivan video za DVD i difuzije.

e) N-bit Visual Profile – koji služi za kodiranje objekata sa dubinom bita od


nekih 4 pa do 12 – za video nadzorne sisteme.

Simple Visual Profile jeste VLBV Core model codeca (ili na engl. Very Low
Bit-rate Video Core), koji zapravo vrši kodiranje pravougaonih okvira, male je brzine.
Osnovna struktura kod kodiranja sastoji mu se od blok DCT kodiranja, te predviđanja
pokreta:

1. I-VOP - 8x8 blok DCT, kvantizacije, cik-cak skeniranja, kao i run-length


i variable-length kodiranja

2. P-VOP - standardne procjene i ravnoteža pokreta na određenim


makroblokovima 16x16 elemenata okvira, rezolucije ½ piksela

Stranica 36 оd 42
Seminarski rad

Dodatni alati zapravo povećavaju efikasnost kodiranja i prenosa poput 4 vektora


pokreta prema makrobloku, zatim neograničeni vektori pokreta, kao i video paketi,
dijeljenje raznih podataka, reverzibilni kodovi za promjenjive dužine, kratko zaglavlje
sa GOB-ovima.

Profili za razne prirodne video sadržaje (dodati u verziji 2):

1. Advanced Real-Time Simple (ARTS) - napredna tehnikaa zaštite od


greške za pravougaotne video objekte, korištenja povratnog kanala,
mogućnosti korištenja proizvoljnoga referentnog okvira (ili VOP-a),
mogućnost za smanjenje rezolucije kod loših uslova prenosa, malo
kašnjenje ili videotelefonija, videokonferencije, kao i daljinski nadzor.

2. Core Scalable Profile - kodiranja objekata sa opcijom vremenske,


rezolucijske ili SNR skalabilnosti – za recimo Internet, za mobilne i za
broadcast primjene.

3. Advance Coding Efficiency (ACE) - unapređena efikasnost kod


kodiranja i za blok kodiranja i za objektna kodiranja – primjene za neku
mobilnu TV difuziju ili kamere.

Profili za razne prirodne video sadržaje (dodati u sljedećim verzijama kod


standarda)

a) Advaced Simple Profile - koristi se za sve pravougaone objekte, s svim


dodatnim alatima: B okvirima, kompenzacija kod pokreta na ¼ piksela,
globalna kompenzacija kod pokreta, neke dodatne kvantizacijske tabele,
interlaced alati.

b) Fine Granularity Scalability Profile - koristi se zapravo za sloj


poboljšanja I samim tim dozvoljava prekide bitnog niza na bilo kojoj
poziciji – kao jedan osnovni sloj može da koristi Simple ili Advance
Simple profile.

c) Simple Studio Profile – jeste profil za visoko kvalitetne video sadržaje za


studijske aplikacije. Koristi I neke okvire, ali I neke objekte
proizvoljnoga oblika i višestruke alfa kanale - brzine sve do 2 Gb/s.

Stranica 37 оd 42
Seminarski rad

d) Core Studio Profile – zapravo dodaje P okvire na sam Simple Studio.

4.4.Vrste okvira

Vrste okvira su poput:

1. Intracoded frame (I-frame) jeste takozvani independant frame koji ne


nastaje iz drugoga okvira.

2. Reference frame (R-frame) jesu okviri iz kojih se konstruišju drugi


okviri (I ili P okviri).

3. Predicted frame (P-frame) jeste okvir koji nastaje samo iz (nekoga od)
prethodnih okvira. Uvijek on nastaje od I-okvira.

4. Bidirectional frame (B-frame) jeste okvir koji zapravo nastaje od (nekog


od) prethodnih ili od (nekog od) narednih okvira. Obično on nastaje iz I-
okvira ili P-okvira.

Tok kodiranja:

a) nekoliko okvira treba da se stave u bafer (engl. buffer)

b) najprije se kodira I-okvir

c) nakon toga P-okviri, pa onda svi B-okviri između I i P okvira.

4.5.Video – pokretne slike

Stranica 38 оd 42
Seminarski rad

Za stvaranja dojma nekog pokreta, odnosno neke pokretne slike na ekranu se


izmjenjuju slike nekom određenom brzinom, tebela 3.

Ovdje se koristi takozvana pojava “tromosti oka”, odnosno jedno svojstvo oka
da kraće vrijeme zadržava onu sliku koja više ni ne postoji. Svaka statična slika se zove
okvir (ili frame). Brzina izmjene datih okvira u mjeri se u jedinici fps (ili na engl.
frames per second). Što je tu veća brzina, pokret je sve glađi.

Tabela 3: Povezanost kvaliteta signala sa brzinom izmjene okvirova

Brzina izmjena okvira Vrsta video signala

< 10 fps vidi se izmjena slike

10 - 16 fps istrzani pokreti

24 fps filmska traka

25 fps TV- PAL

30 fps TV - NTSC

60 fps HDTV

4.6.Standardi video signala

Međunarodni standardi koji se koriste za prenošenje i prikaze televizijske slike u


svijetu jesu:

Stranica 39 оd 42
Seminarski rad

NTSC koji se najviše koristi u SAD-u, u Kanadi, u Japanu,

PAL koji je vrlo uobičajen u Evropi, u Kini, u Australiji, te SECAM u primjeni


u Francuskoj. Oni se recimo razlikuju po načinu na koji se sve informacije kodiraju
kako bi tako proizvele jedan elektronski signal, koji stvara nama TV sliku i nisu
međusobno kompatibilni.

NTSC

TV kadar na sam ekran nacrta elektronski zrak koji njime prolazi 2 puta
(ispreplitanje na engl. interlacing). Pri svemu tome se data TV slika čini stabilnom, bez
nekog titranja, a sam kadar ima rezoluciju od nekih 525 vodoravnih crta, sa
iscrtavanjem od nekih 30 kps. Omjer slike jeste 4:3.

PAL

Koristi metodu za dodavanje boje na crno-bijelom TV signalu koja dalje iscrtava


ukupno 625 vodoravnih crta sa 25 kps i, takođe, koristi i ispreplitanje.

HDTV (ili na engl. High Definition Television)

Standard je koji za prenos i za prikaz TV slike koristi jedan digitalni umjesto


analognoga signala, sa čime se dobije još kvalitetnija slika prilikom iscrtavanja od 1080
vodoravnih crta sa 60 kps. Omjer slike jeste 16:9 [6].

Stranica 40 оd 42
Seminarski rad

5. ZAKLJUČAK

Naime, tehnologija za digitalnu obradu raznih signala usavršava se zapravo iz


dana u dan, a memorisanje pokretne slike popraćene sa dodatnim zvukom doživljava
nagli porast zahvaljujući upravo razvoju različitih multimedijskih komunikacija.
Kvalitetniji prenos, kao i memorisanje slike i videosignala uz smanjivanje nekog
raspoloživog prostora za skladištenje, potiče naučnike za otkrivanje nekih novih
mogućnosti. Današnje društvo postavlja vrlo visoke granice prihvatljivog kvaliteta
zvučnog ali i video signala, pa je samim tim sam MPEG-4 postupak kodiranja, jedan od
onih čija se osnova zapravo zasniva na poznavanju svih svojstava ljudskog vizuelnog
sistema.

Sva istraživanja u budućnosti imaju samo jedan isti cilj, a to je da se predstavi


slika, zvuk i pokret, nekom udaljenom korisniku, što vjernije ka originalu. Kao da se
nalazi na nekom koncertu, kao da pliva u moru ili da sluša opernu ariju uživo...

Stranica 41 оd 42
Seminarski rad

6. LITERATURA

1. Bakotin, Davor: Modeliranje i simulacija složenih mehanizama u prostoru stanja


korištenjem osobnog računala, Split, 1993.

2. Lončarić, Sven: Digitalna obrada slike Zagreb, 1995.-2004.

3. Jain, Anil K.: Fundamentals of Digital Image Processing, Prentice Hall, 1989

4. Steinmetz R., Nahrstedt K., Multimedia Fundamentals: Media coding and


Content processing, Prentice-Hall, 2002.

5. IEEE Signal Processing Magazin, July 2003.

6. Vidi časopis, listopad 2007.

7. Overview of the MPEG-4 Standard

URL: http://mpeg.chiariglione.org/standards/mpeg-4/mpeg-4.htm

8. Optical illusion

URL:http://en.wikipedia.org/wiki/File:Optical_grey_squares_orange_brown.svg

9. High definition television

URL: http://en.wikipedia.org/wiki/HDTV

10. Zvuk

URL: http://www.carnet.hr/referalni/obrazovni/imme/mmelem/audio.html

11. Blu-ray

URL:http://www.blu-
raydisc.com/Assets/Downloadablefile/general_bluraydiscformat-15263.pdf

Stranica 42 оd 42

You might also like