Professional Documents
Culture Documents
Objektivna Mjera Kvalitete Videa Zasnovana Na Detektiranim Artefaktima U Videu
Objektivna Mjera Kvalitete Videa Zasnovana Na Detektiranim Artefaktima U Videu
Sveučilišni studij
Diplomski rad
Viliams Bajčinovci
Osijek, 2017.
Obrazac D1: Obrazac za imenovanje Povjerenstva za obranu diplomskog rada
Osijek, 22.09.2017.
Potpis:
Potpis mentora za predaju konačne verzije rada
u Studentsku službu pri završetku studija:
Datum:
IZJAVA O ORIGINALNOSTI RADA
Osijek, 26.09.2017.
Ovom izjavom izjavljujem da je rad pod nazivom: Objektivna mjera kvalitete videa zasnovana na detektiranim
artefaktima u videu
i sumentora
moj vlastiti rad i prema mom najboljem znanju ne sadrži prethodno objavljene ili neobjavljene pisane materijale
drugih osoba, osim onih koji su izričito priznati navođenjem literature i drugih izvora informacija.
Izjavljujem da je intelektualni sadržaj navedenog rada proizvod mog vlastitog rada, osim u onom dijelu za koji mi
je bila potrebna pomoć mentora, sumentora i drugih osoba, a što je izričito navedeno u radu.
Potpis studenta:
SADRŽAJ
1. UVOD ..................................................................................................................................... 1
2.1.1. Video Quality Experts Group video baze korištene za FRTV Phase I i FRTV Phase II
................................................................................................................................................. 2
2.1.2. Laboratory for Image and Video Engineering video baza ........................................... 2
2.1.3. Laboratory for Image and Video Engineering Mobile video baza ................................ 3
2.1.4. ETFOS CIF Video Quality database i ETFOS VGA Video Quality database ............ 3
2.1.6. Ecole Polytechnique Fédérale de Lausanne - Politecnico di Milano video baza .......... 4
3.2. Metrika za procjenu kvalitete videa zasnovana na mjerenju artefakata u videu i statističkoj
analizi bez pristupa informacijama o referentnoj video sekvenci ............................................. 15
3.3. Metrika za procjenu kvalitete videa bez pristupa informacijama o referentnoj video
sekvenci pomoću 3D shearlet transformacije i konvolucijskih neuronskih mreža ................... 16
3.4. Modeli uočljive nelagode pri gledanju video sekvenci s kombinacijama prostornih i
vremenskih video artefakata ...................................................................................................... 17
4.1.1. Analiza algoritama za detekciju artefakata stvaranja blokova i gubitaka paketa ........ 20
7. ZAKLJUČAK ....................................................................................................................... 36
SAŽETAK ..................................................................................................................................... 40
ABSTRACT .................................................................................................................................. 41
ŽIVOTOPIS .................................................................................................................................. 42
1. UVOD
Područje primjene videa se svakodnevno širi i zahtjevi za visokom kvalitetom videa rastu.
Smanjenje kvalitete videa manifestira se video artefaktima koji su rezultat video kompresije s
gubitcima ili prijenosa videa mrežama s gubicima. Primjeri video artefakata su artefakti stvaranja
blokova, artefakti gubitaka paketa, artefakti smrzavanja, itd. Artefakti stvaranja blokova rezultat
su algoritama za kompresiju s gubicima čiji se rad temelji na podjeli okvira na blokove te
njihovom daljnjom obradom. Artefakti gubitaka paketa rezultat su prijenosa videa realnim
mrežama, a u slučaju prevelikog gubitka video informacija dolazi do prisutnosti artefakta
smrzavanja slike.
U okviru ovog rada kreirana je nova video baza te su nad generiranim sekvencama
provedeni subjektivni testovi. Na temelju subjektivnih rezultata i triju algoritama za detekciju
video artefakata (stvaranja blokova, gubitaka paketa i smrzavanja) razvijena je objektivna
metrika za ocjenu kvalitete videa koja za davanje ocjene ne traži prisustvo referentnog signala.
U drugom poglavlju dane su informacije o nekim od postojećih javno dostupnih baza video
sekvenci s pripadnim ocjenama kvalitete te su opisane dvije novo-kreirane baze. U trećem
poglavlju su opisane postojeće metrike za ocjenu kvalitete videa bez mogućnosti pristupa
informacijama o referentnoj sekvenci. Razvoj nove objektivne metrike za ocjenu kvalitete videa
bez mogućnosti pristupa referentnoj sekvenci dan je u četvrtom poglavlju, dok su informacije o
treniranju i testiranju ove metrike dane u petom poglavlju. U šestom je poglavlju opisana metoda
klasifikacije algoritma kompresije te su dane informacije o smanjenju računalnih zahtjeva
razvijene metrike. Zaključak rada dan je u sedmom poglavlju.
1
2. BAZE VIDEO SEKVENCI S OCJENAMA KVALITETE VIDEA
2.1.1. Video Quality Experts Group video baze korištene za FRTV Phase I i FRTV Phase
II
VQEG (engl. Video Quality Experts Group) je provela testiranja objektivnih metrika za
ocjenu kvalitete video sekvenci kroz dvije faze – FRTV Phase I i FRTV Phase II. Na televiziji
standardne definicije, testirani su odnosi subjektivnih ocjena i ocjena objektivnih metrika koje
imaju pristup referentnoj video sekvenci (engl. full-reference – FR) kao i objektivnih metrika
koje nemaju pristup referentnoj video sekvenci (engl. no-reference – NR) [1], [2]. Za potrebe
navedenih testiranja kreirane su dvije baze. Baza korištena u FRTV Phase I sadrži 24 izvorne
sekvence i njima pripadne 384 testne sekvence dobivene kompresijom algoritmom zasnovanim
na MPEG-2 standardu. Baza korištena za FRTV Phase II sadrži 32 izvorne sekvence i njima
pripadnih 128 testnih sekvenci dobivenih kompresijom algoritmom zasnovanim na H.263
standardu.
LIVE (engl. Laboratory for Image and Video Engineering) baza sadrži 10 izvornih sekvenci
YUV 4:2:0 video formata s rezolucijom od 768x432 elemenata slike. Jedna izvorna sekvenca
ima trajanje od 8.68 sekundi, a preostalih 9 imaju trajanje od 10 sekundi. Brzina izmjene okvira
je 25 okvira u sekundi za 7 izvornih sekvenci, a preostale 3 sekvence imaju brzinu izmjene
okvira od 50 okvira u sekundi. Za svaku od izvornih sekvenci, generirano je 15 degradiranih
testnih sekvenci. Obuhvaćene su 4 vrste degradacije sekvenci – degradacija kompresije
algoritmom zasnovanim na MPEG-2 standardu, degradacija kompresije algoritmom zasnovanim
na H.264 standardu, degradacija prijenosom videa simuliranom IP mrežom s gubitcima i
degradacija prijenosom videa bežičnom mrežom s gubitcima. Nad generiranim testnim
sekvencama, provedeni su subjektivni testovi u kojima je svaki od 38 gledatelja, kroz dvije
sesije, svakoj sekvenci pridružio jednu od 5 ponuđenih ocjena. Nakon obrade rezultata
subjektivnih testova, subjektivne ocjene uspoređene su s rezultatima javno dostupnih objektivnih
2
metrika za ocjenu kvalitete videa. Rezultati provedene analize kao i dodatne informacije o LIVE
Video Quality Database dostupni su u [3].
2.1.3. Laboratory for Image and Video Engineering Mobile video baza
LIVE Mobile baza sadrži 10 izvornih sekvenci YUV 4:2:0 video formata s rezolucijom od
1280x720 elemenata slike. Sve izvorne sekvence imaju trajanje od 15 sekundi i brzinu izmjene
okvira od 30 okvira u sekundi. Za svaku od izvornih sekvenci generirano je 20 degradiranih
testnih sekvenci. Obuhvaćeno je 5 vrsta degradacije sekvenci – degradacije kompresije
algoritmom zasnovanim na H.264 standardu, degradacija prijenosom videa bežičnom mrežom s
gubitcima paketa, degradacija smrzavanjem okvira, degradacija prilagodbom prijenosne brzine i
degradacija dinamičnom promjenom prijenosne brzine. Nad generiranim testnim sekvencama,
provedeni su subjektivni testovi u kojima su gledatelji ocjenjivali testne sekvence ocjenama od 0
do 5. Subjektivni testovi provedeni su na pametnim telefonima i tabletima. Informacije dobivene
analizom rezultata subjektivnih testova kao i dodatne informacije o LIVE Mobile bazi dostupne
su u [4].
2.1.4. ETFOS CIF Video Quality database i ETFOS VGA Video Quality database
Izvorne sekvence obiju baza iz naslova odjeljka su formata YUV 4:2:0. Trajanje izvornih
sekvenci je 12 sekundi s brzinom izmjene okvira od 25 okvira u sekundi. ETFOS CIF Video
Quality (ECVQ) baza sadrži 8 izvornih sekvenci rezolucije 352x288 elemenata slike, dok
ETFOS VGA Video Quality (EVVQ) baza sadrži 8 izvornih sekvenci rezolucije 640x480
elemenata slike. Obje baze sadrže po 90 degradiranih testnih sekvenci. Obuhvaćene su dvije
vrste degradacija video sekvenci – degradacija kompresije videa algoritmom za kompresiju
zasnovanim na MPEG-4 standardu i degradacije kompresije videa algoritmom za kompresiju
zasnovanim na H.264 standardu. Nad generiranim testnim video sekvencama provedeni su
subjektivni testovi u kojima su gledatelji sekvencama dodjeljivali ocjene od 0 do 100. U analizi
rezultata subjektivnih testova, uspoređene su različite metode za izdvajanje subjektivnih ocjena
pojedinog gledatelja koje odstupaju od prosječnih ocjena preostalih gledatelja. Rezultati analize i
dodatne informacije o ECVQ i EVVQ bazama dostupne su u [5].
CSIQ (engl. Computational and Subjective Image Quality) Video Database sadrži 12
izvornih sekvenci YUV 4:2:0 video formata s rezolucijom od 832x480 elemenata slike. Sve
3
izvorne sekvence imaju trajanje od 10 sekundi s brzinom izmjene okvira od 24, 25, 30, 50 ili 60
okvira u sekundi ovisno o izvornoj sekvenci. Za svaku izvornu sekvencu generirano je po 18
izobličenih sekvenci. Obuhvaćeno je 6 vrsta degradacije video sekvenci – degradacija Motion
JPEG (MJPEG), H.264, H.265 i wavelet kompresijom, kao i degradacija prijenosom videa
simuliranom bežičnom mrežom s gubitcima te degradacija Gaussovim bijelim šumom. Nad
generiranim testnim video sekvencama provedeni su subjektivni testovi s 35 gledatelja [6].
Za potrebe razvoja objektivne metrike generirane su dvije baza video sekvenci nad
kojima su provedeni subjektivni testovi. Izvorne sekvenca za obje generirane baze dobavljene su
od strane Ultra Video Group (UVG) [8]. Za obje baze korišteno je istih 6 izvornih sekvenci s
rezolucijom od 1920x1080 elemenata slike i YUV 4:2:0 video formatom. Izvorne sekvence su
poduzorkovane ispuštanjem svakog drugog okvira, čime je brzina izmjene okvira smanjena sa
120 okvira u sekundi na 60 okvira u sekundi. Trajanje svake izvorne sekvence je 5 sekundi, a po
jedan okvir iz svake od izvornih sekvenci prikazan je na slici 2.1. Ideja je bila stvoriti nove baze
video signala, u kojima će parametri videa poput rezolucije, formata, brzine izmjene okvira,
tipova izobličenja, itd. biti onakvi kakvi se danas u realnom svijetu najčešće pojavljuju.
4
gdje je:
(a) (b)
(c) (d)
(e) (f)
Sl. 2.1. Primjeri okvira referentnih video sekvenci za generiranje novih baza videa (a)
Beauty (b) Bosphorus (c) HoneyBee (d) Jockey (e) ReadySetGo (f) YachtRide [8]
gdje je:
5
Fn(i,j) - matrica luminantne komponente n-tog okvira,
Prva od dviju generiranih baza – FERIT-RTRK baza, sadrži testne sekvence koje su
generirane kompresijom referentnih sekvenci algoritmima za kompresiju zasnovanim na H.264,
H.265 i MPEG-2 standardima. Korišteni algoritmi za kompresiju dostupni su unutar FFmpeg
programskog alata [10]. Za svaki od primijenjenih algoritama za kompresiju, korišteno je 5
različitih fiksnih razina kvalitete – 30, 35, 40, 45, i 50 za algoritme zasnovane na H.264 i H.265
standardima; 11, 16, 21, 22 i 31 za algoritam zasnovan na MPEG-2 standardu. Za algoritam za
6
kompresiju videa zasnovan na MPEG-2 standardu, osim fiksne razine kvalitete korištene su i
različite vrijednosti fiksne razine kvantizacije – 19, 24, 29, 39 i 59. Vrijednosti korištenih
parametara odabrani su tako da za svaku referentnu video sekvencu pripadni skup degradiranih
video sekvenci različitim algoritmima za kompresiju rezultira sličnim intervalom vršnih
vrijednosti odnosa signala i šuma (engl. Peak signal to noise ratio) (PSNR). Ovom metodom, 15
različitih degradiranih video sekvenci je generirano za svaku referentnu video sekvencu, što je
ukupno 90 testnih sekvenci. Na slici 2.3. prikazan je po jedan okvir sekvence Beauty za svaki od
korištenih algoritama kompresije i najveću od korištenih pripadnih razina kompresije.
Za potrebe provedbe subjektivnih testova nad kreiranom bazom, u sklopu ovog rada
kreiran je alat s korisničkim sučeljem koji korisniku omogućava odabir datoteke s popisom videa
za ocjenjivanje, nakon čega započinje proces ocjenjivanja kvalitete videa. Svaka video sekvenca
se može prikazati samo jednom prije nego što ju korisnik ocjeni, a korisnik nema mogućnost
gledanja sljedeće video sekvence dok nije ocijenio prethodnu. Vrijeme koje korisnik ima na
raspolaganju za odabir ocjene nije ograničeno. Za provedbu subjektivnih testova korištena je
metoda s apsolutnim kategorijskim ocjenama i skrivenom referentnom sekvencom (engl.
Absolute Category Rating with Hidden Reference) (ACR-HR) [9]. Ponuđene ocjene su u
intervalu od 0 do 10 gdje 0 predstavlja najlošiju, a 10 najbolju kvalitetu videa (identičnu
originalnom videu). Kako bi se omogućila stvarno-vremenska reprodukcija referentnih video
sekvenci na računalima korištenim za provedbu subjektivnih testova, obavljena je kompresija s
neznatnim gubicima neprimjetnim čak i stručnjacima iz područja ocjene kvalitete videa, što je
dozvoljeno i opisano u [11].
7
koje su dio treće cjeline za svakog su gledatelja reproducirane posebnim, pseudo-slučajno
generiranim redoslijedom, dok su popisi video sekvenci prve i druge cjeline jednaki za sve
gledatelje. U procesu obrade rezultata korišteni su samo ocjene iz treće cjeline.
(a)
(b)
(c)
Sl. 2.3. Primjeri okvira sekvence Beauty komprimirane najvećim korištenim razinama
kompresije za algoritme: (a) H.264 (b) H.265 (c) MPEG-2
8
U slučaju velikog odstupanja ocjena pojedinog gledatelja u odnosu na srednju ocjenu svih
gledatelja, potrebno je zanemariti ocjene promatranog gledatelja. Za određivanje skupa
gledatelja čije će ocjene biti zanemarene, promatran je Pearsonov linearni korelacijski
koeficijent (engl. Pearson Linear Correlation Coefficient) (PLCC) na način opisan u [11]. Za
svaku testnu video sekvencu, izračunata je srednja vrijednost ocjena (engl. Mean opinion score -
MOS) koju su joj pridružili svi gledatelji. Izračunat je PLCC između ocjena svakog pojedinog
gledatelja i srednjih ocjena. Kako su u prvoj iteraciji svi PLCC bili iznad 0.75 nije bilo potrebno
zanemariti ocjene ijednog od gledatelja.
gdje je:
V – gledateljeva ocjena,
DV – diferencijalna ocjena.
Za pojedinu degradiranu testnu sekvencu DMOS je izračunat kao srednja vrijednost svih
pripadnih DV vrijednosti. Histogram svih izračunatih DMOS vrijednosti prikazan je na slici 2.4.
Iz histograma je vidljivo da su izobličenja ubačena u video signale generirala sekvence širokog
raspona kvalitete, što je vrlo bitno kad se kreiraju baze za testiranje objektivnih metrika.
9
H.264 ili H.265 kompresijama kada se promatraju video sekvence jednakog izvornog sadržaja i
približno jednakih DMOS vrijednosti. Ekstremni primjer ovakvog odnosa kompresije primijećen
je kod sekvenci s DMOS vrijednosti 8 i izvornim sadržajem Jockey. U promatranom slučaju,
MPEG-2 kompresijom generirana je datoteka koja je približno 7 puta veća od datoteka
generiranih algoritmima za kompresiju zasnovanim na H.264 ili H.265 standardima. Razina
kompresije koja je ostvarena korištenjem algoritma za kompresiju zasnovanim na H.265
standardu je veća u odnosu na razinu kompresije koja je ostvarena algoritmom za kompresiju
zasnovanim na H.264 standardu, kada se promatraju testne video sekvence s približno jednakim
DMOS vrijednostima. Odnosi razina kompresija koji su ostvareni korištenjem prethodnih dvaju
navedenih algoritama su manji, nego odnosi razina kompresija između pojedinog od ovih
algoritama i algoritma za kompresiju zasnovanog na MPEG-2 standardu. Odnosi ostvarenih
razina kompresija između korištenih algoritama za kompresiju su manji za testne video sekvence
kojima su pridružene manje DMOS vrijednosti, neovisno o promatranim algoritmima
kompresije. S obzirom na razinu kompleksnosti video sadržaja, razine kompresije ostvarene za
sekvence manjih SI i TI vrijednosti (sekvence jednostavnijeg sadržajem) – Beauty, Bsophorus,
HoneyBee - su veće u odnosu na razine kompresije ostvarene za sekvence s većim SI i TI
vrijednostima (sekvence složenijeg sadržaja) – Jockey, ReadySetGo, YachtRide.
10
(a) (b)
(c) (d)
(e) (f)
Sl. 2.5. Odnosi DMOS vrijednosti i veličina komprimiranih video datoteka za sekvence: (a)
Beauty (b) Bosphorus (c) HoneyBee (d) Jockey (e) ReadySetGo (f) YachtRide
11
su po 3 skupa parametara za pojedini algoritam za kompresiju. Odabrani su skupovi parametara
koji su ostvarili minimalnu, srednju i maksimalnu razinu kompresije. Za svaki od primijenjenih
algoritama za kompresiju, korištene su 3 različite fiksne razine kvalitete – 30, 40 i 50 za
algoritme zasnovane na H.264 i H.265 standardima; 11, 21 i 31 za algoritam zasnovan na
MPEG-2 standardu. Za algoritam za kompresiju videa zasnovan na MPEG-2 standardu, osim
fiksne razine kvalitete korištene su i različite vrijednosti fiksne razine kvantizacije – 19, 29 i 59.
Za svaku od 54 testne sekvence dobivene korištenjem odabranih skupova parametara, kreirane su
po dodatne dvije testne sekvence s artefaktima gubitaka paketa, čime je broj testnih sekvenci
povećan na 162. Za svaku od ovih testnih video sekvenci kreirane su po još dvije testne video
sekvence s artefaktima smrzavanja slike, tako da kreirana FERIT-RTRK-2 baza sadrži ukupno
486 testnih video sekvenci.
Subjektivni testovi nad ovim skupom generiranih testnih video sekvenci provedeni su s
15 gledatelja, a postupak je bio jednak onome korištenom za subjektivne testove FERIT-RTRK
12
baze. U provjeri prevelikog odstupanja ocjena pojedinog gledatelja od prosječnih ocjena
preostalih na temelju Pearsonovog linearnog koeficijenta korelacija, ocjene četiriju gledatelja su
zanemarene. Detaljnije informacije o korištenoj metodi za detekciju gledatelja čije će ocjene biti
zanemarene dostupne su u [11].
(a)
(b)
(c)
Sl. 2.6. Primjeri okvira degradiranih artefaktima gubitaka paketa za sekvencu Jockey
komprimiranu algoritmom: (a) H.264 (b) H.265 (c) MPEG-2
13
Kako testne sekvence FERIT-RTRK-2 baze sadrže kombinacije različitih artefakata
degradacije video sekvence, distribucija DMOS vrijednosti razlikuje se od one kod FERIT-
RTRK baze. Udio manjih DMOS vrijednosti je veći nego kod FERIT-RTRK baze, a histogram
DMOS vrijednosti prikazan je na slici 2.7.
14
3. POSTOJEĆE METRIKE ZA OCJENU KVALITETE VIDEA BEZ
MOGUĆNOSTI PRISTUPA INFORMACIJAMA O REFERENTNOJ
SEKVENCI
Video BLIINDS (engl. Blind Image Integrity Notator using Discrete Cosine Transform
Statistics) je objektivna metrika za ocjenu kvalitete videa bez pristupa informacijama izvorne
video sekvence. Metrika se temelji na izdvajanju određenih svojstava video sekvenci koja se
predaju Support Vector Regression (SVR) modelu za strojno učenje. Svojstva video sekvenci
koja su korištena su: koherentnost pokreta, mjera globalnih pokreta, spektralni odnosi statistike
prirodnih videa (engl. Natural Video Statistics - NVS), apsolutni vremenski derivat srednjih
diskretnih kosinusnih koeficijenata i prostorna prirodnost okvira [13]. Osim posljednjeg
navedenog svojstva, sva ostala svojstva određuju se na temelju razlike susjednih okvira video
sekvence. Svako pojedino navedeno svojstvo podvrgnuto je nelinearnoj logaritamskoj funkcije
prije nego što je predano SVR modelu. Autori navode kako objektivne metrike za ocjenu
kvalitete videa koje nemaju pristup informacija izvorne video sekvence općenito zahtijevaju da
se proces treniranja metrike provodi na dijelu video baze kojom se metrike testiraju. Video
BLIINDS metrika trenirana je i testirana na sekvencama LIVE i EPFL-PoliMI video baza.
Usporedba rezultata s drugim objektivnim metrikama, detaljnija objašnjena korištenih svojstava
testnih video sekvenci i dodatne informacije o metrici i provedenoj analizi dostupne su u [14] .
U [15] autori su razvili objektivnu metriku za ocjenu kvalitete videa bez pristupa
informacijama izvorne video sekvence koja se temelji na svojstvima video sekvence izdvojenim
iz koeficijenata dobivenih diskretnom kosinusnom transformacijom (engl. Discrete cosine
transform - DCT). Cilj razvijene metrike je ocjenjivanje komprimiranih prirodnih video
sekvenci. Metrika je organizirana u dvije cjeline – određivanje vrijednosti različitih svojstava
15
distorzije i nelinearna transformacija vrijednosti tih svojstava. Prvi korak metrike je DCT
transformacija koja se vrši za svaki okvir ulazne video sekvence. Dobiveni DCT koeficijenti
podijeljeni su u 6 skupova koeficijenata ovisno o orijentaciji i frekvencijskom području
komponenti signala koje pojedini DCT koeficijenti predstavljaju. Na temelju određenih
kombinacija skupova DCT koeficijenata računaju se sljedeća svojstva testne video sekvence:
Peakiness, Smoothness, Shaprness, Histo-noise, srednja Jensen-Shannonova divergencija (engl.
mean Jensen-Shannon divergence - MJSD) i Blockiness. Ovako je za svaki okvir testne video
sekvence dobivena po jedna vrijednost za svako od navedenih svojstava. Kako bi se za cijelu
video sekvencu izdvojila jedna vrijednost po svakom navedenom svojstvu, nad vektorom svih
vrijednosti pojedinog svojstva primijenjena je Minkowski metoda sažimanja (engl. Minkowski
pooling). Dobivene vrijednosti predaju se višeslojnoj neuronskoj mreži koja na izlazu daje
ocjenu kvalitete testne video sekvence. Treniranje i testiranje metrike rađeno je na
podskupovima video baza. Osim višeslojne neuronske mreže analiziran je i rad metrike kada bi
se ona zamijenila SVR modelom ili linearnom regresijom. Rezultati metrike također su
uspoređeni s rezultatima odabranih objektivnih metrika.
U [16] autori su razvili objektivnu metriku koja bez dostupnih informacija o izvornoj video
sekvenci, na temelju značajki izvedenih iz testnih video sekvenci, određuje ocjenu kvalitete
videa. Način rada metrike zasnovan je na prostornoj korelaciji elemenata slike pojedinog okvira
te vremenskoj korelaciji susjednih okvira video sekvence. Početni korak razvijene metrike je 3D
shearlet transformacija. Iz informacija dobivenih prethodnom transformacijom izdvajaju se
značajke koje se predaju na ulaz troslojne konvolucijske neuronske mreže (engl. convolutional
neural network - CNN). Izlazne vrijednosti neurona trećeg sloja mreže iskorištene su za
klasifikaciju vrste distorzije te za logističku regresiju koja daje ocjenu kvalitete testne video
sekvence. Razvijena metrika trenirana je i testirana na testnim video sekvencama LIVE, IVP
(engl. Image and Video Processing) [17] i CSIQ video baza. Metrika je, za svaku od pojedinih
baza, trenirana na testnim sekvencama dobivenim iz 80% izvornih sekvenci, a testirana na
testnim sekvencama dobivenim iz preostalih 20% izvornih sekvenci baze. Po 100 iteracija, s
različitim skupovima izvornih sekvenci korištenih za treniranje, odnosno testiranje, odrađeno je
16
za svaku od korištenih baza. Rezultati razvijene metrike uspoređeni su s rezultatima odabranih
objektivnih metrika.
U [18] autori su generirali testne video sekvence koje sadrže artefakte stvaranje blokova,
artefakte zamućenja (engl. blurring) te artefakte gubitaka paketa. Provedeni su subjektivni
testovi nad generiranim testnim sekvencama koje sadrže artefakte pojedinih navedenih tipove te
njihovih kombinacija. Na temelju rezultata provedenih subjektivnih testova, razvijeno je
nekoliko različitih modela za objektivnu ocjenu kvalitete videa. Kao nezavisni parametri svih
izvedenih modela korištene su tri mjere, po jedna za svaki od navedenih tipova video artefakata.
Uz 4 linearna modela, razvijena su 2 modela temeljena na Minkowski metrici te SVR model.
Treniranje i testiranje modela provedeno je kroz 10 iteracija tako što je skup testnih sekvenci
podijeljen u 10 podskupova, a pojedini podskup korišten kao testni u pojedinoj iteraciji, dok su
ostali korišteni za treniranje modela. Najbolju korelaciju pokazala je linearna metrika koja osim
linearne kombinacije triju mjera koristi i linearnu kombinaciju umnožaka pojedinih mjera.
U [19] autori su razvili objektivnu metriku koja na temelju video značajki izvedenih iz
trodimenzionalne DCT daje ocjenu kvalitete testnih video sekvenci. Razvijena metrika temelji se
na NVS modelu te iskorištava prostorne i vremenske distorzije video sekvenci koje se često
manifestiraju simultano, odnosno obuhvaćaju iste prostorne i vremenske dijelove video
sekvence. Prvi korak razvijene metrike je prostorno i vremenski lokalna 3D DCT. Na temelju
informacija dobivenih ovom transformacijom izdvajaju se prostorne značajke videa na razini
okvira koje se nakon toga u vremenskoj dimenziji sažimaju kako bi se odredile značajke na
razini cijele video sekvence. Korištenjem principle component analysis (PCA) iz skupa
dobivenih značajki izdvojen je podskup ključnih značajki te su dimenzije pojedinih značajki
smanjene. Odabrane značajke iskorištene su kao ulazni parametri SVR modela s linearnom
jezgrom. Za treniranje i testiranje modela korištene su LIVE, CSIQ, VQEGHD5 (engl. Video
Quality Experts Group High Definition Television 5) [20] i EPFL-PoliMI video baze. Skup
testnih sekvenci pojedine baze je podijeljen u podskupove tako da pojedini podskup sadrži sve
testne sekvence istog izvornog sadržaja. Treniranje i testiranje modela izvršeno je kroz sve
moguće kombinacije podskupova za treniranje, odnosno testiranje, tako što su za testiranje
17
izdvojena 2 ili 1 podskup (ovisno o bazi) dok su ostali podskupovi korišteni za treniranje.
Rezultati razvijene metrike uspoređeni su za rezultatima drugih odabranih metrika.
18
4. RAZVIJENA OBJEKTIVNA METRIKA ZA OCJENU KVALITETE
VIDEA BEZ MOGUĆNOSTI PRITUPA REFERENTNOJ SEKVENCI
U ovom poglavlju je opisan razvoj nove objektivne metrike za ocjenu kvalitete videa. Rad
metrike temelji se na postojećim algoritmima za detekciju video artefakata, Minkowski
vremenskom sažimanju, prostornom i vremenskom maskiranju te nelinearnoj transformaciji.
19
okvirom. Ako je duljina niza susjednih video okvira, za koje je određena međusobna korelacija
iznad definiranih granica, veća od minimalno definirane duljine, svi sljedeći okviri koji
zadovolje ovaj kriterij biti će označeni kao okviri s prisutnim artefaktom smrzavanja slike. Za
svaki okvir, algoritam vraća vrijednost 1 ako okvir pripada nizu okvira degradiranih artefaktima
smrzavanja slike, a u suprotnom algoritam vraća vrijednost 0.
Za svaki od ovih podskupova, srednje vrijednosti, za sve video okvire pojedine testne video
sekvence, koje vraća algoritam za detekciju artefakata stvaranja blokova prikazane su na slici
4.1. Grafovi pokazuju kako se vrijednost koju vraća algoritam za detekciju artefakata stvaranja
blokova razlikuje za promatrane sekvence, ali se povratna vrijednost ne mijenja znatno između
testnih video sekvenci istog sadržaja komprimiranih istim algoritmom za kompresiju uz iste
pripadne parametre te različite razine gubitaka paketa. Ovime je pokazano kako povratna
vrijednost algoritama za detekciju artefakata stvaranja blokova znatno ovisi o kompresiji, a
neznatno o gubitku paketa.
20
(a)
(b)
(c)
21
(a)
(b)
(c)
Sl. 4.2. Vrijednosti algoritma za detekciju artefakata gubitaka paketa za sekvence generirane
algoritmom za kompresiju: (a) H.264 (b) H.265 (c) MPEG-2 uz različite razine artefakta gubitka
paketa
22
degradirane artefaktima gubitaka paketa povratna vrijednost ne ovisi o razini gubitaka paketa te
je prikazana vrijednost za većinu ovih sekvenci jednaka 0. Razlog tome je to što degradacija
gubitkom paketa sekvenci komprimiranih algoritmima za kompresiju zasnovanim na H.264 i
H.265 standardima ne rezultira pravilnim blokovima veličine 16x16 s oštrim rubovima. Primjeri
realnih artefakata gubitaka paketa prethodno su prikazani na slici 2.6.
23
slike. Za određivanje ocjene na temelju artefakata stvaranja blokova koji su rezultat načina
kompresije video sekvenci, korišteni su i algoritam za detekciju artefakata stvaranja blokova i
algoritam za detekciju artefakata gubitaka paketa jer se ovakav pristup pokazao korisnim za
klasifikaciju tipa kompresije, a više o ovome objašnjeno je u potpoglavlju 6.1. Grafički prikaz
načina rada razvijene metrike prikazan je na slici 4.3.
gdje je:
24
stdspace – funkcija za izračun prostorne standardne devijacije,
gdje je:
Kako bi se, kod donošenja ocjene kvalitete, omogućilo dodjeljivanje većih težina okvirima
sekvence s većim povratnim vrijednostima algoritama za detekciju artefakata stvaranja blokova i
gubitaka paketa, povratne vrijednosti ovih algoritama podvrgnute su Minkowski vremenskom
sažimanju prema formuli (4-3):
1
1 𝑚𝑖𝑃
𝑠𝑐𝑜𝑟𝑒𝐴 = (𝑇 ∑𝑇𝑖=1 𝑥 𝑚𝑖𝑃 ) , (4-3)
gdje je:
x – povratna vrijednost algoritma za detekciju artefakata stvaranja blokova ili gubitaka paketa,
Nakon što su određene vrijednosti scoreA, SI i TI, u obzir se uzima utjecaj video sadržaja
na maskiranje prostornih artefakata, što je unutar razvijene metrike definirano prema formuli
(4-4):
𝑠𝑐𝑜𝑟𝑒𝐴
𝑠𝑐𝑜𝑟𝑒𝐵 = 𝑐0+𝑆𝐼∙𝑠𝑖𝑃+𝑇𝐼∙𝑡𝑖𝑃+𝑆𝐼∙𝑇𝐼∙𝑠𝑖𝑡𝑖𝑃 , (4-4)
25
gdje je:
Nadalje, u obzir se uzimaju i rezultati algoritma za detekciju artefakata smrzavanja slike. Kako je
za očekivati da će smrzavanje slike imati veći utjecaj na ukupno ocjenu kod video sekvenci
bržeg sadržaja s više pokreta, utjecaj artefakata smrzavanja slike ovisi i o TI vrijednosti te je
unutar razvijene metrike definiran prema formuli (4-5):
𝑓𝑟𝑃∙𝑓𝑟𝐴𝑣𝑔
𝑠𝑐𝑜𝑟𝑒𝐶 = 𝑠𝑐𝑜𝑟𝑒𝐵 + ∙ 𝑇𝐼 𝑓𝑟𝑃2 , (4-5)
1+𝑠𝑐𝑜𝑟𝑒𝐵
gdje je:
Konačno, kako ocjene gledatelja ne moraju imati linearan odnos s izmjerenim razinama
detektiranih artefakata, prije vraćanja konačne ocjene izvršava se nelinearna transformacije koja
je unutar razvijene metrike definirana prema formuli (4-6):
26
5. TRENIRANJE I TESTIRANJE RAZVIJENE METRIKE ZA OCJENU
KVALITETE VIDEA BEZ MOGUĆNOSTI PRITUPA REFERENTNOJ
SEKVENCI
27
Rezultati treniranja i testiranja razvijene metrike na istim podskupovima kombinacija ovih baza
prikazani su u tablici 5.2. Zbog međusobno sličnih prostornih artefakata kompresije, sekvence
komprimirane MJPEG i MPEG-2 algoritmima promatrane su također i unutar iste grupe.
Tab. 5.1. Rezultati testiranja novo-stvorene metrike nakon provedenog postupka treniranja na
cijelim podskupove pojedinih baza video signala
Tab. 5.2. Rezultati testiranja novo-stvorene metrike nakon provedenog postupka treniranja na
cijelim podskupove pojedinih kombinacija baza video signala
28
odnosu na one iz tablice 5.1., osim za sekvence komprimirane H.265 algoritmom za koje je
razlika između korelacija relativno velika. U tablici 5.3., može se primijetiti kako je korelacija
dobivena za sekvence komprimirane H.264 algoritmom triju baza u kombinaciji veća u odnosu
na korelacije dobivene za svaku od triju baza posebno. Razlog ovoga je to što kada su sve 3 baze
promatrane u kombinaciji, skup za treniranje svake iteracije sadrži testne sekvence 16 izvornih
sadržaja te je time povećana vjerojatnost generalizacije za sekvence koje nisu dio skupa za
treniranje u odnosu na slučaj u kojem se svaka baza promatra posebno pa skup za treniranje
sadrži sekvence manjeg broja izvornog sadržaja. Isti odnos vrijednosti korelacija ne može se
primijetiti za sekvence komprimirane MPEG-2 i MJPEG algoritmima. Pretpostavka je da je
razlog ovoga različit način rada ovih dvaju algoritama za kompresiju.
Tab. 5.3. Rezultati treniranja i testiranja kroz sve moguće iteracije podskupova za treniranje i
testiranje (testne sekvence dvaju izvornih sadržaja korištene za testiranje, a ostale za treniranje)
Broj
Baza Podskup PLCC SRCC
iteracija
MPEG-2 0.9592 0.9341
FERIT-RTRK 15 H.264 0.8145 0.8326
H.265 0.1972 0.2949
MPEG-2, MPEG-2+ freeze 0.8999 0.9237
FERIT-RTRK-2 15 H.264, H.264 + freeze 0.8656 0.8786
H.265, H.265 + freeze 0.2176 0.2582
MJPEG 0.7893 0.7997
CSIQ 66 H.264 0.7935 0.7602
H.265 0.0495 0.0698
MPEG-2 0.7612 0.8111
LIVE 45
H.264 0.4779 0.5054
FERIT-RTRK MPEG-2, MPEG-2 + freeze 0.9245 0.9363
15
FERIT-RTRK2 H.264, H.264 + freeze 0.8611 0.8768
FERIT-RTRK MJPEG; MPEG-2 0.8388 0.8095
153
CSIQ H.264 0.8727 0.8519
FERIT-RTRK-2 MJPEG; MPEG-2 0.8443 0.8568
153
CSIQ H.264, H.264 + freeze 0.8826 0.8699
FERIT-RTRK MJPEG; MPEG-2, MPEG-2 + freeze 0.8344 0.8372
FERIT-RTRK2 153
CSIQ H.264, H.264 + freeze 0.8898 0.8755
29
Tab. 5.4. Korelacija sa subjektivnim ocjenama za metrike PSNR, SSIM, VSNR, BRISQUE i
novo-razvijene metrike (NRVQ) za promatrane baze video sekvenci
30
Korištene su sljedeće objektivne metrike: PSNR, Structural similarity index (SSIM) [21], Visual
signal to noise ratio (VSNR) [22] i Blind/referenceless Image spatial quality evaluator
(BRISQUE) [23]. Dok zadnja od navedenih metrika radi bez mogućnosti pristupa informacijama
referentne video sekvence, preostale 3 metrike imaju potpuni pristup referentnoj sekvenci i dio
su alata IVQUEST [23]–[25].
31
6. KLASIFIKACIJA ALGORITAMA KOMPRESIJE I SMANJENJE
RAČUNALNIH ZAHTJEVA METRIKE
Tab. 5.1. Korelacija sa subjektivnim ocjenama za metrike PSNR, SSIM, VSNR, BRISQUE i
novo-razvijene metrike (NRVQ) za Skup sekvenci s artefaktima kompresije MPEG-2, MJPEG i
H.264 algoritama i artefaktima smrzavanja slike baza FERIT-RTRK, FERIT-RTRK-2 i CSIQ
Sl. 6.1. Odnosi srednjih vrijednosti rezultata koje vraćaju algoritam za detekciju artefakata
stvaranja blokova i algoritam za detekciju artefakata gubitaka paketa za sekvence komprimirane
različitim algoritmima kompresije
33
treniranje parametara metrike i klasifikaciju. Unutar skupa za treniranje način kompresije je
poznat te su trenirana dva skupa parametara – jedan za MPEG-2 i MJPEG sekvence te drugi za
H.264 sekvence. Unutar skupa za testiranje način kompresije nije poznat već se odluka o tome
koji će se od dvaju naučenih skupova parametara metrike koristiti donosi na osnovi naučene
konstante klasifikacije. Srednja vrijednost ovih iteracije dobivena za PLCC je 0.7825, a za SRCC
0.7701. Korelacije koje su za ovaj skup sekvenci ostvarene odabranim javno dostupnim
objektivnim metrikama prikazane su u tablici 6.1.
n 2 4 8 16
Prosječna Maksimalna Prosječna Maksimalna Prosječna Maksimalna Prosječna Maksimalna
Baza Podskup promjena promjena promjena promjena promjena promjena promjena promjena
[%] [%] [%] [%] [%] [%] [%] [%]
MPEG-2 0.43 1.5 1.45 5.03 1.57 5.29 1.85 5.96
FERIT-
H.264 0.57 5.68 0.65 5.81 0.77 5.48 1.12 6.4
RTRK
H.265 0.57 2.65 0.76 4.27 0.82 4.1 1.17 5.09
MJPEG 0.43 1.5 1.45 5.03 1.57 5.29 1.85 5.96
CSIQ H.264 0.09 0.34 0.16 0.74 0.18 0.87 0.56 2.19
H.265 1.13 2.77 1.98 4.86 3.07 8.14 3.44 8.54
MPEG-2 0.05 0.29 0.12 0.41 0.38 1.15 1.21 3.47
LIVE
H.264 0.14 0.48 0.27 0.68 0.63 2.6 1.52 7.43
34
n 2 4 8 16
Prosječna Maksimalna Prosječna Maksimalna Prosječna Maksimalna Prosječna Maksimalna
Baza Podskup promjena promjena promjena promjena promjena promjena promjena promjena
[%] [%] [%] [%] [%] [%] [%] [%]
MPEG-2 2.12 9.77 1.82 15.05 2.19 16.36 2.73 19.97
FERIT-
H.264 0.79 7.08 1.18 5.22 1.2 6.79 1.95 7.72
RTRK
H.265 0.66 4.46 1.37 6.94 1.54 7.6 2.67 6.85
MJPEG 0.29 1.73 0.45 2.06 0.67 3.45 2.18 14.72
CSIQ H.264 0.49 2.29 0.82 3.27 0.94 3.89 2.53 17.28
H.265 0.47 2.32 0.84 2.55 2.27 7.49 3.62 15.28
MPEG-2 0.2 0.66 0.54 22.95 1.57 7.2 2.35 5.99
LIVE
H.264 0.69 3.21 0.56 3.16 1.99 8.14 3.49 10.3
gdje je:
vb(n) – SI (ili TI) vrijednost dobivena korištenjem svakog n-tog okvira promatrane sekvence.
35
7. ZAKLJUČAK
Razvoj objektivnih metrika za ocjenu kvalitete videa potreban je kako bi se njima zamijenili
subjektivni testovi kvalitete videa koji su skupi i vremenski zahtjevni. Od posebnog su značaja
objektivne metrike koje rade bez mogućnosti pristupa informacijama referentnih video sekvenci.
Za potrebe razvijanja i testiranja objektivnih metrika kreiraju se video baze te nad njima
provode subjektivni testovi, a cilj objektivnih metrika je dati ocjene što sličnije onima dobivenim
subjektivnim testovima. Kreirane video baze sadrže sekvence degradirane kompresijom,
gubitkom paketa i smrzavanjem slike te kombinacijama navedenog kako bi se utvrdio
međusoban utjecaj različitih video artefakata.
36
LITERATURA
[1] Video Quality Experts Group (VQEG), FRTV Phase I, [Online] Dostupno na:
https://www.its.bldrdoc.gov/vqeg/projects/frtv-phase-i/frtv-phase-i.aspx, 08.09.2017.
[2] Video Quality Experts Group (VQEG), FRTV Phase II, [Online] Dostupno na:
https://www.its.bldrdoc.gov/vqeg/projects/frtv-phase-ii/frtv-phase-ii.aspx, 08.09.2017.
[5] M. Vranješ, S. Rimac-Drlje, D. Vranješ, ECVQ and EVVQ video quality databases, in
Proceedings ELMAR-2012, 2012, str. 1–5.
[6] P. V. Vu, D. M. Chandler, ViS3: an algorithm for video quality assessment via analysis
of spatial and spatiotemporal slices, J. Electron. Imaging, sv. 23, br. 1, Veljača 2014.
[9] P.910 : Subjective video quality assessment methods for multimedia applications,
[Online], Dostupno na: https://www.itu.int/rec/T-REC-P.910-200804-I/en, 08.09.2017.
[11] P.913 : Methods for the subjective assessment of video quality, audio quality and
audiovisual quality of Internet video and distribution quality television in any
environment. [Online], Dostupno na: https://www.itu.int/rec/T-REC-P.913-201603-I/en,
08..09.2017.
37
[12] R. Pauliks, I. Slaidins, K. Tretjaks, A. Krauze, Assessment of IP packet loss influence on
perceptual quality of streaming video, 2015 Asia Pacific Conference on Multimedia and
Broadcasting, 2015, str. 1–6.
[14] M. A. Saad, A. C. Bovik, C. Charrier, Blind Prediction of Natural Video Quality, IEEE
Trans. Image Process., sv. 23, br. 3, str. 1352–1365, Ožujak 2014.
[15] K. Zhu, C. Li, V. Asari, D. Saupe, No-Reference Video Quality Assessment Based on
Artifact Measurement and Statistical Analysis, IEEE Trans. Circuits Syst. Video
Technol., sv. 25, br. 4, str. 533–546, Travanj 2015.
[16] No-Reference Video Quality Assessment With 3D Shearlet Transform and Convolutional
Neural Networks - IEEE Journals & Magazine, [Online], Dostupno na:
http://ieeexplore.ieee.org/document/7103036/, 10.09.2017.
[18] A. F. Silva, M. C. Q. Farias, J. A. Redi, Perceptual Annoyance Models for Videos With
Combinations of Spatial and Temporal Artifacts, IEEE Trans. Multimed., sv. 18, br. 12,
str. 2446–2456, Prosinac 2016.
[19] X. Li, Q. Guo, X. Lu, Spatiotemporal Statistics for Video Quality Assessment, IEEE
Trans. Image Process., sv. 25, br. 7, str. 3329–3342, Srpanj 2016.
38
[23] A. Mittal, A. K. Moorthy, A. C. Bovik, No-Reference Image Quality Assessment in the
Spatial Domain, IEEE Trans. Image Process., sv. 21, br. 12, no. 4695–4708, Listopad 2012.
[24] A. V. Murthy, A MATLAB Based Framework For Image and Video Quality Evaluation,
Master’s thesis, Arizona State University, Svibanj 2010.
[25] A. V. Murthy, L. J. Karam, IVQUEST- Image and Video QUality Evaluation SofTware,
[Online], Dostupno na: http://ivulab.asu.edu/Quality/IVQUEST, 20.09.2017.
[26] A. V. Murthy and L. J. Karam, A MATLAB Based Framework For Image and Video
Quality Evaluation, International Workshop on Quality of Multimedia Experience (QoMEX),
pages 242-247, Lipanj 2010.
39
SAŽETAK
U ovom radu razvijena je objektivna metrika koja bez mogućnosti pristupa informacijama
referentne video sekvence, na temelju detektiranih artefakata, daje ocjenu kvalitete testne video
sekvence. Za potrebe razvoja i testiranja metrike kreirane su dvije nove video baze te su nad
pripadnim sekvencama provedeni subjektivni testovi. Uz kreirane baze, korištene su još dvije
javno dostupne video baze za testiranje rada novo-stvorene metrike. Metrika uzima u obzir
vremensko i prostorno maskiranje artefakata te koristi Minkowski vremensko sažimanje
povratnih vrijednosti korištenih algoritama za detekciju artefakata i nelinearnu transformaciju.
Za potrebe poboljšanja predviđanja kvalitete, razvijen je model za klasifikaciju načina
kompresije izvornog sadržaja.
Ključne riječi: objektivna ocjena kvalitete videa, obrada bez reference, video baza, subjektivna
ocjena kvalitete videa, video artefakti
40
OBJECTIVE VIDEO QUALITY MEASURE BASED ON ARTIFACTS
DETECTED IN VIDEO
ABSTRACT
In this Master Thesis an objective no-reference metric for video quality assessment based
on artifact detection was developed. For requirements of metric development and testing, two
new video quality databases were created and subjective quality assessment experiments
conducted. Two other publicly available video quality databases were also used for the newly-
created video quality metric testing. The developed metric takes spatial and temporal artifact
masking effects into account, uses Minkowski temporal pooling to pool values returned by
algorithms for artifact detection and nonlinear transformation. A model for compression method
classification was developed resulting in increase of video quality prediction performance.
Key words: objective video quality assessment, no-reference processing, video quality database,
subjective video quality assessment, video artifacts
41
ŽIVOTOPIS
42