Professional Documents
Culture Documents
MPEG-7
Multimedia Systems
School of Engineering UAB 2023
MPEG-4
La gran quantitat de dades i amb diferents tipus; text, parla, música, imatges,
gràfics, vídeo..., fan que la representació, l'intercanvi, l'emmagatzematge, l'accés i
la manipulació sigui molt difícil.
Això ha fet que surtin els darrers temps nous estàndards relacionats amb la
multimèdia.
Les característiques dels components d'àudio i visuals dels AVO individuals poden variar, de
manera que el component d'àudio pot ser sintètic o natural, i mono, estèreo o multicanal
(e+, so envoltant) i el component visual pot ser natural o sintètic.
Per permetre la interactivitat amb AVO individuals dins d'una escena, és essencial
transmetre la informació que descriu les coordenades espacials i temporals de cada
AVO. (Temps i posició)
Els AVO elementals, el cap i la veu associada, es poden combinar per formar un
AVO compost.
Per exemple, si es tracta d'un objecte visual, l'usuari pot fer zoom i girar-lo. Si es
tracta d'un objecte d'àudio, l'usuari pot canviar el seu to, així com el seu punt
d'escolta.
MPEG-4
Es pot modificar la qualitat i les resolucions espacials i temporals dels AVO
individuals. Per exemple, en una aplicació de videotelefonia mòbil, l'usuari pot
sol·licitar una velocitat de fotogrames i una resolució espacial més altes per a la
persona que parla que les dels objectes de fons.
L'estàndard visual MPEG-4, com els seus predecessors, defineix només la sintaxi del
flux de bits i el procés de descodificació, les definicions precises d'alguns algorismes
de codificació compatibles es presenten en dos models de verificació:
MPEG-4 permet l'accés basat en contingut no només als objectes de vídeo, sinó
també a les instàncies temporals dels objectes de vídeo, és a dir, VOP.
Els intrablocs, així com els blocs d'error de predicció de compensació de moviment,
estan codificats per textura. De manera similar a MPEG-1/MPEG-2, la codificació
basada en DCT s'utilitza per reduir les redundàncies espacials. És a dir, cada VOP es
divideix en macroblocs tal com es mostra a la figura 5, i la codificació DCT s'aplica als
quatre blocs de 8 x 8 de luminància i dos blocs de 8 x 8 de crominància dels
macroblocs.
MPEG-4
Codificació de textures.
Un pla alfa binari indica si un píxel pertany o no a un VOP. Un pla alfa en escala de
grisos indica la transparència de cada píxel dins d'un VOP. MPEG-4 proporciona eines
per a la codificació amb pèrdues i sense pèrdues de plans alfa binaris i en escala de
grisos.
En la codificació entre formes, la forma del bloc actual es prediu primer a partir de
la forma del VOP temporalment anterior o futur (segons el tipus de codificació VOP)
realitzant l'estimació i compensació de moviment amb precisió de píxels enters.
MPEG-4
Codificació de sprites.
Codificació de sprites.
Exemple d'un sprite. Un sprite pot consistir en una imatge panoràmica del fons. Aquesta
representació pot augmentar l'eficiència de codificació, ja que la imatge de fons només es
codifica una vegada al començament del segment de vídeo i el moviment de la càmera, com
ara la panoràmica i el zoom, es pot representar amb uns quants coeficients de transformació a
la resta de fotogrames.
MPEG-4
Codificació d'objectes de malla
Les representacions de malla s'han utilitzat amb èxit en gràfics per ordinador per a un
modelatge i renderització eficients de 3Dobjectes. Per tal de beneficiar-se de les
funcionalitats que proporcionen aquestes representacions, MPEG-4 admet
representacions de malla 2-D d'objectes visuals naturals i sintètics, i objectes de
textura fixa, amb pegats triangulars.
Els vèrtexs dels elements de malla triangular s'anomenen punts de node i es poden
utilitzar per fer un seguiment del moviment d'un objecte de vídeo.
MPEG-4
Codificació d'objectes de malla
Una malla triangular 2-D inicial pot ser una malla uniforme. A la figura 9 es mostra un
exemple de malla uniforme. Una malla uniforme es pot representar mitjançant un petit
conjunt de paràmetres: l'amplada i l'alçada del rectangle de la malla i el tipus
d'estructura de la malla.
MPEG-4
Codificació d'objectes de malla
Com es veu una malla es pot adaptar al contingut de la imatge per a una representació
més precisa de l'objecte de vídeo. El procés de selecció dels punts de node per a una
malla i el seguiment dels punts de node de la malla no estan especificats a l'estàndard
MPEG-4. La textura de l'objecte visual corresponent s'ha de codificar per separat
MPEG-4
Resistència a errors
MPEG-4 ofereix eines de resistència als errors per abordar el problema d'un
funcionament robust en canals propensos a errors.
resincronització,
partició de dades i
recuperació de dades.
MPEG-4
Resistència a errors
S'han aplicat molts mètodes basats en text per a l'accés i la manipulació del contingut
visual, on les paraules clau s'associen a cada component visual.
Per tal de superar les limitacions dels mètodes basats en text, que normalment
requereixen ajuda humana per descriure el contingut visual, s'han introduït mètodes
basats en funcions. Les característiques de baix nivell, com la textura, la forma i el
color, i les característiques d'alt nivell, com la informació de composició, s'han emprat
en molts dels sistemes d'accés i manipulació basats en contingut (CBAM) existents.
MPEG-7
Els actuals comitès internacionals d'estandardització, com el comitè MPEG, s'han
centrat en l'estandardització d'una "interfície de descripció de contingut multimèdia"
(MPEG-7).
Els principals reptes als quals s'enfronta l'activitat d'estandardització MPEG-7 és que
les dades visuals poden tenir diferents formats (per exemple, no comprimits,
comprimits), diferents tipus (per exemple, imatges fixes, àudio, vídeo) es poden
descriure mitjançant l'ús de representacions de característiques heterogènies i poden
residir en diferents ubicacions geogràfiques.
MPEG-7
Objectius de l'estàndard visual MPEG-7
No estandarditza les eines que s'utilitzen per generar la descripció i les eines que
utilitzen la descripció (p. ex., eines de reconeixement de contingut).
MPEG-7
Descriptors (D)
Per a un contingut visual determinat (per exemple, imatges, vídeo), es pot extreure un conjunt de
característiques. Una característica es defineix com una característica distintiva del contingut. Per
comparar diverses característiques, cal una representació significativa de cada característica
(descriptor)
Es presenten exemples de descriptors associats amb les característiques principals. Per exemple, la
característica de forma es pot representar mitjançant descriptors geomètrics o descriptors de Fourier.
Un esquema de descripció (DS) és el parell {S, R}, on S és l'estructura que consta de diversos
components, i R és el conjunt de relacions entre els components de S. Aquests components són
descriptors, descriptors i altres esquemes de descripció, o esquemes de descripció.
El llenguatge de definició de descripció (DDL) és el llenguatge utilitzat per especificar els esquemes
de descripció. MPEG-7 requereix que el DDL sigui explícit seguint una gramàtica inequívoca. A més,
el DDL hauria de tenir capacitats compositives, ja que permeten crear nous DS i ampliar els DS
existents. El més important és que el DDL hauria de ser independent de la plataforma.
MPEG-7