You are on page 1of 36

MPEG-4

MPEG-7
Multimedia Systems
School of Engineering UAB 2023
MPEG-4

Darrerament hi ha un nombre creixent d'aplicacions i serveis multimèdia en


moltes àrees, com ara l'entreteniment, l'educació, la medicina...

Les tecnologies multimèdia milloren la comunicació interpersonal, afavoreixen


una comprensió més ràpida d'idees complexes.

La gran quantitat de dades i amb diferents tipus; text, parla, música, imatges,
gràfics, vídeo..., fan que la representació, l'intercanvi, l'emmagatzematge, l'accés i
la manipulació sigui molt difícil.

Per la interoperabilitat entre diferents aplicacions multimèdia cal una


estandardització de la representació i l'accés a aquestes dades.
MPEG-4

La nova generació d'aplicacions multimèdia altament interactives requereix que


els usuaris puguin accedir i manipular dades multimèdia tant en formats
comprimits com sense comprimir.

Això ha fet que surtin els darrers temps nous estàndards relacionats amb la
multimèdia.

El grup MPEG va desenvolupar dos estàndards: MPEG-4, que està estandarditzant


una representació codificada basada en objectes de dades multimèdia, i MPEG-7,
que està estandarditzant una interfície de descripció de contingut multimèdia.
MPEG-4

MPEG-4, com MPEG-1 i 2, ofereixen un alt rendiment de compressió, fent molt


més eficient l'emmagatzematge i la transmissió de dades audiovisuals. Menys
ample de banda necessari amb més dades finals.

Objectius clau de MPEG-4:

• Permetre l'accés basat en contingut.

• Proporcionar funcionalitats com la resistència a errors, l'escalabilitat i


la codificació híbrida de dades sintètiques i naturals.
MPEG-4
MPEG-7 permet l'accés i la manipulació de dades
multimèdia basats en continguts eficaços i eficients.

Proporciona funcionalitats complementàries a les de


l'estàndard MPEG-4. Amb l'ús d'un sistema compatible amb
MPEG-4/MPEG-7, es possible accedir, manipular i
processar objectes individuals dins d'una escena
aleatòriament.
Amb un descodificador MPEG-4/MPEG-7, es podria
buscar faristols semblants a l'escena de vídeo o cercar
peixos que són semblants al de la pantalla. Es poden
buscar cortines que tinguin una textura semblant a la del
fons.
MPEG-4
L'objectiu inicial de MPEG-4 era proporcionar eines i algorismes per a la
codificació de dades audiovisuals amb una velocitat de bits molt baixa. Però això
ha canviat per atendre els requisits de les aplicacions multimèdia de nova generació,
comunicacions multimèdia (difusió i interpersonals), Internet, videojocs interactius,
videovigilància i bases de dades multimèdia.

Aquestes noves aplicacions requereixen interactivitat amb objectes individuals,


codificació híbrida d'objectes naturals i sintètics i un alt grau d'escalabilitat i
resistència a errors.

Proporciona les funcionalitats: eficiència de codificació, interactivitat basada en


objectes, codificació genèrica, accés aleatori temporal i basat en objectes,
temporal, espacial, de qualitat i escalabilitat basada en objectes i un funcionament
robust en entorns propensos a errors.
MPEG-4
Representació d'objectes audiovisuals

MPEG-4 fa una representació basada en objectes definint objectes audiovisuals i codificant-


los en segments de flux de bits separats. Un objecte audiovisual (AVO) consisteix en un
component d'objecte visual, un component d'objecte d'àudio o una combinació d'aquests
components.

Les característiques dels components d'àudio i visuals dels AVO individuals poden variar, de
manera que el component d'àudio pot ser sintètic o natural, i mono, estèreo o multicanal
(e+, so envoltant) i el component visual pot ser natural o sintètic.

Alguns exemples d’AVOs inclouen un so gravat amb un micròfon, un discurs sintetitzat a


partir d'un text, una persona gravada per una càmera de vídeo i una imatge en 3D amb
superposició de text.
MPEG-4
MPEG-4
MPEG-4 admet la composició d'un conjunt d'objectes audiovisuals en una escena,
també anomenada escena audiovisual.

Per permetre la interactivitat amb AVO individuals dins d'una escena, és essencial
transmetre la informació que descriu les coordenades espacials i temporals de cada
AVO. (Temps i posició)

Aquesta informació es coneix com a informació de descripció de l'escena i es


transmet com a flux independent i es multiplexa amb fluxos de bits elementals AVO
perquè l'escena es pugui compondre al final per l'usuari.

Aquesta funcionalitat permet canviar la composició dels AVO sense haver de


canviar el contingut dels AVO.
MPEG-4
A l’exemple d'escena audiovisual, està composta per objectes visuals i àudio
naturals i sintètics.

Els objectes AV es poden organitzar de manera jeràrquica.

Els AVO elementals, el cap i la veu associada, es poden combinar per formar un
AVO compost.

És possible canviar la posició dels AVO, esborrar-los o fer-los visibles, o manipular-los


de diverses maneres en funció de la naturalesa de les seves característiques.

Per exemple, si es tracta d'un objecte visual, l'usuari pot fer zoom i girar-lo. Si es
tracta d'un objecte d'àudio, l'usuari pot canviar el seu to, així com el seu punt
d'escolta.
MPEG-4
Es pot modificar la qualitat i les resolucions espacials i temporals dels AVO
individuals. Per exemple, en una aplicació de videotelefonia mòbil, l'usuari pot
sol·licitar una velocitat de fotogrames i una resolució espacial més altes per a la
persona que parla que les dels objectes de fons.

Les escenes audiovisuals finals són reconstruïdes i presentades per terminals


audiovisuals a l'extrem del receptor.

Un terminal audiovisual rep el flux de bits d'una xarxa o un dispositiu


d'emmagatzematge, desmultiplexa el flux de bits per recuperar fluxos elementals,
descomprimeix els objectes AV primitius i, finalment, realitza la composició i la
representació dels objectes AV reconstruïts mitjançant l’ús de la informació
corresponent a la descripció de l'escena total.
MPEG-4
MPEG-4

L'estàndard visual MPEG-4, com els seus predecessors, defineix només la sintaxi del
flux de bits i el procés de descodificació, les definicions precises d'alguns algorismes
de codificació compatibles es presenten en dos models de verificació:

• Un per a la codificació híbrida sintètica i natural (SNHC) i

• l'altre per a la codificació de vídeo natural.


MPEG-4
Així, MPEG-4 té quatre tipus diferents d'eines de codificació:

• Codificació d'objectes de vídeo per a la codificació d'un objecte de vídeo


d'origen natural o sintètic, rectangular o de forma arbitrària;

• codificació d'objectes de malla per a la codificació d'un objecte visual


representat amb una estructura de malla;

• codificació basada en models per a la codificació d'una representació i


animació sintètica de la cara i el cos humà; i

• codificació de textures fixes per a la codificació wavelet de textures fixes.


MPEG-4
Video Object Coding

Un objecte de vídeo (VO) és un segment de vídeo de forma arbitrària que té un


significat semàntic. Una instantània en 2D d'un VO en un instant de temps determinat
s'anomena pla d'objectes de vídeo (VOP). Un VOP es defineix per la seva textura
(valors de luminància i crominància) i la seva forma.

MPEG-4 permet l'accés basat en contingut no només als objectes de vídeo, sinó
també a les instàncies temporals dels objectes de vídeo, és a dir, VOP.

La codificació MPEG-4 d'un VOP implica la codificació de la informació de


moviment, textura i forma.
MPEG-4
Video Object Coding

Quan el VOP és un fotograma de vídeo de forma rectangular, la codificació de


vídeo MPEG-4 esdevé força semblant a l'especificada a MPEG-1/MPEG-2.

Per permetre l'accés a un objecte de forma arbitrària, aquest objecte s'ha de


separar del fons i dels altres objectes.

Aquest procés s'anomena segmentació i es pot realitzar en temps real durant la


codificació (en línia), o en temps no real abans de la codificació (fora de línia). El
procés de segmentació no està estandarditzat en MPEG-4.
MPEG-4
Video Object Coding
La codificació d'objectes consisteix en codificació de formes
(per a VO amb forma arbitrària), predicció compensada de
moviment per reduir les redundàncies temporals i codificació de
textura basada en DCT de les dades d'error de predicció
compensada per moviment per reduir les redundàncies
espacials.
La codificació de vídeo es realitza a nivell de macrobloc.
Els VOP es divideixen en macroblocs, es representen amb el
nombre mínim de macroblocs dins d'un rectangle delimitant.
MPEG-4 admet també VOP intracodificats (I), predits
temporalment (P) i predits bidireccionalment (B)
MPEG-4
Codificador
MPEG-4
Codificació de textures.

Els intrablocs, així com els blocs d'error de predicció de compensació de moviment,
estan codificats per textura. De manera similar a MPEG-1/MPEG-2, la codificació
basada en DCT s'utilitza per reduir les redundàncies espacials. És a dir, cada VOP es
divideix en macroblocs tal com es mostra a la figura 5, i la codificació DCT s'aplica als
quatre blocs de 8 x 8 de luminància i dos blocs de 8 x 8 de crominància dels
macroblocs.
MPEG-4

Codificació de textures.

La transformació DCT dels blocs va seguida de quantificació, exploració en zig-


zag i codificació de longitud variable. Tingueu en compte que es poden utilitzar
mètodes de predicció DC/AC adaptatius i tècniques d'exploració alternatives per a una
codificació eficient dels coeficients DCT dels blocs intra.
MPEG-4
Codificació de formes.

MPEG-4 admet la codificació d'informació de forma per permetre l'accés basat en


contingut a objectes de vídeo individuals en una escena.

MPEG-4 admet codificació de formes, que proporciona un suport limitat de


codificació de formes per mitjà de la seva tècnica de codificació cromàtica.

Es va aplicar les tècniques de codificació de formes basades en polígons i mapes


de bits perquè eren més fàcils de fer. A causa del seu alt rendiment de compressió i
poca complexitat, es va adoptar un codificador de formes basat en mapes de bits.
MPEG-4
Codificació de formes.

En la codificació de formes basada en mapes de bits, la forma i la transparència d'un


VOP es defineixen pels seus plans alfa binaris i en escala de grisos (respectivament).

Un pla alfa binari indica si un píxel pertany o no a un VOP. Un pla alfa en escala de
grisos indica la transparència de cada píxel dins d'un VOP. MPEG-4 proporciona eines
per a la codificació amb pèrdues i sense pèrdues de plans alfa binaris i en escala de
grisos.

En la codificació entre formes, la forma del bloc actual es prediu primer a partir de
la forma del VOP temporalment anterior o futur (segons el tipus de codificació VOP)
realitzant l'estimació i compensació de moviment amb precisió de píxels enters.
MPEG-4
Codificació de sprites.

En MPEG-4, la codificació de sprites s'utilitza per a la representació d'objectes de


vídeo que són estàtics al llarg d'una escena de vídeo, o els seus canvis es poden
aproximar deformant els plans d'objectes originals

Els sprites s'utilitzen generalment per transmetre fons en seqüències de vídeo. Es


codifiquen de la mateixa manera que els VOP intra i es guarden en un buffer al
descodificador per reconstruir les seqüències de vídeo.
MPEG-4

Codificació de sprites.

Exemple d'un sprite. Un sprite pot consistir en una imatge panoràmica del fons. Aquesta
representació pot augmentar l'eficiència de codificació, ja que la imatge de fons només es
codifica una vegada al començament del segment de vídeo i el moviment de la càmera, com
ara la panoràmica i el zoom, es pot representar amb uns quants coeficients de transformació a
la resta de fotogrames.
MPEG-4
Codificació d'objectes de malla

Una malla és una partició d'una imatge en pedaços poligonals.

Les representacions de malla s'han utilitzat amb èxit en gràfics per ordinador per a un
modelatge i renderització eficients de 3Dobjectes. Per tal de beneficiar-se de les
funcionalitats que proporcionen aquestes representacions, MPEG-4 admet
representacions de malla 2-D d'objectes visuals naturals i sintètics, i objectes de
textura fixa, amb pegats triangulars.

Els vèrtexs dels elements de malla triangular s'anomenen punts de node i es poden
utilitzar per fer un seguiment del moviment d'un objecte de vídeo.
MPEG-4
Codificació d'objectes de malla

La compensació de moviment es realitza mitjançant la deformació espacial a trossos


dels mapes de textura que corresponen als pegats triangular. Aquesta representació
proporciona un bon model per a camps de moviment espacialment continus.

Una malla triangular 2-D inicial pot ser una malla uniforme. A la figura 9 es mostra un
exemple de malla uniforme. Una malla uniforme es pot representar mitjançant un petit
conjunt de paràmetres: l'amplada i l'alçada del rectangle de la malla i el tipus
d'estructura de la malla.
MPEG-4
Codificació d'objectes de malla

Com es veu una malla es pot adaptar al contingut de la imatge per a una representació
més precisa de l'objecte de vídeo. El procés de selecció dels punts de node per a una
malla i el seguiment dels punts de node de la malla no estan especificats a l'estàndard
MPEG-4. La textura de l'objecte visual corresponent s'ha de codificar per separat
MPEG-4
Resistència a errors

MPEG-4 ofereix eines de resistència als errors per abordar el problema d'un
funcionament robust en canals propensos a errors.

Aquestes eines es poden dividir en tres grups:

resincronització,

partició de dades i

recuperació de dades.
MPEG-4
Resistència a errors

Si es produeix un error durant la transmissió del flux de bits, és necessària la


resincronització per recuperar les dades i ocultar els efectes dels errors.

MPEG-4 permet la resincronització utilitzant un mètode que és similar a l'enfocament


del grup de macroblocs. La diferència és que, per proporcionar marcadors de
resincronització periòdics, el nombre de macroblocs en un paquet MPEG-4 pot ser
variable, en funció del nombre de bits necessaris per representar cada macrobloc.
MPEG-7
Accés a les parts dels vídeos

S'han aplicat molts mètodes basats en text per a l'accés i la manipulació del contingut
visual, on les paraules clau s'associen a cada component visual.

Per tal de superar les limitacions dels mètodes basats en text, que normalment
requereixen ajuda humana per descriure el contingut visual, s'han introduït mètodes
basats en funcions. Les característiques de baix nivell, com la textura, la forma i el
color, i les característiques d'alt nivell, com la informació de composició, s'han emprat
en molts dels sistemes d'accés i manipulació basats en contingut (CBAM) existents.
MPEG-7
Els actuals comitès internacionals d'estandardització, com el comitè MPEG, s'han
centrat en l'estandardització d'una "interfície de descripció de contingut multimèdia"
(MPEG-7).

Els principals reptes als quals s'enfronta l'activitat d'estandardització MPEG-7 és que
les dades visuals poden tenir diferents formats (per exemple, no comprimits,
comprimits), diferents tipus (per exemple, imatges fixes, àudio, vídeo) es poden
descriure mitjançant l'ús de representacions de característiques heterogènies i poden
residir en diferents ubicacions geogràfiques.
MPEG-7
Objectius de l'estàndard visual MPEG-7

L'objectiu de MPEG-7 és proporcionar una descripció estandarditzada que permeti


l'accés i la manipulació eficaç i eficient del contingut multimèdia.

MPEG-7 estandarditza un conjunt de descriptors (D), un conjunt d'esquemes de


descripció (DS), un llenguatge de definició de descripció (DDL) i esquemes per a la
codificació de les descripcions.

No estandarditza les eines que s'utilitzen per generar la descripció i les eines que
utilitzen la descripció (p. ex., eines de reconeixement de contingut).
MPEG-7
Descriptors (D)

Per a un contingut visual determinat (per exemple, imatges, vídeo), es pot extreure un conjunt de
característiques. Una característica es defineix com una característica distintiva del contingut. Per
comparar diverses característiques, cal una representació significativa de cada característica
(descriptor)

Es presenten exemples de descriptors associats amb les característiques principals. Per exemple, la
característica de forma es pot representar mitjançant descriptors geomètrics o descriptors de Fourier.

Alguns d'aquests descriptors estan estandarditzats en


MPEG-7 (és a dir, pertanyen a l'espai de descriptors
estandarditzats). Un descriptor MPEG-7 ha de ser
rellevant i eficaç. Això garanteix que el descriptor
expressa amb precisió i completament la
característica associada.
MPEG-7
Esquema de descripció (DS)

Un esquema de descripció (DS) és el parell {S, R}, on S és l'estructura que consta de diversos
components, i R és el conjunt de relacions entre els components de S. Aquests components són
descriptors, descriptors i altres esquemes de descripció, o esquemes de descripció.

Similar a un descriptor MPEG-7, un esquema de descripció MPEG-7 ha de ser rellevant i eficaç. A


més, ha de tenir eficiència d'expressió, extensibilitat i escalabilitat amb l'aplicació i amb les dades. La
rellevància i l'eficàcia del DS estan garantides si els components del DS i les relacions entre aquests
components també són rellevants i efectives.
MPEG-7
Descripció Definició Llenguatge (DDL)

El llenguatge de definició de descripció (DDL) és el llenguatge utilitzat per especificar els esquemes
de descripció. MPEG-7 requereix que el DDL sigui explícit seguint una gramàtica inequívoca. A més,
el DDL hauria de tenir capacitats compositives, ja que permeten crear nous DS i ampliar els DS
existents. El més important és que el DDL hauria de ser independent de la plataforma.
MPEG-7

You might also like