You are on page 1of 60

Tema 1: Estimacin de movimiento

J. M. Sotoca

11Junio 2002

ndice:
1.1 Introduccin.
1.1.1 Proyeccin en perspectiva.
1.1.2 Proyeccin ortogrfica.
1.2 Modelos paramtricos.
1.2.1 Movimiento 2D.
1.2.2 Estimacin en perspectiva..
1.2.3 Estimacin afn.
1.3 Modelos no paramtricos.
1.3.1 Mtodos (OFE).
1.3.2 Mtodos por bloques.
1.3.3 Mtodos recursivos.
1.3.4 Mtodos bayesianos.
1.4 Nociones sobre compresin de vdeo (H.261, MPEG-1 y MPEG-2).

1.1 Introduccin.
Se presentan modelos de la variacin espacio-temporal de la
intensidad espacial en la imagen sc(x1, x2, t) o sc(xc,yc,t).
Esto supone la variacin de los objetos de la escena 3D
proyectados sobre el plano imagen 2D. Bsicamente es:
Modelo 3D de
escena

Formacin de
imagen

Muestreo
espacio-temporal

ruido
Movimientos de rotacin, traslacin y escalado.
Cuerpos rgidos- Cuerpos no rgidos (modelos de deformidad).
Supone pasar de un sistema (Xc, Yc, Zc, t) a un sistema (xc, yc, t)

1.1.1 Proyeccin en perspectiva.


Modelo de cmara: En un plano llamado plano imagen, se forma
la imagen mediante un operador llamado proyeccin en
perspectiva.
Componentes:
A una distancia fija f del plano imagen, se localiza un punto Oc llamado
centro ptico o punto focal. A esta distancia f se le denomina longitud
focal del sistema ptico, y se usa para formar la imagen m en el plano
imagen de un punto 3D. As, denominamos m la interseccin entre la
lnea OcM con el plano .
El eje ptico es la lnea que pasa por el centro ptico Oc y es
perpendicular a plano imagen, cortando dicho plano en un punto c.
Otro plano de inters (ver figura) es el plano F que pasa por el punto Oc
y es paralelo al plano . A este plano se le denomina plano focal.
Adems, en el modelo podemos trabajar con el plano imagen por
delante o por detrs del centro ptico, de manera que las imgenes
que se forman en ambos planos, estn invertidas una respecto de la
otra (ver figura).
4

1.1.1 Proyeccin en perspectiva.

1.1.1 Proyeccin en perspectiva.


Las coordenadas cartesianas del punto M respecto al centro ptico son M
= (Xc, Yc, Zc)T. Este punto a su vez establece la direccin de un rayo
respecto al centro ptico de forma que todos los puntos de la forma M =
(Xc, Yc, Zc)T pertenecen al rayo. Dicho rayo corta al plano imagen en el
punto m = (xc, yc, f)T. Si dividimos por la longitud focal f podemos cambiar
a coordenadas normalizadas de forma que el plano imagen a distancia
unidad del centro ptico (xcf, ycf, 1)T. Entonces podemos establecer las
siguientes relaciones:

Este sistema puede ser escrito de forma lineal mediante lgebra


proyectiva en coordenadas homogneas dependiendo de un factor de
escala :

donde = Zcf es un factor de escala, (Xc, Yc, Zc, 1)t son las coordenadas
del punto M en 3D.
6

1.1.2 Proyeccin ortogrfica.


Asume que todos los rayos de la escena, viajan paralelos unos a otros. Por
esa razn tambin se le llama proyeccin paralela.
El plano imagen es paralelo al plano formado por los ejes Xc y Yc del sistema
de referencia mundo. Luego xc=Xc y yc=Yc y obtenemos la siguiente relacin:
Xc
x c 1 0 0


Yc
y c 0 1 0 Z
c

donde xc y yc son las coordenadas del plano imagen.


La distancia del objeto a la cmara no afecta a la distribucin de intensidades
de la imagen en el plano ortogrfico.
Da buenos resultados cuando la distancia del objeto a la cmara es mucho
mayor que la profundidad relativa de puntos del objeto respecto al sistema de
referencia del propio objeto.
La observacin de ruido en vdeo puede ser modelado en el proceso de
discretizacin de la imagen. (filtraje y restauracin)

1.2 Modelos paramtricos.

11Junio 2002

1.2.1 Movimiento 2D.


Deseamos estimar el movimiento proyectado por un objeto en la
imagen (velocidad y desplazamiento).
Se observa el movimiento aparente (flujo ptico o correspondencia).
Es necesario distinguir entre velocidad 2D y flujo ptico, y desplazamiento
2D y correspondencia entre regiones.
Movimiento 2D o movimiento proyectado se refiere a la proyeccin en
perspectiva u ortogrfica del movimiento 3D en la imagen.
Sea P un punto del objeto en tiempo t que se mueve a P en t. La
proyeccin en perspectiva en el plano imagen son p y p respectivamente.
El desplazamiento entre tiempos t y t= t+ l t donde l es un entero y t es
el intervalo temporal de muestreo, permite definir una funcin del vector
de desplazamiento dc(x, t; l t) a partir de variables continuas espaciotemporales (x,t)3.
El desplazamiento de coordenadas x de t a t basado en la variacin de la
intensidad sc(x, t) es llamado vector de correspondencia. El flujo ptico
recoge ese cambio en velocidades (v1, v2)= (dx1/dt, dx2/dt) en un punto
(x,t)3. En la practica, obtenemos un campo de desplazamientos
(velocidades).
9

1.2.1 Movimiento 2D.

10

1.2.1 Movimiento 2D.


El flujo ptico, en general, es diferente al desplazamiento 2D
(velocidad 2D):
Falta de precisin en el gradiente espacial: Debe haber suficiente
variacin en la regin de movimiento para que este sea observable.
Cambios en la iluminacin externa: El flujo ptico observable no
siempre corresponde al movimiento actual. La iluminacin externa varia
entre frames (direccin de iluminacin y sombras).

En el problema de estimacin de movimiento 2D se plantean 2


pasos:
Estimacin de los vectores de desplazamiento imagen-plano d(x,t;lt)
=(d1(x,t;lt), d2(x,t;lt)) entre t y t+lt para todos los puntos.
Estimacin de los vectores de flujo ptico v(x,t) = (v1(x,t), v2(x,t))T.

El problema de correspondencia puede realizarse hacia delante


t+lt o hacia atrs t-lt.
Registrado de imagen: Es un caso especial de correspondencia donde

los dos frames son globalmente desplazados uno respecto del otro. Ej: Una
escena esttica tomada desde dos posiciones de la cmara.
11

1.2.1 Movimiento 2D
Movimientos relacionados con la cmara:

12

1.2.1 Movimiento 2D
Fig 5.2: Al hacer un zoom, las lneas salen de manera radial respecto de un
punto que recibe el nombre de foco de expansin (FOE).
Fig 5.3: En la figura de abajo se realiza una traslacin pura en el eje X (hacia
la derecha). Se puede observar como las lneas de flujo son paralelas y de
modulo creciente a mayor profundidad.
Fig 5.5: Se observa el flujo de imagen producido por movimiento combinado
de traslacin en el eje Z (hacia delante) y de rotacin pura en el sentido
negativo del eje Y. (a la derecha). El FOE parece que se ha desplazado hacia
la derecha, aunque es un efecto engaoso y sigue situado en el centro.

13

1.2.1 Movimiento 2D.


Estimacin de flujo ptico: Consiste en estimar la correspondencia entre
dos frames d(x,t;lt)= v(x,t) lt para velocidad constante.

Si las componentes de desplazamiento o velocidad de cada pxel son


tratadas como variables independientes, entonces el nmero de
ecuaciones es igual al nmero de pxeles, donde cada vector tiene
dos componentes.
Problemas:
Existencia de una solucin (oclusin): Una regin del objeto del cual
pretendemos estimar su movimiento queda oculto en el frame siguiente.
Existencia de solucin nica (apertura): La solucin al problema de
estimacin de movimiento no siempre es nica.
Existencia de situaciones donde no hay sensacin de movimiento.
Solo puede estimarse el movimiento que es ortogonal al gradiente
espacial de la imagen en cada pxel (vector normal).
Continuidad de la solucin: La estimacin es altamente sensitiva a la
existencia de ruido en las observaciones. Pequeos incrementos de ruido
pueden suponer desviaciones importantes en la estimacin.
Mltiples modelos de movimiento.
14

1.2.1 Movimiento 2D.


Podemos distinguir dos tipos de modelos de movimiento:
paramtricos y no-parametricos.
Modelos paramtricos:
Son aquellos descritos mediante proyeccin en perspectiva u ortogrficos
sobre el plano imagen.
Si el movimiento 2D es resultante del movimiento rgido 3D en proyeccin
ortogrfica solo son necesarios 6 parmetros (modelo afn).
Bajo proyeccin en perspectiva son necesarios 8 parmetros (modelo
proyectivo u homografa).

Modelos no-paramtricos:
El objeto en movimiento no tiene que ser rgido. Podemos distinguir las
siguientes aproximaciones:
Basados en la ecuacin de flujo ptico (OFE): Se basan en el uso de
gradientes espacio-temporal de la intensidad de la imagen. Es necesario
una suavidad en la variacin espacio-temporal entre vecinos. Esta
necesidad causa imprecisin ante la existencia de oclusin en la frontera.
En color se analizan las tres bandas de color por separado.
15

1.2.1 Movimiento 2D.


Modelos por bloques: Se asume que la imagen esta compuesta por
bloques. Se plantean dos enfoques para determinar el desplazamiento de
los bloques :
Correlacin de fase: El termino linear de diferencia de fase entre dos
frames consecutivos en la transformada de fourier, determina el
movimiento estimado.
Correspondencia entre bloques: Se busca el mejor bloque de
tamao fijo entre los dos frames con un criterio de distancia. A
menudo el bloque se puede deformar.
Mtodos recursivos: Estn basados en estimadores de desplazamiento
de tipo predictor-corrector. La prediccin puede tomar como valor de
estimacin de movimiento la localizacin del pxel previo o una
combinacin de la vecindad en el pxel actual. La actualizacin de la
prediccin esta basada en minimizar el gradiente de desplazamiento de
diferencia de frame (DFD) en ese pxel.
Mtodos bayesianos: Utilizan una restriccin probabilstica de
probabilidad en forma de campos aleatorios de Gibbs para estimar el
desplazamiento de campo.
16

1.2.2 Transformacin en perspectiva.


Dado un conjunto de puntos en un plano que llamaremos plano de
referencia, se busca su correspondencia en el plano imagen a un plano
homogrfico, tambin conocida como transformacin proyectiva en el
plano.
Una homografa es descrita mediante una matriz H de rango 3 x 3 llamada
matriz homogrfica. Mediante esta matriz se determina la transformacin
de los puntos en el plano de referencia a puntos en el plano imagen.

17

1.2.2 Transformacin en perspectiva.


Se define al matriz homogrfica Hs como:
xc
Xw
y H Y
s
w
c
w
W
donde Hs es una matriz que describe la homografa.
Sistema de coordenadas del mundo X = (Xw, Yw, W)T ,con Zw = 0.
Sistema de coordenadas imagen x = (xc, yc, w)T.
Si trabajamos con el proceso inverso, podemos llegar a la siguiente expresin:
W X w a b c
W Y d e f
w

W g h 1

xc
y
c
1

donde W nos queda: W gx hy 1 . Si sustituimos en la expresin anterior


nos queda:
a b c xc
d e f y

c
Xw
Y g h 1 1
w
xc
1
g h 1 yc
18
1

1.2.2 Transformacin en perspectiva.


En forma no matricial sera las siguientes expresiones:
ax by c c
Xw c
gx c hy c 1

Yw

dx c ey c f
gx c hy c 1

Multiplicando el denominador en ambos lados tenemos:


gX w x c hX w y c X w ax c by c c

gYw x c hYw y c Yw dx c ey c f
Si despejamos Xw e Yw y aadimos ceros tenemos:
X w x c a y c b c 0d 0e 0 f X w x c g X w y c h
Yw 0a 0b 0c x c d y c e f Yw x c g Yw y c h
El problema se reduce a n correspondencias entre puntos de los dos
sistemas, donde se tienen 2n ecuaciones con 8 variables desconocidas.
As si n = 4, la solucin es exacta, mientras que si n > 4, H est
sobredeterminada y puede ser estimada mediante un esquema
sobredeterminado. Ej: Descomposicin en valores singulares (SVD).

19

1.2.2 Transformacin en perspectiva.


Para n= 4 tenemos:
x1
0

x2

0
x3

0
x
4
0

y1
0
y2
0
y3
0
y4
0

1 0
0 x1
1 0
0 x2
1 0
0 x3
1 0
0 x4

0
y1
0
y2
0
y3
0
y4

0 X 1 x1
1 Y1 x1
0 X 2 x2
1 Y2 x 2
0 X 3 x3
1 Y3 x 3
0 X 4 x4
1 Y4 x 4

X 1 y1
Y1 y1

X 2 y2

Y2 y 2
X 3 y3

Y3 y 3
X 4 y4

Y4 y 4

a
X1
b
Y

1
c
X2

d Y2
e
X3

f
Y3
g
X

4
h
Y4

20

1.2.2 Transformacin en perspectiva.

21

1.2.2 Transformacin en perspectiva

Antonio Criminisi, Accurate Visual Metrology from Single and Multiple


Uncalibrated Images. Tesis Doctoral.

22

1.3 Modelos no paramtricos.

11Junio 2002

1.3.1 Mtodos (OFE).


Ecuacin de flujo ptico:
Sea sc(x1, x2, t) la distribucin de intensidad en el continuo espacio-tiempo. Si
la intensidad es constante a lo largo de la trayectoria tenemos:

dsc ( x1 , x2 , t )
0
dt
donde x1 y x2 varan con t de acuerdo al movimiento. Esta derivada es una
derivada total que denota el cambio de intensidad a lo largo de la trayectoria
de movimiento. Pasando a derivada parciales:

s c ( x, t )
s ( x, t )
s (x, t )
v 1 (x, t ) c
v 2 ( x, t ) c
0
x1
x2
t
donde v1(x,t) = dx1/dt y v2(x,t) = dx2/dt son las componentes del vector
velocidad. Esta ecuacin es conocida como ecuacin de flujo ptico.
Alternativamente:

sc (x, t ), v ( x, t )

sc (x, t )
0
t

donde sc(x,t) son los dos gradientes y , es el producto escalar.


24

1.3.1 Mtodos (OFE).


Los dos valores desconocidos de OFE son los escalares v1 y v2. Nosotros
podemos estimar la componente del flujo en la direccin espacial del
gradiente de imagen llamado vector normal de flujo:

v ( x, t )

sc (x, t )
sc (x, t )

La componente del vector de flujo esta en la direccin del gradiente espacial


de la intensidad de imagen y es consistente con el problema de apertura.
En la bsqueda de otras restricciones para determinar las componentes de
flujo, diversos autores sugieren la conservacin del gradiente espacial de la
imagen:

d sc (x, t )
0
dt

Una estimacin del flujo ptico puede darse a partir de la siguiente expresin:

v
1
v
2

2 sc (x, t )
x2
2 1
sc (x, t )
x x
1 2

2 sc (x, t )
x2 x1
2 sc (x, t )
x22

2 sc (x, t )

t x1
2 sc (x, t )

t x2

25

1.3.1 Mtodos (OFE).


Lucas-Kanade:
Una forma de resolver el problema de apertura es asumir que el movimiento no
cambia en un particular bloque de pxeles denotado para x B (LucasKanade).
Aunque este modelo no es adecuado para movimientos rotacionales, es posible
estimar movimientos de traslacin pura si el tamao del bloque es
suficientemente grande y cuenta con suficiente variacin. Definimos el error de la
ecuacin de flujo sobre el bloque:

sc ( x , t )
s ( x, t )
s ( x, t )
v1 (t ) c
v2 ( t ) c

x B
1
2

Computando el error respecto a v1 y v2 e igualando a cero podemos obtener las


siguientes estimaciones:

v
1
v
2

sc (x, t ) sc (x, t )

x1
x1
x B
sc (x, t ) sc (x, t )

x1
x2
x B

sc (x, t ) sc (x, t )

x1
x2
x B

sc (x, t ) sc (x, t )

x2
x2
x B

sc (x, t ) sc (x, t )

x
t
x B
1

s
(
x
,
t
)

s
(
x
,
t
)
c
c

xB x2
t

26

1.3.1 Mtodos (OFE).


Horn-Schunk:
Este mtodo satisface las variaciones entre pxeles y es menos restrictivo que
el mtodo anterior. Denotamos el error del flujo:

E of (v (x, t ) sc (x, t ), v (x, t )

sc ( x, t )
t

En presencia de ruido y oclusin, el objetivo es minimizar el cuadrado de ese


error. La variacin de los vectores velocidad pxel a pxel puede cuantificarse
como la suma al cuadrado de los gradientes espaciales de las componentes
del vector velocidad:

v1
2
2
2
E s ( v (x, t )) v1 (x, t ) v2 (x, t )

v1

v2

v2

donde asumimos que las coordenadas espaciales y temporales son continuas.


El mtodo minimiza el promedio de la suma del error de OFE y la medida de
la variacin del campo de velocidades:

min E of2 ( v ) 2 E s2 ( v ) dx

v ( x ,t )

27

1.3.1 Mtodos (OFE).


A denota el soporte continuo de la imagen. El parmetro 2, es utilizado
como control del grado de suavidad de cambio del flujo. Minimizando la
funcional en la expresin anterior tenemos:

sc

x1

v1 (x, t )

sc sc
s sc
v2 (x, t ) 2 2 v1 (x, t ) c
x1 x2
x1 t

sc
sc sc
v1 (x, t )

x1 x2

v2 ( x , t ) v 2 ( x , t )
2

sc sc
x2 t

donde 2 es la laplaciana. En la implementacin del mtodo se utiliza la


iteracin de Gauss-Seidel para llegar a la siguiente expresin:

sc ( n )
sc ( n )
sc
v
(
x
,
t
)

v
(
x
,
t
)

1
2
(
n

1
)
(
n
)

s x1
x2
t
v1
(x, t ) v1 (x, t ) c
2
2
x1

s
c
c
2

x1
x2
sc ( n )
sc ( n )
sc
v
(
x
,
t
)

v
(
x
,
t
)

1
2
(
n

1
)
(
n
)

sc x1
x2
t
v2
( x , t ) v2 ( x , t )
2
2
x2

s
c
c
2

x1
x2

28

1.3.1 Mtodos (OFE).


Estimacin de gradientes mediante diferencias finitas: Consideremos una
imagen discreta s(n1, n2, k) en el frame k y n1 y n2 las coordenadas de la
imagen. Entonces podemos aplicar las siguientes expresiones:
sc ( x1 , x 2 , t ) 1
{s(n1 1, n2 , k ) s(n1 , n2 , k ) s(n1 1, n2 1, k ) s(n1 , n2 1, k )
x1
4
s(n1 1, n2 , k 1) s(n1 , n2 , k 1) s(n1 1, n2 1, k 1) s(n1 , n2 1, k 1)}
sc ( x1 , x 2 , t ) 1
{s(n1 , n2 1, k ) s(n1 , n2 , k ) s(n1 1, n2 1, k ) s(n1 1, n2 , k )
x2
4
s(n1 , n2 1, k 1) s(n1 , n2 , k 1) s(n1 1, n2 1, k 1) s(n1 1, n2 , k 1)}
sc ( x1 , x 2 , t ) 1
{s(n1 , n2 , k 1) s(n1 , n2 , k ) s(n1 1, n2 , k 1) s(n1 1, n2 , k )
t
4
s(n1 , n2 1, k 1) s(n1 , n2 1, k ) s(n1 1, n2 1, k 1) s(n1 1, n2 1, k )}
Estimacin de gradientes mediante ajuste polinmico: En este caso se busca
aproximar sc(x1, x2, t) mediante un polinomio de bajo orden.
N 1

sc ( x1 , x 2 , t ) ai i ( x1 , x 2 , t )
i 0

29

1.3.1 Mtodos (OFE).


donde i(x1, x2, t) son las bases del polinomio y ai son los coeficientes.
Ej (cudricas): i(x1, x2, t)=1, x1, x2, t, x12, x22, x1x2, x1t, x2t
El mtodo de Horn-Shunck impone restriccin de suavidad sobre la imagen.
Esto tiene dos efectos no deseados.
La restriccin de suavidad no se da en la direccin perpendicular a la
frontera de oclusin. Puede haber cambios bruscos en la frontera de los
objetos (motion edges). La solucin esta en imponer solo suavidad en la
direccin donde la frontera no tiene cambios significativos (restriccin de
suavidad direccional).
Estos mtodos de restriccin adaptativa pueden aplicarse mediante la
expresin:

E ds2 ( v (x, t )) (v1 ) T W (v1 ) (v 2 ) T W (v 2 )


donde W es una matriz de pesos que penaliza la variacin del campo de
movimiento en funcin de los cambios espaciales(Ver Tekalp pag 87-88).

30

1.3.1 Mtodos OFE.


Evaluacin de la bondad de una estimacin de movimiento:
Proporcin de picos debidos a seal de ruido (PSNR): Se calcula a partir
del desplazamiento de diferencia de frames DFD.

PSNR = 10log10

255 x 255

2
s
(
n
,
n
,
k

1
)

s
(
n

d
(
n
,
n
),
n

d
(
n
,
n
),
k
)

1
1 1 2
2
2 1 2
1 2

donde d1 y d2 son los desplazamientos estimados en cada pxel.


Entropa H del campo de movimiento estimado:

H=-

P(d )log P(d ) P(d )log P(d )


1

d1

d2

donde P(d1) y P(d2) denotan la frecuencia relativa de ocurrencia en las


componentes horizontal y vertical del vector de movimiento d. Es una
medida de la suavidad del campo de movimiento, y tiene especial inters
en compresin de vdeo basado en estimacin de movimiento.
Es de destacar que la media absoluta de DFD no da una medida de la
bondad de la estimacin.
31

1.3.2 Mtodos por bloques.


Modelo de movimiento:
Son muy utilizados en compresin de vdeo (H.261 y MPEG 1-2).
Se usan tambin en filtros de compensacin de movimiento para conversiones
estndar.
Los movimientos basados en bloques, asumen que la imagen est compuesta
por dos tipos de movimiento:
1) Simple movimiento en traslacin 2D.
2) Deformaciones 2D en los bloques. (Seccin 6.5, Tekalp)
En el primer caso el movimiento de cada bloque consiste en una traslacin
pura. Sea uno de los N X N bloques B en el frame k centrado en n = (n1, n2)
modelados con desplazamiento del mismo tamao a k + l.

s n1, n 2 , k s n1 d1, n 2 d 2 , k l
d1 y d2 son las coordenadas de desplazamiento. Por tanto la cuestin se
reduce a encontrar una correlacin entre bloques en los frames k y k+l.
En este proceso puede darse superposicin de bloques como se ve en la
figura. Cuando no hay superposicin al bloque entero se asigna un vector de
movimiento. En el otro caso se calcula el movimiento promedio en la regin de
solapamiento.
32

1.3.2 Mtodos por bloques.

a) Sin superposicin. b) con superposicin


Estos mtodos requieren slo necesitan un movimiento por bloque.
Fallan para procesos con zoom, movimiento rotacional y deformaciones
locales. Adems, la divisin en bloques no se ajusta a la forma de los objetos.
33

1.3.2 Mtodos por bloques.


Mtodo de correlacin de fase:
La idea es recoger ese movimiento discreto del que hemos hablado en la
ecuacin anterior en el espacio de frecuencias con l =1.

Sk f1, f2 Sk 1 f1, f2 exp j 2 d1f1 d 2f2

(1)

donde Sk(f1,f2) denota la transformada de fourier del frame k para las variables
espaciales x1 y x2. La diferencia de fase en el plano de frecuencias f1 y f2
vendr dado por 2 (d1f1+d2f2). Un problema que aparece en el plano imagen
es que a veces este movimiento queda oculto. En otras situaciones aparecen
varios objetos movindose dentro del bloque y no es fcil su identificacin.
El mtodo de correlacin de fase, facilita estas tareas por medio del
desplazamiento relativo de bloques mediante una funcin de correlacin
computada en el espacio de frecuencias.
El poder espectral entre los frames k y k+1 es definida como:

C k ,k 1 f1, f2 Sk 1 f1, f2 S*k f1, f2


34

1.3.2 Mtodos por bloques.


Esta operacin corresponde a una convolucin o ms simplemente el producto
de sus respectivas transformadas (ver Gonzalez-Wintz 87). Normalizando el
poder espectral CN, obtenemos su fase y sustituyendo la eq. (1), llegamos a la
siguiente expresin:

C N k, k 1 f1, f2 exp j2 f1d1 f2d 2

El proceso a seguir sera el siguiente:


Calculamos una DFT para cada bloque de los frames k y k+1.
Computamos la fase del poder espectral.
Computamos una DFT inversa de CNk,k+1(f1,f2) para obtener la funcin
correlacin de fase cNk,k+1(n1,n2).
Localizamos los picos de la funcin correlacin de fase.
Problemas:
Pueden afectar las discontinuidades en la frontera apareciendo picos
falsos.
Es deseable que los desplazamientos se correspondan a un entero
mltiple del intervalo de cambio en el dominio de frecuencias.
El tamao del bloque debe ser grande para detectar el desplazamiento, y
no demasiado para que el desplazamiento sea constante en el bloque.
35

1.3.2 Mtodos por bloques.

Funcin de correlacin de fase.

36

1.3.2 Mtodos por bloques.


Correspondencias entre bloques:
Criterio de correspondencia.
Estrategia de bsqueda.
Determinacin del tamao del bloque.
Mnimo error cuadrtico medio (MSE):

MSE( d1, d 2 )

1
N1 N 2

s n1, n 2 , k s n1 d1, n 2 d 2 , k 1

( n1 , n 2 )B

se busca el bloque de tamao N1 y N2 que minimice ese error.


Mnima diferencia en valor absoluto(MAD):
MAD( d1, d 2 )

1
N1N 2

s n , n , k s n d , n
1

2 d2, k 1

( n1 , n 2 )B

El segundo es ms utilizado en operaciones realizadas con hardware. Estos


mtodos pueden realizar una estimacin errnea ante la existencia de
mnimos locales.
37

1.3.2 Mtodos por bloques.


Estrategia de bsqueda:

(left) Three-step search.

(right) Cross-search
38

1.3.2 Mtodos por bloques.


Estimacin jerrquica:

(left) Representacin jerrquica. (right) Bsqueda jerrquica.


39

1.3.2 Mtodos por bloques.

(Malo et al, 99): Exploiting perceptual feedback in multigrid motion estimation for
video coding an improved DCT quantization scheme.
40

1.3.2 Mtodos por bloques.


Modelos de bloques deformables:
a) Segmentar el frame actual en bloques de rectngulos o tringulos.
b) Utilizaremos una funcin de transformacin que perturbaremos. Ej:
transformacin afn, transformacin en perspectiva y transformacin bilineal.
c) Transformaremos los pxels del frame actual sobre el nuevo frame calculando la
correspondencia entre puntos.
d) Elegiremos aquella transformacin espacial que minimice MSE o MAD.

Modelo basado en bloque deformables.

41

1.3.2 Mtodos por bloques.

Modelo de bloques regular y adaptativo


42

1.3.3 Mtodos recursivos.


Los mtodos recursivos realizan estimaciones del tipo prediccin-correccin
de la forma:
i

d( x, t, t ) d ( x, t, t ) u( x, t, t ) (1)

donde d(x,t,t) denota el vector de movimiento estimado en la localizacin de x


y tiempo t, di(x,t,t) denota la estimacin de movimiento predicho y u(x,t,t)
denota la actualizacin entre los dos trminos. Generalmente, el mejor
estimador encontrado en el paso previo es tomado como prediccin en el
siguiente de forma que se minimice la diferencia de desplazamiento entre los
dos frames (DFD).
As, el DFD entre los instantes de tiempo t y t=t+t se define como:

df d (x, d) sc (x d(x, t , t ), t t ) sc ( x, t ) (2)


donde sc(x1,x2,t) denota la variacin de intensidad a medida que cambia t. Si
expandimos por series de Taylor sc(x+d(x),t+t) para d(x) y t pequeas,

sc ( x1 d 1 (x), x 2 d 2 (x), t t )
s ( x, t )
s ( x, t )
sc ( x , t )
sc ( x , t ) d 1 ( x ) c
d 2 ( x) c
t
On
x1
x2
t

(3)
43

1.3.3 Mtodos recursivos.


Sustituyendo (3) en (2) y eliminando los trminos de orden superior tenemos:
sc (x, t )
sc (x, t )
s ( x, t )
df d (x, d)
d 1 ( x)
d 2 ( x ) t c
( 4)
x1
x2
t
Vemos que dicha expresin en muy parecida a la ecuacin de flujo OFE.
Si t 0 se obtiene OFE:
sc (x, t )
sc (x, t )
sc (x, t )
v1 (x, t )
v 2 ( x, t )
0 (5)
x1
x2
t
Si t es finito, es necesario estimar el vector desplazamiento d(x) entre los dos
frames:
(a) Mediante estrategia de correspondencia entre bloques.
(b) Usando una estrategia de optimizacin por descenso de gradiente
(aproximacin recursiva).
(c) Tomando t=1 y dfd(x,d)=0 y solucionando la ecuacin (4) usando un bloque
de pxeles.

44

1.3.3 Mtodos recursivos.


Algoritmo de Netravali-Robbins:
Consiste en encontrar una estimacin del vector desplazamiento que minimice
la siguiente funcin:
2

E( x, d ) df d( x, d )

Mediante el mtodo por descenso de gradiente podemos hacer la siguiente


iteracin:
1
2
d i 1 x d i x d df d( x, d )
2
d d i
d i x df d( x, d ) d df d( x, d ) d d i
Para resolver el gradiente a partir de la expresin (2) tenemos:
df d( x, d ) df d( x, d i ) sc x d, t t sc x d i , t t

Y expandiendo la intensidad sc en torno a un punto arbitrario x + d en series


de Taylor alrededor de x + di, tenemos:

sc x d, t t sc x d i , t t

dd
i

i
x sc x d, t t
i O x, d
d d

45

1.3.3 Mtodos recursivos.


Sustituyendo esta ltima expresin en la anterior nos queda:


dd

df d x, d df d x, d i
i

i
x sc x d, t t
i O x, d
d d

Como x sc(x-d,t-t)|d=di = x sc(x-di,t-t), podemos expresar el gradiente de la


DFD con respecto de d en trminos de gradiente espacial de la intensidad de
imagen:
i
d df d x , d
i x sc x d , t t
d d

As, el proceso de iteracin nos queda:

d i 1 x d i x df d x, d i x sc x d i , t t

( 6)

En esta ltima expresin, el primer y segundo trmino son la prediccin y el


trmino de actualizacin. Con el parmetro establecemos la rapidez con que
converge el algoritmo.

46

1.3.3 Mtodos recursivos.


Algoritmo de Walker-Rao:
En la vecindad de una zona de alto gradiente donde |sc(x1,x2,t)| es alto, el
parmetro debera ser pequeo si la DFD queremos que sea pequea a
fin de asegurar una buena convergencia.
Anlogamente, en imgenes con reas uniformes donde |sc(x1,x2,t)| es
pequeo necesitamos el proceso inverso.
Para este fin proponen la siguiente expresin:

1
i

2 x sc x d , t t

Adems, introducen las siguientes reglas heursticas:


a) Si el DFD es menor que un cierto umbral el trmino de actualizacin es
igual a cero y el proceso se para.
b) Si la DFD excede el umbral pero el gradiente espacial es cero, el trmino
de actualizacin es igual a cero y el proceso se para.
c) Si el valor absoluto del trmino de actualizacin para cada componente
es menor que 1/16 se le asigna al trmino 1/16.
d) Si el valor absoluto del trmino de actualizacin para cada componente
en mayor que 2 se le asigna al trmino 2.
47

1.3.3 Mtodos recursivos.


Caffario y Roca tambin desarrollan una expresin similar:

1
i

x sc x d , t t

donde el trmino 2, impide una divisin por cero en el caso de reas con
intensidad constante donde el gradiente espacial es casi cero. Un tpico valor
de 2 = 100. Experimentalmente se comprueba que con 5 iteraciones los
resultados suelen ser satisfactorios.
Extensin a un modelo de bloques:
La cuestin consiste en dado un pxel x, crear partiendo de los pxeles vecinos
un bloque B de forma variable, tal que se minimice la siguiente DFD:

E( x, d )

2
d
f
d
(
x
,
d
)

x b B

Siguiendo un proceso como antes llegamos a la siguiente expresin de


iteracin:
d i 1 x d i x

df d x

x b B

i
i
b , d ( x ) x s c x b d ( x ), t t

48

1.3.3 Mtodos recursivos.

Soporte causal de x para N = 7.


Estimacin de Wiener:
Supone una extensin del algoritmo de Netravali-Robbins sobre bloques
basado en mnimos cuadrados . Se trata de minimizar el error en el trmino de
actualizacin partiendo de la expresin (1):

u i x = d x d i x
donde d(x) es el vector desplazamiento real del bloque. Sea un bloque con N
vecindades del pxel x, entonces a partir de la expresin (6) podemos obtener
la siguiente forma matricial:
z = u x n

49

1.3.3 Mtodos recursivos

s x (1) di , t t
c b

-df d( x (1), d i ( x ))
b

x1

s c x b ( 2 ) d i , t t

-df d( x b ( 2), d i ( x )) =
z=

x1

i
-df d( x b ( N ), d ( x ))
s c x b ( N ) d i , t t

x1

sc x b (1) d i , t t

x 2

O( x (1), d i )
b

i
O( x b ( 2), d )

s c x b ( 2 ) d , t t

x 2
i

O( x b ( N ), d i )

s c x b ( N ) d , t t
x 2

Sin considerar el vector n y usando el principio de ortogonalidad puede llegarse a


la siguiente expresin del mnimo lineal error cuadrtico medio:
1
T
T

u( x ) I

Donde es un parmetro regulador que depende de las varianzas de intensidad en


las dos componentes de la imagen. Sustituyendo en (6) llegamos al siguiente
proceso iterativo:

i+1

( x ) d ( x ) I

Tz

50

1.3.4 Mtodos bayesianos.


Estimacin 2D basada en mxima probabilidad a posteriori (MAP):
Requiere dos funciones de densidad de probabilidad (pdf):
La probabilidad condicional pdf de la intensidad de imagen observada dado
el campo de movimiento, tambin llamado modelo likelihood o modelo de
observaciones.
La probabilidad a priori pdf de los vectores de movimiento o modelo de
campo de movimiento.
Sea la intensidad de campo en un pxel x y el frame k, sk(x) y d(x)=(d1(x),d2(x))
denota el vector desplazamiento. En general, cuando observamos vdeo, este
esta corrompido por la adicin de ruido de la forma gk(x) = sk(x) + vk(x).
El bsico MAP para dos frames gk(x) y gk-1(x) es:

(d1, d 2 ) arg maxd1d 2 p d1, d 2 | g k , g k 1

Utilizando el teorema de bayes:

p d1, d 2 | g k , g k 1

p g k | d1, d 2 , g k 1 p d1, d 2 | g k 1
p g k | g k 1

51

1.3.4 Mtodos bayesianos.


donde p(gk|d1,d2,gk-1) es la probabilidad condicional o medida de consistencia
que mide como de bien es estimado el desplazamiento d 1, d2 sobre gk dado
gk-1, y p(d1,d2|gk-1) es la pdf a priori del campo de movimiento reflejado en el
conocimiento que tenemos del estado actual en gk-1.
El denominador no dependen de d1 , d2 y puede considerarse constante en el
propsito de la estimacin.

(d1, d 2 ) arg max d1d 2 p g k | d1, d 2 , g k 1 p(d1, d 2 | g k 1 )


El cambio de la intensidad en un pxel a lo largo de una trayectoria de
movimiento verdadera es debido a la observacin de ruido. Asumiendo que la
observacin de ruido es blanco, este puede considerarse una gaussiana de
media cero y varianza 2. Entonces la pdf condicional puede modelarse como:

p g k | d1, d 2 , g k 1 2

12d ( )

exp
x

g k (x ) g k 1(x d(x )) 2
2

donde d() denota el determinante de , el cual viene dado por la densidad de


muestreo de la imagen (resolucin de la imagen).
52

1.3.4 Mtodos bayesianos.


La pdf a priori viene dada por el campo de movimiento en el frame gk-1, que
puede ser modelizado mediante muestreo de Gibbs GRF, donde la funcin de
potencial viene impuesto por la variacin de contraste pxel a pxel:
1
p d1 , d 2 | g k 1
exp U d d 1 , d 2 | g k 1
Qd
Qd es llamada funcin de particin y Ud es la energa interna de Gibbs.
U d d 1 , d 2 | g k 1 d Vdc d 1 , d 2 | g k 1
cCd

Cd es el conjunto de todos los clichs para el campo de desplazamiento y V cd()


representa la funcin de potencial del clich para cCd y d es una constante
positiva. El potencial del clich variara asignando probabilidades en funcin de
las variaciones existentes pxel a pxel. Ej:

Demostracin del modelo de Gibbs


Este modelo de potencial para 4-vecinos viene definido por
si z ( xi ) z ( x j )
Vdc d 1 , d 2 | g k 1
en caso contrario

53

1.3.4 Mtodos bayesianos


Campos aleatorios de Gibbs.
Dado un sistema de vecindades N asignado al conjunto de clichs C,
definimos un campo aleatorio de valores discretos:
1
p( z) e U ( z w )/ T ( z w)
Q w
donde i es la delta de dirac, y normalizando constante Q llamada funcin
particin, queda:
U ( z w )/ T

Q e
w

Para valores continuos en campos aleatorios


1
p( z) e U ( z)/ T
Q

Q e U ( z)/ T

donde la funcin particin es

y U(z) es la energa interna de Gibbs definido por


U ( z) Vc ( z (x)| x C )
c C

54

1.4 Nociones sobre compresin de vdeo (H.261,


MPEG-1 y MPEG-2).

(left) Digital video studio standards. (Right) Wold standards for image
compression.

55

1.4 Nociones sobre compresin de vdeo (H.261,


MPEG-1 y MPEG-2).
Estndar H.261 (1990):
Desarrollo de vdeo compresin estndar para facilitar servicios de vdeoconferencia y vdeo-telfono.
Informacin p X 64 kbps, p= 1,...,30.
Para p=1, es usado en vdeo-telfono donde 48 kbps es seal de vdeo y
16 kbps es seal de audio.
Para p>=6, 384 kbps o ms, es usado en vdeo-conferencia.
Para p=30, 1.92 Mbps, es suficiente para imgenes con calidad VHS o
mejores.
Proyecto COST(CoOperation in the field of Scientific and Technical
reseach) 1983-1990. En 1985, sale el estndar H.120, n x 384 kbps, n=
1..5.
Caractersticas:
Perdida mxima de codificacin 150 msec. Pensado para un sistema
bidireccional.
Sensible a implementaciones VLSI de bajo costo y aplicable a
sistemas comerciales de vdeo-telfono y tele-conferencia.
Acceso secuencial en el almacenamiento de la informacin.
Formatos de imagen: Common Intermediate Format (CIF) y QCIF (onequarter of the CIF).
56

1.4 Nociones sobre compresin de vdeo (H.261,


MPEG-1 y MPEG-2).

Tabla 23.1. H.261 input image formats.


Compresin similar a JPEG basado en block-by-block DCT:
1.
Estimacin de movimiento (desplazamiento) de cada bloque macroblocks
(MB)
2.
Seleccin del modo de compresin en cada MB basada en el
desplazamiento.
3.
Para cada MB se genera una cabecera con el modelo elegido.
57

1.4 Nociones sobre compresin de vdeo (H.261,


MPEG-1 y MPEG-2).
Estndar MPEG-1:
(1992) Compresin/Descompresin de CIF vdeo con 1.5 Mbps.
Soporta operaciones de estimacin de movimiento, predicin, DCT,
cuantizacin y codificacin de longitud variable.
Anlogamente al H.261, no tiene un modelo estandar de compresin o
estimacin.
Propiedades:
Acceso aleatorio en aplicaciones de almacenaje de vdeo.
Bsqueda rpida para seleccin de determinados frames.
Permite prdidas de codificacin de hasta 1 segundo.
720 pels/line, 576 lines/pic, 30 pic/sec, 396 MB/pic, 9900 MB/sec
Group of pictures (GOP).
I-picture: Intra-frame DCT encoded.
P-picture: inter-frame encoded pictures for forward prediction.
B-picture: inter-frame encoded pictures for forward, backward, or
bidirectional relative to other I- or P-pictures.
D-picture: contain only the DC component of each block.
58

1.4 Nociones sobre compresin de vdeo (H.261,


MPEG1 y MPEG2).

23.5 Group of pictures in MPEG-1

59

1.4 Nociones sobre compresin de vdeo (H.261,


MPEG-1 y MPEG-2).
Estndar MPEG-2:
Permite entradas interlazadas, definir alta definicin y alternativos submuestreos
del canal chroma.
Mejora la cuantizacin y opciones de codificacin.
Ofrece un bitstream escalable: Escalabilidad espacial (resolucin pxel),
Escalabilidad SNR (diferentes pasos para cuantizar los coeficientes DCT) y
Escalabilidad temporal (decodificar diferentes tamao de frame sin tener que
hacerlo frame a frame).

23.11. A GOP for an interlanced video


60