You are on page 1of 4

La versione più generale (e impegnativa) della stima del movimento consiste nel calcolare una stima

indipendente del movimento a ciascun pixel, che è noto in modo ennesimo come flusso ottico (o ottico). Come
accennato nella sezione precedente, questo in genere comporta la riduzione della luminosità o della differenza di
colore tra i pixel corrispondenti sommati sull'immagine,

Poiché il numero di variabili {ui} è il doppio del numero di misurazioni, il problema è sottoserrrato. I due
approcci classici a questo problema sono eseguire la sommatoria localmente su regioni sovrapposte (l'approccio
basato su patch o basato su finestre) o aggiungere termini smoothness sul campo {ui} usando la regolarizzazione
o i campi casuali di Markov (Sezione 3.7) e per cercare un minimo globale.
L'approccio basato su patch di solito comporta l'uso di un'espansione della serie Taylor della funzione di
immagine spostata (8.35) per ottenere stime sub-pixel (Lucas e Kanade 1981).
Anandan (1989) mostra come una serie di passaggi di ricerca discreti locali possono essere intercalati con
passaggi di perfezionamento incrementale di Lucas-Kanade in uno schema piramidale grossolano, che consente
la stima di grandi movimenti, come descritto nella Sezione 8.1.1. Analizza inoltre come l'incertezza nelle stime di
movimento locali sia correlata agli autovalori della matrice di iuta locale Ai (8.44), come mostrato nelle Figure
8.3-8.4.
Bergen, Anandan, Hanna et al. (1992) sviluppano un framework unificato per descrivere sia gli algoritmi
parametrici (Sezione 8.2) che quelli basati su patch e forniscono una buona introduzione a questo argomento.
Dopo ogni iterazione della stima del flusso ottico in una piramide grossolana, riordina una delle immagini in
modo che vengano calcolate solo le stime del flusso incrementale (Sezione 8.1.1). Quando si utilizzano patch
sovrapposte, un'implementazione efficiente consiste nel calcolare prima i prodotti esterni dei gradienti e degli
errori di intensità (8.40-8.41) a ogni pixel e quindi eseguire le sommatorie della finestra che si sovrappongono
usando un filtro medio mobile.

Invece di risolvere per ogni moto (o aggiornamento del movimento) indipendentemente, Horn e
Schunck (1981) sviluppano una struttura basata sulla regolarizzazione in cui (8.69) viene
minimizzata simultaneamente su tutti i vettori di flusso {ui}. Per limitare il problema, i vincoli di
uniformità, cioè le penalità al quadrato sulle derivate del flusso, vengono aggiunti alla metrica di
errore base per pixel. Poiché la tecnica è stata originariamente sviluppata per piccoli movimenti in
una struttura variazionale (funzione continua), il vincolo di costanza della luminosità linearizzato
corrispondente a (8.35), cioè, (8.38), è più comunemente scritto come integrale analitico

dove (Ix, Iy) = ∇I1 = J1 e It = ei è la derivata temporale, cioè la variazione di luminosità tra le immagini. Il modello
Horn e Schunck può anche essere visto come il caso limite della stima del movimento basata su spline quando le
spline diventano patch di pixel 1x1.
È anche possibile combinare idee dalla stima del flusso locale e globale in un singolo framework utilizzando una
tela di iuta aggregata (al contrario di un singolo pixel) come luminosità
termine di costanza (Bruhn, Weickert e Schnorr 2005). Considera l'analogo discreto all'energia analitica globale
Se sostituiamo il per-pixel (rank 1) HessiansAi = [JiJTi] e residuals bi = Jiei con le versioni areaaggregate (8.40-
8.41), otteniamo un algoritmo di minimizzazione globale in cui vengono utilizzati i vincoli di luminosità basati
sulla regione.
Un'altra estensione del modello di flusso ottico di base consiste nell'utilizzare una combinazione di modelli di
movimento globali (parametrici) e locali. Ad esempio, se sappiamo che il movimento è dovuto a una telecamera
che si muove in una scena statica (movimento rigido), possiamo riformulare il problema come stima di una
profondità per pixel insieme ai parametri del movimento della fotocamera globale ( Adiv 1989; Hanna 1991;
Bergen, Anandan, Hanna et al., 1992; Szeliski and Coughlan 1997; Nir, Bruckstein e Kimmel 2008; Wedel,
Cremers, Pock et al., 2009). Tali tecniche sono strettamente correlate a
abbinamento stereo (capitolo 11). In alternativa, possiamo stimare modelli di movimento affini per immagine o
per segmento con correzioni residue per pixel (Black e Jepson 1996, Ju, Black e Jepson 1996; Chang, Tekalp e
Sezan 1997; M'emin e P 'erez 2002).
Ovviamente, la luminosità dell'immagine può non essere sempre una metrica appropriata per misurare la
coerenza dell'aspetto, ad esempio quando l'illuminazione di un'immagine varia. Come discusso nella Sezione 8.1,
i gradienti di corrispondenza, le immagini filtrate o altre metriche come gli Hessiani dell'immagine (seconde
misure derivate) potrebbero essere più appropriate. È anche possibile calcolare localmente la fase dei filtri
orientabili nell'immagine, che è insensibile sia al bias che alle trasformazioni di guadagno
(Fleet e Jepson 1990). Papenberg, Bruhn, Brox et al. (2006) esaminano ed esplorano tali vincoli e forniscono
anche un'analisi dettagliata e una giustificazione per immagini iterativamente ri-deformanti durante il calcolo
del flusso incrementale.

Poiché il vincolo di costanza della luminosità viene valutato su ciascun pixel in modo indipendente,
piuttosto che essere sommato su patch in cui l'assunzione del flusso costante può essere violata,
gli approcci di ottimizzazione globale tendono a produrre discontinuità in prossimità del movimento.
Questo è particolarmente vero se vengono utilizzate metriche robuste nel vincolo di scorrevolezza
(Black and Anandan 1996, Bab-Hadiashar e Suter 1998a) .12 Una scelta popolare per le metriche
robuste nella norma L1, nota anche come variazione totale (TV), che si traduce in un energia
convessa il cui minimo globale può essere trovato (Bruhn, Weickert e Schnorr 2005, Papenberg,
Bruhn, Brox e altri 2006). I prismi di levigatezza anisotropica, che applicano una morbidezza
diversa nelle direzioni parallele e perpendicolari al gradiente dell'immagine, sono un'altra scelta
popolare (Nagel e Enkelmann 1986, Sun, Roth, Lewis e altri 2008, Werlberger, Trobin, Pock et al.,
2009) . È anche possibile apprendere una serie di migliori vincoli di uniformità (filtri derivati e
funzioni robuste) da una serie di immagini di flusso e intensità accoppiate (Sun, Roth, Lewis et al.,
2008). Ulteriori dettagli su alcune di queste tecniche sono forniti da Baker, Black, Lewis et al.
(2007) e Baker, Scharstein, Lewis et al. (2009). A causa dell'ampio spazio di ricerca
bidimensionale nella stima del flusso, la maggior parte degli algoritmi utilizza le variazioni della
discesa del gradiente e dei metodi di ripetizione da grossolani a fini per ridurre al minimo il
funzione energetica globale. Ciò contrasta nettamente con l'abbinamento stereo (che è un
problema di stima della disparità unidimensionale "più semplice"), in cui le tecniche di
ottimizzazione combinatoria sono state il metodo di scelta per l'ultimo decennio.
Fortunatamente, i metodi di ottimizzazione combinatoria basate su Markov campi aleatori stanno cominciando
ad apparire e tendono ad essere tra i metodi più performanti sul database di flusso ottico recentemente
pubblicato (Baker, nero, Lewis et al. 2007).
Esempi di tali tecniche includono quello sviluppato da Glocker, Paragios, Komodakiset al. (2008), che usano una
strategia approssimativa con stime di incertezza 2D per pixel, che vengono poi utilizzate per guidare la
raffinatezza e la ricerca al livello successivo migliore. Invece di usare la discesa del gradiente per affinare le stime
di flusso, una ricerca combinatoria su etichette di spostamento discrete (che è in grado di trovare minimi di
energia migliori) viene eseguita utilizzando l'algoritmo Fast-PD (Komodakis, Tziritas e Paragios 2008).
Lempitsky, Roth e Rother. (2008) usano le mosse di fusione (Lempitsky, Rother e Blake 2007) sulle proposte
generate dagli algoritmi di flusso di base (Horn e Schunck 1981, Lucas e Kanade 1981) per trovare buone
soluzioni. L'idea alla base delle mosse di fusione è quella di sostituire porzioni dell'attuale migliore stima con
ipotesi generate da tecniche più basilari (o le loro versioni spostate) e alternarle con la discesa del gradiente
locale per una migliore minimizzazione dell'energia.
Il campo della stima accurata del movimento continua ad evolvere ad un ritmo rapido, con progressi significativi
nelle prestazioni che si verificano ogni anno. Il sito Web di valutazione del flusso ottico
http://vision.middlebury.edu/flow/) è una buona fonte di indicazioni su algoritmi sviluppati recentemente ad
alte prestazioni (Figura 8.12).

Multi frame motion estimation

Finora, abbiamo considerato la stima del movimento come un problema a due fotogrammi, in cui
l'obiettivo è calcolare un campo di movimento che allinea i pixel di un'immagine con quelli di un'altra. In
pratica, la stima del movimento viene solitamente applicata al video, dove è disponibile un'intera sequenza
di frame per eseguire questa operazione.

Un approccio classico al movimento multi-frame consiste nel filtrare il volume spazio-temporale usando
filtri orientati o orientabili (Heeger 1988), in un modo analogo al rilevamento del fronte orientato (Sezione
3.2.3). La Figura 8.13 mostra due fotogrammi dalla sequenza del giardino di fiori comunemente usata,
nonché una sezione orizzontale attraverso il volume spazio-temporale, cioè il volume 3D creato
sovrapponendo tutti i fotogrammi del video. Poiché il movimento dei pixel è per lo più orizzontale, le
pendenze delle singole tracce di pixel (testurizzati), che corrispondono alle loro velocità orizzontali,
possono essere chiaramente viste. Il filtro spazio-temporale utilizza un volume 3D attorno a ciascun pixel
per determinare il miglior orientamento nello spazio-tempo, che corrisponde direttamente alla velocità di
un pixel.

Sfortunatamente, al fine di ottenere stime di velocità ragionevolmente accurate ovunque in un'immagine, i


filtri spazio-temporali hanno estensioni moderatamente grandi, che degradano gravemente la qualità delle
loro stime in prossimità di discontinuità di movimento. (Questo stesso problema è endemico negli stimatori
di movimento basati su finestre 2D). Un'alternativa al filtraggio spazio-temporale completo è di stimare più
derivati spazio-temporali locali e utilizzarli all'interno di un quadro di ottimizzazione globale per riempire le
regioni non testurizzate (Bruhn, Weickert, e Schnøorr 2005; Govindu 2006).

Un'altra alternativa è quella di stimare simultaneamente più stime di movimento, mentre anche
facoltativamente il ragionamento sulle relazioni di occlusione (Szeliski 1999). La figura 8.13c mostra
schematicamente un approccio potenziale a questo problema. Le frecce orizzontali mostrano le posizioni
dei fotogrammi chiave in cui viene stimato il movimento, mentre altre sezioni indicano i fotogrammi video i
cui colori sono abbinati a quelli previsti mediante interpolazione tra i fotogrammi chiave. La stima del
movimento può essere lanciata come un problema di minimizzazione dell'energia globale che minimizza
simultaneamente la compatibilità della luminosità e i termini di compatibilità del flusso tra fotogrammi
chiave e altri fotogrammi, oltre a utilizzare termini di fluidità ottimali.

Il framework multi-view è potenzialmente ancora più appropriato per il movimento di scene rigide (stereo
multi-vista) (Sezione 11.6), dove le incognite di ciascun pixel sono disparità e le relazioni di occlusione
possono essere determinate direttamente dalle profondità dei pixel (Szeliski 1999; Kolmogorov and Zabih
2002). Tuttavia, potrebbe anche essere applicabile al movimento generale, con l'aggiunta di modelli per le
accelerazioni dell'oggetto e le relazioni di occlusione.

Application: video denoising

Application: de-interlacing
https://www.scribd.com/doc/81959519/Riassunto-Organizzazione-Aziendale-Richard-L-Daft-Quarta-Ed

http://d1.scribdassets.com/ScribdViewer.swf?document_id=81959519&access_key=key-
pm8en6vmxkncknkemoc