Professional Documents
Culture Documents
Definizione 1 Siano Y, X1, . . . , Xm variabili casuali definite sullo stesso spazio probabilistico, M la classe delle (X1, . . . ,Xm) funzioni misurabili e l( ) una funzione di perdita, allora il previsore , con p M, ottimale per Y rispetto alla perdita l se
Th. 1 Siano Y, X1, . . . , Xm variabili casuali con varianza finita, allora il previsore ottimo per Y basato su X1, . . . , Xm, rispetto al quadrato della funzione di perdita (x)= , il valore atteso condizionato Dim Dobbiamo mostrare che non c unaltra funzione misurabile p(x1, . . . ,Xm) che ha perdita attesa pi piccola di La perdita (al quadrato) del previsore ottimale (Mean Squared Error) :
Se calcoliamo la perdita attesa di un generico previsore e sommiamo e sottraiamo il previsore ottimale possiamo allora scrivere lMSE di p( ) come:
Quindi, lMSE di p la somma di un numero fissatto di valori non negativi, uguali a zero se e solo se
Th 2 Siano Y e X (possibili vettori) variabili casuali e g(x) una funzione X misurabile, allora: 1. Legge dei valori attesi iterati
Dim Proviamo solo il caso delle variabili casuali assolutamente continue usando nozioni di probabilit elementari:
Th 3 Sia L la classe di funzioni lineari {0+1X1+...+mXm : (0,1,..,m) Rm+1}, allora il previsore ottimale sulla classe L rispetto alla funzione di perdita quadratica, l(x)=x2, il previsore lineare:
il seguente MSE:
che un sistema di m + 1 equazioni lineari e m + 1 incognite. Quindi, se invertibile c solo la soluzione in caso contrario ci sono infinite scelte di
che risolvono il
sistema. Per provare lunicit del previsore lineare ottimale anche quando la matrice non invertibile, consideriamo due arbitrarie soluzioni del sistema lineare, diciamo e , e la distanza tra i previsori e
Dove abbiamo usato il fatto che entrambi i coefficienti dei vettori soddisfano le equazioni normali sopra. Questa distanza uguale a zero implica che e sono uguali con probabilit uno. Notiamo che il previsore lineare ottimale nel teorema espresso in una forma leggermente diversa. L, abbiamo -coefficienti che risolvono e in blocchi
Possiamo vedere lequivalenza dei due sistemi di equazioni normali se scriviamo come segue:
Th 4 Di seguito forniamo una lista di propriet di cui il previsore lineare ottimale gode: Siano soddisfatte tutte le condizioni del Th 3, siano a, b e c costanti e Z una variabile casuale con varianza finita, allora: 1 Correttezza
5 Legge delle proiezioni iterate Dim Per una notazione pi compatta, sia Correttezza
Ortogonalit
MSE
Linearit E una stretta conseguenza del fatto che il previsore sia una funzione lineare di x. Legge delle proiezioni iterate Se definiamo lerrore di previsione possiamo scrivere Y come Dove per le propriet 1 e 2 abbiamo Quindi, parlando di previsore lineare ottimale basato su x di entrambe le parti dellidentit sopra e usando la propriet della linearit otteniamo:
La propriet 2 del Th 4 pu essere anche usata come definizione per il previsore lineare ottimale, sicuramente definisce la stessa impostazione di equazioni normali come la first order condition per minimizzare lMSE : che , (Dim Th 3). Notiamo che abbiamo sempre decomposto la variabile casuale Y in somma del previsore e delsuo errore dove, per la propriet 1 e 2 del previsore lineare ottimale (Th 4), lerrore E hamedia zero e ortogonale (e quindi incorrelato) a tutte le variabili previsori X1, . . . ,Xm. Th 5 Siano y e x variabili vettori tali che
Allora Dim Chiamiamo e il vettore delle medie e la matrice di varianze-covarianze di Per la dimostrazione abbiamo bisogno la semplice verifica dellidentit
e sostituendo con la
Con e Sostituendo questo risultato e lidentit del determinante nella densit condizionata otteniamo