You are on page 1of 15

Stima Parametrica

Abbiamo visto come tramite gli strumenti della statistica induttiva sia possibile descrivere in
modo succinto linformazione essenziale di una sequenza (o popolazione ) di N dati yi ,
ottenuti rilevando sperimentalmente il valore di una grandezza di interesse del prodotto di un
determinato processo di produzione di beni o servizi. Ci si ottiene stimando i parametri della
distribuzione campionaria dei dati, a partire da un sottoinsieme di essi di dimensione n N .
Mediante opportuni test (test di ipotesi, intervalli di confidenza, tabelle ANOVA) quindi possibile
valutare se il processo allo studio conforme alle specifiche assegnate e se la qualit dei prodotti
raggiunge gli obiettivi prefissati.
Questo modo di procedere tuttavia permette di valutare il processo solo a valle della
produzione, e di ottenere dei prodotti che si distribuiscono uniformemente allinterno di un
intervallo ammissibile di degradazione della qualit rispetto al valore di riferimento (target). Questo
dipende sostanzialmente dal fatto che ci accorgiamo dellincidenza delle cause di disturbo del
processo di produzione solo dopo che queste abbiano agito. Cercare di ridurre al massimo od
eliminare le cause di disturbo comporta normalmente dei costi elevati; una filosofia pi efficiente e
redditizia consiste nel ridurre la sensibilit del processo rispetto ai disturbi.
Nasce quindi lesigenza di dover descrivere il meccanismo secondo il quale un dato
processo trasforma le variabili indipendenti X (materie prime, energia, risorse,) nelle grandezze
di misura Y (prodotto finito, beni, servizi, ), valutando lincidenza su tale trasformazione delle
grandezze di disturbo d

d
X
Processo

Si devono quindi stabilire le condizioni di funzionamento che assicurino che la grandezza di


misura sia il pi possibile vicina al valore di target e che risenta il meno possibile dei disturbi.
Per raggiungere questo obbiettivo si deve definire un modello matematico che descriva il
legame tra le variabili indipendenti, di misura e di disturbo. Una classe piuttosto generale di modelli
la seguente

Y L( X ; ) d
dove un vettore di parametri che caratterizza la famiglia di modelli; il disturbo agisce in modo
additivo e viene normalmente descritto come una grandezza aleatoria che tiene conto sia degli errori
strumentali connessi alla misura sperimentale della Y , sia dellerrore di modello, cio dellerrore

che si commette nel rappresentare il legame esatto tra X e Y con la funzione L() che ne cattura la
parte che noi riteniamo pi significativa.
Definita quindi la famiglia di modelli ora si deve eseguire un esperimento per determinare il
valore dei parametri incogniti in modo da selezionare il modello pi adatto a rappresentare il
processo in analisi. Lesperimento consiste nello scegliere unopportuna sequenza di N dati delle
variabili indipendenti xi ed applicarla al processo; si rileva sperimentalmente quindi la
corrispondente sequenza yi di N dati della grandezza di misura. A questo punto si pu stimare il
parametro incognito elaborando opportunamente i dati

(Y )
La funzione prende il nome di stimatore e viene detta stima del parametro . I metodi di
stima parametrica consistono nello scegliere opportunamente lo stimatore in modo che la stima
ottenuta goda di opportune propriet. I metodi di stima parametrica si distinguono peraltro dalle
informazioni a priori disponibili sul disturbo additivo d e sullincognita . In base a queste infatti
possibile dedurre il cosiddetto modello statistico

p(Y ; )
ovvero la distribuzione dei dati come funzione del parametro incognito . I vari metodi di stima
fanno uso di tale modello statistico sia per dedurre la stima , sia per validare il modello L( X ; )
in base allanalisi del fit error
z Y L( X ; )

Propriet della stima.


Polarizzazione
Il primo requisito che deve possedere una stima quello di essere centrata (non polarizzata,
unbiased): questo consiste nel fatto che lo stimatore non commette errori sistematici nella
valutazione di , per cui
E (Y ) p(Y ; ) dY

cio il valor medio della stima coincide con il valore effettivo dellincognita. Il valor medio
dellerrore di stima e
b( ) E e E

prende il nome di polarizzazione o bias della stima. Per una stima non polarizzata il bias nullo.

Efficienza
Tuttavia, sebbene lerrore di stima possa avere valor medio nullo, gli errori singolarmente
potrebbero essere molto grandi, sia con segno positivo che con segno negativo in modo da
compensarsi mediamente. Quindi il secondo requisito della stima consiste nel fatto che la
distribuzione dei valori di essa sia il pi possibile addensata intorno al valore effettivo o,
equivalentemente che la distribuzione dellerrore di stima sia il pi possibile addensata intorno allo
zero. Quindi si vuole che la matrice di correlazione dellerrore di stima

T
Qe E (Y ) (Y ) p(Y ; )dY

sia minima. Si noti che per una stima centrata la correlazione dellerrore di stima Qe coincide con la
covarianza Re . Nellipotesi che

p(Y ; ) T
( gradiente di p(Y ; ) rispetto a ) esista quasi ovunque, cio

escluso per un insieme di valori isolati di Y ;


2. E p(Y ; )

1. p(Y ; )

per la correlazione dellerrore di stima esiste un risultato di carattere generale che prende il nome di
limite inferiore di Cramer Rao
T
Qe I b( ) ( )1 I b( ) , ( ) E ln p(Y ; ) T ln p(Y ; )

che nel caso scalare diventa

Qe E

db( )

2
d

d ln p(Y ; ) 2

Questa relazione dice che, una volta scelto il modello statistico p(Y ; ) si commette un errore di
stima che necessariamente ha una correlazione non inferiore al valore minimo indicato a secondo
membro. Una stima si dice efficiente se lerrore di stima ha una correlazione pari al valore minimo
possibile dato dal limite di Cramer Rao, cio se la relazione precedente vale con il segno di
uguaglianza. Una condizione sufficiente affinch ci si verifichi consiste nel poter esprimere
lerrore di stima nel seguente modo

M ( ) ln p(Y ; )

In tale caso si dimostra che la stima efficiente anche centrata ed inoltre una stima di massima
verosimiglianza

arg max p(Y ; )


Purtroppo non vale il viceversa, cio in generale non vero che una stima di massima
verosimiglianza sia efficiente e centrata. Tuttavia sotto ipotesi piuttosto generali si pu dimostrare
che la stima di massima verosimiglianza asintoticamente centrata ed efficiente: cio allaumentare
del numero N di dati elaborati la stima di massima verosimiglianza tende ad acquisire le due
propriet suddette.

Consistenza
Anche questa propriet di carattere asintotico, ovvero descrive come si comporta la stima
allaumentare del numero N di dati elaborati. In particolare, indicando con N la stima ottenuta
dallelaborazione di N campioni delluscita, si dice che la stima sia consistente se

lim N

quasi certamente; in altre parole la stima consistente se con probabilit 1 tende al valore vero del
parametro al tendere di N allinfinito. Altre definizioni di consistenza possono far riferimento ai
momenti dellerrore di stima; quella pi usuale la seguente
2

N 0

lim E

in questo caso si dice che la stima consistente in media quadratica.

Stima di massima verosimiglianza


La stima di massima verosimiglianza consiste nel determinare il valore del parametro che
rende massima la distribuzione (verosimiglianza) dei dati

MLE arg max p(Y ; )


In luogo del problema precedente, conviene considerare il seguente

MLE arg max ln p(Y ; )

che, essendo il logaritmo una funzione monotona crescente, ammette la stessa soluzione del
precedente, ma risulta di pi agevole soluzione. Infatti consideriamo il caso in cui il modello di
misura sia lineare in

Y L( X ) d

con Y N , m , L N m e d N ; per non appesantire la notazione da qui in poi non


riporteremo la dipendenza dei coefficienti del modello dai valori delle variabili di ingresso X , per
cui indicheremo sempre L( X ) con L , e L( X ; ) con L( ) .
Supponiamo che d N (0, Q ) , cio che il disturbo additivo sia una gaussiana a media nulla e con
matrice di covarianza Q . Allora luscita risulta essere una gaussiana con valor medio L e
covarianza Q , per cui

p(Y ; )

N /2

det Q

1/ 2

exp Q 1 Y L , Y L

Calcolando il logaritmo, si ottiene una funzione di considerevolmente pi semplice

1
1 Q 1 Y L , Y L
ln p(Y ; ) ln

2 N / 2 det Q 1 / 2 2

ed il problema di massima verosimiglianza diventa

1
MLE arg min Q 1 Y L , Y L
2

La funzione obbiettivo una funzione quadratica dellincognita e lesistenza dellottimo di facile


deduzione. Dato che non abbiamo posto vincoli sui valori di esso varier in tutto m che un
insieme convesso; se la funzione obbiettivo risulta essere convessa, abbiamo una condizione
necessaria e sufficiente di minimo globale

1 1
Q Y L , Y L 0

Tutte e sole le soluzioni della precedente equazione saranno stime ottime di massima
verosimiglianza. Per verificare la convessit della funzione obbiettivo, dato che essendo quadratica
risulta essere di classe C 2 , si pu verificare se lhessiano risulti essere una matrice semidefinita
positiva

1 1
Q Y L , Y L 0

Per la funzione obbiettivo in questione lhessiano risulta essere

LT Q 1 L
che subito visto essere una matrice simmetrica e semidefinita positiva. Per cui la funzione
obiettivo convessa in un insieme convesso, e quindi lequazione

1 1
Q Y L , Y L LT Q 1 Y L 0

fornisce tutte e sole le soluzioni ottime del problema

LT Q1 L LT Q1Y
Se la matrice L ha rango pieno ( Lz 0 z 0 ), la matrice entro parentesi risulta essere non
singolare per cui si ottiene un'unica soluzione ottima

MLE LT Q 1 L

LT Q 1Y

Vediamo se la stima di massima verosimiglianza per un modello lineare con disturbo additivo
gaussiano gode di qualche propriet. Lerrore di stima risulta essere

MLE LT Q 1 L

LT Q 1Y

dato che

LT Q 1 L

LT Q1L
1

si ottiene

LT Q1Y LT Q1L

MLE LT Q 1 L
LT Q 1 L

LT Q 1 L

LT Q 1 Y L

ln p(Y ; )

per cui risulta essere verificata la condizione sufficiente in base alla quale possiamo dire che la
stima ottenuta efficiente; di conseguenza anche centrata. Il limite inferiore di Cramer Rao dato
da
T
E ln p Y ; ln p Y ;

T
E LT Q 1 Y L Y L Q 1 L

T
LT Q 1 E Y L Y L Q 1 L

LT Q 1QQ 1 L

LT Q 1 L

LT Q 1 E dd T Q 1 L

che quindi costante ed indipendente da . Questo significa che qualunque altra operazione sui

dati produrrebbe un errore di stima con matrice di correlazione non inferiore a LT Q 1 L


Se il modello fosse stato non lineare

Y L( ) d
con le stesse ipotesi per il disturbo d , la condizione necessaria per la stima di massima
verosimiglianza sarebbe stata

MLE arg max ln p(Y ; )

1 1
Q Y L( ) , Y L( ) 0

cio
G ( )T Q 1 Y L( ) 0

con G ( ) L( ) / . Si otterrebbe quindi unequazione non lineare da risolvere; diciamo che


quindi in questo caso si dovrebbe adottare un opportuno algoritmo di ottimizzazione che risolva
numericamente il problema di massima versosimiglianza

1
MLE arg min Q 1 Y L , Y L
2

Tuttavia sempre possibile tentare di approssimare il problema originario linearizzando la funzione


L() nellintorno di un valore noto, che si possa ritenere una buona stima iniziale per

L L G

In questo modo il modello di misura approssimato diventerebbe

Y L G d

da cui ponendo Y Y L , si otterrebbe

Y G d
e quindi di nuovo un modello lineare con rumore additivo gaussiano; per questo la stima efficiente

MLE G

Q 1G

Q 1Y

con limite di Cramer Rao pari a


1
T 1

G Q G

che risulta essere funzione della stima iniziale . Per la stima di si ha quindi

'

MLE MLE
lapice sta a ricordare che questa una stima di che deriva dal modello linearizzato.

Stima dei minimi quadrati


Nel caso che sul disturbo additivo non si abbiano informazioni sufficienti per poterne
ipotizzare la distribuzione ma si possa solo ritenere che sia a media nulla, la stima del parametro
incognito pu essere ottenuta minimizzando la norma al quadrato dellerrore di fitting

LSE arg min Y L

arg min Y L , Y L

Come si nota si ottiene un problema analogo al caso precedente con Q pari allidentit. Per cui
sappiamo che se la matrice L ha rango pieno si ottiene ununica soluzione ottima

LSE LT L

LT Y

Dato che il disturbo additivo a media nulla, si pu facilmente stabilire che la stima dei minimi
quadrati (least square estimate) centrata; infatti si ha

E LSE LT L

LT E Y LT L

LT L

Tuttavia nulla si pu dire circa lefficienza della stima, anche perch non si dispone di un modello
statistico dei dati.
Ricordando la definizione di prodotto interno euclideo, la funzione obbiettivo ha la seguente
forma

Y L

Y L , Y L

yi li

i 1

dove li la i-esima riga di L . Si vede come se qualche addendo molto grande rispetto agli altri,
tender a polarizzare il valore della stima LSE , che di fatto dovendo minimizzare tutti questi
scarti al quadrato risente maggiormente di quegli scarti di valore maggiore. Per evitare questo
inconveniente si debbono equalizzare gli scarti al quadrato pesandoli opportunamente, ognuno con
un determinato peso, in modo da rendere tutti gli scarti tra loro confrontabili; in luogo della
precedente funzione obbiettivo si considera quindi la seguente
Y L P P Y L , Y L
2

i 1

pi yi li

con P diag pi ed i pesi pi tutti positivi ovviamente. In questo caso la stima dei minimi
quadrati diventa

LSE LT PL

LT PY

e viene chiamata usualmente stima dei minimi quadrati pesati.

Esempio.
Uno dei problemi pi interessanti nellanalisi dei dati sia demografici che finanziari consiste
nella stima di opportuni andamenti in essi presenti; questi rappresentano dipendenze cosiddette
stagionali che denotano un comportamento tipico a lungo termine. Assegnata quindi una sequenza
yk di dati supponiamo il seguente modello di misura
yk mk nk
con
mk m0 m1 k
In definitiva stiamo descrivendo la sequenza di dati come composta da un andamento lineare nel
tempo mk ( lintervallo di campionamento ossia lintervallo di tempo tra due istanti di misura
consecutivi) la cui misura viene corrotta istante per istante da un rumore additivo che possiamo
supporre bianco e a valor medio nullo; si ricorda che la bianchezza consiste nella propriet per cui
tutti i campioni del rumore sono tra loro incorrelati.
Quello che vogliamo fare stimare i parametri m0 , m1 della legge di variazione
dellandamento medio dei dati mk . Per far questo consideriamo per ogni istante, lo scarto k ( ) tra
il dato sperimentale yk e il valor medio ipotizzato mk
m0

m1

k ( ) yk mk yk [1 k ]

yk [1 k ] yk lk

dove si indicato con m0

m1 il vettore dei parametri incogniti. Si pu determinare


T

mediante la stima dei minimi quadrati


N

arg min yi li arg min Y L


2

i 1

dove si posto
y1
Y ,
y N

l1 1
l 1 2

L 2

lN 1 N

Si pu vedere facilmente che la matrice L per questo problema ha rango pieno pari a 2, per cui la
soluzione del problema dei minimi quadrati ha un'unica soluzione ottima.
Se il valor medio ha un andamento pi generale del precedente, possiamo pensare di
aumentare la complessit del modello di rappresentazione della dinamica del valor medio
ricordando che una qualunque funzione continua del tempo pu approssimarsi con precisione
grande a piacere (su un intervallo finito di tempo) con un polinomio; pertanto si pu porre
mk m0 m1 k m2 (k ) 2 m p (k ) p

e di conseguenza

k ( ) yk mk yk [1 k (k ) 2

m0
m
1
p
(k ) ] m2


mp

yk [1 k (k ) 2 (k ) p ] yk lk
T

dove stavolta m0 m1 m2 m p . Ora non dobbiamo far altro che risolvere lo stesso
problema di prima, ma con

y1

Y ,
y N

l1 1 2 p

l 1 2
(2) 2 (2) p
2


lN 1 N ( N ) 2 ( N ) p

Di nuovo, facile vedere che la matrice L ha rango pieno pari a p+1, e perci si ha ununica
soluzione ottima del problema di minimi quadrati.
Una successiva generalizzazione rispetto al caso precedente consiste nel considerare la
situazione in cui i parametri che descrivono la dinamica del valor medio, siano variabili nel tempo
T

(k ) m0 (k ) m1 (k ) m2 (k ) m p (k ) . Possiamo distinguere due casi differenti: nel primo si


suppone che la rapidit di variazione dei parametri sia piccola se confrontata a quella dei dati; nel
secondo caso invece si suppone che la dinamica di variazione dei parametri sia comparabile a quella
dei dati.
Quando i parametri variano lentamente rispetto alla dinamica dei dati, possibile ancora
utilizzare il metodo di stima dei minimi quadrati, modificandolo opportunamente: in particolare se
consideriamo la somma degli scarti al quadrato

y l
i

i 1

dobbiamo fare in modo che, allaumentare di N, nella sommatoria contino di pi i termini pi vicini
allistante corrente k=N e via via si rendano trascurabili i termini lontani. Ci pu essere ottenuto
cambiando lindice di costo nel seguente modo
N

y l ,
N i

i 1

(0, 1)

Essendo 1 nella sommatoria i termini che corrispondono ad istanti i lontani dallistante corrente
N sono moltiplicati per N i che diventa sempre pi piccolo per i che via via si allontana da N. Tale
tecnica viene detta dei minimi quadrati con fattore di oblio, e permette di stimare il valore del
parametro incognito nellintervallo immediatamente adiacente allistante corrente; questo permette
quindi di inseguire le variazioni temporali del parametro incognito, nellipotesi che queste siano
piuttosto lente. Pi piccolo e pi breve risulta lintervallo adiacente allistante corrente che
viene considerato.

Stima Bayesiana
Questo metodo di stima si deve adottare quando lincognita non un parametro
deterministico, ma una grandezza aleatoria con distribuzione p( ) . In questo caso il modello
statistico costituito dalla densit di probabilit congiunta dei dati e dellincognita p(Y , ) . La
stima del valore di pu essere ottenuta al solito massimizzando la p(Y , )

MULE arg max p(Y , )


che viene detta stima di massima verosimiglianza non condizionata. Infatti la funzione obbiettivo
cambia rispetto al caso di stima di massima verosimiglianza quando il parametro pu assumere
indistintamente un qualunque valore di m : infatti la differenza consiste nel fatto che nel caso
bayesiano i valori di m non sono tutti equiprobabili ma sono assunti con probabilit determinata
dalla distribuzione p( ) . Questo fatto pu essere esplicitato ricordando il teorema di Bayes, in base
al quale la distribuzione congiunta p(Y , ) pu essere fattorizzata nel seguente modo

p(Y , ) p(Y | ) p( )
dove p(Y | ) la distribuzione di Y condizionata a , ovvero la distribuzione dei valori dei dati
Y quando si fissa un generico valore dellincognita. Lespressione di tale funzione facilmente
deducibile dal modello di misura
Y L X ; d

Infatti nellusuale ipotesi che il disturbo additivo abbia distribuzione gaussiana con media nulla e
covarianza Q , fissando un generico valore di , la variabile Y diventa gaussiana con media
L( X ; ) e varianza Q .
Ricorrendo ancora alla trasformazione logaritmica si ottiene

MULE arg max ln p(Y , ) arg max ln p(Y | ) ln p( )

Si vede che rispetto al caso di massima verosimiglianza nella funzione obbiettivo compare il
termine ln p( ) che d un peso differente ai diversi valori di .
Vediamo lespressione della stima ottima nel caso importante di modello lineare con rumore
additivo gaussiano, nelle ipotesi aggiuntive che anche lincognita sia una gaussiana con valor medio
o e matrice di covarianza

p( )

exp 1 o , o
m/2
1/ 2

(2 )
(det )
1

e che sia ovviamente indipendente dal disturbo. Quindi, trascurando i temini costanti, il problema di
stima diventa
1
1

MULE arg min Q 1 Y L , Y L 1 o , o

Effettuando la stessa analisi svolta nel caso di massima verosimiglianza si pu ancora dimostrare
che la funzione obbiettivo risulta essere convessa; infatti lhessiano
LT Q 1 L 1

ed quindi una matrice simmetrica e definita positiva; dallannullamento del gradiente della
funzione obbiettivo si ottiene quindi la seguente condizione necessaria e sufficiente di ottimo
globale

LT Q 1 Y L 1 o 0
da cui

LT Q 1 L 1 LT Q 1Y 1o

Ora, dato che la matrice 1 definita positiva, la matrice LT Q 1 L 1 certamente non


singolare, indipendentemente dal fatto che L sia o meno a rango pieno. Per cui si ottiene lunica
soluzione ottima

MULE LT Q 1 L 1

LT Q1Y 1o
1

Se il modello di misura non lineare, sorgono gli stessi problemi visti nel caso della massima
verosimiglianza, per cui in generale necessario ricorrere al calcolo numerico della soluzione
ottima. Anche in questo caso tuttavia si pu ricorrere alla linearizzazione del modello ed ottenere
una soluzione approssimata.

Validazione delle stime


A conclusione di questo capitolo riportiamo i test che vanno eseguiti per valicare la stima
ottenuta. Abbiamo visto come i vari tipi di stima effettuati si basino su differenti ipotesi di partenza.
Una volta stimato il parametro incognito dovremo verificare se il modello stimato pu costituire
una buona rappresentazione del processo cui si riferisce. Questo pu essere fatto analizzando da un
punto di vista statistico la grandezza nota come fit error o residuo

z Y L( X ; )
Tenendo conto che tutti i modelli considerati presentavano il disturbo in forma additiva, si capisce
come il modello identificato L( X ; ) rappresenti bene i dati sperimentali Y se il residuo ha le
stesse caratteristiche ipotizzate per il disturbo additivo.
Come prima verifica potremmo quindi accertarci che il valor medio del residuo sia nullo; ci
pu essere fatto mediante un opportuno test di ipotesi valutando valor medio e deviazione standard
campionaria di z

N
1 N
2
)), 1
y

zi z
(
(

i
i
z
N i 1
N i 1

e ricordando che, per il teorema del limite centrale, se N abbastanza grande la variabile
standardizzata

z z z

z
z

pu considerarsi una gaussiana standard N(0,1). Considerando quindi un livello di significativit del
test dell % si pu testare lipotesi nulla che E ( z ) 0 se

z
N

z
N

con percentile di una N(0,1) all % . Se z dovesse essere fuori dellintervallo di confidenza
z

si deve rifiutare lipotesi nulla e ritenere quindi che il residuo non sia a
, z

N
N
media nulla, denotando un difetto del modello scelto, che quindi andrebbe modificato.
Come seconda verifica si potrebbe testare che il residuo abbia la statistica ipotizzata per il
disturbo additivo: nellipotesi che il disturbo additivo sia una sequenza gaussiana con covarianza
Q , si potrebbe testare se anche il residuo possegga tali caratteristiche. Quindi la sequenza

z Q 1 Y L dovrebbe essere una sequenza gaussiana standard. Il test sul tipo di

distribuzione pu essere eseguito con un test di Anderson-Darling.


Da ultimo si pu verificare la bianchezza della sequenza mediante il test di bianchezza di
Anderson: si calcolano le seguenti grandezze

( )

1 N
z z , 2, 5
N i 1 i i

(0)

1 N 2
z
N i 1 i

Il test di bianchezza si basa sul risultato che, se la sequenza zi bianca allora, per N abbastanza
grande, la grandezza

( ) N

( )
(0)

tende a distribuirsi come una gaussiana standard N(0,1); per cui si fa il solito test con livello % .