You are on page 1of 228

Appunti di Econometria

F.C. Bagliano, L. Benfratello, A. Sembenelli Dipartimento di Scienze Economiche e Finanziarie “G. Prato” Università di Torino Marzo 2006

c ° 2006 F.C. Bagliano-L. Benfratello-A. Sembenelli.

2

Indice
1 Natura e scopo dell’econometria 2 9

Cenni di calcolo delle probabilità e di inferenza statistica 13 2.1. Esperimento casuale, spazio campionario, evento . . . . . . . 13 2.2. Probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.2.1. Proprietà delle probabilità . . . . . . . . . . . . . . . . 15 2.2.2. Altre de…nizioni utili sulle probabilità . . . . . . . . . 16 2.3. Variabili casuali . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.4. Distribuzioni di probabilità . . . . . . . . . . . . . . . . . . . 20 2.5. Distribuzioni teoriche di probabilità . . . . . . . . . . . . . . 25 2.5.1. Distribuzione normale . . . . . . . . . . . . . . . . . . 25 2.5.2. Distribuzione normale standardizzata . . . . . . . . . 27 2.5.3. Distribuzione Â2 (Chi-quadrato) . . . . . . . . . . . . 28 2.5.4. Distribuzione t di Student . . . . . . . . . . . . . . . . 29 2.5.5. Distribuzione F di Fisher . . . . . . . . . . . . . . . . 30 2.6. Inferenza statistica - Stimatori . . . . . . . . . . . . . . . . . 33 2.7. Inferenza statistica - Stimatore per intervalli e intervalli di con…denza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.8. Inferenza statistica - Test di ipotesi . . . . . . . . . . . . . . . 41 2.9. Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 45 49 . 49 . 49 . 50 . 52 . 52

3 Modelli di Regressione - Introduzione e concetti di base 4 Modelli di Regressione - Regressione lineare bivariata 4.1. Metodo dei Minimi Quadrati Ordinari . . . . . . . . . . 4.1.1. Assunzioni . . . . . . . . . . . . . . . . . . . . . 4.1.2. Stima dei parametri . . . . . . . . . . . . . . . . 4.1.3. Proprietà algebriche dei minimi quadrati . . . . . 4.1.4. Il coe¢ciente di determinazione semplice . . . . . 3

. . . . .

. . . . .

4

INDICE 4.1.5. Proprietà statistiche . . . . . . . . . . . . . . . . . . . Intervalli di con…denza e test delle ipotesi . . . . . . . . . . . Introduzione alla previsione . . . . . . . . . . . . . . . . . . . Forme funzionali utili . . . . . . . . . . . . . . . . . . . . . . Appendice : Stima econometrica della propensione marginale al consumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 60 63 65 68 74 77 77 77 78 80 80 82 82 85 86 90 91 91 92 97 103 106 111 113 113 115 117 117 117 117 117 120 120 120

4.2. 4.3. 4.4. 4.5. 4.6.

5 Modelli di Regressione - Regressione lineare trivariata 5.1. Metodo dei Minimi Quadrati Ordinari . . . . . . . . . . . . . 5.1.1. Assunzioni . . . . . . . . . . . . . . . . . . . . . . . . 5.1.2. Stima dei parametri . . . . . . . . . . . . . . . . . . . 5.1.3. Proprietà algebriche dei minimi quadrati . . . . . . . . 5.1.4. Il coe¢ciente di determinazione multiplo (R2 ) . . . . . 5.1.5. Il coe¢ciente di determinazione multiplo “aggiustato” (R2 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.6. Proprietà statistiche . . . . . . . . . . . . . . . . . . . 5.2. Interpretazione dei coe¢cienti e variabili omesse . . . . . . . 5.2.1. Il problema dell’omissione di variabili rilevanti . . . . 5.3. Test di Ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.1. Ipotesi su singoli parametri . . . . . . . . . . . . . . . 5.3.2. Ipotesi congiunte su più parametri . . . . . . . . . . . 5.3.3. Restrizioni lineari sui parametri . . . . . . . . . . . . . 5.3.4. Stabilità strutturale dei parametri . . . . . . . . . . . 5.4. Previsione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5. Appendice : Stima econometrica di una funzione di produzione Cobb-Douglas . . . . . . . . . . . . . . . . . . . . . . . 5.6. Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Elementi di algebra lineare 6.1. De…nizioni di base . . . . . . . . . . . . . . . . 6.2. Matrici notevoli . . . . . . . . . . . . . . . . . . 6.3. Operazioni fra matrici . . . . . . . . . . . . . . 6.3.1. Addizione . . . . . . . . . . . . . . . . . 6.3.2. Sottrazione . . . . . . . . . . . . . . . . 6.3.3. Moltiplicazione per uno scalare . . . . . 6.3.4. Moltiplicazione fra vettori e fra matrici 6.3.5. Trasposizione di una matrice . . . . . . 6.3.6. Inversione di una matrice . . . . . . . . 6.3.7. Determinante . . . . . . . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. 165 165 167 168 169 172 176 . . . . . . . . . . . . . . . . . . . . . . 153 8 Violazioni delle assunzioni classiche e modello di regressione lineare generalizzato 157 8. . Interpretazione geometrica del metodo dei minimi quadrati . . . . . . 136 7. . . . . . . 138 7. . . . . . . . . . . . . 177 10. . 5 123 126 128 131 7 Il modello di regressione lineare multivariata: i Minimi Quadrati Ordinari (OLS) 133 7. Test di eteroschedasticità . . . . . . .3. . . . . . 9. . Notazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Interpretazione dei coe¢cienti di regressione multipla . . . . . . . . . 157 8. . . . . . . . .5. . . . .6. . 141 7. . . 178 10.4. . 178 . . . . . . . . . Proprietà statistiche . . . . Stima dei parametri: metodo dei Minimi Quadrati Ordinari . . . .4. . Il modello di regressione lineare generalizzato e lo stimatore GLS (Generalized Least Squares) . . . . . . . . . . . . . . .1. . . . . Introduzione . . . 6. . . . . . .2. . . . . . . . . . . . . . . . 6. . 139 7. . . . .12. . . 161 9 Eteroschedasticità 9. . . . . . .3. . . . . . . . . . . . . .1. .6. . . . . . . Omissione di variabili rilevanti e inclusione di variabili irrilevanti151 7. . . . . . . . . . . . . . . . . . Esercizi . . . . . . . . . . . .2. . 10 Autocorrelazione 177 10. . . . . . . .5. . . . . . . .5. . . . . . . . . . . 9. . . . Esercizi . . . . . . . Esempio: il modello di regressione lineare bivariato . .7. . . . . . . . 159 8. . . . . . . . .1. . . .10. .1. . . . . 147 7. . . . . . . Forme lineari e forme quadratiche . . Applicazioni utili del prodotto fra vettori e fra matrici Dipendenza e indipendenza lineare di vettori . . . Proprietà algebriche dei minimi quadrati . . . . . . . . . Esercizi . . Eteroschedasticità: un’applicazione . . . .3. 9. . . . FGLS ed eteroschedasticità . . . . . .2. . . . . . . .2. 149 7. . . . Introduzione . 145 7.9. . . . . 139 7. . . . . . . . 135 7. Test di ipotesi . .6. . . Coe¢ciente di determinazione multiplo . . . . .11. .2. . . .7. . . . .8. . . . OLS ed eteroschedasticità . . Violazioni delle assunzioni su V ar (") . . . . . . . . . . . . . . . . . . . . . . . . . Minimi quadrati generalizzati (GLS) ed eteroschedasticità 9. . . . . . . . 142 7. .13. . . . . . . .INDICE 6. . . . 9. . . . . . White noise . . . . . . . . . 6. . . . . . . 133 7. . . . . . . . . . Processi stocastici (cenni) . . . Assunzioni classiche . . Nota alle proprietà algebriche degli stimatori OLS . . . . . . .4. . . . . . . . .1. . .

. 180 181 183 185 188 189 191 198 202 203 205 . . . . . . . . 214 13. . . . . . . . . . . . . . . . . . Modelli a ritardi distribuiti . . . . . . . Distribuzione 221 . . . . . . .5. . . . . . . . . . . . Autocorrelazione ed errata speci…cazione 10. . . . . . Test di autocorrelazione in modelli autoregressivi (del primo ordine) . . . . Durbin-Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribuzione 14. . . 10. . . . . .2. . 218 13.6. . . . . . . . . . . .2. . . .2. . . . . . .7. . . . . . . . .2. . . . . . . . . . . . . . . Processo AR(1) . . . 225 . . . . . . . . . . .3.8. . . . . . .4. . . . . . . 10. . .3. . . INDICE . . De…nizione . . . . 210 . . .6. . 222 . . . . . 213 13. . . . t . . .4. . .2. . . . . 224 . . . . .3. . . . . . Variabili dummy moltiplicative . . . . . . . . . . . . 11 Violazione dell’assunzione di normalità 12 Variabili dummy 12. . . FGLS con termini di errore AR(1) . . . . . Test di autocorrelazione . . . . . . . . . . . . . . 223 . .6 10. . . . . GLS con termini di errore AR(1) . . . . . . . . . . . . .1. . . . . . . . . . .1. . . . 211 . . . 209 . 10.4. 217 13. . F . . . . . . . . . . . . . Variabili dummy additive . .4. . . . . . .5. . . 206 . . . . . . . . dinamica. . . . . . . . . . . . . . . Processo MA(1) . . . . . . . . . . . Distribuzione 14. . . . 227 normale standardizzata . . Distribuzione 14. .3. . . . . . . . 216 13. . . . . . . . . . . Distribuzione 14. . . . . . . . . . . . 220 14 Tavole 14. . .1. . . . . . . . . . . . . Fondamenti economici dei modelli dinamici (I): modello con aspettative adattive . . Fondamenti economici dei modelli dinamici (II): modello con “aggiustamento parziale” . . . . . . 10. . 10. . . . . . . . . . . . . . . . . . .2. Variabili dummy e test di stabilità dei parametri. . . .5. . 12. 10. . . . . . . 10. . Random walk . . . . . . . . Esercizi . . . . . 12. .4. 13 Modelli dinamici 213 13. . Esercizi . .3. . . . . Modelli dinamici: cenno ai problemi di stima . . . . . . . . 205 . . .2. . . . . . Eteroschedasticità di tipo ARCH . . . . . . . . . . . . . . 12. . . . . . . . . . . . . . . . . . . . . . . . . . . . Introduzione . . . . . 12. . . Â2 . . . . . .5. . .

. autocorrelazione (capitolo 10) e non normalità (capitolo 11). Il corso copre i fondamenti del modello classico di regressione lineare e le sue principali estensioni. Tavole statistiche delle principali distribuzioni utilizzate sono raccolte nel capitolo 14.Introduzione Questi appunti sono stati preparati per facilitare la frequenza e lo studio del corso di Econometria di base presso la Facoltà di Economia dell’Università di Torino. Tale approccio viene adottato nella seconda parte del corso per l’estensione al caso n-variato del modello classico di regressione (capitolo 7). Le necessarie tecniche di calcolo matriciale sono sinteticamente presentate nel capitolo 6. viene presentato il modello nelle versioni bivariata e trivariata senza utilizzare l’approccio matriciale (capitoli 3-5). dopo necessari richiami di calcolo delle probabilità ed inferenza statistica (capitolo 2). per l’introduzione del modello generalizzato di regressione (capitolo 8) e per a¤rontare i problemi di stima dovuti ad eteroschedasticità (capitolo 9). Chiudono il corso due capitoli dedicati all’utilizzo di variabili dummy (capitolo 12) e ad un’introduzione ai modelli dinamici (capitolo 13). Nella prima parte del corso.

8 .

Prerequisiti : ² Economia (macro e micro) ² Matematica ² Statistica Ragione (pragmatica) per studiare econometria. elasticità del de…cit pubblico all’aliquota …scale). elasticità dei prodotti al prezzo e al reddito).).Capitolo 1 Natura e scopo dell’econometria De…nizione. gli investitori …nanziari e le autorità pubbliche (consumi. tasso di cambio.. Campo di studi in cui metodi matematici e statistici vengono applicati ai dati economici al …ne di dare contenuto empirico alla teoria economica. tasso d’interesse... volatilità dei titoli azionari) e per le autorità pubbliche (es. per gli investitori …nanziari (es. 2. L’econometria fornisce la necessaria strumentazione per: 1. investimenti. . quanti…care grandezze economiche rilevanti per le imprese (es. fornire previsioni sull’andamento futuro di grandezze economiche rilevanti per le imprese.

Teoria economica 2. :::) Ovviamente la teoria economica può suggerire variabili addizionali (es. x.. Dati economici 4. :::) (b) scelta della forma funzionale (lineare) q = ¯ 0 + ¯1p + ¯2x . 2. x. il suo prezzo (negativa) e il reddito dei consumatori (positiva) q = f(p. Controllo della corretta speci…cazione del modello econometrico (ed eventuale rispeci…cazione) 6. Speci…cazione del modello econometrico 3.10 capitolo 1 Costruzione di un modello econometrico: 1. Esempio (volutamente banale): 1. Teoria economica. Utilizzo del modello per: (a) veri…ca delle ipotesi (b) previsione (c) simulazione di scenari alternativi di politica economica. prezzo dei beni sostituti e complementari.. Usualmente si ipotizza una relazione tra la quantità domandata di un bene di consumo..). investimenti pubblicitari. Speci…cazione del modello econometrico: (a) selezione delle variabili indipendenti da includere nel modello q = f(p. Stima del modello econometrico 5.

se casuali. ¯ 1 . Dati economici. Ad esempio: ² sono state omesse delle variabili rilevanti? ² la forma funzionale è corretta? ² le assunzioni sulla struttura stocastica del termine di disturbo sono corrette? ² le assunzioni sulla natura dei regressori sono corrette? . Mediante l’applicazione di appropriati metodi di stima ai dati economici si ottengono stime dei parametri del modello. annuali). (d) assunzioni sulla natura delle variabili indipendenti e sulla loro relazione con l’errore: i. Controllo della corretta speci…cazione del modello. correlate con l’errore? 3. la varianza e (in alcuni casi) la distribuzione di probabilità. impresa. ² Parametri del modello: ¯ 0 . Prima di utilizzare il modello stimato è necessario controllare che le assunzioni fatte nella fase (ii) non siano implausibili se confrontate con i dati economici che sono stati utilizzati per la stima. trimestrali. I parametri del modello ¯ 0 . variabili deterministiche o variabili casuali? ii. mensili. ¯ 1 . 4. ¯ 2 non sono noti. ² Dati panel: dati di più individui osservati per più di un periodo. ¯ 2 ² Stime dei parametri: b0 . b1 . ² Serie di tempo: dati di un individuo (paese. ² Dati cross-sezionali: dati di più individui osservati per un solo periodo. lavoratore) osservati per più di un periodo (settimanali. consumatore. È quindi necessario stimarli utilizzando dei dati campionari disponibili. b2 5.Natura e scopo dell’econometria 11 (c) assunzioni sul termine di errore (o più semplicemente errore) q = ¯0 + ¯1p + ¯ 2x + " dove " è una variabile casuale di cui bisogna ipotizzare il valore atteso. Stima del modello econometrico.

12 capitolo 1 6. Utilizzo del modello. ² Veri…ca di ipotesi: il segno di b2 è consistente con quanto suggerito dalla teoria economica? ² Previsione: conoscendo i valori previsti dei regressori è possibile prevedere il valore della variabile dipendente? .

Nell’esperimento lancio di due monete: de…nendo con E1 l’evento “esce almeno una testa” questo include gli esiti TT.1. lancio di un dado. nell’esperimento “lancio di due monete” lo spazio campionario include quattro possibili esiti (TT. Evento. CT. Spazio campionario (o popolazione). Un sottoinsieme dello spazio campionario. Esperimento che ha almeno due possibili esiti (o risultati) e per il quale c’è incertezza su quale esito si veri…chi. CT e TC. . CC). spazio campionario. Esempio: lancio di una moneta. Esperimento casuale. TC. evento Esperimento casuale (o esperimento stocastico).C). lancio di due dadi. lancio di due monete. Nell’esperimento “lancio di una moneta” lo spazio campionario include due possibili esiti (T. L’insieme dei possibili esiti di un esperimento casuale. Esempio. Esempio.Capitolo 2 Cenni di calcolo delle probabilità e di inferenza statistica 2. de…nendo con E2 l’evento “esce una testa e una croce” questo include gli esiti CT e TC. de…nendo con E3 l’evento “escono due teste” questo include l’esito TT.

Esempio. Nell’esperimento “lancio di due monete” vi sono quattro possibili esiti (TT. Due eventi sono mutuamente esclusivi se il veri…carsi di uno dei due eventi preclude il veri…carsi dell’altro. “esce una testa”. “escono due teste” sono collettivamente esaustivi. dal momento che gli esiti TC e CT sono compatibili con entrambi gli eventi. Eventi collettivamente esaustivi.CC) che collettivamente de…niscono un insieme di eventi esaustivi. l’evento “esce testa” ha la stessa probabilità dell’evento “esce croce”.14 capitolo 2 Eventi mutuamente esclusivi. Viceversa gli eventi “esce almeno una testa” e “esce almeno una croce” non lo sono. Esempio. Esempio. Analogamente gli eventi “non esce nessuna testa”. . Nell’esperimento “lancio di due monete” gli eventi “escono due teste” e “escono due croci” sono mutuamente esclusivi.TC. Nell’esperimento “lancio di una moneta”.CT. Un insieme di eventi è collettivamente esaustivo se esaurisce tutti i possibili esiti di un esperimento. Eventi equiprobabili. Due eventi sono equiprobabili se il primo evento ha la stessa probabilità di veri…carsi del secondo (si veda oltre per la de…nizione esatta di probabilità).

Allora per determinare la probabilità che si veri…chi l’evento “esce un numero rosso” non è possibile basarsi sulla nozione classica di probabilità. B. Esempio. Allora P (A). 2. ::: sono eventi mutuamente esclusivi. 18 sono favorevoli all’evento “esce un numero rosso”. Assumiamo questa volta che gli esiti non siano equiprobabili perché la roulette è truccata. la probabilità che uno di questi si realizzi è pari a 1: P (A [ B [ C [ :::) = P (A) + P (B) + P (C) + ::: = 1 . Viceversa è possibile lanciare la pallina n volte e calcolare il numero m di volte in cui l’esito dell’esperimento è favorevole all’evento. ::: sono eventi mutuamente esclusivi e collettivamente esaustivi. cioè la probabilità che A si veri…chi. La roulette ha 37 (o 38) esiti. è de…nita dal rapporto m=n. di questi. Limite della de…nizione classica: cosa succede se gli esiti non sono …niti e/o non sono equiprobabili? Probabilità di un evento: de…nizione frequentista o empirica. Se un esperimento ha n (con n …nito) esiti che sono equiprobabili e se m di questi esiti sono favorevoli all’evento A. Probabilità Probabilità di un evento: de…nizione classica o a priori.1. è de…nita dal rapporto m=n. C.2. cioè la probabilità che A si veri…chi. 4737). B.probabilità e statistica inferenziale 15 2. C. La probabilità che l’evento “esce un numero rosso” si veri…chi è quindi pari a 18=37 = 0. La roulette ha 37 (o 38) possibili esiti equiprobabili. Si de…nisca con m il numero di volte in cui l’esito dell’esperimento è favorevole all’evento A. 4865 (o 18=38 = 0. allora P (A). la probabilità che uno di questi si realizzi è pari alla somma delle rispettive probabilità: P (A [ B [ C [ :::) = P (A) + P (B) + P (C) + ::: (iii) Se A.2. Si replichi l’esperimento casuale n volte (con n abbastanza grande). Proprietà delle probabilità (i) La probabilità di un evento è compresa tra 0 e 1: 0 · P (A) · 1 (ii) Se A. Esempio.

P (B).2. ::: sono eventi non mutuamente esclusivi la proprietà (ii) deve essere modi…cata. B. ::: le probabilità che ciascuno di questi si veri…chi indipendentemente dagli altri sono dette probabilità marginali (o incondizionate) P (A). B. Dati gli eventi A. Se ad esempio gli eventi A e B non sono mutuamente esclusivi la probabilità che almeno uno di questi si realizzi è pari alla somma delle probabilità marginali meno la probabilità congiunta: P (A [ B) = P (A) + P (B) ¡ P (A \ B) (v) Probabilità condizionata.2.16 capitolo 2 2. Usualmente la probabilità marginale P (A) non coincide con la probabilità condizionata P (A j B) a meno che i due eventi siano stocasticamente indipendenti. Gli eventi A. C. P (C).B. Se A. B.C. ::: sono stocasticamente indipendenti se la probabilità che si veri…chino congiuntamente è eguale al prodotto delle loro probabilità individuali: P (A \ B \ C \ :::) = P (A) £ P (B) £ P (C) £ ::: (iv) Eventi non mutuamente esclusivi. Tale probabilità condizionata è data dal rapporto tra la probabilità congiunta di A e B e la probabilità marginale di B: P (A \ B) P (A j B) = P (B) (vi) Probabilità condizionata e probabilità marginale. (iii) Indipendenza stocastica. C. Altre de…nizioni utili sulle probabilità (i) Probabilità congiunta. Dati gli eventi A. ::: la probabilità che si veri…chino congiuntamente è detta probabilità congiunta: P (A \ B \ C \ :::) (ii) Probabilità marginale (o incondizionata). La probabilità condizionata di un evento A rispetto ad un evento B si de…nisce come la probabilità che si veri…chi A condizionata a che si sia veri…cato B. C. In questo caso infatti P (A j B) = P (A)P (B) P (A \ B) = = P (A) P (B) P (B) .

Si consideri il lancio di due monete. Una variabile casuale è de…nita discreta se può assumere solo un numero …nito o un’in…nità numerabile di valori (numero di teste. Esempio. temperatura.3. Variabili casuali discrete e continue.probabilità e statistica inferenziale 17 2. Variabili casuali De…nizione di variabile casuale. È una variabile il cui valore numerico è determinato dall’esito di un esperimento casuale... 3. Esempio. Funzione di densità (caso univariato).). P (X = x1 ) indica la probabilità che la variabile casuale X possa assumere un valore pari a x1 . Sia X una variabile casuale discreta. P (X = 1) = 1=2.. ² Funzione di densità di una variabile casuale discreta. Nel caso continuo la variabile casuale è de…nita in un intervallo e quindi la probabilità che assuma un singolo valore (anche se interno all’intervallo) è nulla.. P (X = 2) = 1=4 ² Funzione di densità di una variabile casuale continua. Le variabili casuali vengono usualmente de…niti con lettere maiuscole.). 1. La funzione di densità associa ad ogni valore (o intervalli di valori) che può assumere una variabile casuale la rispettiva probabilità. ¾ ½ P (X = xi ) per i = 1. Una variabile casuale è viceversa de…nita continua se può assumere qualunque valore all’interno di un intervallo dato (peso. n f (x) = 0 altrimenti Esempio.. 2. Formalmente la funzione di densità di una variabile continua è de…nita come segue. Per questo motivo nel caso di variabili casuali continue la funzione di densità assegna probabilità a intervalli di valori. La variabile casuale “numero di teste” può assumere tre valori: 0. :::. la funzione di densità della variabile casuale “X = numero di teste” può essere rappresentata come segue: P (X = 0) = 1=4. f (x) ¸ 0 . 2.. la funzione di densità indica la probabilità che X assuma valore x. mentre i valori che possono assumere con lettere minuscole. Nell’esperimento lancio di due monete.

9 8 < P (X = xi \ Y = yj ) per i = 1. la funzione di densità congiunta indica la probabilità (congiunta) che X assuma valore x e Y valore y. Siano X e Y due variabili casuali continue. 2. m f (x. y) = . X f (x. : 0 altrimenti f (x. Siano X e Y due variabili discrete. 3. Funzione di densità congiunta (caso bivariato). y)dxdy = 1 ¡1 ¡1 P (a · x < b \ c · y < d) = Zb Zd a c f(x. y) . x + dx] della variabile casuale continua. y) ¸ 0 ² Variabili continue. :::. 3. la funzione di densità congiunta è de…nita come segue +1 +1 Z Z f(x.18 capitolo 2 +1 Z f(x)dx = 1 ¡1 P (a · x < b) = Zb a f(x)dx dove f (x)dx rappresenta la probabilità associata all’intervallo [x. :::. 2. Siano X e Y due variabili casuali discrete. indipendentemente dai valori assunti dalla Y. la funzione di densità marginale di X (e analogamente di Y ) indica la probabilità che la X assuma valore x. y)dxdy Funzioni di densità marginale (caso bivariato). y) f (x) = f (y) = X x y f (x. ² Variabili discrete. ² Variabili discrete. n = per j = 1.

la funzione di densità condizionata di X (e analogamente di Y ) indica la probabilità che la X assuma valore x. dato che la Y ha assunto valore y. y) = = f(x) f(y) f (y) . se due variabili casuali sono stocasticamente indipendenti la funzione di densità congiunta è eguale al prodotto delle funzioni di densità marginali. y) f (y) Inoltre. la funzione di densità marginale di X (e analogamente di Y ) indica la probabilità che la X assuma un intervallo di valori.probabilità e statistica inferenziale 19 ² Variabili continue. y) dx x=¡1 Funzioni di densità condizionata (caso bivariato). ² Variabili discrete. Siano X e Y due variabili continue. indipendentemente dall’intervallo di valori assunti dalla Y . +1 Z f (x) = f (x. f(x j y) = P (X = x j Y = y) = f (x. y) dy y=¡1 +1 Z f (y) = f (x. f(x j y) = f(x)f(y) f(x. Siano X e Y due variabili discrete. In questo caso.

note come momenti della distribuzione: ² Momento primo = Valore atteso (o media) ² Momento secondo (intorno alla media) = Varianza (e deviazione standard o scarto quadratico medio) ² Momento terzo (intorno alla media) = Asimmetria ² Momento quarto (intorno alla media) = Curtosi Nel caso di distribuzioni congiunte di probabilità si fa inoltre riferimento a tre ulteriori utili caratteristiche: ² Covarianza ² Coe¢ciente di correlazione ² Valore atteso condizionato Valore atteso (media). Distribuzioni di probabilità Momenti della distribuzione. Proprietà del valore atteso. Il valore atteso di una VC discreta è: X E (X) = ¹ = xf (x) Il valore atteso di una VC continua è : +1 Z E (X) = ¹ = xf (x) dx ¡1 Si osservi che il valore atteso (o media) di una distribuzione di probabilità è un concetto diverso dalla media campionaria.20 capitolo 2 2. Le caratteristiche di una distribuzione univariata di probabilità possono essere utilmente riassunte in alcune caratteristiche. che indica il valore medio degli esiti di un esperimento casuale ripetuto n volte. Siano a. Il momento primo costituisce la misura di centralità di una distribuzione. b due costanti e X. Y due variabili casuali E (a) = a .4.

b due costanti e X. Y due variabili casuali V ar (a) = 0 V ar (aX + b) = a2 V ar (X) Inoltre. Y ) . se X e Y sono stocasticamente indipendenti E (X £ Y ) = E (X) £ E (Y ) Varianza (momento secondo intorno alla media).probabilità e statistica inferenziale 21 E (aX + b) = aE (X) + b h i ¡ ¢ E (aX)2 = a2 E X 2 E (X + Y ) = E (X) + E (Y ) Inoltre. se X e Y sono stocasticamente indipendenti V ar (X + Y ) = V ar (X) + V ar (Y ) V ar (X ¡ Y ) = V ar (X) + V ar (Y ) V ar (aX + bY ) = a2 V ar (X) + b2 V ar (Y ) Se viceversa X e Y non sono stocasticamente indipendenti (vedi oltre per la de…nizione di Cov(X. La varianza costituisce la misura di dispersione intorno alla media di una distribuzione. La varianza di una VC discreta è: X (x ¡ ¹)2 f (x) V ar (X) = ¾2 = Nel caso invece di una VC continua è : 2 +1 Z V ar (X) = ¾ = (x ¡ ¹)2 f (x) dx ¡1 La varianza può essere scritta anche come V ar (X) = ¾2 = E (X ¡ ¹)2 = E (X)2 ¡ ¹2 La radice quadrata della varianza viene de…nita scarto quadratico medio o alternativamente deviazione standard. Siano a. Proprietà della varianza. Y )) V ar (X + Y ) = V ar (X) + V ar (Y ) + 2Cov(X.

Per de…nire la forma della distribuzione di probabilità è talvolta necessario utilizzare anche momenti superiori al secondo. S (dall’inglese skewness) E (X ¡ ¹)3 ¾3 Curtosi (momento quarto intorno alla media). Il momento terzo (intorno alla media) è de…nito come: E (X ¡ ¹)3 da cui si deriva il seguente indice di asimmetria.0 -5 -4 -3 -2 -1 0 1 2 3 4 x 5 . il . momento quarto (intorno alla media) è de…nito come: S(X) = E (X ¡ ¹)4 da cui si deriva il seguente indice di curtosi.1 . K (dall’inglese kurtosis) K (X) = E (X ¡ ¹)4 ¾4 Analogamente.3 Left skewed Right skewed Simmetrica .5 f(x) .4 . Y ) Asimmetria (momento terzo intorno alla media).2 .22 capitolo 2 V ar (X ¡ Y ) = V ar (X) + V ar (Y ) ¡ 2Cov(X.

2 .0 -5 -4 -3 -2 -1 0 1 2 3 4 x 5 platicurtica leptocurtica mesocurtica Distribuzioni meso. Siano date due variabili casuali X e Y . plati e leptocurtiche Covarianza. con media ¹x e ¹y rispettivamente. La covarianza tra le due variabili casuali è data da: ¢¤ ¡ £ Cov (X.5 .6 f(x) . Sia inoltre f(x. y) = XX = XY f(x.1 . Y ) = E (X ¡ ¹x ) Y ¡ ¹y = E (XY ) ¡ ¹x ¹y Nel caso di variabili casuali discrete può essere calcolata come: XX ¡ ¢ Cov (X. y) ¡ ¹x ¹y .4 . left e right skewed .probabilità e statistica inferenziale 23 Distribuzioni simmetriche. Y ) = (X ¡ ¹x ) Y ¡ ¹y f(x.3 . y) la funzione di densità congiunta di X e Y .

c + dY ) = bdCov (X. Y ) = E (XY ) ¡ ¹x ¹y = E (X) E (Y ) ¡ ¹x ¹y = 0 Inoltre Cov (a + bX. y)dxdy = = ¡1 ¡1 +1 +1 Z Z ¡1 ¡1 XY f(x. d quattro costanti e X. Y ) Coe¢ciente di correlazione. Per ovviare a questo problema si utilizza il coe¢ciente di correlazione (che varia tra ¡1 e +1). Se X e Y sono stocasticamente indipendenti allora: Cov (X. Y due variabili casuali. Y ) < 0. Il valore atteso condizionato esprime il valore atteso della variabile casuale X per ogni possibile valore che può assumere la variabile casuale Y: Il valore atteso di X condizionato a Y = y nel caso discreto è eguale a X E (X j Y = y) = xf (x j Y = y) +1 Z xf (x j Y = y) dx E (X j Y = y) = ¡1 . Se viceversa a osservazioni sopra la media di X corrispondono osservazioni sotto la media di Y . gli scarti dalla media avranno segno diverso e quindi Cov(X. La covarianza rappresenta una misura dell’associazione lineare tra due variabili casuali. gli scarti dalla media avranno lo stesso segno e quindi Cov(X. c. Ad esempio se a osservazioni sopra la media di X corrispondono osservazioni sopra la media di Y . Y ) = ½= p ¾x ¾y V ar (X) V ar (Y ) e nel caso continuo Valore atteso condizionato. ½ Cov (X. Y ) Cov (X.24 capitolo 2 e. Y ) > 0. Y ) dipende dall’unità di misura delle due variabili casuali. analogamente. Siano a. Il problema è che Cov(X. y)dxdy ¡ ¹x ¹y Proprietà della covarianza. Y ) = +1 +1 Z Z ¡ ¢ (X ¡ ¹x ) Y ¡ ¹y f (x. b. nel caso di variabili casuali continue come: Cov (X.

5. Infatti la distribuzione normale è simmetrica rispetto alla media. Proprietà della distribuzione normale (i) Il momento terzo intorno alla media è pari a 0. ¾ 2 La distribuzione normale è descritta in modo completo dai suoi primi due momenti. normalmente distribuita con valore atteso ¹ e varianza ¾2 . noti come i parametri della distribuzione normale. Distribuzioni teoriche di probabilità 2. sono rispettivamente il valore atteso (o media) e la varianza: E (X) = ¹ V ar (X) = E (X ¡ ¹)2 = ¾2 Una variabile casuale X.1.probabilità e statistica inferenziale 25 2. E (X ¡ ¹)3 = 0 da cui S (X) ´ E (X ¡ ¹)3 =0 ¾3 (ii) Il momento quarto intorno alla media è una funzione della varianza. viene usualmente rappresentata come ¢ ¡ X » N ¹. Infatti: ¡ ¢2 E (X ¡ ¹)4 = 3 ¾2 da cui K (X) ´ E (X ¡ ¹)4 =3 ¾4 .5. Distribuzione normale Una variabile casuale (continua) X è “distribuita normalmente” se la sua funzione di densità di probabilità (PDF) ha la seguente forma: (x¡¹)2 1 f (x) = p e¡ 2¾2 con ¾ 2¼ ¡1<x<1 dove ¹ e ¾2 .

a2 ¾2 + b2 ¾2 1 2 ¡ ¢ X2 » N ¹2 . ¹ e ¾ (scarto quadratico medio o deviazione standard) P (¹ ¡ ¾ · X · ¹ + ¾) ¼ 0. 997 (iv) Date due variabili casuali normalmente distribuite e stocasticamente indipendenti: ¡ ¢ X1 » N ¹1 .0 µ−σ µ−2σ µ−3σ µ 68% 95% 99. 68 P (¹ ¡ 2 ¾ · X · ¹ + 2 ¾) ¼ 0.4 .7% µ+σ µ+2σ µ+3σ Area sottesa dalla curva normale . ¾2 2 .1 . 95 P (¹ ¡ 3 ¾ · X · ¹ + 3 ¾) ¼ 0.2 .3 .5 . ¾2 1 e la variabile casuale Y = aX1 + bX2 è distribuita normalmente: ¡ ¢ Y » N a¹1 + b¹2 .26 capitolo 2 (iii) Relazione tra probabilità.

Z con valore atteso pari a 0 e varianza pari a 1: Z= X ¡¹ ¾ La funzione di densità (PDF) di una variabile casuale normale standardizzata Z » N (0. Xn n variabili casuali indipendenti caratterizzate dalla stessa PDF (con media ¹ e varianza ¾ 2 ). Intuizione: questo teorema è alla base dell’ampio utilizzo della distribuzione normale nell’ambito dell’econometria. X2 .probabilità e statistica inferenziale 27 2. è utile convertire la X in un’altra variabile normale.2. Distribuzione normale standardizzata Per agevolare il calcolo della probabilità che una variabile casuale normalmente distribuita sia compresa tra due valori dati. 1) ha la seguente forma z2 1 f (z) = p e¡ 2 2¼ con ¡1<z <1 Teorema del limite centrale. Sia 1X Xn = Xi n i=1 n la media campionaria. con E(X n ) = ¹ ¾2 V ar(X n ) = n Al tendere di n all’in…nito Zn = Xn ¡ ¹ ¾ p n = ´ p ³ n X n ¡¹ ¾ ! N (0. Nella sua versione più semplice può essere formalizzato come segue: Teorema. 1) d dove il segno ! indica che la distribuzione (non nota) di Zn converge in d distribuzione ad una normale standardizzata. Dimostra che la media campionaria standardizzata di n variabili casuali (purché n sia abbastanza grande) segue una distribuzione normale standardizzata anche se le variabili casuali originarie non sono distribuite normalmente. . Siano X1 .5. :::.

Z2 .3.5. dove k (k · m) indica il numero di variabili indipendenti nella somma. . m variabili casuali con distribuzione normale standardizzata. (ii) La varianza di una variabile casuale con distribuzione Â2 con k gradi di libertà è pari a 2k. :::. (iii) La distribuzione Â2 è asimmetrica e il tasso di asimmetria dipende dai gradi di libertà. ma l’asimmetria si riduce progressivamente all’aumentare dei gradi di libertà. (iv) Siano X1 e X2 due variabili indipendenti con distribuzione Â2 . La variabile X= m X i=1 Zi2 ha una distribuzione Â2 con k gradi di libertà.28 capitolo 2 2. con rispettivamente k1 e k2 gradi di libertà. La variabile somma X1 + X2 ha a sua volta distribuzione Â2 . Proprietà della distribuzione Â2 (i) Il valore atteso di una variabile casuale con distribuzione Â2 con k gradi di libertà è pari a k. Con pochi gradi di libertà la distribuzione è molto asimmetrica. Distribuzione Â2 (Chi-quadrato) Siano Z1 . con k1 + k2 gradi di libertà. Zm . Per k > 100 la variabile p p 2Â2 ¡ 2k ¡ 1 può essere trattata come una variabile normale standardizzata.

20 .16 .24 .12 .32 f(x) .28 . (ii) La varianza di una variabile casuale con distribuzione t con k gradi di k libertà è pari a k¡2 ed è de…nita per k > 2.08 . Proprietà della distribuzione t: (i) Il valore atteso di una variabile casuale con distribuzione t con k gradi di libertà è pari a 0. . Distribuzione t di Student Sia Z una variabile casuale con distribuzione normale standardizzata e sia X una variabile casuale con distribuzione Â2 con k gradi di libertà e indipendente da Z.00 5 10 15 20 25 x 30 k = 10 k=5 k=2 Funzione di densità di variabili Â2 con diversi gradi di libertà 2.5.4.04 .probabilità e statistica inferenziale 29 . La variabile casuale p Z k Z t= q = p X X k ha una distribuzione t di Student con k gradi di libertà.

5. indipendentemente distribuite con distribuzione Â2 con gradi di libertà k1 e k2 rispettivamente. All’aumentare di k la distribuzione t tende ad approssimare la distribuzione normale standardizzata. Distribuzione F di Fisher Siano X1 e X2 due variabili casuali.2 . Proprietà della distribuzione F (i) Il valore atteso di una variabile casuale con distribuzione F con k1 e k2 k2 gradi di libertà è pari a k2 ¡2 ed è de…nita per k2 > 2. La variabile casuale F = X1 =k1 X2 =k2 ha una distribuzione F di Fisher con k1 (al numeratore) e k2 (al denominatore) gradi di libertà.1 k=3 k = 10 .0 -4 -3 -2 -1 0 1 2 3 x 4 Funzione di densità di variabili t con diversi gradi di libertà 2.30 capitolo 2 (iii) La distribuzione t è simmetrica ma più piatta (platicurtica) rispetto alla distribuzione normale standardizzata.5.4 k = 120 . f(x) .3 . .

(iii) La distribuzione F è asimmetrica. (v) Se il numero di gradi di libertà al denominatore. All’aumentare di k1 e k2 la distribuzione F tende ad approssimare la distribuzione normale. k2 è su¢cientemente grande. allora esiste la seguente relazione tra la distribuzione F e la distribuzione Â2 : k1 F = Â2 se F » Fk1 .k2 e Â2 » Â21 .probabilità e statistica inferenziale 31 (ii) La varianza di una variabile casuale con distribuzione F con k1 e k2 gradi di libertà è pari a 2 2k2 (k1 + k2 ¡ 2) k1 (k2 ¡ 2)2 (k2 ¡ 4) ed è de…nita per k2 > 4. k .k . (iv) Il quadrato di una variabile casuale con distribuzione t con k gradi di libertà ha una distribuzione F con 1 e k gradi di libertà: t2 = F se t » tk e F » F1.

0 2.4 1.6 0.2 F2.5 F10.6 f(x) 1.2 F50.2 1.0 Funzione di densità di distribuzioni F con diversi gradi di libertà .32 capitolo 2 1.0 0.8 0.0 0.2 0.5 1.50 2.4 0.0 1.0 0.5 x 3.

:::. cioè alla ricchezza delle n famiglie e¤ettivamente estratte.Stimatori De…nizione.6. ¾ 2 ). Applicando gli stimatori di ¹ e ¾2 ai dati campionari delle famiglie estratte otteniamo le corrispondenti stime ¡ x = s2 n 1 P xi n i=1 n 1 P ¡ = (xi ¡ x)2 n i=1 Proprietà degli stimatori. ¾2 ). Dato un campione casuale (X1 . Xn ) estratto da una popolazione la cui PDF dipende da parametri ignoti (¹. ¾2 ) Si noti che stiamo assumendo che ciascuna famiglia della popolazione di riferimento è caratterizzata dalla stessa funzione di densità. x2 . uno stimatore naturale (e non distorto) di ¹ è la media del campione casuale X= ¡ n 1 P Xi n i=1 Analogamente uno stimatore naturale (ma distorto) di ¾2 è S2 = n ¡ 1 P (Xi ¡ X )2 n i=1 Il concetto di stimatore non va confuso con il concetto di stima. che fa invece riferimento alla n-pla di numeri reali (x1 . L’inferenza statistica consente di ricavare delle informazioni (il valore dei parametri della PDF) su una popolazione di interesse (le famiglie residenti in Italia) data la disponibilità di un campione casuale di n famiglie estratte dalla popolazione. metodo dei minimi quadrati. metodo dei momenti. Inferenza statistica . uno stimatore è de…nibile come una regola che assegna ad ogni possibile esito dell’esperimento casuale “estrazione di un campione di n elementi” un valore per i parametri di interesse. Ad esempio. Si consideri la variabile casuale X “ricchezza di una famiglia residente in Italia” e si assuma di conoscere la funzione di densità di probabilità (normale nel nostro caso) ma non il valore dei parametri della funzione (¹. metodo della .probabilità e statistica inferenziale 33 2. Quindi possiamo scrivere: X » N(¹. X2 . xn ). Esistono diversi metodi per ottenere degli stimatori (es. :::.

Dato un insieme di stimatori ´ ³ b1 . È desiderabile che tali stimatori soddis…no alcune proprietà statistiche. b2 . Proprietà …nite. Uno stimatore b µ è de…nito uno stimatore non distorto (o unbiased) di un parametro µ se il suo valore atteso è eguale al vero µ. Stimatore non distorto. Stimatore lineare. Le proprietà asintotiche invece valgono esattamente solo per campioni in…nitamente grandi e solo approssimativamente per campioni …niti. Uno stimatore viene de…nito uno stimatore lineare se è una funzione lineare del campione casuale.34 capitolo 2 massima verosimiglianza). Intuitivamente. Tali proprietà vengono classi…cate in proprietà …nite e in proprietà asintotiche. Ad esempio la media campionaria è uno stimatore lineare: n 1 P X= Xi n i=1 . lo stimatore è de…nito stimatore a varianza minima. le proprietà …nite valgono esattamente per campioni …niti (cioè per campioni di dimensione n per qualsiasi n). bj µ µ µ b1 µ di un parametro µ. :::. Lo stimatore b1 µ è uno stimatore e¢ciente di µ se è lo stimatore a varianza minima tra il sottoinsieme di stimatori non distorti. cioè se: ³ ´ E b =µ µ Se l’eguaglianza non è soddisfatta allora lo stimatore è distorto (biased) e la distorsione (bias) è pari a: ³ ´ ³ ´ bias b = E b ¡ µ µ µ Stimatore a varianza minima. Stimatore e¢ciente. se la sua varianza è non maggiore di quella di ogni altro stimatore di µ.

non distorto e con varianza minima nella classe degli stimatori lineari e non distorti è de…nito BLUE (Best Linear Unbiased Estimator). Stimatore a errore quadratico medio (MSE) minimo. Uno stimatore lineare. La MSE (MeanSquared Error) di uno stimatore è de…nita come: ³ ´i2 h ³ ´ ³ ´ ³ ´2 µ µ µ = MSE b = E b ¡ µ = E b ¡ E b ¡ µ + E b µ µ i2 io h ³ ´i2 h ³ ´ nh ³ ´i h ³ ´ = E b¡E b µ µ + E b ¡ µ + 2E b ¡ E b µ µ µ E b ¡µ = µ h ³ ´i2 h ³ ´ i2 ³ ´ ³ ´2 = E b¡E b µ µ + E b ¡ µ = V ar b + bias b µ µ µ Intuizione: la scelta di uno stimatore a errore quadratico medio minimo può implicare la scelta di uno stimatore distorto se la sua varianza è su¢cientemente piccola. .probabilità e statistica inferenziale 35 Stimatore lineare.3 .2 .1 . non distorto a varianza minima (BLUE).4 f(θ1 ) f(θ 2 ) .0 E(θ 1 ) = θ / E(θ2 ) = θ Stimatori distorti e non distorti .

8 .36 capitolo 2 .0 θ f (θ 3 ) f (θ 1 ) f (θ 2 ) E (θ 3 ) Distribuzione di tre stimatori di µ .5 .1 .5 .3 .4 .6 .4 .7 .1 .6 .0 E (θ 1 )= θ E (θ 2 ) f (θ 1 ) f (θ 2 ) Trade-o¤ tra distorsione e varianza .7 .8 .2 .2 .3 .9 .

n µ µ . Se: ³ ´ plim bn = µ µ ³ ´ plim bn = µ µ allora dove h è una funzione continua dello stimatore. b2. . .n . Uno stimatore bn µ è de…nito uno stimatore consistente di un parametro µ se tende al valore vero al crescere della dimensione n del campione.Invarianza (proprietà di Slutski). Formalmente se la probabilità che il valore assoluto della di¤erenza tra lo stimatore e il parametro sia maggiore di " (una quantità positiva piccola a piacere) tende a 0 al tendere di n all’in…nito: ¯ ³¯ ´ ¯ ¯ µ lim P ¯bn ¡ µ¯ > " = 0 n!1 che può essere riscritta come dove p lim indica il limite in probabilità. Stimatore consistente. Condizione su¢ciente perché uno stimatore sia consistente è che il bias e la varianza tendano a zero al tendere di n all’in…nito. In alcuni casi non è possibile ottenere per uno stimatore le proprietà …nite desiderate e ci si limita a considerare proprietà che valgono quando la dimensione del campione cresce inde…nitamente (proprietà asintotiche).probabilità e statistica inferenziale 37 Proprietà asintotiche.Dati due stimatori consistenti b1.Se b è una costante plim (b) = b h ³ ´i plim h bn = h (µ) µ cioè il limite in probabilità di una costante è la costante stessa. Proprietà dell’operatore plim .

Stimatore asintoticamente e¢ciente.n + b2.n µ plim b2.4 f (θ ) n = 25 f (θ ) n = 100 f (θ ) n = 80 f (θ ) n = 50 0.0 0.n = plim b1.8 0.n = plim b1.n µ b1.n + plim b2.n µ Si noti che la seconda e la terza relazione valgono indipendentemente dal fatto che gli stimatori siano stocasticamente indipendenti.n µ µ µ µ ³ ´ Ã ! plim b1. 1. .0 θ θ µ La distribuzione di b al crescere della numerosità campionaria .6 0.n plim b2.38 capitolo 2 valgono le seguenti relazioni ³ ´ ³ ´ ³ ´ µ plim b1.2 0.nb2.n µ ³ ´ plim = b2.n µ µ µ ³ ´ ³ ´ ³ ´ plim b1. Questo non è vero invece nel caso del valore atteso.Stimatore asintoticamente normale. Uno stimatore è de…nito asintoticamente normale se la sua distribuzione campionaria tende a distribuirsi normalmente al crescere della dimensione del campione. Uno stimatore è asintoticamente e¢ciente se è consistente e la sua varianza asintotica è non maggiore della varianza asintotica di qualunque altro stimatore consistente del parametro. .

Inferenza statistica .probabilità e statistica inferenziale 39 2. Sapere che basandosi su un campione casuale di nuovi assunti. 96 p ] n n . X + 1.7. un ricercatore ha stimato che la laurea in economia ha l’e¤etto di aumentare il salario di ingresso del 10% non ci dice nulla su quanto questa stima sia vicina al valore vero del parametro. 95 n n Formalmente l’ultima espressione indica che l’intervallo ¾ ¾ [X ¡ 1. Esempio. 96 · ¾= n e.Stimatore per intervalli e intervalli di con…denza Introduzione. Una stima puntuale basata su un particolare campione osservato non fornisce informazioni su¢cienti per veri…care delle ipotesi suggerite dalla teoria economica o per dare un contributo signi…cativo al dibattito di politica economica. uno stimatore di ¹ è la media campionaria P 1 100 X= Xi 100 i=1 Conoscendo la distribuzione di X sappiamo anche che X » N(¹. 1) ¾= n ¾2 ) n A questo punto siamo in grado di costruire un intervallo che includa ¹ con una data probabilità (detta livello di con…denza). 96 p . 96 p · ¹ · X + 1. ¾2 ) Dato un campione casuale di 100 uomini (n = 100). dopo alcuni passaggi algebrici µ ¶ ¾ ¾ P r X ¡ 1. 96 p = 0. La costruzione degli intervalli di con…denza contribuisce a rispondere a questa domanda. 96 = 0. Supponiamo che l’altezza degli uomini residenti in Italia sia rappresentabile dalla variabile casuale X » N(¹. e Z= X ¡¹ p » N(0. Pre…ssato un livello di con…denza del 95% possiamo infatti scrivere che µ ¶ X ¡¹ p · 1. 95 P r ¡1.

5 0. Una volta che abbiamo estratto il campione e calcolato la stima di ¹ x= P 1 100 xi = 1. 96 pn e il valore superiore. 1. 70 + 1. 5 . 602.40 capitolo 2 contiene ¹ con il 95% di probabilità. 5 0. In altri termini prima che il campione casuale sia estratto vi è il 95% di probabilità che ¹ sia compresa tra il ¾ ¾ valore inferiore. . e l’area esterna all’intervallo di con…denza è de…nita regione di ri…uto (o di non accettazione). gli estremi superiore e inferiore della regione di accettazione sono de…niti valori critici. 70 100 i=1 possiamo costruire una stima per intervalli detta anche intervallo di con…denza al 95%. 798] Nel linguaggio del test delle ipotesi l’intervallo di con…denza è de…nito regione di accettazione. Possiamo pensare all’intervallo come ad uno stimatore per intervalli. 96 p 100 100 [1. 96 p ] [1. Nel nostro caso. 70 ¡ 1. assumendo ¾ = 0. cioè ad uno stimatore che fornisce i limiti entro i quali è contenuto il valore del parametro ad un dato livello di probabilità. X ¡ 1. X + 1. 96 pn dell’intervallo. 1.

5=10 Intuitivamente. L’approccio che confronta la statistica calcolata con i valori critici. la domanda a cui intendiamo rispondere è se x = 1. o composta. Ad esempio. presenta lo svantaggio di dovere ricalcolare la regione di accettazione per ogni livello di signi…catività. 1) Z= ¾= n In ogni applicazione ¹¤ e n sono noti. che a sua volta può essere semplice. Nel nostro caso. 75 p = = ¡1 z= ¾= n 0. Il test delle ipotesi consiste nel rispondere alla seguente µ domanda: è lo stimatore b “compatibile” con un valore numerico ipotizzato (nel nostro caso spesso suggerito dalla teoria economica) µ¤ del parametro µ? L’ipotesi µ = µ¤ è de…nita ipotesi nulla (H0 ) ed è testata contro un’ipotesi alternativa (H1 ).8. Livello esatto di signi…catività (p valore). Ipotesi alternativa composta H0 : ¹ = ¹¤ = 1. 70 sia “signi…cativamente” diverso dal valore pre…ssato 1. 96 (inferiore) e +1. Per rispondere alla domanda è necessario veri…care se il valore di z cade all’interno dell’intervallo di con…denza per un dato livello di signi…catività (il complemento a 1 del livello di con…denza). se speci…ca il valore alternativo. Sostituendo X con x. 75 H1 : ¹ 6= ¹¤ Per testare la validità dell’ipotesi nulla contro l’ipotesi alternativa si costruisce la statistica del test che è una funzione del campione casuale. Inferenza statistica . i valori critici sono rispettivamente ¡1. Della statistica del test si conosce la distribuzione sotto l’ipotesi nulla. 75. Si supponga per semplicità che anche ¾ sia noto (ma cosa succede se non lo è?).Test di ipotesi Introduzione. nel caso in cui il valore alternativo non sia speci…cato. Esempio. Il problema è che noi non conosciamo X ma solamente x. al …ne di veri…care se la statistica cade dentro la regione di accettazione o meno. nel caso di un livello di signi…catività del 5%. 96 (superiore) al cui interno cade z = ¡1. Ciò equivale a chiedersi se z = ¡1 è signi…cativamente diverso da 0. . 70 ¡ 1. se ¹ = ¹¤ allora X ¡ ¹¤ p » N(0. otteniamo la cosiddetta statistica del test calcolata ¡ x ¡¹¤ 1.probabilità e statistica inferenziale 41 2.

75) ottenuto in precedenza veri…cando che la statistica del test ricadeva nella regione di accettazione. In particolare. pre…ssando ® = 5%. un valore della statistica del test più sfavorevole all’ipotesi nulla stessa. Approccio classico. 05 o ® = 0. sotto l’ipotesi nulla. il p valore di 1 vale .dalle tavole della distribuzione normale standardizzata . Si noti che con la decisione di ri…utare o non ri…utare l’ipotesi nulla si incorre nel rischio di commettere due tipi di errori: ² Errore del I tipo: ri…utare l’ipotesi nulla H0 quando è vera. 32 per cui l’ipotesi nulla sarà rigettata solo per valori di ® ¸ 32%. Data la dimensione del campione (n) non è possibile minimizzare entrambi gli errori. il p valore de…nisce il più basso livello di signi…catività ® che conduce a ri…utare l’ipotesi nulla. Il p valore è de…nito come la probabilità di ottenere. De…nita con ¯ la probabilità di commettere un errore del secondo tipo. In pratica. se il p valore è minore (maggiore) del livello di signi…catività prescelto. 01) per ottenere un basso livello di probabilità di commettere un errore del I tipo e. Errori del I e del II tipo. Si sceglie un livello di signi…catività basso (® = 0. otteniamo il medesimo risultato (non ri…uto dell’ipotesi nulla H0 : ¹ = ¹¤ = 1. l’ipotesi nulla verrà ri…utata (non ri…utata). data la probabilità di commettere tale errore. .0. ² Errore del II tipo: non ri…utare l’ipotesi nulla H0 quando è falsa. si cerca di minimizzare la probabilità di commettere un errore del II tipo. Nel nostro esempio. si de…nisce con (1 ¡ ¯) la potenza del test. pertanto.42 capitolo 2 Un approccio alternativo (ma perfettamente equivalente in termini di risultati) è basato sul confronto tra il p valore (o livello esatto di signi…catività) della statistica calcolata e il livello di signi…catività prescelto dal ricercatore.

(c) calcolare la probabilità che la variabile casuale X sia compresa nell’intervallo [1. Calcolarne la funzione di densità. Dato un mazzo di 52 carte: (a) Qual è la probabilità di estrarre una carta di quadri in una singola estrazione? (b) Qual è la probabilità di estrarre una carta di cuori in una singola estrazione? (c) Qual è la probabilità di estrarre un asso in una singola estrazione? (d) Qual è la probabilità di estrarre una carta di quadri o una carta di cuori in una singola estrazione? (e) Qual è la probabilità di estrarre una carta di quadri o un asso in una singola estrazione? (f) Qual è la probabilità di estrarre due carte di quadri in due successive estrazioni (con reinserimento)? (g) Qual è la probabilità di estrarre un carta di quadri in una singola estrazione sapendo di aver estratto una …gura? 2. (d) calcolare la probabilità che la variabile casuale X sia compresa nell’intervallo [2.probabilità e statistica inferenziale 43 2.9. 3. Variabile casuale univariata continua: data la seguente funzione 1 f(x) = x2 9 (a) veri…care che integri a uno. Variabile casuale univariata discreta: l’esperimento consiste nel lancio di due dadi. Esercizi 1. (b) calcolare la probabilità che la variabile casuale X sia compresa nell’intervallo [0. De…niamo la variabile casuale “somma dei numeri sulle facce dei due dati”. 0·x·3 . 2]. 3]. 1].

y) = 2 ¡ x ¡ y 0 · x·1 0 · y·1 (a) Veri…care che integri a 1. Variabile casuale univariata continua. Variabile casuale univariata discreta. 16 0. 04 X =2 0. Sia data una variabile aleatoria X con la seguente funzione di densità 1 f(x) = x2 9 0·x·3 Calcolarne il valore atteso E(X). Data la seguente funzione di densità congiunta X = ¡2 0. 08 0. L’esperimento consiste nel lancio di due dadi. (b) Calcolare la funzione di densità marginale per X e per Y . 27 0. Variabili casuali bivariate discrete. 5. 00 X=0 0. f(x. De…niamo la variabile casuale “somma dei numeri sulle facce dei due dadi”. 10 X =3 0. (c) Calcolare la funzione di densità condizionata per X e per Y 6. 00 0. 35 Y =3 Y =6 (b) Calcolare la funzione di densità marginale per X e per Y . . Variabili casuali bivariate continue. Calcolarne la media e la varianza. 7. densità congiunta Data la seguente funzione di (a) Calcolare la probabilità dell’evento X = ¡2 \ Y = 3. (c) Calcolare la funzione di densità condizionata per X e per Y . il momento secondo E(X 2 ) e la varianza V ar(X).44 capitolo 2 4.

" è il termine d’errore (o più semplicemente errore) Motivi per includere il termine d’errore: 1. x2 . incompletezza della teoria sottostante alla speci…cazione del modello. :::. 5. non-osservabilità dei dati o approssimazioni nei dati osservati. :::. x2 . casualità nel comportamento umano. forma funzionale non corretta.Capitolo 3 Modelli di Regressione Introduzione e concetti di base Modelli uni-equazionali e modelli multi-equazionali. Nel corso ci occuperemo (quasi) esclusivamente di stima di modelli economici composti da una sola equazione. xk sono k variabili indipendenti (o variabili esplicative o regressori). xk . rappresentabile come: y = f (x1 . 4. parsimonia nella speci…cazione del modello con esclusione di alcune variabili meno importanti (variabili secondarie). . x1 . 3. ") dove: y è la variabile dipendente. 2.

Viceversa y = e¯ 0 x1 1 x2 2 e" è un modello non lineare nelle variabili. x2 . xk . ") ² Modello trivariato: modello con due variabili indipendenti: y = f (x1 . che tuttavia può essere reso lineare nei parametri (e quindi rientra nel nostro campo di studi) trasformando le variabili in logaritmi: log y = ¯ 0 + ¯ 1 log x1 + ¯ 2 log x2 + " Il modello seguente invece è non lineare nei parametri y = ¯0 + ¯1 +" (x1 + x2 ) ¡ ¯ 2 ¯ ¯ e non rientra nel nostro campo di studio. ² Modello bivariato: modello con un’unica variabile indipendente: y = f (x1 . Ad esempio. x2 . :::. sia nelle variabili. Il modello può essere scritto come yi = ¯ 0 + ¯ 1 x1i + ¯ 2 x2i + "i . Si supponga di disporre di n osservazioni su y e su x1 . ") Scelta della forma funzionale. Assunzioni sulla natura del termine d’errore. ") ² Modello multivariato: modello generico con k variabili indipendenti: y = f (x1 .46 capitolo 3 Selezione delle variabili da includere nel modello. x2 . Nel corso ci occuperemo esclusivamente di modelli lineari nei parametri (ma non necessariamente lineari nelle variabili). Studieremo poi il modello trivariato e in…ne (con l’aiuto dell’algebra delle matrici) generalizzeremo al caso multivariato. Per semplicità inizieremo analizzando il modello di regressione bivariato. :::. xk . nel caso trivariato y = ¯ 0 + ¯ 1 x1 + ¯ 2 x2 + " è un modello lineare sia nei parametri.

h = 1. :::. 2. j = 1. dall’assunzione E("i ) = 0 deriva che il valore atteso di y è pari a: E (yi ) = ¯ 0 + ¯ 1 x1i + ¯ 2 x2i . 2. 2. h = 1. k Segue che: Cov(xhj . 2. :::. n. "i ) = 0 per i. j = 1. n Cov("i . j = 1. n V ar("i ) = ¾2 per i = 1. h = 1. ¾2 ) per i = 1. :::. n Considerate congiuntamente le quattro assunzioni possono essere riassunte come segue: "i » IN(0.regressione . per poter sottoporre a test le ipotesi sui parametri del modello assumeremo anche che: "i » N(0. :::. 2. k Un’assunzione meno restrittiva che consenta di preservare il risultato sulla covarianza è che le variabili indipendenti siano stocastiche ma distribuite indipendentemente dal termine d’errore. :::. :::. 2. 2.concetti di base 47 Inizialmente lavoreremo utilizando le cosiddette assunzioni classiche: E("i ) = 0 per i = 1. n dove la I (independent) indica che i termini di errore sono indipendentemente distribuiti. n. Ne consegue che per de…nizione: Cov(xhj . "j ) = 0 per i 6= j Inoltre. con variabili indipendenti non stocastiche. n. :::. sotto l’assunzione di indipendenza e ricordando che E("i ) = 0 si può scrivere E(xhj "i ) = E(xhj )E ("i ) = 0 per i. "i ) = E f[xhj ¡ E(xhj )]["i ¡ E("i )]g = 0 per i. 2. :::. k Si osservi in…ne che. :::. Assunzioni sulla natura delle variabili indipendenti. ¾2 ) per i = 1. 2. :::. Assumeremo prevalentemente che le variabili indipendenti siano variabili deterministiche. Infatti. 2.

48 .

Capitolo 4

Modelli di Regressione Regressione lineare bivariata

4.1.

Metodo dei Minimi Quadrati Ordinari

4.1.1. Assunzioni 1. Modello lineare bivariato: yi = ¯ 0 + ¯ 1 xi + "i 2. Assunzioni classiche: E("i ) = 0 per i = 1; 2; :::; n V ar("i ) = ¾2 per i = 1; 2; :::; n Cov("i ; "j ) = 0 per i 6= j Cov(xj ; "i ) = 0 per i; j = 1; 2; :::; n 3. Assunzione sulla normalità dei termini d’errore: "i » N(0; ¾2 ) per i = 1; 2; :::; n per i = 1; 2; :::; n

50 capitolo 4 4.1.2. Stima dei parametri Intuizione: i parametri ¯ 0 , ¯ 1 e ¾2 non sono noti. Il metodo dei minimi quadrati de…nisce degli stimatori di ¯ 0 e ¯ 1 , che chiameremo b0 e b1 , tali da minimizzare la somma del quadrato dei residui (RSS, Residual Sum of Squares). De…nizione di residuo: ei = yi ¡ b0 ¡ b1 xi e quindi RSS =
n X i=1

per i = 1; 2; :::; n

e2 = i

Scriviamo il programma di minimizzazione Min
b0 ;b1 n X i=1

n X i=1

(yi ¡ b0 ¡ b1 xi )2

(yi ¡ b0 ¡ b1 xi )2

Le condizioni del primo ordine sono: @RSS X = ¡2 (yi ¡ b0 ¡ b1 xi ) = 0 @b0
i=1 n

La prima condizione del primo ordine può essere riscritta come segue
n X i=1

@RSS X = ¡2xi (yi ¡ b0 ¡ b1 xi ) = 0 @b1
i=1

n

¡2 (yi ¡ b0 ¡ b1 xi ) = 0 (yi ¡ b0 ¡ b1 xi ) = 0
n X i=1

n X i=1 n P

n X i=1

yi ¡ nb0 ¡ b1

xi = 0

y = b0 + b1 x

dove y =

1 n

yi e x =

i=1

1 n

i=1

equazione normale.

n P

xi . L’espressione …nale viene de…nita prima

regressione bivariata 51 Analogamente la seconda condizione del primo ordine può essere riscritta come segue: n X ¡2xi (yi ¡ b0 ¡ b1 xi ) = 0
i=1 n X i=1

xi (yi ¡ b0 ¡ b1 xi ) = 0
n X i=1

dove l’espressione …nale viene de…nita seconda equazione normale. Gli stimatori b0 e b1 rappresentano la soluzione al sistema composto dalle due equazioni normali y = b0 + b1 x
n X i=1

n X i=1

xi yi = b0

xi + b1

n X i=1

x2 i

xi yi = b0
n X i=1

De…niamo ora

n X i=1 2

xi + b1
n X i=1

n X i=1

x2 i

Sxx =

(xi ¡ x) = (yi ¡ y)2 =

x2 ¡ nx2 i
2 yi ¡ ny 2

Syy =
n X i=1

n X i=1

n X i=1

Sxy =

(xi ¡ x) (yi ¡ y) =

Sostituiamo ora la prima equazione normale nella seconda
n X i=1

n X i=1

xi yi ¡ nx y

xi yi = (y ¡ b1 x)

n X i=1

xi + b1

n X i=1

xi yi ¡ nxy = b1
n P

à n X
i=1

n X i=1 2

x2 i !

x2 i

¡ nx

xi yi ¡ nx y Sxy = b1 = i=1 n P 2 Sxx xi ¡ nx2
i=1

52 capitolo 4 e in…ne b0 = y ¡

Sxy x = y ¡ b1 x Sxx

Lo stimatore b1 è quindi dato dal rapporto tra la codevianza tra x e y, Sxy e la devianza di x, Sxx . 4.1.3. Proprietà algebriche dei minimi quadrati 1. La somma dei residui è pari a zero. Questa proprietà deriva direttamente dalla prima equazione normale. Infatti:
n X i=1

ei =

n X i=1

(yi ¡ b0 ¡ b1 xi ) = 0

2. La somma dei prodotti xi ei è pari a zero. Questa proprietà deriva direttamente dalla seconda equazione normale. Infatti:
n X i=1

xi ei =

n X i=1

xi (yi ¡ b0 ¡ b1 xi ) = 0

4.1.4. Il coe¢ciente di determinazione semplice Partiamo dalla de…nizione già incontrata di somma del quadrato dei residui:
n X i=1 n X i=1 n X i=1 n X i=1

RSS = =

e2 = i

(yi ¡ b0 ¡ b1 xi )2 =
n X i=1

(yi ¡ y ¡ b1 (xi ¡ x))2 =
n X i=1

(yi ¡ y)2 + b2 1

(xi ¡ x)2 ¡ 2b1 µ Sxy Sxx

(yi ¡ y) (xi ¡ x) = Sxy Sxy = Sxx

= Syy + b2 Sxx ¡ 2b1 Sxy = Syy + 1 = Syy ¡ (Sxy )2 = Syy ¡ b1 Sxy Sxx

¶2

Sxx ¡ 2

Denotando con: Syy = somma totale dei quadrati degli scarti della variabile dipendente rispetto alla media (T SS, Total Sum of Squares) b1 Sxy = somma dei quadrati spiegata dal modello di regressione (ESS, Explained Sum of Squares)

Si noti che 0 · r2 · 1 . gli stimatori OLS b0 e b1 sono a loro volta distribuiti normalmente con le seguenti medie e varianze: µ ¶¶ µ x2 2 1 + b0 » N ¯ 0 . 4.1. ¾ n Sxx e viene utilizzato per valutare la bontà (il “…t”) di una regressione. (d) Se inoltre si assume la normalità dei termini di errore. Si osservi in…ne che il quadrato del coe¢ciente di correlazione campionario coincide con il coe¢ciente di determinazione semplice.regressione bivariata 53 possiamo scrivere: T SS = ESS + RSS Il coe¢ciente di determinazione semplice è de…nito dal rapporto tra la somma dei quadrati spiegata e la somma totale dei quadrati. gli stimatori OLS b0 e b1 sono gli stimatori a varianza minima nella classe degli stimatori (lineari e non-lineari) non distorti (BUE ). (b) non distorti. In formula: r2 = ESS RSS =1¡ T SS T SS Valori elevati di r2 indicano che una parte rilevante della somma totale dei quadrati degli scarti è spiegata dalla retta di regressione. Distribuzione degli stimatori OLS.5. (c) a varianza minima nella classe degli stimatori lineari non distorti (BLUE ). (e) Data l’assunzione di normalità dei termini di errore. Teorema di Rao. Proprietà statistiche Teorema di Gauss-Markov. Date le assunzioni classiche gli stimatori OLS b0 e b1 sono: (a) lineari.

Dimostrazione del teorema di Gauss-Markov. hanno una distribuzione t con n ¡ 2 gradi di libertà e possono essere utilizzate per costruire intervalli di con…denza o e¤ettuare test di ipotesi su ¯ 0 e ¯ 1 . 2. Inoltre: è uno stimatore non distorto di ¾ RSS ¾2 2 con n ¡ 2 gradi di libertà. (f) La seguente statistica (la cui radice è nota come errore standard della regressione) RSS s2 = n¡2 2 . b1 ) = ¾ ¡ Sxx La conoscenza delle varianze di b0 e b1 (e della loro covarianza) è ovviamente utile. :::. n q b1 ¡¯ q 1 ¾2 Sxx =r b0 ¡ ¯ 0 ³ RSS 1 (n¡2) n + b0 ¡ ¯ 0 b0 ¡ ¯ 0 ´=r ³ ´ = se (b ) 0 x2 1 x2 s2 n + Sxx Sxx b1 ¡ ¯ b1 ¡ ¯ 1 = q 1 = 2 se (b1 ) s Sxx RSS (n¡2)¾ 2 b1 ¡ ¯ 1 =q RSS (n¡2)Sxx Cov(xj . Consideriamo per semplicità un modello lineare con un solo parametro ¯: yi = ¯xi + "i dove E("i ) = 0 per i = 1. Tuttavia. n V ar("i ) = ¾ 2 per i = 1. di¢cilmente possono essere calcolate direttamente dal momento che ¾2 non è noto. :::. n Cov("i . 2. 2.54 capitolo 4 ¶ µ ¾2 b1 » N ¯ 1 . "i ) = 0 per i. Sxx µ ¶ x 2 Cov (b0 . n (con xj deterministiche) . 2. Ne deriva in…ne ha una distribuzione  che le seguenti statistiche r b0 ¡¯ 0 ³ ´ 1 x2 ¾2 n + S xx q RSS (n¡2)¾2 dove se (bk ) indica l’errore standard dello stimatore bk . :::. "j ) = 0 per i 6= j per i = 1. j = 1. :::.

regressione bivariata 55 ² Prova linearità. ² Prova non-distorsione. xi Quindi b è uno stimatore lineare dal momento che è una funzione lineare delle osservazioni campionarie yi . Il valore atteso di b può essere scritto come: 0 1 E(b) = n X i=1 ci E (yi ) = Quindi b è uno stimatore non distorto del parametro ¯. Lo stimatore a minimi quadrati può essere scritto come: b= n X i=1 ci yi Si consideri uno stimatore lineare alternativo ba = n X i=1 di yi A¢nché lo stimatore alternativo sia non distorto deve essere vero che: E(ba ) = e quindi: n X i=1 n X i=1 di E (yi ) = n X i=1 di ¯xi = ¯ di xi = 1 . n X B xi C B C n @ P A ¯xi = ¯ 2 i=1 xi i=1 ² Prova varianza minima nella classe degli stimatori lineari non-distorti. Lo stimatore a minimi quadrati di ¯ è: xi yi X n = ci yi b = i=1 n P 2 i=1 xi i=1 n P dove ci = i=1 xi n P 2.

¸xi xi = ci = P n 2 x2 i i=1 . da cui il moltiplicatore da cui deriva che di = 2 ¸= P n x2 i i=1 che completa la dimostrazione del teorema.¸ i=1 i=1 n X i=1 di xi = 1 che equivale a dove ¸ è il moltiplicatore di Lagrange.56 capitolo 4 Dal momento che gli yi sono indipendenti con varianza costante pari a ¾2 . possiamo scrivere che: V ar(ba ) = n X i=1 d2 ¾ 2 i Per trovare lo stimatore lineare non-distorto a varianza minima dobbiamo risolvere il seguente problema di minimizzazione vincolata: Min di n X i=1 d2 i con Scriviamo il problema di minimizzazione vincolata à n ! n X X d2 ¡ ¸ di xi ¡ 1 Min i di . Si derivi rispetto a di e si eguagli a zero: 2di ¡ ¸xi = 0 di = ¸xi 2 Si moltiplichino ora entrambi i membri per xi e si sommi rispetto a i: n X i=1 ¸X 2 di xi = xi 2 i=1 i=1 n P n Derivando rispetto a ¸ si ottiene di Lagrange è eguale a: di xi = 1.

¾2 ) per i = 1. y2 . 2. ¾ 2 ) per i = 1. :::. yn sono distribuite come segue: yi » IN(¯ 0 + ¯ 1 xi . 2. n Gli stimatori a minimi quadrati sono: b0 = y ¡ b1 = Sxy x Sxx Sxy Sxx Le n variabili y1 . ¾2 n X i=1 d2 i ! .regressione bivariata 57 Varianza dello stimatore a minimi quadrati: 0 12 V ar(b) = n X i=1 c2 ¾ 2 = i n 2 X B xi C B C ¾2 = ¾ n n @P A P 2 i=1 x2 xi i i=1 i=1 Distribuzione campionaria degli stimatori a minimi quadrati b0 e b1 : Si consideri il seguente modello yi = ¯ 0 + ¯ 1 xi + "i per i = 1. :::. n "i » IN(0. :::. somma di variabili distribuite normalmente: L1 = n X i=1 n X i=1 ci yi L2 = di yi Queste sono a loro volta distribuite normalmente à n ! n X X ci (¯ 0 + ¯ 1 xi ) . ¾2 c2 L1 » N i i=1 i=1 L2 » N à n X i=1 di (¯ 0 + ¯ 1 xi ) . 2. n De…niamo due nuove variabili. :::.

L2 ) = ¾ 2 Scriviamo ora b0 e b1 in funzione di yi Sxy = da cui Sxy b1 = = Sxx con ci = e b0 = y ¡ con di = Sxy x= Sxx n P n X i=1 n X i=1 ci di (xi ¡ x) (yi ¡ y) = n X i=1 (xi ¡ x) yi ¡y n X i=1 (xi ¡ x) = n X i=1 (xi ¡ x) yi i=1 n P (xi ¡ x) yi Sxx (xi ¡ x) Sxx n P = n X i=1 ci yi yi i=1 n ¡ x i=1 (xi ¡ x) yi Sxx = n X i=1 di yi 1 x (xi ¡ x) ¡ n Sxx n ¾2 X ¾2 (xi ¡ x)2 = 2 Sxx Sxx i=1 Calcoliamo ora le varianze dei due stimatori V ar (b1 ) = n X i=1 c2 ¾ 2 = i ¸ x (xi ¡ x) 2 V ar (b0 ) = =¾ = ¡ n Sxx i=1 i=1 " # ¶ µ ¶ µ n X 1 x 2 x2 1 2 x (xi ¡ x) 2 2 = ¾2 + (xi ¡ x) ¡ + = ¾ n2 Sxx n Sxx n Sxx n X d2 ¾2 i 2 n X·1 i=1 dato che: n X i=1 n X i=1 (xi ¡ x) = 0 (xi ¡ x)2 = Sxx .58 capitolo 4 Cov (L1 .

b1 ) = n X i=1 2 ci di ¾2 = x (xi ¡ x) ¡ n Sxx ¶ µ ¶ x =¾ ¡ Sxx 2 = ¾ n X µ xi ¡ x ¶ µ 1 i=1 Sxx Naturalmente il valore atteso dei due stimatori è eguale a: E(b1 ) = e E(b0 ) = E (y) ¡ ¯ 1 x = (¯ 0 + ¯ 1 x) ¡ ¯ 1 x = ¯ 0 dal momento che: i=1 n P n P n X i=1 ci E (yi ) = n X i=1 ci (¯ 0 + ¯ 1 xi ) = ¯ 1 ci ¯ 0 = 0 e ci xi = 1. i=1 .regressione bivariata 59 n X 1 1 = 2 n n i=1 Calcoliamo in…ne la loro covarianza Cov (b0 .

n¡2 · · Â1¡ ® .n¡2 = 1 ¡ ® 2 2 ¾2 Quindi. Intervalli di con…denza e test delle ipotesi Date le usuali assunzioni classiche e l’assunzione sulla normalità dei termini d’errore. È quindi agevole costruire intervalli di con…denza o e¤ettuare test di ipotesi sui parametri del modello lineare bivariato.n¡2 se (b1 ) 2 contiene il vero ¯ 1 .n¡2 = 1 ¡ ® 2 2 se (b1 ) dove ¡t ® .n¡2 rappresenta il valore critico superiore con n ¡ 2 gradi di libertà 2 da cui ³ ´ P r b1 ¡ t ® .n¡2 rappresenta il valore critico inferiore con n ¡ 2 gradi di libertà 2 t ® . Intervalli di con…denza.n¡2 se (b1 ) · ¯ 1 · b1 + t ® . Analogamente.60 capitolo 4 4.n¡2 se (b1 ) = 1 ¡ ® 2 2 b1 § t ® . nel caso del parametro ¾2 : ¶ µ (n ¡ 2) s2 2 2 P r  ® . le statistiche b0 ¡ ¯ 0 se (b0 ) b1 ¡ ¯ 1 se (b1 ) hanno una distribuzione t di Student con n ¡ 2 gradi di libertà. pre…ssato l’usuale livello di signi…catività.2.n¡2 · · t ® . Pre…ssato un livello di con…denza (1 ¡ ®) l’appropriato intervallo di con…denza per ¯ 1 (e analogamente per ¯ 0 ) è il seguente: ¶ µ b1 ¡ ¯ 1 P r ¡t ® . Inoltre la statistica RSS ¾2 ha una distribuzione Â2 con n ¡ 2 gradi di libertà. in (1 ¡ ®) 100 su 100 casi l’intervallo .

(n ¡ 2) 2 (n ¡ 2) 2 Â1¡ ® . in (1 ¡ ®) 100 su 100 casi l’intervallo # " s2 s2 . la statistica b1 ¡ ¯ ¤ 1 se (b1 ) ha una distribuzione t di Student con n¡2 gradi di libertà.n¡2 rappresenta il valore critico inferiore con n ¡ 2 gradi di libertà 2 2 Â2 ® . ¶ µ b1 ¡ ¯ ¤ 1 ® ® P r ¡t 2 .regressione bivariata 61 dove ® Â2 . appropriati intervalli di con…denza possono essere costruiti. Test di ipotesi. Ad esempio.n¡2 se (b1 ) · b1 · ¯ ¤ + t ® . . Pre…ssato quindi l’usuale livello di con…denza (1 ¡ ®). ³ ´ P r ¯ ¤ ¡ t ® .n¡2 ® 2 =1¡® Quindi.n¡2 Â ® .n¡2 rappresenta il valore critico superiore con n ¡ 2 gradi di libertà 1¡ Ã ! da cui P r (n ¡ 2) s2 Â2 ® . I test di ipotesi sono procedure che consentono di veri…care se un’ipotesi nulla sia vera o falsa utilizzando dei dati campionari.n¡2 1¡ 2 · ¾2 · (n ¡ 2) s2 Â2 .n¡2 · · t 2 .n¡2 se (b1 ) = 1 ¡ ® 1 1 2 2 L’ipotesi nulla è ri…utata a favore dell’ipotesi alternativa se b1 “cade” al di fuori dell’intervallo di con…denza (regione di accettazione). dopo opportuni passaggi.n¡2 2 2 contiene il vero ¾2 .n¡2 = 1 ¡ ® se (b1 ) e. nel caso del parametro ¯ 1 (e analogamente per ¯ 0 ) H0 : ¯ 1 = ¯ ¤ 1 H1 : ¯ 1 = ¯ ¤ 6 1 Se H0 è vera.

Data la seguente ipotesi nulla: H0 : ¾ 2 = ¾ 2 ¤ 2 H1 : ¾ = ¾ 2 6 ¤ Se H0 è vera.62 capitolo 4 Analogamente.n¡2 = 1 ¡ ® 2 2 ¾2 ¤ e. la statistica RSS (n ¡ 2) s2 = ¾2 ¾2 ¤ ¤ ha una distribuzione Â2 con n¡2 gradi di libertà.n¡2 2 2 (n ¡ 2) (n ¡ 2) L’ipotesi nulla è ri…utata a favore dell’ipotesi alternativa se s2 “cade” al di fuori dell’intervallo di con…denza (regione di accettazione). dopo gli opportuni passaggi. .n¡2 · · Â1¡ ® .n¡2 =1¡® · s · Â1¡ ® . Pre…ssato (1¡®). possiamo scrivere l’intervallo di con…denza come: ¶ µ (n ¡ 2) s2 2 2 P r  ® . i test di ipotesi possono essere applicati anche a ¾2 . come µ ¶ ¾2 ¾2 ¤ ¤ 2 2 2 P r  ® .

Sia x0 il valore dato di x. de…nito b come y0 . Introduzione alla previsione Dopo aver stimato i parametri del modello lineare bivariato (¯ 0 .3. in (1 ¡ ®)100 su 100 casi l’intervallo contiene il vero y0 : µ ¶ y0 ¡ y0 b P r ¡t ® . ¾2 ) è possibile utilizzarli per prevedere il valore di y per ogni valore dato di x. Nota la varianza dell’errore di previsione è possibile costruire un intervallo di previsione per y0 tale che.regressione bivariata 63 4.n¡2 = 1 ¡ ® 2 2 se (y0 ¡ y0 ) b . b1 ¡ ¯ 1 ) + V ar ("0 ) = µ ¶ 0 1 x2 x2 x + ¾2 0 ¡ 2x0 ¾2 = ¾2 + ¾2 = + n Sxx Sxx Sxx à ! 1 (x0 ¡ x)2 2 = ¾ 1+ + n Sxx Si osservi che la varianza dell’errore di previsione: (a) è una funzione negativa del numero di osservazioni n.n¡2 · · t ® . è data da: y0 = b0 + b1 x0 b mentre il valore “vero” è y0 = ¯ 0 + ¯ 1 x0 + "0 dove "0 è l’usuale termine d’errore. dal momento che: e varianza pari a: E (y0 ¡ y0 ) = [E (b0 ) ¡ ¯ 0 ] + [E (b1 ) ¡ ¯ 1 ] x0 ¡ E ("0 ) b V ar (y0 ¡ y0 ) = V ar [(b0 ¡ ¯ 0 ) + (b1 ¡ ¯ 1 ) x0 ¡ "0 ] = b = V ar (b0 ¡ ¯ 0 ) + x2 V ar (b1 ¡ ¯ 1 ) + 2x0 Cov (b0 ¡ ¯ 0 . (b) è una funzione positiva della distanza tra x0 e la media delle osservazioni sulla cui base sono stati stimati i parametri del modello lineare bivariato. dato x0 . ¯ 1 . x. la previsione del corrispondente valore di y. Possiamo quindi de…nire l’errore di previsione come: y0 ¡ y0 = (b0 ¡ ¯ 0 ) + (b1 ¡ ¯ 1 ) x0 ¡ "0 b che ha valore atteso nullo.

n¡2 · r³ · t ® . b1 ¡ ¯ 1 ) = 0 µ 2 ¶ 1 x x2 x + ¾2 0 ¡ 2x0 ¾ 2 = ¾2 = + n Sxx Sxx Sxx à ! 1 (x0 ¡ x)2 = ¾2 + n Sxx . l’errore di previsione è diverso. cioè E(y0 ).n¡2 C = 1 ¡ ® ´ @ 2 A 2 2 1 s 1 + n + (x0 ¡x) Sxx Inoltre. Dato che: E (y0 ) = ¯ 0 + ¯ 1 x0 la previsione è ancora Tuttavia. mentre la sua varianza è eguale a: V ar (y0 ¡ E (y0 )) = V ar [(b0 ¡ ¯ 0 ) + (b1 ¡ ¯ 1 ) x0 ] = b = V ar (b0 ¡ ¯ 0 ) + x2 V ar (b1 ¡ ¯ 1 ) + 2x0 Cov (b0 ¡ ¯ 0 .n¡2 st 1 + + · y0 · 2 n Sxx và !1 u 2 u 1 (x0 ¡ x) A = 1¡® b · y0 + t ® .n¡2 st 1 + + 2 n Sxx 0 B C y0 ¡ y0 b P r B¡t ® . invece di prevedere il valore di y0 . dato x0 .64 capitolo 4 0 1 Alternativamente. è possibile prevedere il valore atteso di y0 . il valore atteso dell’errore di previsione è sempre nullo. Infatti: y0 ¡ E (y0 ) = (b0 ¡ ¯ 0 ) + (b1 ¡ ¯ 1 ) x0 b y0 = b0 + b1 x0 b và ! u u 1 (x0 ¡ x)2 b P r @y0 ¡ t ® .

25 . 25% (domanda inelastica).regressione bivariata 65 4. dopo opportune trasformazioni. rientrano nella classe dei modelli lineari. Forme funzionali utili Si è già osservato in precedenza che il modello lineare implica linearità nei parametri ma non necessariamente nelle variabili (originarie). I risultati della stima sono: d log y t = 0. ¯1 = d log yt = d log xt dyt yt dxt xt = ¡0.02) (0. 2. La sua popolarità (non solo nel contesto bivariato) è dovuta al fatto che il parametro ¯ 1 misura direttamente l’elasticità (costante) di y rispetto a x. T d ln y dy x = = ¯1 dx y d ln x ¯ dove xt indica il prezzo del ca¤è al dettaglio e yt il consumo di ca¤è (tazze per persona al giorno) nel medesimo periodo. Modello log-lineare (o modello log-log): yi = e¯ 0 xi 1 e"i che può essere riscritto come ln yi = ¯ 0 + ¯ 1 ln xi + "i Tale modello è lineare nei parametri. :::.05) r 2 = 0.4. de…nita con ²yx l’elasticità ²yx = Esempio: log yt = ¯ 0 + ¯ 1 log xt + "t "t » IN(0. 77 ¡ 0. 25 log xt (0. Ne deriva la possibilità di de…nire una vasta gamma di forme funzionali che. Infatti. 74 Interpretazione del parametro ¯ 1 : un aumento di 1% del prezzo del ca¤é determina una riduzione del consumo di ca¤è di 0. ¾2 ) per t = 1. lineare nei logaritmi delle variabili e può quindi esser stimato con il metodo dei minimi quadrati ordinari.

L’espressione può essere riscritta come: ln yt = ln y0 + t ln (1 + r) + "t e quindi ln yt = ¯ 0 + ¯ 1 t + "t dove ¯ 0 = ln y0 e ¯ 1 = ln (1 + r) Il modello viene de…nito log-lin perché solo la variabile dipendente è espressa in forma logaritmica. ¯1 = dyt dyt = dxt d ln xt x t . 2. ¾2 ) per t = 1.66 capitolo 4 Modelli semilog-lineari : ² Modello log-lin: yt = y0 (1 + r)t e"t dove y0 è il valore iniziale della variabile. 3. e t rappresenta il tempo. mentre la variabile indipendente t indica il tempo (t = 1. T dove t rappresenta un trend lineare e yt il PIL (Prodotto Interno Lordo) a prezzi costanti. r è il tasso di crescita (costante) di y. La sua popolarità è dovuta al fatto che il parametro ¯ 1 misura direttamente il tasso costante di crescita di y. T ). 97 Interpretazione del parametro ¯ 1 : il tasso di crescita (costante) del PIL è pari a 2. :::. 025t (0. Infatti. 5% dt yt dt yt = ¯ 0 + ¯ 1 ln xt + "t In questo modello il parametro ¯ 1 misura la variazione assoluta di y a fronte di una variazione relativa di x. ¯1 = ² Modello lin-log: dyt 1 d log yt = = 2.01) (0.5%. I risultati della stima sono: d log y t =8.009) con r2 = 0. 02 + 0. Esempio: log yt = ¯ 0 + ¯ 1 t + "t "t » IN(0. :::. 2.

70) (93.85) 1 xt con r2 = 0. T dove xt rappresenta il tasso di disoccupazione e yt il tasso di variazione percentuale dei salari nominali (curva di Phillips originaria). 98 Interpretazione del parametro ¯ 1 : un aumento di 1% dell’o¤erta di moneta determina un aumento del PIL di 2584 Euro. 3 + 2584 log xt ^ (0. Esempio: yt = ¯ 0 + ¯ 1 log xt + "t "t » IN(0. y tende a ¯ 0 (si osservi che ¯ 1 è una costante).regressione bivariata 67 Il modello viene de…nito lin-log perché solo la variabile indipendente è espressa in forma logaritmica. 2.80) con r2 = 0.07) (2. T dove xt rappresenta l’o¤erta di moneta e yt il PIL (Prodotto Interno Lordo). Esempio: yt = ¯ 0 + ¯ 1 "t 1 + "t xt » IN(0. 27 ^ (2. ¯1 = ² Modello reciproco: yt = ¯ 0 + ¯ 1 1 + "t xt dyt dyt = dxt = 2584 d log xt x t L’assunzione implicita in questo modello è che al crescere di x. :::. ¾2 ) per t = 1. :::. 38 Interpretazione del parametro ¯ 1 : ¯ 1 > 0 implica una relazione negativa tra in‡azione (tasso di variazione percentuale dei salari nominali) e disoccupazione. 2. . ¾2 ) per t = 1. I risultati della stima sono: yt =¡16. I risultati della stima sono: yt =¡1. 42 + 8.

2.68 capitolo 4 4. T ² Metodo dei minimi quadrati ordinari ² Periodo 1950-1984 (T = 35) ² De…nizione delle variabili: yt = Spese di consumo pro capite (1972 USD) xt = Reddito disponibile pro capite (1972 USD) . Appendice : Stima econometrica della propensione marginale al consumo ² Modello lineare bivariato yt = ¯ 0 + ¯ 1 xt + "t "t » IN(0. :::.5. ¾2 ) per t = 1.

I dati Anno Osservazione 1950 1 1951 2 1952 3 1953 4 1954 5 1955 6 1956 7 1957 8 1958 9 1959 10 1960 11 1961 12 1962 13 1963 14 1964 15 1965 16 1966 17 1967 18 1968 19 1969 20 1970 21 1971 22 1972 23 1973 24 1974 25 1975 26 1976 27 1977 28 1978 29 1979 30 1980 31 1981 32 1982 33 1983 34 1984 35 Media yt 2224 2214 2230 2277 2278 2384 2410 2416 2400 2487 2501 2511 2583 2644 2751 2868 2979 3032 3160 3245 3277 3355 3511 3623 3566 3609 3774 3924 4057 4121 4093 4131 4146 4303 4490 3131 xt 2392 2415 2441 2501 2483 2582 2653 2660 2645 2709 2709 2742 2813 2865 3026 3171 3290 3389 3493 3564 3665 3752 3860 4080 4009 4051 4158 4280 4441 4512 4487 4561 4555 4670 4941 3445 .regressione bivariata 69 Tabella 1 .

. Sxx .70 capitolo 4 Tabella 2 . Sxy ¹ ¹ Anno Osservazione (yt ¡ y)2 (xt ¡ x)2 1950 1 822079 1108207 1951 2 840313 1060312 1952 3 811235 1007442 1953 4 728779 890597 1954 5 727073 924894 1955 6 557540 744276 1956 7 519388 626812 1957 8 510776 615777 1958 9 533902 639543 1959 10 414331 541276 1960 11 396504 541276 1961 12 384010 493807 1962 13 299960 399063 1963 14 236863 336069 1964 15 144161 175322 1965 16 69004 74920 1966 17 23009 23937 1967 18 9739 3104 1968 19 859 2332 1969 20 13068 14229 1970 21 21408 48526 1971 22 50317 94425 1972 23 144639 172462 1973 24 242373 403588 1974 25 189499 318418 1975 26 228785 367582 1976 27 413853 508777 1977 28 629348 697702 1978 29 858058 992585 1979 30 980722 1139099 1980 31 926049 1086360 1981 32 1000629 1246094 1982 33 1030863 1232734 1983 34 1374321 1501325 1984 35 1847735 2238871 S. 17981190 22271739 ¹ ¹ (yt ¡ y )(xt ¡ x) 954481 943924 904031 805635 820040 644176 570577 560824 584340 473569 463269 435462 345981 282139 158980 71901 23468 5498 1415 13636 32231 68929 157939 312760 245642 289995 458867 662644 922874 1056948 1003006 1116637 1127289 1436420 2033923 19989450 .Calcolo di Syy .

898 .967 0.regressione bivariata 71 Tabella 3 .Riassunto valori rilevanti e calcolo coe¢cienti Media y 3131 Media x 3445 Syy 17981190 Sxx 22271739 Sxy 19989450 Coe¢ciente b0 Coe¢ciente b1 38.

Valori osservati. stimati e residui Anno Osservazioni yt yt ^ et 1950 1 2224 2186 38 1951 2 2214 2206 8 1952 3 2230 2230 0 1953 4 2277 2284 -7 1954 5 2278 2268 10 1955 6 2384 2356 28 1956 7 2410 2420 -10 1957 8 2416 2426 -10 1958 9 2400 2413 -13 1959 10 2487 2470 17 1960 11 2501 2470 31 1961 12 2511 2500 11 1962 13 2583 2564 19 1963 14 2644 2610 34 1964 15 2751 2755 -4 1965 16 2868 2885 -17 1966 17 2979 2992 -13 1967 18 3032 3081 -49 1968 19 3160 3174 -14 1969 20 3245 3238 7 1970 21 3277 3328 -51 1971 22 3355 3406 -51 1972 23 3511 3503 8 1973 24 3623 3701 -78 1974 25 3566 3637 -71 1975 26 3609 3675 -66 1976 27 3774 3771 3 1977 28 3924 3880 44 1978 29 4057 4025 32 1979 30 4121 4089 32 1980 31 4093 4066 27 1981 32 4131 4133 -2 1982 33 4146 4127 19 1983 34 4303 4230 73 1984 35 4490 4474 16 .72 capitolo 4 Tabella 4 .

007 Statistica t 1. 7 = 0. 135 n Sxx 35 22271739 3. 898 Errore standard 26. 491 128. 9 n¡2 33 2. 7 ¡ Cov (b0 . Calcolo dell’errore standard di b1 : s r s2 1216. 998 s = 34. 0074 se (b1 ) = = Sxx 22271739 4. Calcolo della covarianza tra b0 e b1 ¶ µ ¶ µ 3445 x 2 = ¡0.Output standard di una regressione T SS = 17981190 ESS = 17941037 RSS = 40152 r2 = 0. 998 RSS 40152 0. 002 1.regressione bivariata 73 Tabella 5 . 7 + + = 26. 286 Costante xt . 9 Variabile dipendente yt Coe¢ciente 38. Calcolo dell’errore standard della regressione: r r RSS 40152 s= = = 34. 135 0. Calcolo dell’errore standard di b0 : s µ ¶ s µ ¶ x2 1 1 34452 2 se (b0 ) = s = 1216. b1 ) = s ¡ Sxx 22271739 Tabella 6 . 967 0.Coe¢ciente di determinazione T SS 17981190 1 ESS 17941037 0. 1882 = 1216.

74 capitolo 4 4.43) (0.6.26) = 1. n con un campione di 20 osservazioni e di aver ottenuto i seguenti risultati yi = ^ s 2 3. T (dove xt indica le spese pubblicitarie di una impresa in un determinato mese e yt le vendite dell’impresa nel medesimo periodo. ¯ 1. ¾2 . 2. Si supponga di aver stimato il modello lineare bivariato yt = ¯ 0 + ¯ 1 xt + "t "t » IN(0. :::. ¾ 2 ) per i = 1. 75 xi (2. Esercizi 1. . 6 + 0.18) RSS = 16 x = 8 ¹ Sxx = 28 (a) Qual è la previsione di vendita con un budget pubblicitario di 12. (b) si sottopongano disgiuntamente a test le seguenti ipotesi ad un livello di signi…catività del 5%: H0 : ¯ 0 = 0 contro H1 : ¯ 0 6= 0 H0 : ¯ 1 = 1 contro H1 : ¯ 1 6= 1 H0 : ¾2 = 1 contro H1 : ¾ 2 6= 1 2. :::.000 Euro? Qual è la varianza stimata dell’errore di previsione? Si costruisca inoltre un intervallo di con…denza del 95% per questa previsione. Si supponga di aver stimato il modello lineare bivariato yi = ¯ 0 + ¯ 1 xi + "i "i » IN(0. ¾ 2 ) per t = 1. Entrambe le variabili sono espresse in migliaia di Euro) con un campione di 20 osservazioni (quindi 20 mesi) e di aver ottenuto i seguenti risultati yt = ^ 2. 2.09) (0. 4 + 1. 25 xt (1. 83 (a) si costruiscano gli intervalli di con…denza al 95% per ¯ 0 .

000 Euro? Qual è la varianza stimata dell’errore di previsione? Si costruisca inoltre un intervallo di con…denza del 95% per questa previsione.75 (b) Qual è la previsione media di vendita nei prossimi 12 mesi con un budget pubblicitario di 12. .

76 .

:::. Metodo dei Minimi Quadrati Ordinari 5. "j ) = 0 per i 6= j Cov(xkj . Assunzioni 1. n per i = 1. j = 1. "i ) = 0 per i. ¾2 ) per i = 1.1. n Cov("i . 2. Modello lineare trivariato: yi = ¯ 0 + ¯ 1 x1i + ¯ 2 x2i + "i 2. n . 2. :::.1. n.1. 2. :::. Assunzione sulla normalità dei termini d’errore: "i » N(0. :::. 2. Assunzioni classiche: E("i ) = 0 per i = 1.Capitolo 5 Modelli di Regressione Regressione lineare trivariata 5. 2. :::. 2 3. k = 1. n V ar("i ) = ¾2 per i = 1.

2. tali da minimizzare la somma del quadrato dei residui (RSS. ¯ 1 . 2. ¯ 1 e ¯ 2 . De…nizione di residuo: ei = yi ¡ b0 ¡ b1 x1i ¡ b2 x2i e quindi RSS = n X i=1 per i = 1.1. ¯ 2 e ¾ 2 non sono noti. Analogamente al caso bivariato. Stima dei parametri Intuizione: i parametri ¯ 0 .78 capitolo 5 5. b1 e b2 . che chiameremo b0 .b1 .b2 (yi ¡ b0 ¡ b1 x1i ¡ b2 x2i )2 Le condizioni del primo ordine sono: @RSS X = ¡2 (yi ¡ b0 ¡ b1 x1i ¡ b2 x2i ) = 0 @b0 i=1 n @RSS = @b1 @RSS = @b2 n X i=1 n X i=1 ¡2x1i (yi ¡ b0 ¡ b1 x1i ¡ b2 x2i ) = 0 ¡2x2i (yi ¡ b0 ¡ b1 x1i ¡ b2 x2i ) = 0 Analogamente al caso bivariato queste possono essere riscritte in forma di equazioni normali: y = b0 + b1 x1 + b2 x2 n n n n X X X X x1i yi = b0 x1i + b1 x2 + b2 x1i x2i 1i i=1 n X i=1 x2i yi = b0 Si sostituisca ora la prima equazione normale nella seconda e nella terza. Si ottengono le seguenti due equazioni n X i=1 i=1 n X i=1 x2i + b2 i=1 n X i=1 x2 + b1 2i i=1 n X i=1 x1i x2i x1i yi = nx1 (y ¡ b1 x1 ¡ b2 x2 ) + b1 n X i=1 x2 + b2 1i n X i=1 x1i x2i . n e2 i = Scriviamo il programma di minimizzazione Min n X i=1 n X i=1 (yi ¡ b0 ¡ b1 x1i ¡ b2 x2i )2 b0 . il metodo dei minimi quadrati de…nisce degli stimatori di ¯ 0 . :::. Residual Sum of Squares).

regressione trivariata 79 n X i=1 x2i yi = nx2 (y ¡ b1 x1 ¡ b2 x2 ) + b2 che possono essere sempli…cate utilizzando la notazione: S11 = n X i=1 n X i=1 n X i=1 x2 + b1 2i n X i=1 x1i x2i (x1i ¡ x1 )2 = n X i=1 x2 ¡ nx1 2 1i x1i x2i ¡ nx1 x2 S12 = (x1i ¡ x1 ) (x2i ¡ x2 ) = n X i=1 S22 = n X i=1 n X i=1 (x2i ¡ x2 )2 = n X i=1 n X i=1 x2 ¡ nx2 2 2i x1i yi ¡ nx1 y x2i yi ¡ nx2 y S1y = (yi ¡ y) (x1i ¡ x1 ) = (yi ¡ y) (x2i ¡ x2 ) = n X i=1 n X i=1 n X i=1 S2y = Syy = Ne deriva che n X i=1 (yi ¡ y)2 = n X i=1 2 yi ¡ ny 2 x1i yi = nx1 (y ¡ b1 x1 ¡ b2 x2 ) + b1 n X i=1 x2 + b2 1i n X i=1 x1i x2i può essere riscritta come S1y = b1 S11 + b2 S12 e n X i=1 n X i=1 n X i=1 x2i yi = nx2 (y ¡ b1 x1 ¡ b2 x2 ) + b2 x2 2i + b1 x1i x2i come S2y = b1 S12 + b2 S22 Risolvendo il sistema si ottengono gli stimatori b1 e b2 b1 = S22 S1y ¡ S12 S2y 2 S11 S22 ¡ S12 .

Infatti: n X i=1 ei = n X i=1 (yi ¡ b0 ¡ b1 x1i ¡ b2 x2i ) = 0 2. Questa proprietà deriva direttamente dalla prima equazione normale. Infatti: n n X X x1i ei = x1i (yi ¡ b0 ¡ b1 x1i ¡ b2 x2i ) = 0 i=1 i=1 n X i=1 x2i ei = n X i=1 x2i (yi ¡ b0 ¡ b1 x1i ¡ b2 x2i ) = 0 5.3.80 capitolo 5 b2 = S11 S2y ¡ S12 S1y 2 S11 S22 ¡ S12 e. Il coe¢ciente di determinazione multiplo (R2 ) n X i=1 RSS = Dimostrazione RSS = = = n X i=1 n X i=1 n X i=1 e2 = Syy ¡ b1 S1y ¡ b2 S2y i (yi ¡ b0 ¡ b1 x1i ¡ b2 x2i )2 [yi ¡ y ¡ b1 (x1i ¡ x1 ) ¡ b2 (x2i ¡ x2 )]2 (yi ¡ y)2 + b2 1 n X i=1 (x1i ¡ x1 )2 + b2 2 n X i=1 (x2i ¡ x2 )2 + . dopo opportune sostituzioni.1. Questa proprietà deriva direttamente dalla seconda e dalla terza equazione normale. La somma dei prodotti x1i ei e x2i ei è pari a zero.4. Proprietà algebriche dei minimi quadrati Analogamente al caso bivariato: 1. La somma dei residui è pari a zero.1. lo stimatore b0 b0 = y ¡ b1 x1 ¡ b2 x2 5.

Si noti che 0 · R2 · 1 Analogamente al coe¢ciente di determinazione semplice r2 nel caso della regressione bivariata. Si osservi in…ne che il quadrato del coe¢ciente di correlazione multiplo è il coe¢ciente di determinazione multiplo.regressione trivariata 81 ¡ 2b1 n X + 2b1 b2 = + b2 S22 ¡ 2b1 S1y ¡ 2b2 S2y + 2b1 b2 S12 2 = Syy ¡ b1 S1y ¡ b2 S2y L’ultima eguaglianza è ottenuta utilizzando la seconda e la terza equazione normale: S1y = b1 S11 + b2 S12 S2y = b1 S12 + b2 S22 Infatti. Explained Sum of Squares) possiamo scrivere: T SS = ESS + RSS Il coe¢ciente di determinazione multiplo è de…nito dal rapporto tra la somma dei quadrati spiegata e la somma totale dei quadrati. moltiplicando la seconda per b1 e la terza per b2 e sommando membro a membro si ottiene b2 S11 + b2 S22 + 2b1 b2 S12 = b1 S1y + b2 S2y 1 2 Denotando (si osservi l’analogia con il caso bivariato) con: Syy la somma totale dei quadrati degli scarti della variabile dipendente rispetto alla media (T SS. . In formula R2 = ESS RSS =1¡ T SS T SS i=1 Syy + b2 S11 1 i=1 n X (yi ¡ y) (x1i ¡ x1 ) ¡ 2b2 (x1i ¡ x1 ) (x2i ¡ x2 ) n X i=1 (yi ¡ y) (x2i ¡ x2 ) e viene utilizzato per valutare la bontà (il “…t”) di una regressione. Total Sum of Squares) b1 S1y + b2 S2y la somma dei quadrati spiegata (ESS. valori elevati di R2 indicano che una parte rilevante della somma totale dei quadrati (T SS) è spiegata dal piano di regressione (ESS).

Il coe¢ciente di determinazione multiplo “aggiustato” (R2 ) Il coe¢ciente di determinazione multiplo R2 è una funzione non decrescente del numero di regressori (cioè di variabili esplicative) inclusi nel modello. b1 e b2 sono (come nel caso bivariato): a) lineari. Date le assunzioni classiche gli stimatori OLS b0 .82 capitolo 5 5. Si osservi in…ne che. .5. T SS non dipende dal numero di regressori mentre mentre RSS è una funzione non crescente del numero di regressori. Infatti. In altri termini aggiungendo un’ulteriore variabile esplicativa ad un modello preesistente RSS non può aumentare. anche se comunemente utilizzato. anche se non signi…cativamente diversi da zero. R2 che è de…nito dalla seguente relazione: ¶ µ ¡ ¢ RSS n ¡ 1 2 n¡1 1 ¡ R2 = 1 ¡ R = n¡k T SS n ¡ k R2 =1¡ µ RSS T SS ¶ n¡1 n¡k e quindi dove n è il numero delle osservazioni e k il numero dei parametri ¯ nel modello stimato (3 nel caso del modello di regressione trivariato. non esiste un consenso generalizzato sulla superiorità del coe¢ciente di determinazione multiplo “aggiustato” rispetto ad altre misure analoghe.1. Per ovviare a questo inconveniente in letteratura sono state costruite numerose statistiche alternative. costante compresa). dal momento che un eventuale criterio di scelta basato esclusivamente su R2 condurrebbe all’inclusione di un numero molto elevato di regressori. 5. Un esempio è il coe¢ciente di determinazione multiplo “aggiustato”. Ne consegue che il coe¢ciente di determinazione multiplo non può costituire un buon criterio per selezionare il numero di variabili esplicative da includere in un modello (o per confrontare equazioni con un diverso numero di variabili esplicative).6. b) non distorti.1. L’intuizione sottostante è molto semplice: correggere il coe¢ciente di determinazione multiplo per tener conto della perdita di gradi di libertà conseguente all’introduzione di variabili esplicative addizionali. Proprietà statistiche Teorema di Gauss-Markov.

b2 )] Cov (b0 . b1 e b2 sono (come nel caso bivariato) a loro volta distribuiti normalmente con le seguenti medie e varianze: µ ¶ ¾2 + x1 2 V ar (b1 ) + 2x1 x2 Cov (b1 . 2 S11 1 ¡ r12 à ! ¾2 ¡ ¢ b2 » N ¯ 2 . la conoscenza delle varianze di b0 . d) Se inoltre si assume la normalità dei termini di errore. b2 ) = ¡ dove ¾2 r2 ¡ 12 2 ¢ S12 1 ¡ r12 S12 r12 = p S11 S22 è il coe¢ciente di correlazione semplice tra x1 e x2 . b1 e b2 sono (come nel caso bivariato) gli stimatori a varianza minima nella classe degli stimatori (lineari e non lineari) non distorti (BUE) Distribuzione degli stimatori OLS. n à ! ¾2 ¡ ¢ b1 » N ¯ 1 . b2 )] Cov (b1 . e) Inoltre. b1 ) = ¡ [x1 V ar (b1 ) + x2 Cov (b1 . anche V ar (b1 ) e V ar (b2 ) sono elevati e quindi b1 e b2 non possono essere stimati con precisione (multicollinearità). b2 ) + x2 2 V ar (b2 ) b0 » N ¯ 0 . Teorema di Rao. di¢cilmente possono essere calcolate direttamente dal momento che ¾2 non è noto. b2 ) = ¡ [x2 V ar (b2 ) + x1 Cov (b1 . 2 S22 1 ¡ r12 Cov (b0 . Come nel caso bivariato.regressione trivariata 83 c) a varianza minima nella classe degli stimatori lineari non distorti (BLUE). b1 e b2 (e delle loro covarianze) è ovviamente utile. . Tuttavia. gli stimatori OLS b0 . sempre data l’assunzione di normalità dei termini di errore gli stimatori OLS b0 . Si noti che se r12 è elevato.

Inoltre: RSS ¾2 ha una distribuzione Â2 con n ¡ 3 gradi di libertà. . Ne deriva (trascuriamo per semplicità b0 ) che le seguenti statistiche r ¾2 2 S11 1¡r12 b1 ¡¯ 1 q ( ) RSS (n¡3)¾2 =q RSS 2 (n¡3)S11 (1¡r12 ) b1 ¡ ¯ 1 =r b1 ¡ ¯ 1 = s2 2 S11 (1¡r12 ) b1 ¡ ¯ 1 se (b1 ) r q ¾2 2 S22 1¡r12 b2 ¡¯ 2 ( ) RSS (n¡3)¾2 =q RSS 2 (n¡3)S22 (1¡r12 ) b2 ¡ ¯ 2 =r b2 ¡ ¯ 2 = s2 2 S22 (1¡r12 ) b2 ¡ ¯ 2 se (b2 ) hanno una distribuzione t con n¡3 gradi di libertà e possono essere utilizzate per costruire intervalli di con…denza o e¤ettuare test di ipotesi (disgiunti) su ¯ 1 e ¯ 2 . la seguente statistica (la cui radice è nota come errore standard della regressione) s2 = RSS n¡3 è uno stimatore non distorto di ¾ 2 .84 capitolo 5 f) Nel caso trivariato.

regressione trivariata 85 5. ¾ 2 ) il modello stimato è yi = b0 + b1 x1i + b2 x2i + ei dove: b1 = b2 = per i = 1. Interpretazione dei coe¢cienti e variabili omesse I coe¢cienti come derivate parziali. 2. 2. n S22 S1y ¡ S12 S2y 2 S11 S22 ¡ S12 S11 S2y ¡ S12 S1y 2 S11 S22 ¡ S12 I coe¢cienti b1 e b2 possono essere interpretati come derivate parziali: un piccolo movimento di x1 (x2 ) a parità di x2 (x1 ) ha un e¤etto su y pari al coe¢ciente stimato b1 (o b2 ). Dato il modello lineare trivariato vero: yi = ¯ 0 + ¯ 1 x1i + ¯ 2 x2i + "i per i = 1. :::. Si supponga di stimare invece separatamente due modelli bivariati: yi = b0 + b1y x1i + ei e yi = b0 + b2y x2i + ei dove b1y = e b2y = S1y S11 S2y S22 Qual è la relazione tra b1 (b2 ) e b1y (b2y )? Per rispondere a questa domanda introduciamo due regressioni aggiuntive: x2i = b0 + b12 x1i + ei dove b12 = e x1i = b0 + b21 x2i + ei S12 S11 . :::.2. n "i » IN(0.

2. n . n "i » IN(0. :::. :::. Dal momento che il coe¢ciente di correlazione semplice tra x1 e x2 è de…nito dalla seguente espressione: b2 = S12 r12 = p S11 S22 da cui S12 = r12 p S11 S22 1y ¡ S12 S2y S22 S1y ¡ S12 S2y b1y ¡ b12 b2y 11 22 = S11 = 2 2 S 1 ¡ b12 b21 S11 S22 ¡ S12 1 ¡ S111222 S S S S possiamo riscrivere b12 e b21 come segue: r p S22 S12 r12 S11 S22 b12 = = = r12 S11 S11 S11 r p S11 S12 r12 S11 S22 b21 = = = r12 S22 S22 S22 Quindi b12 e b21 sono entrambi eguali a zero solo se il coe¢ciente di correlazione semplice tra x1 e x2 è eguale a zero.1. 5. 2.86 capitolo 5 dove S21 S12 = S22 S22 Riscriviamo adesso b1 (lo stesso ragionamento si applica a b2 ) dividendo numeratore e denominatore per S11 S22 b21 = b1 = Analogamente: b2y ¡ b21 b1y 1 ¡ b12 b21 Ne deriva che b1 = b1y solo se b12 = 0 e b2 = b2y solo se b21 = 0. ¾2 ) Tuttavia invece di stimare l’equazione yi = b0 + b1 x1i + b2 x2i + ei per i = 1. cioè se x1 e x2 non sono correlati. 2. Il problema dell’omissione di variabili rilevanti Si supponga che il modello vero sia yi = ¯ 0 + ¯ 1 x1i + ¯ 2 x2i + "i per i = 1.

n La domanda a cui dobbiamo rispondere è se b1y sia uno stimatore non distorto di ¯ 1 . Inoltre: V ar (b1y ) = ¾2 S11 . Lo è solamente se r12 = 0. Viceversa la distorsione è positiva (cioè b1y sovrastima il vero valore di ¯ 1 ) se ¯ 2 e r12 hanno lo stesso segno. 2.regressione trivariata 87 viene stimata l’equazione (in cui viene omessa la variabile x2 ) yi = b0 + b1y x1i + ei per i = 1. Dimostrazione: n P ¡ b1y = = S1y = i=1 S11 S11 n P ¡ (x1i ¡ x1 )(¯ 0 + ¯ 1 x1i + ¯ 2 x2i + "i ) i=1 (x1i ¡ x1 )yi S11 ¯1 = i=1 n P (x1i ¡ ¡ 2 x1 ) + ¯2 i=1 n P (x1i ¡ x1 )x2i + S11 ¡ i=1 n P (x1i ¡ x1 )"i ¡ S12 = ¯1 + ¯2 + S11 i=1 n P (x1i ¡ x1 )"i S11 ¡ E(b1y ) = ¯ 1 + ¯ 2 S12 S11 = ¯ 1 + ¯ 2 b12 r = ¯ 1 + ¯ 2 r12 S22 S11 Tale “bias” è nullo solo se r12 è eguale a zero. Infatti è agevole dimostrare che: r S22 E (b1y ) = ¯ 1 + ¯ 2 b12 = ¯ 1 + ¯ 2 r12 S11 dove ¯ 2 b12 rappresenta il “bias” dello stimatore b1y . Se viceversa hanno segno opposto la distorsione è negativa. :::.

¯ 1 negativo e signi…cativamente diverso da zero sembrerebbe indicare che i paesi possano scegliere tra diverse combinazioni di disoccupazione e in‡azione (così almeno venivano interpretati negli anni ’60 i risultati di Phillips per il Regno Unito e di Samuelson e Solow per gli Stati Uniti).29) (0.63) Una possibile spiegazione di questo risultato anomalo è che la curva di Phillips originaria sia un modello non correttamente speci…cato dal momento . è caratterizzato da una varianza minore rispetto a b1 . pur essendo uno stimatore distorto di ¯ 1 . che viceversa è uno stimatore corretto. La curva di Phillips originaria può essere descritta dall’equazione: yt = ¯ 0 + ¯ 1 x1t + ²t dove yt rappresenta il tasso d’in‡azione e¤ettivo al tempo t e xt il tasso di disoccupazione sempre al tempo t. Infatti: yt =6. Si osservi tuttavia che ciò non implica necessariamente che l’errore standard (stimato) di b1y sia minore rispetto a quello di b1 . Questo è vero solo se s2 ¡ u 2 ¢ > s2 b 1 ¡ r12 cioè se ¡ ¢ s2 u 2 2 > 1 ¡ r12 sb ¾2 ¡ ¢ 2 S11 1 ¡ r12 dove su è l’errore standard (stimato) della regressione yi = b0 + b1 x1i + b2 x2i + ei e sb quello della regressione yi = b0 + b1y x1i + ei Un’applicazione del problema delle variabili omesse: la curva di Phillips. 25 x1t .88 capitolo 5 mentre V ar (b1 ) = Ne consegue che b1y . La stima OLS della curva di Phillips originaria su dati US nel periodo 1970-82 fornisce evidenza empirica contraria all’esistenza di un trade-o¤ tra in‡azione e disoccupazione. 13 + 0. r2 = 0. 01 ^ (4.

Se l’ipotesi ¯ 2 = 1 non è ri…utata dai dati (ma lo è nel nostro caso?). La curva di Phillips modi…cata (o corretta per le aspettative) è rappresentabile da: yt = ¯ 0 + ¯ 1 x1t + ¯ 2 x2t + ²t dove x2t misura il tasso d’in‡azione atteso al tempo t. 39 x1t + 1. data l’in‡azione attesa. un aumento della disoccupazione porti a una riduzione dell’in‡azione e¤ettiva. 41 Infatti. è possibile riscrivere la curva di Phillips modi…cata come segue: yt ¡ x2t = ¯ 0 + ¯ 1 x1n + ²t da cui. 73 + 1. I risultati della stima sono: yt =7. 11 Stima del tasso di disoccupazione naturale. 19 ¡ 1.31) (0. 17 = b1 ¡1. ^ (1. 11 x1t ^ (2. sapendo che b1y = b1 + b2 b12 possiamo scrivere 0. 47 £ 1.40) r2 = 0.18) R2 = 0. I segni attesi sono ¯ 1 < 0 e ¯ 2 > 0 (con ¯ 2 = 0 otteniamo la curva di Phillips originaria). dove il tasso d’in‡azione atteso (x2t ) viene regredito sul tasso di disoccupazione (x1t ) x2t =0.59) (0.regressione trivariata 89 che non tiene conto delle aspettative di in‡azione. 19 = 5. 25 = ¡1. 88 Per analizzare la relazione algebrica tra le stime dei due modelli è necessaria una terza equazione. L’idea sottostante è che. imponendo yt ¡ x2t = 0 0 = ¯ 0 + ¯ 1 x1n + ²t e quindi x1n = ¡ ^ b0 ¡7. 47 x2t . 39 .73) (0. Il tasso naturale di disoccupazione (x1n ) è quel tasso di disoccupazione per cui l’in‡azione e¤ettiva è eguale a quella attesa. 39 + 1.

¾2 ) è possibile veri…care una molteplicità di ipotesi sui parametri utilizzando statistiche che hanno distribuzioni t di Student o F di Fisher: (a) Ipotesi su singoli parametri ¯1 = 1 ¯2 = 0 (b) Ipotesi (congiunte) su più parametri ¯1 = ¯2 = 0 (c) Restrizioni lineari sui parametri ¯1 ¡ ¯2 = 0 ¯1 + ¯2 = 1 Esempio. si può quindi veri…care se le stime condotte su osservazioni precedenti il cambiamento strutturale (pre) siano eguali alle stime condotte su osservazioni successive (post). Supponendo che il bene sostituto sia stato introdotto in un dato periodo. Nel contesto di una funzione di domanda di un bene è importante veri…care se l’introduzione di un bene sostituto (cambiamento strutturale) ha modi…cato le elasticità al prezzo (¯ 1 ) e al reddito (¯ 2 ) del bene già esistente.3. cioè che i ritorni di scala siano costanti.90 capitolo 5 5. (d) Stabilità dei parametri ¯ pre = ¯ post 1 1 ¯ pre = ¯ post 2 2 Esempio. . Nel contesto di una funzione di produzione Cobb-Douglas la prima restrizione implica che le elasticità al fattore lavoro (x1 ) e al fattore capitale (x2 ) siano eguali. Test di Ipotesi Dopo aver stimato i parametri di un modello di regressione lineare classico multivariato (di cui il modello trivariato rappresenta il caso più semplice) yi = ¯ 0 + ¯ 1 x1i + ¯ 2 x2i + "i per i = 1. 2. n "i » IN(0. :::. mentre la seconda implica che la loro somma sia pari a 1.

Ipotesi su singoli parametri Data un’ipotesi nulla su un generico parametro ¯ j (j = 0.2. 5.regressione trivariata 91 5. con n ¡ k gradi di libertà in un modello multivariato con k parametri ¯. più generalmente. Si osservi che ogni equazione normale implica infatti una restrizione sui residui. sotto l’ipotesi nulla H0 : ¯ 1 = ¯ 2 = 0. 2) H0 : ¯ j = ¯ ¤ j H1 : ¯ j = ¯ ¤ 6 j la statistica: t= bj ¡ ¯ ¤ j se (bj ) ha sotto l’ipotesi nulla una distribuzione t di Student con n ¡ 3 gradi di libertà dove n è il numero di osservazioni e 3 il numero di parametri ¯ da stimare nel modello e quindi di equazioni normali. in un modello multivariato con k parametri ¯ da stimare i gradi di libertà della statistica t sono pari a n ¡ k dove n è il numero di osservazioni e k il numero di parametri ¯ da stimare nel modello (e quindi di equazioni normali).3. Si può dimostrare inoltre che. nel modello trivariato la statistica: ESS ¾2 ha una distribuzione Â2 con 2 gradi di libertà (e più generalmente con k ¡ 1 gradi di libertà dove k è il numero dei parametri ¯ da stimare nel modello). Analogamente. .3. dove n è il numero delle osservazioni e k è il numero dei parametri ¯ da stimare nel modello). Ipotesi congiunte su più parametri Si consideri la seguente identità T SS = ESS + RSS Già sappiamo che nel modello trivariato la statistica RSS ¾2 ha una distribuzione Â2 con (n¡3) gradi di libertà (e.1. 1.

Questo test viene spesso de…nito test di signi…catività della regressione.3. Analogamente.92 capitolo 5 Dal momento che le due statistiche sono distribuite in modo indipendente. in un modello multivariato con k parametri ¯ da stimare i gradi di libertà della statistica F sono pari a k ¡ 1 (al numeratore) e n ¡ k (al denominatore) dove n è il numero delle osservazioni e k il numero dei parametri ¯ da stimare nel modello. S12 e S22 F = ESS 2 RSS n¡3 = ESS b1 S1y + b2 S2y b2 S11 + 2b1 b2 S12 + b2 S22 2 = = 1 2s2 2s2 2s2 (b) Evidenziando il legame con R2 F = ESS 2 RSS n¡3 ESS T SS = 2 RSS T SS = n¡3 R2 2 1¡R2 n¡3 5.3. allora y non è una funzione lineare di x1 e x2 . la statistica (sempre sotto l’ipotesi nulla H0 : ¯ 1 = ¯ 2 = 0): F = ESS ¾2 2 RSS ¾ 2 (n¡3) = ESS 2 RSS n¡3 ha una distribuzione F di Fisher con 2 (al numeratore) e n ¡ 3 (al denominatore) gradi di libertà. Restrizioni lineari sui parametri Le restrizioni lineari sui parametri possono essere sottoposte a test utilizzando due diversi approcci: (a) il primo approccio si basa sulla costruzione di un test t e richiede la stima di un solo modello (il modello non ristretto). È quindi possibile utilizzare la statistica F per sottoporre a test l’ipotesi che tutti i parametri del modello (con l’eccezione della costante) non siano signi…cativamente diversi da zero. Modi alternativi di calcolare la statistica F : (a) In funzione di S11 . Questo approccio tuttavia non consente di veri…care congiuntamente più di una restrizione lineare sui parametri. . cioè che H0 : ¯ 1 = ¯ 2 = 0 Se non è possibile ri…utare l’ipotesi nulla.

la loro di¤erenza è ancora distribuita normalmente. Consente infatti di veri…care congiuntamente più di una restrizione lineare sui parametri. È più complesso dal momento che per la sua implementazione devono essere stimati due modelli (il modello non ristretto e il modello ristretto). allora si deve ri…utare l’ipotesi nulla. se l’ipotesi nulla è vera: (b1 ¡ b2 ) ¡ 0 t= se (b1 ¡ b2 ) segue anch’essa una distribuzione t di Student con n¡3 gradi di libertà. dal momento che b1 e b2 sono variabili distribuite normalmente. Infatti. b2 ) Se il valore calcolato della statistica t eccede il valore critico della distribuzione t al livello di signi…catività pre…ssato. Quindi. n "i » IN(0. . 2. Si consideri il seguente modello di regressione lineare classico trivariato: yi = ¯ 0 + ¯ 1 x1i + ¯ 2 x2i + "i per i = 1.regressione trivariata 93 (b) il secondo approccio si basa invece sulla costruzione di un test F . b2 ) da cui deriva che: t= (b1 ¡ b2 ) (b1 ¡ b2 ) =p se (b1 ¡ b2 ) V ar (b1 ) + V ar (b2 ) ¡ 2Cov (b1 . altrimenti non è possibile ri…utare la restrizione. Inoltre la varianza (stimata) della loro di¤erenza è pari a: V ar (b1 ¡ b2 ) = V ar (b1 ) + V ar (b2 ) ¡ 2Cov (b1 . Esempio 1. :::. Tuttavia è più generale. ¾ 2 ) La restrizione che si vuole sottoporre a test è la seguente: H0 : ¯ 1 = ¯ 2 che equivale a H0 : ¯ 1 ¡ ¯ 2 = 0 ² Approccio basato sul test t: La seguente statistica t= (b1 ¡ b2 ) ¡ (¯ 1 ¡ ¯ 2 ) se (b1 ¡ b2 ) ha una distribuzione t di Student con n ¡ 3 gradi di libertà (e più generalmente con n ¡ k gradi di libertà).

RRSS la somma del quadrato dei residui del modello ristretto (Restricted Residual Sum of Squares). sia il modello che tiene conto della restrizione (modello ristretto). k = numero di parametri nel modello non ristretto (3 nel modello trivariato). n = numero di osservazioni. Se la restrizione è “ragionevole” allora la somma dei quadrati dei residui del modello ristretto non dovrebbe essere “troppo” più grande della somma dei quadrati dei residui del modello non ristretto. ¾2 ) . n "i » IN(0. Si consideri il solito modello di regressione lineare classico trivariato: yi = ¯ 0 + ¯ 1 x1i + ¯ 2 x2i + "i per i = 1. Sotto ipotesi nulla la statistica: F = RRSS¡U RSS m URSS n¡k = RRSS¡U RSS 1 URSS n¡3 ha una distribuzione F con m (al numeratore) e n¡k (al denominatore) gradi di libertà. allora si deve ri…utare l’ipotesi nulla. Esempio 2. m = numero di restrizioni (1 nel nostro caso). :::. Se il valore calcolato della statistica F eccede il valore critico della distribuzione F al livello di signi…catività pre…ssato. 2. altrimenti non è possibile ri…utare la restrizione. Stimiamo sia il modello originale (non ristretto). Modello non ristretto: yi = ¯ 0 + ¯ 1 x1i + ¯ 2 x2i + "i Modello ristretto: yi = ¯ 0 + ¯ 1 x1i + ¯ 1 x2i + "i = ¯ 0 + ¯ 1 (x1i + x2i ) + "i De…niamo con: URSS la somma del quadrato dei residui del modello non ristretto (Unrestricted Residual Sum of Squares).94 capitolo 5 ² Approccio basato sul test F: L’intuizione è molto semplice.

altrimenti non è possibile ri…utare la restrizione. ² Approccio basato sul test F . Inoltre la varianza (stimata) della loro somma è pari a: V ar (b1 + b2 ) = V ar (b1 ) + V ar (b2 ) + 2Cov (b1 .regressione trivariata 95 La restrizione che si vuole sottoporre a test è: H0 : ¯ 1 + ¯ 2 = 1 ² Approccio basato sul test t. Modello non ristretto: yi = ¯ 0 + ¯ 1 x1i + ¯ 2 x2i + "i Modello ristretto: yi = ¯ 0 + ¯ 1 x1i + (1 ¡ ¯ 1 ) x2i + "i da cui yi ¡ x2i = ¯ 0 + ¯ 1 (x1i ¡ x2i ) + "i . b2 ) da cui deriva che: t= (b1 + b2 ) ¡ 1 (b1 + b2 ) ¡ 1 =p se (b1 + b2 ) V ar (b1 ) + V ar (b2 ) + 2Cov (b1 . se il valore calcolato della statistica t eccede il valore critico della distribuzione t al livello di signi…catività pre…ssato. se l’ipotesi nulla è vera: (b1 + b2 ) ¡ 1 t= se (b1 + b2 ) segue una distribuzione t di Student con n ¡ 3 gradi di libertà. dal momento che b1 e b2 sono variabili distribuite normalmente. Infatti. b2 ) Come nel caso precedente. La seguente statistica t= (b1 + b2 ) ¡ (¯ 1 + ¯ 2 ) se (b1 + b2 ) ha una distribuzione t di Student con n ¡ 3 gradi di libertà (e più generalmente con n ¡ k gradi di libertà). L’intuizione del test è la stessa di quella dell’esempio 1. Quindi. la loro somma è ancora distribuita normalmente. allora si deve ri…utare l’ipotesi nulla.

34 x1i ¡ 0.16) (0. :::. x1 il reddito disponibile pro capite. 9801 A questo punto possiamo sottoporre a test l’ipotesi nulla calcolando la statistica del test: F = RRSS¡U RSS m U RSS n¡k 2 RU ¡R2 R m 1¡R2 U n¡k RRSS¡U RSS T SS = m U RSS T SS = n¡k = = 0. L’ipotesi che si vuole sottoporre a test è se il consumo di carne di pollo non dipenda dai prezzi della carne di suino e di bovino.96 capitolo 5 La costruzione del test procede poi come nell’esempio 1.18 = 3.10) 2 RU = 0.06) 2 RR = 0.9801 2 1¡0. 15 x3i + 0.10) (0. di suino e di bovino. 23 dove y rappresenta il consumo pro capite di pollo (in libbre). x4 il prezzo al dettaglio (sempre in libbre) della carne di pollo. Tutte le variabili sono espresse in logaritmi. . 09 x4i ^ (0. 55 l’ipotesi nulla non è ri…utata.9823¡0. suino e bovino non siano prodotti sostituti (o eventualmente complementari).9823 18 = 1. cioè se carne di pollo. Esempio 3 (con m > 1). 50 x2i + 0. 38 x2i ^ (0. 12 Dato che il valore critico della distribuzione (con ® = 0.12) (0.08) (0. In breve H0 : ¯ 3 = ¯ 4 = 0 Il modello ristretto è quindi yi = ¯ 0 + ¯ 1 x1i + ¯ 2 x2i + "i Le stime del modello non ristretto e ristretto sono le seguenti yi = 2. Si consideri il modello non ristretto yi = ¯ 0 + ¯ 1 x1i + ¯ 2 x2i + ¯ 3 x3i + ¯ 4 x4i + "i .02) (0. 05) è: F2. 9823 yi = 2. x3 . i = 1. 45 x1i ¡ 0. 19 + 0. x2 . 03 + 0.11) (0.

2. Stabilità strutturale dei parametri Test di Chow.regressione trivariata 97 5. Un cambiamento i i strutturale può implicare siano diverse: (a) le intercette. De…niamo con: URSSpre la somma del quadrato dei residui nella prima equazione del "post » N(0. Consideriamo il seguente modello (non ristretto) yi = ¯ pre + ¯ pre x1i + ¯ pre x2i + "i 0 1 2 e yi = ¯ post + ¯ post x1i + ¯ post x2i + "i 0 1 2 con i = n1 + 1. ¾2 ) i e che "pre e "post siano indipendentemente distribuiti. n1 + n2 con i = 1. n1 dove la prima equazione si applica alle prime n1 osservazioni (periodo “pre”) e la seconda alle successive n2 osservazioni (periodo “post”). n1 + 2. (c) le intercette e le pendenze (o almeno una coppia di queste). (b) le pendenze (o almeno una coppia di queste). si può utilizzare un approccio basato sulla costruzione di un test F . :::.4.3. :::. Se non vi è cambiamento strutturale allora le due equazioni possono essere combinate in un’unica equazione (modello ristretto): yi = ¯ 0 + ¯ 1 x1i + ¯ 2 x2i + "i Per sottoporre a test l’ipotesi nulla di assenza di cambiamento strutturale: H0 : ¯ pre = ¯ post 0 0 ¯ pre = ¯ post 1 1 ¯ pre = ¯ post 2 2 contro l’ipotesi alternativa di cambiamento strutturale. Inoltre si assuma che: "pre » N(0. ¾2 ) i . analogo a quanto già visto nel caso di restrizione lineare sui parametri.

:::. altrimenti non è possibile ri…utare la restrizione di assenza di cambiamento strutturale.sotto l’ipotesi nulla di assenza di cambiamento strutturale . allora si deve ri…utare l’ipotesi nulla. :::. L’intuizione è semplice: se l’ipotesi di assenza di cambiamento strutturale è “ragionevole” allora la somma dei quadrati del modello ristretto (RRSS) non dovrebbe essere “troppo” più grande della somma dei quadrati dei residui del modello non ristretto (URRSpre + URRSpost ). Il modello è stimato su dati inglesi per il periodo 1946-63 e l’obiettivo è veri…care se la relazione tra risparmio e reddito si è modi…cata tra la fase di ricostruzione del II dopoguerra (pre: 1946-54) e il periodo successivo (post: 1955-63). t = 1946. 1963 0 1 dove y rappresenta il risparmio pro capite e x il reddito disponibile pro capite. t = 1955. Esempio. .98 capitolo 5 modello non ristretto (n1 osservazioni): yi = ¯ pre + ¯ pre x1i + ¯ pre x2i + "pre 0 1 2 i URSSpost la somma del quadrato dei residui nella seconda equazione del modello non ristretto (n2 osservazioni): yi = ¯ post + ¯ post x1i + ¯ post x2i + "post 0 1 2 i RRSS la somma del quadrato dei residui nel modello ristretto (n1 + n2 osservazioni): yi = ¯ 0 + ¯ 1 x1i + ¯ 2 x2i + "i La statistica: F = RRSS¡(U RSSpre +U RSSpost ) k U RSSpre +URSSpost n1 +n2 ¡2k = RRSS¡(U RSSpre +U RSSpost ) 3 U RSSpre +U RSSpost n1 +n2 ¡6 ha . Se il valore calcolato della statistica F eccede il valore critico della distribuzione F al livello di signi…catività pre…ssato. yt = ¯ pre + ¯ pre xt + "t .una distribuzione F con k (al numeratore) e n1 + n2 ¡ 2k (al denominatore) gradi di libertà. 1954 0 1 yt = ¯ post + ¯ post xt + "t .

Questi test si basano sul metodo delle stime ricorsive. 08 + 0.regressione trivariata 99 Stima del modello non ristretto y t = ¡0.36) (0. de…niamo con b4 . 1963 RSS = 0. 1963 RSS = 0. 193 Stima del modello ristretto y t = ¡1.140 9+9¡4 = 5. 3. 15xt .03) ^ t = 1946. 26 + 0. 02 Dato che il valore critico della distribuzione (con ® = 0. 75 + 0. Dato il seguente modello yt = ¯ 0 + ¯ 1 x1t + ¯ 2 x2t + "t . (0. b4 . L’implementazione del test di Chow richiede la conoscenza della data in cui si è veri…cato il cambiamento strutturale. 05xt .193+0. n .140) 2 0. Analogamente. :::. 572 Test di Chow F = RRSS¡(U RSSpre +URSSpost ) k U RSSpre +U RSSpost n1 +n2 ¡2k = 0. Test di stabilità con stime ricorsive (Cusum e Cusumsq). b3 0 1 2 gli stimatori OLS ottenuti utilizzando le prime 3 osservazioni.31) (0. :::.02) ^ t = 1955. 2.572¡(0. (0. :::. de…niamo con b3 . b4 0 1 2 t = 1. 140 y t = ¡1.01) ^ t = 1946. :::. 1954 RSS = 0. b3 . 74 l’ipotesi nulla di assenza di cambiamento strutturale è ri…utata.193+0.14 = 3.15) (0. Stime ricorsive. (0. Vi sono altri test di stabilità dei parametri che possono essere applicati anche in situazioni in cui non sia possibile (o non si voglia) …ssare esogenamente la data in base alla quale partizionare il campione. 05) è: F2. 12xt .

De…niamo con yt = bt¡1 + bt¡1 x1t + bt¡1 x2t b 0 1 2 la previsione “un passo avanti” di yt . :::. Wt tenderà a divergere da 0.100 capitolo 5 gli stimatori OLS ottenuti utilizando le prime 4 osservazioni. La statistica Cusum è semplicemente Wt = t P wj . L’errore di previsione “un passo avanti” (detto anche residuo ricorsivo) è quindi b vt = yt ¡ yt = (bt¡1 ¡ ¯ 0 ) + (bt¡1 ¡ ¯ 1 )x1t + (bt¡1 ¡ ¯ 2 )x2t ¡ "t 0 1 2 V ar(vt ) = V ar(yt ¡ yt ) b = ¾2 (1 + ¡2 1 (x1t ¡ x1 )2 (x2t ¡ x2 )2 ¡ ¢+ ¡ ¢+ + 2 2 t ¡ 1 S11 1 ¡ r12 S22 1 ¡ r12 De…niamo la varianza dell’errore di previsione (o del residuo ricorsivo) come dove tutte le variabili campionarie utilizzate nel calcolo delle varianze e co2 varianze degli stimatori (x1 . I residui ricorsivi “standardizzati” sono de…niti come vt wt = p V sotto l’ipotesi nulla che i parametri siano costanti nel tempo wt s N(0. Il test è realizzato costruendo degli intervalli di con…denza per E(Wt ) e plottando Wt e . S11 . n Sotto l’ipotesi nulla di stabilità strutturale. Inoltre i residui ricorsivi “standardizzati” sono tra loro indipendenti. Residui ricorsivi. Se viceversa i parametri non sono costanti. Procedendo in questo modo per ogni parametro saranno disponibili n ¡ 2 stime OLS. ¾2 ). j=k+1 s r RSS s = n¡k 2 r12 [(x1t ¡ x1 ) (x2t ¡ x2 )] ¡ ¢ ) = ¾2 V 2 S12 1 ¡ r12 t = k + 1. x2 . S12 . r12 ) sono calcolate utilizzando le prime t ¡ 1 osservazioni. Residui ricorsivi “standardizzati”. E(Wt ) = 0 e varianza approssimativamente eguale al numero di residui ricorsivi nella somma. S22 . Test Cusum.

j=k+1 n P j=k+1 . La signi…catività della distanza da 0 viene veri…cata utilizzando due linee rette che passano dai seguenti punti p (k. Quindi E(St ) = n¡k . ® = 0. Test Cusumsq. vi è evidenza contraria all’ipotesi di stabilità dei parametri. il test è realizzato costruendo degli intervalli di con…denza per E(St ) e plottando St e gli estremi dell’intervallo di con…denza rispetto a t. 948 ® = 0. Come nel caso precedente. 10 ! a = 0. Se i valori di St sono esterni all’intervallo. ciascuna con un t¡k grado di libertà. §a n ¡ k) p (n. 05 ! a = 0. 850 Se i valori di Wt sono esterni all’intervallo.regressione trivariata 101 gli estremi dell’intervallo di con…denza rispetto a t. vi è evidenza contraria all’ipotesi di stabilità dei parametri. La statistica Cusumsq è t P 2 wj St = Sotto l’ipotesi nulla di stabilità strutturale ciascuno dei due termini è approssimativamente una somma di variabili chi-quadrato. 143 ® = 0. n . 01 ! a = 1. 2 wj t = k + 1. :::. §3a n ¡ k) dove il parametro a dipende dal livello di signi…catività scelto per il test.

102 capitolo 5 20 Cusum 10 0 -10 -20 -30 1970 1975 1980 1985 1990 1995 Esempio relativo al test Cusum 1.2 Cusumsq 0.8 0.4 1970 1975 1980 1985 1990 1995 Esempio relativo al test Cusumsq .4 0.0 -0.

la previsione del corrispondente valore di b y0 . ¾ 2 è possibile utilizzarli per prevedere il valore di y per ogni coppia di valori dati (x1 . b2 )] 2 ¾2 r12 ¡ ¢ Cov (b1 . b2 ) + x2 2 V ar (b2 ) n ¾2 ¡ ¢ 2 S11 1 ¡ r12 ¾2 ¡ ¢ 2 S22 1 ¡ r12 la varianza dell’errore di previsione V ar("0 ) = ¾2 Cov (b0 . ¯ 2 . b2 ) = ¡ [x2 V ar (b2 ) + x1 Cov (b1 . b2 )] Cov (b0 . dopo aver stimato i parametri del mo¡ ¢ dello lineare trivariato ¯ 0 . b2 ) = ¡ 2 S12 1 ¡ r12 V ar (y0 ¡ y0 ) = V ar [(b0 ¡ ¯ 0 ) + (b1 ¡ ¯ 1 ) x10 + (b2 ¡ ¯ 2 ) x20 ¡ "0 ] b . de…nito come y0 . è data da: mentre il “vero” valore è y0 = b0 + b1 x10 + b2 x20 b y0 = ¯ 0 + ¯ 1 x10 + ¯ 2 x20 + "0 dove "0 è l’usuale termine d’errore.regressione trivariata 103 5. dal momento che: Ricordando che E (y0 ¡ y0 ) = [E (b0 ) ¡ ¯ 0 ]+[E (b1 ) ¡ ¯ 1 ] x10 +[E (b2 ) ¡ ¯ 2 ] x20 ¡E ("0 ) = 0 b V ar(b0 ) = V ar(b1 ) = V ar(b2 ) = ¾2 + x1 2 V ar (b1 ) + 2x1 x2 Cov (b1 . x2 ). ¯ 1 .4. Possiamo quindi de…nire l’errore di previsione come: y0 ¡ y0 = (b0 ¡ ¯ 0 ) + (b1 ¡ ¯ 1 ) x10 + (b2 ¡ ¯ 2 ) x20 ¡ "0 b che ha valore atteso nullo. Previsione Analogamente al modello bivariato. b1 ) = ¡ [x1 V ar (b1 ) + x2 Cov (b1 . Sia x10 il valore dato di x1 e sia x20 il valore dato di x2 .

b2 ) e quindi V ar (y0 ¡ y0 ) = ¾ 2 + b ¾2 n 2 +(x10 + x1 2 ¡ 2x10 x1 ) V ar (b1 ) +(x2 + x2 2 ¡ 2x20 x2 ) V ar (b2 ) 20 +2 (x10 x20 + x1 x2 ¡ x10 x2 ¡ x20 x1 ) Cov (b1 . b2 ) + x2 2 V ar (b2 ) n +x2 V ar (b1 ) + x2 V ar (b2 ) + ¾2 10 20 ¡2x10 [x1 V ar (b1 ) + x2 Cov (b1 . Nota la varianza dell’errore di previsione è possibile costruire un intervallo di previsione per y0 .n¡3 = 1 ¡ ® 2 2 se (y0 ¡ y0 ) b . in (1 ¡ ®)100 su 100 casi. come V ar (y0 ¡ y0 ) = b ¾2 + x1 2 V ar (b1 ) + 2x1 x2 Cov (b1 . b2 )] ¡2x20 [x2 V ar (b2 ) + x1 Cov (b1 . b2 )] +2x10 x20 Cov (b1 . l’intervallo contiene il vero y0 : ¶ µ y0 ¡ y0 b P r ¡t ® .n¡3 · · t ® .104 capitolo 5 può essere riscritta. tale che dati x10 e x20 . b2 ) " In…ne V ar (y0 ¡ y0 ) = ¾ b 1 (x10 ¡ x1 )2 (x20 ¡ x2 )2 ¡ ¢+ ¡ ¢ + 2 2 n S11 1 ¡ r12 S22 1 ¡ r12 # 2 r12 [(x10 ¡ x1 ) (x20 ¡ x2 )] ¡ ¢ ¡2 2 S12 1 ¡ r12 2 1+ Si osservi che la varianza dell’errore di previsione: (a) è una funzione negativa del numero di osservazioni (n) come nel caso bivariato ma (b) non è necessariamente una funzione positiva della distanza tra x10 e x20 e le media delle osservazioni sulla cui base sono stati stimati i parametri del modello lineare trivariato (x1 e x2 ).

dati x10 e x20 . è possibile prevedere il valore atteso di y0 .regressione trivariata 105 Alternativamente. mentre la sua varianza è eguale a: V ar [y0 ¡ E (y0 )] = V ar [(b0 ¡ ¯ 0 ) + (b1 ¡ ¯ 1 ) x10 + (b2 ¡ ¯ 2 ) x20 ] = b ! Ã 2 (x20 ¡ x2 )2 r12 [(x10 ¡ x1 ) (x20 ¡ x2 )] 1 (x10 ¡ x1 )2 2 ¡ ¢+ ¡ ¢ ¡2 ¡ ¢ + = ¾ 2 2 2 n S11 1 ¡ r12 S22 1 ¡ r12 S12 1 ¡ r12 y0 ¡ E (y0 ) = (b0 ¡ ¯ 0 ) + (b1 ¡ ¯ 1 ) x10 + (b2 ¡ ¯ 2 ) x20 b . il valore atteso dell’errore di previsione è sempre nullo. Infatti: Inoltre. Dato che: E (y0 ) = ¯ 0 + ¯ 1 x10 + ¯ 2 x20 la previsione è ancora y0 = b0 + b1 x10 + b2 x20 b Tuttavia. l’errore di previsione è diverso. invece di prevedere il valore di y0 . cioè E(y0 ).

¯ 1 e ¯ 2 (b) Calcolare il coe¢ciente di determinazione multiplo R2 (c) Stimare il parametro ¾2 e calcolare l’errore standard della regressione . n "i » IN(0. :::. 2.5. Appendice : Stima econometrica di una funzione di produzione Cobb-Douglas ² Modello lineare trivariato: yi = ¯ 0 + ¯ 1 x1i + ¯ 2 x2i + "i per i = 1.106 capitolo 5 5. ¾ 2 ) ² Metodo dei minimi quadrati ordinari ² Imprese 1-23 (n = 23) ² De…nizione delle variabili: y = ln(output) x1 = ln(lavoro) x2 = ln(capitale) ² Informazioni campionarie (già predigerite): n = 23 x1 = 10 x2 = 5 y = 12 S11 = 12 S12 = 8 S22 = 12 S1y = 10 S2y = 8 Syy = 10 ² Domande a cui rispondere: (a) Stimare i parametri ¯ 0 .

7 (10) + 0. (i) Sottoporre a test la signi…catività della regressione (livello di signi…catività del 5%) Soluzione (a) Date le equazioni normali per b1 e b2 S1y = b1 S11 + b2 S12 S2y = b1 S12 + b2 S22 possiamo scrivere 10 = b1 (12) + b2 (8) 8 = b1 (8) + b2 (12) da cui: b1 = 0. 2 b0 = y ¡ b1 x1 ¡ b2 x2 = 4 (b) Utilizzando la de…nizione del coe¢ciente di determinazione multiplo R2 = 1 ¡ RSS 0. 2 (8) ESS b1 S1y + b2 S2y = = = = 0. livello di signi…catività 5%) H0 : ¯ 1 + ¯ 2 = 1 contro H1 : ¯ 1 + ¯ 2 6= 1 (h) Calcolare il coe¢ciente di determinazione multiplo “aggiustato” R2 . 7 b2 = 0. b1 e b2 (e) Calcolare gli errori standard di b0 .regressione trivariata 107 (d) Stimare le varianze e le covarianze degli stimatori b0 . sia quello basato sul test F . 86 T SS T SS Syy 10 . (f) Sottoporre a test disgiunto le seguenti ipotesi (livello di signi…catività del 5%) H0 : ¯ 0 = 0 contro H1 : ¯ 0 6= 0 H0 : ¯ 1 = 0 contro H1 : ¯ 1 6= 0 H0 : ¯ 2 = 0 contro H1 : ¯ 2 6= 0 (g) Sottoporre a test l’ipotesi (utilizzando sia l’approccio basato sul test t. b1 e b2 .

0105)¡5 (¡0. 6155 = 0. 1025 ar (b2 . 0070 8 (1 ¡ 0. 07 = 0. b2 ) = ¡ x2 V \ ) + x1 Cov (b1 . 0070) = ¡0. b2 ) = ¡ V\ ) = ar (b0 s2 r2 0. b2 ) = ¡5 (0. 0105)¡10 (¡0. 0105) = 0. 0070) + 52 (0. 444) ¡ 12 2 ¢ = ¡ = ¡0. 444) S22 1 ¡ r12 V\ ) = ar (b2 \ Cov (b1 . 7846 ar (b0 q p se (b1 ) = V \ ) = 0. 07 i h \ \ ar (b2 Cov (b0 . 444) S11 1 ¡ r12 s2 0. 07 (0. 07 s2 ¡ ¢= = 0. 4 = 0. 2646 23 ¡ 3 (d) Calcoliamo prima il coe¢ciente di correlazione semplice tra x1 e x2 : S12 8 8 r12 = p =p = 0. 0105 2 12 (1 ¡ 0. b1 ) = ¡ x1 V \ ) + x2 Cov (b1 . 0175 (e) Gli errori standard di b0 . 1025 ar (b1 q p se (b2 ) = V \ ) = 0. 0105 2 12 (1 ¡ 0. b2 ) = ¡10 (0. 0070) = 0. b2 ) + x2 2 V \ ) = n 0. 07 = + 102 (0. 666 = 12 S11 S22 12 (12) È ora possibile calcolare tutte le varianze e covarianze (stimate) (si osservi che ¾2 è stato rimpiazzato da s2 ) V\ ) = ar (b1 0. 6155 23 i h \ \ ar (b1 Cov (b0 . 444) S12 1 ¡ r12 s2 \ ar (b1 ar (b2 + x1 2 V \ ) + 2x1 x2 Cov (b1 . 0105 = 0. b1 e b2 sono calcolabili semplicemente come: q p se (b0 ) = V \ ) = 0. 0105 = 0. 07 ¡ ¢= = 0.108 capitolo 5 (c) Ricordando la de…nizione dell’errore standard della regressione s= r RSS = n¡3 r p 1. 0105) + 2 (10) (5) (¡0.

distribuzione t di Student con n ¡ 3 gradi di libertà L’ipotesi nulla di ritorni costanti di scala non è quindi ri…utata. 10 se (b0 ) 0.distribuzione t di Student con n ¡ 3 gradi di libertà 4. 20 = 2. n¡3 = t0.20 = 4. 43 Dato che il valore critico della distribuzione (con ® = 0. 5 possiamo sottoporre a test l’ipotesi nulla utilizzando l’approccio basato sul test F F = RRSS¡URSS m U RSS n¡k = 1. 1025 Dato che il valore critico della distribuzione è: t ® . 35 l’ipotesi nulla non è ri…utata.08) (0. (g) La seguente statistica ha .sotto l’ipotesi nulla . 0105 + 0. 195 =p = ¡p se (b1 + b2 ) 0. 7 = = 6. 15 + 0. Dato il modello non ristretto yi = ¯ 0 + ¯ 1 x1i + ¯ 2 x2i + "i imponiamo la restrizione yi = ¯ 0 + ¯ 1 x1i + (1 ¡ ¯ 1 )x2i + "i Dopo aver stimato anche il modello ristretto ^ (0. 7) ¡ 1 b1 + b2 ¡ 1 0.4 20 = 1. 007 0.4 1 1. 2 + 0.5¡1. 0105 + 2 (¡0.regressione trivariata 109 (f) Le seguenti statistiche hanno tutte . 83 se (b1 ) 0. 7846 b1 ¡ 0 0.025. 95 se (b2 ) 0. . 0070) yi ¡ x2i = ¯ 0 + ¯ 1 (x1i ¡ x2i ) + "i yi ¡ x2i = 3. 1 = ¡1. 2 = = 1. 1025 b2 ¡ 0 0. 086 2 l’ipotesi nulla è ri…utata per b0 e b1 ma non per b2 .sotto le ipotesi nulle .75) (0. 77 (x1i ¡ x2i ) RSS = 1. 0 b0 ¡ 0 = = 5. 05) è: F1.

.14 20 = 61. 14 £ = 0. 05) è: F2. 49 l’ipotesi nulla è ri…utata. 846 R T SS n ¡ k 20 (i) La seguente statistica ha .distribuzione F di Fisher con k ¡ 1 gradi di libertà al numeratore e n ¡ k gradi di libertà al denominatore: F = ESS k¡1 RSS n¡k ESS T SS = k¡1 RSS T SS = n¡k R2 k¡1 1¡R2 n¡k = 0.sotto ipotesi nulla .20 = 3. 43 Dato che il valore critico della distribuzione (con ® = 0.86 2 0.110 capitolo 5 (h) Utilizzando la de…nizione del coe¢ciente di determinazione multiplo “aggiustato” ¶ µ 22 RSS n ¡ 1 2 =1¡ = 1 ¡ 0.

Un altro econometrico critica tale procedimento e sostiene invece che l’e¤etto della spesa media per studente sul voto medio deve essere stimata basandosi sulla seguente regressione: yi = ¯ 0 + ¯ 1 x1i + ¯ 2 x2i + "i dove x2 misura il tasso di povertà degli studenti iscritti a ciascuna scuola. Esercizi 1. ecc. 13 b1 ¡0. 60x2i b b0 0. 08 0. . 5 ¯ 4 . 12 + 0. laboratori. In caso contrario.) sul voto medio che gli studenti di diverse scuole medie hanno ottenuto ad un esame comune. yi = 1. Un econometrico vuole stimare l’e¤etto della spesa per studente in attrezzature (biblioteche.6. si otterrebbe una stima distorta di ¯ 1 .regressione trivariata 111 5. 10 0. 33 ¡0:08 0. 12 Matrice di covarianza stimata b0 b1 b2 2. 15 0. Dato il modello non ristretto: yi = ¯ 0 + ¯ 1 x1i + ¯ 2 x2i + ¯ 3 x3i + ¯ 4 x4i + "i ad un econometrico viene richiesto di sottoporre a test congiunto le seguenti due restrizioni: ¯ 1 = 2 ¯ 2 e ¯ 3 = 0. commenta. (a) Qual è la fondatezza di tale critica? (b) Se è vera ci si può aspettare che la distorsione sia positiva o negativa? 3. 13 0. 10 b2 0. Data la seguente stima a minimi quadrati ordinari condotta su un campione di 123 osservazioni si sottoponga a veri…ca l’ipotesi nulla che ¯ 1 + ¯ 2 = 1. A tal …ne prevede di stimare la seguente equazione: yi = ¯ 0 + ¯ 1 x1i + "i dove y rappresenta il voto medio e x1 la spesa media per studente. 70x1i + 0.

30 x2i . 16 x1i + 0. La relazione tra consumo di prodotti alimentari (y). ^ (0. 05¡0. 14 x2i .06) (0.90) (0. 05).112 capitolo 5 (a) Si scriva il modello ristretto. 56 ¡ 0. 05 ¡ 0. 24 x2i .10) RSS = 0. 4. Stima sull’intero periodo yi =4. 115 Stima sul periodo 1948/62 yi =5. 10 x1i + 0. prezzo reale dei prodotti alimentari (x1i ) e reddito dei consumatori (x2i ) è stata stimata per il periodo 1927/41-1948/62 e poi separatamente per il periodo che precede e per quello che segue la seconda guerra mondiale. 12 x1i + 0.01) (0. 287 Stima sul periodo 1927/41 yi =3. ^ (0.02) RSS = 0.14) (0.05) RSS = 0. (b) Supponendo inoltre che: n = 45. RRSS = 165 si sottopongano a test congiunto le due restrizioni (® = 0. ^ (0. URSS = 130. 054 . Si sottoponga a test l’ipotesi di assenza di “break strutturale” tra i due periodi.20) (0.05) (0.

A =@ . Vettore colonna (di ordine N): matrice di ordine N £ 1 1 x1 B . . C = [a ] . (N£K) aN1 ::: aNK dove aij è il generico elemento della matrice (i-esima riga e j-esima colonna).Capitolo 6 Elementi di algebra lineare 6. . De…nizioni di base Matrice: insieme rettangolare di elementi disposti in righe e colonne. disposti su N righe e K colonne: 1 0 a11 ::: a1K B . . . ij . una matrice A di ordine N £K è una matrice di N £K elementi. xN 0 Vettore riga (di ordine K): matrice di ordine 1 £ K y = (y1 y2 ::: yK ) . A .1. A . In particolare. C x = @ .

114 capitolo 6 Matrice trasposta: la matrice trasposta A0 di una matrice A di ordine N £ K è una matrice di ordine K £ N ottenuta sostituendo le colonne (o le righe) con le righe (o le colonne) di A. A . la matrice risultante è de…nita una sottomatrice di A di ordine r £ s. . a0 K Ne consegue che la matrice trasposta di un vettore colonna x è un vettore riga: x0 = (x1 x2 ::: xN ) Sottomatrici : data una matrice A di ordine N £ K. 0 0 1 a1 B a0 C B 2 C A0 = B . se tutte le righe e colonne sono cancellate con l’eccezione di r righe e s colonne. C A = (a1 a2 ::: aK ) ! @ .

. . aN1 aN2 ::: aNN Matrice identità: una matrice diagonale i cui elementi sulla diagonale principale sono tutti uguali a 1 è de…nita matrice identità I (quindi la matrice identità è anche una matrice scalare) 0 1 1 0 ::: 0 B 0 1 ::: 0 C B C I=B . . . . A @ . . . . . 0 0 ::: 1 Matrice simmetrica: una matrice quadrata è de…nita simmetrica se l’elemento aij è uguale all’elemento aji per ogni i e j. . . . . . Matrici notevoli ordine N £ N è de…nita matrice ::: ::: . . . . A . C . . 1 C C C A Matrice diagonale: una matrice quadrata con almeno un elemento non nullo sulla diagonale principale e tutti elementi nulli al di fuori di essa è de…nita matrice diagonale 1 0 a11 0 ::: 0 B 0 a22 ::: 0 C C B A=B . . In questo caso A0 = A. . .algebra lineare 115 6. . . C . . . . . . . . . 0 0 ::: aNN dove almeno un elemento aij con i = j è diverso da zero. C @ . Matrice nulla: una matrice A di ordine N £ K è de…nita matrice nulla 0 se tutti i suoi elementi sono nulli (segue naturalmente la de…nizione di . . A @ . @ . 0 0 ::: a Matrice quadrata: una matrice A di quadrata 0 a11 a12 B a21 a22 B A=B . . Matrice scalare: una matrice diagonale i cui elementi sulla diagonale principale sono tutti uguali è de…nita matrice scalare 0 1 a 0 ::: 0 B 0 a ::: 0 C B C A=B . . a1N a2N .2. .

0 0 ::: 0 B B 0=B @ Uguaglianza fra matrici : due matrici A e B sono uguali se: i) sono dello stesso ordine. . .116 capitolo 6 vettore nullo) 0 1 0 0 ::: 0 0 0 ::: 0 C C . . . C . . A . . . . ii) aij = bij per tutti gli i e j. . .

allora la matrice sottrazione C è de…nita da C=A¡B dove C è dello stesso ordine di A e B e cij = aij ¡ bij . dove bij = ¸ aij 6. Addizione Sia A = [aij ] e B = [bij ].4. 6. Se A e B sono dello stesso ordine.algebra lineare 117 6. a0 b = b0 a P 2. Se A e B sono dello stesso ordine. A e . 6. allora la matrice addizione C è de…nita da C=A+B dove C è dello stesso ordine di A e B e cij = aij + bij .1. Sottrazione Sia A = [aij ] e B = [bij ].3.3.3. C B . A a=@ . C b=@ .3. il loro prodotto è una matrice B dello stesso ordine di A. a0 a = N a2 i=1 i ai bi = a1 b1 + a2 b2 + ::: + aN bN . Moltiplicazione per uno scalare Data una matrice A e uno scalare ¸.2. Operazioni fra matrici 6.3.3. aN bN N X i=1 il prodotto interno (inner product) dei vettori è dato da uno scalare: a0 b = Da notare: 1. . Moltiplicazione fra vettori e fra matrici Prodotto interno fra vettori: de…niti due vettori colonna 1 0 1 0 b1 a1 B .

. . . . . . (N £K) (K£N) N a dove ai denota la i-esima Abbiamo: 0 c11 c12 ::: B c21 c22 ::: B C =B . A . . e B =@ . . . . il loro prodotto AB (A è postmoltiplicata da B) è costituito da una matrice C di ordine N £ M tale che cij = K X k=1 aik bkj Si osservi che il prodotto AB esiste perchè il numero delle colonne di A è uguale al numero delle righe di B (le due matrici sono conformabili per la moltiplicazione). . . 1 C C C A Ciascun elemento della matrice C è ottenuto come prodotto interno di un vettore riga di A e di un vettore colonna di B: (b) Esprimiamo entrambe le matrici utilizzando vettori colonna: (N£K) C B C B C=B A @ aN b1 aN b2 ::: aN bN A = (a1 ::: aK ) e (K£N) B = (b1 ::: bN ) . Date le seguenti due matrici conformabili per la moltiplicazione (NB: dato l’ordine delle matrici la matrice prodotto risulta quadrata): 1 1 0 0 a11 ::: a1K b11 ::: b1N B . A =@ . . A . . . ::: ::: . cNN 1 0 a1 b1 a2 b1 . A B = (b1 ::: bN ) . . . il prodotto BA (B è postmoltiplicata da A) non esiste. (a) Riscriviamo le due matrici utilizzando vettori riga e vettori colonna: 0 1 1 a B . a1 b2 a2 b2 . (N£K) aN1 ::: aNK (K£N) bK1 ::: bKN possiamo vedere il loro prodotto in due modi utili. . . . .118 capitolo 6 Prodotto fra matrici : date una matrice A di ordine N £ K e una matrice B di ordine K £ M. . B . Viceversa. . . (N£N) @ . . C . cN1 cN2 ::: riga di A e bj la j -esima colonna di B: c1N c2N . . C e A =@ . a1 bN a2 bN . C . .

(ii) Anche se AB e BA esistono entrambe. (iv) Il prodotto fra un vettore colonna (N £ 1) e un vettore riga (1 £ N) è una matrice (N £ N). B (K £ M) e C (K £ M). vale che A(B + C) = AB + AC. AB 6= BA. Ad esempio. non saranno dello stesso ordine a meno che A e B siano entrambe matrici quadrate. (vii) La moltiplicazione fra matrici è associativa: date tre matrici A (N £ K). (v) Il prodotto fra una matrice (N £ N) e un vettore colonna (N £ 1) è un vettore colonna (N £ 1). AB e BA. infatti. non sono necessariamente uguali.algebra lineare 119 Anche la matrice prodotto C sarà espressa mediante vettori colonna: (N£N) C = (c1 ::: cN ) dove ogni colonna di C è ottenuta come combinazione lineare delle K colonne di A utilizzando come coe¢cienti gli elementi della corrispondente colonna di B. (iii) Anche se A e B sono entrambe quadrate. generalmente. (vi) Il prodotto fra un vettore riga (1 £ N) e una matrice (N £ N) è un vettore riga (1 £ N). pur essendo dello stesso ordine. B (K £ M ) e C (M £ P ). . (viii) La moltiplicazione fra matrici è distributiva rispetto all’addizione: date tre matrici A (N £ K). vale che (AB) C = A (BC). per la prima colonna della matrice prodotto c1 abbiamo: c1 = a1 b11 + a2 b21 + ::: + aK bK1 ) c1 = A b1 Complessivamente: (N£N) C = (A b1 A b2 ::: A bN ) Proprietà del prodotto fra matrici : (i) La moltiplicazione fra matrici non è necessariamente commutativa.

120 capitolo 6 6.3.5. Trasposizione di una matrice (i) La trasposta di una matrice trasposta è la matrice originale: (A0 )0 = A. (ii) La trasposta di una somma è uguale alla somma delle trasposte: se C = A + B allora C0 = (A + B)0 = A0 + B0 . (iii) La trasposta di un prodotto è uguale al prodotto delle trasposte in ordine inverso: (AB)0 = B0 A0 . Questa proprietà è generalizzabile come segue: (ABCD)0 = D0 C0 B0 A0 . (iv) La trasposta della matrice identità è la matrice identità: I0 = I. (v) La trasposta di uno scalare è lo scalare stesso: ¸0 = ¸. (vi) La trasposta di (¸A)0 = ¸A0 . 6.3.6. Inversione di una matrice L’inversa di una matrice quadrata A è de…nita A¡1 . Se esiste, è una matrice quadrata tale che AA¡1 = A¡1 A = I dove I è una matrice identità dello stesso ordine di A. Proprietà della matrice inversa: (i) L’inversa del prodotto di due matrici è uguale al prodotto delle inverse in ordine inverso: (AB)¡1 = B¡1 A¡1 . (ii) La trasposta dell’inversa di A è uguale all’inversa della trasposta di A: (A¡1 )0 = (A0 )¡1 . 6.3.7. Determinante Ad ogni matrice quadrata è associato uno scalare, noto come determinante della matrice, det A o jAj. Se la matrice quadrata è di ordine 2 £ 2: jAj = a11 a22 ¡ a12 a21 Se la matrice quadrata è di ordine 3 £ 3: jAj = a11 a22 a33 ¡ a11 a23 a32 + a12 a23 a31 ¡ a12 a21 a33 + a13 a21 a32 ¡ a13 a22 a31 Proprietà del determinante:

algebra lineare 121 (i) Una matrice il cui determinante è zero è de…nita matrice singolare. L’inversa di una matrice singolare non esiste. Se invece il determinante è diverso da zero, la matrice è de…nita non-singolare. (ii) Se tutti gli elementi di una riga o una colonna sono uguali a zero allora il determinante è zero. (iii) Il determinante di una matrice è uguale al determinante della trasposta: jAj = jA0 j (iv) Se due righe o due colonne di una matrice sono uguali allora il determinante è zero. (v) Se una riga o una colonna è combinazione lineare di altre righe o colonne allora il determinante è zero. (vi) Il determinante del prodotto di due matrici è uguale al prodotto dei determinanti: jABj = jAj jBj. Rango di una matrice: il rango di una generica matrice A è l’ordine della più grande sottomatrice quadrata il cui determinante non è uguale a zero. Ad esempio, il rango di una matrice A di ordine N £ K (con K · N) è K se il determinante di almeno una delle sottomatrici K £ K non è uguale a zero. Minori : data una matrice quadrata A di ordine N £N, si cancellino la riga i-esima e la colonna j-esima. Il determinante della risultante sottomatrice quadrata di ordine (N ¡ 1) £ (N ¡ 1) è de…nito minore dell’elemento aij ed è scritto come jMij j. Cofattori : il cofattore di un elemento aij di una matrice quadrata A di ordine N £ N è scritto come cij ed è calcolato come cij = (¡1)i+j jMij j Matrice dei cofattori : data una matrice A, la matrice dei cofattori di A, cof (A), si ottiene sostituendo gli elementi aij con i corrispondenti cij Matrice aggiunta: la matrice aggiunta di A, adj (A), è la trasposta della matrice dei cofattori: adj (A) = (cof (A))0

122 capitolo 6 Calcolo dell’inversa: se A è quadrata e non singolare la sua inversa può essere calcolata come segue: A¡1 = 1 adj (A) jAj

algebra lineare 123 6.4. Applicazioni utili del prodotto fra vettori e fra matrici

1. Somma e media. De…niamo un vettore colonna i interamente composto da elementi pari ad 1. Dato un vettore x della stessa dimensione possiamo ottenere la somma degli elementi di x mediante il prodotto ix=
0 N X i=1

xi

¹ e quindi la media aritmetica degli elementi di x, x , può essere espressa come N 1 1X xi = i0 x x= ¹ n n
i=1

2. Cross products. Somme di quadrati e somme di prodotti incrociati (cross products) possono essere espresse facilmente usando prodotti fra vettori. Dati i vettori x e y (entrambi con N elementi) abbiamo
N X i=1

x2 i

=xx

0

N X i=1

xi yi = x0 y

3. Matrice di cross products. Data una matrice X di dimensione N £ K costruiamo il prodotto X0 X, una matrice quadrata di dimensione K: 0 0 1 0 0 x1 x1 x1 x0 x2 ::: x0 xK 0 1 1 1 B x0 C B x0 x1 x0 x2 ::: x0 xK 2 C 2 2 2 B B X0 X = B . C @ x1 x2 ::: xK A = B . . . . . A . . . . @ . @ . . . . x0 x0 x1 x0 x2 ::: x0 xK K K K K PN PN 0 PN 2 1 x x ::: i=1 xi1 i=1 x x PN i12 i2 Pi=1 i1 iK C N B PN xi2 xi1 ::: xi2 B i=1 i=1 i=1 xi2 xiK C = B C . . . . . . . . @ A . . . . PN PN PN 2 ::: i=1 xiK xi1 i=1 xiK xi2 i=1 xiK 4. Deviazioni dalla media. Partendo da un vettore di N dati originari, per costruire il corrispondente vettore di deviazioni dalla media

1 C C C A

5. . . La matrice M0 è utilizzabile per costruire direttamente somme di quadrati delle deviazioni dalla media: N X ¡ ¢0 ¡ ¢ ¹ (xi ¡ x)2 = M0 x M0 x = x0 M0 M0 x i=1 dove M0 è la seguente matrice simmetrica 0 1 1 1 ¡ n ¡ n ::: 1 1 B ¡ 1 ¡ n ::: B n 0 M =B . . Inoltre. . . . . permette di ottenere il corrispondente vettore di deviazioni dalla media degli elementi di x. @ . . possedendo la seguente proprietà: M0 M0 = M0 (veri…care). x ¹ 1 C 1 C C = ii0 x A n = M x 0 che. Quindi otteniamo: N X ¹ (xi ¡ x)2 = x0 M0 x i=1 . Il vettore di deviazioni dalla media può essere espresso (ricordando che x = Ix. ¹ xN ¡ x ¸ · 1 0 1 0 = Ix ¡ ii x = I ¡ ii x n n | {z } M0 B 1 B i x = i i0 x = B ¹ n @ 0 x ¹ x ¹ . A n @ . . . . . dove I è la matrice identità): 1 0 ¹ x1 ¡ x B x2 ¡ x C ¹ C 1 B ¹ C = x ¡ i x = x ¡ ii0 x B .124 capitolo 6 possiamo utilizzare la relazione: notando che ii0 è una matrice con tutti gli elementi pari ad 1 e quindi 1 0 1 n ii è una matrice con tutti gli elementi pari a n . 1 ¡n 1 ¡n 1 ¡n 1 ¡n . M0 è una matrice idempotente. 1 n 1 C C C A ::: 1 ¡ ricordando che M0 è simmetrica. moltiplicata per un vettore x. Utilizzo e proprietà di M0 .

la matrice che contiene i quadrati delle deviazioni dalle medie e i prodotti incrociati di tali deviazioni si ottiene utilizzando M0 : à ! µ ¶ PN PN ¹ ¹ ¹ (xi ¡ x)2 (xi ¡ x)(yi ¡ y) x0 M0 x x0 M0 y i=1 i=1 PN PN = y0 M0 x y0 M0 y ¹ ¹ ¹2 i=1 (yi ¡ y )(xi ¡ x) i=1 (yi ¡ y ) ¡ 0 ¢0 ¡ 0 ¢ M Z M Z = Z0 M0 M0 Z = Z0 M0 Z Combinando i due vettori in una matrice Z = [x y] (di dimensioni N £ 2) possiamo riscrivere lo stesso risultato nella forma seguente: 6. . Esercizio: veri…care che le due matrici B e C sono idempotenti. Altri esempi di matrici idempotenti (oltre a M0 ). veri…care inoltre che CB = 0). dati due vettori di N elementi x e y. Data una matrice A (di ordine N £ K) le matrici B e C (di ordine N £ N) de…nite come ¢¡1 0 ¡ A B = A A0 A ¡ 0 ¢¡1 0 C = I¡A AA A sono idempotenti.algebra lineare 125 Estendendo l’applicazione.

Nella Figura 1 sono rappresentati due vettori. I due elementi di ciascun vettore sono rappresentabili come coordinate di un punto in uno spazio bidimensionale (collegato all’origine degli assi in un piano cartesiano). Moltiplicando un vettore per uno scalare k si ottiene un “allungamento” o “accorciamento” del vettore lungo la medesima direzione. b e c sono linearmente dipendenti se è possibile costruire una loro combinazione lineare k1 a + k2 b + k3 c = 0 con coe¢cienti k non tutti nulli. Nel caso di vettori con due elementi. In questo caso è possibile esprimere ad esempio il vettore c (se k3 6= 0 ) come combinazione lineare di a e b: c = ¡ k1 a ¡ k2 b. questi concetti hanno una semplice interpretazione geometrica. Figura 1 . il vettore 2b e il vettore somma a + b.126 capitolo 6 6. Ad esempio. Se invece per soddisfare l’equazione k1 a + k2 b + k3 c = 0 k3 k3 tutti i coe¢cienti k devono essere nulli. tre vettori a. Dipendenza e indipendenza lineare di vettori Un insieme di vettori è detto linearmente dipendente se ciascuno dei vettori può essere espresso come combinazione lineare degli altri vettori. la somma di due vettori è data da un nuovo vettore che ha come coordinate le somme delle rispettive coordinate dei due vettori.5. a e b. allora i vettori si dicono linearmente indipendenti.

Se invece due vettori non giacciono sulla stessa retta. allora il determinante è diverso da zero. notiamo che det(A) = a1 b2 ¡ b1 a2 . due vettori sono linearmente dipendenti se giacciono sulla stessa retta uscente dall’origine: ciascuno di essi può quindi essere espresso come semplice multiplo dell’altro. Figura 2 . come in …gura. allora l’uno non può essere espresso come multiplo dell’altro e l’unica soluzione dell’equazione k1 a + k2 b = 0 è k1 = k2 = 0. Se invece. come nel caso dei vettori b e 2b in …gura.algebra lineare 127 Nel caso bidimensionale. In questo caso i due vettori sono linearmente indipendenti e ogni altro vettore a due elementi può essere costruito mediante una combinazione lineare di a e b. Come ulteriore prova di questa relazione. Come rappresentato nella Figura 2. Costruendo la matrice A = (a b) è possibile ottenere un’intuizione geometrica della relazione fra il determinante di A e la dipendenza o indipendenza lineare dei vettori colonna che la compongono. le colonne della matrice A sono linearmente indipendenti. il determinante della matrice A (più rigorosamente. come nel caso di a e b. il valore assoluto del determinante di A) ha l’interpretazione geometrica di area del parallelogramma formato dalle sue colonne. Se i due vettori a e b sono linearmente dipendenti (cioè giacciono sulla stessa retta) allora l’area è nulla ) det(A) = 0. Quindi a1 b1 det(A) = 0 ) a1 b2 ¡ b1 a2 = 0 ) = a2 b2 cioè le due colonne di A sono l’una un multiplo dell’altra (geometricamente giacciono sulla stessa retta).

e de…nita la forma quadratica Q = x0 A x. Forme lineari e forme quadratiche Dati due vettori a e x di ordine N £ 1 e una matrice A simmetrica di ordine N £N N X ai xi L = a0 x = i=1 è de…nita forma lineare in x. Sia AA0 sia A0 A sono matrici quadrate simmetriche di ordine rispettivamente K £ K e N £ N.128 capitolo 6 6. De…niamo la seguente matrice X di ordine N £ 2 e la sua trasposta: µ 0 ¶ x1 0 X = (x1 x2 ) . la matrice A è: de…nita positiva se Q > 0. semide…nita negativa se Q · 0 Si de…nisca ora una matrice non quadrata A di ordine K £ N. Si può dimostrare che entrambe queste matrici sono semide…nite positive. De…niamo B = A0 A. Data una matrice quadrata simmetrica A di ordine N £ N e un vettore non nullo x di ordine N £ 1. semide…nita positiva se Q ¸ 0 de…nita negativa se Q < 0. e Q = x0 A x è de…nita forma quadratica in x. Matrici de…nite positive e de…nite negative.6. X = x0 2 da cui otteniamo la matrice prodotto X0 X simmetrica di ordine 2 £ 2: ¶ µ 0 ¶ µ 0 x1 x1 x1 x0 x2 0 1 ( x1 x2 ) = XX= x0 x0 x1 x0 x2 2 2 2 . Quindi x0 B x = x0 A0 A x De…niamo ora y = Ax possiamo quindi scrivere che x0 B x = x0 A0 A x = y0 y = K X i=1 2 yi ¸ 0: Esempio di forma quadratica per matrice X0 X.

Si può dimostrare inoltre che: (i) se A è una matrice idempotente di ordine N £ N e di rango r allora la forma quadratica x0 A x ha una distribuzione Â2 con r gradi di libertà. Sia 1 0 x1 x = @ ::: A xN un vettore di N variabili casuali normali indipendenti con valore atteso 0 e varianza 1. nel caso in cui N = 2. con distribuzioni Â2 con r e s gradi di libertà. una matrice A è de…nita idempotente se A2 = A. Esempio: dato il vettore x »N (0. I) di ordine n £ 1. La forma quadratica x0 x ha una distribuzione Â2 con N gradi di libertà. n X ¹ (xi ¡ x)2 = x0 M0 x i=1 . Come già visto. allora le forme quadratiche x0 A x e x0 B x sono distribuite in modo indipendente. (ii) se A e B sono due matrici idempotenti di ordine N £ N e di rango r e s rispettivamente e se AB = 0. si ottiene a0 (X0 X) a = (a1 x11 + a2 x12 )2 + (a1 x21 + a2 x22 )2 Forme quadratiche con matrici idempotenti .algebra lineare 129 Dato un vettore a = 0 0 µ a1 a2 ¶ . costruiamo la forma quadratica di X0 X: a2 ) a2 ) µ µ x0 x1 x0 x2 1 1 x0 x1 x0 x2 2 2 ¶µ a1 a2 ¶ a (X X) a = (a1 = (a1 (x0 x1 ) a1 + (x0 x2 ) a2 1 1 (x0 x1 ) a1 + (x0 x2 ) a2 2 2 ¶ = (x0 x1 ) a2 + (x0 x2 ) a2 a1 + (x0 x1 ) a1 a2 + (x0 x2 ) a2 1 2 1 1 2 2 a2 1 N X i=1 = x2 i1 + 2a1 a2 N X i=1 xi1 xi2 + a2 2 N X i=1 x2 i2 Ad esempio.

. . . 1 n 1 C C C A ::: 1 ¡ matrice singolare di ordine n £ n e rango n ¡ 1 (poichè le colonne di M0 sono linearmente dipendenti: m1 + m2 + ::: + mn = 0). .130 capitolo 6 con B B M0 = B @ 0 1 1 1 ¡ n ¡n 1 1 ¡n 1 ¡ n . . . . . . 1 1 ¡n ¡n ::: ::: . 1 ¡n 1 ¡n . abbiamo n X ¹ (xi ¡ x)2 » Â2 (n ¡ 1) i=1 .

Dato un vettore x con N elementi.7. Utilizzando la relazione algebrica fra x0 M0 x e x0 x (dalla risposta all’Esercizio 2 ): (a) veri…cate che x0 x è una forma quadratica costruita con una matrice idempotente. A . . (b) esprimete x0 x come somma di due forme quadratiche costruite con matrici idempotenti. . veri…cate la relazione algebrica esistente fra: ¹ (a) la somma del quadrato degli scarti dalla media x.algebra lineare 131 6. Considerate il vettore x »N (0. C . ¸ ¸ ::: ¸ 2. A) 1 ::: ¸ ::: ¸ C C . . . I) di ordine n £ 1. Esercizi 1. . Confrontate i risultati ottenuti dalla moltiplicazione di una matrice quadrata A per: (a) uno scalare ¸ (b) una matrice così ottenuta: ¸I (c) una matrice (dello stesso ordine di 0 ¸ ¸ B ¸ ¸ B ¤=B . dove gli elementi sono variabili casuali indipendenti. @ . 3. . . (c) caratterizzate le distribuzioni di tali forme quadratiche veri…candone l’indipendenza e speci…candone i gradi di libertà. . e (b) la somma dei quadrati degli elementi di x.

132 .

Notazione 1 y1 B y C y=B 2 C @ ::: A yn 0 De…niamo: vettore colonna contenente le n osservazioni campionarie della variabile dipendente. :::. (n£K) X = ( x1 x2 ::: xK ) . con k = 1. K. y.Capitolo 7 Il modello di regressione lineare multivariata: i Minimi Quadrati Ordinari (OLS) 7. xk .1. 2. 1 0 x1k B x C xk = B 2k C @ ::: A xnk vettore colonna contenente le n osservazioni campionarie della variabile indipendente.

A @ . A . A @ . @ . 1 0 "1 B " C "=B 2 C @ ::: A "n vettore colonna contenente gli n termini di errore. . C ¯ 1 + B . yn xn1 xn2 xnK "n y = X¯ + " dove 1 ¯1 B ¯ C ¯=B 2 C @ ::: A ¯K 0 se1 C C C A B B = B @ In maniera più compatta possiamo scrivere: è il vettore colonna dei K parametri. . xn1 x12 ::: x1K x22 ::: x2K . . . C ¯ K + B . C ¯ 2 + ::: + B . . xn2 ::: xnK 1 C C C A matrice n £ K contenente le n osservazioni campionarie delle K variabili indipendenti (il vettore x1 è una colonna di 1). . .134 capitolo 7 0 x11 x21 . . . . . Si richiede inoltre che la matrice X sia di rango K. C = B . . A @ . Ciò implica che le colonne di X sono linearmente indipendenti e che n ¸ K: . . . @ . Il modello lineare multivariato può quindi essere scritto nel modo guente: 0 0 0 1 0 1 1 1 0 x11 x12 x1K "1 y1 B x22 C B x2K C B "2 B y2 C B x21 C B B B C B C C C B B .

Assunzione sulla normalità del termine di errore: (utile per testare ipotesi): ¡ ¢ "i » N 0. 2. n per i 6= j Assunzione sulla natura della matrice dei dati X: Cov (xjk . :::. j = 1. :::. K Questa assunzione è ovviamente veri…cata se la matrice X è non stocastica. "j ) = E ("i "j ) le due assunzioni possono 1 0 "1 B " C¡ ¡ ¢ E ""0 = E B 2 C @ ::: A "n ¡ ¢ 0 E "2 1 B E ("2 "1 ) = B @ ::: E ("n "1 ) essere scritte congiuntamente come segue: 1 0 2 "1 "1 "2 ::: "1 "n B " " ¢ "2 ::: "2 "n C 2 C "1 "2 ::: "n = E B 2 1 @ ::: ::: ::: ::: A "n "1 "n "2 ::: "2 n 1 0 2 1 ¾ 0 ::: 0 E ("1 "¢) ::: E ("1 "n ) ¡ 22 E "2 ::: E ("2 "n ) C B 0 ¾2 ::: 0 C C=B C = ¾2 I ::: ::: ::: ¢ A @ ::: ::: ::: ::: A ¡ E ("n "2 ) ::: E "2 0 0 ::: ¾ 2 n per i = 1. :::. 2. ¾ I . Assunzioni classiche Assunzione sui valori attesi dei termini di errore: E ("i ) = 0 per i = 1. 2.2. 2. :::. n e per k = 1. ¾2 per i = 1. "j ) = 0 Dal momento che: Cov ("i . n ¢ ¡ 2 ) " » N 0. :::. n quindi E (") = 0 Assunzione sulle varianze e covarianze dei termini di errore: V ar ("i ) = ¾2 Cov ("i . "i ) = 0 per i. 2.OLS multivariato 135 7.

allora la soluzione del sistema di equazioni normali (e quindi del programma di minimizzazione) è: b = (X0 X )¡1 X0 y . Residual Sum of Squares). :::. la cui soluzione è il vettore dei parametri stimato b: min RSS = (y ¡ Xb)0 (y ¡ Xb) b = y0 y ¡ b0 X0 y ¡ y0 Xb + b0 X0 Xb = y0 y¡2 b0 X0 y + b0 X0 Xb Le K condizioni del primo ordine sono: @(RSS) B B ´B @b @ 0 @(RSS) @b1 @(RSS) @b2 ::: @(RSS) @bK 1 1 0 C B C B 0 C C C=@ ::: A A 0 0 In termini matriciali tali condizioni si possono scrivere come: @(RSS) = ¡2 X0 y + 2 X0 X b = 0 @b e esprimere in forma di sistema di equazioni normali : X0 X b = X0 y Se l’inversa di (X0 X) esiste (condizione garantita dalla assunzione di rango pieno). Stima dei parametri: metodo dei Minimi Quadrati Ordinari I parametri ¯ 1 . De…niamo il vettore dei residui e = y ¡ Xb e quindi RSS = n X i=1 e2 = e0 e = (y ¡ Xb)0 (y ¡ Xb) i Scriviamo ora il programma di minimizzazione della somma dei quadrati dei residui stimati e. :::. Con il metodo dei minimi quadrati de…niamo degli stimatori b1 .136 capitolo 7 7. b2 . bK tali da minimizzare la somma dei quadrati dei residui (RSS. ¯ K e ¾2 non sono noti. ¯ 2 .3.

¶ @(b0 X0 y) = x0 y 2 @b2 = X0 y @(b0 X0 y) @b x0 y 1 x0 y 2 x0 x1 1 x0 x1 2 x0 x2 1 x0 x2 2 x0 x1 b1 + x0 x2 b2 1 1 x0 x1 b1 + x0 x2 b2 2 2 ¶µ = x0 x1 b2 + 2x0 x2 b1 b2 + x0 x2 b2 1 1 2 1 2 Derivando rispetto a b1 e b2 : @(b0 X0 Xb) @b1 = 2 b1 x0 x1 + 2 b2 x0 x2 1 1 ) b1 b2 ¶ ¶ @(b0 X0 Xb) = 2 b1 x0 x2 + 2 b2 x0 x2 1 2 @b2 ¶µ ¶ µ 0 @(b0 X0 Xb) b1 x1 x1 x0 x2 1 = 2 X0 Xb =2 x0 x1 x0 x2 b2 @b 2 2 .termine b0 X0 Xb : b X Xb = (b1 b2 ) = (b1 b2 ) 0 0 y ¶ = x0 y 1 = µ µ µ . Il sistema di equazioni normali è quindi il seguente: ½ 0 x1 x1 b1 + x0 x2 b2 = x0 y 1 1 x0 x1 b1 + x0 x2 b2 = x0 y 2 2 2 da cui si ottengono gli stimatori b1 e b2 : . Deriviamo i singoli termini dell’espressione di RSS che dipendono da b: .OLS multivariato 137 Esempio con K = 2.termine 2 b0 X0 y : b X y = (b1 b2 ) = (b1 b2 ) 0 0 µ µ x0 1 x0 2 x0 y 1 x0 y 2 ¶ = b1 x0 y + b2 x0 y 1 2 Derivando rispetto a b1 e b2 : @(b0 X0 y) @b1 ) .

138 capitolo 7 7.4. Interpretazione geometrica del metodo dei minimi quadrati

Ci limitiamo qui ad una intuizione geometrica del metodo OLS nel caso di vettori a tre elementi, con due vettori x1 e x2 linearmente indipendenti ed un vettore y che, come rappresentato nella Figura 3, non giace sullo stesso piano di x1 e x2 . In termini del modello di regressione abbiamo una matrice X di regressori composta da due colonne linearmente indipendenti; tutti i vettori che giacciono sullo stesso piano di x1 e x2 sono ottenibili come combinazione lineare delle colonne di X. Il metodo dei minimi quadrati consiste nel trovare quella combinazione lineare delle colonne di X (vettore giacente sullo stesso piano di x1 e x2 ), Xb, che minimizza la “distanza” da y. Come si può notare dalla …gura, tale combinazione lineare è “perpendicolare” al piano determinato dalle colonne di X; i vettori x1 e x2 (e la loro combinazione lineare Xb) devono quindi essere “ortogonali” al vettore e = y ¡ Xb: Formalmente, questo requisito è espresso dal sistema di equazioni lineari: X0 e = 0 che dà origine al sistema di equazioni normali X0 Xb = X0 y, da cui si ottiene il valore OLS di b.

Figura 3

OLS multivariato 139 7.5. Proprietà algebriche dei minimi quadrati

Date le K equazioni normali: X0 y = X0 Xb da cui X0 (y ¡ Xb) = X0 e = 0 è possibile derivare gli usuali risultati. Infatti per ogni colonna xk di X x0 e = 0 k e, dal momento che la prima colonna di X è una colonna di 1: x0 e 1 7.6. =ie=
0 n X i=1

ei = 0

Coe¢ciente di determinazione multiplo

Le deviazioni delle osservazioni y dalla loro media campionaria sono ottenute come y¡y = M0 y dove M0 è una matrice simmetrica e idempotente (già de…nita nel capitolo precedente) che trasforma le osservazioni in deviazioni dalla media: 1 0 1 1 1 1 ¡ n ¡ n ::: ¡ n 1 1 B ¡1 1 ¡ n ::: ¡ n C C B n M0 = B . C . . . . . . A @ . . . . .
1 ¡n 1 ¡n

::: 1 ¡

1 n

da cui otteniamo: T SS =

n X i=1

¡ ¢0 ¡ ¢ (yi ¡ y)2 = M0 y M0 y = y0 M0 M0 y = y0 M0 y b y = Xb + e = y + e b y¡y = y¡y+e

Sappiamo inoltre che Sottraendo ora y da entrambi i membri

140 capitolo 7 che può essere riscritta in deviazioni dalla media come b M0 y = M0 y + e = M0 Xb + e ¢0 ¡ da cui, premoltiplicando il membro di sinistra per M0 y e quello di destra ¡ ¢0 per M0 Xb + e , si ottiene: ¡ ¢0 ¡ ¢ ¡ 0 ¢0 ¡ 0 ¢ M y M y = M0 Xb + e M0 Xb + e
0 0 M0 } e {z } = b0 X0 M{z } Xb + b0 X0 | {z e + | 0 M0 Xb +e0 e | M M0 b0 0 0 | {z e } | X M e} {z 0 0

da cui che equivale a:

y 0 M0 y = b0 X0 M0 Xb + e0 e T SS = ESS + RSS Ne deriva in…ne che R2 = e ancora ESS b0 X0 M0 Xb e0 e = =1¡ 0 0 T SS y0 M0 y yM y e0 e= (n ¡ K) ¹ R2 = 1 ¡ 0 0 y M y= (n ¡ 1)

NB: Si può esprimere RSS = e0 e in altro modo, partendo da e0 e = y0 y¡2 b0 X0 y +b0 X0 Xb |{z}
X0 Xb

) )

e0 e e0 e

= y0 y ¡ b0 X0 |{z} Xb
y¡e

= y0 y ¡ b0 X0 y

poiché b0 X0 e = 0

OLS multivariato 141 7.7. Nota alle proprietà algebriche degli stimatori OLS

Dato il modello di regressione stimato y = Xb + e ´ y + e ^ con X0 e = 0

possiamo esprimere la somma dei quadrati della variabile dipendente come y0 y = (Xb + e)0 (Xb + e) = b0 X0 Xb + e0 e+ e0{z } + b0{z0 e | Xb | X }
0 0 0 0 0 0

) y y = b X Xb + e e

dove tutte le sommatorie si intendono per i = 1; :::; n. Esprimendo tutto in deviazioni dalla media: y ¡ y = (^ ¡ y) + e ¹ y ¹ ¹ ¹ dove y = i y è un vettore di n elementi tutti pari alla media dei valori della P ¹ yi =n. La somma dei quadrati delle deviazioni variabile dipendente, y = dalla media (TSS) è quindi: ¹ y ¹ y ¹ (y ¡ y)0 (y ¡ y) = [(^ ¡ y) + e]0 [(^ ¡ y) + e] ¹ 0 = (^ ¡ y) (^ ¡ y) + e0 e+ e0 (^ ¡ y) + (^ ¡ y)0 e y ¹ y ¹ y ¹ y ¹ | {z } | {z }
0 0

che si può anche scrivere come: X X X 2 yi = yi + ^2 e2 i

¹ ¹ y ¹ y ¹ ) (y ¡ y)0 (y ¡ y) = (^ ¡ y)0 (^ ¡ y) + e0 e

L’ultima espressione è equivalente a: X X X ¹ ¹ (^i ¡ y )2 + y e2 (yi ¡ y )2 = i T SS = ESS + RSS La somma totale delle deviazioni delle osservazioni della variabile dipendente dalla loro media (T SS) è stata scomposta nella parte “spiegata” dalla regressione (ESS) e nella parte “non spiegata” (RSS). Sviluppando i prodotti vettoriali è possibile riscrivere la scomposizione nel modo seguente: ¡ ¢ ¹¹ ^^ ¹¹ y0 y ¡ y0 y = y0 y ¡ y0 y + e0 e X
2 y yi ¡ n¹2 =

equivalente a

T SS = ESS + RSS

³X

´ X y yi ¡ n¹2 + ^2 e2 i

c) a varianza minima nella classe degli stimatori lineari non distorti (BLUE). sempre data l’assunzione di normalità del vettore dei termini di errore. bK ) ::: cov(b2 . b1 ) B b2 C var(b2 ) B C V ar B @ ::: A = @ ::: ::: bK cov(bK . b1 ) cov(bK . Calcolando la varianza di b otteniamo: ¤ £ V ar (b) = E (b ¡ ¯) (b ¡ ¯)0 ·³ ´³ ´0 ¸ ¡ 0 ¢¡1 0 ¡ 0 ¢¡1 0 X"¡¯ ¯+ XX X"¡¯ = E ¯+ XX = Per esteso. la matrice di varianze e covarianze di b 0 1 0 var(b1 ) b1 cov(b1 . Riscriviamo il vettore b come segue: ¢¡1 0 ¡ ¢¡1 0 ¡ X y = X0 X X (X¯ + ") b = X0 X ¡ 0 ¢¡1 0 ¡ 0 ¢¡1 0 X X¯ + X X X" = XX ¡ 0 ¢¡1 0 X" = ¯+ XX e calcoliamone ora il valore atteso: ³ ¡ ¢¡1 0 ´ ¡ ¢¡1 0 E (b) =E ¯ + X0 X X " = ¯ + X0 X X E (") = ¯ Matrice di varianza e covarianza di b. il vettore b degli stimatori OLS è (come nei casi bivariato e trivariato) lo stimatore a varianza minima nella classe degli stimatori (lineari e non lineari) non distorti (BUE).142 capitolo 7 7. b) non distorto. bK ) C C A ::: ::: ::: var(bK ) . il vettore b degli stimatori OLS è (come nei casi bivariato e trivariato) a sua volta distribuito normalmente. Teorema di Rao: se inoltre si assume la normalità dei termini di errore. Non distorsione del vettore b. b2 ) B cov(b2 .8. b2 ) ¡ 0 ¢¡1 0 £ 0 ¤ ¡ 0 ¢¡1 ¡ 0 ¢¡1 0 ¡ 2 ¢ ¡ 0 ¢¡1 XX X E "" X X X = XX X ¾ I X XX ¡ 0 ¢¡1 2 = ¾ XX è: 1 ::: cov(b1 . Proprietà statistiche Teorema di Gauss-Markov: date le assunzioni classiche il vettore b degli stimatori OLS è (come nei casi bivariato e trivariato): a) lineare. Inoltre.

¾2 I ha una distribuzione Â2 con n ¡ K gradi di libertà dove M è una matrice simmetrica e idempotente di ordine n £ n (e rango n ¡ K) ¢¡1 0 ¡ X M = I ¡ X X0 X . La seguente statistica (la cui radice quadrata è de…nita errore standard della regressione) RSS e0 e = s2 = n¡K n¡K è uno stimatore non distorto di ¾2 . ¾2 X0 X ¢ ¡ " » N 0. la conoscenza della matrice di varianza e covarianza del vettore b è ovviamente utile. Tuttavia.OLS multivariato 143 0 1 ¾2 S 1K ¾2 S 2K C C A ::: 2 S KK ¾ Normalità del vettore b termini di errore: ¾ 2 S 11 ¾2 S 12 B ¾ 2 S 21 ¾2 S 22 = B @ ::: ::: 2 S K1 ¾ 2 S K2 ¾ ¢¡1 ¡ = ¾ 2 X0 X ::: ::: ::: ::: Data l’ipotesi di normalità sul vettore dei e per ciascuno degli elementi di b vale ³ ¢¡1 ´ ¡ bk » N ¯ k . di¢cilmente i termini della matrice possono essere calcolati direttamente dal momento che ¾2 non è noto. Lo stimatore di ¾2 Come nei casi bivariato e trivariato. ¾ 2 X0 X kk dove è l’elemento sulla diagonale principale all’incrocio tra la k-esima riga e la k-esima colonna della matrice (X0 X)¡1 . Inoltre: RSS e0 e "0 M " ³ " ´0 ³ " ´ = 2 = = M ¾2 ¾ ¾2 ¾ ¾ ¡ 0 ¢¡1 X X kk = S kk il vettore b è a sua volta distribuito normalmente ³ ¢¡1 ´ ¡ b » N ¯.

per k = 1. :::. 2. K h ¡ ¢¡1 i 1 2 0 2 se (bk ) = s X X kk .144 capitolo 7 Infatti: ¡ ¢¡1 0 e = y ¡ Xb = y ¡ X X0 X X y = My = M (X¯ + ") = M" Matrice di varianza e covarianza stimata di b. Sostituendo ¾2 con s2 nella matrice di varianza e covarianza di b si ottiene la matrice di varianza e covarianza stimata di b: ¢¡1 ¡ Est:V ar (b) = s2 X0 X da cui è possibile ricavare l’errore standard di bk .

rispettivamente Ax e x0 Bx (con B matrice simmetrica e idempotente) sono indipendenti se AB = 0. viene stimata con s2 . 1) errore standard di bk Dal momento che ¾2 è tuttavia non nota. da cui è immediato veri…care che (X0 X)¡1 X0 M = 0: ³"´ RSS ³ " ´0 = M ¾2 ¾ |{z} ¾ B . 1) (bk ¡ ¯ k ) = ¾ 2 S kk q¡ ¢ »q 2 0e  (n¡K) e =(n ¡ K) ¾2 n¡K bk ¡ ¯ k p » t(n ¡ K) s2 S kk = NB: s2 = e0 e n¡K segue una distribuzione t di Student con n ¡ K gradi di libertà. Nel nostro caso x ´ "=¾ e la forma lineare e la forma quadratica in x sono: b ¡ ¯ ¡ 0 ¢¡1 0 ³ " ´ = XX X ¾ | {z } ¾ A e con M = I¡X(X0 X)¡1 X0 .9. Tale indipendenza può essere veri…cata utilizzando la seguente proprietà statistica: ² una forma lineare e una forma quadratica in x » N (0. Questo risultato è ottenuto grazie all’indipendenza delle variabili casuali a numeratore (normale standardizzata) e a denominatore (Â2 divisa per i gradi di libertà) della statistica t. I). La seguente statistica ha una distribuzione normale standardizzata: zk = bk ¡ ¯ k p 2 S kk | ¾{z } » N(0.OLS multivariato 145 7. Inoltre e0 e RSS ´ 2 » Â2 (n ¡ K) ¾2 ¾ Quindi la statistica tk = p N(0. Test di ipotesi Test t di signi…catività di singoli parametri .

rispettivamente. con la parte di variabilità residua. di rango. che mette in relazione la parte della variabilità della variabile dipendente (intorno alla sua media) “spiegata” dall’insieme dei regressori. A¢nché la statistica abbia una distribuzione F è necessario che le variabili casuali a numeratore e denominatore (con distribuzioni Â2 ) siano indipendenti. ESS. Per veri…care la capacità esplicativa dell’insieme dei regressori (in aggiunta alla costante) si può costruire la seguente statistica. L’indipendenza è garantita ¢ ¡ dal fatto che I ¡ MZ M = 0 (si veda la sezione 6. RSS: ¢ ¡ 0 0 0 b X M Xb =(K ¡ 1) ESS=(K ¡ 1) = F = RSS=(n ¡ K) e0 e=(n ¡ K) h "0 ¾ = ¡ ¢ "i I ¡ MZ ¾ =(K ¡ 1) £ "0 " ¤ » ¾ M ¾ =(n ¡ K) Â2 (K¡1) K¡1 Â2 (n¡K) n¡K » F (K ¡ 1.6). K ¡ 1 e n ¡ K. Si noti in…ne che la statistica F si può scrivere come F = [ESS=(K ¡ 1)] =T SS R2 =(K ¡ 1) = [RSS=(n ¡ K)] =T SS (1 ¡ R2 ) =(n ¡ K) .146 capitolo 7 Test F di signi…catività della regressione. n ¡ K) dove i termini ESS e RSS sono stati riespressi come forme quadratiche nel vettore dei termini di errore standardizzati "=¾ per mezzo delle matrici simmetriche e idempotenti I ¡ MZ (che non de…niamo ulteriormente qui) e M.

Sx1 y = xi1 yi ¡ n¹1 y i1 C B C=@ A 0 y¡ ¹ P x1 ¹ x y P i12 i ¡n¹2 y x xi1 ¡n¹1 P P n x2 ¡( xi1 )2 i1 P x1 ¹ ¹ x y P i12 i ¡n¹2 y X1 x xi1 ¡n¹1 1 C A .1. Syy = yi ¡ n¹2 .OLS multivariato 147 7.2): X X X 2 x1 y x ¹ Sx1 x1 = x2 ¡ n¹2 .10. formata dalla costante e da una serie di n osservazioni della variabile x1 : X = (i x1 ) Per ottenere gli stimatori OLS e la matrice di varianze e covarianze dei parametri del modello lineare y = ¯ 0 i + ¯ 1 x1 + " = X¯ + " costruiamo X0 X e X0 y: ¶ µ ¶ µ 0 ¶ µ 0 P i i i i0 x1 0 P xi1 Pn (i x1 ) = = XX = 0 x2 x0 i x0 x1 xi1 x1 1 1 i1 µ 0 ¶ µ P ¶ µ 0 ¶ iy i y y= X0 y = = P i 0 0 xi1 yi x1 y x1 La matrice (X0 X)¡1 è quindi: ¡ 0 ¢¡1 XX = 1 P P 2 n xi1 ¡ ( xi1 )2 µ P 2 ¶ P xi1 ¡ xi1 P n ¡ xi1 e le stime dei parametri possono essere calcolate come (utilizzando le relaP P yi = n¹): x y xi1 = n¹1 e zioni 1 0 P 2 P P P xi1 yi ¡ xi1 xi1 yi P P 2 ¶ µ n xi1 ¡( xi1 )2 C B ¡ ¢¡1 0 b0 C = X0 X X y =B b = A @ P P P b1 yi n xi1 yi ¡ xi1 B = B @ 0 y ¹ P P x1 ¹ x y P i12 i ¡n¹2 y x xi1 ¡n¹1 P x y x2 ¡¹ i1 x P 2 1 2 i1 i x xi1 ¡n¹1 1 Ricordando che (si veda la sezione 4. Esempio: il modello di regressione lineare bivariato Consideriamo il semplice caso di modello bivariato con y vettore della variabile dipendente e X matrice n £ 2 dei regressori.

5): ³ ´ 1 0 x x2 ¹ 1 ¡ Sx¹1x ¾2 ¾ 2 n + Sx 1x 1 1 1 1 C B Var(b) = @ A ¾2 x1 ¹ 2 ¡ Sx x ¾ Sx1 x1 1 1 La matrice di varianze e covarianze di b è data da: 0 P 2 xi1 2 ¡ 0 ¢¡1 ¾ @ = P 2 Var(b) = ¾2 X X P P n xi1 ¡ ( xi1 )2 ¡ x B =@ y¡ ¹ Sx1 y ¹ Sx1 x1 x1 Sx1 y Sx1 x1 ¡ i1 P xi1 n 1 A .148 capitolo 7 si ottiene: µ b0 b1 ¶ 0 1 C A dove ¾ 2 denota la varianza del termine di errore "i . In…ne. dopo gli opportuni passaggi (si veda la sezione 4.1.

OLS multivariato 149 7.11. Interpretazione dei coe¢cienti di regressione multipla

Consideriamo il modello di regressione lineare multivariata y = X¯ + " con lo stimatore OLS b = (X0 X)¡1 X0 y ^ I valori stimati della variabile dipendente y e i residui stimati e sono esprimibili come: y = Xb = X(X0 X)¡1 X0 y ^ e = y ¡ Xb = y ¡ X(X0 X)¡1 X0 y £ ¤ = I ¡ X(X0 X)¡1 X0 y = My | {z }
M

dove M è una matrice (idempotente) con le seguenti proprietà: MX = 0 Me = e

Riscriviamo ora lo stesso modello utilizzando la seguente “partizione” della matrice dei regressori: X = (X1 x2 ) ) y = X1 ¯1 + x2 ¯ 2 + " Vogliamo confrontare le stime del coe¢ciente ¯ 2 (che misura l’e¤etto su y attribuibile al regressore x2 dopo aver tenuto conto dell’e¤etto dei regressori nella sottomatrice X1 , avendo così l’interpretazione di derivata parziale) ottenute in due modi diversi: (i) mediante una procedura che preliminarmente “depura” sia la variabile dipendente sia il regressore che ci interessa x2 dall’e¤etto degli altri regressori in X1 ; (ii) mediante una regressione di y su X1 e x2 simultaneamente. (i) Utilizzando l’equivalente della matrice (idempotente) M introdotta sopra possiamo esprimere direttamente i residui stimati dalle due seguenti regressioni: regressione di y su X1 regressione di x2 su X1 ) ) residui stimati u = M1 y residui stimati v = M1 x2

150 capitolo 7 dove M1 = I ¡ X1 (X0 X1 )¡1 X0 1 1 con la proprietà M1 X1 = 0. Dopo aver “depurato” la variabile dipendente e il regressore x2 dall’e¤etto delle variabili in X1 e¤ettuiamo la regressione dei residui u sui residui v, ottenendo lo stimatore b2 : ¡ ¢¡1 0 b2 = v0 v vu ¤¡1 0 £ 0 x2 M1 M1 y = (x2 M1 )M1 x2 ¢¡1 0 ¡ 0 x2 M1 y = x2 M1 x2 (ii) Una stima del parametro ¯ 2 è ovviamente ottenibile mediante la regressione multivariata di y simultaneamente su X1 e x2 . Lo stimatore b2 si ottiene come al solito dalla soluzione del sistema di equazioni normali (condizioni del primo ordine della minimizzazione di RSS). Il modello stimato è quindi: y = X1 b1 + x2 b2 + e Per confrontare lo stimatore b2 ottenuto con questo metodo con quello ricavato in precedenza, anzichè risolvere esplicitamente il sistema di equazioni normali, possiamo premoltiplicare entrambi i lati della precedente espressione per la matrice M1 de…nita sopra, ottenendo M1 y = M1 X1 b1 + M1 x2 b2 + M1 e | {z } | {z }
0 e

(utilizzando il fatto che M1 è idempotente, per cui M1 M1 = M1 ).

) M1 y = M1 x2 b2 + e

ricordando che per de…nizione M1 X1 = 0 e M1 e = e: Premoltiplicando ora entrambi i lati dell’ultima espressione per x0 possiamo esprimere lo stimatore 2 b2 come segue: x0 M1 y = x0 M1 x2 b2 + x0 e 2 2 2 |{z}
0

) b2

Il valore di b2 ottenuto dalla regressione multivariata è quindi identico a quello ricavato con il metodo indiretto illustrato in precedenza.

¢¡1 0 ¡ = x0 M1 x2 x2 M1 y 2

OLS multivariato 151 7.12. Omissione di variabili rilevanti e inclusione di variabili irrilevanti

Esaminiamo ora gli e¤etti sui coe¢cienti stimati di due problemi di speci…cazione dei modelli di regressione. Iniziamo dal caso di omissione dal modello stimato di un regressore “rilevante”, cioè appartenente al “vero” modello che ha generato i dati. Esprimiamo i due modelli come segue: modello “vero” : y = X1 ¯1 + x2 ¯ 2 + " modello stimato : y = X1 b¤ + e 1 Nella stima del modello sono (correttamente) inclusi k ¡ 1 regressori ma viene omesso il k-esimo regressore x2 . La stima del vettore di coe¢cienti ¯1 , che denotiamo con b¤ , è ottenuta come: 1 ¡ 0 ¢¡1 0 X1 y b¤ = X1 X1 1 ¢¡1 0 ¡ 0 X1 (X1 ¯1 + x2 ¯ 2 + ") = X1 X1 ¡ ¡ ¢¡1 0 ¢¡1 0 ¢¡1 0 ¡ 0 X1 X1 ¯1 + X0 X1 X1 x2 ¯ 2 + X0 X1 X1 " = X1 X1 1 1 ¡ 0 ¡ 0 ¢¡1 0 ¢¡1 0 X1 x2 ¯ 2 + X1 X1 X1 " = ¯1 + X1 X1 ed ha il seguente valore atteso (poiché E(") = 0): ¢¡1 0 ¡ E (b¤ ) = ¯1 + X0 X1 X x2 ¯ 2 1 1 | {z 1 }
distorsione

b¤ è quindi uno stimatore distorto del “vero” vettore di coe¢cienti ¯1 . La 1 distorsione dipende sia dal parametro ¯ 2 (che misura l’e¤etto di x2 su y) sia dalla correlazione esistente fra i regressori misurata dai k ¡ 1 coe¢cienti stimati da una regressione OLS di x2 sulle variabili in X1 , raccolti nel vettore b21 : ¢¡1 0 ¡ X1 x2 b21 = X0 X1 1 Il valore atteso dei coe¢cienti in b¤ risulta quindi: 1 E(b¤ ) = ¯1 + b21 ¯ 2 1 Prendiamo ora in considerazione il problema dell’inclusione nel modello stimato di variabili “irrilevanti”, cioè che non appartengono al modello “vero”. In questo caso abbiamo: modello “vero” : modello stimato : y = X1 ¯1 + " y = X1 b¤ + x2 b¤ + e 1 2

152 capitolo 7 Qui x2 rappresenta una variabile che non ha alcun e¤etto su y ma che viene comunque inclusa nel modello stimato, insieme al blocco di regressori “rilevanti” X1 . Denotando con X la matrice completa dei regressori utilizzati: X = (X1 x2 ), il vettore dei coe¢cienti stimati dalla regressione è: µ ¤ ¶ ¡ ¢¡1 0 b1 ¤ = X0 X Xy b ´ ¤ b2 · µ ¶ ¸ ¡ 0 ¢¡1 0 ¯1 = XX X (X1 x2 ) +" 0 ¶ µ ¡ ¢¡1 0 ¯1 + X0 X X" = 0 Il valore atteso dei coe¢cienti risulta quindi ¶ µ ¤ ¶ µ ¯1 b1 = E b¤ 0 2

senza alcuna distorsione dovuta alla presenza di un regressore irrilevante. L’inclusione di tale regressore (tranne che nel caso di assenza di correlazione con le variabili in X1 ) ha invece l’e¤etto di aumentare la varianza dello stimatore di ¯1 rispetto a quella ottenibile dalla stima del modello “vero” (senza x2 ).

° 2 . Esercizi 2. cioè: P ¹ y ¹ [ n (yi ¡ y ) (^i ¡ y )]2 2 2 i=1 hP i hP i R = ry.OLS multivariato 153 7. che denotiamo con r. Dimostrate che R2 è uguale al quadrato del coe¢ciente di correlazione ^ fra i valori osservati di yi e quelli stimati yi . 1. è possibile concludere dai risultati del modello stimato che variazioni del tasso di in‡azione ¼ a parità di tasso di interesse reale non sono rilevanti per la spiegazione di y? (b) costruite un test di signi…catività dell’e¤etto del tasso di in‡azione su y a parità di tasso di interesse reale e commentatene il risultato. ¯ 1 . Esprimete la statistica F utilizzata per sottoporre a test la signi…catività di tutti i regressori (diversi dalla costante) utilizzando le somme del quadrato dei residui di due modelli (da de…nire con precisione): “non ristretto” e “ristretto”. che chiamiamo n: yi = ° 0 + ° 1 ¼i + ° 2 ni + vi Dalla stima otteniamo i seguenti risultati (fra parentesi gli errori standard delle stime): ° 1 = 0:1 (0:15) ^ ° 2 = 0:8 (0:20) ^ ° ^ Inoltre cov(^ 1 . contenente il tasso di interesse nominale. ° 1 .13.^ ´ y n 2 n ¹ ¹ (yi ¡ y) (^i ¡ y )2 y i=1 i=1 3. Supponete che si voglia investigare la dipendenza di una variabile economica y dal tasso di in‡azione. e dal tasso di interesse reale. Il modello “vero” che viene ipotizzato è il seguente: yi = ¯ 0 + ¯ 1 ¼i + ¯ 2 ri + "i Viene invece stimato il seguente modello. ° 2 ) = ¡0:002. che denotiamo con ¼. Ricordando la relazione che lega tassi di interesse e tasso di in‡azione (r = n ¡ ¼): (a) ricavate la relazione fra i parametri ¯ 0 .¯ 2 e ° 0 . .

x2 ) = i=1 = r12 n Denotando con ¾ 2 la varianza del termine di errore "i : (a) calcolate la matrice di varianze e covarianze degli stimatori b1 e b2 ottenuti con OLS µ ¶ ¸ ¸a NB: data una matrice della forma .154 capitolo 7 4. la sua inversa è ¸a ¸ una matrice della forma seguente: ¶ µ 1 1 1 ¡a ¸ 1 ¡ a2 ¡a 1 (b) valutate l’e¤etto del grado di correlazione fra x1 e x2 sulle statistiche t costruite per valutare le ipotesi che i singoli parametri ¯ 1 e ¯ 2 siano ciascuno uguale a zero. Considerate tre variabili (tutte con media zero) x. quali conclusioni si possono trarre sulla possibilità di sottoporre a test ipotesi su combinazioni lineari dei parametri? 5. la quale in‡uenza sia x sia y. Considerate il seguente modello con solo due regressori: yi = ¯ 1 xi1 + ¯ 2 xi2 + "i ¹ in cui tutte le variabili hanno media campionaria uguale a zero: y = ¹ x1 = x2 = 0 (non viene quindi inserita nel modello la costante). . valutate l’e¤etto del grado di correlazione fra i regressori sulla varianza delle due combinazioni lineari costruite. y e z. (d) ipotizzando r12 > 0. (c) calcolate la varianze di due combinazioni lineari dei parametri stimati: b1 + b2 e b1 ¡ b2 . eliminando l’e¤etto della terza variabile z. Siamo interessati a stimare l’e¤etto “puro” di x su y. Assu¹ miamo inoltre (per sempli…care i calcoli) che la varianza campionaria di x1 e x2 sia pari a 1: Pn Pn 2 x2 i=1 xi1 = i=1 i2 = 1 n n Ciò implica che la covarianza campionaria fra x1 e x2 è uguale al coe¢ciente di correlazione r12 : Pn xi1 xi2 cov(x1 .

invece di y. Successivamente stimiamo la seguente regressione di y su u: y = ±u u + v Derivate lo stimatore du del parametro ± u da quest’ultima regressione. de…nite come segue: ¤ x¤ = xi + ui e yi = yi + vi i dove u e v sono gli “errori di misurazione”. si regredissero su u i residui ottenuti da una precedente regressione di y su z (e¤ettuata per “depurare” anche y dall’e¤etto di z)? 6. invece di x e y vengono osservate x¤ e y ¤ . Ipotizziamo che la “vera” relazione fra due variabili x e y (entrambe con media pari a zero) sia data dal seguente modello lineare: yi = ¯ xi + "i dove "i » IN(0. (b) Confontate du con lo stimatore dx del parametro ± x nel seguente modello trivariato: y = ±x x + ±z z + " (c) Che cosa cambierebbe rispetto al caso (a) se. Inoltre E(u2 ) = ¾2 e E(v 2 ) = u ¾2 .OLS multivariato 155 (a) Supponiamo di procedere ad una regressione di x su z. . con media zero e non correlati con x e y e fra di loro (quindi: E(u) = E(v) = E(uv) = E(ux) = E(uy) = E(vx) = E(vy) = 0). Le due variabili sono " misurate con errore. v (a) Scrivete il modello da stimare in termini delle variabili osservate. ¾2 ) e non è correlato con xi . da cui ricaviamo lo stimatore bxz ed i residui stimati u. E’ possibile applicare il metodo dei minimi quadrati ordinari (OLS) per la stima di ¯ e perché? (b) Lo stimatore bOLS fornisce una sovrastima o una sottostima del vero parametro ¯? (fornire una risposta in termini solo intuitivi).

156 .

dato il modello di regressione lineare y = X¯ + " si sono introdotte alcune assunzioni.Capitolo 8 Violazioni delle assunzioni classiche e modello di regressione lineare generalizzato 8. gli elementi della matrice X sono indipendenti o almeno non correlati con gli elementi del vettore ". Assunzioni sul vettore ": E(") = 0 . Assunzioni sulla matrice X: X è una matrice non stocastica di ordine n£ K (con n ¸ K) e di rango K.1. In subordine. Ciò implica che le colonne della matrice X sono linearmente indipendenti. Introduzione Nel capitolo precedente. se X è una matrice stocastica. qui riassunte per comodità.

lo stimatore OLS del vettore di parametri ¯ b = (X0 X)¡1 X0 y è BLUE (best linear unbiased estimator). ¾2 I) Date le assunzioni classiche.158 capitolo 8 ¾2 0 B 0 ¾2 V ar (") = E(""0 ) = B @ ::: ::: 0 0 " » N(0. se aggiungiamo alle assunzioni classiche l’ipotesi di normalità. con ¢ ¡ b » N ¯. lo stimatore OLS del vettore ¯ è BUE (best unbiased estimator ). si assume anche che . con E(b) = ¯ V ar (b) = ¾2 (X0 X)¡1 In…ne. ¾ 2 (X0 X)¡1 0 1 ::: 0 ::: 0 C C = ¾2 I ::: ::: A ::: ¾2 Inoltre. per essere in grado di fare inferenza.

sarà necessario imporre delle restrizioni dal momento che non è possibile stimare n parametri (cioè le n varianze) con solo n osservazioni campionarie. dipenda dalla matrice X.GLS 159 8. a famiglie o imprese in un’analisi cross-sezionale. (ricordando semplicemente che la varianza di una costante è nulla) vale anche che: V ar (y) = ¾2 I Eteroschedasticità (cenni). Se si rimuove l’ipotesi di omoschedasticità la matrice di varianza e covarianza dei termini di errore deve essere scritta nel modo seguente: ¾2 0 1 B 0 ¾2 2 V=B @ ::: ::: 0 0 0 1 ::: 0 ::: 0 C C ::: ::: A ::: ¾2 n Si osservi …n d’ora che se la matrice V non è nota. Se le osservazioni campionarie sono relative. Autocorrelazione (cenni). in un modello di regressione bivariato dove la variabile dipendente è rappresentata dal risparmio familiare e la variabile indipendente dal reddito familiare. Violazioni delle assunzioni su V ar (") L’assunzione V ar (") = E(""0 ) = ¾2 I è detta di sfericità degli errori ed implica la duplice condizione di costanza della varianza dei termini di errore "i (omoschedasticità) e di nullità della covarianza per ogni coppia di termini di errore "i e "j con i 6= j (assenza di autocorrelazione). ad esempio. Se le osservazioni sono relative a una singola famiglia o impresa osservata nel tempo (analisi temporale) è possibile (per . ma non la varianza di y. Dato che la matrice X è non stocastica. può essere poco plausibile assumere che solo il valore atteso. Ad esempio. Si ricordi che nel modello di regressione lineare classico: E(y) = X ¯ La rimozione della condizione di costanza della varianza dei termini di errore "i viene de…nita con il termine di eteroschedasticità.2. non solo il valore atteso del risparmio ma anche la sua varianza sembra aumentare al crescere del reddito.

"t¡1+s ) = Cov ("t . "t¡1 ) = Cov ("t¡1 .160 capitolo 8 motivi che saranno spiegati in seguito) che la matrice di varianza e covarianza dei termini di errore possa assumere la seguente struttura: 0 1 1 ½1 ::: ½n¡2 ½n¡1 B ½1 1 ::: ::: ½n¡2 C B C 2 2B ::: ::: ::: ::: C ¾ ­ = ¾ B ::: C @ ½n¡2 ::: ::: 1 ½1 A ½n¡1 ½n¡2 ::: ½1 1 dove ::: = Cov ("t¡2 . "t ) = Cov ("t . Domande a cui rispondere. "t ) = Cov ("t¡1 . "t+2 ) = ::: = ¾2 ½2 ::: ::: = Cov ("t¡2 . "t+s ) = ::: = ¾ 2 ½s Anche nel caso di autocorrelazione. "t+1 ) = Cov ("t . se la matrice ¾2 ­ non è nota. La possibile violazione delle assunzioni classiche del modello di regressione lineare pone alcuni importanti problemi: (a) quali sono le conseguenze per lo stimatore OLS quando l’assunzione classica sulla matrice di varianza e covarianza dei termini di errore è violata? (b) quali procedimenti (test) possono essere sviluppati per veri…care la “ragionevolezza” dell’assunzione classica? (c) quali procedure di stima devono essere utilizzate nei casi in cui l’assunzione classica risulta violata? . sarà necessario imporre delle restrizioni dal momento che non è possibile stimare n parametri (cioè ¾2 e gli n¡1 coe¢cienti di correlazione) con n osservazioni campionarie. "t+1 ) = ::: = ¾2 ½1 ::: = Cov ("t¡2 . "t¡2+s ) = Cov ("t¡1 .

GLS 161 8. Sappiamo che lo stimatore OLS bOLS = (X0 X)¡1 X0 y pur essendo non distorto non è più e¢ciente (non è più BLUE). che è simmetrica e de…nita positiva. Inoltre sappiamo che la sua varianza è pari a V ar (bOLS ) = ¾2 (X0 X)¡1 (X0 ­X)(X0 X)¡1 Derivazione dello stimatore e¢ciente per il modello lineare generalizzato. Il modello di regressione lineare generalizzato e lo stimatore GLS (Generalized Least Squares) Se viene abbandonata l’assunzione di sfericità dei termini di errore. supponiamo di conoscere la matrice ­. L’inversa di ­ (anch’essa matrice de…nita positiva) ammette la seguente rappresentazione: ­¡1 = P0 P da cui ­ = ) ) ¡ 0 ¢¡1 PP = P¡1 P0¡1 P ­ = P0¡1 P ­P0 = I Per ricavare lo stimatore a minimi quadrati generalizzati (GLS) moltiplichiamo il modello originario per la matrice P: P y = (PX) ¯ + P " .3. Per derivare lo stimatore e¢ciente nel modello generalizzato. allora il modello di regressione lineare deve essere riscritto come segue: y = X¯ + " E(") = 0 V ar (") = E(""0 ) = ¾2 ­ Questo modello prende il nome di modello di regressione lineare generalizzato.

PX = X¤ e P" = "¤ . Da ¡ ¢¡1 ¤0 ¤ X " bGLS = ¯+ X¤0 X¤ otteniamo: £ ¤ V ar (bGLS ) = E (bGLS ¡ ¯) (bGLS ¡ ¯)0 = E = ¢¡1 ¡ ¢¡1 ¡ = ¾2 X¤0 X¤ = ¾2 X0 ­¡1 X ¡ ¤0 ¤ ¢¡1 ¤0 ¡ ¤ ¤0 ¢ ¤ ¤0 ¤ ¡1 X E " " X (X X ) X X | {z } ¾2 I h¡ ¢¡1 ¤0 ¤ ¤0 ¤ ¤0 ¤ ¡1 i X¤0 X¤ X " " X (X X ) . Dal momento che E("¤ ) = 0 la matrice di varianza e covarianza dei termini di errore (trasformati) può essere scritta come V ar ("¤ ) = E("¤ "¤0 ) = E(P ""0 P0 ) = ¾2 P ­ P0 = ¾2 I Possiamo quindi riscrivere il modello di regressione lineare generalizzato in forma di modello di regressione classico (trasformato): y¤ = X¤ ¯ + "¤ E("¤ ) = 0 V ar ("¤ ) = E("¤ "¤0 ) = ¾2 I Lo stimatore GLS è semplicemente lo stimatore OLS del modello trasformato bGLS = (X¤0 X¤ )¡1 X¤0 y¤ = (X0 P0 PX)¡1 X0 P0 P y = (X0 ­¡1 X)¡1 X0 ­¡1 y In…ne. ricaviamo la matrice di varianza e covarianza dello stimatore bGLS .162 capitolo 8 Il modello può essere riscritto nel modo seguente: y¤ = X¤ ¯ + "¤ dove Py = y¤ .

(c) se la matrice ­ non è nota e non è ragionevole fare ipotesi sulla sua struttura allora l’unica soluzione è procedere con il metodo dei minimi quadrati ordinari (OLS). Potenziali soluzioni . In altre parole. (b) se la matrice ­ non è nota ma è ragionevole fare delle ipotesi sulla sua struttura allora è possibile utilizzare una versione modi…cata dello stimatore GLS. uno stimatore più e¢ciente di quello OLS è disponibile. Inoltre. Tale stimatore è detto stimatore dei minimi quadrati generalizzati (GLS. . generalized least squares). lo stimatore OLS non è più quello a varianza minima nella classe degli stimatori non distorti. (a) se la matrice ­ è conosciuta. La usuale formula ¾2 (X0 X)¡1 non rappresenta più la matrice di varianza e covarianza del vettore b e quindi ogni sua applicazione in campo inferenziale è fuorviante. Infatti: ¡ ¢¡1 0 X" bOLS = ¯+ X0 X da cui Tuttavia. la matrice di varianza e covarianza del vettore b diventa: £ ¤ V ar (bOLS ) = E (bOLS ¡ ¯) (bOLS ¡ ¯)0 = E ¢¡1 ¡ 0 ¢ ¡ X ­X (X0 X)¡1 = ¾2 X0 X h¡ i ¢¡1 0 0 0 X0 X X "" X(X X)¡1 ¡ ¢¡1 0 X E(") = ¯ E(bOLS ) = ¯+ X0 X Implicazioni . pur non essendo distorto. stimando direttamente V ar (bOLS ). bGLS . lo stimatore FGLS (feasible generalized least squares). lo stimatore OLS non è il più e¢ciente nella classe degli stimatori non distorti.GLS 163 Lo stimatore OLS è ancora uno stimatore non distorto nel modello di regressione lineare generalizzato.

164 .

1. in cui le varianze sono rispettivamente funzione lineare e quadratica della variabile z (opportunamente normalizzata): (i) nel primo caso si ipotizza che ¾2 = ¾ 2 zi i con i = 1. n . 2. Normalmente si ipotizza che le varianze siano funzione di un’unica variabile osservabile. Sviluppiamo ora due esempi. :::. z (che può essere o meno parte della matrice X dei regressori). Minimi quadrati generalizzati (GLS) ed eteroschedasticità Consideriamo il modello di regressione lineare generalizzato: y = X¯ + " E(") = 0 V ar (") = V In presenza di eteroschedasticità la matrice di termini di errore ha la seguente struttura: 0 2 ¾1 0 ::: 0 B 0 ¾2 ::: 0 2 V=B @ ::: ::: ::: ::: 0 0 ::: ¾2 n varianza e covarianza dei 1 C C A Per stimare il vettore ¯ in modo e¢ciente è necessario conoscere V.Capitolo 9 Eteroschedasticità 9.

:::. n i Pn 2 i=1 zi =1 e n 2 z1 0 2 B 0 z2 V = ¾2 ­ = ¾2 B @ ::: ::: 0 0 0 In questo caso la matrice P assume invece la 0 1 0 ::: 0 z1 B 0 1 ::: 0 z2 P=B @ ::: ::: ::: ::: 0 0 ::: z1 n 1 ::: 0 ::: 0 C C ::: ::: A 2 ::: zn seguente forma: 1 C C A In entrambi i casi l’unico elemento non noto è ¾2 . che può essere stimato utilizzando i residui dell’equazione trasformata: s2 = e¤0 e¤ n¡K Si osservi in…ne che la stima di ¾2 serve esclusivamente alla stima della matrice di varianza e covarianza di b. 2.166 capitolo 9 e In questo caso Pn i=1 zi n 0 =1 1 ::: 0 ::: 0 C C ::: ::: A ::: zn 0 0 ::: p1 zn e la matrice P assume la seguente forma: 0 1 p 0 ::: z1 B 0 p1 B z2 ::: P=B @ ::: ::: ::: 0 0 ::: (ii) nel secondo caso si ipotizza che z1 0 B 0 z2 V = ¾2 ­ = ¾2 B @ ::: ::: 0 0 1 C C C A e di conseguenza 2 ¾2 = ¾2 zi con i = 1. .

è necessario moltiplicare y. d1 e d2 .eteroschedasticità 167 9. X e " per la seguente matrice P: 0 1 1 p 0 ::: 0 ± 0 +± 1 z11 +± 2 z21 B C 1 p 0 ::: 0 B C ± 0 +±1 z12 +±2 z22 P=B C @ A ::: ::: ::: ::: 1 0 0 ::: p± +± z +± z 0 1 1n 2 2n Il problema è che ±0 . sostituendo a ± 0 . ±1 e ± 2 le corrispondenti stime d0 . Il metodo dei minimi quadrati generalizzati “fattibili” (FGLS) consente di a¤rontare il problema. . nel modo seguente: ¾ 2 = ± 0 + ± 1 z1i + ± 2 z2i i La matrice di varianza e covarianza dei termini di errore ha la seguente forma: 1 0 ± 0 + ± 1 z11 + ± 2 z21 0 ::: 0 C B 0 0 ± 0 + ± 1 z12 + ± 2 z22 ::: C V=B A @ ::: ::: ::: ::: 0 0 ::: ± 0 + ± 1 z1n + ± 2 z2n e quindi. I passi necessari sono i seguenti: (a) stimare il modello originale y = X¯ + " con OLS al …ne di ottenere il vettore dei residui stimati e. FGLS ed eteroschedasticità Qualora le varianze siano una funzione di più di una variabile osservabile (e queste a loro volta possono essere o meno parte della matrice X). Supponiamo per semplicità che le varianze dipendano linearmente da due variabili osservabili. si pone il problema di stimare i parametri (non noti) che esprimono la relazione tra le varianze e le variabili. ± 1 e ± 2 sono parametri ignoti che a loro volta devono essere stimati. per costruire il modello di regressione lineare classico (trasformato). z1 e z2 . (c) costruire la matrice P stimata. (d) stimare il modello trasformato y¤ = X¤ ¯ + "¤ con OLS al …ne di ottenere il vettore delle stime bF GLS .2. (b) stimare la seguente equazione ausiliaria: e2 = ± 0 + ± 1 z1i + ± 2 z2i + ui i dove ui indica il disturbo i-esimo.

In alcuni casi. per evitare di sbagliare la speci…cazione di ­. 1 ::: 0 ::: 0 C C ::: ::: A ::: e2 n ^ Est V ar (bOLS ) = (X0 X)¡1 (X0 V X)(X0 X)¡1 . OLS ed eteroschedasticità Lo stimatore GLS è e¢ciente. Tuttavia. (b) utilizzare il quadrato dei residui ei utilizzando per la stima di V: 0 2 e1 0 B 0 e2 2 ^ V=B @ ::: ::: 0 0 da cui per stimare la matrice X0 VX. per applicarlo è necessario speci…care il modello che descrive la struttura delle varianze nella matrice ­. può essere opportuno continuare ad usare gli stimatori OLS.3.168 capitolo 9 9. stimando in modo appropriato la matrice di varianza e covarianza di bOLS : V ar (bOLS ) = ¾2 (X0 X)¡1 (X0 ­X)(X0 X)¡1 L’approccio suggerito da White consiste in: (a) stimare il modello originale y = X¯ + " con OLS al …ne di ottenere il vettore dei residui stimati e.

GQ = Test di Breusch-Pagan-Godfrey (BPG). (b) test di Breusch-Pagan-Godfrey. La procedura del test è la seguente: . 2 n¡c 2 (d) calcolare i RSS delle due regressioni. Pre…ssato un livello di signi…catività. (c) stimare separatamente il modello originale con OLS per le prime e le ultime n¡c osservazioni. I test più comunemente utilizi i zati sono: (a) test di Goldfeld-Quandt. sotto l’ipotesi nulla di assenza di eteroschedasticità.4. Per semplicità. Questo test può essere utilizzato qualora si sospetti che le varianze siano funzione di una singola variabile osservabile z (inclusa o meno nella matrice X). La procedura del test è la seguente: (a) riordinare le osservazioni in base al valore di zi (dal più piccolo al più grande). si consideri la seguente relazione lineare: ¾2 = ®0 + ®1 z1i + ®2 z2i + ::: + ®m¡1 zm¡1. tutti utilizzano il vettore dei residui e ottenuto stimando il modello originario con il metodo OLS. dal momento che le varianze possono essere espresse come funzione (non necessariamente lineare) di più di una variabile. Si de…niscano RSS1 e RSS2 rispettivamente i valori del RSS più piccolo e più grande. (c) test di White. allora si ri…uta l’ipotesi nulla di assenza di eteroschedasticità. Pur se diversi nell’impostazione. Questo test costituisce un’estensione del test GQ. L’intuizione è che per sottoporre a test se le varianze sono omoschedastiche è su¢ciente sottoporre a test l’ipotesi nulla H0 : ®1 = ®2 = ::: = ®m¡1 = 0. una distribuzione F con (n ¡ c ¡ 2K)=2 gradi di libertà sia al numeratore sia al denominatore.i + ui i dove ui indica il disturbo i-esimo. (e) la statistica RSS2 RSS1 ha.eteroschedasticità 169 9. Test di eteroschedasticità Esistono numerosi test statistici costruiti con l’obiettivo di veri…care la presenza di eteroschedasticità. Test di Goldfeld-Quandt (GQ). (b) omettere c osservazioni centrali (è consigliato c = n=3). L’idea è di sfruttare e2 come stima di ¾ 2 . se il valore della statistica eccede il valore critico della distribuzione F .

BP G ha una distribuzione asintotica Â2 con m ¡ 1 gradi di libertà. Il test di White è ancora più generale. i loro quadrati ed i loro prodotti incrociati: e2 = ®0 + ®1 x1i + ®2 x2i + ®3 x2 + ®4 x2 + ®5 x1i x2i + ui i 1i 2i e calcolare da questa regressione il coe¢ciente di determinazione multiplo R2 . . Non solo non richiede di identi…care a priori la variabile a cui si sospetta siano associate le varianze ma adotta anche una forma funzionale ‡essibile.i + ui dove ui è il residuo i-esimo della regressione ausiliaria. Applichiamo per semplicità questo test direttamente ad una regressione trivariata: yi = ¯ 0 + ¯ 1 x1i + ¯ 2 x2i + "i La procedura di e¤ettuazione del test è la seguente: (a) stimare il modello trivariato con OLS al …ne di ottenere i residui ei . (b) stimare una regressione ausiliaria dove i residui al quadrato sono regrediti sulle variabili originarie. allora si ri…uta l’ipotesi nulla di assenza di eteroschedasticità. Pre…ssato un livello di signi…catività. (b) costruire la seguente variabile pi = e2 i s2 ¹ ¹ dove s2 è RSS=n e RSS è la somma dei quadrati dei residui del modello originale. (c) stimare la seguente equazione ausiliaria: pi = ®0 + ®1 z1i + ®2 z2i + ::: + ®m¡1 zm¡1. (d) ottenere gli ESS della equazione ausiliaria e calcolare la seguente statistica: 1 BP G = ESS 2 Sotto l’ipotesi nulla di assenza di eteroschedasticità. Test di White (W). se il valore della statistica eccede il valore critico della distribuzione Â2 .170 capitolo 9 (a) stimare il modello originale con OLS.

eteroschedasticità 171 (c) la statistica W = n R2 sotto l’ipotesi nulla di assenza di eteroschedasticità ha una distribuzione asintotica Â2 con un numero di gradi di libertà pari al numero dei regressori (con l’esclusione della costante) inclusi nell’equazione ausiliaria. . se il valore della statistica eccede il valore critico della distribuzione Â2 . allora si ri…uta l’ipotesi nulla di assenza di eteroschedasticità. Pre…ssato un livello di signi…catività.

563464 0.41696 9.0 1.970761 1.640649 Jarque-Bera 6.790304 Jarque-Bera 2547.999999 64. Skewness Kurtosis 11. Le variabili esplicative disponibili sono: il livello di istruzione (EDU ) e gli anni di esperienza lavorativa (EXP). Skewness Kurtosis 2.275496 2.600000 6.938640 9.5 2. Il fenomeno da spiegare consiste nel livello del salario (WAGE ) degli individui. Eteroschedasticità: un’applicazione Consideriamo un campione composto da 1000 individui estratti casualmente dalla popolazione censita USA del 1988.564 Probability 0.5. Statistiche descrittive su WAGE e LNWAGE = ln(WAGE ) 240 200 160 120 80 40 0 10 20 30 40 50 60 Series: WAGE Sample 1 1000 Observations 1000 Mean Median Maximum Minimum Std.041102 .0 Series: LNWAGE Sam 1 1000 ple Observations 1000 Mean Median Maximum Minimum Std.5 3. Dev.0 3.077570 2.174387 0.99998 2. Dev.5 4.172 capitolo 9 9.000000 100 80 60 40 20 0 1.302585 4.383398 Probability 0.0 2.95551 0.

4 2. Equazione stimata: LNW AGEi = ¯ 0 + ¯ 1 EDUi + ¯ 2 EXPi + "i Risultati della stima: Varabile dipendente: LNW AGE b s(b) t Regressore cost.2 3.6 2.246 EXP 0. EDU e EXP Campione: n = 1000 osservazioni.8 3.601 0.00 0.00 0.303 ¹2 s R 0.006 17.302 RSS F 221.086 6.00 0.6 L N W A G E F IT .957 EDU 0.2 1.563 0.471 216. 0.0 p 0.102 0.001 15.eteroschedasticità 173 Regressione OLS di LNWAGE su una costante.92 Gra…co dei residui stimati al quadrato (LNWRES2 ) e dei valori stimati di LNWAGE (LNWAGEFIT ): 4 3 LNW R E S 2 2 1 0 0.502 s(LNW AGE) R2 0.0 2.8 1.019 0.

7 15.59 EDU 0.09 2 R 0.3 Regr.37 0.02 4.32 EXP 0.06 11. EDU EXP R2 ¹ R2 RSS1 t 0. 347) RSS1 =(350 ¡ 3) 64:62 l’ipotesi nulla di assenza di eteroschedasticità è ri…utata al 5% (b) Test Breusch-Pagan-Godfrey Ipotesi: varianza residui dipendente linearmente dai due regressori EDU e2 e EXP.dip.6 BP G 1 R2 ESS = RSS = 38:5 > Â2 (2) 0:05 2 2 1 ¡ R2 ) l’ipotesi nulla di assenza di eteroschedasticità è ri…utata al 5% = .007 0. -0.28 -1.131 0.030 s(v.54 ¹ s R2 0.174 capitolo 9 Test di eteroschedasticità (a) Test di Goldfeld-Quandt Ordinamento delle osservazioni secondo EXP .49 0.004 1.52 8.50 F RSS2 87. ¹2 Risultati della regressione ausiliaria: ® s(®) t Regressore cost.55 0.016 0.62 Campione: 651 ¡ 1000 b s(b) t Regr.005 0.57 ¹2 s R 0. 1.07 0.dip.07 0.392 F 64.) 0.06 27.396 s(v.35 2 R 0.09 0.) s 0.55 RSS F 2385.14 0. due campioni di 350 osservazioni (eliminate le 300 osservazioni centrali) Risultato delle regressioni sui sottocampioni: Campione: 1 ¡ 350 b s(b) 0.88 0.68 EXP 0.) 1.01 0. Regressione ausiliaria di si sui regressori originali.01 0.71 EDU 0.21 6.43 113. cost.136 s(v.12 0. cost.004 4. dip.7 GQ = ) RSS2 =(350 ¡ 3) 87:06 = = 1:35 > F0:05 (347.028 1.01 7.

92 .03 -1.001 1.339 W = nR2 = 52 > Â2 (5) 0:05 ) l’ipotesi nulla di assenza di eteroschedasticità è ri…utata al 5% Stima OLS con correzione per eteroschedasticità (White).052 s(v.001 13.04 0.0002 4.eteroschedasticità 175 (c) Test di White Regressione ausiliaria: e2 = d0 + d1 EDUi + d2 EXPi + d3 EDUi2 i +d4 EXPi2 + d5 (EDU ¤ EXP )i + ui Risultati della regressione ausiliaria: d s(d) t Regressore cost.047 0.002 0. 0.006 -3.) 0.09 EDU -0.67 R2 0.471 F 221. Stima OLS con correzione di White della matrice di varianze e covarianze dei coe¢cienti.563 s 0. EDU EXP R2 ¹ R2 RSS dipendente: LNW AGE b s(b) t 0.006 16.102 0. dip.019 0.630 0.001 0.54 2 0.39 EXP -0.303 s(v.869 0.0004 2.49 0.347 ¹2 s R 0.107 0.24 2. dip.02 0.001 0.302 0.75 EDU 0.) 0.601 0. Risultati: Variabile Regressore cost.091 6.49 EXP2 EDU*EXP 0.0 216.

6. (b) trasformate appropriatamente il modello originario e derivate lo stimatore GLS di ¯ 0 .176 9. 2. (a) Quale ipotesi è necessario introdurre per giusti…care la stima dei parametri ® e ¯ da una regressione che abbia come variabile dipendente il costo unitario di produzione? (b) Descrivete la procedura di trasformazione delle variabili coerente con l’ipotesi formulata in (a). per ogni impresa i. . speci…cando la forma della matrice P e interpretando i coe¢cienti del modello trasformato. confrontandolo con quello OLS. (c) dimostrate che lo stimatore GLS non è distorto e calcolatene la varianza. Esercizi 1. fra costo totale di produzione ci e quantità prodotta qi è il seguente: ci = ® + ¯ qi + "i con varianza del termine di errore non costante: E("2 ) = ¾2 e E("i "j ) = i i 0 per i 6= j. Il modello “vero” che descrive la relazione. Considerate il semplice modello di regressione lineare: yi = ¯ 0 + "i dove le varianze dei termini di errore sono funzione dei valori di una variabile zi secondo la relazione: Pn 2 2 i=1 zi ¾2 = ¾ 2 zi con =1 i n (a) derivate lo stimatore OLS di ¯ 0 e la sua varianza in presenza di eteroschedasticità nei termini di errore "i .

Introduzione Consideriamo il modello di regressione lineare generalizzato: y = X¯ + " E(") = 0 V ar (") = ¾2 ­ Assunzioni : 1. "t+1¡s ) = ::: = ¾ 2 ½s " . "t¡s ) ´ ½s = p V ar ("t ) V ar ("t¡s ) ::: = Cov ("t¡1 . "t¡s ) = Cov ("t+1 .). Assenza di eteroschedasticità: V ar ("t ) = ¾ 2 " 3.Capitolo 10 Autocorrelazione 10. "t¡1¡s ) = Cov ("t . Le osservazioni campionarie sono ordinate rispetto al tempo (serie temporali) con t = 1. Le covarianze (chiamate anche autocovarianze) fra "t e "t¡s sono una funzione della distanza jt ¡ sj ma non di t e di s: dove ½s è il coe¢ciente di correlazione fra "t e "t¡s (e fra "t¡1 e "t¡1¡s . "t¡s ) Corr ("t . ecc. :::T 2. 2. Più precisamente: Cov ("t .1.

1).2. campione di 50 osservazioni (1951-2000): .2.1. Processi stocastici (cenni) Un processo stocastico è una sequenza di variabili casuali ordinate rispetto al tempo: f"t g . la varianza comune dei termini di errore ¾ 2 e i " K parametri del modello. Non è infatti possibile stimare. T ¡ 1 coe¢cienti di correlazione. +1 Analizziamo alcuni esempi di semplici processi stocastici. "t¡s ) ¾2 " V ar (") = ¾2 ­ " = ¾2 B "B @ ½T ¡2 ½T ¡1 ½T ¡2 In questo contesto la matrice ­ viene anche de…nita matrice di autocorrelazione (e spesso denotata con R) dal momento che raccoglie i T ¡1 coe¢cienti di autocorrelazione. t = ¡1. White noise Un processo stocastico fut g è de…nito white noise (“rumore bianco”) se E(ut ) = 0 var(ut ) = ¾2 u cov(ut . 10. us ) = 0 8t 8t 6= s Esempio per ut » N(0. 10. con T osservazioni. sarà ovviamente necessario imporre delle restrizioni. Qualora la matrice ­ non sia nota. "t¡s ) = ¾ 2 ½s " La matrice di varianza e covarianza dei termini di errore (chiamata anche matrice delle autocovarianze) può quindi essere scritta come segue: 0 B B 1 ½1 ::: ½1 1 ::: ::: ::: ½T ¡2 ½T ¡1 ::: ::: ½T ¡2 ::: ::: ::: ::: 1 ½1 ::: ½1 1 1 C C C C A Cov ("t .178 capitolo 10 da cui ½s = e quindi Cov ("t .

|*. | .*| .075 -0.autocorrelazione 179 3 2 1 0 -1 -2 -3 55 60 65 70 75 80 85 90 95 00 u (white noise) Utili informazioni sulla natura del processo stocastico possono essere fornite dal calcolo dei coe¢cienti di correlazione ½s a varie distanze s.187 9. | 8 0. | 5 -0. | 9 -0. | 4 0. |*.083 2.516 0. Per il processo white noise u il correlogramma mostra una serie di coe¢cienti di (auto)correlazione (AC) prossimi a zero.|.0077 **| .*| .*| . Correlogrammadi processo stocastico white noise Sample: 1952 2000 Included observations: 49 Autocorrelation Partial Correlation AC PAC Q-Stat .372 0.2398 . | .5186 . | 7 -0. | 1 -0.012 -0.367 0. | .033 8. |*.193 1.*| .109 -0.|. | .*| .050 -0.052 0. L’insieme di tali coe¢cienti forma il cosiddetto correlogramma della serie. | .030 0.127 9.237 -0.2843 .|.1255 **| . | 10 -0.4012 Prob 0.282 8.140 4.9787 .2977 .|.4641 . | **| .930 0. | . | 6 0.*| . | .|.012 0.116 5. | **| . | 2 -0.9680 .293 0.385 0. confermando la natura non autocorrelata della serie. | .494 .415 0.107 -0.*| .420 0.157 4.|.528 0. | 3 -0.193 -0.190 0.

2.2. Random walk Un processo stocastico f"t g è de…nito random walk (“passeggiata casuale”) se evolve nel tempo come segue: "t = "t¡1 + ut ) "t = ut + ut¡1 + ::: = 1 X i=0 ut¡i dove fut g è un processo white noise. con coe¢cienti di autocorrelazione inizialmente vicini all’unità e che solo lentamente (all’aumentare della distanza fra le osservazioni) tendono a diminuire. .180 capitolo 10 10. Continuando nell’esempio (utilizzando le realizzazioni di ut viste nella …gura precedente): 4 2 0 -2 -4 -6 -8 -10 55 60 65 70 75 80 85 90 95 00 epsilon (random walk) il correlogramma del processo stocastico mostra un elevato grado di persistenza.

933 0.000 .933 45.437 0. |**** | **| . |*******| .598 -0.061 199.317 0. Processo AR(1) Un processo stocastico f"t g è de…nito autoregressivo di ordine 1 (AR(1)) se evolve nel tempo come segue: "t = ½ "t¡1 + ut ) "t = ut + ½ut¡1 + ½ ut¡2 + ::: = 2 1 X i=0 ½i ut¡i dove fut g è un processo white noise. | 10 0.000 .810 0. Si osservi che "t è funzione di tutta la storia degli ut . |*******| . |*.000 .868 -0.501 -0. | 9 0.91 0.|.019 85. |****** | .*| .299 0. "t¡1 ) = E("t "t¡1 ) = E ((½ "t¡1 + ut ) "t¡1 ) = ½ Cov ("t .10 0. | 8 0. | 3 0.3.91 0.|.013 152.38 0. |****** | . |***** | **| .88 0.000 .000 . |** | .000 .318 0.679 -0.236 179. | 6 0. Dopo aver imposto tale restrizione.377 0. | 4 0.000 241. |*******| 1 0.180 226. | 5 0.000 10.000 .2. "t¡2 ) = E("t "t¡2 ) = ½2 ¾2 u = ½2 ¾2 " 1 ¡ ½2 ¾2 u = ½ ¾2 " 1 ¡ ½2 .758 0.000 .025 120.000 .97 0. possiamo calcolare il valore atteso e la varianza di "t : E("t ) = E(ut ) + ½E(ut¡1 ) + ½2 E(ut¡2 ) + ::: = 0 V ar ("t ) = V ar (ut ) + ½2 V ar (ut¡1 ) + ½4 V ar (ut¡2 ) + ::: = ¾2 u = ¾2 " 1 ¡ ½2 Analogamente si può procedere al calcolo delle covarianze tra "t e gli altri elementi del processo stocastico Cov ("t .|. |*** | . le osservazioni più lontane nel tempo sono pesate meno delle osservazioni più recenti.|.|*** | . |***** | .206 214.87 0.|.019 235.50 0. | 7 0. Imponendo la restrizione j½j < 1.autocorrelazione 181 Correlogramma di processo stocastico random walk Sample: 1952 2000 Included observations: 49 Autocorrelation Partial Correlatio AC PAC Q-Stat Prob . | 2 0.

| 10 0.227 .560 0.053 .359 0.224 . |*.|.9 di Sample: 1952 2000 Included observations: 49 Autocorrelation Partial Correlati AC PAC . Presentiamo ora tre " esempi di processo AR(1) ottenuti dalle medesime realizzazioni del processo white noise f"t g utilizzate in precedenza ma caratterizzati da diversi valori del parametro autoregressivo ½: ½ = 0:9. | 2 0.163 . | 9 0.838 . | 3 0. |*. | 6 0. |***** | .182 capitolo 10 ::: Cov ("t .209 0.604 0.122 . |***** | . |*** | **| . |****** | . |*.|. | . 4 2 0 -2 -4 -6 -8 -10 55 60 65 70 75 80 85 90 95 00 AR(1) rho = 0. la matrice di varianza e covarianza può essere scritta come segue: V ar (") = ¾2 B "B @ 0 B B 1 ½ ½2 ::: ½ 1 ½ ::: ½2 ½ 1 ::: ½T ¡1 ½T ¡2 ½T ¡3 ::: ½T ¡1 ::: ½T ¡2 ::: ½T ¡3 ::: ::: ::: 1 1 C C C = ¾2­ " C A dove i parametri da stimare sono ridotti a due: ¾2 e ½. |*. | 4 0.222 . |**** | .045 .102 . |*** | . |*. | 7 0.690-0. "t¡s ) = E("t "t¡s ) = ½s ¾2 u = ½s ¾2 " 1 ¡ ½2 Se i termini di errore del modello di regressione seguono un processo stocastico autoregressivo di ordine 1. |** | **| .448-0.238-0.176-0. |****** | 1 0. | . | 5 0.|. ½ = 0:5 e ½ = ¡0:7.181 0.041 .9 CorrelogrammaAR(1) con rho=0. |** | . |** | 8 0.838 0.

| 7 -0.7 Correlogramma AR(1) con rho=0. | 3 -0.0. | 4 0. | .100 .057 . | **| .*| . | 1 -0.253-0. | 9 -0.099 .238 10.*| .7 = rho Sample: 1952 2000 Included observations: 49 AC PAC Autocorrelation Partial Correlatio ******| . | 8 -0.108 . | .*| . | 5 -0.2.*| . | .423-0. Il valore atteso e la varianza di "t sono: E("t ) = E(ut ) ¡ µE(ut¡1 ) = 0 V ar ("t ) = V ar (ut ) + µ2 V ar (ut¡1 ) = (1 + µ 2 )¾ 2 = ¾2 u " . |*. |*.278-0.5 4 2 0 -2 -4 -6 -8 -10 55 60 65 70 75 80 85 90 95 00 AR(1) rho = .364-0.058 Correlogramma di AR(1) con -0.*| . | .080 ****| . |** | **| . | .569 0.532 0.002 0.513-0. | 3 -0.180 . |**** | . | 10 -0. | . | 10 0.104 0.|. | .042 **| . | 8 0. | 7 -0.512 0.193 .544-0.*| . | . | .autocorrelazione 183 4 2 0 -2 -4 -6 -8 -10 55 60 65 70 75 80 85 90 95 00 AR(1) rho = 0.294 .316 . Processo MA(1) Un processo stocastico f"t g è de…nito a media mobile di ordine 1 (MA(1)) se evolve nel tempo come segue: "t = ut ¡ µut¡1 dove fut g è un processo white noise.062-0. |*.161 ***| . |*** | . | 6 0.541-0.161 ****| .032-0. |**** | .|. | 2 0. |*.*| .158 .083 .|.018 ****| . |*. |**** | .|. |*** | .*| . |*** | 1 0.070 0.144 0. | ******| . | .723-0. | 5 -0. | 2 0. | **| . | 6 -0.001 . | **| .405 0. | 9 -0.|.*| .|. | .162-0.405 .4. | 4 0.087 0.5 di Sample: 1952 2000 Included observations: 49 AC PAC Autocorrelation Partial Correlatio .*| .723 .

093 .7 Correlogramma di MA(1) con theta = Sample: 1952 2000 Included observations: 49 Autocorrelatio Partial Correlat AC PAC ***| .222 -0.*| . | 2 -0. |** | .143 **| .232 .*| . | 7 -0. "t¡1 ) = E("t "t¡1 ) = E((ut ¡ µut¡1 ) (ut¡1 ¡ µut¡2 )) = ¡µ ¾2 u Cov ("t . | ***| . "t¡2 ) = E("t "t¡2 ) = E((ut ¡ µut¡1 ) (ut¡2 ¡ µut¡3 )) = 0 ::: Cov ("t .387 . |*. | 8 0.|. | 5 -0. | . "t¡s ) = E("t "t¡s ) = E((ut ¡ µut¡1 ) (ut¡s ¡ µut¡s¡1 )) = 0 8s ¸ 2 Se i termini di errore del modello di regressione seguono un processo stocastico a media mobile di ordine 1.15 -0.184 capitolo 10 Come nei casi precedentemente illustrati.387 -0.384 . | .268 0 -0. | .014 **| .1890.008 -0. | **| . Nell’esempio seguente u il valore di µ è …ssato pari a 0:7: 4 2 0 -2 -4 -6 -8 -10 55 60 65 70 75 80 85 90 95 00 MA(1) theta = 0.21 .*| . | 6 0.354 .070 -0. | **| . | . la matrice di varianza e covarianza può essere scritta come segue: 0 1 0 ::: 0 1 + µ2 ¡µ B ¡µ C 1 + µ2 ::: 0 ¡µ B C 2B 2 C V ar (") = ¾ u B 0 1 + µ ::: 0 ¡µ C @ ::: ::: ::: ::: ::: A 0 0 0 ::: 1 + µ2 dove i parametri da stimare sono ridotti a due: ¾ 2 e µ.018 . | 4 0.2100. |** | . | 3 -0.269 -0. | **| . | 9 -0. | ***| . |*. è possibile calcolare le covarianze tra "t e gli altri elementi del processo stocastico: Cov ("t .098 -0.*| . | 1 -0. | ***| . | 10 0.217 .

GLS con termini di errore AR(1) De…niamo ora il seguente modello di regressione lineare generalizzato con termini di errore che seguono un processo stocastico di tipo AR(1): y = X¯ + " con "t = ½ "t¡1 + ut e ¾2 = " ¾2 u 1 ¡ ½2 Come visto in precedenza. la matrice di varianza e covarianza è: 1 0 1 ½ ::: ½T ¡1 ¾2 B ½ 1 ::: ½T ¡2 C u B C = ¾2 ­ E(""0 ) = u ::: ::: ::: A 1 ¡ ½2 @ ::: T ¡1 ½T ¡2 ::: 1 ½ ¡ ¢¡1 0 ¡1 bGLS = X0 ­¡1 X X­ y Se il coe¢ciente di (auto)correlazione ½ è noto.autocorrelazione 185 10. allora sia il vettore La matrice ­¡1 ammette la rappresentazione ­¡1 = P0 P con possono essere calcolati invertendo la matrice ­ 0 1 0 ¡½ B ¡½ 1 + ½2 ¡½ B ­¡1 = B 0 1 + ½2 ¡½ B @ ::: ::: ::: 0 0 0 sia la matrice di varianza e covarianza di bGLS ¡ ¢¡1 V ar(bGLS ) = ¾ 2 X0 ­¡1 X u : ::: 0 ::: 0 ::: 0 ::: ::: ::: 1 1 C C C C A 0 p 1 ¡ ½2 0 0 ::: 0 B 1 0 ::: 0 ¡½ B B P =B 0 ¡½ 1 ::: 0 @ ::: ::: ::: ::: ::: 0 0 0 ::: 1 1 C C C C A .3.

denotiamo con xi la B C @ A ::: T ¡ ½ xT ¡1 x 1 x1K x2K C C x3K C C ::: A xT K p 1 ¡ ½2 x1K x2K ¡ ½ x1K x3K ¡ ½ x2K ::: xT K ¡ ½ xT ¡1.K 1 C C C C A riga i-esima di X Le variabili trasformate y¤ e X¤ sono de…nite di¤erenze parziali ( o quasi- .1 xT 2 ¡ ½ xT ¡1.3 ::: 0 p 1 1 ¡ ½2 x1 B x2 ¡ ½ x1 C B C = B x3 ¡ ½ x2 C = X¤ NB.2 xT 3 ¡ ½ xT ¡1. Il vettore della variabile dipendente.186 capitolo 10 Trasformazione delle variabili per la stima GLS. la matrice dei regressori ed il vettore dei termini di errore vengono ora premoltiplicati per la matrice P: 0 p 1 ¡ ½2 0 B 1 ¡½ B Py = B 0 ¡½ B @ ::: ::: 0 0 0 p 1 ¡ ½2 y1 B y2 ¡ ½ y1 B B y3 ¡ ½ y2 = B B ::: B @ yT ¡1 ¡ ½ yT ¡2 yT ¡ ½ yT ¡1 1 0 y1 y2 y3 ::: 1 C C C C C C A 0 0 1 ::: 0 1 ::: 0 ::: 0 ::: 0 ::: ::: ::: 1 B CB CB CB CB AB @ yT ¡1 yT C C C C = y¤ C C A 0 p 10 x11 x12 x13 ::: 1 ¡ ½2 0 0 ::: 0 B C B x21 x22 x23 ::: 1 0 ::: 0 C B ¡½ B PX = B 0 ¡½ 1 ::: 0 C B x31 x32 x33 ::: B CB @ ::: ::: ::: ::: ::: ::: ::: ::: A @ ::: xT 1 xT 2 xT 3 ::: 0 0 0 ::: 1 p p 0 p 1 ¡ ½2 x11 1 ¡ ½2 x12 1 ¡ ½2 x13 ::: B x21 ¡ ½ x11 x22 ¡ ½x12 x23 ¡ ½ x13 ::: B = B x31 ¡ ½ x21 x32 ¡ ½ x22 x33 ¡ ½ x23 ::: B @ ::: ::: ::: ::: xT 1 ¡ ½ xT ¡1.

per i termini di errore: 1 0 0 p 1 "1 2 1¡½ 0 0 ::: 0 B "2 C B C 1 0 ::: 0 C B ¡½ B C B "3 C B C CB P" = B 0 ¡½ 1 ::: 0 C B C @ A B ::: C ::: ::: ::: ::: ::: @ "T ¡1 A 0 0 0 ::: 1 "T p p 0 1 1 0 1 ¡ ½2 "1 1 ¡ ½2 "1 B "2 ¡ ½ "1 C C B u2 B C C B ¤ C = B "3 ¡ ½ "2 C = " ´ B u3 B C C B @ A A @ ::: ::: "T ¡ ½ "T ¡1 uT Ora: 0 2 2 (1 p ¡ ½ )"1 2 p1 ¡ ½ "1 u2 1 ¡ ½2 "1 u3 p ::: 1 ¡ ½2 "1 uT B B ¡ ¤ ¤0 ¢ B E " " = EB B @ 0 Il modello trasformato ¾2 0 0 u B 0 ¾2 0 u B = B 0 0 ¾2 u B @ ::: ::: ::: 0 0 0 ::: ::: ::: ::: ::: p p 1 ¡ ½2 "1 u2 1 ¡ ½2 "1 u3 2 u2 u2 u3 u3 u2 u2 3 ::: ::: uT u2 uT u3 1 0 0 C C 0 C = ¾2 I u C ::: A ¾2 u ::: ::: ::: ::: ::: p 1 ¡ ½2 "1 uT u2 uT u3 uT ::: u2 T 1 C C C C C A y¤ = X¤ ¯ + "¤ presenta quindi errori non autocorrelati.autocorrelazione 187 di¤erenze o pseudo-di¤erenze). . gli stimatori GLS bGLS sono ricavabili da una semplice stima OLS del modello trasformato. In…ne.

188 capitolo 10 10. sostituendo a stima r: 0 1 0 ::: ¡r B ¡r 1 + r2 ::: ¡r B ^ ­¡1 = B 0 1 + r2 ::: ¡r B @ ::: ::: ::: ::: 0 0 0 ::: y¤ = X¤ ¯ + "¤ ½ la corrispondente 1 0 0 C C 0 C C ::: A 1 con OLS al …ne di ottenere il vettore delle stime bF GLS .4. (b) calcolare il coe¢ciente di (auto)correlazione campionario r: r= PT t=2 PT et et¡1 2 t=1 et (d) stimare il modello trasformato ^ (c) calcolare la matrice ­¡1 stimata. FGLS con termini di errore AR(1) Se la matrice ­ non è nota ma si assume che i termini di errore seguano un processo AR(1). per stimare il vettore b è necessario stimare ½. I passi necessari sono i seguenti: (a) stimare il modello originale y = X¯ + " con OLS al …ne di ottenere il vettore dei residui stimati e. dove 1 0 p 1 ¡ r2 y1 C B y2 ¡ r y1 C B C B y3 ¡ r y2 ¤ C ^ y = Py = B C B ::: C B @ yT ¡1 ¡ r yT ¡2 A yT ¡ r yT ¡1 e 0 p 1 ¡ r 2 x1 B x2 ¡ r x1 B ¤ ^ X = P X = B x3 ¡ r x2 B @ ::: xT ¡ r xT ¡1 1 C C C C A .

autocorrelazione 189 10. Test di autocorrelazione di Durbin-Watson (per processi AR(1)). L’intuizione del test è di utilizzare il vettore dei residui stimati e. ottenuto stimando il modello originario con il metodo OLS. mentre se r è pari a 1 (¡1). e2 + e2 1 t=2 et et¡1 ¡ PT T2 ' 2 (1 ¡ r) PT e2 e t=1 t | {z } | t=1 t} {z r '0 PT PT t=1 t=1 e2 t . dato da PT t=2 et et¡1 r = PT 2 t=1 et Sviluppando la formula di DW otteniamo: ¢ PT ¡ 2 PT 2 2 t=2 et ¡ 2 et et¡1 + et¡1 t=2 (et ¡ et¡1 ) DW = = PT PT 2 2 t=1 et t=1 et PT PT PT 2 2 t=2 et ¡ 2 t=2 et et¡1 + t=2 et¡1 = PT 2 t=1 et z }| { z }| { T T X X P e2 ¡ e2 ¡2 T et et¡1 + e2 ¡ e2 t 1 t T t=2 t=1 PT t=2 e2 t PT t=2 e2 t¡1 = = 2¡2 Conseguentemente. La statistica del test è la seguente: PT 2 t=2 (et ¡ et¡1 ) DW = PT 2 t=1 et Per comprenderne il signi…cato è opportuno valutare la relazione fra la statistica DW e il coe¢ciente di correlazione campionario r. cioè in presenza di perfetta (auto)correlazione positiva (negativa). DW è circa pari a 2. per veri…care se gli elementi di e seguono un processo autoregressivo del primo ordine. se r è pari a zero. Qui esaminiamo il classico test di Durbin-Watson (DW).5. DW è circa pari a 0 (4). Test di autocorrelazione Esistono numerosi test statistici costruiti con l’obiettivo di veri…care la presenza di autocorrelazione. cioè in assenza di (auto)correlazione campionaria.

È necessario ricordare che il test DW è appropriato solo quando la matrice X è non stocastica.190 capitolo 10 La statistica DW non ha una distribuzione standard. . negativa) ) ) ) I valori critici dipendono inoltre dal numero di osservazioni (n) e dal numero di regressori (con l’esclusione della costante) presenti nel modello. positiva) zona di “indecisione” H0 accettata zona di “indecisione” H0 è ri…utata (evidenza di autoc. Durbin e Watson hanno comunque derivato dei valori critici inferiori (DWL ) e superiori (DWU ) tali che se DW è esterno a tali valori è possibile ri…utare l’ipotesi nulla di assenza di autocorrelazione del primo ordine ad un livello pre…ssato di signi…catività In dettaglio: se 0 · DW < DWL se DWL · DW · DWU se DWU < DW < 4 ¡ DWU se 4 ¡ DWU · DW · 4 ¡ DWL se 4 ¡ DWL < DW · 4 ) ) H0 è ri…utata (evidenza di autoc.

Il modello stimato è quindi il seguente: yt = ° 0 + ° 1 xt + vt con vt = ½vt¡1 + ut dove il termine ut ha varianza costante e non è autocorrelato (white noise).autocorrelazione 191 10. Autocorrelazione ed errata speci…cazione dinamica. senza elementi dinamici (sono cioè assenti i valori ritardati di un periodo delle due variabili). L’autocorrelazione può invece essere dovuta ad una errata speci…cazione dell’equazione stimata. Viene anche formulata l’ipotesi che gli errori seguano un processo di tipo AR(1). La presenza di autocorrelazione nei residui stimati (e) non sempre è sintomo di autocorrelazione nei termini di errore (") del modello “vero” che ha generato i dati. Consideriamo il seguente modello dinamico per la variabile dipendente yt : yt = ¯ 0 + ¯ 1 xt + ¯ 2 xt¡1 + ¯ 3 yt¡1 + "t con E("t "t¡s ) = ½ ¾2 per s = 0 0 per s 6= 0 ¾ I termini di errore " non sono autocorrelati e hanno varianza costante.6. Il modello stimato può essere riespresso nel modo seguente: da yt¡1 = ° 0 + ° 1 xt¡1 + vt¡1 ½yt¡1 = ½° 0 + ½° 1 xt¡1 + ½vt¡1 ) yt ¡ ½yt¡1 = ° 0 ¡ ½° 0 + ° 1 xt ¡ ½° 1 xt¡1 + vt ¡ ½vt¡1 | {z } ut ottenendo In questa forma il modello stimato ha la stessa struttura dinamica del modello “vero”. con parametro ½. ma con l’imposizione di una restrizione non lineare sui parametri (nota come: common factor restriction): ¯1¯ 3 + ¯2 = 0 yt =° 0 (1 ¡ ½) + ° 1 xt ¡ ½° 1 xt¡1 + ½ yt¡1 + ut |{z} | {z } |{z} | {z } ¯0 ¯1 ¯2 ¯3 . Supponiamo ora che il modello stimato per yt abbia la forma di una semplice relazione fra yt e xt .

16) Il modello dinamico che genera i dati per yt include il valore corrente di x e i valori ritardati di x e y. Le osservazioni di y generate per il campione 1952-2000 sono mostrate nel gra…co: 100 90 80 70 60 50 40 30 20 55 60 65 70 75 80 85 90 95 00 Serie y per ilcampione 1952-2000 . con il termine di errore " non autocorrelato. Altrimenti. 25) yt = 5 + 2 xt ¡ 0:5 xt¡1 + 0:7 yt¡1 + "t "t » N(0.192 capitolo 10 Solo se questa restrizione non è ri…utata dai dati è possibile ipotizzare che il modello appropriato da stimare è rappresentato da una semplice relazione fra yt e xt con un processo AR(1) per l’errore. la presenza di autocorrelazione dei residui stimati da questo modello deve essere interpretata come segno di errata speci…cazione dinamica (dynamic misspeci…cation) del modello stesso (in questo caso dovuta all’omissione di xt¡1 e yt¡1 dall’insieme dei regressori). Esempio: Costruiamo le seguenti variabili per un campione di 50 osservazioni (considerando il periodo 1951-2000 e ipotizzando nullo il valore iniziale di y : y1951 = 0): xt » N(10. Una procedura di stima corretta richiede quindi la stima di un modello generale dinamico e il test delle restrizioni common factor prima di procedere all’analisi dell’autocorrelazione e ad eventuali trasformazioni delle variabili sulla base del parametro ½ ottenuto.

0253 X 1.2691 Log likelihood -131.3254 Prob(F -statistic) 0. come si rileva dal correlogramma …no al decimo ritardo: 100 80 60 12 8 4 0 -4 -8 55 60 65 70 75 80 Y 40 20 85 90 Y stimati 95 00 Residui . Variable Coefficient Std.1245 -2.6827 0.0000 Come ci si aspetta.3393 0.0000 X(-1) -0.0373 18. of regression 3.autocorrelazione 193 Iniziamo dalla stima OLS del modello con dinamica correttamente speci…cata (cioè includendo fra i regressori i valori ritardati di un periodo di x e y).5285 5.2734 2.2787 2.7446 0.6829 Sum squared resid 613.6923 Akaike info criterion 5.9368 Mean dependent var 59. Error C 5.9326 S.7257 0.2185 S.D.0000 R-squared 0.E.3142 0. Risultato: Modello con corretta specificazione dinamica Dependent Variable: Y Method: Least Squares Sample: 1952 2000 Included observations: 49 t-Statistic Prob.4746 Schwarz criterion 222.4473 F-statistic Durbin-Watson stat 2.9322 0. dependent var 14.2826 0. i residui stimati non mostrano segni di autocorrelazione.9438 Adjusted R -squared 0.1089 17.0091 Y(-1) 0.

*| .136 0.*| .0000 X 1.|.8174 0. | 1 -0.5038 0.114 0. | 5 0.3753 Prob(F -statistic) 0. Variable Coefficient Std. | .255 0. | .033 1.059 10. | . | 2 -0.9438 Adjusted R -squared 0.217 -0.6630 **| . | **| .2185 S. | .7656 F-statistic Durbin-Watson stat 0. | 10 -0.265 -0.|.|.036 0.3954 Mean dependent var 59.279 0. | **| .|.E.D.*| .7425 Log likelihood -186. dal momento che omette i valori ritardati di x e y come regressori: yt = ° 0 + ° 1 xt + vt Risultati: Modello con errata specificazione dinamica Dependent Variable: Y Method: Least Squares Sample: 1952 2000 Included observations: 49 t-Statistic Prob.051 0. | 8 0.175 0.132 Stimiamo ora un modello con errata speci…cazione dinamica. of regression 11.7047 7.831 .0000 R-squared 0.3826 S.235 0.|.214 0.216 11.645 0. |*.9632 . | 7 -0.209 -0.993 **| .004 Prob 0.7819 Sum squared resid 5866. | .5219 . | . | .165 1. Error C 43.072 1.194 capitolo 10 Correlogramma dei residui modellocorrettamente specificato del Sample: 1952 2000 Included observations: 49 Autocorrelation Partial Correlation AC PAC Q-Stat .3278 5. | 3 0.262 5.|. | 6 0. dependent var 14.3676 **| .198 8.2916 .5499 .383 0. | 4 -0.0000 .233 0. | .|.5939 Schwarz criterion 30.1723 Akaike info criterion 7.5446 0.0361 3.*| .043 -0.031 6.467 0.211 0.4418 12. |*. |** | 9 0.4254 .165 -0.185 15. |*.034 6.

045 -0.*| .000 .184 0. |***** | 1 0.957 0.|.000 . | .|. | 10 -0.059 33. | 2 0.657 0.055 -0.000 .116 -0. Interpretando i risultati dei test di autocorrelazione dei residui dalla stima del modello statico come evidenza di un processo AR(1) per gli errori. | .000 Stimiamo ora il modello con dinamica omessa e con errori AR(1).*| . |*** | . | 6 -0.*| .|.000 .*| .000 . | .*| .000 .045 -0.144 -0. | 4 0.826 0.080 0. il modello è stimato imponendo una struttura autoregressiva del primo ordine sul termine di errore (stimando il parametro autoregressivo ½): yt = ° 0 + ° 1 xt + vt con vt = ½vt¡1 + ut .|. | .051 32. | . |*.958 0.096 -0. | .169 31.002 31.autocorrelazione 195 Residui e correlogramma: 100 80 60 20 0 -20 -40 -60 55 60 65 70 75 80 Y 40 20 85 90 Y stimati 95 00 Residui Correlogramma dei residui del modello con errata specificazione dinamica Sample: 1952 2000 Included observations: 49 Autocorrelation Partial Correlation AC PAC Q-Stat Prob . | 3 0.804 0. | 8 -0.051 34.018 0.087 32.357 -0.223 0.653 0. |***** | .940 0. |** | .000 . |*.|.121 28.*| .072 31. | 9 -0. | . | 7 -0.000 .081 31.638 0.000 .|.|. | 5 -0.653 22.*| .478 0.

1123 Schwarz criterion 148. Variable Coefficient Std.0000 Anche in questo caso il gra…co dei residui stimati e il correlogramma della serie non mostrano evidenti segni di autocorrelazione nei residui stimati: 100 80 60 12 8 4 0 -4 -8 -12 55 60 65 70 75 80 Y 40 20 0 85 90 Y stimati 95 00 Residui .0000 AR(1) 0.6932 0.5738 Prob(F -statistic) 0.4493 0. Error C 50.8656 Mean dependent var 59.D.E.9438 Adjusted R -squared 0.9237 F-statistic Durbin-Watson stat 1.3245 Akaike info criterion 6.8832 0.8556 17.2418 6.196 capitolo 10 Risultati: Modello con dinamica omessa e errori AR(1) Dependent Variable: Y Method: Least Squares Sample: 1952 2000 Included observations: 49 t-Statistic Prob.0000 R-squared 0.5377 0.1431 Log likelihood -149.0538 12.3576 Sum squared resid 1304.1228 11. of regression 5.0000 X 1. dependent var 14.2185 S.8001 0.8598 S.0804 2.

008 6.210 0.072 6.autocorrelazione 197 Correlogramma dei residui del modello senza dinamica con errori AR Sample: 1952 2000 Included observations: 49 Autocorrelation Partial Correlation AC PAC Q-Stat Prob .|. | .160 6.9013 0.|.100 3.068 . | . | .*| .067 0. | . 45) 0.230 0.071 -0. | . | .2025 0.*| .066 -0.058 0.2884 .|.5819 0. |*. |*.3252 0.*| .*| .070 7.233 . | 7 -0. | 4 -0.3861 0.397 .156 . | .*| . | 2 0.140 0.193 6.*| .008 7.00 Il test (correttamente) segnala che la restrizione implicitamente imposta sul modello dalla stima statica con errori AR(1) non può essere applicabile ai dati utilizzati e favorisce la speci…cazione dinamica del modello (che sappiamo essere quella corretta).|.32 (1.544 Da ultimo.475 .010 7.2808 0. |*.022 0. |** | .6386 0.058 -0. |** | 1 0. | 9 -0.210 2.094 . . | .296 . | 3 0. | 10 -0.045 .067 7.087 -0.3116 0. | 6 0. |*. | 8 0. |*.8354 0.|.*| . |** | . da cui si conclude che tale restrizione deve essere ri…utata: Wald Test: Null hypothesis: Test Statistic F-statistic beta(1)*beta(3)+beta(2)=0 Value df Probability 50. | 5 0. procediamo al test della restrizione (common factor ) implicitamente imposta sul modello dinamico: ¯1¯ 3 + ¯2 = 0 ottenendo il seguente risultato.

yt¡2. notiamo che la relazione lineare fra ¾2 e "2 deriva dalla seguente de…nizione del termine t t¡1 di errore del modello: q "t = ut ®0 + ®1 "2 t¡1 dove ut è un processo white noise con ¾2 = 1. nel caso generale in cui gli errori di p periodi passati in‡uenzano la varianza condizionale in t. ARCH(p). Una speci…ca ipotesi sul tipo di eteroschedasticità presente nei dati è quella detta di autoregressive conditional heteroscedasticity (ARCH). abbiamo la seguente relazione: ¾2 = ®0 + ®1 "2 + ®2 "2 + ::: + ®p "2 t t¡1 t¡2 t¡p che descrive un processo autoregressivo di ordine p. indici dei prezzi. secondo la quale la varianza dell’errore al tempo t dipende dalla grandezza degli errori veri…catisi in uno o più periodi passati. ::: = E("2 j yt¡1 . Lo studio di queste serie ha portato alla formulazione di metodologie in grado di stimare congiuntamente la media e la varianza condizionale delle variabili economiche e …nanziarie. tassi di cambio. 0 < ®1 < 1. ut e "t¡1 sono processi u stocastici indipendenti e ®0 > 0. Considerando il caso più semplice di un processo ARCH(1). ::: ) = ¯ 0 + ¯ 1 yt¡1 h i var(yt j yt¡1 . yt¡2. Eteroschedasticità di tipo ARCH Un tipo particolare di eteroschedasticità riguarda le serie storiche. yt¡2.7. Dato un semplice modello per yt del tipo yt = ¯ 0 + ¯ 1 yt¡1 + "t con j¯ 1 j < 1 la media e la varianza condizionale di yt sono date da: E(yt j yt¡1 .198 capitolo 10 10. ::: ) = ¾ 2 t t dove si ipotizza che la varianza non sia costante nel tempo. per la varianza condizionale di y. Possiamo derivare le proprietà statistiche del processo "t . specialmente quelle …nanziarie quali indici azionari. Formalmente. ::: ) = E (yt ¡ ¯ 0 ¡ ¯ 1 yt¡1 )2 j yt¡1 . iniziando da quelle non condizionali: . yt¡2. caratterizzate dall’alternarsi di periodi di maggiore e minore volatilità.

varianza non condizionale: "µ ¶2 # q £ ¡ ¢¤ 2 2 E("t ) = E ut ®0 + ®1 "t¡1 = E u2 ®0 + ®1 "2 t t¡1 ¡ ¢ 2 = E(u2 ) E ®0 + ®1 "2 t t¡1 = ®0 + ®1 E("t¡1 ) | {z } 1 e poiché E("2 ) = E("2 ) otteniamo t t¡1 E("2 ) = t ®0 1 ¡ ®1 Le proprietà non condizionali del processo di errore "t non sono quindi in‡uenzate dalla particolare struttura ipotizzata: la media e le autocovarianze sono tutte nulle e la varianza è costante nel tempo.autocorrelazione 199 .media non condizionale: ¶ µ q 2 E("t ) = E ut ®0 + ®1 "t¡1 ¶ µq 2 ®0 + ®1 "t¡1 = 0 = E(ut ) E | {z } 0 dove si è utilizzata l’ipotesi di indipendenza fra ut e "t¡1 . più in generale E("t "t¡i ) = 0 8i 6= 0 . ::: µq ¶ 2 ®0 + ®1 "t¡1 = 0 = E(ut ) | {z } 0 .autocovarianze non condizionali: ¶µ ¶¸ ·µ q q 2 2 ut¡1 ®0 + ®1 "t¡2 E("t "t¡1 ) = E ut ®0 + ®1 "t¡1 ¶ µq q 2 u 2 ®0 + ®1 "t¡1 t¡1 ®0 + ®1 "t¡2 = 0 = E(ut ) E | {z } 0 e. "t¡2 . .media condizionale: µ q ¶ 2 E("t j "t¡1 . ::: ) = E ut ®0 + ®1 "t¡1 j "t¡1 . "t¡2 . Veniamo ora alle proprietà condizionali : .

"t¡2 . Un coe¢ciente su yt¡1 più elevato ampli…ca la persistenza nel tempo dell’e¤etto sulla volatilità di y dovuto all’errore ARCH. . "t¡2 . ::: ) = E j "t¡1 . ma sono caratterizzati da diversi parametri che misurano il grado di autocorrelazione della serie: 0:2 e 0:8. "2 . ::: t t¡1 ¡ ¢ 2 = E(u2 ) ®0 + ®1 "2 t t¡1 = ®0 + ®1 "t¡1 | {z } 1 Quindi la varianza condizionale di "t non è costante nel tempo ma dipende dal quadrato dell’errore veri…catosi nel periodo precedente.200 capitolo 10 . Esempio (dati simulati). Su un campione di 100 osservazioni (periodo 1901-2000) sono stati costruiti i seguenti processi stocastici: ut » N(0.varianza condizionale: "µ # ¶2 q ut ®0 + ®1 "2 E("2 j "t¡1 . mentre il processo ipotizzato lega le varianze degli errori (una forma non lineare di dipendenza). Una reat¡1 lizzazione di "2 elevata al tempo t ¡ 1 determina un aumento della varianza dell’errore nel successivo periodo t. 1) q "t = ut 1 + 0:8 "2 t¡1 Inoltre. per valutare gli e¤etti di una struttura ARCH del termine di errore sull’andamento di una variabile y che rappresenta il fenomeno economico che si vuole descrivere. L’autocorrelazione misura la dipendenza lineare fra gli errori in periodi diversi. sono state costruite le seguenti due serie per yt (ipotizzando y1901 = 0): yt = 0:2 yt¡1 + "t . Pur essendo non autocorrelati (infatti E("t "t¡i ) = 0). yt = 0:8 yt¡1 + "t Entrambi sono processi AR(1) con il termine di errore che segue un processo ARCH(1). gli errori " non sono indipendenti.

0.2) 15 10 5 0 -5 -10 -15 10 20 30 40 50 60 70 80 90 00 Y (AR coeff.8) 60 70 80 90 00 15 10 5 0 -5 -10 -15 10 20 30 40 50 E 60 70 80 90 00 .autocorrelazione 201 15 10 5 0 -5 -10 -15 10 20 30 40 50 U 15 10 5 0 -5 -10 -15 10 20 30 40 50 60 70 80 90 00 Y (AR coeff. 0.

2. ° 1 e fra i termini di errore "t e vt . t " Inoltre. (b) individuate il tipo di processo stocastico seguito dai termini di errore del modello stimato vt e derivatene la matrice di varianze e covarianze. ¯ 1 e ° 0 . al …ne di descrivere la relazione fra x e y. (b) Quali sono le conseguenze sulle stime di ± 0 e ± 1 di una variazione nel tempo del parametro ¯ 1 e quale interpretazione economica suggeriscono riguardo alla relazione fra x e y? . si stimi un modello dinamico della forma yt = ± 0 + ±1 xt¡1 + ut Interpretate i parametri del modello stimato e la varianza del termine di errore ut in funzione dei parametri dei modelli “veri” per xt e yt . con parametro 0 < ¯ 1 < 1 : xt = ¯ 1 xt¡1 + vt 2 dove vt è white noise con E(vt ) = ¾2 e E("t vt ) = 0. Esercizi 1.202 capitolo 10 10.8. Le serie storiche a disposizione dell’econometrico ¤ sono invece yt e x¤ . v (a) Supponiamo che. Considerate il seguente modello che descrive la “vera” relazione fra y e x nel tempo: yt = ¯ 0 + ¯ 1 xt + "t con V ar("t ) = ¾ 2 I. La relazione fra due serie storiche xt e yt è descritta dal modello “vero” yt = ® + ¯ 0 xt + "t dove "t è white noise con E("2 ) = ¾2 e non è correlato con xt . de…nite come: t ¤ yt = yt + yt¡1 x¤ = xt + xt¡1 t Nel tentativo di ottenere stime dei parametri ¯ 0 e ¯ 1 . la variabile xt è generata dal seguente processo stocastico autoregressivo AR(1). viene stimato il modello: ¤ yt = ° 0 + ° 1 x¤ + vt t (a) Ricavate la relazione fra i parametri ¯ 0 .

Misure di asimmetria e curtosi . Tale risultato è stato ottenuto assumendo che il vettore dei termini di errore " abbia a sua volta una distribuzione normale multivariata (teorema del limite centrale). Per analizzare la forma della distribuzione dei residui stimati .in particolare il suo grado di asimmetria e di “appiattimento” (curtosi) . cioè il vettore dei residui e. Dal momento che i test utilizzati per procedere all’inferenza statistica (test t e test F ) sono fondati sull’assunzione di normalità del vettore dei termini di errore. Per una generica variabile casuale X con media ¹. tali momenti sono rispettivamente E(X ¡ ¹)3 E(X ¡ ¹)4 . è importante disporre di un test che consenta di veri…care questa ipotesi utilizzando la controparte campionaria del vettore ".vengono utilizzati il terzo ed il quarto momento intorno alla media.Capitolo 11 Violazione dell’assunzione di normalità Dato il modello di regressione lineare y = X¯ + " si è dimostrato che il vettore degli stimatori b ha una distribuzione normale multivariata.

allora si ri…uta l’ipotesi nulla di distribuzione normale.dall’inglese kurtosis): E(X ¡ ¹)3 ¾3 E(X ¡ ¹)4 K = ¾4 S = dove ¾ denota lo scarto quadratico medio della variabile (e ovviamente ¾ 2 denota il suo momento secondo dalla media.dall’inglese skewness . se il valore della statistica JB eccede il valore critico della distribuzione.e K. L’intuizione del test è semplice: se i dati osservati (nel nostro caso i residui stimati) sono generati da una distribuzione normale. cioè la varianza). Per implementare il test è quindi necessario procedere prima al calcolo di S e K e successivamente al calcolo della statistica JB. allora sia S sia K ¡ 3 calcolati sui dati osservati dovrebbero essere prossimi a zero. .204 Per misurare il grado di asimmetria e di curtosi vengono utilizzate le seguenti misure (denotate con S . Nel caso in cui la variabile X sia distribuita normalmente: S = 0 K = 3 Test di normalità Jarque-Bera (JB). Pre…ssato un livello di signi…catività. Il test JB è costruito come segue: ¸ · 2 (K ¡ 3)2 S + JB = n 6 24 Sotto l’ipotesi nulla di normalità la statistica JB ha una distribuzione asintotica Â2 con 2 gradi di libertà.

L’e¤etto di queste variabili esplicative sulla variabile dipendente può essere valutato nel contesto del modello di regressione attraverso l’utilizzo di variabili dummy. scuola media superiore. D1 = 0 se non lo ha. D2 = 0 se non lo è. di scuola media sup. Tipicamente una variabile dummy (D) assume valore 1 se si veri…ca una condizione e 0 altrimenti. D = 0 se nel sud oppure D1 = 1 se un individuo ha un dipl. localizzazione (centro-nord/sud). Esempi: D = 1 se un individuo è maschio.1. D = 0 se è femmina oppure D = 1 se un’impresa è localizzata nel centro-nord. .Capitolo 12 Variabili dummy 12. D2 = 1 se un individuo è laureato. titolo di studio (diploma di scuola media inferiore. De…nizione Alcune variabili esplicative possono aver natura qualitativa: sesso. laurea)..

Variabili dummy additive Si consideri il seguente modello composto da due equazioni. Forma matriciale. dove la prima si riferisce agli individui femmine (F ) e la seconda agli individui maschi (M): yi = ¯ F + ¯ 1 xi + "i 0 yi = ¯ M + ¯ 1 xi + "i 0 Le due equazioni possono essere combinate in una singola equazione valida per tutti gli individui: yi = ¯ F + (¯ M ¡ ¯ F ) Di + ¯ 1 xi + "i 0 0 0 dove Di è una variabile dummy pari a 0 se l’individuo è femmina e 1 se è maschio. Supponendo che yi misuri lo stipendio e xi il numero di anni lavorativi. il coe¢ciente (¯ M ¡ ¯ F ) quanti…ca l’e¤etto del sesso sullo stipendio 0 0 a parità di anni lavorativi. la seconda agli individui che hanno un diploma di scuola media superiore ma non la laurea (S) e la terza agli individui laureati (L): yi = ¯ I + ¯ 1 xi + "i 0 yi = ¯ S + ¯ 1 xi + "i 0 yi = ¯ L + ¯ 1 xi + "i 0 .206 capitolo 12 12. Consideriamo ora il seguente modello composto da tre equazioni. Possiamo esprimere il modello con variabili dummy in forma matriciale come segue: µ ¶ µ ¶ µ F ¶ µ F ¶ µ F ¶ i 0 x " y F M = ¯0 + ¯0 + ¯1 + 0 i yM xM "M µ ¶ µ F ¶ µ F ¶ µ ¶ µ F ¶ i x " 0 y = ¯F + + (¯ M ¡ ¯ F ) + ¯1 ) 0 0 0 yM xM "M i i ) y = ¯ F i + (¯ M ¡ ¯ F ) D + ¯ 1 x + " 0 0 0 µ 0 i ¶ con D = Caso di tre modalità qualitative. dove la prima si riferisce agli individui che non hanno un diploma di scuola media superiore (I).2.

Formalmente. ricavandone la somma del quadrato dei residui (URSS. Test di ipotesi . interpretabili nei termini dei parametri ¯ del modello originario. a parità di anni lavorativi. tale ipotesi può essere espressa nei termini dei parametri ¯ originali come: H0 : ¯ L ¡ ¯ S = ¯ S ¡ ¯ I 0 0 0 0 oppure H0 : ¯ L ¡ ¯ I = 2(¯ S ¡ ¯ I ) 0 0 0 0 H0 : ± 2 = 2± 1 e nei termini dei parametri del modello applicato a tutte le osservazioni Per procedere alla veri…ca di tale ipotesi si stima il modello non ristretto.variabili dummy 207 Le tre equazioni possono essere combinate in una singola equazione valida per tutte le osservazioni: yi = ¯ I + (¯ S ¡ ¯ I ) D1i + (¯ L ¡ ¯ I ) D2i + ¯ 1 xi + "i 0 0 0 0 0 con D1i = ½ 1 per media super. La stima della regressione lineare con due variabili dummy yi = ± 0 + ± 1 D1i + ± 2 D2i + ¯ 1 xi + "i |{z} |{z} |{z} ¯I 0 ¯ S ¡¯ I 0 0 ¯ L ¡¯ I 0 0 fornisce stime per i parametri ±0 . 0 altrimenti D2i = ½ 1 per laurea 0 altrimenti Continuando a supporre che y misuri lo stipendio e x il numero di anni lavorativi. unrestricted residual sum of squares) yi = ± 0 + ± 1 D1i + ± 2 D2i + ¯ 1 xi + "i ) URSS . Ad esempio. supponiamo di voler veri…care l’ipotesi che. il coe¢ciente (¯ S ¡¯ I ) misura l’e¤etto sullo stipendio del diploma 0 0 di scuola media superiore mentre il coe¢ciente (¯ L ¡¯ I ) misura l’e¤etto della 0 0 laurea. ± 1 e ± 2 . la variazione di reddito dovuta al passaggio da un titolo di scuola media inferiore al diploma di scuola media superiore sia uguale alla variazione ottenibile dal passaggio alla laurea dal diploma di scuola media superiore. È possibile a questo punto condurre dei test per sottoporre a veri…ca ipotesi sui coe¢cienti stimati. sempre a parità di anni lavorativi.

n ¡ 4).208 capitolo 12 Imponendo la restrizione ± 2 = 2± 1 . . il modello ristretto viene così formulato: yi = ± 0 + ±1 D1i + 2 ± 1 D2i + ¯ 1 xi + "i yi = ± 0 + ±1 (D1i + 2 D2i ) +¯ 1 xi + "i {z } | D3i ) Si può quindi stimare il seguente modello ristretto e ricavarne la relativa somma del quadrato dei residui (RRSS. restricted residual sum of squares): yi = ± 0 + ± 1 D3i + ¯ 1 xi + "i ) RRSS con la (nuova) variabile dummy D3 = D1 + 2D2 de…nita nel modo seguente: 8 < 0 inferiore a sc. media sup. D3i = 1 scuola media superiore : 2 laurea La veri…ca dell’ipotesi H0 (che comporta una restrizione lineare sui parametri del modello originario) è e¤ettuata mediante la costruzione della seguente statistica F : RRSS ¡ URSS F = U RSS n¡4 distribuita (sotto H0 ) come una F (1.

Ad esempio. ecc. è possibile che queste caratteristiche qualitative in‡uenzino anche la relazione esistente fra numero di anni lavorativi e stipendio. In questo caso: yi = ¯ F + ¯ F xi + "i 0 1 M yi = ¯ 0 + ¯ M xi + "i 1 da cui si deriva. ma che tale di¤erenziale rimane invariato nel corso della vita lavorativa degli individui. Forma matriciale. sia semplicemente additivo.3.variabili dummy 209 12. utilizzando variabili dummy. (¯ M ¡ ¯ F ) > 0 e (¯ M ¡ ¯ F ) = 0 implica che gli uomini 0 0 1 1 ottengono una remunerazione più elevata all’ingresso nel mercato del lavoro. l’equazione generale applicabile a tutti gli individui: yi = ¯ F + (¯ M ¡ ¯ F ) Di + ¯ F xi + (¯ M ¡ ¯ F ) Di xi + "i 0 0 0 1 1 1 I coe¢cienti (¯ M ¡ ¯ F ) e (¯ M ¡ ¯ F ) misurano rispettivamente l’e¤etto 0 0 1 1 del sesso sullo stipendio all’inizio della vita lavorativa (quando cioè x = 0) e l’e¤etto del sesso sullo stipendio per ogni anno aggiuntivo di lavoro. del titolo di studio. Possiamo esprimere il modello con variabili dummy moltiplicative in forma matriciale come segue: µ ¶ µ ¶ µ F ¶ µ ¶ µ F ¶ µ F ¶ i 0 x 0 " y F M F M = ¯0 + ¯0 + ¯1 + + ¯1 0 i xM yM 0 "M µ ¶ µ ¶ µ F ¶ i 0 y F M F = ¯0 + (¯ 0 ¡ ¯ 0 ) + M i y i µ F ¶ ¶ µ F ¶ µ x " 0 F M F + (¯ 1 ¡ ¯ 1 ) + +¯ 1 xM "M xM ¶µ ¶ µ F 0 ¯F x F M F 1 +" ) y = ¯ 0 i + (¯ 0 ¡ ¯ 0 ) D + xM xM ¯M ¡ ¯F 1 1 µ ¶ 0 con D = i . Variabili dummy moltiplicative Fino a questo punto abbiamo assunto che l’e¤etto del sesso. Tuttavia.

le due equazioni possono essere combinate come segue: yi = ¯ pre + (¯ post ¡ ¯ pre ) Di + ¯ pre xi + (¯ post ¡ ¯ pre ) Di xi + "i 0 0 0 1 1 1 Dal modello non ristretto è possibile veri…care l’ipotesi di stabilità nel tempo dei due parametri del modello (l’“intercetta” ¯ 0 e la “pendenza” ¯ 1 ) sottoponendo a test la signi…catività dei coe¢cienti (¯ post ¡¯ pre ) e (¯ post ¡¯ pre ).4.210 capitolo 12 12. con modello ristretto: yi = ¯ pre + (¯ post ¡ ¯ pre ) Di + ¯ 1 xi + "i 0 0 0 (ii) diverse “pendenze” ma uguali “intercette”. con modello ristretto: yi = ¯ 0 + ¯ 1 xi + "i . con modello ristretto: yi = ¯ 0 + ¯ pre xi + (¯ post ¡ ¯ pre ) Di xi + "i 1 1 1 (iii) uguali “pendenze” ed uguali “intercette”. Variabili dummy e test di stabilità dei parametri. Consideriamo il seguente modello non ristretto composto da due equazioni: yi = ¯ pre + ¯ pre xi + "i 0 1 yi = ¯ post + ¯ post xi + "i 0 1 dove la prima equazione si applica alle prime n1 osservazioni (periodo “pre”) e la seconda alle successive n2 osservazioni (periodo “post”). a cui corrisponde un diverso modello ristretto: (i) diverse “intercette” ma uguali “pendenze”. Utilizzando una variabile dummy D che assume valore 0 se l’osservazione si riferisce al periodo “pre” e valore 1 se si riferisce al periodo “post”. Si 0 0 1 1 possono imporre le seguenti restrizioni.

T ) che incorpori le tre relazioni sopra ipotizzate. 2. :::. Il modello che viene stimato è semplicemente yi = ¯ 0 + ¯ 1 di + "i dove di è una variabile dummy costruita come segue: ½ 0 per le femmine di = 1 per i maschi Il numero di individui nel campione è n = nF + nM . :::. Le osservazioni yi si riferiscono al reddito di un campione di individui composto da nM maschi e nF femmine. t1 per t = t1 + 1. I modelli relativi a ciascun sottoperiodo hanno la forma seguente (con l’errore " white noise in tutti i sottoperiodi): yt = ®1 + ¯ 1 xt + "1 t yt = ®2 + ¯ 2 xt + "2 t yt = ®3 + ¯ 3 xt + "3 t per t = 1. (b) Spiegate come si può procedere al test congiunto delle seguenti ipotesi: (i) l’e¤etto di xt su yt è uguale nel primo e nel terzo sottoperiodo. :::. si possano individuare tre sottoperiodi di¤erenti.5. (a) Ricavate gli stimatori OLS dei parametri ¯ 0 e ¯ 1 e interpretatene il signi…cato: (b) impostate il test appropriato per l’ipotesi nulla di uguaglianza fra il reddito medio dei maschi e quello delle femmine. all’interno del periodo in esame. Esercizi 1.variabili dummy 211 12. Ipotizziamo anche che. Supponiamo di essere interessati alla stima della relazione fra due variabili xt e yt nell’arco del periodo t = 1. caratterizzati da speci…ci parametri ® e ¯. :::. (ii) il valore dell’intercetta nel secondo sottoperiodo è pari alla somma dei valori delle intercette nei rimanenti due periodi. T (a) Scrivete un modello unico (valido per t = 1. T . . :::. de…nendo le eventuali variabili dummy costruite e interpretando correttamente tutti i parametri del modello. t2 per t = t2 + 1.

212 .

Capitolo 13 Modelli dinamici 13. :::. T per t = 1. Possiamo distinguere due tipologie di modelli dinamici: (i) modello a ritardi distribuiti (con K …nito): yt = ® + ¯ 0 xt + ¯ 1 xt¡1 + ::: + ¯ K xt¡K + "t (ii) modello autoregressivo: yt = ® + ¯ 0 xt + °yt¡1 + "t per t = 1. :::. Introduzione Un modello di regressione si dice dinamico quando sul lato destro dell’equazione sono inclusi valori ritardati delle variabili indipendenti e/o della variabile dipendente. T . 2. 2.1.

2. Il problema che si può incontrare è la multicollinearità delle variabili. Stima: procedura di Koyck. ¯ è de…nito moltiplicatore di lungo periodo (o moltiplicatore totale). allora ¯ = ¯ 0 + ¯ 1 + ::: + ¯ K misura l’e¤etto sul valore atteso di yt+K di una variazione di x nel periodo t. Supponendo che dal periodo t + 1 in poi x rimanga costante al livello raggiunto nel periodo t. con riferimento al modello dinamico a ritardi distribuiti visto sopra. In particolare. Una procedura che evita il problema (procedura di Koyck ) si basa su una ipotesi sui parametri del vettore da stimare ¯. assumiamo che i parametri ¯ k siano tutti dello stesso segno e declinino geometricamente secondo la relazione ¯ k = ¯ 0 ¸k con 0 < ¸ < 1. :::. T ¯ 0 è de…nito moltiplicatore di breve periodo (o moltiplicatore di impatto) e misura l’e¤etto sul valore atteso di yt di una variazione unitaria di x nello stesso periodo. La “velocità di aggiustamento” di y a variazioni nel valore di x è data da 1 ¡ ¸. con conseguenti problemi di e¢cienza delle stime. si può decidere “a priori” il numero dei ritardi oppure selezionarlo mediante una ricerca sequenziale. per un numero in…nito di ritardi (k ! 1). Il modello a ritardi distribuiti può quindi essere scritto come: yt = ® + ¯ 0 xt + ¯ 0 ¸ xt¡1 + ¯ 0 ¸2 xt¡2 + ::: + "t Ritardando questa espressione di un periodo: yt¡1 = ® + ¯ 0 xt¡1 + ¯ 0 ¸ xt¡2 + ¯ 0 ¸2 xt¡3 + ::: + "t¡1 e moltiplicandola per ¸ otteniamo ¸ yt¡1 = ¸ ® + ¸ ¯ 0 xt¡1 + ¯ 0 ¸2 xt¡2 + ¯ 0 ¸3 xt¡3 + ::: + ¸ "t¡1 Sottraendo otteniamo yt ¡ ¸ yt¡1 = ® (1 ¡ ¸) + ¯ 0 xt + "t ¡ ¸ "t¡1 . 2. Modelli a ritardi distribuiti Dato il seguente modello dinamico a ritardi distribuiti yt = ® + ¯ 0 xt + ¯ 1 xt¡1 + ::: + ¯ K xt¡K + "t per t = 1. Per procedere alla stima del modello dinamico.214 capitolo 13 13.

Tuttavia: (c) assumendo che "t segua un processo stocastico white noise. Se assumiamo che Cov (yt¡1 . il termine di errore vt nel modello autoregressivo segue un processo stocastico a media mobile del primo ordine MA(1).modelli dinamici 215 e in…ne yt = ® (1 ¡ ¸) + ¯ 0 xt + ¸ yt¡1 + vt con vt = "t ¡ ¸ "t¡1 Il moltiplicatore di lungo periodo è uguale a ¯= Si può osservare ora che: (a) data la struttura dei ritardi è stato possibile riscrivere il modello a ritardi distribuiti come un modello autoregressivo. Ciò viola l’assunzione che la matrice X sia una matrice di costanti. 1 X k=0 ¯k = ¯0 1¡¸ . Ne segue che Cov (yt¡1 . "t ¡ ¸"t¡1 ) = ¡¸¾2 6= 0 Si può dimostrare che in questo caso lo stimatore OLS è distorto e inconsistente. vt ) = Cov (yt¡1 . riducendo quindi i problemi di multicollinearità. (b) la variabile yt¡1 è stocastica (è infatti funzione di "t¡1 ). vt ) = 0 è ancora possibile stimare il modello con OLS.

e le aspettative che si erano formate al tempo t¡1. Notiamo che questa semplice relazione non ha alcun elemento dinamico (non sono presenti valori ritardati di y o di x¤ ). secondo la seguente relazione: x¤ ¡ x¤ = ° (xt ¡ x¤ ) t+1 t t Le aspettative formate al tempo t (e quindi relative al periodo futuro t + 1) sono riviste in funzione dello scostamento (detto “errore di previsione”) tra il valore e¤ettivamente realizzatosi della variabile al tempo t. Possiamo riscrivere il meccanismo di formazione delle aspettative come segue: x¤ = ° xt + (1 ¡ °) x¤ t+1 t Sostituendo quest’ultima equazione nel modello originario per y abbiamo: yt = ® + ¯ 0 [° xt + (1 ¡ °) x¤ ] + "t t Ritardando di un periodo il modello originario otteniamo: yt¡1 = ® + ¯ 0 x¤ + "t¡1 t e moltiplicando entrambi i membri dell’ultima equazione per (1 ¡ °): (1 ¡ °) yt¡1 = (1 ¡ °) ® + (1 ¡ °) ¯ 0 x¤ + (1 ¡ °) "t¡1 t In…ne. otteniamo: yt = ° ® + ° ¯ 0 xt + (1 ¡ °) yt¡1 + "t ¡ (1 ¡ °) "t¡1 che può essere riscritto come yt = ° ® + ° ¯ 0 xt + (1 ¡ °) yt¡1 + vt con vt = "t ¡ (1 ¡ °) "t¡1 . Fondamenti economici dei modelli dinamici (I): modello con aspettative adattive Consideriamo il seguente modello economico. Assumiamo che le aspettative si formino in modo adattivo. sottraendo.216 capitolo 13 13. xt . x¤ .3. che descrive la relazione fra una variabile (dipendente) y e le aspettative su una variabile (indipendente) x: yt = ® + ¯ 0 x¤ + "t t+1 dove x¤ rappresenta l’aspettativa (degli agenti economici) formata al temt+1 po t sul valore che la variabile x assumerà al tempo t+1. Il parametro ° > 0 misura t di quanto gli agenti modi…cano le proprie aspettative sulla base degli errori di previsione compiuti.

modelli dinamici 217 Si noti che da un modello economico (statico) con aspettative adattive si ottiene una relazione dinamica fra y e x di forma analoga a quella ottenuta partendo da un modello a ritardi distribuiti e utilizzando la procedura di Koyck. Il parametro 0 < ± · 1 misura la frazione dell’aggiustamento desiderato che viene e¤ettivamente compiuta in ogni periodo t. Questo meccanismo di aggiustamento può essere equivalentemente riscritto nel modo seguente: ¤ yt = ± yt + (1 ¡ ±) yt¡1 ¤ Sostituendo dal modello originario l’espressione per yt in quella per yt si ottiene: yt = ± ® + ± ¯ 0 xt + (1 ¡ ±) yt¡1 + ± "t . Adottiamo la seguente ipotesi (detta di “aggiustamento parziale” o stock adjustment) per legare il valore e¤ettivo (ed osservabile) di y con il suo valore desiderato (non osservabile): y ¡y =± (y ¤ ¡ y ) |t {z t¡1 } | t {z t¡1} aggiustamento aggiustamento e¤ettivo desiderato Tale relazione ipotizza che in ogni periodo t il valore e¤ettivo di y vanga variato (“aggiustamento e¤ettivo”. Nuovamente notiamo che il modello non contiene originariamente alcun elemento dinamico. Fondamenti economici dei modelli dinamici (II): modello con “aggiustamento parziale” Consideriamo ora un modello economico che descrive la relazione fra un valore desiderato (o obiettivo) per la variabile y e il valore assunto da un’altra variabile x: ¤ yt = ® + ¯ 0 xt + "t ¤ dove yt denota il livello desiderato di y per il tempo t (ad esempio. 13.4. membro di destra dell’equazione). Come nel caso precedente erano le aspettative a non essere direttamente osservabili (e quindi a richiedere un’ipotesi sul loro meccanismo di formazione) così in questo caso è il valore desiderato y ¤ a non essere osservabile. membro di sinistra dell’equazione) in modo da colmare (almeno) parte della di¤erenza fra valore desiderato per il ¤ periodo yt e valore e¤ettivo di partenza yt¡1 (“aggiustamento desiderato”. lo stock di capitale desiderato da un’impresa).

218 capitolo 13 Questa equazione ora esprime una relazione dinamica fra x e il valore e¤ettivo (ed osservabile) di y. che produce stimatori consistenti . che qui riportiamo chiamandole per brevità “Koyck”. vt ) = 0. tale assunzione non può valere per i modelli in cui il termine di errore è autocorrelato: in questo caso lo stimatore OLS è distorto e inconsistente.5. il termine di errore (non autocorrelato nel modello originario) presenta autocorrelazione di tipo MA(1). Si pone quindi il seguente problema per la stima del modello: ² inclusione di yt¡1 (elemento stocastico) fra i regressori in presenza di ² autocorrelazione nel termine di errore Dal momento che yt¡1 è funzione di vt¡1 l’assunzione che la matrice dei regressori X sia non stocastica è violata. lo stimatore OLS continua ad essere consistente purchè sia possibile assumere Cov(yt¡1 . Modelli dinamici: cenno ai problemi di stima Nelle sezioni precedenti sono state introdotte alcune semplici tipologie di modelli dinamici.) (Agg. con l’unica di¤erenza che in questo caso il termine di errore non è autocorrelato. “aspettative adattive” e “aggiustamento parziale”: yt = ® (1 ¡ ¸) + ¯ 0 xt + ¸ yt¡1 + ("t ¡ ¸ "t¡1 ) yt = °® + °¯ 0 xt + (1 ¡ °)yt¡1 + ("t ¡ (1 ¡ °)"t¡1 ) yt = ± ® + ± ¯ 0 xt + (1 ¡ ±) yt¡1 + ± "t (Koyck) (Adatt. 13. inoltre. Anche in presenza di matrice X (anche solo parzialmente) stocastica. parz. Tuttavia. In questo caso si può utilizzare per la stima il metodo delle “variabili strumentali” (instrumental variables. Si osservi come l’equazione abbia la stessa struttura ottenuta dal modello dinamico a ritardi distribuiti dopo l’applicazione della procedura di Koyck.) Tutti i modelli visti hanno una comune forma dinamica autoregressiva del tipo generale: yt = ·0 + ·1 xt + ·2 yt¡1 + vt Nei primi due casi. IV).

Supponiamo di aver individuato nel valore ritardato di x. Tale matrice (di cui si assume rango pieno.modelli dinamici 219 dei parametri. cioè xt¡1 . ricavando il vettore degli stimatori IV. In particolare consideriamo ¢ ¡ X = i x y¡1 e vt = "t ¡ ¸ "t¡1 Z = (i x x¡1 ) Possiamo ora procedere alla trasformazione del modello di partenza premoltiplicando entrambi i lati dell’equazione per la matrice Z0 : Z0 y = Z0 X ¯ + Z0 v ) yz = Xz ¯ + vz Sul modello trasformato si procede poi alla stima mediante OLS. Z) che raccoglie i regressori del modello originario non correlati con il termine di errore vt (cioè la costante e xt ) e. tale variabile “strumentale” per cui valgono: Cov(xt¡1 . che godono della proprietà della consistenza: ¡ ¢¡1 0 Xz yz bIV = X0 Xz z ¡ 0 ¢¡1 0 0 = X ZZ X X Z Z0 y ¡ ¢¡1 ¡ 0 ¢¡1 0 X Z = Z0 X X Z Z0 y ¢¡1 0 ¡ Z y = Z0 X . e (ii ) deve essere correlata con la variabile yt¡1 . A titolo di esempio. L’idea è di utilizzare altre variabili (dette appunto “strumentali”) per trasformare il modello originario in modo da rimuovere la correlazione fra regressori e termine di errore e poter procedere alla stima mediante OLS. il regressore xt non è correlato con il termine di errore vt mentre il regressore yt¡1 presenta tale correlazione e necessita di una variabile “strumentale”. al posto di yt¡1 . la variabile strumentale xt¡1 . pari nel nostro esempio a 3) risulta quindi costruita come T £3 con i termini di errore nel vettore v autocorrelati (del primo ordine). yt¡1 ) 6= 0 Costruiamo la seguente matrice (detta “matrice di varibili strumentali”. Tale variabile deve possedere due proprietà: (i) non deve essere correlata con il termine di errore vt . vt ) = 0 e Cov(xt¡1 . consideriamo il seguente modello di regressione y = X ¯+v T £3 Per ipotesi.

nella formulazione del modello autoregressivo proposta nell’introduzione). Se l’ipotesi nulla di assenza di autocorrelazione del primo ordine è vera.6.05. Se l’ipotesi nulla è vera Prob (¡1. . la statistica D tende a distribuirsi asintoticamente come una normale standardizzata. se la variabile dipendente ritardata è inclusa fra i regressori. Nel caso di presenza di yt¡1 fra i regressori. ad esempio 0. che nell’esempio risultano essere 1. 96) = 0. 96 l’ipotesi nulla è ri…utata e c’è evidenza di autocorrelazione positiva. Durbin ha proposto la seguente statistica: s T D=r 1 ¡ T V ar (g) dove T è il numero delle osservazioni nel campione. la statistica DW risulta distorta verso il valore 2 e quindi tende ad accettare troppo spesso l’ipotesi nulla di assenza di autocorrelazione. 95 e se D cade in questo intervallo l’ipotesi di assenza di autocorrelazione non può venire ri…utata dal test. confrontare il valore di D con i corrispondenti valori critici della distribuzione normale standardizzata. 96.220 13. 96 · D · 1. (c) pre…ssato un livello di signi…catività. r è il coe¢ciente di correlazione campionario dei residui ricavati dalla stima mediante OLS dell’equazione. 96 l’ipotesi nulla è ri…utata e c’è evidenza di autocorrelazione negativa. e g è lo stimatore OLS del parametro associato alla variabile dipendente ritardata (°. Test di autocorrelazione in modelli autoregressivi (del primo ordine) Il test Durbin-Watson non può essere applicato per veri…care la presenza di autocorrelazione del primo ordine quando la matrice dei regressori X è stocastica. In particolare. mentre se D < ¡1. 96 e ¡1. Invece. Per e¤ettuare il test di Durbin è quindi necessario: (a) stimare il modello originale con OLS. V ar(g) e la statistica D. (b) calcolare r. se D > 1.

Â2 . . t ed F .Capitolo 14 Tavole Le pagine seguenti contengono tavole con i valori critici di alcune distribuzioni ampiamente utilizzate in econometria per la costruzione di intervalli di con…denza e per il test delle ipotesi (si veda il capitolo 2 per le distribuzioni normale. il capitolo 10 per la distribuzione Durbin-Watson).

96) = 0. 475 P r (Z > 1.222 capitolo 14 14. Distribuzione normale standardizzata Esempio P r (0 · Z · 1. 475 = 0. 96) = 0. 025 .1. 5 ¡ 0.

Distribuzione Â2 Esempio (per 20 gradi di libertµ) : a ¡ ¢ P r ¡Â2 > 10. 95 P r ¡Â2 > 23. 25 P r Â2 > 31.2. 41 = 0. 05 . 83¢ = 0.tavole 223 14. 85¢ = 0.

224 capitolo 14 14. 725) = 0.3. 10 . 086) = 0. Distribuzione t Esempio (per 20 gradi di libertµ) : a P r (t > 2. 025 P r (t > 1. 725) = 0. 05 P r (jtj > 1.

05 P r (F > 5.tavole 225 14. 10 P r (F > 3. Distribuzione F Esempio (N1 = 10 e N2 = 9) P r (F > 2.4. 01 . 42) = 0. 26) = 0. 14) = 0.

226 capitolo 14 .

tavole 227 14. Distribuzione Durbin-Watson Valori critici inferiori e superiori per ® = 5% .5.

228 Valori critici inferiori e superiori per ® = 1% .