LEZIONI DI ANALISI ECONOMETRICA

Indice Lista degli esempi applicativi 1 2 Introduzione Il modello lineare 2.1 2.2 Analisi economica ed analisi econometrica Primi obiettivi dell Econometria I modelli e il lungo periodo Modelli statici e dinamici Il sentiero di equilibrio di lungo periodo La tendenza di lungo periodo come modello semilogaritimico Approssimazione del saggio di crescita Primi caratteri delle serie storiche: tendenza, stagionalità e ciclo 2.3 2.4 2.5 2.6 2.7 2.8 La stima dei minimi quadrati (OLS) della tendenza lineare I residui Il breve e il lungo periodo Le stime dei minimi quadrati (OLS) nel modello lineare semplice L interpretazione statistica La scomposizione della devianza e il coefficiente di determinazione Il coefficiente di determinazione non centrato Cautela nell uso del coefficiente di determinazione Eliminazione della tendenza lineare con una differenza prima 2.9 Stima di una funzione del consumo Coefficiente di determinazione e scelta del modello Omogeneità dei dati Non linearità rispetto alle variabili 2.10 Propensione media ed elasticità

1

L elasticità 2.11 Altri esempi La legge di Okun Relazione tra tasso di cambio nominale e prezzi relativi Appendice 2.1 Serie storiche, dati sezionali e longitudinali Dati longitudinali Appendice 2.2 Complementi analitici Differenza prima logaritmica Le condizioni sufficienti per la stima dei minimi quadrati Nullità del termine misto nella scomposizione della devianza totale Appendice 2.3 Appendice 2.4 3 L ambiente stocastico 3.1 I residui come enti aleatori: le ipotesi deboli 3.2 Definizioni e risultati nell approccio stocastico Stime e stimatori dei minimi quadrati Il teorema di Gauss-Markov 3.3 La correlazione tra le variabili e tra gli stimatori dei parametri La correlazione tra gli stimatori dei parametri 3.4 Le ipotesi forti sui residui Intervalli di confidenza Stima intervallare Verifiche (o test) di ipotesi Residui normali Indipendenza in probabilità 3.5 Inferenza statistica per i parametri del modello lineare semplice Verifica di ipotesi 3.6 Inferenza statistica per la varianza dei residui Stima intervallare per s 2 Verifica di ipotesi lineari semplici per s 2 3.7 Inferenza statistica per i parametri del modello lineare semplice con s 2 ignoto Errori standard delle stime Verifica di ipotesi 3.8 Tre esempi Retta interpolante il logaritmo dei consumi

2

Funzione del consumo Relazione tra tasso di cambio nominale e prezzi relativi Appendice 3.1 Complementi analitici La varianza di una somma di variabili aleatorie La struttura di varianza additiva Gli stimatori dei minimi quadrati Le varianze degli stimatori dei minimi quadrati La covarianza tra gli stimatori dei minimi quadrati Campo di variazione del coefficiente di correlazione Indipendenza stocastica del numeratore e del denominatore nelle t di Student Appendice 3.2 Distribuzioni di probabilità rilevanti Distribuzione normale Distribuzione del chi quadrato Distribuzione della t di Student Distribuzione della F di Fisher 4 La proiezione 4.1 Proiezione e proiettore nei modelli lineari 4.2 La proiezione con il criterio dei minimi quadrati L errore di proiezione Proiezioni ex post ed ex ante L errore quadratico medio di proiezione 4.3 Intervalli di confidenza per le proiezioni 4.4 Tre esempi Retta interpolante il logaritmo dei consumi Funzione del consumo Relazione tra tasso di cambio nominale e prezzi relativi 4.5 Indicatori dell accuratezza delle proiezioni Appendice 4.1 Complementi analitici La varianza dell errore di proiezione 5 La malaspecificazione 5.1 Aspetti variegati della malaspecificazione 5.2 Eteroschedasticità dei residui La stima dei minimi quadrati ponderati (WLS) 5.3 Test di omoschedasticità covarianza invariante rispetto ad una costante

3

6 Test di autocorrelazione dei residui Il test di Durbin e Watson Tre esempi 5.3 I minimi quadrati nel modello lineare multiplo 6. n2 > k Il test della F di Fisher Il caso n1 > k .2 Il modello lineare multiplo 6.1 Complementi analitici Uguaglianza tra coefficiente di autoregressione del primo ordine e r 6 Il modello lineare multiplo 6.4 La correzione per l eteroschedasticità di White 5.7 Il coefficiente di determinazione corretto 4 . n2 £ k 5.5 Fonti e conseguenze dell autocorrelazione 5.8 Test di cambiamento strutturale per il modello semplice (Test del Chow) Il caso n1 > k .5 Operazioni tra matrici La matrice inversa Il determinante 6.Il test di Breusch e Pagan Il test del chi quadrato La formulazione di Koenker 5.7 Il trattamento dell autocorrelazione di ordine uno j determinato dalla statistica di Durbin e Watson Il metodo di Cochrane e Orcutt 5.9 Il test di normalità di Jarque Bera Appendice 5.4 Vettori e matrici Vettori Operazioni tra vettori Matrici 6.1 I vettori e la moltiplicazione righe per colonne 6.6 Le stime dei minimi quadrati Le stime dei residui 6.

Funzione del consumo (rispetto al reddito corrente) in Italia 6.2) Tendenza lineare dei consumi privati nominali in Italia 4.2 L inversa di una matrice Il determinante di una matrice quadrata L aggiunta di una matrice quadrata Il modello lineare semplice in termini matriciali Lista degli esempi applicativi 1. (Esempio 2. (Esempio 2.1) Elasticità del consumo privato rispetto al reddito e al reddito disponibile in Italia 7.Appendice 6.1) Tendenza lineare del logaritmo dei consumi privati nominali in Italia 2.1 Complementi analitici Condizioni per la minimizzazione della devianza residuale Ortogonalità dei residui stimati rispetto alle variabili esplicative Appendice 6. Relazione tra tasso di cambio nominale (valuta italiana/$) e prezzi relativi 5 . (Esempio 2. (Esempio 2. (Esempio 2.3) PIL e propensione media al consumo (ipotesi del Duesenberry) 5.1) Tendenza esponenziale dei consumi privati nominali in Italia 3. Legge di Okun per gli USA e per l Italia 8.

La Traccia . nel senso di dover essere basata su temi più circoscritti. man mano che il testo procede. o l analisi spettrale. la didattica ha dovuto essere cambiata. La didattica. fotocopiabile. dunque. dispense disponibili sia sulla rete che in forma cartacea. Così è nata l esigenza di fornire agli studenti del corso semestrale di base di Econometria un testo che assemblasse gli elementi introduttivi della Traccia . queste Lezioni sono viceversa più omogenee e finalizzate a rendere semplice e appetibile l apprendimento di una materia che di per sé è complessa. Prima: le nozioni che vengono esposte inizialmente lo sono in termini più elementari e distesi. e relegando in appendice la materia analiticamente più avanzata. Questo affinché lo studente sia facilitato nell impatto iniziale dello studio di una materia non semplice. curandone in particolare gli aspetti interpretativi e quelli empirici. da quella macro all aziendale. assuefatto al metodo e agli strumenti. può apprendere ulteriori nozioni in modo più diretto. Anno dopo anno questo testo si è ingrandito. dalle ricerche di mercato alla finanza. Queste Lezioni costituiscono tale testo. Seconda: generalmente. nei libri di testo di carattere analitico l esposizione di un argomento è accompagnata da un ampia e il più possibile esaustiva sequela 6 . quelli autoregressivi vettoriali. Passando dal vecchio al nuovo ordinamento.CAPITOLO I INTRODUZIONE Per oltre cinque lustri i miei studenti del corso quadriennale di Econometria nella Facoltà di Economia de La Sapienza si sono preparati essenzialmente sulla Traccia . raccoglie temi di Econometria esposti in forma a volte tendenzialmente metodologica e altre volte più orientata alle applicazioni. comprendendo anche temi non trattati nel corso ma dichiaratamente utili agli studenti più avanzati. direttamente operativi. lineari e non. come i modelli di serie storiche. fino a raggiungere un migliaio di pagine. l esposizione è fatta in forma più compatta e immediata. con tre caratteristiche che mi preme rimarcare. fruibili da studenti interessati a settori variegati dell Economia. tuttora disponibile in rete. ne costituisce uno degli aspetti dominanti.

di Algebra delle matrici. in inglese e anche in italiano. inadatta forse a probabilisti. spesso in specifici Box. E così. e questa potrebbe essere considerata come una quarta caratteristica didattica.di specificazioni. l interpretazione. viceversa. in queste Lezioni si segue. il dominio di applicabilità. di Econometria metodologica. comprende parti rilevanti anche della Teoria delle probabilità. si pongono un obiettivo molto più limitato: insegnare l Econometria. in forma non sempre completa ma immediatamente comprensibile. Esistono molti buoni testi. Si rinunzia alla completezza scientifica a favore dell efficacia didattica: prima di imparare le specificazioni. ma come l intese il suo fondatore. corollari. i complementi. l Econometria applicata. di applicazioni. 7 . con l idea di non considerare l Econometria come somma di pezzi di discipline distinte. i corollari di un argomento. Ragnar Frisch. oggi l Econometria è ritenuta una raccolta di metodi. complementi. alcuni sono di tipo enciclopedico. scritti da italiani. Esistono altri ottimi testi. altri ancora privilegianti l aspetto probabilistico o il rigore matematico. Terza: l Econometria è una branca dell Economia spiccatamente interdisciplinare. In queste Lezioni. altri monografici. al contrario. operativamente poi. che spesso sono sintetizzate in capitoli o in appendici specifici. generalmente in inglese. Curiosamente. di Inferenza statistica. al contrario. lo studente deve averne ben chiari la motivazione. nozioni probabilistiche. diventa un altra cosa. le nozioni (quelle strettamente necessarie) di queste branche sono disseminate nel testo là dove servono. ma come integrazione naturale di concetti che soltanto per convenzione o convenienza sono attribuiti a settori disciplinari diversi. dell Analisi matematica (ottimizzazione e algebra matriciale) e della Statistica economica. sia esso un concetto o un criterio o un teorema. il criterio di esporre i concetti accompagnati soltanto dalle caratterizzazioni che servono al momento. Queste Lezioni. una settantina d anni fa. Non i suoi metodi. dell Inferenza statistica. statistici e matematici ma appositamente elaborata per chi deve occuparsi di Scienze umane. sono anche aggiunte.

8 . A lei va il mio più cordiale ringraziamento.Nello scrivere queste Lezioni sono stato estesamente aiutato dalla dott.ssa Agnieszka Niewinska.

CAPITOLO II IL MODELLO LINEARE 9 .

si riesce così più facilmente a metterne in risalto le caratteristiche specifiche e ad evidenziarne le potenzialità. e la caratterizzò mediante le proposizioni seguenti: la funzione (2. la funzione del consumo.1. l intercetta m è positiva e la propensione marginale al consumo b è positiva e inferiore all unità m >0 . Osservazione 2. In altre parole.M.3 consumo è Sempre matematicamente.1) indica che la funzione può essere considerata valida per periodi di tempo relativamente lunghi. - 0 < b <1 (2.1 Analisi economica e analisi econometrica Per illustrare con chiarezza il significato e gli obiettivi dell Econometria è opportuno partire da alcuni contenuti dell analisi economica ed effettuarne poi un estensione in termini di elaborazione econometrica.1) dove c ed y sono variabili mentre m e b sono parametri. Un analisi economica di grande rilevanza fu fatta da J.2. ovviamente.2) la propensione b è inferiore alla propensione media c y . in media.1. Questo.1. che cresce se b > 0 e decresce se b < 0 .2 Matematicamente parlando. Keynes (1936) quando formulò la relazione tra il consumo c e il reddito y rappresentabile nella forma c =m+b y (2.1).1). perché da un tempo all altro. Osservazione 2. la propensione marginale al b= d f (y) dy 10 .1. ci possono essere leggere discrepanze tra il membro a sinistra e quello a destra. m rappresenta l intercetta di c con l asse y = 0 . ad esempio per alcuni decenni. Osservazione 2. m è il termine noto e b è il coefficiente angolare della retta (2. che possiamo scrivere nella forma generale c = f ( y ) . e b la pendenza della retta. è stabile nel tempo. ad esempio da un anno all altro.1 La stabilità della (2.1.

2) il Keynes si basò essenzialmente su considerazioni teoriche ed il funzionamento reale del sistema economico fu da lui esaminato. molto semplici. La relazione (2.2 (2.1. oppure nell altra ct = m + b 0 yt + b1 yt -1 + b 2 yt .mentre la propensione media è data dal rapporto c y . y e v allo stesso tempo.1. Osservazione 2.1. Sono statiche. in quanto legano le variabili c. ma si può presumere.1.1. Le relazioni matematiche (2.k 11 .4) in quanto un esame anche semplificato del comportamento dei consumatori può condurre a ritenere che essi basino le decisioni di spesa sulla quantità di reddito che hanno effettivamente a disposizione una volta che siano detratte le imposte.3) c = m + b ( y .1. che il consumo c al tempo t sia piuttosto funzione del reddito goduto nei periodi precedenti come nella relazione seguente ct = m + b yt -1 m > 0 .6) può essere ulteriormente generalizzata fino a considerare infiniti ritardi del reddito ct = m + b 0 yt + b1 yt -1 + K + b k yt .1) è lineare rispetto sia ai parametri che alle Per ipotizzare le relazioni (2. a questo proposito.1) e (2.1.4 variabili.1.v) (2.1.v dove v è l imposta complessiva sul reddito (2. o di un gruppo di persone o di una popolazione. soltanto in maniera descrittiva. sempre congetturando in termini di teoria economica. Sempre nell ambito dell analisi economica è possibile supporre che la funzione del consumo offra una descrizione migliore della realtà economica se y viene sostituito dal reddito disponibile che definiamo nella semplice forma yd = y .1.6) dove la variabile y sussiste sia al tempo corrente che a quello ritardato di una e due unità. rappresentativi del modo di consumare di una famiglia.5) dove le variabili sono associate ad un indice (o pedice) temporale e ct è funzione lineare del reddito ritardato di un unità temporale.4) sono modelli. La forma (2. 0 < b <1 (2.1)-(2.

matematicamente. In realtà la giustificazione della (2. 12 . diventa (2. è difficile da giustificare in termini teorici (perché k e non k +1 o k -1?).10) moltiplicata per r si ottiene (2.8) che sono fortemente vincolanti dal punto di vista economico.1. Questo dissidio può essere in parte ricomposto se si generalizza la (2.1. di parametri b j presenti ed ottenere una relazione molto parsimoniosa.j sulla ct per ritardi j molto grandi.r ) m + b yt cioè.1. in quanto è difficile poter supporre che esistano influenze significative dalle yt .7) con infiniti parametri b j possa essere trasformato in un altro contenente soltanto m .12) che mostra come lo schema (2.r ct -1 = (1 . (2. Questa ulteriore estensione ha quindi un aspetto di arbitrarietà (il numero di ritardi k) che risulta difficilmente conciliabile con le esigenze di generalità dell analisi teorica. 0 < r <1 (2.1.1.10) ct . ponendo (1 . nella facilità con cui lo schema a ritardi distribuiti può essere trasformato. con fattori di proporzionalità b j decrescenti all aumentare della lontananza del tempo.. che. se si fanno le ipotesi b j = b ×r j .1. sostituendo nella (2. dovuto al fatto che il numero di ritardi k. infinito. in effetti.9) ct -1 = m + b yt -1 + br yt -2 + br 2 yt -3 + .1..1. ritardata di un unità temporale.11) ct = m '+ r ct -1 + b yt (2. in modo da ridurre il numero. b e r .1. Infatti.7) si ottiene ct = m + b yt + br yt -1 + br 2 yt -2 + . = m + å b j yt . una parte rilevante di tale motivazione consiste. infine.7) nel quale la motivazione economica consiste nel ritenere che il consumo sia funzione di tutta la storia passata inerente il reddito.1.9) la (2..2 + . ottenendosi lo schema a ritardi distribuiti infiniti ct = m + b0 yt + b1 yt -1 + b 2 yt .ma sorge in tal caso un dissidio fra gli aspetti teorici e quelli empirici dell analisi.1. pur essendo relativamente semplice da determinare in termini empirici.1.7) non è unicamente economica.. Sottraendo. dalla (2.r ) m = m ¢ ...j j=0 ¥ (2.6) fino a considerare infiniti ritardi temporali.

5). che utilizzi convenientemente i metodi della Statistica1. tra quelle esposte. sotto le ipotesi (2.12) sono equivalenti. ancora. sebbene il secondo sia ben più parsimonioso del primo. tuttavia. quindi. che presentano il reddito ed il consumo associati ad indici temporali diversi. a questo punto. in virtù dei ritrovati empirici. determinare quale sia la relazione migliore.12). che quindi sono soggette ad essere nuovamente dettagliate ed analizzate con la metodologia statistica.1. per non dire impossibile. idea. ribadiamo che non è affatto detto che le (2. r dei tre modelli e per valutarli secondo un criterio di ottimo prestabilito. L analisi descrittiva di questi può esser effettuata all interno di una speculazione economica ma non è condizione sufficiente a farla denominare econometrica. b .Dunque. a distinguere l econometria dalle altre forme di studio dei fenomeni economici. p. secondo la quale la disamina econometrica è soltanto strumentale rispetto a quella economica. in particolare. è difficile. come ad esempio l asserito da Spanos (1986. 1 Non ha ragion d essere. Per effettuare una scelta razionale.1. (2. in termini di adeguatezza alla rappresentazione del funzionamento reale del sistema economico.7) e (2.8) siano aderenti alla realtà. oppure.3).1.1. data una formulazione teorica di partenza. Durante le indagini empiriche accade sovente che si abbiano dei suggerimenti o delle indicazioni sul come modificare le ipotesi economiche di partenza.8) i due modelli (2. Questi sono adoperati per stimare (determinare i valori sfruttando dei dati campionari) i parametri m .1. La conseguenza di queste argomentazioni è che si sviluppa un analisi econometrica composta da fasi di speculazione economica teorica e da fasi di indagine empirica non separabili bensì fortemente integrate tra di loro. all analisi econometrica. è necessario esaminare la realtà empirica non più soltanto in forma meramente descrittiva. Dal punto di vista economico. Primi obiettivi dell Econometria All interno della teoria. la speculazione teorica non è idonea a definire compiutamente la dinamica economica e quindi a discriminare tra le funzioni (2. avviene frequentemente che l uso del procedimento econometrico per convalidarla o per confrontarla con altre ipotesi non tanto conduca ad una sua conferma o negazione ma piuttosto possa suggerire.1. ma con un indagine più avanzata. purtroppo molto diffusa. in tal guisa. modificazioni o ampliamenti di carattere teorico che naturalmente soltanto il ricercatore con adeguata preparazione economica può sfruttare integralmente. Dall analisi economica si passa.1. m¢ . allora.2 Dunque non è sufficiente l uso dei dati osservati. 2 13 .6) e (2.

1.2. cioè associate allo stesso tempo t . cosicché sia ct = (1 + g ) ct -1 sostituendo.12) diventa (2.4) tra le variabili c ed y costituiscono.6) (2. può essere visto come la relazione di equilibrio di lungo periodo tra il consumo ed il reddito nel caso in cui il modello di breve periodo sia quello dinamico (2.2) che è analoga al modello statico (2.7) e (2.1. ad esempio. e le disuguaglianze (2.1. quest ultimo.1. i modelli dinamici hanno una rilevanza ben più grande degli statici. I modelli (2.1.r (2.12) e si suppone che il consumo cresca al saggio costante di g per unità di tempo.4) sono detti statici poiché vi intervengono solo variabili correnti. ma occorre tener presente che questi ultimi possono sovente essere considerati come rappresentativi dei sentieri di equilibrio di lungo periodo dei modelli dinamici.5) (2.2 I modelli e il lungo periodo Modelli statici e dinamici Le relazioni (2. la (2.1.1) e (2.1. Frisch [1935-36] e J. dunque.1.2.2) cui sono soggetti loro parametri m e b ne costituiscono parte integrante. Questi modelli sono rappresentazioni formali ed idealizzate delle caratteristiche osservate di regolarità e di stabilità dei fenomeni economici sotto studio e vengono specificati in base al processo interattivo di speculazione teorica ed indagine empirica descritto nel paragrafo precedente.12) sono detti dinamici in quanto contengono variabili sia correnti che ritardate di una o più unità temporali. 3 14 . Tali caratteristiche sono anche chiamate fatti stilizzati (si veda più avanti la figura 2.1. dei modelli rappresentativi3 di ipotesi economiche.12) e il comportamento di lungo periodo del consumo sia definito dalla (2.1). come si è detto.1.2.1.1.1) ct = m ¢ (1 + g ) (1 + g ) +b yt 1+ g . i modelli (2. Se.1.r 1+ g .1).2. Il concetto moderno di modello può essere fatto risalire i lavori di R. Tinbergen [1939]. Il sentiero di equilibrio di lungo periodo Poiché i fenomeni economici evolvono nel tempo. si considera la relazione dinamica (2.1) ed (2.1).

t = 3.2. si ottiene c1 = (1 + g )c0 c2 = (1 + g )c1 = (1 + g )2 c0 .6) ln ct = ln c0 + t × ln(1 + g ) cioè ln ct = m + b × t (2..2. c2 . ad esempio in ogni anno se misuriamo il tempo in anni. più concisamente. Se g > 0 ( g < 0 ).2. log indica il logaritmo in base 10.1) t = 1. La tendenza di lungo periodo come modello semilogaritmico Soffermiamoci nuovamente sulla (2.1) in un certo intervallo di tempo. corrispondente al valore che ct assume all origine dei tempi (t = 0). sostituendo iterativamente. poi t = 2. Se prendiamo il logaritmo4 dei due membri otteniamo (2. La funzione (2. e quindi. La c0 è detta rappresentare una condizione iniziale. . indicati con ln .ct -1 = g × ct -1 o ancora..1) che rappresenta un modo molto frequente di evolvere nel tempo del consumo ct . se vale la (2.La (2. Inserendo nella (2.2. Dunque.5) può essere convenientemente scritta in un altro modo. al di fuori della serie storica {ct } = {c1 .2.1) può essere scritta nella forma ct .ct -1 .2. ct = (1 + g )t c0 (2..5) dove c0 è una costante.. come spesso si ha in economia. cn } costituita dalle osservazioni disponibili. .2.2. nell altra (2. il sentiero di evoluzione di lungo periodo per il reddito è di crescita (di decrescita). 4 15 .4) opera su ct trasformandola nella differenza ct . il consumo aumenta (se g > 0 ) o diminuisce (se g < 0 ) di una porzione di ct -1 in ogni unità temporale.. La porzione di ct -1 è data appunto dal saggio g ..3) Dct = g × ct -1 dove l operatore (2...2.2.7) In econometria si usano soltanto i logaritmi (naturali) in base e.

1000 D ln xt 0.2.000 0.2. la sua tendenza di lungo periodo. cioè.0900 0.8) La forma (2. a seconda del tipo di funzione che la rappresenta.0500 0.0583 0.0400 0.0769 0.06.1.77%. L approssimazione di con la (2. segue che g = exp( b ) .0487 0.10) è dimostrata analiticamente nell appendice 2. per valori superiori a 0.0296 0.0600 0. che può essere anche esponenziale.se chiamiamo le costanti ln c0 = m e ln(1 + g ) = b .0392 0.xt -1 ) xt -1 (2. cioè.3 (esponenziale).2. ne denota.2. detto semilogaritmico perché esprime una variabile logaritmizzata (la ct ) in funzione di una non trasformata (il tempo t ).0300 0. La differenza prima & logaritmica di xt è talvolta indicata con la xt sormontata da un punto: xt .1 Approssimazione del saggio di crescita con la differenza prima logaritmica.2. quadratica.01000 0.0700 0. La tendenza.69% e così via.0800 0. . Il modello (2. Primi cara tteri delle serie storiche: tendenza.1 (2.0862 0.ln xt -1 dove il simbolo (2. come si può vedere dalla tavola 2. cubica.7) esprime dunque come ln ct evolve in funzione del tempo.0198 0.2 (lineare) e 2. 16 . g = (xt . forma una prima conformazione stilizzata delle serie storiche economiche.2.06 lo è meno. ne costituisce.10) denota appunto una differenza prima. la tendenza lineare.5) e costituisce un esempio di forma non lineare nelle variabili.9) può essere convenientemente approssimato da una differenza prima logaritmica D ln xt = ln xt .1: 7% è approssimato con 6.00995 0. ed è ad esempio visibile nelle figure 2. Questa è molto buona per valori piccoli di . Il saggio di crescita g tra il tempo t 1 e il t è facilmente ottenuto: infatti.0200 0. diciamo tra 0 e 0.0953 Tavola 2. se ln(1 + g ) = b . Approssimazione del saggio di crescita Il saggio di crescita nell unità di tempo di una variabile x t .7). 8% con 7. 0.0677 0.7) rappresenta il modo di evolvere lineare della serie storica {ln ct } . stagionalità e ciclo La (2.2. corrisponde esattamente al (2.2.000 0.

Quest altro fatto stilizzato costituisce l asimmetria del ciclo economico. Nella figura 3.8 mette ben in rilievo il ciclo nel periodo 1970 2002. 5 In inglese: recovery.1 si nota chiaramente il profilo stagionale che si ripete ogni anno (prescindendo dalle ampiezze delle oscillazioni che aumentano costantemente all aumentare del tempo) nella serie trimestrale. Si può notare che in tutti e tre i casi la recessione sia avvenuta repentinamente (1 3 anni).Una seconda conformazione stilizzata molto importante è costituita. e degli altri 1991 1993 (dovuta alla politica monetaria della Germania a seguito della riunificazione). fenomeno che viene indicato con il nome di ciclo economico. 17 . La serie storica del PIL italiano depurata della tendenza lineare nella figura 2. mentre le fasi di ripresa 5 più espansione si siano svolte molto più lentamente (in 5 7 anni). nelle serie storiche economiche determinate con una cadenza infraannuale. La terza conformazione stilizzata che per il momento viene considerata nelle serie storiche economiche è costituita dall alternarsi di fasi di espansione dell attività con fasi di recessione. con le recessioni (aree in grigio) negli anni 1975 e 1981 1983 (dovute alle crisi petrolifere). nei tempi così come nelle dimensioni. ad esempio mensile o trimestrale. anno dopo anno: le cosiddette stagionalità. dal fatto che esistono andamenti infraannuali che si ripetono similmente.

Ovviamente.3.1). Questo è facilmente illustrabile se i parametri da stimare appartengono ad un equazione lineare non solo nei parametri ma anche nelle variabili.2. A seconda del criterio che vincola queste distanze ut si ottiene una retta (2. Questa. .3) 18 . come nella figura 2. 2. t = 1. 2..7) ponendo ln ct = zt .3. a titolo di esempio. essi costituiscono una nuvola di punti attraverso la quale passa la retta (2.3.2) può essere molto piccola pur in presenza di distanze ut molto grandi in valore assoluto.3.1) I dati zt possono essere disegnati in un diagramma cartesiano che ha i tempi sull asse delle ascisse.. che quindi rimangono ad una distanza (misurata lungo l asse delle ordinate) generalmente nonnulla ut dalla retta stessa. n (2. non può toccare tutti i punti (che nella figura 2.3 La stima dei minimi quadrati (OLS) della tendenza lineare Affrontiamo ora il problema di stimare (determinare i valori de) i parametri m e b della (2.2.. La minimizzazione della (2.. t = 1. Si potrebbe pensare al criterio di minimizzare la somma delle ut prese in valore assoluto m in å u t t =1 4 (2. n. e la somma (2. Ad esempio.3.1. .7) a partire da un campione di dati costituita dalla serie storica (2. si ottiene il modello lineare semplice zt = m + b t valido nei tempi da 1 fino al generico n. naturalmente. 3.2) ma questo non è buono perché le ut sotto la retta (negative) si possono compensare con le ut sopra la retta (positive).3.1 sono. quattro).3.2) costituisce quindi un criterio che ha poco senso.6) e utilizzando il criterio di stima dei minimi quadrati. si può pensare di usare il criterio di minimizzare la somma delle ut min å ut t =1 4 (2.2... si tenta di determinare quella retta per la quale le distanze ut siano globalmente le più piccole secondo un dato criterio. contenente cioè valori differenti per i parametri m e b .2. Linearizziamo pertanto la (2.1) diversa.

GLS) che vedremo in seguito. quindi reali. OLS) per distinguerli da altri meno semplici. È il criterio dei minimi quadrati e determina una retta i cui parametri sono detti stime dei minimi quadrati (OLS) 6.3 di questo capitolo 8 In base 1995. NLLS) oppure i generalizzati. Estraiamo dal CD dell OECD (Statistical Compendium.1 retta 2 3 4 t Nuvola di punti zt distanti (lungo l asse delle ordinate) ut da una generica zt = m + b t .1 la serie storica { ct } dei consumi privati reali totali8 dell Italia ITACPV. Moltiplicando la serie per il deflatore dei consumi privati ITAPCP otteniamo la serie dei consumi privati in termini nominali.4) che è matematicamente trattabile in forma semplice e non presenta il difetto della compensazione descritto sopra. 7 Alcuni cenni sull uso di questa base di dati sono esposti nell Appendice 2. (in inglese Generalized Least Squares.evitando quindi il difetto di cui sopra. espressi in milioni di euro. ad esempio i non lineari (in inglese Non Linear Least Squares. 6 19 . Allora si usa il criterio di minimizzare i quadrati delle ut min å u t2 t =1 4 (2. ne prendiamo il logaritmo e Questi minimi quadrati sono detti ordinari (in inglese Ordinary Least Squares.3) non è facilmente eseguibile in matematica.3. Questo criterio potrebbe essere valido se non accadesse che la minimizzazione (2. Versione 2004 -1)7 Esempio 2. zt z4 u4 zt = m + b t z2 u2 z3 z1 u1 u3 1 Figura 2.3.

5) ct = exp {13.J. scritta da H.5).7).2 Serie storica dei logaritmi dei consumi privati totali nominali in Italia interpolati con la retta (2. 9 20 . che è l esponenziale) è 1.138 cioè il 13.5) curva disegnata nella figura 2.3. Nella figura 2. anni 1960-1980. il suo antilogaritmo (cioè il valore della funzione inversa del logaritmo.3.8% (il saggio sembra alto. per la (2. Cenni sul suo uso sono esposti nell Appendice 2.1 = 0.129 t} (2. che utilizzeremo in tutto il testo.8). Esistono molti ottimi programmi di econometria nel mercato ma si è scelto EasyReg perché è gratuito e facilmente scaricabile da Internet.2. che ora non è più una retta ma l esponenziale che deriva dalla (2. se stimiamo9 i parametri del modello (più semplicemente si dice: stimiamo il modello) con gli OLS otteniamo ln ct = 13.ne costruiamo il modello (2.Bierens.3.23.138 e quindi il saggio di crescita annuale è.129 t (2.2) e la curva interpolante.138 .6) La stima è calcolata con il software EasyReg versione 1.4. g = 1. ln(c t ) 17 ln(consumi) Lineare (ln(consumi)) 16 15 14 t 13 1960 1965 1970 1975 1980 Figura 2.2.3.129 .248 + 0.3 sono esposti i punti ct (quindi gli antilogaritmi dei punti della figura 2. ma si ricordi che i consumi sono nominali).2 insieme ai punti che definiscono la serie storica {ln ct } .248 + 0. Poiché la stima b = 0.

per cui la loro somma è uguale a 0. dati in miliardi di euro.3.134 approssimativamente pari proprio a 0.3. facendo la differenza tra la (2. anni 1960-1980.049 e quello del deflatore relativo è pari a 0.8).3.7) ed ancora.138 (il saggio di crescita dei consumi privati totali nominali). si ottiene (2.6). Infatti c t = c t × pt da cui logaritmizzando ln ct = ln ct + ln pt (2.8) D ln ct = D ln ct + D ln pt che dimostra.5 Poiché la variabile consumo nominale ct è pari al prodotto per il prezzo del consumo reale c t pt il suo saggio di crescita è approssimativamente uguale alla somma dei saggi di crescita di c t e pt .085.3 Serie storica dei consumi privati totali nominali in Italia interpolati con l esponenziale (2.2.3. l affermazione precedente.3. Osservazione 2. ritardando di un unità temporale ln ct -1 = ln ct -1 + ln pt -1 per cui. considerando la (2. (cons nom) 5500 500 1960 t 1965 1970 1975 1980 Figura 2.7) e la (2. Si lascia al lettore trovare che il saggio di crescita dei consumi privati totali reali in Italia nel periodo 1960 1980 è pari a 0.10).cons nom ct 10500 Espo. 21 .

è molto maggiore: 42103686. Esempio 2. anni 1960-1980. Osservazione 2. ct 10000 cons nom Lineare (cons nom) 6000 2000 t 1960 -2000 1965 1970 1975 1980 Figura 2.L approssimazione (e la non perfetta uguaglianza) deriva dal fatto che le tre quantità.2 E istruttivo costruire il modello (2. invece che 11671187 (caso dell interpolante (2.3.4 sono esposti i risultati: i dati sono gli stessi della figura 2.1).6)). dati in miliardi di euro. Nella figura 2.3 ma la curva interpolante è una retta e non più un esponenziale. Ovviamente questo risultato è del tutto generale: il saggio di crescita del prodotto di più fattori è approssimativamente pari alla somma dei loro saggi di crescita. consumo reale e deflatore. Un numero troppo grande rende farraginosa la scrittura ed è foriero di errori di 22 . il numero delle osservazioni disponibili.3. sono ciascuna una media (calcolata separatamente dalle altre) nel periodo campionario. che è åu t =1 21 2 t essendo n = 21. consumo nominale.4 Serie storica dei consumi privati totali nominali in Italia interpolati con la funzione lineare.6 Conviene sempre prestare attenzione al numero di cifre significative (diverse dallo zero) che manteniamo nei calcoli. e ponendo quindi direttamente zt = ct nella (2.1) senza logaritmizzare preventivamente i consumi ct .3. Il modello è stato stimato con i minimi quadrati ma la somma dei quadrati delle distanze ut .

3.24834 e 0. sono molto sensibili ai decimali ed è quindi consigliabile calcolarli con almeno cinque cifre decimali. Si ricordi.5) 13. poi. già tre cifre significative danno un approssimazione inferiore al centesimo.5) fornisce. 23 . I logaritmi. Una stima precisa della (2. ad esempio ln ct = 13.013 o anche 0. un numero troppo piccolo può condurre ad approssimazioni imprecise. Dal punto di vista statistico della significatività dei dati è difficile che possano servire più di quattro cifre significative (ad esempio 5013 oppure 5. Da quello economico.129479 a 0. di approssimare alla cifra superiore o inferiore a seconda dei casi (nel caso della (2.248342 + 0.imputazione dei dati (ad esempio nei computer).3.248342 è approssimato a 13.12948).5013) perché già con esse si ottiene un approssimazione inferiore al millesimo. più che sufficiente per ogni tipo di analisi. tuttavia. ad ogni modo.129479 t che può essere convenientemente considerata migliore.

4.4) (cioè con il criterio dei minimi quadrati).. derivanti dall aver voluto approssimare i punti della nuvola con quelli della retta.1) Anche i residui sono allora determinati e li indichiamo con ut per cui diventano ut = zt . 2..4.3.... l adeguatezza dell interpolazione.. possono essere considerate come stime delle ut e quindi residui stimati. Dalla (2. detti teorici. n (2.4. n (2.5. 2. chiamiamo allora meglio le distanze ut residui. sono anche individuate le stime m e b dei parametri della retta (2. anche ut non lo è. Nelle figure 2..7 sono esposti i residui (stimati) delle tre interpolazioni ln ct = m + b t + ut (2. che scriviamo nella forma zt = m + b t t = 1... per cui possiamo scrivere ut = zt ..4 I residui Le distanze ut tra i dati osservati zt e quelli con la stessa ascissa sulla retta nella figura 2. secondo questa impostazione) diversi..m . se negativo) al valore teorico ( m + b t ) per aversi il dato osservato zt ... Se queste ancora non lo sono.m . ma della nostra volontà (perché ciò ci fa comodo) di ridurre la nuvola dei punti ad una retta.2..zt = zt . n (2.6 e 2..4.5) 24 . ad esempio minimizzando la somma dei quadrati dei residui (2.4. il più frequente dei quali è errori. sono chiamate in vario modo.2) si trae che ut è determinato una volta che siano determinate m e b .1). 2. E in genere molto utile rappresentare graficamente i residui. In realtà di sbaglio non si tratta. 2.3) zt = m + b t + ut t = 1. 2. Le ut . determinate numericamente come differenze tra i valori osservati zt e quelli teorici zt .b t oppure t = 1.1.4. n (2.2) distanze tra i valori osservati e quelli teorici dati dalla retta (2. Se la realtà è definita..4.b t t = 1. intendendosi per errore il fatto di aver sostituito ai dati osservati altri valori da essi generalmente (ed erroneamente.3.1). al fine di verificare più in dettaglio. sia pure visivo.4) volendosi intendere il residuo ut come quel termine da aggiungere (o sottrarre.

3 0 1960 -0.5) dei consumi 1980.6) (2.2. dati espressi in miliardi di euro.3 e 2.5 Serie storica dei residui stimati {ut } relativi al modello (2. privati totali nominali in Italia. residui ut 0. 2.3 -0.6 Serie storica dei residui stimati {ut } relativi al modello (2.7) ct = m + b t + ut che ora scriviamo con i residui esplicitati.6 1965 1970 1975 1980 t Figura 2. anni 1960 ut 5000 2500 0 1960 -2500 -5000 1965 1970 1975 t 1980 Figura 2.6) dei consumi 1980. rispettivamente. rappresentate nelle figure 2.4.6 0. anni 1960 25 .ct = exp {m + b t } + ut (2. privati totali nominali in Italia.4.4.4.4.

. privati totali nominali in Italia.7) dei consumi 1980.m .4. anni 1960 Box 1 Dati osservati { z1 z2 ...ut 4000 2000 0 1960 -2000 -4000 residui t 1965 1970 1975 1980 Figura 2.7 Serie storica dei residui stimati {ut } relativi al modello (2.b t 26 . zn Residui stimati { } ut = zt . dati espressi in miliardi di euro.zt = zt . zn } I residui Retta generica interpolante (tendenza lineare) i dati osservati zt = m + b t Retta interpolante stimata (con un certo criterio) zt = m + b t da cui i dati teorici z1 z2 ..

2) analogamente a quanto ipotizzato nella (2. nel breve periodo tale rapporto oscillava. ma dalla sua posizione.3) con rapporto ct / y t costante. Nel breve periodo.1) dove y 0 è il reddito massimo goduto dall individuo nel passato. dal suo reddito relativo.5.1. .2. y 0 = max ( y s . b < 0 . secondo la quale la percentuale di reddito consumato da ogni individuo non dipendeva direttamente dal suo reddito assoluto.1). yt y m > 0 .5 Il breve e il lungo periodo La differenziazione tra il breve e il lungo periodo assume importanza basilare non soltanto quando si tratta la teoria economica ma anche quando si costruisce un modello econometrico. Analiticamente questa ipotesi può essere scritta.1) per il consumo. piuttosto che essere del tipo (2.5. mentre in quelle di espansione è yt > y 0 ed il rapporto consumo su reddito diminuisce. nel lungo periodo si può ritenere che il reddito cresca ad u n saggio costante g > 0 per unità di tempo yt = (1 + g ) yt -1 (2. prescindendo da una eventuale tendenza. aumentando nelle fasi di recessione e diminuendo in quelle di espansione. Si ebbe un esempio di questo concetto quando fu osservato che negli anni compresi tra le due guerre mondiali negli USA la relazione tra il consumo e il reddito. nella forma ct yt =m+b 0 . 27 . Duesenberry [1949] spiegò con la ipotesi del reddito relativo.5. in altre parole. per cui è y 0 = y t -1 .1) diviene ct = m + b (1 + g ) yt (2. e la (2. in termini di percentili (si veda il Box 2).S.2. nella sua distribuzione. si ha che durante le fasi di recessione è yt < y 0 e quindi ct / y t aumenta. fatto questo che J.5. s < t ) (2. Inoltre fu notato che per ogni dato individuo tale rapporto diminuiva all aumentare del reddito. risultava tale che: nel lungo periodo la propensione media al consumo c y era costante. d altro canto.

3 Verifichiamo l ipotesi del Duesenberry per l Italia negli anni 1970 2002 con l aiuto della figura 2. Il concetto di percentile può essere esteso a quello di quartile.Box 2 I quantili Per chiarire il significato di percentile (di una distribuzione. non lo è per il 1993. I percentili. in cui la divisione è in dieci. in cui il reddito è diviso in quattro parti. Alla serie del reddito è stata sottratta una tendenza esponenziale. Negli anni di recessione 1991 1992. che non necessariamente riguarda i redditi) sono genericamente chiamati quantili. 1993 l ipotesi è ancora convalidata per il 1991 e il 28 . In questa sono raffigurate la serie { yt } del reddito totale italiano (scala a sinistra) che permette di individuare gli anni di recessione (aree in grigio) e la serie {ct yt } della propensione media al consumo (scala a destra). e gli altri valori ottenuti dividendo in classi uguali i dati di una distribuzione (qualsiasi. suddivisi in classi. mentre al rapporto ct yt è stata sottratta una tendenza lineare.8. I periodi di recessione segnati in grigio sono conseguenze dei due shock petroliferi degli anni settanta (1974 e 1979) e mostrano una chiara tendenza al rialzo della propensione media al consumo. come previsto dall ipotesi del Duesenberry. Il secondo decile (corrispondente al 20° percentile) della distribuzione dei redditi può essere preso come indicatore della povertà (o della ricchezza) economica in una popolazione: più è basso (alto) più poveri (ricchi) vi sono. Esempio 2. Ovviamente n può variare da 1 a 99. i quartili. Il percentile n-esimo di questa distribuzione indica il reddito ottenuto da quell individuo al di sotto del quale si situa l n per cento degli individui. Il dispiegarsi di questo numero in funzione delle classi costituisce la distribuzione dei redditi di questi individui. uguale al 2° quartile e al 5° decile. Il 50° percentile. corrisponde alla mediana della distribuzione. e in quello di decile. che nel caso specifico riguarda i redditi) si pensi di ordinare in senso crescente i redditi. I quartili sono tre e i decili nove.1. determinata come nell esempio 2. e di associare a ciascuna classe il numero degli individui che lo ottengono. i decili.

8 Andamento del PIL (scala a sinistra) e della propensione media al consumo (scala a destra) in Italia negli anni 1970 2002. 29 .Figura 2. ambedue le serie sono state depurate della tendenza con funzioni lineari. come previsto dall ipotesi del Duesenberry. Le aree tratteggiate indicano i periodi di recessione degli anni settanta innescati dalle crisi petrolifere. in questi periodi la propensione media aumenta.

1) ponendo al posto di z t una generica variabile endogena yt e al posto di t una generica esplicativa xt . 2. in quanto determinata esogenamente (all esterno) al modello.b xt ) m . Talvolta la x t è anche detta variabile esogena. La somma dei quadrati nella (2.yt Il criterio di stima dei minimi quadrati consiste nel trovare i valori di m e di b che rendono minima la somma dei quadrati dei residui (2.4) che scriviamo in una forma più generale yt = m + b xt + ut t = 1..m .6. Ovviamente è anche (2.b t =1 n n 2 (2. n (2.m . Se ne contenesse di più sarebbe multiplo.. che è determinata endogenamente (all interno) al modello.b x )( . Il modello lineare (2.3) è una funzione di m e b che indichiamo con S( m .3): occorre che siano uguali a zero le derivate parziali prime di S rispetto sia ad m che a b n ì ¶S = 2å ( yt .m .6.2.1) è detto semplice perché contiene una sola variabile esplicativa oltre l intercetta.6. cosa che nel caso di n dati si scrive min å ut2 = min å ( yt .4.6.4).6.6 Le stime dei minimi quadrati (OLS) nel modello lineare semplice Vediamo ora come si ottengono le stime dei minimi quadrati nel modello lineare (2.. caso che esamineremo in seguito.6. Questi due aggettivi derivano dal fatto che nel modello (2.3) intendendosi con questa scrittura che la minimizzazione avviene al variare di a e di b .b xt )( -1) = 0 ï ¶m ï t =1 í n ï ¶S = 2 ( y .2) y = m + b xt e u t = yt ..x ) = 0 å t t t ï ¶b t =1 î cioè che sia 30 .b t =1 m .3. b ) e la matematica ci fornisce le condizioni necessarie (ma non sufficienti) per ottenere il minimo (2.6.1) la xt spiega la y t .

2. quella di m m = y -b x (2. dividendo per n.yx mxx . tramite la (2.6.6). I due valori m e b costituiscono il punto di ottimo ( m b ) nella minimizzazione (2. m xx = n å xt2 . y = m+b x e dalla seconda.6.6. (2.7) e.5) dalla prima delle (2.m . 2.yt = yt .6)..6) å xt yt = (y .x 2 ( ) dalle quali si ottiene la stima dei minimi quadrati (ordinari) di b b= mxy .6.1).b x )å xt + b å xt2 n n n t =1 t =1 t =1 cioè m xy = yx + b m xx .6. n t =1 y= 1 n 1 n å yt .3) sono esposte nell Appendice 2.3) e ad essi. corrispondono i valori ut = yt .6.6. sostituendo il valore di m dato dalla (2.6.6.4) che vengono chiamate equazioni normali.x 2 m xx ¹ x 2 (2. n t =1 t =1 m xy = 1 n å xt yt n t =1 (2.4) si ricava.6.. n (2.6. Se si pone x= 1 n å xt . t = 1.8) Le condizioni sufficienti affinché m e b costituiscano il minimo (2. sostituendo nella (2..6.b xt dei residui stimati.n ì n yt = n × m + b å xt ïå ï t =1 t =1 í n n n ï x y = m x + b x2 å t åt ïå t t î t =1 t =1 t =1 (2.9) 31 ..

b xt =å ut = 0 ïå ï t =1 t =1 í n n ï å yt .10) La prima di queste mostra che la somma dei residui stimati è nulla.9 Utilizzeremo nel seguito il risultato che consegue dalla catena di uguaglianze n 1 n 1 n 1æ ö å yt = n å m + b xt = n ç nm + b å xt ÷ = m + b x n t =1 t =1 è t =1 ø ( ) che per l osservazione 2.7 Dalla (2. Quindi si ha 1 n 1 n yt = y = å yt å n t =1 n t =1 (2.6) segue che la retta yt = m + b xt passa sempre nel punto ( y.11) 32 .7 è pari a y . Osservazione 2. la seconda denota una proprietà dei residui stimati: la loro ortogonalità nei confronti della variabile esplicativa.m . Osservazione 2.b xt xt =å ut xt = 0 ï t =1 î t =1 ( ( ) ) (2.6. x ) quali che siano i valori di m e b che soddisfano alle equazioni normali (2.8 Si noti che in corrispondenza del punto di ottimo le equazioni normali possono essere scritte come segue n ì n yt .6.Si tenga ben in mente che m e b possono essere determinate soltanto se m xx ¹ x 2 come risulta dalla (2.7).m .6.4).6. Osservazione 2.6.

Gauss e A. la (2. possiamo dare anche un interpretazione statistica. allora. b ) è la devianza (dei residui o residuale). tuttavia. i valori x e y sono le medie ed yt . la somma dei quadrati storiche åu t =1 n 2 t = S ( m.6. solamente i nomi. In questo modo la (2.6. Ad esso. che riguarda. I valori m e b sono ancora delle stime. 33 . le serie { xt } e { yt } costituiscono il campione di dati. che fu sviluppato indipendentemente da K.1) viene detto di regressione. Il modello (2.11) dell osservazione precedente può essere letta nel senso: la media aritmetica della variabile osservata yt è uguale a quella della variabile teorica yt . quindi. F. Volendo utilizzare questa interpretazione. Legen dre tra la fine del diciottesimo e gli inizi del diciannovesimo secolo.2. mxx è il momento secondo di xt ed mxy il aritmetiche delle due variabili xt momento secondo misto. ma in senso statistico.7) indica che la stima b è data dal rapporto (covarianza tra x e y ) / (varianza di x ). M.7 L interpretazione statistica Il criterio dei minimi quadrati illustrato nei paragrafi precedenti. D ora in poi utilizzeremo normalmente questa nomenclatura. utilizza concetti puramente matematici (deterministici e non probabilistici).6.

2) per la devianza totale otteniamo 1 = (Dev. stimata. che il modello contenga l intercetta (che. å(y t t .y t + yt . di regress. La risposta è positiva e passiamo alla determinazione di uno di tali indicatori.8.1) = å ( y t .4). residuale = Residual Sum of Squares (RSS). residuale = 1Dev. Per definirlo supponiamo. residuale Se dividiamo i due membri della (2. totale Dev.8.y ) 2 = å ( yt .y )2 = å(y t t .y t ) 2 + å ( y t . chiamato coefficiente di determinazione.y ) 2 = t =1 t =1 n n (2.5) e si è tolta e aggiunta la stessa quantità yt . totale Dev.y t )( y t . Dev. ovviamente senza perdere in generalità. totale) per mezzo della quale definiamo il coefficiente di determinazione R2 = Dev. totale (2. di regressione Dev.8. di regressione = Explained Sum of Squares (ESS).y ) t =1 t =1 t =1 n n n dove y = 1 n å yt come nelle (2. Il termine n t =1 misto è nullo. può anche valere zero) e scomponiamo la devianza (la somma dei quadrati degli scarti dalla media) delle yt nel seguente modo å ( y t .6. Dev.2) Dev. di regressione)/(Dev.2 per cui vale la scomposizione della devianza (totale) TSS di yt nella devianza di regressione ESS ed in quella residuale 10 RSS.3 che la serie del consumo {ct } può essere interpolata sia con un esponenziale (figura 2.2.8.6.yt ) 2 (2. dando luogo a stime delle devianze dei residui fortemente diverse.y ) 2 + 2å ( y t . 10 34 . totale = Total Sum of Squares (TSS). Dev.3) In lingua inglese: Dev.y )2 + å(y t t . residuale)/(Dev. come dimostrato nell appendice 2. 11671187 nel primo caso e 42103686 nel secondo. totale) + (Dev.8 La scomposizione della devianza e il coefficiente di determinazione Si è visto nel paragrafo 2. Ci domandiamo allora se sia possibile costruire un indicatore basato sulle devianze che permetta di misurare il grado di adattamento (o di accostamento) di un modello al campione di dati.3) sia con una retta (figura 2. il più importante.11) la media sia delle yt che delle y t . essendo y per la (2.

11 In inglese: goodness of fit.8. il primo è direttamente utilizzabile per valutare la bontà di adattamento11 del modello ai dati. appunto. che significa. nel caso opposto la parte sistematica del modello non spiega niente e la variabilità totale coincide con quella residua. non centrato.6) ma mentre il secondo è utile nell effettuare particolari diagnosi sul modello. 35 .4) å ( yt .2 y å yt = å yt2 . come vedremo in seguito. la devianza residua è nulla ed R2 = 1.pari al quadrato del coefficiente di correlazione multipla tra yt e l insieme delle variabili esplicative. per cui R2 = 0. Quando tutta la variabilità della yt (cioè l insieme di tutte le sue deviazioni dalla media) è spiegata da quella di regressione (cioè dall insieme di tutte le deviazioni della variabile teorica yt dalla media) si ha che l andamento del modello è perfetto.8.8.3) diviene R2 = 1 - åu t =1 2 t n 2 t (2.8.8.y )2 = å yt2 + å y .8. In generale dunque.6) åy dove il pedice u indica l aggettivo inglese uncentered. Generalmente i programmi di calcolo econometrico forniscono ambedue i coefficienti (2.1) può essere scritta nella forma (2.ny 2 ed è detto centrato. si ha 0 £ R2 £ 1 Il coefficiente di determinazione non centrato La devianza totale (2.ny 2 t =1 t =1 t =1 t =1 t =1 n n n n n per cui il coefficiente di determinazione (2.5) e (2.8. Se si elimina ny 2 si ottiene il coefficiente di determinazione non centrato Ru 2 = 1 - åu t =1 n 2 t 2 t (2.5) åy . cioè per scegliere le variabili da tenere in considerazione.

Questo problema assume una particolare rilevanza anche quando ln yt e l esplicativa xt contengono ambedue una tendenza: può accadere che un eventuale R 2 alto sia la conseguenza di questa e non di una effettiva relazione economica tra le due variabili.6. Una semplice verifica di questo fatto può essere realizzata stimando la (2.6) (2.4 nella tavola 2. Cautela nell uso del coefficiente di determinazione L interpretazione dell R 2 (o dell Ru2 ) richiede una particolare attenzione. di fatto che sia yt = m + ut che sta ad indicare come yt sia sostanzialmente pari ad una costante e che la variabile xt (il tempo o una qualsiasi altra variabile esplicativa) sia del tutto ininfluente.6.4.1) può accadere che un valore molto alto (prossimo ad 1) di R 2 sia dovuto ad m e che invece sia poco significativo. Ritardando. Ma anche nel caso del modello semplice (2.5).968 0. un eventuale tendenza lineare.7) R2 0. In questo modo il modello lineare semplice (2.1) di una unità temporale si ottiene 36 .5) (2. la (2.6.4. infatti.1) non fornisce alcuna informazione utile all analisi economica pur essendo R 2 alto.751 ln ct = a + b t + ut ct = exp {a + b t } + ut ct = a + b t + ut Tavola 2.2.2 Coefficiente di determinazione non centrato per i tre modelli della tendenza nella serie dei consumi privati totali nominali in Italia. come mostreremo tra poco.Esempio 2.6.4.931 0. I coefficienti di determinazione non centrati per i tre modelli della tendenza nella serie storica dei consumi privati totali nominali in Italia sono esposti Tra di essi il più grande è il primo e quindi si può asserire che il modello con migliore bontà di adattamento sia il (2. specialmente se il modello contiene più di due variabili esplicative.1) nelle differenze ed eliminando quindi.4. Modello Equazione (2.

8. Infatti questa eventualità è rappresentabile nella forma yt = m + b t + ut e prendendo la differenza prima si ha Dyt = yt .é m + b ( t .1) e la (2.9) non contiene più la tendenza lineare ma include il coefficiente angolare b che ora è diventato il termine noto. il parametro b sarebbe nullo e nella (2.9) con e t = ut .1) + ut -1 ù = b + e t ë û (2.yt -1 = ( m + b t + ut ) .8. 37 .6.8.8) si ottiene un R 2 non influenzato dalla tendenza. Qualora la yt non contenesse una tendenza lineare.7) Dyt = b Dxt + e t (2. se è alto si può dire che sussiste effettivamente una relazione tra xt e yt .ut -1 .8.ut -1 .7) si ha (2. Stimando la (2.8.8.9) semplicemente mancherebbe.8. Si lascia al lettore mostrare che una differenza seconda D × D = D 2 elimina un eventuale tendenza parabolica (un polinomio di secondo grado in t ) e che in generale una differenza d esima elimina un eventuale tendenza rappresentabile mediante un polinomio di grado d nel tempo. La (2.yt -1 = m + b xt -1 + ut -1 e facendo la differenza tra la (2. Eliminazione della tendenza lineare con una differenza prima E semplice verificare che una differenza prima elimina un eventuale tendenza lineare.8) con il residuo rappresentato ora da e t = ut .

.2) che è costituita da una retta che attraversa la nuvola di punti della figura 2.4) che esprime il consumo in funzione del tempo (e rappresenta la tendenza interpolante lineare).2.1. Si noti che l intercetta è negativa..6 e per mezzo della quale si stimano i residui (2. La devianza residuale (espressa in miliardi di euro) vale å ( zt . Le stime dei due parametri nella (2. z n } e dei corrispondenti redditi { y1 y 2 .9 E Stima di una funzione del consumo utile applicare i concetti esposti in precedenza in relazione non più ad un equazione del tipo (2.4. nelle serie delle due variabili. presi per gli anni 1980 2002. Al posto della figura 2. bensì alla seguente zt = m + b yt + ut (2.1) determinano la corrispondente della (2.8)..6 che riporta il grafico. rappresentati graficamente nella figura 2.9.zt ) t =1 23 2 = å ut2 = 831954 t =1 23 e il coefficiente di determinazione centrato è R 2 = 0. otteniamo 38 .2.. contrariamente a quanto ipotizzato dal Keynes..657 yt t = 1. i quali ultimi prendono il posto dei tempi contenuti nella serie storica {1 2 .9. n} .1 si ha la 2. sia derivato essenzialmente dalla presenza della tendenza.4.8. detto diagramma di dispersione.1) zt = -53684 + 0.1)). yt ) tratti da un campione di osservazioni formato dalle due serie storiche dei consumi { z1 z2 ..2).1) che esprime il consumo reale zt in funzione del reddito reale (come nella (2.3.9.7. è questo uno dei tanti casi in cui le ipotesi teoriche non trovano conferma nell analisi empirica. come esposto nel paragrafo precedente.. ben chiara per i consumi nella figura 2.993 (2.3) Questo coefficiente è molto alto e può venire il dubbio che..9.. n (2. y n } . delle coppie di valori ( zt .. Allora calcoliamo le due serie delle differenze e stimiamo l equazione (2. I consumi { zt } sono costituiti dalla serie ITACPV e il reddito { yt } dall altra ITAGDPV della base di dati OCSE.4.

ut 600 400 200 0 -200 -400 -600 t Figura 2.609 . reddito reali (annuali) in Italia.z t della relazione lineare tra il consumo e il 2002. ma anche questo coefficiente di determinazione è relativamente alto e si può concludere che effettivamente sussiste una relazione economica tra il reddito e consumi nell Italia degli anni 80 e 90.9.674 Dyt (2.4) con R 2 = 0.6 Diagramma di dispersione che rappresenta il consumo zt in funzione del reddito yt .7 Serie storica dei residui u t = z t . anni 1980 39 . funzione del consumo zt 680 630 580 530 480 430 380 680 yt 730 780 830 880 930 980 1030 1080 Fonte: OECD (2004) Figura 2.Dzt = 0. dati annuali reali per l Italia 1980 2002 espressi in miliardi di euro.

2) è sbagliato e deve essere sostituito dalla coppia (2. con l aiuto della serie ITAYDRH tratta anche questa dalla base di dati dell OCSE.198 y d t con un coefficiente di determinazione centrato pari a t = 1.9. (2.7).9. Otteniamo zt = -86408 + 0..9.9. in particolare che la propensione marginale al consumo sia approssimativamente costante. 40 .7) zt = -15545 + 0.9.. Abbiamo.9.6) più basso del (2.8)? Non necessariamente.9.701 yt per gli anni 1980 1994. Abbiamo stimato la (2.3) per cui è statisticamente preferibile scegliere il (2. Coefficiente di determinazione e scelta del modello Si è detto nel paragrafo 2.9.2.9.1) con questi due sottocampioni (che in parte si sovrappongono). Stimiamo dunque la (2. in ultima analisi.2) e allora si deve dire che il modello (2. Questo fatto è abbastanza generale e quando ad un R 2 per un equazione dei livelli superiore all 80% corrisponde un R 2 nelle differenze superiore al 60% ci si può ritenere soddisfatti.837 (2. nell intero orizzonte campionario 1980 2002 e che i parametri m e b non varino troppo in tale periodo.1) con i nuovi dati e otteniamo zt = -292775 + 1.9. come forma..617 yt per gli anni 1990 (2.1 che una funzione del consumo diversa dalla (2.9. E questo un semplice esempio di uso del coefficiente di determinazione per la scelta del modello. congetturato che il campione sia omogeneo in tale periodo: è un ipotesi che può valere ma che anche può non valere.5) R 2 = 0. n (2.Si osservi che l R 2 è più basso quando si usano le differenze delle variabili al posto dei loro livelli. Omogeneità dei dati La stima della funzione del consumo ci permette di fare una considerazione rilevante nell analisi economica. Facciamolo.1) supponendo che essa sia valida.9.9.2) come modello rappresentativo della funzione del consumo.2) potrebbe essere ottenuta sostituendo ad yt il reddito disponibile ytd . Queste equazioni sono ben diverse dalla (2.9.. dal 1980 al 1994.8) 2002. Infatti proviamo a dividere il campione in due parti. e (2. e dal 1990 al 2002 e stimiamo la (2.

1) dove b rappresenta una sorta di propensione media al consumo e ci proponiamo di determinare come questa sia variata in Italia negli ultimi quaranta anni. Non linearità rispetto alle variabili Un altra osservazione è pertinente. Ma la scelta può anche dipendere dalla numerosità del campione: vedremo in seguito che più il campione è numeroso e più precise sono le stime e potrebbe accadere che la suddivisione del campione produca stime diverse sì.9. 2. potremo interpolarla con una retta b = g +d t per cui la funzione del consumo (2.8). Stimiamo ed otteniamo 41 .1) verrebbe ad essere scritta nella forma (2.7). deve preferire la (2.2) alla coppia (2. Se ha la necessità di considerare il periodo 1980 2002 come un tutt uno e di ottenere un dato medio (ad esempio la propensione marginale media nel periodo). Prendiamo dalla base di dati dell OCSE ancora i consumi ITACPV e il reddito GDPV. ma non affidabili. volendo essere molto precisi. Anche la specificazione dell equazione da stimare dipende dagli obiettivi che ci si propone di conseguire.9.9.10. e dividiamo il campione in cinque sottocampioni formati da 16 elementi ciascuno. Ma potremo porre wt = t × yt ottenendosi la forma zt = m + g yt + d wt che è lineare anche rispetto alle variabili (e quindi facilmente stimabile) ma contenente tre parametri. nel 2° e nel 4° trimestre di ogni anno dal 1965 al 2002. (2. allora. dal grado di approssimazione che si vuole ottenere. Si è visto che la propensione marginale al consumo sembra in Italia essere decrescente.9.La scelta dipende infatti dagli obiettivi che l analista si pone. ma questa volta trimestrali. e dal campione di dati disponibili.10 Propensione media ed elasticità Stimiamo ora l equazione zt = b yt + ut (2.9.9) zt = m + ( g + d t ) yt = m + g yt + d t × yt non lineare rispetto alle variabili (a causa del prodotto t × yt ).

2.560 0.10.585 0.2) Passando dal discreto al continuo si è più precisi sostituendo al rapporto tra due incrementi finiti la derivata logaritmica h= d ( ln ct ) d ct / ct y d ct = = t d ( ln yt ) d yt / yt ct d yt (2.943 da cui si osserva che la propensione media al consumo è andata sempre aumentando dalla metà degli anni sessanta fino alla fine degli ottanta.557 0. se i due cambiamenti sono valutati in termini di variazioni percentuali questo equivale a calcolare l incremento percentuale di ct indotto dall incremento percentuale unitario della variabile esplicativa yt .10.3) corrispondente al parametro dell equazione ln ct = b ln yt 42 . nello studio delle relazioni economiche.966 0. la determinazione di quanto una variabile possa cambiare in funzione di una variazione dell esplicativa yt .976 0. L elasticità E di grande interesse. Ricordando che la variazione percentuale è rappresentata dalla differenza logaritmica (2. cioè l elasticità della prima rispetto alla seconda. dopodiché sembra essersi arrestata.599 0.Sottocampione 1965/1-1972/2 1973/1-1980/2 1981/1-1988/2 1989/1-1996/2 1995/1-2002/2 N° osservazioni 16 16 16 16 16 b 0.986 0.10) si ha che l elasticità è h» D ln ct D ln yt (2.603 0.600 R2 0.

962% del consumo privato.che in termini stocastici scriviamo nella forma ln ct = b ln yt + ut (2.962.1) per l Italia fornisce ln ct = 0.10.4) Esempio 2. 43 .962 ln yt campione 1980-2002.10. Ad un incremento dell 1% del reddito corrisponde un incremento dello 0. R 2 = 0. (2.5) L elasticità del consumo privato totale rispetto al reddito reale è pertanto h = 0.975 se si utilizza il reddito.5 La stima dell equazione (2.979.10. Se si utilizzasse il reddito disponibile reale l elasticità varrebbe h = 0.

037 Si determina poi la variazione annua del tasso di disoccupazione {D ut } traendo {ut } ancora dalla base di dati OCSE (USAUNR) e si stima l equazione (2. Per quanto riguarda l economia degli USA.037 .2. utilizzando la serie USAGDPV della base di dati OCSE dal 1960 al 1980 stimiamo l equazione ln xt = a + b t del tutto analoga alla (2.036 ) .11. basandosi su dati USA relativi al periodo 1947 1960 determinò una relazione tra il tasso di disoccupazione e la crescita economica del tipo & Dut = b ( xt .1 = 1.036t dalla quale. & xt = ( xt . per mezzo della (2.g ) dove (2.1) è nota come legge di Okun e utilizziamo quanto illustrato finora in questo capitolo per stimarla con dati dapprima relativi agli USA e poi all Italia. si trae il saggio di crescita di lungo periodo g = exp ( 0.7) determinata per il consumo.8).11.xt -1 ) xt -1 g La (2. implicando dunque l ottenimento di un R 2 non molto alto.1) Dut = ut .8) e quindi priva dell intercetta.11.2.1 = 0.ut -1 è la variazione del tasso di disoccupazione è il tasso di crescita economica è il tasso di crescita (medio) di lungo periodo.1) ottenendosi 44 . Si ottiene ln xt = 14.684 + 0.11 Altri esempi La legge di Okun L economista statunitense Arthur Okun.2. Osservazione 2.8.10 Si noti per inciso che l equazione stimata dall Okun è del tipo (2.

758 .05).11 Nella (2.3) e per gli anni dal 1981 al 2002 & D ut = -10.019) campione 1981 2002. Si può stimare la relazione tra tasso di cambio nominale e prezzi relativi 45 . per cui il parametro b della ((2. (2.2) la quale mostra che ogni punto percentuale di crescita del PIL degli USA sopra il 3.0. R 2 = 0.374.0.4) I due coefficienti di determinazione così come le due diminuzioni del tasso di disoccupazione sono molto piccoli (per i secondi rispettivamente lo 0.11.2)) deve essere diviso per 100 al fine di poter essere ricondotto all unità di misura di D ut (essendo l esplicativa 100 volte più piccola.037) campione 1960 1980.7% corrisponde ad una diminuzione del tasso di disoccupazione pari a 0.0288 . R 2 = 0.12 ( xt . Okun trovò. 5. per il periodo da lui considerato. b è nella stima 100 volte più grande).11.4.11. Osservazione 2. Ripetendo le operazioni per l economia dell Italia per gli anni dal 1960 al 1980 otteniamo & D ut = -7.03. un valore pari a circa 0. R 2 = 0.0.11.11.2) la variazione della disoccupazione D ut è ) mentre l esplicativa è misurata in misurata in punti percentuali (3. 0. E un ulteriore conferma del fatto che spesso gli assunti economici valgono soltanto per specifiche economie e specifici periodi campionari.129 (2.594( xt .& D ut = -37. Relazione tra tasso di cambio nominale e prezzi relativi Siano wt il tasso di cambio (valuta nazionale italiana)/$USA [ITAEXCHUD ne lla base di dati OCSE in euro/$] xt il rapporto tra l indice dei prezzi al consumo USA [USACPI] e l indice dei prezzi al consumo per l Italia [ITACPI] per gli anni 1970 2002.071 e lo 0.423( xt . (2.106 nei due periodi campionari) per cui si può concludere che la legge di Okun nell ultimo mezzo secolo non vale per l Italia. unità (0.046) campione 1960 1980.

wt = m + b xt che mostra come il primo vari in funzione (lineare) dei secondi.11. Su questo fatto si basa il principio della parità dei poteri d acquisto (PPP). Si ottiene (2.6) nella quale il coefficiente angolare -0.742 (2.325 xt campione 1970 2002.156 .0.5) wt = 1. R 2 = 0.325 indica che ad ogni diminuzione unitaria di xt (che tende a diminuire perché i prezzi dell Italia crescono più rapidamente di quelli USA) corrisponde un aumento (deprezzamento della valuta italiana rispetto al dollaro USA) del tasso di cambio.11. 46 .

i = 1. . come nell esempio seguente cit = mi + b i yit t = 1. considerati costanti nel periodo di osservazione campionario. 2.2. cioè per t = 1.N (A.2. i =1 N yt = å yit i =1 N Le serie storiche (o temporali) vengono dette in lingua inglese time series mentre i dati sezionali sono detti cross-section data. 2. i =1 N m = å mi .1. t = 1. 2.1) nella quale consumo e reddito. storiche . unità di consumo e di reddito (ad esempio famiglie). 2. I modelli (A. n.1.1) e (A.Appendice 2. oppure ad .2.1.N (A. ad esempio da un indagine sulla spesa di un gruppo di famiglie oppure da un censimento.2. . considerate allo stesso tempo t.1 Serie storiche.1.2) Un campione temporale di ampiezza n può essere costruito mediante indagini che si protraggono nel tempo.3) rappresentativo di una funzione del consumo nella quale ciascuna famiglia i possiede una propria funzione definita dai parametri mi e b i .2. oppure tramite una disaggregazione temporale (ad esempio trimestralizzazione o mensilizzazione di dati annuali). Naturalmente esistono modelli i cui dati sono contemporaneamente sezionali e temporali.n (A. 12 47 .1. Si possiede. dati sezionali e longitudinali Fin dall inizio è stata presa in considerazione la semplice funzione del consumo di derivazione keynesiana (2. . c t = å cit . nel primo caso un campione di osservazioni che formano serie ct = m + b yt t = 1.1. i = 1. 2. n.2) sono analoghi e differiscono unicamente nel modo con cui i dati sono stati reperiti. n. N. allora. 2. possono essere riferiti ad istanti differenti di tempo. mentre un campione sezionale di ampiezza N può essere estratto da un inchiesta puntuale nel tempo. 2. legati da una relazione lineare. . Se poniamo .1) mentre nel secondo le osservazioni compongono dati sezionali12 ci = m + b yi i = 1.

e

nell ipotesi

che

tutte

le

propensioni

marginali

al

consumo

siano

uguali,

b1 = b 2 = ... = b N = b , le equazioni (A.2.1.3) possono essere sommate membro a membro in
modo da dare

ct = m + b yt

t = 1, 2,

,n

costituendo questa l aggregazione sezionale delle (A.2.1.3). Un altro modo di aggregare le equazioni (A.2.1.3) è quello che si basa sulla conoscenza della distribuzione del reddito. Se la quota di reddito yt posseduta dalla i esima famiglia in ogni tempo è li , con il vincolo

ål
i =1

N

i

=1

si ha che

y it = l i y t ....

t = 1,2,..., n ; i = 1,2,..., N

(A.2.1.4)

per cui, sostituendo le (A.2.1.4) nelle (A.2.1.3) e tenendo conto del vincolo, si ottiene, sommando membro a membro

ct = m + b 0 yt
dove b 0 = å l i b i , di nuovo del tipo (A.2.1.1) ma con un altra aggregazione
i =1 N

sezionale. Dati longitudinali
Se il campione di famiglie considerato nella (A.2.1.3) rimane costante negli n tempi, i dati ad esso relativi, {c it } e {y it } sono chiamati longitudinali, alludendo al fatto che un campione di più individui viene seguito lungo il tempo13. Per il trattamento dei dati longitudinali si usano procedure econometriche specifiche.

In lingua inglese i dati longitudinali vengono generalmente chiamati panel data (dal termine panel, che indica un gruppo di individui).
13

48

Appendice 2.2

Complementi analitici

Differenza prima logaritmica Dimostriamo che

D ln xt = ln xt - ln xt -1 » ( xt - xt -1 ) xt -1
dove il simbolo " » " significa approssimativamente pari a . Sviluppando in serie di Taylor la funzione ln (1 + g ) si ha

(A.2.2.1)

ln (1 + g ) = g - g 2 2 + g 3 3 - g 4 4 + ...
e ponendo

(A.2.2.2)

g = xt xt -1 - 1
si ottiene

ln ( xt xt -1 ) = (xt - xt -1 ) xt -1 + ...
cioè la (A.2.21) L approssimazione (A.2.2.1) è tanto migliore quanto più piccolo è il valore (compreso tra 0 e 1) di g : infatti i termini di secondo, terzo, piccoli quanto minore è g . grado nella (A.2.2.2) sono tanto più

Le condizioni sufficienti per la stima dei minimi quadrati Le stime m e b costituiscono effettivamente un punto di minimo per S ( m , b ) in quanto sono soddisfatte anche le condizioni sufficienti, date dalle

¶2S > 0, ¶m 2
Infatti si ha

¶2S >0, ¶b 2

¶2 S ¶2 S æ ¶2S ö × -ç ÷ > 0; ¶m 2 ¶b 2 è ¶m 2¶b 2 ø

2

¶2S = 2n > 0 , ¶m 2
dalle quali segue che

n ¶2S = 2å xt2 > 0 , ¶b 2 t =1

n ¶2S = 2å xt ¶m 2¶b 2 t =1

n æ n ö 2 2n × 2å x - ç 2å xt ÷ = 4n 2 mxx - x 2 = 4n å ( xt - x ) > 0 t =1 t =1 è t =1 ø n 2 t

2

(

)

49

Nullità del termine misto nella scomposizione della devianza totale Il termine misto nella (2.8.1) è nullo perché

å(y
t =1 k i =1

n

t

n n n n æ k ö - y t )( y t - y ) = å u t y t - y å u t =å u t ç å b i xit ÷ - y å u t = t =1 t =1 t =1 è i =1 ø t =1 n n

= å b i å xit u t - y å u t =0
t =1 t =1

avendo applicato ambedue le (2.6.10).

50

CAPITOLO III L AMBIENTE STOCASTICO 51 .

si può dare risposta se i modelli sono considerati in un ambiente stocastico. . In questo approccio deterministico sono state ricavate le stime dei minimi quadrati dei parametri e quindi esso è stato sufficiente per percorrere molta strada nella costruzione dei modelli econometrici. Vediamo di farlo. Tale simbolo è utilizzato soltanto quando la variabile è considerata in un contesto dichiaratamente stocastico (ad esempio sotto il simbolo di valor medio E). maggiore probabilità di verificarsi di quelle comprese tra 140 e 150. i valori 150. 163. Molto altro purtuttavia resta ancora da fare: come è possibile stabilire se le stime ottenute sono buone (rispetto ad un dato criterio) oppure cattive? E possibile decidere se le stime dei parametri si influenzano reciprocamente? Se i residui sono legati in qualche modo tra di loro? Se il campione è sufficientemente omogeneo? A queste domande. Ad esempio l altezza di un individuo è una variabile aleatoria. In questo caso ciascuna realizzazione ha la stessa probabilità di realizzarsi. in altri casi alcune hanno maggiore probabilità di altre. I valori che una variabile può assumere vengono chiamati realizzazioni. 2. t = 1. se la misuriamo in centimetri.3. La media delle realizzazioni ponderate con la probabilità che si verifichino costituisce Indichiamo con una tilde una variabile aleatoria. ovviamente. Quando le realizzazioni hanno la potenza del continuo (in modo grossolano possiamo dire che appartengono ad un intervallo) le variabili aleatorie sono dette continue. Box 3 Le variab ili aleatorie E aleatoria una variabile ~ che può assumere diversi valori e non si sa quale ha x assunto o assumerà. non sono noti finché m e b non vengono fissati. .1 I residui come enti aleatori: le ipotesi deboli Finora i residui ut sono stati considerati come scarti tra i valori osservati e quelli teorici di una variabile yt per ogni tempo t. La variabile associata al risultato del lancio di un dado è aleatoria e può assumere il valore da 1 a 6. così nell esempio del dado si possono avere sei realizzazioni. Si è visto che i residui variano di valore al variare di m e b . 180. In contesti più generali (ad esempio in un modello) è solitamente omesso. non più deterministico. 14 52 .n. e ad altre ancora non meno importanti. sono sue realizzazioni. Quelle comprese tra 160 e 170 hanno. Queste variabili aleatorie sono dette discrete perché le loro realizzazioni possono essere o finite o infinite ma numerabili. quindi prima di ottenere m e b essi possono essere % considerati variabili aleatorie ut 14.

Queste mutano a seconda del grado di approfondimento con cui si vuole studiare il modello (3. e quindi lo è anche quello a sinistra.1. La quantità % û E é x .E ( y )ù ë% (3.1) i residui sono considerati aleatori il modello stesso è inserito in un ambiente stocastico e si scrive % % yt = m + b xt + ut (3.1) % che è pari alla media dei quadrati degli scarti tra le realizzazioni e il valor medio di x .% il valor medio della variabile aleatoria ed è indicato con il simbolo E ( xt ) . Tanto più grande è la varianza e tanto più sono disperse le realizzazioni di x rispetto al suo valor medio. In appendice si dimostra l utile risultato % % % % % % Var ( x ± y ) = Var ( x ) + Var ( y ) ± 2Cov ( x. cioè la yt . Dunque il valor medio è un indice di localizzazione delle realizzazioni. la covarianza % % % % tra x e y con Cov ( x.1. La quantità % û ë% % û E é x . % % La varianza di una variabile aleatoria x è anche indicata con Var ( x ) .2) % % chiamata covarianza tra le variabile aleatorie x e y . dove E è l iniziale della parola inglese expectation. ed è chiamata varianza della % variabile aleatoria x .3) Se nel modello lineare (2.1.1.4) % In effetti se ut è una variabile aleatoria anche il membro a destra della (3.E ( x )ù é y .E ( x )ù 2 ë% (3. 53 .6. è un indice di dispersione delle realizzazioni intorno al valor % medio.4) oppure della diversa conformazione dei dati campionari.1. indicando il segno di uguaglianza l uguaglianza delle caratteristiche (anche stocastiche) dei due membri. y ) . ponderati con la probabilità che esse si verifichino.1.3) è % aleatorio. è un indicatore del legame lineare esistente tra le due variabili aleatorie rilevanti. y ) (3.

Ambedue queste sottoipotesi sono raramente verificate nella realtà. % La seconda ipotesi non è affatto restrittiva in quanto se fosse E (ut ) = k ¹ 0.5) La prima ipotesi indica che la variabile esplicativa x è conosciuta.1.4).5) è. come si dice. viceversa. le ipotesi che vengono assunte sono chiamate forti. 54 .1. ci si potrebbe sempre ricondurre a questo caso di valor medio nullo semplicemente aggiungendo k al termine noto dell equazione (3. Le ipotesi (3.1. Il Box 5 racchiude alcune semplici nozioni sul valor medio di una distribuzione. quindi. sia che abbiano tutti la stessa varianza s 2 .10) indica che l introduzione dell intercetta garantisce che i residui stimati abbiano media campionaria nulla. a differenza della yt . nel caso contrario. La terza ipotesi delle (3. l insieme più semplice di ipotesi stocastiche che possono essere formulate rispetto ad essa è dato da i) ii) xt valori noti "t ~ E (u t ) = 0 "t ì0 ~~ iii) E (u t u s ) = í 2 îs t¹s t=s (3.4.1. più realistici ma meno semplici da definire.Supponendo che l equazione (3.6. "t.5). restrittiva in quanto presuppone sia che i residui in tempi diversi non siano legati linearmente tra di loro (la loro covarianza è sempre nulla) o. E l analogo di quanto si insegna in economia a proposito della concorrenza perfetta: questa sussiste raramente ma fornisce un buon strumento didattico preliminare all illustrazione dei mercati con concorrenza imperfetta. ma sono molto utili nell introduzione didattica della (2. siano incorrelati.4) rimanga inalterata nel periodo campionario.6. che esamineremo nel paragrafo 3. sia misurata senza errori. proprietà che è appunto il corrispettivo campionario della seconda delle (3.1. In particolare. essa comporta che la xt .1.1) in ambiente stocastico.5) non presuppongono alcuna forma di distribuzione di probabilità (si % veda il Box 4) per le ut e sono per questo motivo dette deboli. di assunzione di una distribuzione di probabilità. La prima delle (2.

x x Nel caso continuo. ognuna delle sei possibili realizzazioni ha la stessa probabilità di uscire e quindi la distribuzione è costituita da {1/ 6. ciascuno dei quali si può verificare con una data probabilità. 1/ 6.a ) qualora. sempre per ò b a p × dx = p ò dx = p ( b . nel quale la variabile aleatoria è costituita dal numero della faccia che si presenta. come in generale viene fatto.a ) = 1 a b Nel caso discreto la funzione di distribuzione di probabilità indica come questa si ripartisce nelle varie realizzazioni che la variabile aleatoria discreta può assumere. 1/ 6. che abbiamo chiamato realizzazioni. 1/ 6. 2. Ad esempio nel caso della variabile aleatoria associata al lancio di un dado tale funzione è % f ( xi ) = P ( x = xi ) = 1 6 i = 1. è % P ( x¢ £ x < x¢¢ ) = ò x ¢¢ x¢ 1 x¢¢ . L insieme di queste forma la distribuzione di probabilità della variabile aleatoria. 1/ 6} se per convenzione assumiamo.K . Nel caso del lancio di un dado. con a £ x¢ < x¢¢ £ b . invece.Box 4 Distribuzioni di probabilità Ogni variabile aleatoria può assumere dei valori. la probabilità % che x assume un valore contenuto nell intervallo [ x¢. che la somma delle probabilità di tutte le realizzazioni possibili sia uno. che ha lo stesso significato ma definisce la probabilità % che la variabile aleatoria continua x assume un valore contenuto in un dato intervallo % P ( x¢ £ x < x¢¢ ) = ò f ( x ) × dx x¢ x ¢¢ Ad esempio. se consideriamo la variabile aleatoria continua costante. Un altro tipo di distribuzione è quella continua. Questo caso fornisce un esempio di distribuzione discreta. x¢¢] . se questo vale b . un esempio del quale è dato da una variabile aleatoria che assume un valore costante in un certo intervallo. 1/ 6.x¢ dx = b-a b-a 55 . 6 dove P(~ = xi ) indica la probabilità dell evento ~ = xi . alla funzione di distribuzione di probabilità corrisponde la funzione di densità di probabilità.a tale valore è convenzione. si assuma che p = 1/ ( b .

d altro canto.a2 x × dx = = ( a + b) 2 b-a b-a 2 56 . ciascuna moltiplicata per la probabilità pi che si verifichi. b ] % E ( x) = ò b a 1 1 b2 .Box 5 Valor medio di una distribuzione Dalle indicazioni date nelle Box 3 e Box 4 si trae che nel caso discreto il valor medio di una variabile aleatoria è dato da % E ( x ) = å xi × pi i dove la sommatoria è estesa a tutte le realizzazioni possibili xi . Nell esempio della variabile costante in [ a . è 1 å xi = 7 2 6 i x ¢¢ % E ( x ) = ò x × f ( x ) × dx x¢ % dove x¢ e x¢¢ sono gli estremi dell intervallo di variazione di x . Nell esempio del lancio di un dado % E ( x) = Nel caso continuo.

1.5) . ys ) sono 2 % % % % Var ( yt ) = E é( yt .1.2) (3.4) è un rumore bianco.9) del campione.1) pari cioè alla sua componente sistematica. e dell esplicativa. L equazione (3. considerati invariabili nel tempo in virtù dell omogeneità (nel senso illustrato nel paragrafo 2.1. Questa considerazione è importante anche perché mette in luce che le ipotesi stocastiche (3.2. Dunque è % % % ut = yt . considerate come realizzazioni di una variabile aleatoria yt . e dove abbiamo utilizzato il semplice risultato del calcolo delle probabilità che il valor medio di una costante è pari alla costante stessa.5). che per motivi didattici e storici vengono spesso esposte in termini dei % residui non osservabili ut . in virtù della seconda delle (3.1. dove per rumore bianco si intende appunto una successione temporale di variabili aleatorie incorrelate con valor medio nullo e varianza costante.5) possiamo trovare il valor medio di yt % % E ( yt ) = E ( m + b xt + ut ) = m + b xt (3. supposta nota per la prima delle (3. Si è detto che l immersione del modello (2. in effetti possono essere viste come ipotesi sulle variabili % osservabili yt . La componente sistematica quindi non contiene alcun elemento aleatorio e denota i fatti stilizzati della relazione tra la variabile endogena e le esplicative.2. % Allora.3) 57 .E ( yt ) ) ù = E ( ut2 ) = s 2 ê ú ë û (3.1.E ( yt ) % % % e la varianza Var ( yt ) nonché la covarianza Cov ( yt .1.3. La prima componente è detta sistematica in quanto rappresenta la struttura di yt in funzione dei parametri.2.2 Definizioni e risultati nell approccio stocastico Le ipotesi ii) e iii) vengono talora sintetizzate dicendo che il residuo della (3.4) indica chiaramente come l endogena ~t sia rappresentata da un modello scisso in y una componente sistematica data dalla combinazione lineare m + b xt ed in una ~ componente aleatoria formata dal residuo u t .6) nell ambiente stocastico produce come % risultato che anche yt deve essere considerata come una variabile aleatoria.

Una definizione più rigorosa di omoschedasticità richiede l impiego delle distribuzioni di probabilità condizionate. eteroschedastico e molto frequente in economia.1. Dai termini greci omoios.1 Le retribuzioni lorde complessive in Italia. L ipotesi che alcune variabili aleatorie abbiano la stessa varianza è detta di omoschedasticità 15. la crescenza della variabilità è associata alla crescenza della tendenza.1. ~s ) = E [( ~t . mentre quella alternativa di varianze diverse è chiamata di eteroschedasticità. è evidenziato il caso.1 1974. che riporta le retribuzioni lorde complessive trimestrali in Italia dal 1970 al 1996.E ( ~t ))( ~s .1 Figura 3.2.1 1990.4) Queste due ultime relazioni indicano che la struttura di varianza covarianza % % ipotizzata per la ut si applica anche alla yt .1 1994. la componente sistematica m + b xt . Retribuzioni lorde Italia 1970-1996 250000 200000 150000 100000 50000 0 1970.2. dati trimestrali grezzi dal 1970 al 1996 (fonte ISTAT). 15 58 . Si può notare che sia la tendenza che la variabilità sono crescenti nel tempo.~~ Cov( ~t . dato che le due variabili aleatorie differiscono soltanto per una costante additiva.1 1978. Si ricordi che spesso.3) mostra che quando l una o l altra di queste ipotesi vale per i residui vale anche per la variabile endogena. La (3.1 1982. Si è detto che la varianza è un indicatore di dispersione (o di variabilità).E ( ~s ))] = E (u t u s ) = 0 y y y y y y "t ¹ s (3. dispersione. come nella serie della figura 3. di una variabilità (l ampiezza media della oscillazione) che cresce con il tempo. e skedasis.1. uguale.1 1986. Nella figura 3. come dimostrato nell appendice 3.

prescindendo dal fatto che una indica la localizzazione e l altra la dispersione. pur presentandosi spesso insieme nella stessa serie storica.x ) × ut mxx . tuttavia.5) sia le variabili aleatorie (3.2. sono da trattarsi in modo ben diverso. Infatti la minimizzazione è la stessa e ciò che cambia è semplicemente la natura della serie storica dei residui {u1 u2 K un } .6.2.x 2 n t =1 (3.1) mostra che un eventuale tendenza nella { yt } può essere spiegata dalla componente sistematica per cui l ipotesi % E ( ut ) può valere.yx mxx .Osservazione 3. tra l altro. che ora è costituita da variabili aleatorie. In questa veste m e b sono dette stimatori. Stime e stimatori dei minimi quadrati { yt } si riflette in Le stime dei parametri della (3.2.2.2.2.2. omettiamo la tilde. in funzione del contesto. sia le stime (3. Si è detto che l immersione del criterio dei minimi quadrati nell ambito stocastico è utile.6) e (3. Ma nell ambito stocastico è anche possibile ritenere che yt sia % una variabile aleatoria definita dalle (3.6.7). Dunque b= mxy .1 E interessante notare.2. che da un punto di vista empirico crescenza della tendenza e crescenza della variabilità. viceversa una variabilità non approssimativamente costante (eteroschedasticità) nella una variabilità analoga nei residui.7) e (2.6. seguendo la nostra convenzione.5) % con le posizioni (2. sostituendo m + b xt + ut al posto della yt nelle posizioni. dovrebbero essere indicate con una tilde.1) per cui. per cui m e b possono indicare.1. però.x 2 % m = y-bx (3.7) t In effetti nelle (3.7) m e b sono variabili aleatorie e. Per semplicità di notazione.2.2.6) e (3. sovrapposta al cappello. a valutare le stime ottenute: la versione stocastica (3.2.4) sono ancora quelle date dalle (2.5).(3.1.7) delle 59 . Infatti la (3.6) m =m +x× b -b + come mostrato nell appendice 3.1. si ottiene b =b+ 1 1 n % å ( xt .6) . ( ) 1 å u% n n t =1 (3.8) se si utilizza il criterio dei minimi quadrati.

2. Le (3. Infatti. se m e b sono gli stimatori dei minimi quadrati definiti dalle (3. prendendo i valori medi (dei membri a sinistra e a destra) nelle (3. definita nel Box 6.Tra tutti gli stimatori lineari rispetto alle yt e non distorti. le loro varianze e la covarianza sono di calcolo leggermente più complicato per cui vengono determinate nell appendice 3.2.1.8) forniscono d altra parte i loro valori medi.2.2.7) si ottiene E b =b ( ) E (m ) = m (3. In questo caso le stime. come spesso avviene.2. che possono essere considerate come realizzazioni dello stimatore. La non distorsione è una buona proprietà per uno stimatore se.9) dove c1 e c2 è una qualsiasi coppia di costanti reali non ambedue nulle. Vale dunque per essi il % Teorema 3. 60 .2.7) % % rispettivamente e m e b sono qualsiasi altri stimatori.2. hanno alta probabilità di trovarsi vicino al valore vero q del parametro.1 (di Gauss Markov) .8) per cui gli stimatori m e b sono non distorti.stime ci permette di verificare immediatamente una prima loro buona proprietà. la sua distribuzione di probabilità è concentrata intorno al valor medio.6) e (3. Il teorema di Gauss Markov Gli stimatori OLS per i parametri del modello lineare non soltanto sono non distorti ma godono di un altra proprietà che spiega la loro diffusa applicazione: essi possiedono variabilità minima nel senso del teorema di Gauss Markov che enunciamo di seguito e che dimostreremo quando tratteremo i modelli con più di due variabili esplicative. la non distorsione. si ha % % Var c1m + c2 b £ Var c1m + c2 b ( ) ( ) (3.6) e (3. Box 6 La proprietà di non distorsione % % Uno stimatore J del parametro J è detto non distorto se E (J ) = J .

data dalla (3.2 .2.1.6.Si osservi che la proprietà di variabilità minima. Osservazione 3. Unbiased (non distorti).2. non riguarda direttamente i singoli stimatori m e b ma la loro generica combinazioni lineare poiché la varianza opera su di una sola variabile aleatoria e non su due (o più). Gli stimatori con variabilità minima nel senso del teorema di Gauss Markov sono detti ottimi. sinteticamente essi sono chiamati BLU.6.8). La loro non distorsione è indicata dalla (3. 61 .8) e la loro ottimalità dal teorema 3.7) e (2.9).La linearità degli stimatori m e b dei minimi quadrati rispetto ad y e quindi rispetto alle yt che costituiscono y come somma ponderata è indicata dalle (2. Linear (lineari). dalle iniziali dei termini inglesi Best (ottimi).

La normalizzazione viene effettuata dividendo la covarianza per la radice quadrata del prodotto delle varianze delle due variabili aleatorie r= % % Var ( y ) × Var ( x ) % % Cov ( y.3.x 2 = mxx . Se r è vicino allo zero non vi è relazione lineare tra le due variabili. se r è vicino all unità la relazione è molto forte e positiva.y 2 n t =1 t =1 · covarianza campionaria 2 s xy = 1 n 1 n å ( yt . Se. se r è vicino a -1 è ugualmente forte ma negativa: se una variabile aumenta l altra diminuisce e viceversa. tale che -1 £ r £ 1 (3.x ) = n å yt × xt . analoghe a quelle dei momenti primi e secondi presentati nella (2.5) · valori medi campionari x= · 1 n å xt n t =1 y= 1 n å yt n t =1 varianze campionarie s x2 = 2 sy = 1 n 1 n 2 ( xt . la normalizziamo per escludere la dipendenza dalla dimensione otteniamo un indicatore adimensionale utilizzabile per misurare il loro grado di associazione lineare.2) come dimostrato nell appendice 3.3 La correlazione tra le variabili e tra gli stimatori dei parametri % % Si è detto nel Box 3 che la covarianza tra due variabili aleatorie y e x denota la relazione lineare esistente tra di loro.x ) = å xt2 .x 2 å n t =1 n t =1 1 n 1 n 2 å ( yt .y 2 = myy . Il coefficiente di correlazione può essere stimato a partire da un campione di n osservazioni per y e di altrettante per x facendo uso delle stime campionarie.y )( xt .3.3.1.6.y × x n t =1 t =1 62 . x ) = 2 s yx 2 2 s y ×s x (3.1) ottenendosi il coefficiente di correlazione. essa tuttavia dipende dalla dimensione delle due variabili e quindi non può essere utilizzata come un indicatore dell intensità della loro relazione.y × x = m yx . viceversa.y ) = n å yt2 .

tra il consumo e il reddito del paragrafo 2.915 .876 -0.4. 63 .1) con il reddito Modello Equazione (2. Esempio 3. stimato. Nella tavola 3. negativamente se r < 0 .4. altrimenti accade che la stima di un parametro sia influenzata da quella dell altro.9.876 -0.998 e quello tra il consumo e il reddito disponibile r = 0.9.992 ln ct = m + b t + ut ct = exp {m + b t } + ut ct = m + b t + ut zt = m + b yt + ut Tavola 3.6) (2. La correlazione tra gli stimatori dei parametri E di fondamentale importanza che gli stimatori m e b non siano correlati tra di loro.1 Stime dei coefficienti di correlazione dei parametri dei tre modelli di tendenza per i consumi e di quello per la funzione del consumo. positivamente se r > 0 .7) (2.5) (2.9 vale r = 0.405 .2 Si lascia al lettore verificare che il coefficiente di correlazione tra la variazione della disoccupazione e la crescita del PIL reale dell Italia vale r = -0.1 Si lascia al lettore verificare che il coefficiente di correlazione.4.Esempio 3.1 si riportano le stime dei coefficienti di correlazione dei parametri dei tre modelli di tendenza per i consumi considerati in precedenza e della funzione del consumo (2.522 -0.1) r -0.

s t=s (3. E (u t × u s ) = í 2 îs t¹s "t.2) Le ipotesi stocastiche precedenti. Intervalli di confidenza Ambedue questi concetti sono semplici. ì0 ~ ~ ~ E (u t ) = 0 . i valori di xt sono noti.x 2 ¹ 0 (3. sia vicina a J : più l intervallo è corto.3. 2. cioè una stima J . La ii) è un ipotesi semplificatrice. maggiore è la nostra confidenza che esso contenga tale valore vero J . cioè non aleatori. un % intervallo di confidenza per J è un indicatore della probabilità p che una realizzazione % di J . di quelli dei minimi quadrati e la distorsione della varianza s 2 campionaria dei residui. non permettono di effettuare un inferenza statistica completa sul modello lineare.4. Se indichiamo con J¢ e J¢¢ gli estremi dell intervallo e con P la probabilità che un evento si verifichi (in questo caso % che J sia compresa tra J¢ e J¢¢ ). sebbene di grande rilevanza. le ipotesi deboli iii) sono utilizzate per determinare alcune caratteristiche degli stimatori: la non distorsione e l efficienza. riassumere le ipotesi di vario tipo sinora fatte in relazione al modello lineare semplice: i) ii) iii) il campione è omogeneo e i parametri m e b sono invariabili nel tempo. formalmente scriviamo 64 . L intervallo di confidenza riguarda un parametro J ma è conveniente iniziare a definirlo a partire da % % uno stimatore J . n. che limita gli elementi stocastici del modello al residuo ed alla variabile endogena. Se desideriamo stimare i parametri con il criterio dei minimi quadrati occorre aggiungere la quarta ipotesi (deterministica) iv) m xx . nonché le matrici di dispersione e di correlazione.1) Con la i) si suppone che la struttura dell economia rimanga invariata nel periodo campionario e che quindi sia possibile considerare validi per tutti i tempi t = 1. fissato p . a questo punto. Infine. tuttavia.4 Le ipotesi forti sui residui È opportuno. In seguito mostreremo come da J si possa passare a J . i modelli da stimare. In effetti. che in seguito elimineremo. non sono sufficienti per determinare intervalli di confidenza o per fare verifiche di ipotesi. ad esempio. .4.

I due estremi sono determinati in modo tale che la distanza J ¢¢ . Ma al posto della stima possiamo utilizzare un suo intervallo di confidenza (J ¢. allora si dice che l intervallo è al 100 p % . 0. Si ottiene allora la stima intervallare (o per intervalli) (J ¢. rispettivamente. poi. altri valori sono rari.a ) fornisce un indicazione (denotata dalla lunghezza J ¢¢ .3) ci può interessare verificare l ipotesi che l intercetta m sia uguale a zero oppure che la pendenza b sia pari a uno.1. Verifiche (o test) di ipotesi Le ipotesi che vengono fatte sui modelli di regressione riguardano generalmente i suoi parametri e il campione a disposizione può essere usato per verificare se esso spinge a rendere vera o falsa tale ipotesi.95. il valore a è detto rappresentare il livello di significatività dell intervallo di confidenza. Queste ipotesi sono chiamate nulle e indicate con H 0 . L importanza dell intervallo di confidenza risiede nel fatto che.05.3) dove p è un numero compreso tra zero ed uno.99. talvolta la si prende pari a 0. essendo la probabilità di un evento assoggettata per convenzione a tali limiti. Stima intervallare Si è visto nel paragrafo 3. 0. esso esprime il nostro grado di fiducia (confidenza) sulla bontà della stima J . Ad esempio nel modello lineare semplice (3. ( ) ( ) 65 . fissata la probabilità p .a .4.J ¢ ) della precisione di questa localizzazione. L intervallo di confidenza definito dalla (3. J ¢¢] che oltre a localizzare J (all interno dell intervallo con probabilità 1 .J ¢¢] di J mentre J ne è la sua stima puntuale.01.2 che una stima J (ad esempio dei minimi quadrati) di un % parametro può essere considerata come una realizzazione di uno stimatore J (ancora ad esempio dei minimi quadrati).3) è generalmente indicato con (J ¢. cioè sul fatto che essa sia vicina al valore effettivo J . E d uso. 16 % Con la parentesi tonda si indica che l intervallo è aperto a sinistra J ¢ < J mentre con la quadra % che è chiuso a destra J £ J¢¢ .4. La probabilità p è generalmente presa (soggettivamente) pari a 0.90 e talaltra a 0.% P J ¢ < J £ J ¢¢ = p ( ) (3. con a quindi che diventa 0. porre p = 1 . Generalmente p viene moltiplicato per 100 ed espresso in percentuali. così le due ipotesi sono.10. J ¢¢] 16.J ¢ sia la più corta.

l ipotesi (lineare) nulla che si intende verificare è H0 : J = r mentre l ipotesi alternativa è (3.4) H1 : J ¹ r Le verifiche di ipotesi sono più comunemente chiamate test di ipotesi. Si ha allora che % per la quale è P ( z ¢ < z £ z ¢¢ ) = p dove z¢ e z¢¢ sono presi in modo tale che la distanza z ¢¢ . z¢¢] .H0 : m = 0 . Queste due ipotesi alternative sono dette bilaterali in quanto equivalgono a dire m > 0 (primo lato) oppure m < 0 (secondo lato) nel primo caso. La standardizzazione dell intervallo di confidenza % La determinazione dell intervallo (J ¢.J ¢¢] è ( z¢.4. J ¢¢] è resa ostica dal fatto che lo stimatore J % % ha un valore medio E J ed una varianza Var J che variano ogni volta che si ha a che fare con un campione diverso. e prescindendo dai lati. H0 : b = 1 e vengono sottoposte a test contro delle ipotesi alternative H1 . Dunque è z¢ < % % J-E J s ( ) £ z¢¢ 66 . Per ovviare a questa situazione problematica si usa ( ) ( ) % trasformare J in modo che abbia un tipo standard di distribuzione di probabilità: si % standardizza J . dato un parametro J . Se il lato è uno solo. dunque.z ¢ sia le più corta. Più in generale. cioè le si toglie il valor medio e la si divide per la radice quadrata (presa con il segno positivo) della varianza % z= % % J-E J ( ) % Var (J ) % z e l intervallo La variabile aleatoria standardizzata è chiamata trasformato nell altro (J ¢. H1 : b ¹ 1 nei due casi. come nel caso della H 0 : m < 0 . ad esempio H1 : m ¹ 0 . e b > 1 oppure b < 1 nel secondo. l ipotesi è detta monolaterale. di immediata determinazione poiché gli % z ¢ < z £ z ¢¢ estremi z ¢ e z ¢¢ non dipendono dal campione.

z ¢ × s che è una doppia disuguaglianza che necessita di due notazioni.7) Nel Box 7 sono riassunti i passi che portano all intervallo (3.4. J . In secondo luogo l intervallo è divenuto aleatorio éJ . Box 7 L intervallo di confidenza % Per lo stimatore generico J di J è (J ¢. che è aleatorio % % % J .5) la ( ) % L intervallo di confidenza per E (J ) è allora éJ .5) ( ) ( ) % % % J .z ¢¢ × s .4.dove si è posto % Var J = s .z ¢¢ × s £ E J < J . così l intervallo di confidenza limita J e non più ( ) % J .z ¢ × s > E (J ) ³ J .z ¢ × s ë % J . Cioè ancora % % % -J + z ¢ × s < . Innanzitutto essa % definisce un intervallo di confidenza non più per lo stimatore J ma per il suo valor % medio E J . che però è funzione di J .4.z ¢¢ × s .7).E J £ -J + z ¢¢ ×s (3.z ¢ × s ( ) ( ) 67 .z ¢ × s ë ) ed è quindi difficilmente utilizzabile nella pratica. J . Si usa allora sfruttare il fatto che si possiede una % realizzazione (la stima di J ) di J e la si sostituisce.z ¢¢ × s £ E (J ) < J .6) ) (3.4. J ¢¢] tale che % P ( z¢ < z £ z ¢¢ ) = p % Si standardizza J e si ottiene % % æ ö J-E J P ç z¢ < £ z ¢¢ ÷ = p ç s ÷ è ø ( ) % da cui si trae l intervallo di confidenza per E J .4.z ¢ × s (3.z ¢¢ × s £ E J < J .z¢¢ × s % % % J . ottenendosi al posto della (3.

3. La motivazione fondamentale per imporre l ipotesi forte (3. la % % variabile aleatoria che ne deriva. e la sua varianza che abbiamo supposto uguale a s 2 [ancora ipotesi iii)].4. dunque. lo stimatore J con la stima J che è una sua realizzazione % J .z ¢ × s .4. e s 2 = 1 .4. ma in realtà gode di molte proprietà che la rendono facilmente trattabile.8) cioè che la loro funzione di densità di probabilità sia del tipo normale (o di Gauss o f (u t ) = ( 2ps 2 ) -1 / 2 exp .1. Se k = 0 .4. % % Si noti che se il valor medio di ut fosse diverso da zero.3) e dall altro lato non è molto restrittiva in quanto la gran parte dei loro residui si distribuisce appunto normalmente e questo è un derivato di un teorema del calcolo della probabilità che per la sua importanza è detto centrale: 68 . la (3.1) ma occorre aggiungere l ipotesi forte che i residui siano distribuiti normalmente con media nulla e varianza costante ~ u t ~ N (0. E funzione di due parametri soltanto: il valor medio della % variabile aleatoria ut che abbiamo supposto pari a zero [ipotesi iii) nella (3.z ¢¢ × s £ E J < J . con una forzatura che è utilizzata nella pratica.2.z ¢ × s % L intervallo di confidenza per E J è dunque éJ .z ¢¢ × s . J .9) assumerebbe la forma più generale (A. ë ( ) ( ) ) Residui normali Al fine di effettuare inferenze statistiche sul modello lineare.% Interessa di più un intervallo per E J ( ) % % che per J poiché E J ( ) contiene J . ut / s = z .u t2 / 2s 2 { } (3. Si % sostituisce. è detta standardizzata e la figura 3. non sono sufficienti le ipotesi (3.9) Questa funzione di densità di probabilità può a prima vista sembrare un po complicata dal punto di vista matematico.1. E ( ut ) = k ¹ 0 . come nella (3.4.8) è costituita dal fatto che da un lato è necessario per effettuare l inferenza statistica sui parametri dei modelli lineari (3.9).4.4. s 2 ) gaussiana) "t (3.2 riporta il grafico della sua funzione di densità di probabilità quando questa è normale.1)].).

poiché il residuo ut può essere assimilato ad una somma molto grande di forze della dinamica economica (variabili aleatorie che supponiamo abbiano la stessa distribuzione) che hanno effetto sull endogena yt al di fuori dell esplicativa xt .2 Dato un numero n di variabili aleatorie indipendenti e identicamente distribuite. più precisamente si dice che esse sono indipendenti (in probabilità) se la loro distribuzione di probabilità congiunta è uguale al prodotto delle loro distribuzioni semplici. e da questo deriva che la funzione di densità di probabilità congiunta f ( u1 . 69 . Figura 3. % E allora.1) . In maniera approssimativa ma chiarificatrice questo vuol dire che non c è alcun tipo di relazione probabilistica tra di esse. ecco che il teorema centrale può essere applicato17 e da questo deriva la (approssimata) normalità di % ut . la distribuzione (di probabilità) della loro somma tende ad essere normale al tendere di n verso infinito. u n ) è uguale al prodotto delle funzioni di densità semplici 17 Ovviamente in modo approssimato. Indipendenza in probabilità Nell enunciato del teorema centrale si è fatta l ipotesi che le n variabili aleatorie siano indipendenti (in probabilità). K . u2 . Grafico della funzione di densità di probabilità normale standardizzata.Teorema 3.2 N ( 0.

8) assumono la normalità dei residui e poiché questi sono incorrelati [ipotesi deboli iii) nella (3.4.4. deriva dalla succitata dimostrazione che le ipotesi forti (3. Poiché le ipotesi forti (3.f ( u1 . 70 . ma non vale il viceversa a meno che esse abbiano distribuzione normale. un ) = f ( u1 ) × f ( u2 ) ×K × f ( un ) (3.K .4.10) Si dimostra in teoria delle probabilità che se due variabili aleatorie sono indipendenti esse sono anche incorrelate.1)]. u2 .4.8) assumono implicitamente che i residui siano indipendenti (in probabilità).

n ( mxx .1.4) per il parametro b .1.z ¢ × s × ab (3. ( ) 2 Var ( m ) = s 2 × am (3.4.2) Sostituendo questi valori nella (3. s 2 ab ) (3.z ¢¢ × s × ab £ b < b .5 Inferenza statistica per i parametri del modello lineare semplice Applichiamo le nozioni del paragrafo precedente.5.4). che s 2 sia noto.3) e (A.z ¢ × s × am per l intercetta m e (3.5.4) identificano intervalli di confidenza per m e b . Allora 2 m : N ( m .5.3.6) si ottiene m .5. da analizzare con diligenza perché sia gli intervalli di confidenza che i diversi test di ipotesi sono costruiti tutti in modo analogo. e nella teoria delle probabilità si dimostra che quando questo accade le variabili aleatorie che ne sono combinazioni lineari sono anch esse normali.4) occorre determinare innanzitutto la distribuzione di probabilità degli stimatori m e b .z ¢¢ × s × am £ m < m .2.5) 71 . 2 b : N ( b .3.x 2 ) (3.5.5.5.1. Gli estremi z ¢ e z ¢¢ sono facilmente ricavabili dalla tavola statistica dei quantili della distribuzione normale standardizzata in quanto la distribuzione sia di m che di b è normale. s 2 am ) .1) dove 2 ab = 1 .3. che scriviamo per brevità 2 Var b = s 2 × ab .1. Si noti che in virtù della non distorsione degli stimatori le (3. per semplicità didattica.4) supponendo dapprima.x 2 ) 2 am = 1 x2 + n n ( mxx .8) e le varianze dalle (A.3) e (3. I loro valori medi sono dati dalla (3. Infatti questi stimatori sono combinazioni lineari di variabili aleatorie normali (distribuite normalmente). Per determinare gli estremi di un intervallo di confidenza per il parametro m oppure il b del modello (3. al caso del modello lineare (3.3) b .

Box 8 Intervalli di confidenza per m e b 1) Si sceglie il livello di significatività a = 1 .p desiderato. 4) Si costruiscono gli intervalli di confidenza m .5.639 .678 0.4).7) 72 .1.per cui le due variabili aleatorie trasformate m -m s × am e b -b s × ab (3. 3) Si standardizzano le variabili aleatorie m e b .0.1. ab = 0.3.1) nell ipotesi di conoscere m e b s 2 = 40000000 Allora tramite le (A.3 parametri Costruiamo gli intervalli di confidenza (la stima intervallare) per i della funzione del consumo (2.658 -0. 3.6) hanno la stessa distribuzione N ( 0.5) e (3.632 se a = 0.01 se a = 0.658 0.s × am × z ¢ b .5.s × ab × z ¢¢ £ b < b . b -b s × ab dove am e a b sono definite nelle (A.10 Le operazioni che conducono agli intervalli di confidenza (3.3) e (A.5.5.s × ab × z ¢ Esempio 3.4) e (A. I due estremi z ¢ e z ¢¢ dell intervallo di confidenza per la variabile aleatoria % standardizzata z valgono . 1) . 2) Si traggono dalle tavole della variabile aleatoria normale standardizzata gli estremi z ¢ e z ¢¢ .1.6) sono m -m s × am . 3.00000019 (3.s × am × z ¢¢ £ m < m .9. cioè le si trasformano nella normale standardizzata e e e 0.3) calcoliamo am = 1.1.05 se a = 0.3.632 riassunte nel Box 8.678 -0.

025 Figura 3.4. anzi l uso più frequente degli intervalli di confidenza è proprio quello della verifica delle ipotesi.665 Verifica di ipotesi Nella figura 3. Questo intervallo di confidenza (e gli altri presi con probabilità diverse) può essere utilizzato per costruire un test di ipotesi.96 )=0. Si noti che la probabilità residua pari al 5% è divisa a metà nelle due code. ma questa volta con l indicazione dell intervallo di confidenza preso al 95%.5. Riprendiamo l esempio fatto nel paragrafo precedente per mostrare questo uso. con gli estremi dell intervallo di confidenza al 95%.96 )=0.3 è riportato nuovamente il grafico della funzione di densità normale standardizzata.665 e quelli al 99% sono . N ( 0.3 Grafico della funzione di densità di probabilità normale standardizzata . 73 . % P( z £ -1.649 £ b < 0.1) .per cui gli intervalli (3.6) al 95% sono .025 % P( z £ +1.60505 £ m < -46863 0.60712 £ m < -46656 0.5.5) e (3. che in parte abbiamo anticipato nel paragrafo 3.649 £ b < 0.

z ¢¢ ) con una certa probabilità (ad esempio il 95%) ma non con la certezza.9) 74 . cioè nelle code.5.8) che ha probabilità pari al 95% di cadere nell intervallo [ z ¢. e allora si è spinti ad accettare l ipotesi nulla H 0 se il valore z = m s × am che si determina con il campione di % dati (ed è quindi una realizzazione di z ) cade nell intervallo. in questo caso si commette un errore. mentre si è spinti a rifiutarla (e quindi ad accettare l alternativa H1 ) se il valore z che si ottiene cade fuori dell intervallo.6).6) e controllando quindi che la z che così si ottiene cada nella regione di accettazione o in quella di rifiuto.Supponiamo dunque di voler verificare l ipotesi nulla H 0 : m = 0 contro l alternativa H1 : m ¹ 0 . che è detto di I specie. E per questo motivo che si è detto si è spinti ad accettare H 0 e non si accetta H 0 con certezza .5. Il fatto più importante da tenere presente quando si effettua un test di ipotesi è che esso opera in un ambiente stocastico e che la realizzazione z associata all ipotesi nulla cade nell intervallo di accettazione [ z ¢. mentre le due code formano la sua regione di rifiuto. I due estremi z ¢ e z ¢¢ prendono il nome di valori critici del test. Se è valida l ipotesi nulla (si dice: sotto H 0 ) la prima delle (3. indicate appunto con una z . chiamato così per via delle % variabili standardizzate (3.6) (che è una variabile aleatoria) diventa % z= m s × am (3.5.5. l intervallo di confidenza è anche detto regione di accettazione del test. z ¢¢ ) . allora. Per ovvi motivi. L ipotesi H 0 : m = 0 è stata sottoposta a verifica inserendola nella prima delle (3. In effetti c è la possibilità che z cada nella regione di rifiuto (cioè in una delle code) e quindi che si sia spinti a rifiutare H 0 nonostante che essa sia vera. Questo è il test della z . e la probabilità di commettere questo errore è evidentemente a . Ma già che ci siamo definiamo anche l errore di II specie.5. Un test del tutto simile può essere fatto quando l ipotesi H 0 riguarda l uguaglianza di m ad una costante qualsiasi m H0 : m = m (3. che è quello di accettare H 0 nonostante che sia falsa.

Di nuovo, si inserisce la (3.5.9) nella prima delle (3.5.6) e si controlla che

z = ( m - m ) s × am cada nell una o nell altra regione.
Analogamente, se si vuole verificare l ipotesi nulla

H0 : b = b

(3.5.10)

Le operazioni che conducono a queste verifiche di ipotesi sono riassunte nel Box 9. Esempio 3.4 Consideriamo la funzione del consumo (2.9.1) nell ipotesi di conoscere

s = 6325 e verifichiamo le due ipotesi nulle

H0 : m = 0

H0 : b = 1

I valori am e ab sono dati dalle (3.5.7) per cui la standardizzazione è semplice e nei due casi conduce a

z = ( m - 0 ) s × am = 51.937

z = b - 1 s × ab = 5.178

(

)

La regione di accettazione al 95% è [ -1.96, + 1.96 ) e sia la prima z che la seconda ne sono fuori. Si è quindi spinti a rifiutare ambedue le ipotesi nulle. Box 9 Test di ipotesi 1) Si debba verificare l ipotesi nulla H 0 : J = r supponendo che J sia uno stimatore non distorto (di J ) con distribuzione normale di valor medio J e di varianza
2 (nota) s J .

2) Si standardizza J con la trasformazione

% z = J - J sJ

(

)

(3.5.11)

3) Si pone J = r e si sostituisce la stima J al posto del suo stimatore nella (3.5.11) ottenendosi la realizzazione

z = J - r sJ
4) Si sceglie il livello di significatività a (che ora è del test). 5) Si traggono dalle tavole della variabile aleatoria normale standardizzata i valori critici z¢ e z¢¢ , e si costruisce la regione di accettazione [ z ¢, z ¢¢ ) . 6) Se z Î [ z ¢, z ¢¢ ) si è spinti ad accettare H 0 , altrimenti si è indotti a rifiutarla.

(

)

75

3.6

Inferenza statistica per la varianza dei residui
L inferenza descritta nel paragrafo precedente è molto valida dal punto di vista

didattico, ma non da quello empirico per il semplice motivo che la varianza s 2 dei residui non è generalmente nota. Deve essere quindi sostituita con una stima, che può essere quella campionaria

s2 =

1 n 2 å ut n t =1

(3.6.1)

che ha però il demerito di essere distorta. Dimostreremo in seguito che nel caso del modello semplice (2.9.1) con due parametri di regressione basta inserire n - 2 al posto di

n nella (3.6.1) per ottenere una stima non distorta

s2 =

1 n 2 å ut n - 2 t =1

(3.6.2)

Ovviamente, meno i valori dell endogena yt sono dispersi intorno alla retta di regressione e più piccola è s 2 (o anche s 2 ) e migliore è l adattamento della retta alle yt ; allora la sua radice quadrata s (o s ) presa positivamente, chiamata errore standard (SE) (dei residui) della regressione, può essere utilizzata come un indicatore della bontà di adattamento del modello ai dati, alla stessa stregua del coefficiente di determinazione

R 2 . Più piccolo è l errore standard e meglio la regressione si adatta ai dati per cui,
considerando le stime (3.6.1) oppure (3.6.2), dal punto di vista statistico è conveniente che n sia il più grande possibile. Il numero ( n - 2 ) indica i gradi di libertà (g.d.l.) con cui si stima s 2 e denota il fatto che, poiché la stima (3.6.2) dipende dai residui stimati u e questi a loro volta dipendono dalle due stime m e b , nel processo che dagli n dati di partenza conduce alla (3.6.2) sono imposte due restrizioni che limitano ad possono essere utilizzati nella stima di s 2 . Stima intervallare per s 2

( n - 2)

il numero di dati osservati che

% Dimostreremo in seguito che lo stimatore ut ha la stessa distribuzione di ut , cioè che
è

ut : N ( 0, s 2 )

"t

% e che le ut sono indipendenti se lo sono ut . Allora le variabili aleatorie ut s sono
variabili aleatorie normali standardizzate indipendenti e per la (A.3.2.4) la somma dei

76

% loro quadrati si distribuisce come un c 2 . Dimostreremo che il numero dei g.d.l. è

( n - 2 ) 18, pertanto
1 s2

åu
t =1

n

2 t

%2 : c n- 2

(3.6.3)

da cui l intervallo di confidenza al livello (di significatività) a per la varianza dei residui è dato, traendolo direttamente dalla (3.4.3), da

æ 2 1 P ç c n -2¢ < 2 s è

åu
t =1

n

2 t

ö 2 £ c n - 2¢¢ ÷ = 1 - a ø

(3.6.4)

2 2 dove c n - 2¢ e c n - 2¢¢ sono i quantili di probabilità a 2 e 1 - a 2 della distribuzione del chi

quadrato con n - 2 gradi di libertà. Dalla (3.6.4) si ottiene l intervallo di confidenza

1 c

2 n- 2

åu ¢¢

2 t

£s2 <

1 c
2 n-2

¢

åu

2 t

(3.6.5)

che costituisce anche la stima intervallare per s 2 . Nella figura 3.4 sono riportati i grafici delle funzioni di densità di probabilità del c 2 per i tre numeri di g.d.l. n - 2 = 10, 20, 30 .
2 Per a = 0.05 e per i tre numeri di g.d.l. n - 2 = 10, 20, 30 , i quantili c n -2¢ valgono 2 3.51, 9.95 e 17.21, e gli altri c n - 2¢¢ 21.72, 35.22 e 47.96 rispettivamente, evidenziando

numericamente il fatto che i quantili a sinistra e a destra nell intervallo di confidenza differiscono in valore assoluto (perché, ovviamente, la distribuzione del c 2 è non simmetrica). Verifica di ipotesi lineari semplici per s 2 L ipotesi nulla (3.6.6)

H0 : s 2 = r
con

r

costante positiva, può essere verificata contro l alternativa

H1 : s 2 ¹ r

utilizzando l intervallo di confidenza (3.6.5): se questo contiene r si è spinti ad accettare

H 0 , altrimenti si è indotti a rifiutarla e ad accettare l alternativa.
Si osservi che lo stesso test può essere condotto inserendo s 2 = r nella (3.6.3)
18

Si dice che la distribuzione del c ha n - 2 gradi di libertà.
2

77

Si noti che nella (3.2¢¢ (3.2¢ = 0 per cui la regione di 2 accettazione diventa 0.9) 78 . 20.6.4 Funzione di densità di probabilità del c 2 per i tre n-2=10.l. Il test diventa quindi monolaterale. Questo è il test del c 2 per la varianza dei residui.7) e verificando che il valore ottenuto c 2 sia compreso nella regione di accettazione per H 0 2 2 formato dall intervallo c n -2¢ .c 2 = å ut2 r t =1 n (3.a 2 . rispettivamente.6.2¢ e c n .9. in virtù del fatto che la variabile aleatoria c 2 assume soltanto 2 valori non negativi.3) come stimatori. % Nelle applicazioni.6.2¢ e 2 c 2 > c n .1) e verifichiamo l ipotesi nulla H 0 : s 2 = 39614436 (3.2¢¢ sono di probabilità a 2 e 1 .6. Esempio 3. 30. numeri di g.5 Riprendiamo la funzione del consumo (2. c n-2¢¢ ù e quella di rifiuto è composta dal solo intervallo per cui ( û 2 c 2 > c n-2¢¢ . c n -2¢¢ ù oppure in quello di rifiuto composto dalle due parti ( û 2 0 < c 2 £ c n .6.d. Figura 3.8) 2 2 dove i due quantili c n .7) le ut sono considerate come stime mentre nella (3. generalmente si preferisce prendere c n .

9) è accettata a tutti e tre i livelli di significatività.2 = 21 ed il test monolaterale fornisce i seguenti intervalli di accettazione ( 0.05 e 0.001 che è contenuto in tutti e tre gli intervalli di accettazione per cui si è spinti ad asserire che l ipotesi nulla (3.6.7) vale c 2 = 21.62 ] per a = 0. Il valore c 2 dato dalla (3. 0. 79 .6.l.67] e ( 0.I g. 38. 29.10 rispettivamente.01.d. sono n .93] . ( 0. 32.

se numeratore e denominatore sono variabili aleatorie indipendenti.6.1 per cui le due variabili aleatorie (3. S.3) per m e (3..1) b -b = s × ab b -b s × ab å ut2 s 2 × ( n .7.5.4) (3. Ma questa indipendenza è dimostrata nell appendice 3.s × am × tn -2 £ m < m .6.7.2) dalle quali si vede che sia m che b standardizzati mediante la stima (3. Di qui il nome della distribuzione.7.3.7.5.3) e gli intervalli di confidenza (3.l.6) che ora possiamo scrivere nelle due forme m-m = s × am m-m s × am å ut2 s 2 × ( n .s × am × tn .d.l.d.4) per b nonché i test di verifica dell ipotesi (3.2) si distribuiscono come una tn -2 m -m % ~ tn -2 s × am b -b % ~ tn -2 s × ab (3.5.s × ab × t n .6.2 (3.7.9) e (3.2) corrispondono al rapporto tra una variabile aleatoria normale standardizzata e la radice quadrata di un'altra variabile aleatoria che per la (3. funzione del numero dei g.5.2 Stabilita nel 1908 da uno statistico della birreria Guinness di Dublino.4) diventano ¢¢ ¢ m .7 Inferenza statistica per i parametri del modello lineare semplice con s 2 ignoto Dunque dobbiamo costruire gli intervalli di confidenza (3. Cominciamo con gli intervalli di confidenza.s × ab × t n .5) ¢¢ ¢ b .7. 19 80 .2).5.3) e (3. Ma nel calcolo delle probabilità si dimostra che tale rapporto è una variabile aleatoria chiamata t di Student centrale19 .2 ) t =1 n (3.3) ha la distribuzione del c 2 .2 £ b < b . la (3.5.1) e % (3. Gosset. divisa per il numero dei g. W.7.10) nel caso in cui s 2 non sia noto e sia sostituito da una stima che possiamo prendere non distorta.5. che pubblicò i suoi ritrovamenti sotto lo pseudonimo Student.2 ) t =1 n (3. che si basano sulle standardizzazioni (3.

l. ¢ 2) Si traggono dalle tavole della t di Student centrale con n .s × am × tn . rispettivamente. 5) Si trasformano le variabili aleatorie m e b nella t di Student m -m s × am .4) e (3.3.1.3) e (A.1.7.3. rispettivamente.dove i due quantili tn .p desiderato. i valori critici tn -2 ¢ e tn -2 . 3) Si stima la varianza con la s 2 = å u ( n . da cui l acronimo SE.3) sono detti errori standard20 di m e b .2 £ b < b . Errori standard delle stime I due denominatori s × am e s × ab nelle (3.2 20 In inglese Standard Error.s × am × tn -2 £ m < m . b -b s × ab 6) Si costituiscono gli intervalli di confidenza ¢¢ ¢ m .7.2 g.2¢ e tn . 81 .2 ¢¢ ¢ b .5) sono riassunte nel Box 10.d.7.s × ab × t n .4).s × ab × t n . Box 10 Intervalli di confidenza per m e b con s 2 ignoto 1) Si sceglie il livello di significatività a = 1 .a 2 .2¢¢ sono di probabilità a 2 e 1 .2) t =1 2 t n 4) Si calcolano gli errori standard s × am e s × ab dove am e a b sono definiti nelle (A. Le operazioni che conducono agli intervalli di confidenza (o stime intervallari) (3.

20. Questo significa che gli intervalli di confidenza e le regioni di accettazione definiti usando la distribuzione della t sono maggiori di quelli costruiti usando la normale. Ad esempio.05 i due quantili tn -2 e tn . ±2. generalmente tali tavole sono costruite per i livelli di significatività a pari al 10%.m) s × a b [tn¢ -2 . % Dato allora che le code della distribuzione della t sono più alte. altrimenti si è indotti a rifiutarle e ad accettare le alternative H1 : m ¹ m e H1 : b ¹ b La distribuzione della t di Student è più schiacciata della normale. rispettivamente.d. per a = 0. mentre i relativi quantili di una normale standardizzata valgono ±1. e quindi i margini di incertezza nelle stime (gli intervalli di confidenza) sono più ampi. Per ovvi motivi questa verifica di ipotesi è anche detta test della t di Student.Verifica di ipotesi Per verificare l ipotesi nulla H 0 : m = m . tn¢¢-2 ) . Le operazioni che conducono alle verifiche di ipotesi appena esposte sono riassunte nel Box 11. Questo risultato ha un fondamento intuitivo.571. oppure l altra H 0 : b = b .m) s × am oppure che ( b .l. basta inserire queste ipotesi nelle (3.. ¢ ¢ dove tn -2 e tn -2 sono dati dalle tavole dei % quantili della distribuzione della t di Student con n . sono tanto più esterni rispetto a quelli della normale quanto minore è il numero ¢ ¢¢ di gradi di libertà. 5% e 1%.2 g.3) e controllare che siano compresi nell intervallo ( m .7. a parità di area. 82 . alla quale si avvicina progressivamente all aumentare dei gradi di libertà.980 per i tre numeri dei gradi di libertà n-2 = 5. dato che quando il parametro s2 è ignoto l incertezza relativa al modello è maggiore. 120.086 e ±1.2 valgono ±2. Se sono compresi si è spinti ad accettare le ipotesi nulle.960 (quindi ai fini pratici una t120 è praticamente equivalente a una normale standardizzata). i quantili.

2 ) .d. gli ¢ ¢¢ ¢ ¢¢ estremi tn .2 ) si è spinti ad accettare H 0 . ¢ ¢¢ 7) Se t Î [tn -2 .4) 4) Si pone J = r e si sostituisce la stima J al posto del suo stimatore nella (3.2 e tn -2 e si costituisce la regione di accettazione del test [ tn -2 . 3) Si trasforma lo stimatore J con la trasformazione % t = J -J ( ) SE (3. tn .7. tn . 2) Si calcola la varianza campionaria dei residui e l errore standard SE della stima J. altrimenti si è indotti a rifiutarla.l.4) ottenendosi la realizzazione t = J -r ( ) SE 5) Si sceglie il livello di significatività a (che ora è del test!) 6) Si traggono dalle tavole della variabile aleatoria t di Student con n .2 g.Box 11 Test di ipotesi con s 2 ignoto 1) Si debba verificare l ipotesi nulla H 0 : J = r supponendo che J sia uno stimatore non distorto (di J ) con distribuzione normale di valore medio J e di 2 varianza (non nota) s J . 83 .7.

2 = b SE b .052 ) ( 24. Di seguito vengono esposti tre esempi illustrativi del modo di presentare i risultati delle stime di equazioni già esposte in precedenza.8 Tre esempi Ogni volta che si stima un equazione è praticamente obbligatorio verificare l ipotesi nulla che ciascun parametro sia uguale a zero.248 + 0. in quanto estremamente significativa nell analisi economica: se si è spinti ad accettare l ipotesi nulla si è indotti ad eliminare (l effetto di) una variabile esplicativa! Nel caso del modello lineare semplice che H0 : m = 0 .8. altrimenti a rifiutarla.145 .8.129t SE: t: (3. Tutti i programmi di calcolo econometrico forniscono il valore tn -2 oltre alla stima del parametro. Retta interpolante il logaritmo dei consumi Il modello è il (2. supponendo che i dati siano n .401 . sulla base del valore tn -2 oppure dell errore standard.2 .3) si ottengono.7. Tra parentesi tonde. tn -2 = m SE m e tn. che ora estendiamo con i risultati inferenziali esposti sinora ln ct = 13.310 campione 1960 1980 .5).610 ) ( 0. H0 : b = 0 (3.2 ) si è spinti ad accettare l ipotesi nulla (il parametro vale zero e quindi l intercetta oppure la variabile esplicativa x viene eliminata). tn . dove SEm e SEb sono gli errori standard delle due stime. R 2 = 0.3. Naturalmente è lasciato al ricercatore il compito di effettuare il test di nullità dei parametri.066 ) ( 201.2) ( 0. nella prima riga sono riportati gli errori standard delle stime e nella seconda i valori tn -2 in modo da rendere fattibile l inferenza sui parametri del 84 .970 RSS = 0.3. comprensivi dei valori tn -2 e degli SE. ¢ ¢¢ Se tn -2 è compreso nell intervallo t Î [tn . SE dei residui = 0.1) Inserendo queste ipotesi nelle (3. oppure il relativo SE.741) TSS = 13. in questo secondo caso il valore tn -2 è immediatamente determinato dividendo la stima per il suo SE.

Così.511 . 2.741 ) cadono fuori da tutte e tre regioni e quindi si è indotti a ritenere che i due parametri siano ambedue nonnulli a tutti e tre i livelli di significatività.444) (3. (10366) (-5.2) n .modello. Funzione del consumo Per il modello (2.8. TSS =120710590000 Si lascia al lettore il compito di effettuare il test della t di Student sui parametri. (0. 2. con l avviso di cosa contengono le parentesi tonde. SE dei residui =6294 . In generale sono riportati soltanto i primi o i secondi.861) [ -2.10 per la t.861.3) R 2 = 0.6) la stima OLS fornisce i risultati wt = 1.993 RSS =831954500 . Relazione tra tasso di cambio nominale e prezzi relativi Per il modello (2.093.325 xt SE : t: campione 1970 2002.729. TSS =1.729 ) se a = 0.9.0. 1.056) (20.8. 85 .128 .10.610 ) sia quella relativa a b (t = 24.009) (3. Dall ampiezza del campione si trae poi il valore di n .179) (0.05 se a = 0.093) [ -1.657 yt SE : t: campione 1980 2002.4) R2 = 0.2 = 19 e le tavole statistiche danno le seguenti regioni di accettazione [ -2. SE dei residui =0. sia quella relativa all intercetta (t = 201. Per la (3.8.034) (-9.1) la stima OLS fornisce i risultati seguenti zt = -53684 + 0.982 Anche in questo caso l inferenza statistica è lasciata al lettore.01 se a = 0.012) (55.156 .742 RSS =0.543) (0.

1) =b+ 86 . cioè l invarianza per la varianza.6) e (3.E ( y ) ù = ë% % 2 % û ë% % û = E é x .x ) ut 2 mxx .yx ) = m 1 x 2 1 å ( xt .a .x 2 n t =1 1 1 n 1 1 n % ( xt .E ( x ) .E ( ys ) ù = ë% { } { % ûë% = E {é x .a .x n t =1 (A.E ( y )ù = ë% ë% ë% % % % % = Var ( x ) + Var ( y ) + 2 × Cov ( x.E ( yt ) ù é ys .E ( xs ) ù = Cov ( xt .y ) = Var ( x ) + Var ( y ) .x )( m + b xt ) + å å ( xt .3) % % % % û Var ( x + y ) = E é x + y . y ) Analogamente si dimostra che { } % % % % % % Var ( x .2 × Cov ( x.x )( m + b xt + ut ) = mxx .E ( x ) ù + é y . xs ) } % % da cui l invarianza per la covarianza. Gli stimatori dei minimi quadrati Dimostriamo le (3.x 2 n t =1 1 1 n % å ( xt . cioè yt e xt differiscano per una costante additiva a .1.x )yt = mxx .E ( xs ) ù = ë s } % û % % .E ( y )ù ë% 2 { } 2 = 2 % û % û % ûë% % û = E é x .3.1 Complementi analitici La varianza di una somma di variabili aleatorie Dimostriamo la (3.E ( xt ) ù é a + xs .E ( x )ù é y . y ) La struttura di varianza covarianza invariante rispetto ad una costante additiva % % % % Sia yt = a + xt .x ) ut = mxx .Appendice 3.2. ys ) = E é yt .E ( x )ù + E é y .7) b= = = n 1 ( mxy .x 2 n t =1 mxx . Se t = s si ha Var ( yt ) = Var ( xt ) .1.2.E ( y ) ù + 2 E é x .E ( x ) ù é x ë% t t % % ûë % % û = E é a + xt . Allora % % E ( yt ) = a + E ( xt ) e % % % ûë% % û Cov ( yt .x 2 n t =1 xx - 1 1 n % å ( xt .

m = y -b x = 1 n % å ( m + b xt + ut ) .x )ut ú å ut ý = å mxx .1.3.b ) × å ut ] = E í ê ( xt .x E ç å u t ÷ý = ís å xt .b x = n t =1 1 n 1 n % % ut = m + x b .m ) ] = E í ê x ( b .x n t =1 û 2 2 (A.x 2 ) e la varianza di m partendo dalla (3.6) é 1 ù 1 n % Var ( b ) = E[( b .x ) ut ú = 2 ë mxx .x n n ë mxx .ns x ý 2 2 m xx .x n î t =1 þ î þ ~ dove a sua volta nell ultimo passaggio è stata impiegata la non correlazione delle u t per indici diversi.7) 2 ìé 1 n ù ü ï ï % Var ( m ) = E[( m .2.x 2 ) 2 n = s2 1 2 = s 2 × ab n mxx .b ) ] = E ê å ( xt .3) = s 2 å ( xt .x n ï ëè t =1 ø t =1 û è t =1 øï m xx .b )å ut ý = n t =1 n t =1 î þ n n 1 2x é ù % % = x 2 E[( b .x û dove nell ultimo passaggio si è utilizzato il fatto che n ìé 1 ù n ü 1 n ï ï % % % E[( b .b )2 + 2 (å ut ) 2 + x ( b .b ) × (å ut ) ú = n n ë t =1 t =1 û (A.4) = s2 x2 s2 s2 é x2 ù + = = s 2 × am ê1 + 2 2 ú n mxx .b + å ut å n t =1 n t =1 = m +bx -b x + ( ) (A.b )2 ] + 2 E[(å ut )2 ] + E ê (b .2.2) Le varianze degli stimatori dei minimi quadrati Calcoliamo la varianza di b partendo dalla (3.x )2 t =1 n n 2 (mxx .x 2 n t =1 t =1 ïë û t =1 ï î þ = 1 1 ì éæ n ~ ö n ~ ù æ n ~ öü 1 1ì 2 n ï ï 2 ü í E êç å xt u t ÷ å u t ú .x 2 avendo utilizzato la relazione å (x t =1 t .3.3. La covarianza tra gli stimatori dei minimi quadrati Calcoliamo la covarianza tra m e b 87 .1.x ) 2 = n(m xx .b ) + å ut ú ý = n t =1 û ï ïë î þ 2 n 1 n 2 ì ü % % = E í x 2 (b .1.

% mt = E ( x ) .b ú = 0 ëè n t =1 ø û ( ) Campo di variazione del coefficiente di correlazione Dimostriamo la doppia disuguaglianza nella (3.b ý = ë û û î ë n t =1 þ ( ) ( ) ( )( ) éæ 1 n ö ù % = E êç å ut ÷ b .b ëè n t =1 ø û ( ) ( ) 2 s2 = -x n ( mxx .5) dove nel secondo passaggio è stata utilizzata la (A.mx ù % % + êt ú sx ú ê sy ë û 2 con t costante reale. 2 % % s yx = Cov ( y.2).m y x . Dato poi che gli stimatori sia dei residui che dei coefficienti sono distribuiti normalmente.3. % s x2 = Var ( x ) .m y x .3.1.x b . con quelle di m e di b .10) ottenute dalle equazioni normali si ha che å y u = å(m + b x )u n n t =1 t t t =1 t t = m å ut + b å xt ut = 0 t =1 t =1 n n per cui le stime dei residui sono incorrelate con quelle della parte sistematica e.3.6.b ù = E í ê å ut .3. x ) Consideriamo poi la variabile aleatoria é y . 88 .ìé 1 n ü ù % Cov m .2).mx )2 ù = % y êt 2 ú E êt + + 2t ú =E 2 ê sy sx ú sy s ys x s x2 ú ê ë û ë û = t2 + 2t % % Var ( y ) ×Var ( x ) % % Cov ( y. 2 % s y = Var ( y ) .1. b = E é( m . x ) + 1 = t2 + 2 r t +1 che è sempre nonnegativa in virtù del quadrato. Siano % my = E ( y) .m y ) ( x .m x ) + ( x .3) nonché il fatto che è éæ 1 n ö ù % E êç å ut ÷ b .mx ù % % ( y . Indipendenza stocastica del numeratore e del denominatore nella t di Student Utilizzando le (2.b ú . la loro non correlazione implica la loro indipendenza stocastica.m ) b .x E b .2) e nel quarto la (A.b ú b . e prendiamone il valor medio 2 é ( y . Allora deve essere sempre r 2 .m )2 % % % é y .x 2 ) (A. da cui la (3. in particolare.3.1 £ 0 .1.

Appendice 3.2 Distribuzioni di probabilità rilevanti
Distribuzione normale

% La distribuzione di probabilità (di una variabile aleatoria x ) più importante è quella
detta normale (o di Gauss o gaussiana) che ha la forma della sezione di una campana con i lembi infiniti come nella figura 3.2. Essa dipende da due parametri m e s 2 che sono
2 % % rispettivamente il suo valor medio m = E ( x ) e la sua varianza s 2 = E é( x - m ) ù ; è

ë

û

simmetrica e quindi il suo punto più alto (la sua moda) si ha in corrispondenza di m . La distribuzione di probabilità normale è immediatamente definita dalla sua funzione di densità di probabilità, che matematicamente è

f ( x ) = ( 2ps

2

)

-1 2

ì ( x - m )2 ü ï ï × exp í ý 2 2s ï ï î þ

(A.3.2.1)

ed è indicata con il simbolo N m , s 2 . La forma campanulare della distribuzione normale è data dall esponenziale;

(

)

( 2ps )
2

-1 2

è un fattore di normalizzazione che serve semplicemente a fare in modo che

sia

ò

f ( x ) × dx = 1 , convenzione che si segue in tutte le distribuzioni di probabilità.

Di seguito sono esposte alcune proprietà di questa distribuzione, che non dimostriamo:

% a) Man mano che ci si allontana dal valor medio m la probabilità che x assuma i
valori contenuti in un intervallo infinitesimale a destra o a sinistra di m diminuisce. b) Approssimativamente, la superficie che giace sotto la curva normale definita dalla (A.3.2.1) vale 68 100 nell intervallo

[m -s , m + s ) ;

vale 95 100 in

[ m - 2s , m + 2s )

e 99.7 100 in [ m - 3s , m + 3s ) , come indicato nella figura 3.5.

c) La combinazione lineare di due o più variabili aleatorie normali è normale; in particolare, nel caso di due si ha che se
2 % x : N ( mx ,s x ) 2 % y : N ( m y ,s y )

% % % allora w = a × x + b × y è una variabile aleatoria normale con valor medio
% % m w = E ( a × x ) = E (b × y ) = a × m x + b × m y
e con varianza

89

2 2 % % % s w = E é( w - mw ) ù = E é( a × x + b × y ) - ( a × m x + b × m y ) ù ë û ë û

% % = éa ( x - mx ) + b ( y - m y )ù ë û

{

{

2

2

} = a ×Var ( x% ) + b ×Var ( y% ) + 2ab × Cov ( x%, y% ) =
2 2

}=

(A.3.2.2)

2 % % = a 2 × s x2 + b 2 ×s y + 2ab × Cov ( x, y )

% % Da questa relazione si nota che se x e y sono incorrelate allora
2 2 s w = a 2 × s x2 + b 2 × s y

m - 3s

m - 2s

m -s

m

m +s

m + 2s

m + 3s

68/100 95/100

99.7/100

Figura 3.5 Funzione di densità della distribuzione normale N ( m , s 2 ) con l indicazione del valore approssimato di tre superfici sotto di essa. d) Minore è la varianza s 2 e più concentrata è la distribuzione normale intorno al valor medio m .

% % % e) Se due o più variabili aleatorie normali x1 , x2 , K , xk sono incorrelate tra di
loro, allora sono indipendenti, cioè la loro funzione di densità multivariata è uguale al prodotto delle funzioni di densità singole

f ( x1 , x2 ,K , xk ) = f ( x1 ) × f ( x2 ) ×K × f ( xk )

90

f) Se m = 0 e s 2 = 1 , la variabile aleatoria normale è detta standardizzata e, ovviamente, è denotata con N ( 0,1) . Distribuzione del chi quadrato

% % % Consideriamo k variabili aleatorie normali standardizzate indipendenti z1 , z2 ,K , zk ,
eleviamole al quadrato e sommiamole

% % %2 % z12 + z2 + K + zk2 = w
quadrato, che dipende da k , il suo numero dei gradi di libertà (g.d.l.)

(A.3.2.3)

Otteniamo una variabile aleatoria che ha una particolare distribuzione, detta del chi

% w : c k2
I grafici delle funzioni di densità di probabilità del c riportati nella figura 3.4. Alcune proprietà di questa distribuzione, che non dimostriamo, sono:
2

(A.3.2.4) per tre numeri di g.d.l. sono

a) Il valor medio della distribuzione del c 2 con k g.d.l. è k e la sua varianza è 2k .

% % b) Se w1 e w2 sono due variabili aleatorie indipendenti con distribuzione del c 2
di k1 e k2 g.d.l. rispettivamente, la loro somma è una variabile aleatoria con distribuzione del c 2 con g.d.l. pari alla somma k1 + k2 . c) Come si vede dalla figura 3.4 la distribuzione del c 2 è asimmetrica, con il grado di asimmetria che dipende dal numero di g.d.l. Più grande è questo e meno asimmetrica è la distribuzione; al tendere di questo all ¥ , la distribuzione del c 2 tende alla distribuzione normale. Distribuzione della t di Student Il rapporto di una variabile aleatoria standardizzata e la radice quadrata di una

% variabile aleatoria distribuita come un c 2 diviso per il suo numero k di g.d.l. possiede
una distribuzione detta t di Student, se le due variabili aleatorie sono indipendenti (in probabilità). Nella figura 3.6 sono disegnate tre funzioni di densità di questo tipo per

k = 10, 30, 120 g.d.l.
Di seguito sono esposte alcune proprietà di questa distribuzione che non dimostriamo: a) La distribuzione della t di Student è simmetrica intorno allo zero, che è anche il suo valor medio.

91

ed è quindi indicata con Fk1 . Alcune proprietà di questa distribuzione.l. b) Il suo intervallo di variazione va da zero ad infinito. d) La distribuzione della F di Fisher con 1 e k g. Questa distribuzione dipende dai due g. Dal punto di vista delle applicazioni la t di Student con k > 60 è da considerarsi praticamente uguale alla normale standardizzata.l. che non dimostriamo. la distribuzione della F di Fisher tende a quella normale. dei c 2 .d. ciascuna divisa per il proprio numero di g.d.d. Nella figura 3.d.d.. se le due variabili aleatorie sono indipendenti. c) All aumentare di k la distribuzione della t di Student si avvicina alla distribuzione normale standardizzata.d. possiede una distribuzione detta F di Fisher. 92 .2 ) dove k è il numero dei g. Distribuzione della F di Fisher Il rapporto di due variabili aleatorie distribuite come un c 2 .k 2 . come quella del c 2 . sono: a) La distribuzione della F di Fisher è asimmetrica. c) Al tendere ad infinito dei suoi g.l. è uguale a quella del quadrato di una t di Student con k g.d.l. k1 e k 2 .l.7 sono disegnate tre funzioni di densità di questo tipo per tre coppie di g.l.l.b) La varianza della t di Student è k ( k .

CAPITOLO IV LA PROIEZIONE 93 .

valgano anche per il futuro le ipotesi deboli per i residui ìs 2 s = n + h ~ ~ ~ E (u n +h ) = 0 . n . n + n1 . Se utilizziamo il modello (4.1).1. (4.6.1. s = 1.3) i valori m e b vengono considerati come stimatori e non come stime. rimanga la stessa nei due periodi. rendendo così possibile l utilizzazione delle stime anche nella proiezione.1 Proiezione e proiettore nei modelli lineari Riconsideriamo il modello lineare semplice (2. . come ad esempio fatto dal de Finetti [1970] in ambito soggettivista. n1 (4.4. già ipotizzata sostanzialmente invariante nel campione.1) yt = m + b xt + ut (4. può essere giustificata in senso probabilistico se si considera. siano noti. . devono essere sostituiti da stime.. n + 2. n + n1 è detto periodo di proiezione. un + h è stato posto arbitrariamente uguale a zero).i valori dell esplicativa xt per i tempi t = n + 1.K .K .K . per proiettare yt e se supponiamo che: .1. Questa procedura. stimato nel periodo campionario.2) per cui risulta naturale prendere come proiezioni dei residui il loro valor medio.la struttura dell economia.1) e poniamoci il problema di proiettare yt fuori dal campione che percorre il tempo t = 1.. la proiezione di una variabile aleatoria come suo valor medio. 2.K .1.. n + 2. poiché la proiezione di ut è stata posta arbitrariamente uguale a zero. Se nella (4.4) e i parametri m e b . la proiezione y n + h al tempo n+h è yn + h = m + b xn + h h = 1.1.3) In effetti y n + h non è tanto la proiezione di yt quanto quella della sua componente sistematica.K . ripetiamo. 2 . sconosciuti. che è nullo.1. 94 . n1 (4. E (u n+ h × u s ) = í î0 s ¹ n + h. 2. la y n + h diventa una variabile aleatoria che chiamiamo proiettore della parte sistematica di yn + h (non di tutto yn + h poiché. dove l intervallo temporale n + 1.. tuttavia. in altre parole vogliamo determinare yn + h per h = 1. in questo caso si ha yn + h = m + b xn + h h = 1. n + n1 per ogni h.K . 2. 2. n1 .

Esso. ed in questo fatto consiste un altra buona proprietà delle proiezioni ottenute con i minimi quadrati.1. In questo secondo caso si proietta yt in tempi n + h .5) che definisce l errore di proiezione indica anche che questo può essere considerato come una variabile aleatoria oppure come una sua realizzazione.1.1. per i quali le realizzazioni yn + h sono conosciute e la proiezione viene chiamata ex post .yn + h = m . a meno di non accettare l impostazione del de Finetti.1. .K .nella proiezione y n + h si annulla arbitrariamente il residuo un + h ma nella realtà non è affatto detto che valga zero.la variabile esplicativa xn + h non è generalmente nota e va sostituita con una sua propria proiezione. può essere considerato non distorto in un altro senso. In questo caso si dice che y n + h è un proiettore incondizionatamente non distorto Proiezioni ex post ed ex ante La relazione (4. 95 .1).m + b . è un numero se al contrario y n + h è la proiezione (4.1. tuttavia.m ) + E é b . il proiettore (4.i parametri m e b sono stime e non i valori veri.1.b xn + h + un + h ( ) (4. L errore è aleatorio se è espresso in termini di stimatori m e b oltreché di residuo un + h .5) considerato come variabile aleatoria è nullo % E (en + h ) = E ( m . . 2.3) non è uno stimatore non distorto di yn + h definito dalla (4. L errore di proiezione Rimarchiamo il fatto che.6) il proiettore y n + h può essere considerato come uno stimatore non distorto di yn + h nel senso che il valor medio dell errore di proiezione è nullo. h = 1.3): .b xn + h ù + E ( un + h ) = 0 ë û ( ) (4. che illustriamo facendo ricorso all errore di proiezione definito nella maniera seguente en + h = yn + h .3) e xn + h è noto.1. nel caso in cui non siano note (e quindi gli errori non possono essere numericamente calcolati) la proiezione è chiamata ex ante. mentre lo è della sua componente sistematica.5) Poiché il valor medio dell errore (4. Considerando queste si valutano più correttamente le proiezioni che si ottengono. n1 .1.Nelle applicazioni occorre tener sempre presente quali sono le fonti di incertezza per la proiezione (4.

3) è quello che possiede errore quadratico medio minimo. valendo la (3.1. 96 . h = 1. n1 (4.K .x ú ë û (4. se m e b sono gli stimatori dei minimi quadrati il proiettore (4.1.4. n1 . L errore quadratico medio di proiezione La varianza dell errore di proiezione ci permette di stabilire un teorema di fondamentale importanza per la proiezione. Essa vale 2 ù s 2 é ( xn + h .2. n1 % % dove m e b sono stimatori qualsiasi tra i lineari e non distorti.9) se si prendono le costanti c1 e c2 pari a 1 e a xn + h . 21 In inglese: Mean square error of prediction.x ) % Var (en + h ) = ê1 + + nú 2 n ê mxx .3) gode della proprietà di essere BLU. in quanto è lineare rispetto alle yt poiché lineari sono gli stimatori OLS.2 La proiezione con il criterio dei minimi quadrati Supponiamo d ora in poi che il criterio di stima dei parametri sia quello dei minimi quadrati.1. 2. è non distorto rispetto alla parte sistematica di yn + h E ( yn + h ) = E m + b xn + h = E ( m ) + E b xn + h = m + b xn + h ( ) ( ) h = 1.K . rispettivamente.2) è detta errore quadratico medio di proiezione21 ed è generalmente considerata come un indicatore della precisione della proiezione. 2. In questo caso il proiettore (4.3) viene ottenuto con il criterio dei minimi quadrati esso gode di un ottima proprietà poiché vale il seguente Teorema 4. per cui quando il proiettore (4.2) come dimostriamo nell Appendice 4. Tanto più piccolo è questo errore e tanto più precisa è la proiezione. La dimostrazione sarà fatta nel caso dei modelli lineari multipli.1) dove nel secondo passaggio si è sfruttata la linearità dell operatore E e nel terzo il fatto che se xn + h è una costante (nota) allora E b x n+ h = E b × xn + h ed è ottimo in quanto ( ) () ( % % Var ( yn + h ) = Var m + b xn + h £ Var m + b xn + h ( ) ) h = 1.1. La varianza (4.2. 2.K .1 Tra i proiettori lineari (rispetto alle yt ) e incondizionatamente non distorti.2.2.

rispettivamente. che in realtà hanno un significato leggermente diverso dal consueto in quanto la ~n + h è una quantità aleatoria y ~ (funzione di u n + h ). 2.1. 2. Vediamo dunque come si costruiscono intervalli di confidenza per le yn+h . n1 97 . Ma le proiezioni intervallari assumono un significato più rilevante delle stime intervallari in quanto in economia sono di utilizzazione più immediata. n1 In questo caso l errore di proiezione (4.K .1) s × an + h s × an +h e che h = 1.2).K . h = 1. Volendo trovare gli intervalli di confidenza per le yn + h . s 2 × a 2 ) en+ h n+h se poniamo 2 n+h 2 ù 1 é ( xn + h .4. per cui è anche % un + h : N ( 0. E la simmetria continua negli intervalli di confidenza.5) è una variabile aleatoria costituita da una ~ combinazione lineare degli stimatori m e b distribuiti normalmente e di u n + h anch essa normale.6) e (4. Innanzitutto supponiamo che valgono le ipotesi forti per i residui sia nel periodo campionario che in quello di proiezione. 2. 2. per cui è ~ ~ N (0.1) in virtù delle (4.K .x ) = ê1 + + nú nê mxx .3.3 Intervalli di confidenza per le proiezioni Si è visto che esiste una certa simmetria tra le stime e le proiezioni: in ambito stocastico esse si trasformano in stimatori e proiettori. che come sussistevano per le stime così sussistono per le proiezioni. s 2 ) h = 1. consideriamo che % % en+ h y .x 2 ú ë û h = 1.yn + h = n+ h : N ( 0. Si può anche asserire che se occorre effettuare una proiezione di variabili economiche è bene che sia intervallare e non puntuale.K .1. n1 . n1 a (4.2.

yn + h é n ù % an + h êå ut2 /(n . forniti dalle tavole della t di Student con n .1.yn + h ¢ ¢¢ P ç tn .5) ~n + h è formata dalle m e b non correlate con le ut e dalla u n + h non correlata con e le u t per la (4.2 gradi di libertà.2 ÷ = 1 . L intervallo risulta. vale l asserita indipendenza stocastica.1.k ) ú ë t =1 û poiché ~n+ h e e 1/ 2 = % yn + h . n1 . dunque. 2.2). n1 % åu t =1 n t sono variabili aleatorie stocasticamente indipendenti.2 £ yn+ h £ yn+ h + an+ h × s × tn.yn + h : tn + h an + hs h = 1.% yn + h . e va interpretato come l intervallo più corto che contiene il valore aleatorio ~n + h con probabilità 1-a.a an + hs è ø ¢ ¢¢ dove tn -2 e tn -2 sono i quantili di probabilità a 2 e 1 .a 2 rispettivamente.2 £ n + h £ tn .2 per h = 1. ¢ % ¢¢ yn+ h + an + h × s × tn. essendo tutte queste variabili distribuite normalmente. L intervallo di confidenza al livello a è trovato partendo dalla condizione æ ö % y .K .K . Infatti per la ~ % (4. 2. y 98 .

04 e tn .796 0.8.1. Si hanno poi i risultati errore di previsione h 1 2 3 yn + h effettivo 616498 622931 625708 yn + h previsto 615667 627839 630388 SE di previsione 832 -4908 -4680 7508 7615 7638 che graficamente sono esposti nella figura 4.2 = 2.034 0. 99 .567 1.3.2.117 1.556 1.798 SE di previsione 0.4.08 e tn .085 1.012 0.580 1. n .013 0.2). n .2 = 19 per cui tn . n .289 0.08.321 0. Retta interpolante il logaritmo dei consumi ¢ ¢¢ Il modello stimato è il (3.4).013 che graficamente sono esposti nella figura 4.093.579 SE di previsione 0.4 Tre esempi Riprendiamo le equazioni stimate nel paragrafo 3.263 0.601 1. Funzione del consumo ¢ ¢¢ Il modello stimato è il (3.024 0.04.106 che graficamente sono esposti nella figura 4.8.2 = 31 per cui tn -2 = -2.061 yn+ h previsto 0.626 yn+ h previsto 1. Relazione tra tasso di cambio nominale e prezzi relativi ¢ ¢¢ Il modello stimato è il (3.2 = 21 per cui tn -2 = -2.106 0.3).2 = 2.047 0.8. Si hanno poi i risultati errore di previsione h 1 2 3 yn+ h effettivo 1.2 = 2. Si hanno poi i risultati errore di previsione h 1 2 3 yn+ h effettivo 1.2 = -2.106 0.093 e tn .05 .8 ed effettuiamo la proiezione intervallare ex post per tre tempi al livello a = 0.796 0.

l errore quadratico medio 1 n1 2 MSE = å en +h n1 h =1 (4. Spesso è utile valutare alcuni degli indicatori precedenti in termini percentuali rispetto ad yn + h al fine di disporre di una misura di errore indipendentemente dalla In lingua inglese gli indicatori sono: Mean prediction error (MPE). mentre nell MPE gli uni si elidono con gli altri).5 Indicatori dell accuratezza delle proiezioni Quando le proiezioni sono effettuate ex post è possibile valutare numericamente gli errori di proiezione (4.5) che vale zero quando tutti gli errori di proiezione sono nulli e tende ad uno man mano che l accuratezza delle proiezioni peggiora. mean absolute error (MAE). root mean square error (RMSE).5.3) che è la stima campionaria dell errore quadratico medio di proiezione e che spesso è considerato sotto radice quadrata aritmetica dando luogo alla radice dell errore quadratico medio RMSE = MSE1 2 (4.4) in modo da ottenere un indice della stessa dimensione dell errore. dei quali i cinque più comuni sono l errore medio MPE = 1 n1 å en +h n1 h =1 (4.5. mean square error (MSE).5. rispettivamente. Theil s inequality coefficient (U). A tal fine sono stati costituiti alcuni indici.1) che è nella sostanza la media aritmetica degli n1 errori di proiezione.2) che è la media aritmetica degli errori presi in valore assoluto (in modo da considerarli simmetricamente. l errore medio assoluto MAE = 1 n1 å en+h n1 h =1 (4. sia i positivi che i negativi.5.4.5.1. 22 100 . ed infine il coefficiente di disuguaglianza di Theil22 æ n1 2 ö ç å en + h ÷ è h =1 ø U= 1/ 2 1/ 2 n1 æ æ n1 2 ö 2 ö ç å yn + h ÷ + ç å yn + h ÷ è h =1 ø è h =1 ø 1/ 2 (4.5) e misurare così l accuratezza delle proiezioni stesse.

m ) + xn + h ×Var b .00004 consumo Relazione tra tasso di cambio 0. Appendice 4.x û n mxx .b xn + h ù + s 2 = ë û 2 2 2 2 ù 2 s s é x 1 x ×s = + xn +h . due e tre tempi in avanti di tre modelli.0005 interpolante il log dei consumi Funzione del 3473 15561577 3945 0.1.5.4) e (A.5.291 0.b xn + h ù + Var ( u n + h ) = ë û ë û 2 = Var ( m . radice quadrata dell errore quadratico medio.155 0.m ) b .1.133 0. errore medio assoluto percentuale ed errore quadratico medio percentuale per le proiezioni uno. Nella tavola 4.5).1 Complementi analitici La varianza dell errore di proiezione Dimostriamo la (4. (A.dimensione della variabile che si proietta: sostituendo nelle (4.072 nominale e prezzi relativi Tavola 4.352 0. 101 .2 xn + h +s 2 = ê1 + 2 ú 2 2 n ë mxx .006 0.1 sono esposti i valori di alcuni di questi indici per le proiezioni dei tre esempi mostrati nel paragrafo 4.b xn + h + un + h ù = Var é m .1 Errore medio assoluto. coefficiente di Theil.2) e (4.m + b .2) % % % Var (en + h ) = Var é m .3.2.x ) ( ( ) ) ( ) ( ) 2 ù s 2 é ( xn + h .x 2 ú ë û % dove nel secondo passaggio abbiamo utilizzato la non correlazione tra un + h e i residui del periodo campionario e quindi m e b .364 0.m + b .3.b + 2 Cov é( m .1. errore quadratico medio.3) al posto degli errori en + h i rapporti en + h / yn + h si ottengono l errore medio assoluto percentuale (MAPE) e l errore quadratico medio percentuale (MSPE).003 0.3). Modello MAE MSE RMSE U MAPE MSPE Retta 0.x n ( mxx .x ) = + nú ê1 + n ê mxx .267 0.011 0.3) e nel quarto le (A. nel terzo la (3.1.022 0.292 0.3.085 0.4.

CAPITOLO V LA MALASPECIFICAZIONE 102 .

si dice che in quell istante si è avuto un cambiamento della struttura economica.1.5. possono essere considerate valide. cioè del fatto che tutte le loro varianze siano uguali.1. Questi test sono chiamati di malaspecificazione.1.1. e mostreremo alcuni test che permettono di verificare l esistenza di questo cambiamento strutturale. La terza ipotesi è quella della normalità dei residui (la v) e la quarta è relativa alla omogeneità del campione: se questo è omogeneo per tutti i tempi precedenti un certo istante ed è anche omogeneo. Sia dato il modello lineare semplice y = m + b xt + ut per il quale abbiamo supposto cha valgano le ipotesi deboli: i) (5. La prima ipotesi che sottoponiamo a verifica è quella dell omoschedasticità dei residui.1.1 Aspetti variegati della malaspecificazione Riprendiamo le ipotesi stocastiche sotto le quali abbiamo effettuato le analisi precedenti. ii) iii) i valori xt sono noti " t .1) soddisfano alle ipotesi i) v).2) iv) és 2 0 K 0 ù ê ú 2 ê0 s K 0 ú = ì0 % % E ( ut × us ) = êM ú ís 2 O ê ú î 2 ê0 0 K s ú ë û t¹s t=s (5. s 2 ) "t (5.1) il campione è omogeneo e i parametri m e b sono invariabili nel tempo. se queste ipotesi. tramite test. cioè dell autocorrelazione di ordine uno. 103 .4) In questo capitolo verifichiamo. La seconda ipotesi che sottoponiamo a verifica è quella della nullità della covarianza tra un qualsiasi residuo e quello seguente (o il precendente). % E ( ut ) = 0 (5.3) nonché quelle forti: v) % ut : N ( 0. dato un campione. ma diverso dal precedente. per tutti i tempi successivi. in quanto verificano che i dati campionari con cui si stimano i parametri della (5.

× exp(a s z st ) t (5. possiamo porre s 2 = exp(a 1 z1t ) × exp(a 2 z 2t ) × . per cui in conclusione si ha 23 Weighted Least Squares. t¹s t=s (5.1.3) s 2 = exp (a1 ) z2t = ln wt In secondo luogo supponiamo che a 2 = 2 . in primo luogo che siano s = 2 e z1t = 1 "t.5. per i quali è necessario che valgano le (5.2. Sotto l ulteriore ipotesi che s t2 sia funzione crescente (l adattamento al caso decrescente è banale) di queste variabili. zst. Supponiamo. Sempre per comodità è conveniente specializzare ulteriormente la (5. in inglese.1. per cui la (5.2).1) diventa s t2 = exp(a 1 ) × exp(a 2 z 2t ) = s 2 × wta 2 avendo posto (5.2. ma crescente o più raramente decrescente.2. 104 . dunque. Se una tale situazione vale per la (5. .2) dove la crescenza è rappresentata mediante l esponenziale per comodità di sviluppo analitico.2.1) e se il termine b xt non rappresenta sufficientemente tale variabilità non costante. oppure ancora crescente e poi decrescente a tratti...2) senza che le ipotesi addizionali condizionino troppo le situazioni reali. z2t.1) In tale caso l analisi svolta in precedenza mostra come non possano essere più utilizzati gli stimatori dei minimi quadrati ordinari. La stima dei minimi quadrati ponderati (WLS 23) Viene naturale ipotizzare che l eteroschedasticità dei residui sia causata da alcune variabili note che indichiamo con z1t.2 Eteroschedasticità dei residui Nelle variabili economiche accade spesso che la variabilità non sia costante nel tempo.2. questa si trasferisce sui residui ut per cui l ipotesi iv) si trasforma nella ì0 ~ ~ E (u t × u s ) = í 2 îs t caratterizzandone la eteroschedasticità.

4) Sotto l ipotesi (5. SE dei residui=6514 . per eliminare l eteroschedasticità basta dividere il modello (5.1) ma supponendo che sia il consumo che il reddito siano nominali.2.3).1).2. si ritorna all ipotesi standard di omoschedasticità. "t. dove yt è il consumo nominale e xt è il reddito nominale (ITAGDP. La stima dei minimi quadrati fornisce i risultati yt x 1 = -772503 + 0. in questo specifico caso 1 wt . La stima effettuata in questo modo è detta dei minimi quadrati ponderati o WLS. Se ipotizziamo che essa sia sostanzialmente dovuta dall inflazione. infatti (5.863) (203. possiamo prendere come wt la serie OCSE del deflatore dei consumi privati ITAPCP e stimare l equazione (5.s 2 = s 2 × wt2 t Se wt = 1 .1 Possiamo considerare nuovamente la (2.9. Valgono dunque le ipotesi deboli (3.8. La figura 5.1 mostra l andamento del consumo nominale in Italia.1.2. TSS=120710590000 abbastanza differenti da quelli nella (3. poiché ogni elemento t-esimo del campione viene pesato con un fattore. prodotto interno lordo ai prezzi di mercato). (5.2.993 RSS=891158910 .1. con una eteroschedasticità che supponiamo soltanto parzialmente spiegata dal reddito nominale.608 t wt wt wt t: campione 1980-2002. 105 .5) ~ æu Eç t çw è t ö 1 ~ ÷= ÷ w E (u t ) = 0 ø t "t t¹s t=s 0 ì ~ ~ æu u ö 1 ï ~ ~ Eç t × s ÷ = E (u t × u s ) = í 1 s 2 = s 2 ç w w ÷ w ×w s ø t s è t ï wt2 t î avendo fatto uso della (5.5).1). Esempio 5. (-4.1) per wt yt 1 x u = m +b t + t wt wt wt wt che si può stimare con gli OLS.5).284) R2 = 0.2.

anni 1980-2002.1 Serie storica annuale del consumo nominale in Italia espressa in migliaia di miliardi. 106 .ct 80 70 60 50 40 30 20 10 0 1980 1985 1990 1995 2000 t Figura 5.

5. senza le dimostrazioni che possono essere trovate negli articoli originali. alcuni test comunemente usati per verificare l eteroschedasticità dei residui.1.1) con gli OLS e si calcolano i residui stimati u t .1) in presenza di Il test di Breusch e Pagan eteroschedasticità è necessario ovviamente verificare che questa sussista.3. approssimativamente e per un campione grande. è tale che.2) åv t =1 n 2 t 5) sotto H 0 la ESS.1) s t2 = h (a1 ) = s 2 = costante I passi da percorrere in questo test sono i seguenti: 1) si stima il modello (5. l ipotesi nulla H0 : a2 = 0 suggerisce omoschedasticità poiché in questo caso è (5.3. 24 2 107 . Se supponiamo che z1t = 1 ed s = 2 .3 Test di omoschedasticità Prima di effettuare operazioni volte a stimare la (5.1.2). Illustriamo allora. La divisione per la costante s serve unicamente a semplificare le elaborazioni metodologiche contenute nel lavoro originale di Breusch e Pagan.1) s t2 = h (a1 z1t + a 2 z2 t + K + a s zst ) dove h è una funzione indeterminata poiché il test ne è indipendente. Il primo test è dovuto a Breusch e Pagan [1979] e presuppone che sotto l alternativa H 1 : s t2 ¹ s 2 valga una relazione del tipo di (5. differenza tra devianza totale e devianza residua della (5.3. 2) si calcolano le quantità s2 = 1 n 2 å ut n t =1 u t2 s2 "t 3) si utilizza la u t2 / s 2 come variabile proxy di s t2 e quindi si stimano i parametri della regressione24 ausiliaria ut2 = a1 + a 2 z2t + vt s2 4) si calcola la devianza residua (5.2.

mentre nel 5% dei casi si collocherà nella regione di rifiuto é c12 .960 che è maggiore di 3. per cui la 108 . quantile al 95% della distribuzione del c 2 con 1 g. Siamo quindi spinti a rifiutare l ipotesi nulla di omoschedasticità. Stimiamo quindi la regressione ausiliaria { } ut2 = a1 + a 2 z 2t + n t s2 e calcoliamo ESS 2 = 4. c12 ë ) si è spinti ad accettare l ipotesi nulla di omoschedasticità (5.84 .d. é0. Il test del chi quadrato % La (5.l. c12 ë ) dove c12 è il quantile di probabilità 95%. Esempio 5.3. se ESS 2 cade nell intervallo é0.3. +¥ .2)).2 e verifichiamo che i residui siano omoschedastici. come effettuato nell esempio 2.3) indica che sotto la H 0 la variabile aleatoria ESS 2 ha distribuzione c12 e quindi nel 95% dei casi si collocherà nella regione di accettazione del test.3. Basta allora calcolare il valore ë ) ESS 2 e trovare il quantile c12 dalle tavole del c 2 con un g.l..% ESS : c12 2 (5. altrimenti a rifiutarla (ed accettare quindi l ipotesi di eteroschedasticità). Stimiamo il modello ct = m + b t + ut (5.2).3. a seconda degli obiettivi che si pone il ricercatore.d.3. che consideriamo monolaterale. supponendo che responsabile di una eventuale eteroschedasticità potrebbe essere il deflatore dei consumi privati (ITAPCP nella base dati OCSE.4) con gli OLS e calcoliamo s 2 nonché la serie ut2 s 2 . z 2t nella (5.1).3. Ovviamente il 95% di probabilità può essere sostituito con il 99% o il 90%.2 Consideriamo l equazione che lega i consumi privati nominali ct in Italia con il tempo. La formulazione di Koenker Il significato intuitivo del test è questo: se sussiste l eteroschedasticità.3) per cui si può effettuare un test del chi quadrato per la verifica dell omoschedasticità. e se questa è effettivamente spiegata dalla variabile z 2t prescelta. allora questa stessa variabile fornirà una buona spiegazione dell andamento della u t2 / s 2 nella (5.

102ct n = 21 Ru2 = 0.3.6) dove Ru2 è il coefficiente di determinazione non centrato (2. è possibile prendere come z 2t il quadrato dei valori dell endogena stimata yt2 .2. 109 . Il valore soglia della distribuzione del c12 è lo stesso dell esercizio precedente.3.5) stimata è ut2 = 200000000000 + 0.1 La (5.4) l equazione ausiliaria (5. Si è quindi spinti a rifiutare l ipotesi di omoschedasticità se la variabile z 2t prescelta spiega bene l andamento del quadrato dei residui.279 per cui nRu2 = 5. i residui derivati da una stima OLS) per permettere o semplicemente per facilitare il calcolo delle statistiche di determinati test.3. che viene stimata generalmente usando grandezze derivate dalla stima di un modello econometrico (ad esempio. Per effettuare il test basta infatti stimare con i minimi quadrati il modello ut2 = a1 + a 2 z2 t +n t e in tal caso si dimostra che asintoticamente e per un campione grande: (5.2) e (5.6) della (5. intendendosi con questo termine una regressione priva di diretto significato economico.5) nRu2 : c12 (5.3 In mancanza di ipotesi a priori specifiche sulla natura dell eventuale eteroschedasticità. Nel caso del modello (5.84. Osservazione 5.5).3.devianza spiegata è abbastanza elevata e la statistica ESS 2 è maggiore del valore soglia. Esempio 5.838.3. Questo fondamento intuitivo è alla base di una formulazione alternativa del test.8. cadendo quindi nella regione di rifiuto del test del c 2 .3. proposta da Koenker [1981].5) sono esempi di regressione ausiliaria. 3. che risulta di più rapida implementazione del precedente in quanto prescinde dal calcolo di s 2 . La teoria moderna della verifica delle ipotesi utilizza largamente le regressioni ausiliarie.3. come effettuato nell esempio 5. per cui la statistica nRu2 cade nella regione di rifiuto del test e si è così spinti a rifiutare l ipotesi nulla di omoschedasticià.

(624420) (-2. TSS = 178214800000000 Ovviamente le stime (5.764 RSS = 42103686000000. nella trattazione del modello di regressione multipla.1) e (5.764 RSS = 42103686000000. Il metodo sarà esposto più in avanti.4.98) (53646) (7. SE dei residui =1488618.136) (66359) (6. White (1980) ha tuttavia sviluppato un metodo che permette di ottenere gli errori standard delle stime tenendo conto dell eteroschedasticità: il vantaggio è quindi notevole.4 La correzione per l eteroschedasticità di White Si è detto che la presenza di eteroschedasticità comporta che le stime ottenute con i minimi quadrati ordinari non siano buone e da questo si trae che i loro errori standard. che abbiamo verificato contenente eteroschedasticità fornisce i risultati ct = -1333928 + 420437t SE: t: campione 1960 1980.4. non siano affidabili.336) (5. sebbene la numerosità campionaria. mentre quelli corretti per l eteroschedasticità con il procedimento di White sono ct = -1333928 + 420437t SE: t: campione 1960 1980.4). TSS = 178214800000000 (673610) (-1. La semplice stima dei minimi quadrati della (5.4.837) (5.3. così come le t di Student. SE dei residui =1488618.1) R 2 = 0. 110 . sebbene la procedura valga soltanto approssimativamente e per un campione numeroso.2) sono differenti soltanto negli errori standard e nelle t di Student ma l affidabilità dell inferenza statistica effettuata con i risultati (5. H.5.4.4.2) è maggiore. non sia alta come dovrebbe. e per il momento ci fermiamo soltanto ad evidenziare le differenze nei valori ottenuti per gli errori standard e per le t di Student considerando e non considerando la correzione di White.2) R 2 = 0. n=21.

condurranno a modelli di carattere dinamico. generalmente si sottostimano le varianze degli stimatori.le t di Student sono sovrastimate. Vedremo come le procedure di trattamento della covarianza dei residui. che non vengono spiegate dalla parte sistematica yt 111 . .gli indicatori R2 sono sopravvalutati. .5 Fonti e conseguenze dell autocorrelazione Anche l ipotesi di covarianze tra i residui nulle è molto restrittiva e cercheremo di rilassarla.1. .1).1.gli errori standard degli stimatori dei parametri sono sottostimati. In conclusione sono considerati significativamente diversi da zero anche parametri di regressione non significativi e complessivamente buone equazioni (5. dovuta o a omissione di variabili o alla scelta di una forma funzionale errata. In effetti. le correlazioni tra gli stimatori dei parametri di regressione sono stimate in modo inesatto. Le conseguenze dell'autocorrelazione dei residui sugli stimatori possono essere perniciose.presenza di tendenza nella serie { yt } .presenza di autocorrelazione già nella { yt } . . In effetti l'autocorrelazione dei residui deriva dall'esistenza di relazioni dinamiche nei valori dell'endogena dell'equazione (5. cioè della loro autocorrelazione (correlazione di un residuo con se stesso ritardato di t unità temporali). se si stima la (5. per cui: .1) che non lo sono. .1. In sovrappiù.1.errori di misurazione nei valori della { yt } .5.specificazione inesatta della (5. Queste relazioni non spiegate portano all'autocorrelazione dei residui ad esempio in seguito a: .1).1) con gli OLS senza rendersi conto che i residui sono correlati tra di loro.

6 Test di autocorrelazione dei residui Dovendo stimare un equazione è allora necessario dapprima accertarsi dell'esistenza dell autocorrelazione dei residui e poi procedere alla stima. con il dettagliarsi della dinamica delle equazioni. è aumentato il numero delle autocorrelazioni dei residui da considerare e da rilevare come eventualmente differenti da zero mediante test. tra un residuo ed il suo precedente oppure il suo seguente. Durbin e G. 5. x2 . dapprima il test più usuale di verifica dell'esistenza di autocorrelazione di ritardo uno.5. Negli anni cinquanta e sessanta i modelli econometrici avevano una struttura dinamica semplice e l'autocorrelazione che veniva ritenuta più rilevante era quella di ritardo uno. per poi passare.6.1 Il test di Durbin e Watson J. L'ipotesi ~ nulla (5. La relazione tra processo e serie storica è dunque funzione del campione { x1 . Più tardi.1) ~ ~ H 1 : Corr (u t .K . u t -1 ) = r(1) = 0 contro l'alternativa (5.S. tenendo eventualmente in considerazione tale autocorrelazione nel caso che i test di esistenza abbiano dato responso positivo. Essi costruiscono la statistica 112 . xn } delle variabili esplicative e così occorrerebbe costruire un test di autocorrelazione specifico per ogni campione. Illustriamo in questo paragrafo il test di autocorrelazione più comunemente utilizzato.5. ut -1 ) = r(1) ¹ 0 ma si accorsero subito di un problema comune a tutti test di autocorrelazione. in altri capitoli. Watson (1950 e 1951) costruirono un test per verificare l'ipotesi di esistenza di autocorrelazione del primo ordine ~ ~ H 0 : Corr (u t . Illustriamo.6. detta anche del primo ordine. ai test per l'autocorrelazione di ritardi superiori. Vediamo come Durbin e Watson abbiano sviluppato un test che è sì basato sulle u t ma che supera questo problema. cosa possibile ma chiaramente inaccettabile. allora.1) riguarda il processo { u t } ma a disposizione dell'econometrico non c'è tale processo bensì la serie storica { u t } dei residui stimati.

1 t =2 r= = 1 n 2 å ut n .2) deriva dal fatto che le due sommatorie åu t =2 n 2 t e åu t =2 n 2 t -1 non sono perfettamente uguali ma differiscono per il primo e l'ultimo termine.1) è accettata se la statistica25 d è vicina a 2.6. Si ha allora che se se se E (u t ) = 0 . al variare del campione.6. e ne tabularono i valori al variare di n e del numero delle variabili esplicative che però per ora sono soltanto una.6. ma Durbin e Watson si accorsero che. Durbin e Watson determinarono numericamente la distribuzione di d . esposto sopra. la si rifiuterebbe nel caso contrario. la distribuzione di d dipende dal campione { x1 . però.2) dove il simbolo » indica l'uguaglianza approssimata e 1 n å ut ut -1 n .1 t =2 åu u t =2 n n t t -1 2 t åu t =2 (5. L'approssimazione nella (5.1) se la statistica d fosse compresa tra d1 e d2. xn } e quindi d1 e d2 sono funzioni di esso. x2 . l'approssimazione è r (1) = 0 r (1) < 0 r (1) > 0 d =2 +2 < d £ +4 0 £ d < +2 e l'ipotesi nulla (5. Così si accetterebbe l'ipotesi (5.u t -1 ) 2 = åu t =2 n 2 t + å u t2-1 . dalle tavole di Durbin e Watson sarebbe possibile trarre con precisione gli estremi d1 e d2 dell'intervallo che conterrebbe il valore 2 con una data probabilità.K .3) è la stima campionaria del coefficiente di autocorrelazione del primo ordine. che non è standard. Se non esistesse il problema della dipendenza di d dalla variabile esplicativa."t.r(1)] (5. d1 si muoveva in un intervallo abbastanza ristretto. Se e poiché però n è sufficientemente grande generalmente buona.6.d= å (u t =2 n t n .2å u t u t -1 t =2 t =2 n n å u t2 t =2 n = 2[1 .2å u t u t -1 t =2 t =2 n n å ut2 t =2 å ut2 t =2 n » 2å u t2 .6. delimitato da due valori ~ ~ 25 Viene chiamato così l elemento pivot che si costruisce nei test per la verifica delle ipotesi. 113 . Per sviluppare il test. Malauguratamente.

5) (5.Se 0£d<dL il test suggerisce di rifiutare tale nulla e di accettare l'alternativa di autocorrelazione positiva.dL e dU26. Durbin e Watson determinarono la distribuzione della d .6.6. pertanto tavole statistiche in cui porre la coppia di valori dL e dU in funzione di n.6. e quindi le tavole. 26 L=lower. è compresa tra dU e 4-dU il test suggerisce di accettare l'ipotesi nulla (5. indicata spesso con le iniziali DW. di k e del livello 1% o 5% di probabilità del test.2 La condizione ii) implica che x non può essere l endogena % ritardata (di un qualsiasi ritardo t ) poiché yt -t è sempre stocastica (in % quanto funzione di ut -t ). Questa viene eseguito facilmente sulla base del grafico seguente: d: 0 dL dU 4.d L 4 r (1) +1 0 -1 Se la statistica d.6. suo simmetrico rispetto al punto d=2.4-dL). Costruirono.1) di assenza di autocorrelazione di primo ordine.4) "t t¹s t=s (5. sotto le due condizioni: i) la (5.6) Osservazione 5. e che similmente d2. si muoveva nell'intervallo delimitato da 4-dU e 4-dL. [4-dU. il risultato del test è indeterminato. in inglese. 114 .1. Se d cade in uno dei due intervalli [dL.1) contiene l'intercetta.d U 4. ~ ii) la variabile esplicativa x non è stocastica. L autocorrelazione diventa negativa se 4-dL£d<4. U=upper.dU). e inoltre sotto l ipotesi che i residui ut siano generati dallo schema iii) ut = j ut -1 + e t con e t tale che -1 £ j £ +1 % E (e t ) = 0 ì0 % % E (e t × e s ) = í 2 îs e (5.

1 insieme alla numerosità del campione. Durbin e Watson costruirono tavole per la statistica d con n compreso tra 15 e 100. 2) si calcola il valore della statistica d mediante la (5.4) non è presa in considerazione (nel senso che non si verifica l esistenza dello schema (5. 115 . 4-dL) il risultato del test è indeterminato.6.8.1. se dÎ[0. Farehother (1980) ha tabulato i valori per il test di Durbin e Watson per il caso in cui l'intercetta non sia presente nella (5.J.W. Riassumiamo i passi per l'esecuzione del test: 1) si stima l'equazione (5. 4) se dÎ[dU. k = 1 (non considerando quindi l intercetta) e del livello di significatività del test. Nella pratica la limitazione (5. per cui si è spinti a ritenere che i residui siano positivamente autocorrelati di ordine uno. dU) oppure dÎ[4-dU.6.1.6.6. che è detto autoregressivo del primo ordine (o di Markov) ed indicato con AR(1) 27.1). dL). e k fino a 10 compreso. Le tavole che sono generalmente esposte nei testi di Econometria concernono il contributo di questi due autori. con livelli di significatività dell'1 e del 5%. 4-dU) si è indotti ad accettare l'ipotesi nulla (5. si estraggono dalle tavole statistiche i due valori dL e dU.1). 4) si è indotti ad accettare l'alternativa con r(1)<0.3 L ipotesi iii) è teoricamente limitativa in quanto non necessariamente l autocorrelazione di ritardo 1 deriva dallo schema (5.E. 3) in funzione di n.4) sui residui).4). essa è riportata nella Tavola 5. N. In tutti e tre i casi dÎ[0. se dÎ[4-dL. ad esempio il 5%.6. e con numero di esplicative k inferiore o uguale a 5. Tre esempi Calcoliamo le statistiche d (DW) per tre i modelli stimati nel paragrafo 3. dL) si è indotti ad accettare l'alternativa con r(1)>0.R.1) e si determina la serie { u t }.2).4 . Osservazione 5. Savin e K.Osservazione 5. White estesero le tavole in modo da far variare n tra 6 e 200. 27 Dall inglese Auto Regressive. se dÎ[dL.

116 .161 1.1 Statistica DW e numerosità del campione per i tre modelli stimati nel paragrafo 3.8.172 dU 1.975 1.748 0. I valori critici d L e dU sono di Savin e White.359 n 21 23 33 Tavola 5.018 1.291 DW 0.Modello Retta interpolante il log dei consumi Funzione del consumo Relazione tra tasso di cambio nominale e prezzi relativi dL 0.158 0.187 1.

5. Se j ¹ 0 possiamo ritardare di una unità temporale la (5. qualora non sia così oppure non si desideri aumentare il numero delle esplicative è utile trasformare la (5.4) si ha che ut = e t e le ipotesi stocastiche deboli sui % residui ut sono quelle classiche.1) si è operato con una quasi differenza.7.1.7.1. Sorge quindi il problema di determinare j .6.1.6.1. di fatto indicando che i residui seguono uno schema AR(1) del tipo (5.2) troviamo la sua stima r (1) = 1 . Allora dalla (5.2) potrebbe essere stimata con i minimi quadrati ordinari in quanto il residuo soddisfa alle ipotesi deboli.1) in modo che la stima dell equazione trasformata non abbia questi difetti.1) e sottraiamo infine membro a membro la (5. come mostrato nell Appendice 5.4) e che la stima dei minimi quadrati della (5.1.j xt -1 ) + e t (5.7.7 Il trattamento dell autocorrelazione di ordine uno Supponiamo che si debba stimare il modello di regressione semplice (5.5.1) ottenendosi yt -1 = m + b xt -1 + ut -1 poi la moltiplichiamo per j j yt -1 = j m + j b xt -1 + j ut -1 (5. In primo luogo è possibile che il modello non sia specificato correttamente e che lo si debba completare con altre variabili esplicative.j ) + b ( xt .1. Qualora si conoscesse j la (5. j determinato dalla statistica d di Durbin e Watson Un metodo molto semplice ma efficace per determinare j si basa sul fatto che nello schema AR(1) il parametro j è proprio uguale al coefficiente di autocorrelazione del primo ordine r (1) .2) avendo fatto uso della (5.7.4).1.d 2 (5.6.j yt -1 = m (1 .3) 117 .7. Innanzitutto se j = 0 nella (5.6.1.1) yt .1 con lo schema a ritardi distribuiti (2.1) verosimilmente è soggetta ai difetti elencati nel paragrafo 5. come del resto avevamo fatto nel paragrafo 2.7).1) alla (5. Si dice che sulla (5.1) e che il test di Durbin e Watson abbia suggerito la presenza di autocorrelazione del primo ordine.

821 per cui la (5. prosegue con il calcolo delle quasi differenze.3) a r (1) = j e quindi si possono calcolare le serie di quasi differenze { yt .359 (tavola 5. Da questa statistica si risale mediante la (5.j xt -1 ) + e t Esempio 5.982 118 . Cochrane e G. i due econometrici statunitensi D. Il razionale di questo metodo si basa sul fatto che ad ogni iterazione il valore stimato di j è sempre più vicino al valore effettivo.207 .4 (5.821wt -1 + 0. Orcutt (1949) svilupparono.742 RSS =0.01). Dalla (5.5) wt = 0. Tale procedura viene innescata da un valore iniziale arbitrario per j .8.6. quindi con la stima OLS dell'equazione e dei residui.5 ma non stimiamo più la (5. i passi della procedura sono: .4) Consideriamo la relazione (3.che non è molto precisa ma è immediatamente ottenuta dato che praticamente tutti i programmi di calcolo econometrico determinano d = DW .7.0.511. Si noti che così facendo otteniamo stime che non soffrono dei difetti indicati nel paragrafo 5.7.325 ( xt . una procedura iterativa che utilizzava per la stima gli OLS.3) si trae che approssimativamente è j = r (1) = 0. TSS =1.0.3) si perviene ad un nuovo valore per j e la procedura viene iterata in un nuovo passo.821xt -1 ) cioè (5.H. R2 = 0.1).325 ( xt . E così via fino a che il miglioramento di j è inferiore ad una soglia prefissata (ad esempio 0.821xt -1 ) campione 1970 2002 SE dei residui = 0.2.0.1) bensì la (5.j ) + b ( xt .4) tra tasso di cambio nominale e prezzi relativi per la quale è stata calcolata una statistica d pari a 0.156 (1 .1.821wt -1 + 1.4) stimata diventa wt = 0.821) .j ) .7.2) che possiamo scrivere nella forma yt = j yt -1 + m (1 . Tramite questi e la stima campionaria (5.0.7.2). necessarie per stimare la (5. per determinare j . Nel dettaglio.7.j × xt -1} oltreché (1 . Il metodo di Cochrane e Orcutt Sempre nel caso di schema autoregressivo sui residui AR(1).128.0.j × yt -1} e { xt .7.

esiste un valore per j diverso da quello di convergenza per il quale la devianza è ancora inferiore.1) con gli OLS. 2) si calcolano le serie delle quasi differenze con j = j 1 e si stima con gli OLS l'equazione (5. e non globale. In effetti l equazione (5.1. Questo metodo può avere due difetti. ma su di un minimo locale.2) 3) si calcola la serie {e t } e su di essa si stima j = j 2 . valido didatticamente sempre. cioè che j i . è un modo semplice ma efficace di trattare la non linearità.7. Se non lo è si sceglie il valore di convergenza al quale corrisponde la devianza minima. con l'identificazione dei possibili difetti. e operativamente soprattutto quando non c erano le capacità di calcolo che sono oggi disponibili.4) che si vuole stimare è non lineare nei tre parametri j . m ¢ = m (1 . di fissare in ogni iterazione un parametro e poi stimare gli altri due in un modello lineare fino al raggiungimento di una forma di convergenza. in nuce.j i -1 non arrivi ed essere minore della soglia. Il metodo di Cochrane-Orcutt ha il grande vantaggio computazionale di utilizzare per la stima soltanto gli OLS. ad esempio j 1 = 0 oppure il valore che deriva dalla serie { u t } determinata stimando la prima delle (5. In secondo luogo è possibile che la convergenza sia sì raggiunta. In primo luogo è possibile che la convergenza non venga raggiunta. 119 . Per ovviare a questo possibile difetto è utile ripetere la procedura più volte con valori di innesco differenti e verificare che in ciascuna la devianza finale sia sempre uguale.j ) e b in quanto esiste anche il prodotto b × j .1) si prefigura un valore j 1 arbitrario (il numero in apice indica l iterazione).7. Possiede.j i -1 sia minore di una soglia prefissata. per la devianza dei residui. In altre parole. Il metodo iterativo che hanno utilizzato Cochrane e Orcutt. inoltre. Per ovviare a questo difetto è necessario cambiare il valore di j 1 di innesco. 4) si iterano i passi 2) e 3) finché la differenza j i . gli elementi delle procedure iterative di ottimizzazione (in particolare degli OLS non lineari). una grande efficacia didattica poiché contiene.

di lunghezza n1 ed n2 rispettivamente.8.0. Supponiamo.2) In ciascuno dei due sottoperiodi. il primo sottoperiodo. b1 = b 2 = b (5.8.8. 2. supponiamo che il campione sia omogeneo.1961.8. 2.8.K . n1 + n2 (5.esimo.6) e nella (3. che dal tempo 1 all n1 . TSS =0. un altro ancora dall improvvisa scarsità di certe risorse in caso di guerra.100 xt t: (17.8.8. t = 1960. In questo caso il primo sottocampione andrebbe dal 1960 al 1979 e l equazione stimata sarebbe wt = 0.024 .4) è possibile che mostri un cambiamento di struttura nel 1979.8.11. valga la struttura economica rappresentata dall equazione yt = m1 + b1 xt + u1t t = 1. ma vogliamo verificare che i due campioni siano anche omogenei tra di loro. sulle imprese o sulle persone fisiche.2) sono identiche yt = m + b xt + ut t = 1. In questo caso valgono le ipotesi nulle H 0 : m1 = m 2 = m . rappresentata dall equazione yt = m2 + b 2 xt + u2t t = n1 + 1.1) e dal tempo ( n1 + 1) -esimo fino all ( n1 + n2 ) -esimo.5) 120 . il secondo sottoperiodo. ecc. Se si considera la relazione tra il tasso di cambio nominale (valuta nazionale italiana)/$USA e i prezzi relativi.8 Test di cambiamento strutturale per il modello semplice (Test del Chow) Affrontiamo ora il terzo tipo di malaspecificazione.K .K . n1 + n2 (5.1) e (5.5.647) campione 1960 1979. quello che deriva dalla possibilità che il campione non sia tutto omogeneo ma presenti un punto in cui cambia.764 RSS =0.046 (5. valga un altra struttura economica. da fisso a flessibile e viceversa.011 .1979 R 2 = 0. quando l Italia aderì ad un sistema (lo SME) di cambi fissi ma aggiustabili (in Europa).3) che non ci sia cambiamento strutturale e le due equazioni (5.349) (-7. un altro dal cambiamento della quota di imposizione fiscale. SE dei residui =0. stimata nella (2.4) I cambiamenti strutturali sono molto comuni nei sistemi economici: un esempio classico è dato dal cambiamento del regime di cambio. n1 (5.K .610 . n1 + 2. in altre parole.

mentre il secondo sottocampione andrebbe dal 1980 al 1992 (anno in cui l Italia uscì dallo SME) e l equazione stimata sarebbe

wt = 1.006 - 0.249 xt
t: (4.537) (-1.392) campione 1980-1992; SE dei residui = 0.134;

t = 1980,1981,K ,1992

(5.8.6)

R 2 = 0.150
RSS =0.197 ; TSS =0.232

Ci si può domandare se le due equazioni (5.8.5) e (5.8.6) sono effettivamente differenti (cioè se nel 1979 c è un cambiamento di struttura economica) oppure no, e si può stimare un equazione sola su tutto il periodo

wt = 0.953 - 0.224 xt

t = 1960,1961,K ,1992

(5.8.7)

campione 1960-1992; R 2 = 0.788 SE dei residui =0.094 ; RSS =0.272 ; TSS =1.282

Il caso n1 > k , n2 > k Per rispondere a questa domanda è opportuno ricorrere a dei test, che nella sostanza confrontano le variabilità della wt nei due sottocampioni: se esse sono uguali, i test ci spingono a considerare omogeneo l intero campione; se sono significativamente diverse, i test ci spingono ad accettare il cambiamento strutturale. Illustriamo il primo di questi test, che si basa sulla devianza dei residui RSS ; questa sia RSSV nel caso del modello (5.8.4), dove il pedice v indica il fatto che la stima è stata effettuata sotto il vincolo dell ipotesi nulla (5.8.3); il numero di g.d.l. associato a questa devianza è evidentemente uguale alla numerosità dell intero campione, n1 + n2 , meno il numero dei parametri da stimare, che nel caso del (5.8.4) è 2 ma che nel test prendiamo genericamente pari a k per poter usare questo anche in relazione ai modelli multipli. D altro canto la devianza RSS NV del modello in cui non vale la nulla (5.8.3), e quindi è formato dalle due equazioni (5.8.1) e (5.8.2), è data dalla somma delle devianze dei residui delle due equazioni, e il numero di g.d.l. associato è dato dalla somma dei due g.d.l., n1 - k e n2 - k , cioè n1 + n2 - 2k . Facciamo la differenza di queste due devianze e dividiamola per la differenza dei numeri di g.d.l. relativi

121

RSSV - RSS NV = ( RSSV - RSS NV ) k ( n1 + n2 - k ) - ( n1 + n2 - 2k )

(5.8.8)

che dimostreremo nel caso dei modelli multipli possedere distribuzione del c 2 divisa per il proprio numero di g.d.l. che è proprio k . Ancora distribuzione del c 2 divisa per il proprio numero di g.d.l. è avuta da RSS NV

( n1 + n2 - 2k ) , come ancora dimostreremo nel

caso dei modelli multipli, di modo che il rapporto

( RSSV - RSS NV ) k RSS NV ( n1 + n2 - 2k )
ha distribuzione della F di Fisher con k e

(5.8.9)

( n1 + n2 - 2k )

g.d.l., come indicato

nell appendice 3.2. Anche l indipendenza del numeratore e del denominatore della (5.8.9) sarà dimostrata in seguito. Tramite il rapporto (5.8.9) è possibile verificare l ipotesi nulla (5.8.3) con il cosiddetto test della F di Fisher. Il test della F di Fisher Poiché sotto la H 0 il rapporto (5.8.9) ha distribuzione Fk , n1 + n2 -2 k nel 95% dei casi si colloca nella regione di accettazione del test é0, F ë

)

dove F è il quantile di probabilità

95%, mentre nel 5% dei casi si colloca nella regione di rifiuto é F , + ¥ . Basta allora ë calcolare il valore (5.8.9) e trovare il quantile F dalle tavole della F di Fisher con k,

)

( n1 + n2 - 2k )

g.d.l.; se tale valore cade nell intervallo é0, F ë

)

si è spinti ad accettare

l ipotesi (5.8.3) di omogeneità, altrimenti a rifiutarla (ed accettare quindi l ipotesi di cambiamento strutturale). Ovviamente il 95% di probabilità può essere sostituito con il 99% o il 90%, a seconda dei desideri del ricercatore. L effettuazione del test procede quindi per i passi seguenti: 1) Si stima l equazione (5.8.4) e si determina RSSV (con n1 + n2 - k g.d.l.) 2) Si stima l equazione (5.8.1) e si determina RSS1 (con n1 - k g.d.l.) 3) Si stima l equazione (5.8.2) e si determina RSS 2 (con n2 - k g.d.l.) 4) Si determina RSSV = RSS1 + RSS 2 (con n1 + n2 - 2k g.d.l.) 5) Nel caso del modella (5.8.4) si calcola il rapporto (5.8.9) con k = 2 .

122

6) Si trova il valore soglia F nelle tavole della F2, n1 + n2 - 4 avendo scelto il livello di significatività al 90 o al 95 o al 99%. 7) Se il rapporto (5.8.9) cade nell intervallo é0, F ë

)

si è spinti ad accettare

l ipotesi nulla (5.8.3) di omogeneità del campione; se cade in é F , + ¥ ë spinti ad accettare l ipotesi alternativa di cambiamento strutturale. Nel caso dell esempio precedente si ottiene

)

si è

RSSV = 0.272,

RSS NV = RSS1 + RSS 2 = 0.011+0.197 = 0.208,

k = 2, n1 = 20, n2 = 13

per cui il rapporto (5.8.8) vale 4.462. Questo valore cade nell intervallo é F , + ¥ , dove F ë è il quantile al 95% della distribuzione della F2,29 , 3.33 , e quindi si è spinti ad accettare l ipotesi di cambiamento strutturale. Il caso n1 > k , n2 £ k Spesso accade che uno dei due sottoperiodi sia molto corto, con un numero di osservazioni inferiore o uguale a k, che nel caso dei modelli semplici vale 2. Se supponiamo, come in genere accade e senza perdere in generalità, che questo sottoperiodo sia il secondo, si ha che la devianza residua relativa è nulla e quindi RSS NV si riduce alla sola devianza residua RSS1 della prima equazione, con n1 - k g.d.l. La (5.8.7) diventa allora

)

RSSV - RSS1 = ( RSSV - RSS1 ) n2 ( n1 + n2 - k ) - ( n1 - k )
e la (5.8.8)

(5.8.9)

( RSSV - RSS1 ) n2 RSS1 ( n1 - k )
per cui i passi del test precedente diventano ora 1) e 2) Come sopra. 3) e 4) RSS 2 = 0 per cui RSS NV = RSS1 . 5) Si calcola il rapporto (5.8.10) con k = 2 .

(5.8.10)

6) Si trova il valore soglia F nelle tavole della Fn2 , n1 - 2 avendo scelto il livello di significatività al 90 o al 95 o al 99%. 7) Come sopra, sostituendo il valore di (5.8.10) a quello di (5.8.9).

123

10) abbia distribuzione della F di Fisher è stato dimostrato dal Chow (1960) ed è per questo che il test relativo è detto test del Chow.8. Per estensione si usa dare lo stesso nome anche al test che utilizza la statistica (5.8). 124 .8.Il fatto che il rapporto (5.

rispettivamente. Si può dimostrare che per la normale è a 4 = 3 . il test di Jarque e Bera suggerisce di considerare non normale la distribuzione con valori degli indici lontani da quelli della normale.5.m ) ù ha la stessa conformazione della varianza s 2 = E é( x . 28 29 Skewness coefficient. controlla due caratteristiche della normale.m ) ù 3 ë û s (5. Jarque e Bera hanno dimostrato che sotto l ipotesi nulla di normalità la variabile aleatoria 1 2ù % né JB = êa 32 + (a 4 .9 Il test di normalità di Jarque Bera Ci occupiamo ora di verificare l ipotesi v) che impone ai residui di avere distribuzione normale per potersi fare inferenza statistica sulle stime. di definizione ovvia la prima e concernente la piattezza del picco la seconda. L indice di curtosi 29 è definito in modo del tutto analogo a4 = 1 4 % × E é( x . per cui una volta determinato il valore JB. in inglese. Ovviamente è a 3 = 0 per la normale. Kurtosis coefficient. sviluppato da Jarque e Bera (1987).m ) ù 4 ë û s sostituendo al cubo la potenza quarta. e conoscendo i valori di questi indici per la normale. in inglese. Misurando le due caratteristiche con due indici appositi. Si noti che il valore JB dei residui di un equazione è generalmente fornito nei risultati della stima della maggior parte dei programmi di calcolo econometrico. questo viene utilizzato entro un semplice test del chi quadrato per verificare la normalità dei residui.d.1) % % con m = E ( x ) cioè dal valor medio dello scarto x .m ) ù e che ë û ë û 1 s 3 serve soltanto per normalizzare a 3 . Il test che utilizziamo. Si 3 2 % % noti che E é( x . diviso per il cubo di s .9.3 ) ú 6ë 4 û dove a 3 ed a 4 sono gli stimatori campionari di a 3 ed a 4 .m al cubo. dette simmetria e curtosi. 125 .l. approssimativamente e per n grande ha distribuzione del c 2 con 2 g.. L indice di asimmetria 28 è dato semplicemente da a3 = 1 3 % × E é( x .

s a Ls + b Ls = ( a + b ) Ls (A.) × E ( ~t ) = 0 e "t (A.4) si ottiene (1 .5.jL)u t = e t ut = 1 e t = (1 + jL + j 2 L2 + .5.1.1.1..9) 126 .5.6) se ½j½<1 e dove è stata utilizzata la somma infinita dei termini di una successione geometrica di ragione j2.Appendice 5.) = e t 1 .2) (A.1 Complementi analitici Uguaglianza tra coefficiente di autocorrelazione del primo ordine e r Tale uguaglianza è facilmente mostrata con l uso del cosiddetto operatore di ritardo Ls ..5..7) 2 ~ ~ ~ ~ ~ Cov(u t . Inoltre Ls a = a da cui.4) Ls Ln = Ls +n con a e b costanti arbitrarie.1.1.1) Ls ( a zt + b wt ) = a zt -s + b wt . (A.5.1. tale che applicato nella generica variabile zt la ritarda di s unità temporali Ls zt = zt .jL (A.5. ovviamente.1. u t -1 ) = E (u t × u t -1 ) = E[(ju t -1 + ~t )u t -1 ] = js u e ~ 2 2 r(1) = js u / s u = j "t (A.5.1.5.1..5.s e per il quale valgono le proprietà (A.1.3) (A.6. allora ~ E (u t ) = (1 + jL + j 2 L2 + .5.8) (A.1) nella (5.5) Ls1 = 1 Applicando la (A.

CAPITOLO VI IL MODELLO LINEARE MULTIPLO 127 .

in tal guisa che esso diventi yt = m x1t + b x2t + ut e che sia costantemente (6.6.6. il vettore colonna dei parametri è allora ém ù êb ú ë û e il vettore colonna delle variabili esplicative è l altro (6. In ambito vettoriale (e matriciale) questi elementi (numeri o lettere) sono detti scalari.6.1) e (6. Analoga operazione può essere effettuata con le due variabili x1t ed x 2t [ x1t x2 t ] (6.3) formando quello che si chiama vettore riga (dei due parametri).1 I vettori e la moltiplicazione righe per colonne Le stesse argomentazioni che hanno portato a costruire il modello (2. quelli chiamati colonna. si ha un nuovo tipo di vettori.2) è esattamente equivalente al (2.1.1) nel quale c è una sola variabile esplicativa x t possono essere utilizzate nel caso in cui di esplicative ce ne siano più di una.5) é x1t ù êx ú ë 2t û (6.1. I due parametri nella (6.2) Il modello costituito dalle due equazioni (6.1.1.1.1.1.1. x1t ed x 2t . Nella (6. [m b] (6. l uno accanto all altro.1) abbiamo due parametri.6) 128 . che possiamo mettere in fila. Se i due elementi sono messi uno sopra l altro invece che accanto.4) costituiscono gli elementi dei vettori riga.1.3) così come le due variabili nella (6.1. relativo cioè ai vettori e alle matrici.4) ottenendosi il vettore riga delle variabili.1) ma ci permette di introdurre un nuovo modo di scrittura matematica che agevola notevolmente i calcoli: il modo vettoriale e matriciale.1.1) possiamo supporre che siano presenti due variabili esplicative.6. In effetti nello stesso (2. m e b . Si noti che i due vettori sono definiti tramite parentesi quadre. Il numero degli elementi componenti un vettore ne costituisce la dimensione.1) x1t = 1 "t (6.

per essere brevi. che si effettua moltiplicando ciascun elemento del vettore riga per l elemento di posto corrispondente nel vettore colonna e sommando i prodotti ottenuti [m é x1t ù b ] × ê ú = m x1t + b x2t ë x2t û (6.7) possiamo scrivere questo come Poiché è ¢ xt .7) e viceversa. ma.7) e (6. e x. forma un operazione. che è detta di trasposizione.1): definiamo infatti una seconda operazione.che denotiamo. e quindi è necessario differenziarli in qualche modo. o da questi a quelli. con una sola lettera.1. Il passaggio dai primi ai secondi. appunto con un apice. la moltiplicazione righe per colonne tra un vettore riga ed un vettore colonna.1. Tramite i vettori (6.10) ¢ xt .1. ¢ e x¢ .1. per i parametri e x per le variabili ém ù =ê ú ëb û . I vettori riga (6. é x1t ù xt = ê ú ë x2 t û (6. In effetti i vettori riga differiscono fondamentalmente da quelli colonna.8) sono detti trasposti dei vettori colonna (6. usiamo gli stessi simboli.8) ¢ = [m b] .1. come in seguito sarà meglio evidenziato. x¢ = [ x1t t x2 t ] (6. facendo uso della prima delle (6.7) Chiamati in questa maniera i due vettori colonna. ci si aspetterebbero altri nomi per i due vettori riga.9) Il risultato della moltiplicazione è allora uno scalare che viene appunto chiamato prodotto scalare. m x1t + b x2t = x1t m + x2 t b si ha che ¢ xt = x¢ t che è un altro modo di scrivere il prodotto scalare (6.1.1.1.8) è possibile scrivere in maniera semplificata la combinazione lineare m x1t + b x2t del modello (6. In effetti se usiamo della proprietà dell operazione di trasposizione secondo la quale il trasposto di un prodotto 129 . sebbene questa volta con un apice.1.1.8) e della seconda della (6. sempre per essere sintetici.1. ma in grassetto per far capire che è un vettore.

10). allora.1. la (6.13) 130 . per la (6.1.1.1.1. nell altra (6.11) indica un altro ovvio fatto: che il trasposto di uno scalare (un numero o una lettera) è lo scalare stesso.12) yt = x¢ + ut t (6.11) ( ¢ xt )¢ = x¢ ( ¢ )¢ = x¢ t t dove nell ultimo passaggio abbiamo utilizzato l ovvio fatto che il trasposto di un vettore trasposto è uguale al vettore stesso.(scalare di due vettori) è uguale al prodotto dei trasposti dei due vettori invertiti di posto otteniamo (6.1. La (6. Sfruttando la (6.1.1) può essere scritta in termini vettoriali nella forma yt = ¢ xt + ut oppure.9).

6. ma lo diventa quando invece di avere soltanto due variabili esplicative ne abbiamo un numero maggiore. molto più sintetica e quindi più utile. k yt = b1 x1t + b 2 x2t + K + b k xkt + ut Se poniamo (6. impulsi accidentali prodotti dal sistema economico su yt .9) diventa ora é x1t ù êx ú ¢xt = [ b1 b 2 K b k ] ê 2t ú = b1 x1t + b 2 x2 t + K + b k xkt êM ú ê ú ë xkt û (6.2.1) ¢ = [ b1 b 2 K b k ] .2. errori nella misurazione della yt . Il termine additivo ut misura tutto quanto non è spiegato dalle variabili esplicative xit e per questo motivo è chiamato residuo. che non si riesce a spiegare per mezzo delle xit . In Statistica esso forma una regressione lineare multipla. Il modello (6.1.2. ad esempio le stagionalità.2. elementi di disturbo dovuti al fatto che la specificazione della (6. validi soltanto per alcune t e non in modo sistematico per tutto il campione.1) è lineare.2) il prodotto scalare (6.12) non è molto evidente.1) può essere scritta nella forma vettoriale (6.2.12). esso è costituito tra l altro dalla possibile aggregazione di: variabili che non sono state inserite tra le esplicative (omesse) e che invece spiegherebbero parte di yt . x¢ = [ x1t x2 t K xkt ] (6. elementi caratteristici di yt . 131 .1) nei termini vettoriali (6.3) e la (6. mentre avrebbe dovuto essere non lineare rispetto ad alcune delle variabili esplicative.2 Il modello lineare multiplo L utilità di scrivere la (6.1.1) è lineare e multiplo.1.1.2. perché contiene un numero di variabili esplicative k superiore ad uno (più l intercetta).

Osservazione 6. b 3 > 0 .6) yt = domanda di moneta in termini reali x2t = prodotto interno lordo in termini reali x3t = tasso d interesse a breve per cui b 2 > 0 . Facciamo due esempi di applicazione della (6. yt = importazioni di beni e servizi.2. anche se in tale modo sovente viene chiamato a seguito delle prime utilizzazioni del modello (6.5) è un equazione log lineare. ed è facilmente linearizzabile sostituendo una variabile non logaritmizzata wt al posto di ogni logaritmizzata. in econometria.1) come caso particolare: questa è stata esposta prima ai fini esclusivamente didattici.2.6. In un secondo esempio la (6.Da questa caratterizzazione segue che non ha senso considerare ut come un errore.5) esiste l intercetta b1 per cui la variabile esplicativa corrispondente è stata posta costantemente uguale ad uno. La (6. Nel primo esempio rappresenta una funzione delle esportazioni ln yt = b1 + b 2 ln x2t + b 3 ln x3t + b 4 ln x4t + b5 ln x5t + ut nella quale (6.1) che contiene la (2. è chiaramente un errore. cioè lineare nei logaritmi delle variabili. 132 .2.1 .2.1) rappresenta una funzione della domanda di moneta ln yt = b1 + b 2 ln x2 t + b 3 x3t + ut dove (6. x2t = consumi finali interni delle famiglie più consumi collettivi. x5t = deflatore implicito del PIL.1) in demografia e nelle scienze fisiche. b 3 < 0 . per cui b 2 > 0 .2. b 5 > 0 . x3t = investimenti fissi lordi più esportazioni di beni e servizi più variazione delle scorte. x4t = deflatore implicito delle importazioni. Questa denominazione. b 4 < 0 .2.

si stimano anche i residui secondo la stessa regola del paragrafo 2.3. che per maggiore semplicità scriviamo nella forma vettoriale (6. ut = yt . il problema di determinare le stime dei parametri b1t .2). funzione di due variabili soltanto.b1 x1t + b 2 x2 t + K + b k xkt ( ) (6.2) min å ut2 = min å ( yt .1) Anche in questo caso di modello multiplo.6 per il modello semplice: rappresentano la distanza tra i punti yt osservati e (non più la retta funzione di una sola variabile esplicativa ma) l iperpiano individuato dalla combinazione lineare b1 x1t + b 2 x2t + K + b k xkt . Se k =3 e x1t = 1 . da 1 a n. a questo punto.3 I minimi quadrati nel modello lineare multiplo I residui presenti nella (6. b kt con un particolare criterio (illustreremo in seguito quello dei minimi quadrati).1) nella forma (6. Per arrivare a questo possiamo utilizzare il criterio dei minimi quadrati. ì y1 = [ x11 x21 K xk 1 ] + u1 ï ï y2 = [ x12 x22 K xk 2 ] + u2 í ïK ïy = [x x K x ] + u 1n 2 n kn n î n sistema di equazioni che possiamo scrivere ancora nell altra forma (6. l iperpiano diventa un piano classico.yt = yt .2) scriviamo la (6.13) per ogni t del campione. b 2 t .2.12).1) hanno lo stesso significato illustrato nel paragrafo 2.3.3.3.1.6. . la combinazione lineare ¢ xt è la componente sistematica % del modello mentre ut ne rappresenta la componente aleatoria.4. Sorge.¢x t ) = min S ( 2 t =1 t =1 n n ) catena di uguaglianze che generalizza la (2. che può essere stimata tramite la (6.6. trovate queste.3.3) 133 . che abbiamo già introdotto nel paragrafo 2. Per trovare l espressione di S ( ) in modo da poter effettuare la minimizzazione (6.1). la x2t e la x3t .2.3: dobbiamo determinare i valori dei parametri contenuti nel vettore in modo che sia minimizzata la devianza dei residui S ( ) (6. "t .1.

5) e il vettore u : il risultato dell addizione di due o più vettori della stessa dimensione è un vettore (somma) che ha come elementi le somme degli elementi dello stesso posto nei vettori addendi.X )¢ ( y . e i vettori riga [ x1t x2t K xkt ] sono stati racchiusi in un vettore colonna che ha per elementi i vettori riga di cui sopra. Per trovare S ( ) effettuiamo la moltiplicazione righe per colonne di u per se stesso éu1 ù ê ú n u 2 2 u¢u = [u1 u 2 K u n ] ê 2 ú = u12 + u2 + K + un = å ut2 êM ú t =1 ê ú ë un û (6.7) dalla quale si vede che la devianza dei residui è proprio uguale al prodotto scalare u¢u . rispetto a . In questa forma abbiamo utilizzato una nuova operazione tra vettori. E l operazione di addizione tra vettori che hanno la stessa dimensione.3.3.3. di (6. è indicato con X e vale ancora per esso la moltiplicazione righe per colonne.X t =1 n ) dove nell ultimo passaggio si è posto 134 . così come le ut .4) dove le yt sono state racchiuse in un vettore colonna. la (6.5) Se indichiamo con y il vettore delle yt e con u quello dei residui ut .3.4) può quindi essere scritta nella forma compatta y = X +u (6.3.2) impone la minimizzazione.3. che avviene in ogni riga é x11 ê x X = ê 12 êM ê ë x1n x21 K xk1 ù é b1 x11 b 2 x21 K b k xk 1 ù ú ê ú x22 K xk 2 ú ê b1 x12 b 2 x22 K b k xk 2 ú = êM M ú M M ú M ú ê ú x2n K xkn û ë b1 x1n b 2 x2 n K b k xkn û (6.é y1 ù é x11 ê y ú êx ê 2 ú = ê 12 êM ú êM ê ú ê ë yn û ë x1n x21 K xk1 ù éu1 ù ú êu ú x22 K xk 2 ú +ê 2ú êM ú M M ú ú ê ú x2 n K xkn û ë un û (6.8) S( ) = å ut2 = u¢u = ( y .6) che chiamiamo matriciale. quello X dato dalla (6. per cui il criterio dei minimi quadrati (6.3. questo vettore di vettori è chiamato matrice. la terza dopo quelle di trasposizione e di moltiplicazione righe per colonne.3.

6) con lo spostamento di X all altro membro.9) 135 . (6.3.u=y-X tratta dalla (6.3.

Parimenti. ma organizzati in riga a¢=[a1 a2 an].6. gli elementi sono organizzati in colonna é a1 ù êa ú a = ê 2ú ê . Un vettore reale di dimensione 1 è uno scalare. Il vettore 0 è quello i cui elementi sono tutti nulli. con (6. cioè riguardanti i vettori e le matrici. ú ê ú ëa n û In altri termini. la loro somma è il vettore il cui elemento i-esimo è dato dalla somma 136 . Dato un vettore a. ovvero un vettore che contiene gli stessi elementi di a.4 Vettori e matrici Rivediamo ora teoricamente i concetti di algebra matriciale. Trasponendo nuovamente un vettore riga si ottiene un vettore colonna. ed è quindi possibile scrivere ad esempio a = [a 1 a2 an]¢. Vettori Se mettiamo in fila gli elementi di una successione (di numeri. ovvero un numero reale.. Il numero intero n costituisce la dimensione del vettore. ).4.1) a1 a2 {xt} an otteniamo un vettore. indice variabile da 1 a n. in mancanza di indicazioni contrarie i vettori che considereremo saranno tutti vettori colonna. di lettere. utilizzati nei tre paragrafi precedenti e che utilizzeremo nel seguente. ad esempio a. Per convenzione..1) semplicemente perché sono associati ad un indice temporale.4. costituiscono un vettore gli elementi di una serie storica x 1 x2 xn che si differenziano da quelli in (6. si utilizza un apice per denotarne il trasposto. In generale un vettore è formato da una ennupla di elementi (ad esempio numeri reali) indicata con una lettera in neretto. Operazioni tra vettori Due vettori della stessa dimensione a = [a1 a 2 degli elementi di posto i in a e in b a n]¢ e b = [b 1 b2 bn]¢ sono detti uguali se ai = bi per ogni i.

a 2 b 2.4. a2+b2. Si chiama prodotto scalare (o interno) a¢b di due vettori a e b che hanno la stessa dimensione n lo scalare uguale alla somma dei prodotti degli elementi che hanno lo stesso posto nei due vettori a¢b = a1b1 + a2b2 + K + anbn (6. si verificano facilmente le proprietà a+b = b+a . è detta matrice ed è indicata con una lettera maiuscola in neretto 137 . .3) La devianza totale e la residuale di un modello di regressione costituiscono esempi di prodotto scalare del tipo (6. Dati tre vettori a.4. d(fa) = f(da) = dfa . an+b n]¢ Queste definizioni si estendono immediatamente al caso di più di due vettori (di uguale dimensione). dan]¢. b e c. Dalla (6. Dati due vettori di uguale dimensione a e b e due scalari d ed f. che si ottiene moltiplicando il secondo per lo scalare 1 e sommandolo al primo: a b = a + (-1)´b = [ a 1 b 1. an bn ]¢. (a+b)+c = a+(b+c) = a+b+c Il prodotto d×a del vettore a per lo scalare d è il vettore il cui elemento i-esimo è dato dal prodotto di d per l'elemento di posto i in a: da = [da 1. da2.3). .4.c = a + b = [a1+b1.4. si verificano immediatamente le proprietà d(a+b) = da+db . (d+f)a = da+fa (da+fb)¢ = da¢+fb¢ L operazione di moltiplicazione di un vettore per uno scalare ci permette di definire la differenza fra due vettori a e b. con n ed m interi positivi.2) si trae che la somma dei quadrati degli elementi di un vettore a=[a 1 a2 a n]¢ può essere espressa mediante il prodotto scalare n a ¢a = å ai2 i =1 (6.2) Poiché a¢ è un vettore riga e b è una colonna questa operazione è detta moltiplicazione riga per colonna. Matrici Una tavola a doppia entrata di elementi (ad esempio numeri reali) disposti su n righe ed m colonne.

. 2.... .... a1m ù a 2m ú ú . 0 ú ú . essa è detta matrice nulla ed è indicata con 0. . Se n = m. Se gli elementi diagonali sono tutti pari ad uno.. 2..ú ú 1û (6.... di ordine n. i = 1.4) Tale matrice è detta avere ordine n´m ed è composta dagli elementi aij... ... an2 . . di una dimensioni è una particolare matrice di ordine 1´n. matrice quadrata appartengono alla diagonale principale e sono detti elementi diagonali.. la matrice è detta diagonale ed è indicata con éd 1 ê0 D=ê ê . n.. Se tutti gli elementi di una matrice quadrata sono nulli salvo quelli dislocati sulla diagonale principale. l'altra diagonale di una matrice quadrata è detta secondaria.... . i = 1.... 0ù 0ú ú . la matrice è detta unitaria o identica (o unità) ed è indicata con é1 ê0 In = ê ê. Una matrice quadrata di ordine 1 è uno scalare. ê ë0 0 d2 ... ê ë0 0 1 . 0 ..5) dove le dj sono gli n elementi non nulli della matrice.. m..é a11 êa A = ê 21 ê .. d n û .4. mentre un vettore colonna della stessa dimensione è una matrice di ordine n´1... la matrice è detta quadrata.. ú ú a nm û (6.4.. n. può essere omesso.. j = 1. detti elementi diagonali. Un vettore riga ad n . 2. 138 . 0 0ù . . . .. ú ú .. Se tutti gli elementi di una matrice sono nulli..6) dove l'indice n..4.. Gli elementi aii. che rappresenta l'ordine della matrice quadrata. ê ëa n1 a12 a 22 . (6....

2) 139 . (dA)¢=dA¢ .6. La somma C = A+B di due matrici che hanno lo stesso ordine è una matrice ancora dello stesso ordine che ha per elemento generico cij = aij+b ij .5. Questa definizione è immediatamente generalizzata al caso della differenza e a quello della somma di più di due matrici.La trasposta di é2 A=ê ë3 1 0 é2 4ù ê ú è A ¢ = ê1 1û ê4 ë 3ù 0ú ú ú 1û Esempio 6.Sia A¢ la trasposta della matrice A dell'esempio precedente ed inoltre sia é1 B = ê2 ê ê3 ë 1ù 2ú ú 0ú û (6. (dA+fB)¢=dA¢+fB¢ (6. in altre parole.1) Allora la loro matrice somma C è data da é3 C = A ¢ + B = ê3 ê ê7 ë 4ù 2ú ú 1ú û Se A è quadrata ed uguale alla sua trasposta. è detta simmetrica (è aij=aji). ovvero il jesimo vettore riga di A¢ è il trasposto del j-esimo vettore colonna di A. La matrice A¢ è detta trasposta di A. valgono le proprietà (A¢)¢=A . Esempio 6. Si può facilmente verificare che valgono le proprietà A+B=B+A (A + B) + C = A + (B + C) = A + B + C Il prodotto di una matrice A per uno scalare d è la matrice che ha per elemento generico da ij. Se d ed f sono due scalari.5. nella trasposizione si scambiano le righe con le colonne. La trasposizione di una matrice A di ordine n´m e di elemento generico aij è una operazione che trasforma A nella matrice A¢ di ordine m´n e di elemento generico aji.5 Operazioni tra matrici Due matrici dello stesso ordine sono uguali se gli elementi corrispondenti (dello stesso posto) sono uguali.2 .1 .

5. Esempio 6. n´m.4 . Esempio 6.3 .Se A e B sono le matrici degli esempi precedenti il loro prodotto righe per colonne è é2 × 1 + 1 × 2 + 4 × 3 A ×B = ê ë3 × 1 + 0 × 2 + 1 × 3 2 × 1 + 1 × 2 + 4 × 0ù é16 = 3 ×1 + 0 × 2 + 1 × 0ú ê 6 û ë 4ù 3ú û (6. cioè non vale per le matrici la proprietà commutativa della moltiplicazione. si ha é 1× 2 + 1× 3 B × A = ê2 × 2 + 2 × 3 ê ê3 × 2 + 0 × 3 ë 1 ×1 + 1 × 0 2 ×1 + 2 × 0 3 ×1 + 0 × 0 1 × 4 + 1×1 ù é 5 2 × 4 + 2 × 1ú = ê10 ú ê 3 × 4 + 0 × 1ú ê 6 û ë 1 2 3 5ù 10ú ú 12ú û (6. cioè uno scalare. per la B. la matrice C = A×B di ordine n´k con elemento generico c ij = åa s =1 m is sj b . m´k.4) Allora il prodotto di A.1 . è una matrice di ordine 2´2.Si dice prodotto righe per colonne A×B della matrice A. il prodotto aa¢ vale é 0ù ê 1ú ê ú aa ¢ = ê . Il nome di questo prodotto deriva dal fatto che ogni elemento di C è costituito dalla combinazione lineare degli elementi di una colonna di B con pesi dati dagli elementi di una riga di A. Osservazione 6. Si noti che cij è il prodotto scalare (6. in generale è A×B ¹ B×A.5 . il prodotto B×A è una matrice di ordine 3´3. Invece il prodotto ab¢ è una matrice quadrata di ordine n.1ú[0 ê ú ê 0ú ê 0ú ë û 1 -1 0 é0 ê0 ê 0] = ê0 ê ê0 ê0 ë 0 1 -1 0 0 0 -1 1 0 0 0 0 0 0 0 0ù 0ú ú 0ú ú 0ú 0ú û matrice quadrata di ordine cinque. per k=n. 140 .5.3) A meno che non sia k=n il prodotto B×A non esiste. Esempio 6. Il prodotto scalare a¢b tra due vettori che hanno la stessa dimensione n è quindi una matrice di dimensione 1´1.4. inoltre. 3´2.Dato il vettore a=[0 1 -1 0 0]¢ di dimensione cinque. il vettore riga a¢ di n elementi può essere considerato come il trasposto del vettore colonna a.Poiché i vettori sono casi particolari di matrici.2) dell i-esima riga di A per la j-esima colonna di B. per B. 2´3.Date le matrici A e B dell'esempio precedente.

f.Se A è una matrice di ordine n´m. Se A è una matrice di ordine n´m e b è un vettore m´1. allora é2 Ab = ê ë3 1 0 é 3ù 4ù ê ú é16ù 2 = 1 ú ê ú ê11ú ûê ú ë û ë 2û Se A è una matrice di ordine n´m e b¢ è un vettore 1´n. 0×A = A×0 = 0.8 . Infatti essa è uguale alla sua trasposta per la prima delle (6. il prodotto A¢A è una matrice quadrata di ordine m simmetrica. l inversa destra e l'inversa sinistra di una matrice quadrata coincidono e sono semplicemente dette inversa.5. valgono le seguenti proprietà. come facilmente si verifica.2 .5.7 . il prodotto b¢A è un vettore riga 1´m.Se A è di ordine n´m. il prodotto Ab è un vettore colonna n´1.6) A -1A = I in modo tale che sia Analogamente si può definire la matrice inversa destra A -1 della matrice quadrata A AA -1 = I Poiché AA -1 = A -1 A = I .5) (A¢A)¢=A¢A dove abbiamo anche sfruttato la prima delle (6. Esempio 6. h scalari e con le matrici 0 ed I di ordine appropriato. B e C sono di ordine m´k e D è di ordine k´v.Sia la matrice A degli esempi precedenti e b¢=[2 3]. allora é 2 1 4ù b ¢A = [2 3] ê ú = [13 2 11] ë3 0 1 û La matrice inversa Si definisce con A -1 la matrice inversa sinistra della matrice quadrata A . (AB)D = A(B×D) = A×B×D (6. cioè quella per la quale (6. con d.Siano la matrice A ed il vettore b definiti negli esempi precedenti.2).5. 141 .5. I×A = A×I = A A(fB + hC) = fAB + hAC (dA)B = A(dB) = d(AB) = dAB (A×B)¢ = B¢A¢ . Esempio 6.5) Osservazione 6. cioè tale che aij = a ji .

Il determinante Data una matrice quadrata A di ordine n. Se det A =0. A -1 = 1 aggA detA (6. anche questa di ordine n. in questo caso la matrice A è detta non singolare. che definiremo nell appendice 6. dunque. 142 . si ha.2.7) dalla quale segue che se det A ¹0 allora esiste l'inversa A -1 . che è uno scalare.5. Se indichiamo con det A il determinante e con agg A l'aggiunta. per la sua matrice aggiunta. la matrice è chiamata singolare. si dimostra che la sua inversa consiste nel prodotto dell'inverso del suo determinante. Segue da questo che anche la matrice inversa è di ordine n.

3 che le stime del vettore di parametri ottenute con il criterio dei minimi quadrati impongono la minimizzazione della devianza S ( ) data dalla (6.2) esiste se vale l ipotesi differenziarle da altre.6) y=X generalizzante la prima delle (2.6.6.2) ordinari (OLS) per Queste stime vengono chiamate dei minimi quadrati in seguito.6.6.6 Le stime dei minimi quadrati S è detto nel paragrafo 6.6.6. Nell appendice 6.6. ancora ottenute con il criterio dei minimi quadrati.2).4).4) u = y-y = y-X generalizzante la seconda delle (2.1 si dimostra che questo avviene se valgono le equazioni normali ( X¢X ) matrice quadrata = X¢y (6.8).6) è (6. una delle equazioni del sistema (6.6. e il residuo stimato (6.6.2). Poiché l inversa della matrice stima (6.1) dalle quali si trae il vettore delle stime dei parametri moltiplicando a sinistra per la ( X¢X ) -1 se questo esiste = ( X¢X ) X¢y -1 (6. che esporremo ( X¢X ) esiste se il suo determinante è nonnullo.6.6.6) éu1 ù êu ú [1 1K1] ê M 2 ú = 0 ê ú ê ú ë un û cioè 143 .5) Se il modello (lineare multiplo) contiene l intercetta. (6.3.6.3.3) dei parametri definita dalla (6. la det ( X¢X ) ¹ 0 Le stime dei residui Dalla stima (6.1.2) si traggono immediatamente la y teorica che fa da controaltare alla y osservata definita dalla (6.6. una delle colonne di X è formata da tutti uno per cui in virtù dell ortogonalità X¢u = 0 dimostrata nella (A.

yt nella (6.8) identica alla seconda delle (2.5) si trae che ut = yt .6.6.6.2) nel caso del modello semplice.6.6.8) e tenendo conto della (6.6.7) proprietà fondamentale dei residui stimati che generalizza la prima delle (2.6.7) si ha (6.åu t =1 n t =0 (6.6.10). addizionando per ogni t 0 = å yt .å yt t =1 t =1 n n da cui 1 n 1 n å yt = n å yt = y n t =1 t =1 (6. Poiché poi dalla (6. 144 .9) cioè la media campionaria delle yt (teoriche) è uguale a quella y delle variabili osservate.

In questa maniera il confronto tra due modelli con un diverso numero di variabili esplicative.1) che mostra chiaramente come l R 2 misuri la proporzione di varianza totale spiegata dal modello di regressione.n 1 n 1 2 å ( yt .7.7.y) å ( yt .1) con la (6. detto corretto rispetto ai gradi di libertà.yt ) 2 å ut n t =1 n t =1 2 R =1=1.3) si ottiene 1 n 1 n 2 å ( yt .6. Un R 2 così modificato (corretto. e quindi le stime sono più imprecise.2). nell ultimo dei quali si tiene esplicito conto del numero di variabili esplicative k.1) al rapporto fra varianze (campionarie) (6. Tuttavia nella (6.l. in conseguenza del fatto che una nuvola di n punti può essere interpolata esattamente da un iperpiano a n dimensioni. in termini tecnici) può essere trovato nella maniera seguente.1 t =1 Siamo così passati dal rapporto fra devianze (6.7.2). inserendo nel modello n variabili esplicative (cioè tante quante sono le osservazioni disponibili) si otterrà un adattamento perfetto ai dati ( R 2 = 1). cioè non legata da alcuna effettiva relazione con la 2 variabile dipendente. effettuato ricercando quale dei due possiede un 145 . poiché a parità di devianze è Rc2 < R 2 come si può ricavare comparando la (6.y ) 2 n t =1 n t =1 (6. L Rc2 invece diminuisce. gli si aggiunge una variabile esplicativa qualsiasi. Se. Se si dividono per n le due devianze nella (2.7. Al limite. E perciò utile disporre di un indice che valuti la bontà di adattamento di 2 un modello ai dati come l R ma tenga anche conto della numerosità delle variabili esplicative: diminuendo all aumentare di queste.1) si utilizzano gli stimatori costituiti dalle varianze campionarie.7.8.7. Rc2 = 1 - 1 n-k n åu t =1 n 2 t (6.d.2) 1 å ( yt .y) 2 n .7 Il coefficiente di determinazione corretto Se nel modello con k variabili esplicative se ne aggiunge una che non spiega alcunché il modello con k+1 esplicative possiede un R2 leggermente maggiore di quello con k ma i suoi parametri vengono stimati con un numero inferiore di g. che sono distorti. Se a tali stimatori distorti si sostituiscono quelli non distorti si ottiene un coefficiente di determinazione leggermente diverso dal (6.1).7. l R comunque aumenterà.7. dato un modello. assolutamente non significativa.

La relazione esistente tra R2 ed Rc2 è presto trovata Rc2 = 1 - n -1 1.X ) = ¢ = é( y .X ) . Talvolta Rc2 è indicato mediante una soprallineatura: R 2 .coefficiente di determinazione maggiore.) + ¢ ¢ + ( y . diventa più significativo in quanto al modello con k più grande si attribuisce uno svantaggio.1 Complementi analitici Le condizioni per la minimizzazione della devianza residua Determiniamo le condizioni per minimizzare la devianza residua (6.X ) = t =1 n )¢ ( y . Si noti che nonostante questa penalizzazione possa apparire molto severa.) + ( . che quando k si avvicina molto a n il coefficiente corretto R 2 diventa negativo tendendo a meno infinito.X ) .X ( . Di conseguenza le misure di bontà dell interpolazione.) X¢ ( y . anche se costituiscono un utile indicatore sintetico della bontà complessiva del modello. funzione appunto della sua maggiore dimensione.1.) X¢X ( .1) dove nel quarto passaggio abbiamo sottratto e addizionato la stessa quantità X .k n -1 2 (1 . tra l altro.X ( .6.) ù é( y .X )¢ ( y .R 2 ) = + R n-k n-k n-k (6. Ma questa espressione è minima perché si annullano i due ultimi termini se valgono le equazioni normali 146 .X ) ( y .X ) X ( .X ) + ( . in realtà è possibile dimostrare che anche il coefficiente Rc2 può aumentare (anche se non aumenta necessariamente) quando al modello vengono aggiunte variabili irrilevanti.X + X . Appendice 6.3.X ) = y-X +X -X ( (A.8) che possiamo scrivere nella forma seguente S( ) = å ut2 = u¢u = ( y .7.3) la quale mostra. non possono essere considerate come unica guida nella strategia di specificazione econometrica.) ù = ë û ë û ¢ ¢ = ( y .

mostra che è X¢u = 0 .1.1.3) è 48-24 = 24.1.1).5. proprietà di ortogonalità dei residui stimati nei confronti delle variabili esplicative.5).2) può essere scritta nella forma ( che.1. Ortogonalità dei residui stimati rispetto alle variabili esplicative Tenendo presente la (6. La stessa proprietà viene ottenuta dalla (A.6.X )¢ X ( ) = 0¢ (A.6.2 L inversa di una matrice Il determinante di una matrice quadrata Nel caso di una matrice di ordine due éa A = ê 11 ëa 21 a12 ù a 22 ú û il determinante è semplicemente dato dal prodotto degli elementi della diagonale principale meno il prodotto degli elementi della secondaria detA = a11a 22 .2) dove nell ultimo passaggio è stata utilizzata la (A.6.Il determinante della matrice quadrata (6. contenute in X .2).X ) = ( - )¢ ( X¢y . generalizzazione della seconda delle (2. e trasponendo ( y .4).4) ¹ . la (A.6. Appendice 6.10).( X¢X ) Infatti = X¢y ( - )¢ X¢ ( y .3) Dunque sono nulli gli ultimi termini della (A.3) u¢X ( - ) = 0¢ conseguibile anche trasponendo la (A.6.6.1.1. 147 .X¢X ) = 0 - (A.9 .1.6.6.6. essendo in generale - )¢ X¢u = 0 (A.a12a21 Esempio 6.1.6.

3) Dunque.4) dove gli aij sono gli elementi di A e la sommatoria è estesa a tutte le permutazioni (h1.10 .6..4) è singolare.4) è calcolabile mediante la tabella é5 ê10 ê ê6 ë 1 2 3 5ù 5 10ú 10 ú 12ú 6 û 1 2 per cui vale 120+60+150-60-150-120=0 3 da cui si nota che la matrice (6.6... Ad esempio.2) alla quale vanno sottratti i tre prodotti che si ottengono dalla diagonale secondaria di A e dalle due sue parallele a31a22a13 + a32a 23a11 + a 33a21a 12 (A. 148 .2.Nel caso. nel prodotto a 12a23a31 il numero delle inversioni è due e quindi la permutazione è pari. La permutazione è pari se il numero delle inversioni del secondo indice rispetto all'ordine naturale è pari.2.1) a11a22a 33 + a12a 23a31 + a 13a21a 32 (A.6.. di una matrice quadrata A di ordine tre è conveniente scrivere di seguito alle tre colonne della matrice nuovamente le prime due30 é a11 êa ê 21 êa 31 ë a12 a 22 a 32 a13 ù a11 a 23 ú a 21 ú a 33 ú a 31 û a12 a 22 a 32 (A. In generale chiamiamo determinante della matrice quadrata A di ordine n data dalla (6. Esempio 6. la permutazione è dispari se tale numero è dispari.2.2. Valgono per i determinanti le seguenti proposizioni: 30 31 È la regola detta di Sarrus. hn å (±)a 1h1 a 2h2 .2. Il segno più vale se la permutazione è pari e quello meno se è dispari31.2.n). invece.2.5.2) meno la (A. .Il determinante della matrice quadrata (6.5.3)... mentre nel prodotto a 13a22a31 il numero delle inversioni è tre e la permutazione è dispari.6.4.hn) della ennupla (1. il determinante della matrice quadrata di ordine tre è dato dalla somma (A.4) per m = n l'espressione detA = h1 .1) calcolando il determinante come somma dei tre prodotti che si ottengono dalla diagonale principale di A e dalle due sue parallele nella tabella di tre righe e cinque colonne (A.2.6.a nhn (A.6.h2.6. .

sia inferiore che superiore) è uguale al prodotto degli elementi diagonali.5.3) è (A.4) può essere trovata soltanto calcolando i nove determinanti é2 det ê ë3 é1 det ê ë3 é1 det ê ë2 per cui l aggiunta è 10ù = -6 12ú û 5ù = -3 12ú û 5ù =0 10ú û é10 det ê ë6 é5 det ê ë6 é5 det ê ë10 10ù = 60 12ú û 5ù = 30 12ú û 5ù =0 10ú û é10 det ê ë6 é5 det ê ë6 2ù = 18 3ú û 1ù =9 3ú û é 5 1ù det ê ú=0 ë10 2û ¢ é(-1) 2 (-6) (-1) 3 60 (-1) 4 18ù 3 0ù é -6 ê ê.2 . Esempio 6.6 .9 0ú (-1) 5 0 (-1) 6 0 ú ë û ë û La matrice inversa della (6.6.60 30 0ú 3 4 5 ú ê (-1) (-3) (-1) 30 (-1) 9 ú = ê ú ê (-1) 4 0 ê 18 .j) si calcola come determinante della sottomatrice di A ottenuta eliminando la i-esima riga e la j-esima colonna.Dal teorema 6.Teorema 6.Data una matrice quadrata A.2.L aggiunta della matrice (6.1 . moltiplicato per (-1)i+j.5.5) 149 .5.11 .Il determinante di una matrice triangolare è uguale al prodotto degli elementi diagonali.4ù 16ú û mentre l aggiunta della matrice (6.3 .3) è é(-1) 2 3 ê 3 ë(-1) 4 ¢ (-1) 3 6 ù é 3 ú =ê (-1) 4 16û ë.1 segue che il determinante di una matrice diagonale (che è anche triangolare. L aggiunta di una matrice quadrata L aggiunta di una matrice quadrata A è la trasposta di un altra matrice quadrata dello stesso ordine il cui elemento generico di posto (i. Teorema 6. si ha detA -1 = ( detA ) -1 Osservazione 6.

....xmxy ù ê m .xy ú ë xy û stime uguali alle (2. ê .3). rispettivamente..6) è in forma esplicita é y1 ù êy ú ê 2 ú é1 ê .6. ú ê. ú ê 1 ë ê ú ê yn ú ë û é u1 ù êu ú x1 ù ê 2ú ú b x2 ú é 1 ù ê . La (6. ú +ê ú .å xt ú t =1 ú n ú ú û 2 é n 2 ê å xt agg ( X ¢X) = ê t =1n ê. condizione di non singolarità della matrice X¢X .1 û ë 4 1ù .ç å x t ÷ e aggiunta å è t =1 ø t =1 n ù .6 ë é 1 . Osservazione 6..8) corrisponde in termini matriciali alla (6. Si osservi che la condizione mxx ¹ x 2 sotto la quale potevano essere trovate le stime (2.. ú êb 2 ú ê .6.6.7) e (2.4) non può essere calcolata poiché il suo determinante è nullo.6.4 ..ú 6 2ú ú 3û mentre l'inversa della (6. ú ë û ú ê . ú ê 1 ê ú=ê ê .. é ê n ¢X = ê n X ê x êå t ë t =1 con determinante det( X ¢X ) = n n ù ú t =1 ú n xt2 ú å ú t =1 û åx n t æ n ö xt2 .1 é 3 24 ê.6.. Il modello lineare semplice in termini matriciali Abbiamo ora tutti gli elementi per trattare il caso del modello lineare semplice (2. allora.x 2 1 û ë xy û xx é mxx y .x ê å t ë t =1 Si ha.Dalla definizione di aggiunta segue che se una matrice è simmetrica tale è anche la sua inversa. 150 . effettuando la moltiplicazione righe per colonne.4ù ê 8 =ê 16ú ê..7)...8) e (2.6. ú xn û ê ú êu n ú ë û per cui la matrice X¢X è.5) ém ù 1 -1 ê ú = (X¢X) X¢y = mxx .5. facendo uso delle posizioni (2.x 2 ëb û é mxx ê -x ë -x ù é y ù 1 ú êm ú = m .6.3..1) in termini matriciali...

[1936-36]. R. 3. [1970]. On the notion of equilibrium and disequilibrium . pp. [1939]. Durbin. Pagan. [1936]. D. Biometrika. pp. pp. 44. Econometrica. Koenker. Cambridge. pp. The General Theory of Employment. 28. 17. J. A Simple Test for Heteroskedasticity and Random Coefficient Variation .S. 100-106. White (1977). [1949].R. Watson [1951]. The Durbin-Watson Test for Serial Correlation with Estreme Sample Sizes or Many Regressors . A Heteroscedasticity Consistent Covariance Matrix Estimator and a Direct Test of Heteroscedasticity . J. Testing for Serial Correlation in Least Squares Regression . Tinbergen. [1979]. A. Orcutt [1949]. G.1989-1996. Cachrane. Econometrica. Savin. A. de Finetti. e G. R.. 45. pp. and Money. J. London: Macmillan. Biometrika. Journal of Econometrics. e K. B. Testing for Serial Correlation in Least Squares Regression .M. White H. Keynes. A Note on Studentizing a Test for Heteroscedasticity . 151 . Torino: Einaudi. 1287-1294.817-818. Duesenberry. Interest. J. Watson [1950]. Spanos. 38. pp. Statistical Testing of Business Cycle Theories. Review of Economic Studies. [1986].S. Saving and the Theory of Consumer Behavior. [1981].C. Income. 48.S.E. 37. Chow.32-61. Cambridge: Cambridge University Press. Application of Least Squares Regressions to Relationships Containing Error Terms . J. Durbin. T. Statistical Foundations of Econometric Modelling.J. Econometrica.159-178. 1. pp. Journal of the American Statistical Association. Teoria della probabilità. N. 47. pp. Geneva: League of Nations. [1980].H. [1960]. e G. pp. Frisch.409-428. e G. Massachussets: Harvard University Press. 107-112.BIBLIOGRAFIA Breusch.S. 591-605. Econometrica. vol. Tests of equality between two sets of coefficients in two linear regressions .

Sign up to vote on this title
UsefulNot useful