You are on page 1of 9

CASCHOOL GRETL REGRESSIONE MULTIPLA

TEST SCR & STR


STR TESTSCR EL_PCT FRACEL EXPENTITURES PER STUDENT ($S); EXPN EXPENTITURES PER STUDENT ($1000S); MEAL_PCT PERCENT QUALIFYING FOR REDUCEDPRICE LUNCH CALW_PCT PERCENT QUALIFYING FOR CALWORKS EXPN_STU STUDENT TEACHER RATIO AVG TEST SCORE PERCENT OF ENGLISH LEARNERS Totale iscritti/Numero di insegnanti Media dei punteggi ottenuti nelle prove di lettura e di mate Percentuale di studenti non madrelingua Frazione di studenti non madrelingua Spesa annua totale per studente nel distretto in dollari Spesa annua totale per studente nel distretto in migliaia di dollari Percentuale di studenti che hanno diritto ad un sussidio mensa parziale o totale Percentuale di studenti la cui famiglia idonea per il programma di assistenza pubblica sul reddito Matrice di correlazione Coefficienti di correlazione, usando le osservazioni 1 - 420 Valore critico al 5% (per due code) = 0,0957 per n = 420 el_pct 0,1876 str 1,0000 el_pct La correlazione tra il rapporto studenti-insegnanti e la percentuale di studenti non madrelingua nel distretto 0.19 . Questa correlazione seppur piccola positiva e quindi suggerisce che i distretti con un numero maggiore di studenti non madrelingua hanno tendenzialmente un pi alto rapporto studenti-insegnanti. Solo se il rapporto studenti-insegnanti non dipendesse dalla percentuale di non madrelingua sarebbe legittimo ignorare questultima nella regressione. Modello di regressione lineare str 1,0000 ENRL_TOT/TEACHERS (READ_SCR+MATH_SCR) /2

EL_PCT/100

EXPN_STU/1000

Modello 7: OLS, usando le osservazioni 1-420 Variabile dipendente: testscr Errori standard robusti rispetto all'eteroschedasticit, variante HC1 const el_pct str Coefficiente 686,032 -0,649777 -1,1013 Errore Std. 8,72822 0,0310318 0,432847 rapporto t 78,5993 -20,9391 -2,5443 p-value <0,00001 <0,00001 0,01131 *** *** **

Media var. dipendente 654,1565 SQM var. dipendente 19,05335 Somma quadr. residui 87245,29 E.S. della regressione 14,46448 R-quadro 0,426431 R-quadro corretto 0,423680 F(2, 417) 223,8229 P-value(F) 9,28e-67 Log-verosimiglianza -1716,561 Criterio di Akaike 3439,123 Criterio di Schwarz 3451,243 Hannan-Quinn 3443,913 Retta di regressione lineare: TESTSCR = 686,032 1,10 STR 0,65 EL_PCT Lintercetta 0 stimata da 686.032, la stima OLS del coefficiente 1 del rapporto studentiinsegnanti -1.1013, la stima OLS del coefficiente 2 della percentuale di studenti non madrelingua -0.6498. Dunque con due regressori si stima che un decremento unitario del rapporto studenti-insegnati aumenti di soli 1,10 punti i punteggi dei test, contro i 2.28 punti della regressione con un singolo regressore. Riconosciamo dunque una distorsione da variabile omessa. La differenza tra lR2 e l R2 corretto piccola perch la dimensione campionaria grande e i regressori sono solo due. Si noti che con laggiunta della variabile sulla percentuale di non madrelingua spiegato il 42.6 % della variazione dei punteggi, contro il 5.1 % della regressione con il solo rapporto studentiinsegnanti. Il SER diminuisce da 18.6 a 14.5; questo indica che le predizioni circa i punteggi nei test sono pi precise quando vengono incluse sia STR che EL_PCT. Per verificare lipotesi nulla che il vero coefficiente di STR sia uguale a 0, guardiamo il valore della statistica t che -2.54 e il relativo p-value che 1.131 % < 5 % quindi lipotesi nulla pu essere rifiutata ad un livello di significativit del 5 % (ma ad esempio non ad un livello di significativit dell1%). Lintervallo di confidenza al 95% per il coefficiente di STR nella popolazione pu essere calcolato come (-1.1013 1.96*0.433 , -1.1013+ 1.96*0.433) = (-1.95 , -0.25) cio al 95 % il vero valore del coefficiente si trova in questo intervallo. Lintervallo di confidenza per leffetto sui test di una diminuzione di due unit del rapporto studenti-insegnanti -2 * (-1.95 , -0.25) = (0.5 , 3.9). Usando Gretl: Intervalli di confidenza per i coefficienti t(417, 0,025) = 1,966 Variabile const str el_pct Coefficiente 686,032 -1,10130 -0,649777 Intervallo di confidenza al 95 (668,875, 703,189) (-1,95213, -0,250462) (-0,710775, -0,588779)

ESEMPIO DI COLLINEARITA PERFETTA Modello 9: OLS, usando le osservazioni 1-420 Variabile dipendente: testscr Omesse per perfetta collinearit: fracel const el_pct str Coefficiente 686,032 -0,649777 -1,1013 Errore Std. 7,41131 0,0393425 0,380278 rapporto t 92,5656 -16,5159 -2,8960 p-value <0,00001 <0,00001 0,00398 *** *** ***

Media var. dipendente Somma quadr. residui R-quadro F(2, 417) Log-verosimiglianza Criterio di Schwarz

654,1565 87245,29 0,426431 155,0136 -1716,561 3451,243

SQM var. dipendente E.S. della regressione R-quadro corretto P-value(F) Criterio di Akaike Hannan-Quinn

19,05335 14,46448 0,423680 4,62e-51 3439,123 3443,913

La variabile FRACEL viene omesse in quanto mostra collinearit perfetta con la variabile EL_PCT poich ne una funzione lineare. AGGIUNGIAMO UNALTRA VARIABILE Modello 3: OLS, usando le osservazioni 1-420 Variabile dipendente: testscr Errori standard robusti rispetto all'eteroschedasticit, variante HC1 const str el_pct expn Coefficiente 649,578 -0,286399 -0,656023 3,8679 Errore Std. 15,4583 0,482073 0,0317844 1,58072 rapporto t 42,0212 -0,5941 -20,6397 2,4469 p-value <0,00001 0,55277 <0,00001 0,01482 *** *** **

Media var. dipendente Somma quadr. residui R-quadro F(3, 416) Log-verosimiglianza Criterio di Schwarz

654,1565 85699,71 0,436592 147,2037 -1712,808 3449,776

SQM var. dipendente E.S. della regressione R-quadro corretto P-value(F) Criterio di Akaike Hannan-Quinn

19,05335 14,35301 0,432529 5,20e-65 3433,615 3440,003

Retta di regressione lineare: TESTSCR = 649,578 0,286 STR 0,656 EL_PCT + 3.868 EXPN Tenendo costante la spesa per studente e la percentuale di non madrelingua, la variazione nel rapporto studenti-insegnanti ha un effetto molto ridotto, infatti oltre al valore del coefficiente che passa da -1.10 a -0.29 si noti la statistica t con relativo p-value 55,28 % che dice che lipotesi nulla che questo coefficiente sia pari a 0 non pu essere rifiutata neanche ad un livello di significativit del 10 %: quindi questo modello di regressione non fornisce evidenza a favore del fatto che lassumere pi insegnanti migliori i punteggi dei test se la spesa totale tenuta costante.

Lo SE relativo al coefficiente di STR aumentato dopo laggiunta di EXPN e questo manifestazione del fenomeno della collinearit imperfetta, infatti STR e EXPN sono fortemente correlati. Coefficienti di correlazione, usando le osservazioni 1 - 420 Valore critico al 5% (per due code) = 0,0957 per n = 420 str -0,6200 expn 1,0000 str Per testare lipotesi nulla che siano contemporaneamente nulli i coefficienti di STR e di EXPN usiamo la statistica F:
Insieme di vincoli 1: b[str] = 0 2: b[expn] = 0 Statistica test: F robusta(2, 416) = 5,43373, con p-value = 0,0046823 Stime vincolate: coefficiente errore std. rapporto t p-value --------------------------------------------------------------const 664,739 0,940642 706,7 0,0000 *** str 0,000000 0,000000 NA NA el_pct -0,671156 0,0389837 -17,22 1,36e-050 *** expn 0,000000 0,000000 NA NA Errore standard della regressione = 14,5917

expn 1,0000

La statistica F pari a 5.43373 > 4.61 quindi lipotesi nulla pu essere rifiutata ad un livello di significativit dell 1% e inoltre 5.43373 > 3 quindi lipotesi nulla pu essere rifiutata ad un livello di significativit del 5 %. Quindi possiamo rifiutare lipotesi nulla che STR e EXPN non siano statisticamente rilevanti per leffetto sui punteggi. La regressione vincolata dunque TESTSCR = 664,739 0,671 EL_PCT ovvero Modello 4: OLS, usando le osservazioni 1-420 Variabile dipendente: testscr Errori standard robusti rispetto all'eteroschedasticit, variante HC1 const el_pct Coefficiente 664,739 -0,671156 Errore Std. 0,974037 0,0321211 rapporto t 682,4578 -20,8946 p-value <0,00001 <0,00001 *** ***

Media var. dipendente Somma quadr. residui R-quadro F(1, 418) Log-verosimiglianza Criterio di Schwarz e dunque ha un R2 pari a 0.4149.

654,1565 89000,02 0,414895 436,5823 -1720,743 3453,567

SQM var. dipendente E.S. della regressione R-quadro corretto P-value(F) Criterio di Akaike Hannan-Quinn

19,05335 14,59173 0,413496 6,69e-67 3445,486 3448,680

Si pu anche scegliere di testare se due coefficienti sono uguali:


Vincolo:

b[str] - b[expn] = 0 Statistica test: F robusta(1, 416) = 8,9403, con p-value = 0,00295511 Stime vincolate: coefficiente errore std. rapporto t p-value -------------------------------------------------------------const 685,822 11,3696 60,32 4,31e-208 str -0,854052 0,459004 -1,861 0,0635 el_pct -0,656690 0,0396393 -16,57 9,96e-048 expn -0,854052 0,459004 -1,861 0,0635 Errore standard della regressione = 14,5489

*** * *** *

Regione di confidenza e intervalli marginali al 95 % per i coefficienti di STR e EXPN


Ellisse di confidenza al 95% e intervalli marginali al 95% 8

-0,286, 3,87

4 expn 3 2 1 0 -1 -1,5

-1

-0,5 str

0,5

Lellisse contiene al 95 % le coppie di valori che non possono essere rifiutati usando la statistica F al livello di significativit del 5 %. Si noti che questa ellisse non contiene la coppia (0,0), ci vuol dire che lipotesi nulla che i coefficienti di STR e EXPN siano contemporaneamente nulli rifiutata ad un livello di significativit del 5 %. ALTRA REGRESSIONE Matrice di correlazione: Coefficienti di correlazione, usando le osservazioni 1 - 420 Valore critico al 5% (per due code) = 0,0957 per n = 420 calw_pct 1,0000 meal_pct 0,7394 1,0000 el_pct 0,3196 0,6531 1,0000 calw_pct meal_pct el_pct

Quindi le CALW_PCT e MEAL_PCT sono fortemente correlate (infatti misurano entrambi la percentuale di bambini economicamente svantaggiati nel distretto) Grafici X-Y a dispersione

calw_pct

testscr

testscr

meal_pct

testscr

el_pct

Ciascuna di queste variabili mostra una correlazione negativa con il punteggio nei test. Procediamo nel fare tre modelli di regressione, tutti con variabile dipendente TESTSCR: 1) Variabili indipendenti: STR, EL_PCT, CALW_PCT Modello 14: OLS, usando le osservazioni 1-420 Variabile dipendente: testscr Errori standard robusti rispetto all'eteroschedasticit, variante HC1 const str el_pct calw_pct Coefficiente 697,999 -1,30798 -0,48762 -0,789965 Errore Std. 6,92037 0,339076 0,0295823 0,0676596 rapporto t 100,8615 -3,8575 -16,4835 -11,6756 p-value <0,00001 0,00013 <0,00001 <0,00001 *** *** *** ***

Media var. dipendente Somma quadr. residui R-quadro

654,1565 56502,17 0,628543

SQM var. dipendente E.S. della regressione R-quadro corretto

19,05335 11,65429 0,625864

F(3, 416) Log-verosimiglianza Criterio di Schwarz

170,3655 -1625,328 3274,817

P-value(F) Criterio di Akaike Hannan-Quinn

4,93e-72 3258,656 3265,043

TESTSCR = 698 1,308 STR 0,488 EL_PCT 0,79 CALW_PCT 2) Variabili indipendenti: STR, EL_PCT, MEAL_PCT Modello 15: OLS, usando le osservazioni 1-420 Variabile dipendente: testscr Errori standard robusti rispetto all'eteroschedasticit, variante HC1 const str el_pct meal_pct Coefficiente 700,15 -0,998309 -0,121573 -0,547346 Errore Std. 5,56845 0,27008 0,0328317 0,0241072 rapporto t 125,7352 -3,6963 -3,7029 -22,7046 p-value <0,00001 0,00025 0,00024 <0,00001 *** *** *** ***

Media var. dipendente Somma quadr. residui R-quadro F(3, 416) Log-verosimiglianza Criterio di Schwarz

654,1565 34298,30 0,774516 453,4792 -1520,499 3065,160

SQM var. dipendente E.S. della regressione R-quadro corretto P-value(F) Criterio di Akaike Hannan-Quinn

19,05335 9,080079 0,772890 1,0e-130 3048,999 3055,386

TESTSCR = 700,15 0,998 STR 0,122 EL_PCT 0,547 MEAL_PCT Statistica F


Vincolo: b[str] - b[el_pct] = 0 Statistica test: F robusta(1, 416) = 9,87264, con p-value = 0,00179751 Stime vincolate: coefficiente errore std. rapporto t p-value -------------------------------------------------------------const 683,761 0,992955 688,6 0,0000 str -0,151716 0,0316370 -4,796 2,26e-06 el_pct -0,151716 0,0316370 -4,796 2,26e-06 meal_pct -0,542058 0,0218507 -24,81 4,11e-084 Errore standard della regressione = 9,20756

*** *** *** ***

Poich 9,87 > 3 lipotesi nulla, che i coefficienti di STR e di EL_PCT siano uguali, pu essere rifiutata ad un livello di significativit del 5%. 3) Variabili indipendenti: STR, EL_PCT, CALW_PCT, MEAL_PCT Modello 16: OLS, usando le osservazioni 1-420

Variabile dipendente: testscr Errori standard robusti rispetto all'eteroschedasticit, variante HC1 const str el_pct calw_pct meal_pct Coefficiente 700,392 -1,01435 -0,129822 -0,0478537 -0,528619 Errore Std. 5,53742 0,268861 0,0362579 0,0586541 0,0381167 rapporto t 126,4835 -3,7728 -3,5805 -0,8159 -13,8684 p-value <0,00001 0,00018 0,00038 0,41505 <0,00001 *** *** *** ***

Media var. dipendente Somma quadr. residui R-quadro F(4, 415) Log-verosimiglianza Criterio di Schwarz

654,1565 34247,46 0,774850 361,6835 -1520,188 3070,577

SQM var. dipendente E.S. della regressione R-quadro corretto P-value(F) Criterio di Akaike Hannan-Quinn

19,05335 9,084273 0,772680 8,9e-134 3050,376 3058,360

TESTSCR = 700,4 1,014 STR - 0,13 EL_PCT - 0,048 CALW_PCT 0,529 MEAL_PCT Intervalli di confidenza per i coefficienti t(415, 0,025) = 1,966 Variabile const str el_pct calw_pct meal_pct Coefficiente 700,392 -1,01435 -0,129822 -0,0478537 -0,528619 Intervallo di confidenza al 95 (689,507, 711,277) (-1,54285, -0,485853) (-0,201094, -0,0585498) (-0,163150, 0,0674424) (-0,603545, -0,453693)

Tali intervalli di confidenza non contengono lo zero, quindi si pu rifiutare la nulla che ogni coefficiente sia singolarmente pari a 0. Confrontiamo gli R2 delle tre regressioni: Regressione con solo CALW_PCT R-quadro Regressione con solo MEAL_PCT R-quadro 0,774516 R-quadro corretto 0,772890 0,628543 R-quadro corretto 0,625864

Regressione con CALW_PCT e MEAL_PCT R-quadro 0,774850 R-quadro corretto 0,772680

Notiamo che gli R2 delle ultime due regressioni sono molto simili ed in particolare che lR2 corretto maggiore nel modello con solo MEAL_PCT quindi siamo portati a pensare che a causa dellalta correlazione tra MEAL_PCT e CALW_PCT non sia conveniente includere entrambe le variabili

nella regressione per non incappare nel fenomeno della collinearit imperfetta e dunque teniamo infine il modello numero 2.