(ANOVA) Lanalisi della varianza (ANOVA) e' una tecnica statistica che analizza il modo in cui il valore medio di una variabile e' influenzato da classificazioni di vario tipo dei dati. Se esiste un solo tipo di classificazione si parla di ANOVA ad una via; se le classificazioni sono diverse si parla di ANOVA a piu vie (a due, tre, quattro ... vie). Il test non e' altro che una generalizzazione del t- test di Student per dati non appaiati, adattato ad un numero qualsiasi di gruppi. Se i gruppi sono due, il test equivale al t di Student e il valore di F equivale al quadrato del valore di t. 2 1,2100 +1,10 4,05 7 0,0169 - 0,13 2,82 6 0,0400 - 0,20 2,75 5 0,1225 - 0,35 2,60 4 0,3025 - 0,55 3,50 3 0,6400 - 0,80 2,15 2 0,4225 - 0,65 2,30 1 (x i x) 2 x i x x i Soggetto VARIANZA La Varianzamisura lentitdella variabilito dispersione dalla media delle misurazioni. Essa data dal quadrato della deviazione standard, ovvero lamedia aritmetica dei quadrati delle distanze dei dati dalla media M Varianza=s 2 = devianza / gradi di libert VARIANZA Rappresenta la media aritmetica dei quadrati delle distanze dei dati dalla media M. Essa data dalla formula: Varianza= (x M) 2 N L'analisi della varianza L'analisi della varianza(ANOVA) un insieme di tecniche statistichefacenti parte della statistica inferenzialeche permettono di confrontare due o pigruppi di dati confrontando la variabilit interna a questi gruppi con la variabilittra i gruppi. L ipotesi nulla solitamente prevede che i dati di tutti i gruppi abbiano la stessa origine, ovvero la stessa distribuzione casuale, e che le differenze osservate tra i gruppi siano dovute solo al caso. 3 L'analisi della varianza L'ipotesi alla base dell'analisi della varianzache dati n gruppi, sia possibile scomporre la varianzain due componenti: Varianza interna ai gruppi (anche detta Within) Varianza tra i gruppi (Between). La ragione che spinge a compiere tale distinzione la convinzione, da parte del ricercatore, che determinati fenomeni trovino spiegazione in caratteristiche proprie del gruppo di appartenenza. Il pinoto insieme di tecniche si basa sul confronto della varianzae usa variabili di test distribuite come la variabile casuale F di Snedecor. Confronto fra due varianze: la variabile casuale F Se si vuole stabilire se vi differenza di variabilit fra due popolazioni da ciascuna delle quali si estratto un campione: - si calcola la varianza di ciascun campione - quindi si confrontano le varianzerispettive, calcolando il rapporto tra la maggiore e la minore delle due Le due varianzesono significativamente diverse, se tale rapporto (detto F) supera i limiti indicati nella tabella specifica Il valore di F sempre, per definizione, maggiore di 1 Confronto fra due varianze: la variabile casuale F Rapporto varianze F 4 Rapporto varianze F Varianza Se si parte dal presupposto che da una stessa popolazione sono estratti campioni con uguale varianza (e ovviamente uguale media, a meno di una differenza minima conseguente allerrore di campionamento) , nel caso specifico si arriva a concludere che le medie campionarie sono diverse tra di loro significativamente. Esempio Sia calcolata la varianza dellabbassamento percentuale di glicemia dopo somministrazione di dose standard di insulina in conigli commerciali e di allevamento: -conigli del commercio (13 animali) varianza=s 1 2 =112 - conigli di allevamento (26 animali) varianza=s 2 2 =63 Esempio -conigli del commercio (13 animali) varianza=s 1 2 =112 - conigli di allevamento (26 animali) varianza=s 2 2 =63 Si divide la varianza pi grande per la pi piccola, ottenendo il rapporto: F =112 / 63 =1,78 5 Esempio Si divide la varianza pi grande per la pi piccola, ottenendo il rapporto: F =112 / 63 =1,78 Si calcola il numero dei gradi di libert: Il numero dei gradi di libertdella varianzapigrande 13-1 =12 Il numero dei gradi di libertdella varianzapipiccola 26-1 =25 Rapporto varianze F Esempio Il valore di F per 12 e 25 gradi di libert: 2,16 per il livello di significativit5% 2, 99 per il livello di significativit1% Il valore di F osservato 1,76 Non superando neppure il livello corrispondente al limite del 5%, NON significativo I dati sono insufficienti per dichiarare che i conigli del commercio mostrano una maggiore variabilit nella risposta allinsulina rispetto ai conigli di allevamento. CONFRONTARE DUE MEDIE: IL TEST t DI STUDENT Tutti i test statistici di significativit assumono inizialmente la cosiddetta ipotesi zero(o ipotesi nulla). Quando si effettua il confronto fra due o pi gruppi di dati, l'ipotesi zero prevede sempre che non esista alcuna differenza tra i gruppi riguardo al parametro considerato. In altre parole, secondo l'ipotesi zero i gruppi sono fra loro uguali e le eventuali differenze osservate vanno attribuite al solo caso. 6 t di STUDENT IPOTESI ZERO: le differenze sono dovute al caso Ovviamente l'ipotesi zero pu essere accettata o respinta applicando un test statistico di significativit, il cui risultato va confrontato con un valore critico tabulato in apposite tabelle. Se il risultato del test di significativit supera il valore critico, allora la differenza fra i gruppi statisticamente significativae l'ipotesi zero viene respinta. In caso contrario l'ipotesi zero viene accettata. t di STUDENT Una circostanza comune quella in cui si sono esaminati due campioni di soggetti, in ciascuno dei quali stata misurata una variabile numerica (es. l'altezza, il peso ecc.) di cui stata poi calcolata la media. Ci si chiede se la differenza fra le due medie sia significativa, ossia se si possa affermare che la differenza non sia dovuta al caso ma esista invece una reale diversitra le medie delle due popolazioni da cui i campioni stessi derivano. t di STUDENT La questione analoga a quella del test del chi-quadrato. Il chi-quadrato non va bene se occorre confrontare due medie. Occorre ricorrere ad un altro test: ad esempio il test t (detto anche t di Student). t di STUDENT Confrontare due medie Ipotesi 0: la differenza dovuta al caso Accettare o rifiutare lipotesi 0? Test t di Student 7 t di STUDENT I calcoli da eseguire per effettuare il test t sono complicati rispetto a quelli del chi- quadrato, e perci non entreremo nei dettagli. Solo a titolo di curiosit, ecco la formula di calcolo del valore t: t di STUDENT s la deviazione standard media delle deviazioni standard dei due campioni, cio la radice quadrata della varianza che si ottiene sommando le devianze dei due campioni e dividendo per la somma dei gradi di libert*. *Essi esprimono il numero di dati effettivamente disponibili per valutare la quantitd'informazionecontenuta nella statistica. (Differenzatraleduemedie/ deviazionestandard media) x fattoredi dimensione t di STUDENT una volta trovato il valore t, esso va confrontato con quelli tabulati al fine di stabilire se la differenza fra le due medie non sia dovuta al caso. Quando si dispone di n dati, bisogna usare la distribuzione t-student relativa ad n-1 gradi di libert. Tabella t di Student 8 t di STUDENT Ovviamente, oggi il test t si esegue al computer con l'aiuto di apposito software. Pi che il metodo di calcolo, importante conoscere l'esistenza del test t ed il contesto in cui esso si applica. Esempio Si vuole stabilire leffetto di un preparato. Si procede alle misurazioni su soggetti trattati e sui controlli: - soggetti trattati n a =4 m a =352 - soggetti trattati n b =5 m b =401 Controlli Casi Esempio - soggetti trattati n a =4 m a =352 -soggetti trattati n b =5 m b =401 Per stabilire se la differenza tra le due medie significativa occorre conoscere la deviazione standard dei due campioni epertanto i valori individuali da cui sono derivate le medie. A (soggetti trattati): 339, 405, 302, 362 somma=1408 media =352 B (soggetti trattati): 401, 340, 461, 442, 361 somma=2005 media =401 Esempio A (soggetti trattati): 339, 405, 302, 362 somma=1408 media =352 B (soggetti trattati): 401, 340, 461, 442, 361 somma=2005 media =401 Devianza A =339 2 +405 2 +302 2 +362 2 - (1408 2 /4 = 5578 Devianza B =401 2 +340 2 +461 2 +442 2 +361 2 - (2005 2 /5 =10602 9 Esempio Devianza A =339 2 +405 2 +302 2 +362 2 - (1408 2 /4 = 5578 Devianza B =401 2 +340 2 +461 2 +442 2 +361 2 - (2005 2 /5 =10602 Si calcola una varianza unica, s 2 , sommando le devianze delle due serie e dividendo per la somma dei gradi di libert: s 2 =(5578 +10602) / (3 +4) =16180 / 7 =2311,43 Esempio Si calcola una varianza unica, s 2 , sommando le devianze delle due serie e dividendo per la somma dei gradi di libert: s 2 =(5578 +10602) / (3 +4) =16180 / 7 =2311,43 La radice quadrata di s 2 rappresenta la deviazione standard s =48,1 Esempio Si calcola poi il fattore di dimensione che dipende esclusivamente dal numero di osservazioni nelle due serie: n a n b / (n a +n b) = (4 x 5) / (4 +5) = 1,491 Esempio Infine si moltiplica il fattore di dimensione (1,491) per la differenza tra le medie (401 - 352 =49) e si divide per la deviazione standard (s =48,1) E SI OTTIENE t: t =(differenza tra le due media / s ) x Fattore di dimensione = ( 49 x 1,491) / 48,1 =1,52 10 Esempio t = 1,52 Il valore del t di Student cos ottenuto ha un numero di gradi di libertpari al numero totale di osservazioni meno 2 (5 +4 -2 =7) Per 7 gradi di libert i valori di t significativi ai due livelli sono 2,37 e 3,50 - Il valore ottenuto inferiore ad ambedue e perci la differenza NON significativa - Sarebbe azzardato affermare che il preparato in esame ha leffetto ipotizzato Confronto tra due medie: dati appaiati Quando i dati sono appaiati, cio si sono eseguite due misure sullo stesso individuo, prima e dopo un certo trattamento, e la stessa osservazione stata ripetuta su altri individui, bene tenere opportunamente conto dellappaiamento dei dati nel calcolare il t di Student Esempio Sia somministrato un antipiretico a 6 pazienti e sia misurata la temperatura al momento della somministrazione e 3 ore dopo 0,5 38,2 38,7 F 0,7 38,2 38,9 E 0,9 36,7 37,6 D 1,6 38,6 40,2 C 0,7 38,4 39,1 B 1,1 37,2 38,3 A Differenza tra prima e dopo T dopo T prima Paziente Esempio 0,5 38,2 38,7 F 0,7 38,2 38,9 E 0,9 36,7 37,6 D 1,6 38,6 40,2 C 0,7 38,4 39,1 B 1,1 37,2 38,3 A Differenza tra prima e dopo T dopo T prima Paziente Tot = 5,5 Diff media = 0,92 11 Esempio In questo esempio il valore t si calcola con: T =(differenza media / s) x n T =(0,92 / 0,393) x 6 =5,74 Dalla tabella dei valori t si ricava che, con 5 gradi di libert (n osservazioni - 1), t deve essere superiore a 2,57 per essere significativo al 5% e superiore a 4,03 per il livello dell1% Nellesempio la differenza E significativaed i dati sono sufficienti per concludere sullefficacia del preparato in esame Confronto fra pi medie Analisi della varianza Lanalisi della varianza un metodo di analisi delle differenze fra medie di due o pigruppi. Il confronto tra le medie di 2 gruppi (metodo del t) non altro che un caso particolare di analisi della varianza. Confronto fra pi medie Analisi della varianza Per il paragone tra due medie indifferente usare il metodo t o lanalisi della varianza; con i due metodi si ottiene lo stesso risultato. Quando i gruppi di cui interessa confrontare le medie sono pi di due, sarebbe poco desiderabile eseguire tutti i possibili confronti a due a due tra le diverse medie con il metodo t. In questultimo caso il metodo di elezione lanalisi della varianza. Confronto fra pi medie Analisi della varianza Lanalisi della varianzapermette di: - analizzare esperimenti pi complessi, isolando gli effetti di quelle cause di variabilit che la struttura dellesperimento permette di riconoscere; - di stimare correttamente lerrore sperimentale riducendolo al minimo valore compatibile con il piano di esperimento; - di aumentare al massimo la sensibilit del piano di esperimento; 12 Confronto fra pi medie Analisi della varianza Il procedimento dellanalisi della varianza consiste nellanalizzare la devianza totale (che corrisponde alla somma dei quadrati delle deviazioni dalla media generale) in due o pi componenti, dei quali uno almeno costituisce una stima dellerrore sperimentale, altri stimano le differenze tra medie. Confronto fra pi medie Analisi della varianza Nel caso pi semplice, la devianza totale viene scomposta in due parti: - la devianza tra le medie dei gruppi; - una devianza fra le osservazioni singole che costituiscono i gruppi. Queste devianze divise per i rispettivi gradi di libert danno origine a due varianze , dette rispettivamente: - varianzatra gruppi; - varianzaentro gruppi. Confronto fra pi medie Analisi della varianza Se fra le medie dei gruppi non esistono differenze, le due varianzefra gruppi ed entro gruppi devono risultare uguali, entro i limiti di errore casuale. Il confronto fra le due varianze si esegue calcolando il rapporto F, tra la maggiore e la minore delle due. Confronto fra pi medie Analisi della varianza Se la varianza tra gruppi la maggiore ed F risulta maggiore dei limiti tabulari corrispondenti ai loro gradi di libert, si ritiene accertata lesistenza di differenza significativa fra le medie dei gruppi. Se F significativo, ma la varianza entro gruppi maggiore di quella fra gruppi, si devono sospettare irregolarit di campionamento, che possono invalidare lesperimento. 13 Esempio 29 7 38 6 36 25 5 40 32 42 4 43 17 27 3 28 25 30 2 31 22 52 1 gr gr gr N Trattamento B Trattamento A Controlli Topi Analisi della varianza: peso di tumori in topi trattati con due agenti ed in topi di controllo a) sommadei valori osservati (Sx) Sx controlli=243 SxA=96 SxB=178 b) numeri di osservazioni per gruppo (n) n controlli=7 nA=4 nB=5 c) medie di ogni gruppo (Sx/n) mcontrolli=34,7 mA=24 mB=35,6 d) Quadrati delle somme in (a) (Sx 2 ) Sx 2 controlli=59049 Sx 2 A=9216 Sx 2 B=31648 e) Valori in (d) divisi per valori in (b) (Sx 2 /n) Sx 2 /n controlli=8435,6 Sx 2 /nA=2304 Sx 2 /nB=6336,8 f) Sommadei quadrati dei valori in tabella controlli=9007 A=2422 B=6490 Esempio Esempio Si calcola: Lasommadei valori osservati 243 + 96 +178 =517 Il terminedi correzioneelevando al quadrato il valoreottenuto precedentementeedividendolo per il n totaledi osservazioni C=517 2 / 16 =16705,6 Lasommadei valori in (e) dellatabella=17076,4 Quindi si sottraeaquestultimo valoreil terminedi correzioneC 17076,4 - 16705,6 =370,16 QUESTA E LA DEVIANZA TRA GRUPPI Si calcolalasommadei quadrati dei valori dellatabella=17919 Si sottraeaquesto valorelasommadei valori in (e) dellatabella=842,6 QUESTA E LA DEVIANZA ENTRO GRUPPI Esempio Le due devianze, tra ed entro gruppi, si scrivono in una tabella riassuntiva dellanalisi della varianza 64,82 13 842,6 Entro gruppi 185,30 2 370,8 Tra gruppi Varianza Gradi di libert Devianza Rapporto VarianzeF =185,3 / 64,82 =2,86 14 Esempio Poich il rapporto F ottenuto (2,86) minore di quello corrispondente a 2 e 13 gradi di libertnella tabella al livello del 5%, le differenze non sono significative e non vi sono in questo esperimento dati sufficienti per concludere che uno o laltro dei due trattamenti sia efficace. ATTENZIONE! Se si calcola la devianza totale, si ottiene un valore identico alla somma delle devianze tra ed entro gruppi ed i gradi di libertsono pari alla somma dei gradi di libertdella varianzatra e entro gruppi. Procedimento di inferenza LANOVA si basa su un procedimento di inferenza che confronta due stime indipendenti della varianza della popolazione attraverso lapplicazione del test F . Posta la media della variabile dipendente e indicate con 1 , 2 , ..., k le medie delle popolazioni delle variabili dipendenti misurate nei vari trattamenti, si pongono le due ipotesi: Variabilit Between Vs WithinVsResidua H 0 : 1 = 2 == k H 1 : almeno due medie i e j delle popolazioni dei trattamenti sono fra loro diverse Intuitivamente, la verifica di ipotesi si basa sul seguente ragionamento: la variabilit totale della variabile dipendente dovuta, da un lato, alla diversit fra i punteggi ottenuti dai diversi gruppi di soggetti nei diversi trattamenti (variabilit tra i gruppi: between) e, dallaltro, alla variabilit dovuta alla variazione delle risposte allinterno di ogni singolo gruppo (variabilit entro i gruppi: within). 15 Differenze individuali Errore casuale VariabilitTotale tra i gruppi entro i gruppi Trattamento Differenzeindividuali Errorecasuale Varianza derrore o varianza non spiegata Quando fra le medie dei gruppi non vi sono differenze (i trattamenti non producono differenze nella v.d., quindi vera H 0 ) la variabilittra i gruppi e la variabilitentro i gruppi devono essere molto simili, perchcomprendono ambedue soltanto la varianza derrore. Quando H 0 falsa la variabilittra i gruppi sarmaggiore di quella entro i gruppi.