You are on page 1of 23

CURS ECONOMETRIE Unitatea de nvare : 5 ANALIZA DISPERSIONAL - ANOVA Cuprins:

1. Ce am nvat n Unitatea de nvare 4 2. Obiectivele Unitii de nvare 5 3. Concepte generale n analiza dispersional 4. Modele de analiza dispersional 5. Utilizarea modelelor de analiz dispersional unifactorial sub SPSS 6. Rspunsuri i comentarii la testele de autoevaluare 7. Bibliografia Unitii de nvare 5 8. Lucrare de verificare 1. Ce am nvat n Unitatea de nvare 4 Testarea ipotezei privind diferena dintre dou medii pentru eantioane de volum redus Ipotezele statistice: - test bilateral: - test unilateral stnga: - test unilateral dreapta: Testul statistic: t= H0: (1- 2) = D H1: (1- 2) D H1: (1- 2) < D H1: (1- 2) > D
1

(x

x2 D

1 1 dac dispersiile celor dou populaii sunt egale sc2 n + n 1 2

sau

t=

( x1 x2 ) D
2 s12 s2 + n1 n2

, dac dispersiile celor dou populaii sunt diferite

Regiunea critic Rc: - pentru test bilateral: t< - t /2;df sau - pentru test unilateral stnga: t < t;df - pentru test unilateral dreapta: t > t;df t > t /2;df

Testarea ipotezei privind dispersia unei populaii Ipotezele statistice: - test bilateral: - test unilateral stnga: - test unilateral dreapta: Testul statistic: Regiunea critic Rc: - pentru test bilateral: F > F / 2 ,n 1,n
1

2 H 0 : 12 / 2 =1
2 H 0 : 12 / 2 1

2 H 0 : 12 / 2 <1
2 H 0 : 12 / 2 >1

s12 F= 2 s2
F < F1 / 2 , n

1 2

sau
1

1, n2 1

- pentru test unilateral stnga: F > F, n 1,n


1

1 2

- pentru test unilateral dreapta: F <F1 , n 1, n

Testarea ipotezei privind raportul dintre dou dispersii. Ipotezele statistice: - test bilateral: - test unilateral stnga: - test unilateral dreapta: Testul statistic: Regiunea critic Rc:
2 2 - pentru test bilateral: < 1 / 2 ,n1 sau 2 2 - pentru test unilateral stnga: < 1,n 1 2 2 - pentru test unilateral dreapta: > ,n 1 2 2 > / 2 ,n 1

H 0 : 2 = 02 H 0 : 2 02 H 0 : 2 < 02 H 0 : 2 > 02

2 =

(n 1) s 2 2

2. Obiectivele Unitii de nvare 5 Dup studiul acestei uniti de nvare vei avea cunostine despre: 1. Tehnici de studiere a efectului variabilei/variabilelor independente asupra celei dependente; 2. Particulariti ale aplicrii ANOVA n funcie de tipul de eantion; 3. Cum s utilizezi software-ul statistic SPSS pentru ANOVA.

3. Concepte generale n analiza dispersional

Analiza dispersional, cunoscut i sub numele de analiz de varian (ANOVA Analysis Of Variance), a fost introdus de matematicianul R.A. Fisher. Pornind de la observaiile acumulate pe parcursul mai multor ani de experiene agrotehnice, acesta a fundamentat o serie de principii i metode de programare i dirijare a experimentelor precum i de interpretare statistic a rezultatelor. Rezultatele acestei cercetrii au fost sintetizate n dou lucrri de referin chiar i astzi: Statistical Methods for Research Workers - 1925 i The Design of Experiments 1935. Demersul tiinific al acestuia a pornit de la compararea produciilor medii ale unor suprafee de teren cultivate cu diferite soiuri de cereale sau plante tehnice. Aceste suprafee erau supuse unor tratamente difereniate (de exemplu: adncimea arturii, cantitatea i periodicitatea irigrilor sau a ngrmintelor folosite). Metodele puse la punct de Fisher s-au concretizat ulterior n modele experimentale ce i-au gsit utilitatea n diverse domenii ca:
Exemplu

Exemplu
- industrie: testarea unor prototipuri sau tehnologii), comer (impactul unor campanii publicitare; - medicin:fundamentarea diagnosticului i estimarea efectului tratamentelor aplicate; - mediu: impactul asupra mediului a factorilor poluani sau al tehnologiilor de depoluare; - agricultur: efectul diferitelor proceduri de tratare/cultivare a solurilor asupra produciei medii obinute sau n procesul de obinere a soiurilor superioare. n general, se consider c experimentul este acea metod de cercetare prin care variaia (modificarea) uneia sau mai multor variabile explicative (independente) este controlat sau manipulat de cercettor, msurndu-se apoi efectul acesteia asupra variabilei (variabilelor) rezultative (efect)1. Pornind de la aceast definiie, vom cuta s explicitm termenii utilizai. Variabile rezultative. Sunt variabile dependente a cror transformare este msurat n cadrul experimentului. Deoarece esena metodei de analiz dispersional const n compararea mediilor, este obligatoriu ca acestea s fie variabile cantitative. Isaic-Maniu Al., Mitru C., Voineagu V. , Statistica pentru managementul afacerilor, Editura Economic 1999, pg. 214
1

Variabile explicative. Sunt variabile independente care constituie factorii cauzali, ce produc modificri asupra variabilei dependente explicative. Acestea pot fi: astfel: endogene (variabile controlate / manipulate n cadrul experimentului); exogene (din afara sistemului analizat, care nu sunt supuse experimentrii i a cror influen poate interfera cu cea a variabilelor rezultative ducnd la reducerea performanelor de fidelitate a modelului experimental. n funcie de condiiile de desfurare a experimentului putem ntlni urmtoarele situaii: Experimentul are loc ntr-un sistem nchis. Experimentatorul poate menine la un nivel constant toate variabilele exogene. O astfel de situaie poate fi uor reprodus n domeniul tehnic (fizic, chimie etc.). Experimentul are loc ntr-un sistem deschis. n cazul proceselor din sfera economic sau social controlul efectiv al variabilelor exogene este imposibil de realizat. n consecin, n aceast situaie se va efectua un control de natur statistic, prin aplicarea unui procedeu de selecie aleator, pentru a forma eantioanele supuse experimentului. Dup scopul urmrit, se disting urmtoarele tipuri de experimente: Preliminare. Se urmrete testarea unui numr mare de factori (tratamente) pentru a avea informaii n vederea proiectrii cercetrilor ulterioare; Critice. Se compar rezultatele diferitelor tratamente pentru a le putea identifica pe cele care au o influen semnificativ; Demonstrative. Se testeaz unul sau mai multe tratamente n raport cu un etalon fixat anterior. Dup numrul variabilelor explicative, experimentele pot fi unifactoriale sau multifactoriale. cantitative (temperatur, valori ale unor analize medicale obinute din laborator, umiditate, etc.); calitative (sex, mediu de provenien, studii, tip de sol, etc.). Considernd experimentul ca un sistem, variabilele independente se pot clasifica

n figura 1 este prezentat schema decizional de alegere a modelului de analiz dispersional n funcie de numrul variabilelor factoriale i modul n care au fost selectate eantioanele.

Figura 1: Schem decizional pentru alegerea modelului de analiz dispersional


variabil nominal

*
ce

O variabil factorial DA
Exist covarian* ?

Mai multe variabile factoriale DA


Exist covarian* ?

NU

NU

Eantioane independent e?

DA

NU

Modelul ANCOVA

Modelul One Way ANOVA

Modelul Repeated Measures ANOVA

Modelul Factorial ANCOVA

Modelul Factorial ANOVA

influeneaz variabila dependent

Folosind schema de mai sus, vom trata doar Modelul one Way ANOVA si Repeated Measures ANOVA, celelalte presupunnd cunotine avansate de statistic. 4. Modele de analiza dispersionala

A) Modele de analiz unifactorial, One-Way ANOVA Cu ajutorul testului parametric de analiz dispersional ANOVA se pot examina dou sau mai multe eantioane independente pentru a determina dac mediile populaiilor din care provin ar putea fi egale, putndu-se pune astfel n eviden influena factorului considerat sau a tratamentului efectuat. Practic, populaiile se pot clasifica utiliznd un singur criteriu, numit factor (tratament) dup cum se poate observa n figura nr. 2. Fiecare populaie este determinat de un nivel al factorului (sunt k niveluri).

Figura 2 :Constituirea grupelor dup nivelele factorului Populaiile grupate dup nivelul factorului (tratamentului) Nivel 1 Eantioanele selectate grupate dup nivelul factorului (tratamentului)

.................................

2 x1 , S1

Nivel k

xk , S2 k

Construim ipoteza nul i ipoteza alternativ: H0: X 1 = X 2 = ...... = X i = ......... = X k pentru i=1,,k H1: exist i j astfel nct
Xi X
j

Fiecare observaie individual, considerat ca sum a trei componente separate, poate fi descris n termenii modelului 1, schiat n cele ce urmeaz. n concordan cu acest model, fiecare observaie (xij) asociat tratamentului j este suma componentelor: media populaiei pentru toate tratamentele, efectul tratamentului j i eroarea de eantionare. n acest context, ipotezele pot fi reformulate astfel: H0: i=0 pentru orice i=1,,k H1: i0 pentru cel puin unul dintre i=1,,k. Dac efectul fiecrui tratament i pentru orice i=1,,k este nul, media fiecrei populaii X i este egal cu media total.

Model 1

Observaia individual j pentru tratamentul i

Efectul tratamentului i

Media populaiei pentru toate tratamentele

xij = X + i + ij

Eroarea asociat procesului de selecie

Utilizarea testului parametric ANOVA pleac de la urmtoarele premize: Eantioanele au fost selectate independent; Variabila independent este calitativ;
2 2 2 Dispersiile populaiilor sunt egale ( 1 = 2 = ... = k );

Reziduurile (diferena dintre observaiile empirice i cele ateptate conform modelului) sunt normal distribuite.

Aceste condiii (n special cea privind egalitatea dispersiilor) sunt foarte importante. Dac nu sunt ndeplinite, se va utiliza testul neparametric Kruskal-Wallis pentru a compara tendina central a dou sau mai multe eantioane independente. n realitate, ANOVA este un procedeu robust, adic neafectat major de nendeplinirea unei condiii, cu excepia celei cu privire egalitatea dispersiilor. Pentru efectuarea testului este necesar calcularea variaiei pe surse de provenien astfel:
Tabel nr. 1 Tipul variaiei Variaia dintre grupuri determinat de tratament (Between Group Sum of Squares ) Variaia din interiorul grupurilor, determinat de procesul de eantionare (Sums of Squared Errors sau Sum of Squares Within Groups ) Variaia total (Sums of Squares Total)
k

Variaia

Grade libertate
2

Media variaiei

SSB = ni. ( xi x )
i =1
k ni

df1= k-1

MSB =

SSB k 1 SSE n k

SSE = xij xi
i =1 j =1 k ni

)2 )2

df2= n-k

MSE =

SST = xij x
i =1 j =1

n-1

Variaia dintre grupuri (SSB) reflect variaia dintre mediile eantioanelor i media general. Variaia rezidual (SSE) se calculeaz pornind de la abaterile valorilor observate i mediile fiecrui grup. Pentru ca cele dou tipuri de variaie s fie comparabile n vederea

realizrii testului statistic, este necesar corectarea acestora cu numrul corespunztor de grade de libertate. Testul statistic este dat de relaia: F = MSB

MSE .

Testul se realizeaz unilateral dreapta i pentru un anumit nivel de siguran se respinge ipoteza nul, dac valoarea calculat F este mai mare dect cea teoretic, corespunztoare nivelului de semnificaie ales i numrului de grade de libertate df1 i df2. innd cont de ipoteza egalitii dispersiilor populaiilor, intervalul de ncredere pentru estimarea mediilor eantioanelor este dat de relaia:
xi t S p

ni , unde Sp= MSE estimaia abaterii standard n populaii;

ni= numrul de elemente ce formeaz eantionul i;


xi = media eantionului j;

t= valoarea distribuiei t corespunztoare nivelului de semnificaie ales i numrului de grade de libertate asociat variaiei din interiorul grupurilor. n cazul n care se compar mediile din dou eantioane testul ANOVA unifactorial i testul Student realizat pe baza dispersiei estimate sunt echivalente. Ambele testeaz ipoteza egalitii mediilor a dou populaii pe baza datelor din dou eantioane independente i pornesc de la premiza egalitii varianelor celor dou populaii, utiliznd o estimaie a acesteia. B) Modelul de analiz dispersional unifactorial realizat pe eantioane dependente (Repeated Measures ANOVA) Metoda se bazeaz pe modelul de analiz a variaiei cu msurtori repetate. n aceast situaie, fiecare unitate este studiat pentru fiecare tratament aplicat. Unitile formeaz blocuri i pentru fiecare unitate dintr-un bloc se produc msurtori la aplicarea fiecrui tratament. Modelele cu msurtori repetate sunt frecvent utilizate n cercetarea fenomenelor economico- sociale cnd se obin informaii repetate de la acelai eantion numit panel. Avantajele modelelor cu msurtori repetate: Variabilitatea inter uniti este exclus din variaia rezidual, ceea ce face mai uoar compararea tratamentelor; Fiecare unitate servete pentru propriul control;

Reducerea costurilor. Odat fcute cheltuielile necesare eantionrii acestea nu se vor mai efectua pentru cercetrile ulterioare realizate pe baza aceluiai eantion. Dezavantajele modelelor cu msurtori repetate: Exist o perioad de ateptate ntre tratamente, care poate determina apariia fenomenelor: de acumulare (n cazul tratamentelor chimice ale solurilor n agricultur); de nvare (n cercetrile sociale indivizii dobndesc anumite cunotine din cercetrile anterioare); de imunizare sau dependen (n medicin) Exist riscul ca rspunsurile s nu mai fie spontane, ele devenind rezultatul unei rutine sau fiind condiionate de rspunsurile anterioare la ntrebrile similare. Cu toate c se pot controla i blocurile, preocuparea principal este legat de testarea

egalitii mediilor pentru toate tratamentele (eantioanele). n consecin, formularea ipotezelor este urmtoarea: H0: X 1 = X 2 = ...... = X i = ......... = X k pentru i=1,,k; H1: exist i j astfel nct
Xi X
j

Datele pot fi sistematizate ntr-un tabel de forma urmtoare:


Observaiile (unitile sau blocurile) 1 2 . b Media pentru fiecare tratament Tratamente (eantioane) 2 ..k Media pentru fiecare observaie

x11 x12 .x1k x21 x22 .x2k . xb1 xb2 .xbk

x1obs
obs x2

obs xb

x1

x 2 . xk

Ca i n cazul ANOVA unifactorial, fiecare observaie individual este considerat ca sum a unor componente separate ce poate fi descris n termenii modelului 2, mai jos schiat.

Model 2
Observaia individual din blocul j pentru tratamentul i Efectul tratamentului i Efectul blocului (unitii) j

xij = X + i +
Media populaiei pentru toate tratamentele

j + ij

Eroarea asociat procesului de selecie

n acest model fiecare valoare xij asociat blocului i i tratamentului j este suma urmtoarelor elemente: media populaiei pentru toate tratamentele (eantioanele), efectul tratamentului j (j), efectul blocului i (i) i eroarea de eantionare (ij). n acest context ipotezele pot fi reformulate astfel: H0: i=0 pentru orice i=1,,k H1: i0 pentru cel puin unul dintre i=1,,k. Dac efectul fiecrui tratament i pentru orice i=1,,k este nul, media fiecrei populaii X i este egal cu media total. n cazul acestei metode exist o singur observaie xij pentru fiecare combinaie bloctratament. Se poate considera c fiecare dintre aceste combinaii reprezint un eantion format dintr-o singur unitate. Utilizarea metodei blocurilor randomizate pleac de la urmtoarele premize: Variabila independent este nominal; Eantioanele sunt dependente (datele sunt culese n urma unui plan de msurtori repetate); Variabila dependent este msurat pe scala cardinal sau proporional; Pentru fiecare tratament variabila dependent urmeaz o distribuie normal sau aproximativ normal; Dispersiile valorilor xij sunt egale pentru fiecare tratament j=1,,k. Aceasta este prezumia de sfericitate i este echivalenta cu cea de omogenitate a dispersiilor pentru modelul ANOVA. Verificarea acesteia se realizeaz prin testul Mauchly; Nu exist o interaciune ntre blocuri i tratamente. Conform metodei blocurilor randomizate prezenta unei interaciuni ar fi atunci cnd efectul tratamentului depinde de blocul unde urmeaz s fie administrat. Pentru efectuarea testului este necesar calcularea tipuri de variaie prezentate n tabelul 2.
10

Tabel nr. 2 Sursa variaiei Tratamentele Blocurile (unitile) Procesul de eantionare Variaia total Variaia Grade libertate
2

Media variaiei
MSB = SSB k 1
MSBl = SSBl b 1

SSB = b( xi x )
i =1 b

k-1

SSBl = k x obs x j
j =1

)2

b-1
(k-1)(b-1)

SSE=SST-SSB-SSBl

MSE = SSE (k - 1)(b - 1)

SST = xij x
i= 1 j= 1

)2

kb-1

Testul statistic este dat de relaia: F =

MSB MSE

Ca i n cazul testului ANOVA unifactorial, MSB reprezint variaia dintre mediile tratamentelor (eantioanelor), iar MSE reprezint variaia din interiorul eantioanelor. Este un test unilateral dreapta, iar valoarea calculat se compar cu valoarea critic pentru un nivel de semnificaie dat () i numrul de grade de libertate df 1=k-1 i df2=(k-1)(b-1). Dac valoarea calculat este mai mare dect valoarea critic, se respinge H0 i se accept H1. 5. Utilizarea modelelor de analiza dispersionala unifactoriala sub SPSS

Primul pas n efectuarea unui test statistic pentru compararea mediilor a dou grupuri l reprezint alegerea opiunii potrivite n funcie de modul n care au fost selectate eantioanele. A) Eantioane independente. One-Way ANOVA Dac avem dou sau mai multe eantioane independente vom alege metoda adecvat din submeniul de comparare a mediilor urmnd urmtoarea cale: Analyze/Compare Means/ One-Way ANOVA. Dup selectarea testului se deschide fereastra de definire a acestuia (figura nr. 3) care ne permite n zona Dependent List selectarea variabilei/variabilelor pentru care se dorete efectuarea testului. n fereastra Factor se trece variabila n funcie de care se formeaz grupurile pentru care dorim s testm semnificaia diferenelor. n situaia n care se vor trece mai multe variabile dependente se va returna pentru fiecare din ele un tabel cu rezultatele aplicrii testului ANOVA. Fiecare variabil din list

11

trebuie s fie msurat pe scala de interval sau proporional, trebuie s urmeze o repartiie normal sau aproximativ normal. Condiia de normalitate a distribuiei este foarte important s fie respectat doar in cazul eantioanelor de volum redus. nainte de efectuarea testului este obligatorie verificarea respectrii prezumiei egalitii varianelor. Prin activarea butonului de comand Options se deschide fereastra OneWay ANOVA Options (figura 3) de unde putem activa efectuarea testrii omogenitii varianelor. Figura 3: Fereastra de definire a testului One-Way ANOVA

Exemplu

s-a selectat dintr-o baz de date variabila dependent nota

acordat utilitii practice a cursurilor i variabila factorial Facultatea. Prin butonul OK se comand procesarea testului, obinndu-se output-urile din tabelele 3 (rezultatele efecturii testului Levene pentru verificarea omogenitii varianelor) i 4 (rezultatele testului de analiz dispersional unifactorial ANOVA).
Tabel nr. 3
Test of Homogeneity of Variances Cuantificati cu o nota de la 1 la 10 utilitatea cursurilor Levene Statistic 3,260 df1 9 df2 663 Sig. 0,054

Interpretarea output-ului din tabelul 3: Levene Test. Valoarea calculat a statisticii testului.

12

df1 Numrul de grade de libertate k-1 unde k este numrul de grupe dup variabila factor. df2 Numrul de grade de libertate n-k unde n este numrul de uniti observate. Sig. Nivelul de semnificaie. Dac valoarea acestuia este mai mare de 0,05 se poate accepta ipoteza egalitii varianelor. n exemplul considerat se poate afirma c dispersiile grupelor sunt egale, deoarece nivelul de semnificaie este 0,054. Prezumia de homoscedasticitate fiind respectat se poate efectua testul ANOVA. Ipotezele acestuia sunt: H0:
X 1 = X 2 =...... = X
j

=......... = X k

pentru i=1,,k H1: exist i j astfel nct


Xi X
j

Homoscedasticitate (Homoscedasticity) La date bivariate, variabila y prezint homoscedasticitate dac mprtierea valorilor y nu depinde de x. Grafic, seciunile verticale n diagrama de mprtiere prezint distribuii similare ale norilor de puncte. Noiunea contrar este cea de heteroscedasticitate.

Rezultatele sunt prezentate n tabelul 4. Primele coloane indic tipul variaiei, variaia, numrul de grade de libertate i media variaiei, conform relaiilor de calcul prezentate n tabelul nr. 1. n plus, SPSS-ul returneaz i valoarea calculat a raportului F (conform relaiei
F= MSB ). Un nivel de semnificaie <0,05 duce la respingerea ipotezei nule. MSE

Tabel nr.4
ANOVA Cuantificati cu o nota de la 1 la 10 utilitatea cursurilor desfasurate de-a lungul facultatii in formarea profesionala Sum of Squares Between Groups 732,377 Within Groups 2782,276 Total 3514,654 df 9 663 672 Mean Square 81,375 4,196 F 19,391 Sig. ,000

n situaia n care prezumia de homoscedasticitate nu este ndeplinit, rezultatele testului ANOVA sunt neconcludente. Pentru a nu recurge la teste neparametrice se apeleaz la corecia Welch, selectnd aceast opiune din fereastra de definire a testului. n urma aplicrii acestei corecii (tabelul 5) se obine valoarea calculat a statisticii testului, dup care, se compar valoarea teoretic a distribuiei F pentru numrul corectat al gradelor de libertate. i n acest caz, dac nivelul de semnificaie este mai mic dect 0,05 se respinge ipoteza egalitii mediilor.

13

Tabel nr. 5
Robust Tests of Equality of Means cuantificarea cu o nota dela 1 la 10 a utilitatii practice Welch Statistic 8,123
a

df1 9

df2 266,523

Sig. ,000

a. Asymptotically F distributed.

Chiar dac n urma aplicrii se respinge ipoteza egalitii mediilor este posibil s existe subseturi pentru care diferenele dintre medii s nu fie semnificative. Pentru a verifica aceast ipotez, din fereastra de definire a testului (figura 3) se activeaz meniul Post Hoc. n figura nr. 4 este prezentat fereastra din care se pot selecta testele pe care dorim s le utilizm n vederea realizrii comparaiilor multiple.
Figura 4. Alegerea testului pentru efectuarea comparaiilor multiple

n urma efecturii testului Tukeys s-au format 4 subseturi omogene (grupe dup variabila factorial pentru care este acceptat ipoteza egalitii mediilor) prezentate n tabelul 6.

Tabel nr.6

14

Cuantificati cu o nota de la 1 la 10 utilitatea cursurilor desfasurate de-a lungul facultatii in formarea profesionala Tukey B
a,b

Facultatea Facultate 1 Facultate 2 Facultate 3 Facultate 4 Facultate 5 Facultate 6 Facultate 7 Facultate 8 Facultate 9 Facultate 10

N 68 67 67 65 67 67 62 70 70 70

1 4,94 5,18 5,87

Subset for alpha = .05 2 3

5,87 6,38 6,40 6,72

6,38 6,40 6,72 7,08 7,09 8,11 8,19

Means for groups in homogeneous subsets are displayed. a. Uses Harmonic Mean Sample Size = 67,214. B) Eantioane dependente. Repeated Measures ANOVA b. The group sizes are unequal. The harmonic mean of the group sizes is used. Type I error levels are guaranteed. Pentru a efectua onot ANOVA pentru observaii repetate este necesar

ca n momentul

definirii variabilelor din baza de date s se constituie cte o variabil pentru fiecare set de observaii. Exemplificarea utilizrii SPSS-ului pentru o astfel de analiz este fcut pe un set de date preluate dintr-un studiu ce a avut ca scop evidenierea efectelor tratamentului prin angioplastie asupra unui lot de 57 pacieni. Variabila analizat este fracia de ejecie definit ca un parametru obiectiv care cuantific funcia de pomp a inimii, valorile de referin fiind: normal >55%, disfuncie uoar 45 54%, disfuncie moderat 30-44 %, disfuncie sever <30 %. Valorile acesteia au fost nregistrate pentru cei 57 de pacieni la trei momente de timp (nainte de efectuarea tratamentului, la controlul de la 3 luni i respectiv 6 luni). nregistrrile pentru fiecare moment se vor constitui ntr-o variabil din baza de date. Pentru efectuarea analizei urmm calea: Analyze/General Linear Model/ Repeated Measures (se obine fereastra dialog din figura nr. 5). Ipotezele de lucru sunt: H0:
X 1 = X 2 = ...... = X
j

= ......... = X k
Xi X
j

pentru j=1,,k;

H1: exist i j astfel nct

Definirea modelului de analiz se face n dou etape:

Figura 5 Fereastra dialog -ANOVA Repeated Measures

15

Figura 6 Fereastra de definirea -ANOVA Repeated Measures

Etapa 1. Spre deosebire de modelul de analiz ANOVA One Way, variabila factorial nu se regsete printre variabile din baza de date. Din acest motiv, n prima etapa se va realiza aceast definire. n exemplul considerat dorim s surprindem modificrile intervenite n valorile nregistrate pentru Fracia de ejecie. n cmpul Within Subject Factor Name trecem numele variabilei prin care dorim s realizm acest lucru (ev_fe evoluie fracie de ejecie). Number of level se refer la momentele de observare (n cazul nostru 3: iniial, la 3 luni i la 6 luni de la tratament). Dup stabilirea acestora (nume i nivele de observaie) variabila factorial poate fi adugata n list prin butonul Add. n acest moment devine activ butonul Define. Prin click pe acesta se deschide fereastra de definire a modelului (figura 6) i se trece n etapa a doua.

16

Etapa 2. Din lista variabilelor cuprinse n baza de date se selecteaz cele care conin nregistrate observaiile pentru momentele definite n etapa 1. Atenie! Numrul de variabile trebuie sa fie egal cu numrul de niveluri definit n etapa anterioar! Prin click pe butonul OK se comand procesarea modelului care va avea drept rezultat outputurile din tabelele 7 i 8.
Tabelul 7
Mauchly's Test of Sphericity Measure: MEASURE_1 Epsilon Within Subjects Effect Mauchly's W ev_fe ,352 Approx. Chi-Square 95,820 df 2 Sig. ,020 Greenhous e-Geisser ,772 Huynh-Feldt ,776 Lower-bound ,700

nainte de a interpreta rezultatele trebuie s se verifice dac este ndeplinit prezumia de sfericitate. n tabelul 7 sunt prezentate rezultatele testului Mauchly. Dac nivelul de semnificaie asociat acestuia este mai mare dect 0,05 atunci condiia de sfericitate este ndeplinit i se poate trece mai departe la interpretarea rezultatelor modelului analiznd informaiile afiate n outputul din tabelul 8 pe prima linie. n situaia n care aceast prezumie nu este respectat exist riscul creterii probabilitii de apariie a erorilor de tipul I, deoarece valoarea calculat a testului F este prea mic. Altfel spus, valoarea calculat a testului F este deplasat. Exist urmtoarele metode de corecie a acestei deplasri: Lower bound, Haynh-Feldt i Greenhouse-Geisser. Principiul pe care se bazeaz acestea este utilizarea unui F critic mai mare, astfel nct, probabilitatea de apariie a erorilor de tip I s se diminueze. Practic, fiecare metod recalculeaz gradele de libertate pornind de la o valoare specific fiecreia . Dintre cele trei metode, statisticienii, consider corecia Greenhouse-Geisser ca fiind cea mai bun.
calculat conform acestei metode se apreciaz severitatea n funcie de valoarea

nonsfericitii. Se aplic urmtoarea regul2:


> 0,9 . Prezumia de sfericitate este ndeplinit. Nu este necesar aplicarea

coreciei. Numrul de grade de libertate se vor calcula ca df1=k-1 i df2=(k-1)(b-1) (vezi tabelul teoretic 2).

A. Karpinski, http://astro.temple.edu/~andykarp/psych522524/10_Repeated1.pdf, pg. 28


2

17

> 0,7 . 0,9 >

Prezumia de sfericitate nu este satisfcut. Se aplic corecia

Greenhouse-Geisser.
( a 1) i df2= ( a 1)( n 1) , unde a este numrul de momente de df1=

observare, iar n numrul de observaii.


. > 0,7 >

Violarea prezumiei de sfericitate este sever. n acest caz corecia nu

este posibil. Se recomand utilizarea testelor neparametrice. n exemplul considerat, ipoteza de sfericitate nu este ndeplinit. Deoarece
> 0,7 0,9 >

putem aplica corecia Greenhouse-Geisser. Pentru a interpreta rezultatele

ANOVA Repeated Measures din tabelul 8 se vor interpreta datele de pe linia corecie Greenhouse-Geisser. Se observ c numrul de grade de libertate este diferit fa de situaia n care ar fi fost ndeplinit condiia de sfericitate.
Tabel nr. 8
Tests of Within-Subjects Effects Measure: MEASURE_1 Type III Sum of Squares df Sphericity Assumed 3505,40 2,00 Greenhouse-Geisser 3505,40 1,14 Huynh-Feldt 3505,40 1,15 Lower-bound 3505,40 1,00 Error(ev_fe) Sphericity Assumed 2413,26 112,00 Greenhouse-Geisser 2413,26 64,07 Huynh-Feldt 2413,26 64,53 Lower-bound 2413,26 56,00 Source ev_fe Mean Square 1752,70 3063,82 3041,85 3505,40 21,55 37,67 37,40 43,09 F 81,34 81,34 81,34 81,34 Sig. ,00 ,00 ,00 ,00

Valoarea calculat a testului este F=81,34. Aceasta se va compara cu cea teoretic corespunztoare nivelului de semnificaie ales (de obicei =0,05) i df1=1,14 iar df2=64,07. Valoarea teoretic va putea fi preluat fie din tabele anex (n aceast situaie este necesar rotunjirea numrului gradelor de libertate), fie utiliznd funcia statistic EXCEL: FINV(,df1,df2). Utiliznd a doua metod s-a obinut valoarea critic F C=3,95. Valoarea calculat este mai mare dect cea teoretic, ceea ce duce la respingerea ipotezei egalitii mediilor. n tabelul 8 nivelul de semnificaie afiat asociat aplicrii testului cu corecia Greenhouse-Geisser este 0,00. Se poate respinge ipoteza nul cu o probabilitate mult mai mare, aproape de 100%. Concluzie: Respingerea ipotezei nule arat c, n urma aplicrii tratamentului au aprut modificri ale fraciei de ejecie n timp!

18

Exemplu n rndul elevilor de liceu din capital s-a realizat un sondaj pe un eantion de 570 persoane. n urma centralizrii datelor s-a obinut repartiia bidimensional prezentat n tabelul de mai jos. Aplicnd tehnica de analiz dispersional ANOVA s se pun n eviden influena variabilei factoriale Clasa asupra variabilei nr. ore petrecute la calculator. Tabel de prezentare a informatiei Numar de ore petrecute la calculator pe zi* Clasa 0-2 2-4 4-6 peste 6 Total a IX 60 40 20 0 aX 40 60 40 10 a XI 10 20 80 30 a XII 20 90 40 10 Total 130 210 180 50 *limita inf. este inclusa in interval Ipotezele testului sunt: H0: X1 = X 2 = ...... = X i =......... = X k pentru i=1,,k H1: exist i j astfel nct X i X j Pentru a putea calcula tipurile de variaie este necesar ca mai nti s se calculeze toate tipurile de medii. Mediile grupelor se calculeaz dup relaia xi = ( x j nij )
j =1 J

120 150 140 160 570

nij
j =1

astfel:

60 + 120 + 100 + 0 280 = =2,33h/zi 120 120 40 + 180 + 200 + 70 490 x2 = = =3,27h/zi 150 150 10 + 60 + 400 + 210 680 x3 = = =4,86h/zi 140 140 20 + 270 + 200 + 70 560 x4 = = =3,5h/zi 160 160 x1 =

Media colectivitii negrupate dup variabila factorial se calculeaz astfel:


x = x j n. j
j =1 J

+ 900 + 350 2010 ) nij = 130 + 630570 = =3,53h/zi 570


j =1

unde J reprezint numrul de grupe dup variabila dependent (numr ore petrecute la calculator). Spre deosebire de prezentarea teoretic a modelului de data aceasta datele sunt grupate dup aceast variabil.

19

Calculm tipurile de variaie.


SSB = ni. ( xi x ) =170,78+10,11+247,95,0,11=428,98
2 k i =1 k

SSW = x j xi
i =1 j =1

ni

)2 nij =266,67+469,33+357,14+360=1453,14

df1=4-1=3 df2=570-4=566

F = MSSB

MSSW = 1453,14 566 =55,57 F=0,05; df 1=3; df 2 =566 =2,62

428,98 3

Deoarece valoarea calculat a testului este mai mare dect cea teoretic se respinge ipoteza egalitii mediilor. Test de autoevaluare 1 Un grup de medici dorete s testeze care din urmtoarele analgezice determin un nivel al durerii mai mic la pacienii selecionati. Pentru aceasta, au obinut urmtoarele date astfel sistematizate: Nivelul durerii Analgezic Scorurri Diclofenac 0, 35, 31, 29, 20, 7, 43, 16 Ibuprofen 30, 40, 27, 25, 39, 15, 30, 45 Paracetamol 16, 33, 25, 32, 21, 54, 57, 19 Asprina 55, 58, 56, 57, 53, 59, 55 i putei ajuta s identifice ce analgezic este mai bun?

6. Rspunsuri i comentarii la testele de autoevaluare

Test de autoevaluare 1 Pentru a rspunde la intrebare, utilizm one-way ANOVA. Pentru asta ncrcm datele, folosind 1 pentru diclofenac, 2 pentru ibuprofen, 3 pentru paracetamol si 4 pentru aspirina. Utilizm: Analyze: Compare Means: One-Way ANOVA ca n Figura 3. Se obine urmtorul output:

20

Test of Homogeneity of Variances Nivel_durere Levene Statistic 4.837 df1 3 df2 28 Sig. .008

Nivelul de semnificaie pentru omogenitatea dispersiilor este<0,05, aadar dispesiile grupurilor difer semnificativ.
ANOVA Nivel_durere Sum of Squares Between Groups Within Groups Total 4956.375 3865.500 8821.875 df 3 28 31 Mean Square 1652.125 138.054 F 11.967 Sig. .000

Acesta este principalul rezultat al ANOVA. Nivelul de semnificaie este<0,05, aadar am putea respinge ipoteza nul (nu exist diferen ntre scorurile medii ale durerii pentru cele patru analgezice). Totui, dispersiile fiind semnificativ diferite, acesta ar putea fi un rspuns eronat. Pentru edificare se folosesc statisticile Welch si Brown-Forsythe.
Robust Tests of Equality of Means Nivel_durere Statistica Welch Brown-Forsythe 32.064 11.967 df1 3 3 df2 12.171 18.889 Sig. .000 .000

a. Asymptotically F distributed.

Cum nivelul de semnificaie al acestora < 0.05, putem respinge ipoteza nul, totui nu putem spune care analgezic face diferena. Aadar, avem nevoie i de rezultatele testului Post Hoc.

Post Hoc Tests

21

Multiple Comparisons Dependent Variable:Nivel_durere (I) ment Tukey HSD 1 (J) Mean Difference (I-J) -8.750 -9.500 -33.500* 8.750 -.750 -24.750* 9.500 .750 -24.000* 33.500* 24.750* 24.000* -8.750 -9.500 -33.500* 8.750 -.750 -24.750* 9.500 .750 -24.000* 33.500* 24.750* 24.000* Std. Error 5.875 5.875 5.875 5.875 5.875 5.875 5.875 5.875 5.875 5.875 5.875 5.875 6.176 7.548 5.194 6.176 6.485 3.471 7.548 6.485 5.558 5.194 3.471 5.558 Sig. .457 .386 .000 .457 .999 .001 .386 .999 .002 .000 .001 .002 .513 .602 .001 .513 .999 .001 .602 .999 .014 .001 .001 .014 Lower Bound -24.79 -25.54 -49.54 -7.29 -16.79 -40.79 -6.54 -15.29 -40.04 17.46 8.71 7.96 -27.05 -31.45 -50.55 -9.55 -20.09 -36.03 -12.45 -18.59 -42.26 16.45 13.47 5.74 Upper Bound 7.29 6.54 -17.46 24.79 15.29 -8.71 25.54 16.79 -7.96 49.54 40.79 40.04 9.55 12.45 -16.45 27.05 18.59 -13.47 31.45 20.09 -5.74 50.55 36.03 42.26 ment 2 3 4 2 1 3 4 3 1 2 4 4 1 2 3 Games-Howell 1 2 3 4 2 1 3 4 3 1 2 4 4 1 2 3 95% Confidence Interval

Medica Medica

*. The mean difference is significant at the 0.05 level.

Numai rezultatele testului Games-Howell pot fi considerate, intrucat testul Tuckey presupune omogenitata dispersiei, ceea ce nu este cazul.
22

SPSS marcheaza cu asterix care diferente sunt semnificative. Concluzia: analgezicul 4 aspirina - produce rezultate semnificativ diferite fa de celelate 3 analgezice! Aadar, exist o diferen semnificativ ntre nivelul durerii la aspirin i celelalte trei analgezice testate, F(3, 28)=11,97, p<0,05! 7. Bibliografia Unitii de nvare 5

I.-G. Niculescu-Aron, Miruna Mazurencu-Marinescu - Metode econometrice pentru afaceri, Ed. ASE, 2007 V.Voineagu, E.ian, R.erban, S.Ghi, D.Todose, C.Boboc, D.Pele Teorie i practic econometricm Ed; Meteor Press, 2007 T. Andrei, Statistic i econometrie, Ed. Economic, 2003

8. Lucrare de verificare

1. Cnd se recomand utilizarea ANOVA? 2. Care sunt tipurile de varian utilizate n ANOVA i ce reprezint ele? 3. Ce sunt dispersiile corectate? 4. Cum se stabilete regiunea critic pentru testul F?

23

You might also like