You are on page 1of 16

ELEMENTE DE ANALIZĂ

DISPERSIONALĂ (ANOVA)
ELEMENTE DE ANALIZĂ
DISPERSIONALĂ (ANOVA)
 Analiza dispersională (analiză de varianţă) (ANOVA), a fost introdusă de
statisticianul Irving Fisher.

 Modelul de analiză dispersională îşi propune ca pentru fiecare nivel al


factorului/factorilor cauzali să analizeze populaţia distinctă asociată şi
eventualele diferenţe ce apar între populaţii: să studieze efectul
variabilei/variabilelor independente asupra celei dependente.

 Analiza dispersională se poate face după un model unifactorial, după


modele bi sau multifactoriale.
Analiză dispersională unifactorială

 În modelul de analiză dispersională unifactorială se testează ipoteza nulă:


H0: y1 = y2 = ... = yr,
 cu ipoteza alternativă cel puţin două medii din populaţie nu sunt egale:
H1 : yi  yj, (i  j)
 Dacă rezultatul testului indică faptul că mediile sunt semnificativ diferite,
se concluzionează că factorul X are un impact asupra variabilei Y.
 Setul de date pentru analiza dispersională unifactorială constă în valorile
variabilei Y pentru cele r grupe independente.
 Volumele grupelor pot fi diferite n1  n2  ...  nr
Analiză dispersională unifactorială

 Sistematizarea datelor pentru ANOVA

Grupe după factorul cauză

Gr. 1 Gr. 2 ... . Gr.r

y11 y21 … yr1


y12 y22 … yr2
. .
y.
1n1
y.2n2 ..... y rn r

Media y1 y2 ..... yr
Vol. grupă n1 n2 . . . .. nr
Analiză dispersională unifactorială
 Presupunerile sub care se aplică testul F în analiza dispersională
unifactorială:
 cele r grupe din eşantion sunt extrase aleator şi independent din cele r grupe
ale colectivităţii generale;
 fiecare grupă din colectivitatea generală are o distribuţie normală, iar abaterile
medii pătratice sunt egale s1 = s2 = ..... = sr.
 Testul statistic F pentru analiza dispersională unifactorială este raportul
indicatorilor de variabilitate pentru cele două surse de variaţie:
 variabilitatea dintre grupe
 variabilitatea din interiorul grupelor.
 Dacă ipoteza nulă este adevărată, mediile celor r populaţii ar trebui să fie,
toate, egale. Ne aşteptăm atunci ca mediile celor r eşantioane să fie
aproximativ egale.
 Dacă ipoteza alternativă este adevărată, există diferenţe mari între unele
medii ale eşantioanelor.
Analiză dispersională
unifactorială

a) b)
a) medii de grupă egale; b) mediile de grupă inegale
Analiză dispersională unifactorială
 pe baza datelor din eşantion calculăm:
ni

y ij

yi  i  1, r
j1
,
ni
r ni r
 y
i 1 j 1
ij yn i i
y  i 1
n n
r

n  ni
i 1
Analiză dispersională unifactorială
 Varianţa dintre grupe, dată de influenţa factorului cauzal, numită şi
varianţa factorială, este suma pătratelor abaterilor mediilor de grupă de
la media generală:

 
r
S1   y i  y n i
2

i 1

 Dacă y 1  y 2  ...  y r
 atunci: S1 = 0.
 varianţa din interiorul grupelor (varianţa reziduală), este suma
pătratelor abaterilor valorilor individuale de la mediile de grupă:
 
r ni

S 2   y ij  y i
2

i 1 j1

 Împrăştierea totală a valorilor individuale faţă de media generală


S    y ij  y 
r n i
2
(varianţa totală):
i 1 j1
Analiză dispersională unifactorială
 Raţionamentul analizei dispersionale se bazează pe partiţionarea sumei
pătratelor abaterilor:
  y  y     
r ni 2 r 2 r ni
  y i  y n i    y ij  y i
2
ij
i  1 j 1 i 1 i 1 j  1

 Pentru a face comparabile aceste măsuri ale variabilităţii, le vom imparti


pe fiecare la gradele de libertate, => media pătratele abaterilor.
 Pentru varianţa factorială S1, numărul gradelor de libertate este r-1;
măsurăm variabilitatea a r medii, se pierde un grad de libertate, deoarece
media totală a fost estimată.
 Pentru varianţa reziduală (din interiorul grupelor) S2, numărul gradelor de
libertate este n–r; măsurăm variabilitatea tuturor celor n valori, dar
pierdem r grade de libertate.
Analiză dispersională unifactorială

 Obţinem astfel:
 dispersia factorială corectată:

 y 
r 2
 y ni
S i

s12  1  i 1

r 1 r 1
 dispersia corectată reziduală:

  y 
r ni 2

ij  yi
S2 i 1 j 1
s2 
2

nr nr
Analiză dispersională unifactorială
 Statistica F pentru analiza dispersională unifactorială are forma:
s12 var iabilitatea dintre grupe
F 2 
s 2 variabilitatea din interiorul grupelor
cu gradele de libertate (r – 1) la numărător şi (n – r) la numitor.
 Regiunea critică este dată de :

F> F(r- 1),(n- r),,

 acest lucru indică diferenţe mai mari între mediile grupelor decât cele
datorate întâmplării.
Analiză dispersională unifactorială
 dacă valoarea F este mai mică decât valoarea critică Fα, atunci :
 acceptăm ipoteza nulă, H0;
 nu acceptăm ipoteza alternativă H1;
 mediile grupelor nu sunt semnificativ diferite una faţă de alta;
 diferenţele observate între mediile grupelor pot fi datorate doar întâmplării;
 rezultatul nu este semnificativ statistic.
 Dacă valoarea F este mai mare decât valoarea critică Fα, atunci:
 acceptăm ipoteza alternativă, H1;
 respingem ipoteza nulă, H0;
 mediile grupelor sunt semnificativ diferite una faţă de alta;
 diferenţele observate între mediile grupelor nu sunt datorate doar întâmplării;
 rezultatul este semnificativ statistic.
Analiză dispersională unifactorială
Calculul statisticii F
pentru analiza dispersională unifactorială
Sursa Gradele de Varianţa Dispersia corectată Statistica
variaţiei libertate (suma pătratelor) (media pătratelor) F

0 1 2 3 4

Factorul X r–1 S1 s12


s12
F
Reziduală n–r S2 s22 s22
Totală n–1 S = S 1 + S2 –
s2  s1  s2
2 2
Concluzii
 modelele de analiză dispersională nu explică relaţia dintre variabile
 verifică doar măsura în care valorile reale ale unei caracteristici se abat
de la valorile teoretice, precum şi măsura în care aceste variaţii sunt sau
nu dependente de factorul/factorii de grupare.
 metoda analizei dispersionale poate fi utilizată atât înaintea, cât şi după
aplicarea metodelor corelaţiei şi regresiei statistice.
 Testul F se poate utiliza şi pentru testarea validităţii modelului de
regresie.
 în general, în analiza dispersională, nivelurile x1, x2, ..., xr sunt niveluri ale
unei variabile categoriale (numite şi trata­mente), dar, cum ceea ce este
valabil pentru o scală inferioară (nominală) este valabil şi pentru orice
altă scală superioară (ordinală, de intervale, de rapoarte), analiza se
poate extinde.
Exemplu
 Pentru regiunile României s-au cules şi sistematizat date privind rata ocupării (%). Folosind
analiza dispersională să se stabilească dacă există diferenţe semnificative între regiuni.
Regiunea Nr. Rata medie a ocupării Abaterea Dispersia
judeţe medie
(ni)
xi pătratică (si) s 2 S 2  si2 (ni  1)
i
(%)
NE 6 47.77 4.89 23.91 119.55

SE 6 41.24 5.68 32.26 161.3

S 7 40.68 6.57 43.16 258.96

SV 5 41.9 3.31 10.96 43.84

V 4 42.71 6.18 38.19 114.57

NV 6 46.32 5.84 34.11 170.55

C 6 42.08 2.32 5.38 26.9

Buc 2 41.59 5.62 31.58 31.58

Total 42 43.16 5.41 = s 29.27 = s2   927.25


Exemplu
927.25
s  2
2  27.27
S 2  927.25 42  8
S1  272.82 272.82
s12   38.97
8 1
S  29.27 * 41  1200.07
1200.07
s2   29.27
42  1

38.97
F  1.42
27.27
F0.05;7;34  2.40
F  F0.05;7;34  H 0

You might also like