T6-Comparació de Grups

Estadistica ADE/ECO/ADE-Dret 2017
Guia 6 - Tema 6: Comparació de grups
Material
1. Aquest document
2. De la bibliografia:
Newbold: 8.7 + 8.8 + 9.6 + 9.7.
Moore: 7.3 + 8.3.
Contingut d’aquest document
Índex
1 Introducció 1
2 Problemes de dues mostres independents 3

2.1 Diferència en mitjanes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Diferència en proporcions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3 Anàlisi de la Variància 7
3.1 La idea de l’anàlisi de la variància . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2 Supòsits de l’anàlisi de la variància . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.3 L’exemple resolt, i amb R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4 Exercicis (Llista 5 - pel seminari 6) 13
1 Introducció
L’objectiu d’aquesta guia és examinar la situació en la què es disposa de mostres aleatòries i es pretén determinar
si existeixen diferències en mitjanes o en proporcions.
Els problemes de dues mostres poden sorgir d’un experiment comparatiu aleatoritzat que divideixi a l’atzar els
individus en dos grups i exposi a cadascun d’ells a dos tractaments diferents. La comparació de dues mostres
aleatòries seleccionades independentment de dues poblacions també és un problema de dues mostres.
Cal mencionar en aquest punt un problema que, tot i que pot semblar-ho a priori, no és un problema de dues
mostres: es tracta del problema del tractament de dades aparellades.
En ocasions disposem d’observacions que han estat mesurades sobre un mateix individu, com en l’exemple que
segueix:
Exemple 1. Les dades següents són els resultats de mesurar el ritme del pols de cinc nens abans i després de
veure un determinat programa de televisió:
Nen Abans Després Diferència

1 96 104 8
2 102 112 10
3 108 112 4
4 89 93 4
5 85 89 4
Suposant normalitat de les observacions, volem determinar si aquest programa de televisió augmenta el ritme
del pols dels nens.
En realitat estem fent inferència sobre una sola població, la població de les diferències entre cada parell. No és
correcte ignorar els parells i analitzar les dades com si tinguéssim dues mostres: la dels nens abans i després de
veure el programa de televisió. Tal i com veurem pròximament, els procediments inferencials per a comparar
dues mostres es basen en que aquestes han estat obtingudes de manera independent. Aquest supòsit no és
cert quan els mateixos individus són considerats dues vegades. El problema es redueix aixı́ al contrast sobre la
mitjana d’una població, en aquest cas normal.
Anomenem X a la variable diferència. Suposarem X ⇠ N (µ, 2
).
Tenim X = 6 i S = 2.8284. Per a contrastar,
⇢
H0 : µ = 0
H1 : µ > 0
tenim que
ECobs = 4.7434
i per tant es pot concloure que amb qualsevol nivell de significació dels habituals, arribarem a la conclusió que
el programa fa augmentar el pols en els nens.
Podem resoldre el problema també en R. Primer entrem les observacions i obtenim la variable diferència:
abans <- c(96, 102, 108, 89, 85)
despres <- c(104, 112, 112, 93, 89)
dif <- despres-abans
Verifiquem els valors de la diferència,
dif
Ara demanem que es computi el test per a µ = 0 amb els valors que es troben a dif. Si només escrivim,
t.test(dif)
i obtenim,
One Sample t-test
data: dif
t = 4.7434, df = 4, p-value = 0.009014
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
2.488044 9.511956
sample estimates:
mean of x
6
2
Observa que amb R estaries fent un contrast per a µ = 0 però amb alternativa bilateral. Tot i que el valor de
l’estadı́stic observat seria el mateix, el p-valor correcte, per al nostre contrast d’alternativa unilateral H1 : µ > 0
correspondria a 0.009014
2 . No cal que ho resolguis, pots demanar la comanda a R amb l’alternativa unilateral
corresponent com segueix,
t.test(dif, alternative="greater")
amb els resultats,
One Sample t-test
data: dif
t = 4.7434, df = 4, p-value = 0.004507
alternative hypothesis: true mean is greater than 0
3.303403 Inf
sample estimates:
mean of x
6
Finalment comentem que és possible indicar a R que estem treballant amb dades aparellades fent,
t.test(despres, abans, paired=TRUE, alternative="greater")
on obtenim els resultats,
Paired t-test
data: despres and abans
t = 4.7434, df = 4, p-value = 0.004507
alternative hypothesis: true mean is greater than 0
3.303403 Inf
sample estimates:
mean of the differences
6
2 Problemes de dues mostres independents
2.1 Diferència en mitjanes
Estudiem ara el cas en què les mostres són independents. Suposem que estem estudiant dues variables aleatòries,
X1 ⇠ N (µ1 , 12 ) i X2 ⇠ N (µ1 , 22 ) independents. Aleshores, per a contrastar:
H0 : µ 1 µ2 = 0
farem servir els següents estadı́stics de prova,
1. 2
1,
2
2 conegudes;
(X1 X2 )
EC = q 2 2
⇠ N (0, 1)
n1 + n2
1 2
2. 2
1,
2
2 desconegudes però amb 2
1 = 2
2 = 2
.
Estimem la variància poblacional comuna per
3
(n1 1)S12 + (n2 1)S22
S2 =
(n1 + n2 2)
i aleshores,
(X1 X2 )
EC = r ⇣ ⌘ ⇠ tn1 +n2 2
S 2 n11 + n12
3. 2
1,
2
2 desconegudes, introduı̈m
(X1 X2 )
EC = q 2 (1)
S1 S22
n1 + n2
A diferència dels altres dos casos, aquest estadı́stic no té una distribució t. És més, la distribució exacta
canvia a mesura que les desviacions tı́piques poblacionals desconegudes 1 i 2 canvien. Malgrat això es
disposa d’una aproximació prou bona per la distribució. La distribució de l’estadı́stic en (1) és aproxima-
dament una distribució t amb els graus de llibertat donats per,
⇣ ⌘2
S12 S22
n1 + n2
gll = ⇣ 2
⌘2 ⇣ ⌘2
1 S1 1 S22
n1 1 n1 + n2 1 n2
Anomenem D a la distribució de referència en cadascun dels 3 casos; aleshores els corresponents p–valors s’ob-
tenen com
1. H1 : µ1 µ2 < 0; p valor = P {D < ECobs }
2. H1 : µ1 µ2 > 0; p valor = P {D > ECobs }

3. H1 : µ1 µ2 6= 0; p valor = P {D < |ECobs |} + P {D > |ECobs |}
Observació 1. En ocasions la hipòtesi nul·la pren la forma H0 : µ1 µ2 0 o bé H0 : µ1 µ2  0, és a dir forma
composta i no pas simple, que és quan tenim una igualtat. Podem resoldre el problema amb la mateixa estratègia
que en el cas d’hipòtesi nul·la simple, definida per una igualtat. Intuı̈tivament podem entendre-ho com segueix:
si ens posem en la situació més extrema possible, això serà la definida per la igualtat, i encara refusem podem
pensar que refusarem en tots els altres valors de la hipòtesi nul·la, menys extrems que la frontera.
Observació 2. Cal remarcar finalment que la decisió entre la igualtat o no de variàncies es pot resoldre a nivell
inferencial, amb proves de significació paramètriques i també amb proves de significació no paramètriques. La
més comuna de les proves paramètriques és la prova F per la comparació de variàncies (atenció! No confondre
amb la F –ratio de l’anàlisi de la variància que veurem al següent apartat). Amb R podem realitzar aquesta prova
en cridar la funció var.test( ) El problema d’aquest procediment és que és extremadament sensible a la no
normalitat de les observacions i aquesta manca de robustesa no millora quan la mida de la mostra augmenta.
La recomanació seria doncs avaluar la normalitat de les observacions gràficament, posant especial èmfasi en la
detecció d’observacions atı́piques i de manca simetria de la distribució i utilitzar la versió de l’estadı́stic t que
no requereix la igualtat de variàncies.
Exemple 2. Un cable elèctric es fabrica de dues maneres. Es vol saber si el tipus de procés seguit en la fabricació
afecta la mitjana de resistència a la ruptura del cable. Es realitzen proves en el laboratori sotmetent els cables a
tensió i anotant les càrregues necessàries per arribar a trencar-los. Suposem que les dues mostres aleatòries d’un
i altre procés són independents i extretes de dues poblacions normals i amb la mateixa variància.
4
(a) Analitzeu les dades experimentals següents:
Mostra Grandària Càrrega mitjana(kg) Variància mostral

X 16 20.5 5.6
Y 17 28.0 7.5
(b) Quina conclusió extreus d’aquestes observacions?
X1 := v.a. que mesura la resistència d’un cable triat a l’atzar entre els fabricats segons el primer procediment
⇠ N (µ1 , 2 ).
X2 := v.a. que mesura la resistència d’un cable triat a l’atzar entre els fabricats segons el segon procediment
⇠ N (µ2 , 2 ).
⇢
H0 : µ 1 µ2 = 0
H1 : µ 1 µ2 6= 0
L’estimació de la variància comuna és

(16 1) · 5.6 + (17 1) · 7.5
S2 = = 6.5806
16 + 17 2
i doncs
(20.5 28.0) 0
ECobs = q = 8.3937
6.5806 16+17
16·17
Refusem la hipòtesi nul·la que les resistències promig són la mateixa en una i altra forma de fabricació.
Mirem de treballar sobre un nou exemple però ara amb l’ajut de R.
Exemple 3. Suposem que es mesura el temps (en dies) de recuperació d’una determinada malaltia quan als
pacients se’ls administra un nou medicament. Per tal de valorar-ne l’efectivitat (i evitar l’efecte placebo), s’ad-
ministra a un altre grup un placebo obtenint-se en conjunt els següents resultats:
amb medicament: 15 10 13 7 9 8 21 9 14 8
placebo: 15 14 12 8 14 7 16 10 15 12
Assumint normalitat i igualtat de variàncies, es demana determinar si el medicament es pot considerar o no
efectiu.
Denotem com a µ1 el temps mig de recuperació de la malaltia per als pacients del grup amb medicació i µ2 el
temps mig de recuperació de la malaltia per als pacients del grup placebo. Ens debatem entre H0 : µ1 µ2 = 0
contra l’alternativa que el grup amb medicació es recupera abans, H1 : µ1 µ2 < 0.
Entrem les dades a R,
med <- c(15, 10, 13, 7, 9, 8, 21, 9, 14, 8)
plac<- c(15, 14, 12, 8, 14, 7, 16, 10, 15, 12)
Ara demanem que es resolgui el test
t.test(med,plac,alt="less",var.equal=TRUE)
on hem indicat que l’alternativa és “més petit” i que assumim igualtat de variàncies. Obtenim,
Two Sample t-test
data: med and plac
t = -0.5331, df = 18, p-value = 0.3002
alternative hypothesis: true difference in means is less than 0
5
-Inf 2.027436
sample estimates:
mean of x mean of y
11.4 12.3
Tenim un p–valor de 0.3002 la qual cosa indica que no podem rebutjar la hipòtesi nul·la i per tant no s’han
observat evidències a la mostra que avalin l’efectivitat del medicament.
2.2 Diferència en proporcions
Recuperem com a estadı́stic,
(pˆ pˆ2 ) (p1 p2 )

q1 ⇡ N (0, 1)
p1 (1 p1 ) p2 (1 p2 )
n1 + n2
Si volem contrastar H0 : p1 = p2 i denotem per p0 aquest valor comú, podem estimar p0 per,
n1 pˆ1 + n2 pˆ2
pˆ0 =
n1 + n2
i tindrem com a estadı́stic de contrast,
(pˆ1 pˆ2 )
EC = q ⇡ N (0, 1)
pˆ0 (1 pˆ0 ) pˆ0 (1 pˆ0 )
n1 + n2
El pas final en el test és l’obtenció dels p-valors,
1. H1 : p1 p2 < 0; p valor = P {N (0, 1) < ECobs }

2. H1 : p1 p2 > 0; p valor = P {N (0, 1) > ECobs }
3. H1 : p1 p2 6= 0; p valor = P {N (0, 1) < |ECobs |} + P {N (0, 1) > |ECobs |}
en base als quals ja podrem prendre una decisió.
Exemple 4. Es realitza un estudi sobre la situació actual de les empreses de serveis per tal de pal·liar els efectes
de l’actual crisi econòmica. Hi ha indicis per pensar que la situació no és la mateixa en les diferents regions
europees i que, en concret, la regió B està menys adaptada que la regió A.
Un cop fet l’estudi, resulta que de les 250 empreses de serveis enquestades a la regió A, 95 tenien preparat un
pla d’adaptació. A la regió B, 56 de 240.
Creieu que les dades evidencien que la proporció d’empreses de serveis que tenen enllestit un pla d’adaptació
és mes alta en la regió A que en la regió B? (Utilitzeu un nivell de significació de 10%, és a dir ↵ = 0, 10).
Sigui pA la proporció d’empreses a la zona A que tenen preparat un pla d’adaptació i pB a la zona B.
Es contrasta,
⇢
H 0 : pA pB = 0
H 1 : pA pB > 0
6
Es té p̂A = 95
250 i p̂B = 240 .
56
L’estimació de la proporció poblacional comuna és
(95/250) · 250 + (56/240) · 240

p̂0 = = 0.3082
250 + 240
i per tant
95 56
250 240
ECobs = q = 3.5149
1 1
(0.3082 · (1 0.3082)) · ( 250 + 240 )
amb la qual cosa refusem la hipòtesi nul·la a pràcticament qualsevol nivell de significació. Conseqüentment hem
de concloure que la zona B està menys preparada que la zona A.
Amb R també podem resoldre el contrast. Utilitzarem la funció prop.test que cridarem amb prop.test(x,n)
sent x el nombre de casos favorables i n el total.
prop.test(c(95,56),c(250,240), alternative="greater", correct="FALSE")
Posem que no s’apliqui la correcció per continuı̈tat de Yates (correct = "FALSE") de la distribució de l’es-
tadı́stic de contrast, que és la manera com s’ha optat en la resolució del problema. L’output que n’obtenim
és,
2-sample test for equality of proportions without continuity correction
data: c(95, 56) out of c(250, 240)
X-squared = 12.3547, df = 1, p-value = 0.0002199
alternative hypothesis: greater
0.079092 1.000000
sample estimates:
prop 1 prop 2
0.3800000 0.2333333
p
Observem que l’estadı́stic que calcula R correspon, numèricament, al quadrat del nostre 12.3547 = 3.5149. De
fet, calcula el estadı́stic 2 per la independència entre les piles i columnes de la següent taula de contingència:
Té pla adaptació No té pla adaptació

Zona A 95 155
Zona B 56 184
Per finalitzar, observem amb aquest exemple la connexió entre les diferents tècniques que anem aprenent.
3 Anàlisi de la Variància
L’Anàlisi de la Variància és una tècnica que té com a objectiu comparar les mitjanes de K poblacions, per K 2.
Contrasta,
H0 : µ 1 = µ 2 = · · · = µ K
contra l’alternativa que existeix almenys una de les mitjanes poblacionals que difereix de les altres. Suposa-
rem que totes les poblacions tenen la mateixa variància desconeguda. Mirem de fixar les idees amb el següent
exemple:
7
Exemple 5. Dotze parcel·les de terreny es distribueixen aleatòriament en tres grups. Als dos primers grups se’ls
hi aplica el fertilitzant 1 i 2, i el tercer grup de parcel·les es considera com a unitat de control, sense aplicar-li cap
fertilitzant. Els resultats de la collita són,
A B C
75 74 60
70 78 64
66 72 65
69 68 55
Es pot parlar que hi ha diferències significatives entre els tractaments aplicats?
3.1 La idea de l’anàlisi de la variància
La idea intuı̈tiva queda reflectida en els següents boxplots:
En canvi, si els grups tenien mitjanes diferents,

Si tenim tres grups amb iguals mitjanes, i els reu- en reunir-los en una mostra conjunta (a la dre-
nim tots tres en una mostra conjunta (a la dreta), ta) aquesta té una variància més gran que les dels
la variància del conjunt és molt similar a les va- grups per separat.
riàncies dels grups individuals.
Per tant veiem que analitzant la variància podem decidir si les mitjanes són realment diferents o no.
Siguin Xi ⇠ N (µi , 2
), i = 1, . . . K independents. Ens proposem decidir entre,
H0 : µ 1 = µ 2 = · · · = µ K
i l’alternativa: almenys una mitjana poblacional és diferent.

Observem que sota la hipòtesi nul·la, el formar part d’un grup és irrellevant i totes les observacions podrien
ser considerades com a una mostra d’una única població. Aixı́ doncs, la hipòtesi nul·la especifica que les K
poblacions tenen una mitjana comuna, que podem estimar pel que denotarem com a X.
La tècnica de l’Anàlisi de la Variància està basada en la comparació de dos tipus de variabilitat a la mostra: la
variabilitat dintre dels grups i la variabilitat entre els grups.
Denotem Xij , i = 1, . . . , nj , j = 1, . . . , K la nostra mostra composada de K submostres, una de cada grup.
1. Variabilitat entre els grups.

Mesurem les diferències entre les mitjanes individuals a cada grup i la mitjana global.
(X 1 X)2 , (X 2 X)2 , . . . , (X K X)2
8
Suma de quadrats entre els grups (SSG, sum of squares of groups):
K
X
SSG = ni (X i X)2
i=1
Quadrat mig entre els grups (mean squares groups)
SSG
M SG =
K 1
2. Variabilitat dins dels grups.

Calcularem, per cada grup, com es desvien les observacions de la seva mitjana mostral de grup.
P n1
SS1 = j=1 (X1j X 1 )2
P n2
SS2 = j=1 (X2j X 2 )2
PnK. . .
SSK = j=1 (XKj X K )2
Suma de quadrats dins dels grups (SSW , sum of squares within)

K
X
SSW = SSi
i=1
Quadrat mig dins dels grups (mean squares within)
SSW
M SW =
n K
La variabilitat total de les dades pot ser mesurada a través de la suma de quadrats total (sum of squares total),
nK
K X
X
SST = (Xij X)2
i=1 j=1
verificant-se que
SST = SSW + SSG
Si les K poblacions tenen variància comuna 2

, resulta que tant M SW com M SG poden utilitzar-se per a estimar
2
.
Proposició 1. Siguin Xi ⇠ N (µi , 2

), i = 1, . . . , K independents.
Sota H0 : µ1 = µ2 = · · · = µK ,
1. SSG
2 ⇠ 2
K 1 i per tant E[M SG] = 2
2. SSW
2 ⇠ 2
n K i per tant E[M SW ] = 2
3. M SG i M SW són independents
Si les mitjanes poblacionals no són iguals, M SG no serà un estimador no esbiaxat de la variància poblacional
comuna, tot el contrari, de fet ha d’excedir la variància poblacional comuna doncs incorporarà informació al
9
respecte de les diferències entre les mitjanes poblacionals reals. Si H0 és certa, esperem que el quocient entre
M SG i M SW sigui al voltant de 1. En ser independents,
2
K 1
M SG K 1
F ratio = = 2 ⇠ FK 1,n K
M SW n K
n K
Les distribucions F de Fisher-Snedecor són una famı́lia de distribucions amb dos paràmetres. Aquests són els
graus de llibertat que apareixen al numerador i denominador de l’estadı́stic F (sempre es menciona abans els
graus de llibertat del numerador: si intercanviem els graus la distribució canvia!) Les distribucions F de Fisher
són assimètriques a la dreta i presenten un pic en la corba de densitat al voltant de 1.
En base a la proposició anterior i als comentaris que en segueixen, la F –ratio serà l’estadı́stic de contrast per,
H0 : µ 1 = µ 2 = · · · = µ K
Els valors de M SG/M SW que afavoreixen la hipòtesi alternativa (alguna diferència entre les mitjanes) són
els més grans que 1 ja que MSW no canviaria però M SG augmentaria. El p–valor en aquest contrast serà
P (F –ratio > FK 1,n K ).
Aquesta informació es resumeix en la taula de l’Anàlisi de la Variància,
Font de Suma de Graus de Quadrats

variació quadrats llibertat migs F -ratio
Entre grups SSG K 1 M SG = KSSG
1
M SG
M SW
Dins grups SSW n K M SW = SSW
n K
Total SST n 1
3.2 Supòsits de l’anàlisi de la variància
D’igual manera que amb altres procediments inferencials, l’ANOVA és vàlid sota certs requeriments. Aquests
són, tal i com hem comentat,
1. K mostres aleatòries simples independents, una per a cada població.

2. A cada població, estem estudiant una variable aleatòria Xi amb distribució normal de mitjana µi .
3. Totes les Xi tenen la mateixa desviació tı́pica de valor desconegut.
Aquests supòsits es poden relaxar una mica sense que l’anàlisi deixi de ser aplicable (Moore 9.2.2). Si la distri-
bució de les Xi en cada grup no són normals però són contı́nues simètriques i no hi ha observacions atı́piques,
l’anàlisi de la variància es pot aplicar fins i tot amb mostres petites (de 4 o 5 elements per grup). Evidentment, i
degut al TCL, com més grans siguin les mostres millor funcionarà la prova. Diem que la prova F de l’ANOVA
és robusta front a la manca de normalitat.
No és fàcil comprovar el supòsit que les poblacions tenen la mateixa variància, en part perquè les proves es-
tadı́stiques que es fan servir per verificar la igualtat de variàncies són molt sensibles a la manca de normalitat i,
en conseqüència, tenen poc valor a la pràctica... Com a regla pràctica, que és segura en gran part de les situacions,
direm que:
Els resultats de la prova F del ANOVA són aproximadament correctes quan la desviació tı́pica mos-
tral més gran no és superior que el doble de la desviació tı́pica mostral més petita.
10
3.3 L’exemple resolt, i amb R
Obtenim la taula ANOVA pel nostre cas. Sigui Xi la v.a. collita d’una parcel·la triada a l’atzar entre les que han
estat tractades amb el fertilitzant A (i = 1), fertilitzant B (i = 2) o Cap fertilitzant (i = 3).
n1 = 4 n2 = 4 n3 = 4
1. Calculem les mitjanes mostrals:
X 1 = 70 X 2 = 73 X 3 = 61
2. Estimem la mitja conjunta

X = 68
3. Variabilitat dins els grups:

A B C
(75 70)2 (74 73)2 (60 61)2
(70 70)2 (78 73)2 (64 61)2
(66 70)2 (72 73)2 (65 61)2
(69 70)2 (68 73)2 (55 61)2
42 52 62
SSW = 42 + 52 + 62 = 156
4. Variabilitat entre grups:
SSG = 4(70 68)2 + 4(73 68)2 + 4(61 68)2 = 312
Ara ja podem fer la taula de l’Anàlisi de la Variància
Font de Suma de Graus de Quadrats

variació quadrats llibertat migs F -ratio
Entre grups SSG = 312 3 1=2 M SG = 312
2 = 156
156
17,33 = 9
Dins grups SSW = 156 12 3 = 9 M SW = 9 = 17, 33
156
Total 312 + 156 12 1 = 11
p - valor=P (F2,9 > 9) = 1 pf (9, 2, 9) = 0.007127781 i per tant refusem la hipòtesi nul·la d’igualtat de mitjanes:
almenys hi ha un dels grups que, en mitjana, té collita diferent a la resta. es petit
Ara que hem treballat (i força!) sobre aquestes dades per mirar d’entendre el procediment de decisió, podem
passar a revisar el problema amb R.
Primer hem d’entrar les observacions i combinar-les en un únic conjunt de dades, que aconseguim amb la darrera
instrucció:
a<-c(75, 70, 66, 69)

b<-c(74, 78, 72, 68)
c<-c(60, 64, 65, 55)
collita = list(a=a, b=b, c=c)
Abans de començar amb l’ANOVA, fem una exploració gràfica per mirar de detectar, a nivell exploratori, si hi
ha diferències entre les tres distribucions:
boxplot(collita) o millor stripchart(collita)
El resultat és,
11
75
70
65
60
55
a b c
on s’observa que, per a aquestes dades, les parcel.les sense fertilitzant, tenen una collita inferior a la resta. Mirem
de validar aquesta conjectura via l’anàlisi de la variància.
Si donem una ullada a les dades, veiem que, a hores d’ara tenen forma d’una llista amb les mostres per separat:
> collita
$a
[1] 75 70 66 69
$b
[1] 74 78 72 68
$c
[1] 60 64 65 55
Per tal de poder cridar a la funció de R que realitza l’ANOVA, hem de preparar les dades de manera que siguin
una única variable collita acompanyada d’un factor que assigna cada observació al seu grup. Ho aconseguim
amb,
collita = stack(collita)
on veiem que tenim els valors que hem entrat per a cadascuna de les parcel·les a la columna values i a ind
tenim l’indicador de grup.
Els noms de collita ens donen una idea de la nova estructura, quedarà més clar si fem
names(collita)<- c("pes.collita", "tipus.fert")
Ara ja podem realitzar l’ANOVA cridant la funció oneway.test( ) com segueix,
oneway.test(pes.collita ˜ tipus.fert, data=collita, var.equal=TRUE)
Obtenim com a output,
One-way analysis of means
data: values and ind F = 9, num df = 2, denom df = 9,
p-value = 0.007128
Se’ns facilita la F –ratio de la taula ANOVA, els graus de llibertat del numerador i del denominador i el p-
valor, que ja és el que havı́em obtingut prèviament. Tot i aixı́, trobem a faltar la taula ANOVA de resum del
12
procediment. Tenim la possibilitat de cridar una nova funció de R, que, en realitat forma part dels models lineals
(lineal models) lm( ); aquests són un extens conjunt de models entre els que es pot incloure també l’ANOVA.
> anova(lm(pes.collita ˜ tipus.fert, data=collita))

Analysis of Variance Table
Response: pes.collita
Df Sum Sq Mean Sq F value Pr(>F)
tipus.fert 2 312 156.000 9 0.007128 **
Residuals 9 156 17.333
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
on podem identificar termes amb els nostres càlculs previs i arribar a la mateixa conclusió sobre les diferències
en collita mitjana.
4 Exercicis (Llista 5 - pel seminari 6)

1. La doble correcció dels projectes de fi de carrera realitzats per 10 estudiants, i avaluats en una escala de 0
a 10, es recull en la següent taula
Corrector 1: 6.82 7.60 7.71 6.79 8.88 6.98 6.56 7.38 5.76 7.35
Corrector 2: 6.99 7.74 7.11 6.87 8.40 7.75 8.33 8.42 5.82 6.52
Suposant normalitat de les dades, es pot concloure que hi ha diferència en les mitjanes entre els dos cor-
rectors? Planteja clarament les hipòtesi nul·la i alternativa associades al test, calcula l’estadı́stic de contrast
i el p–valor corresponent.
2. R conté unes dades anomenades mtcars sobre algunes caracterı́stiques d’una sèrie de cotxes americans.
Fes ?mtcars per veure’n detalls. Volem comparar el consum (mpg) dels cotxes segons si tenen canvi
automàtic o manual. Quines són les mitjanes i les desviacions estàndards de cada tipus de cotxe? Fes-ho
primer amb un gràfic, i després amb una prova d’hipòtesi, explicant-ne tots els detalls.
3. En un estudi es realitza una enquesta al llarg de dues setmanes consecutives: es pretén determinar si hi ha
diferències entre l’acceptació del candidat abans (Setmana 1) i després (Setmana 2) d’un debat televisiu.
Les observacions són,
Setmana 1 Setmana 2
Favorable 45 56
No favorable 35 47
Estableix les hipòtesi nul·la i alternativa pel problema en decidir si es pot considerar que el grau d’accep-
tació ha augmentat després del debat.
4. Les notes del control de prova del grup 1 estan en el fitxer notes.dat. Pots utilitzar la següent instrucció
per posar noms a les variables (suposant que has anomenat notes a les dades del fitxer).
names(notes)<-c("grup", "nota")
Per comparar les notes dels grups, fes un boxplot de les notes segons el grup. També pots demanar les
mitjanes de cada grup fent, per exemple,
mean(notes$nota[notes$grup=="g102"])
13

T6-Comparació de Grups

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

T6-Comparació de Grups

Uploaded by

Copyright:

Available Formats

Estadistica ADE/ECO/ADE-Dret 2017

Guia 6 - Tema 6: Comparació de grups

Contingut d’aquest document

2 Problemes de dues mostres independents 3

4 Exercicis (Llista 5 - pel seminari 6) 13

Nen Abans Després Diferència

2 Problemes de dues mostres independents

2.1 Diferència en mitjanes

farem servir els següents estadı́stics de prova,

1. H1 : µ1 µ2 < 0; p valor = P {D < ECobs }

2. H1 : µ1 µ2 > 0; p valor = P {D > ECobs }

Mostra Grandària Càrrega mitjana(kg) Variància mostral

(b) Quina conclusió extreus d’aquestes observacions?

L’estimació de la variància comuna és

2.2 Diferència en proporcions

Recuperem com a estadı́stic,

(pˆ pˆ2 ) (p1 p2 )

i tindrem com a estadı́stic de contrast,

El pas final en el test és l’obtenció dels p-valors,

1. H1 : p1 p2 < 0; p valor = P {N (0, 1) < ECobs }

en base als quals ja podrem prendre una decisió.

(95/250) · 250 + (56/240) · 240

Té pla adaptació No té pla adaptació

Es pot parlar que hi ha diferències significatives entre els tractaments aplicats?

3.1 La idea de l’anàlisi de la variància

La idea intuı̈tiva queda reflectida en els següents boxplots:

En canvi, si els grups tenien mitjanes diferents,

i l’alternativa: almenys una mitjana poblacional és diferent.

1. Variabilitat entre els grups.

(X 1 X)2 , (X 2 X)2 , . . . , (X K X)2

Quadrat mig entre els grups (mean squares groups)

2. Variabilitat dins dels grups.

Suma de quadrats dins dels grups (SSW , sum of squares within)

Quadrat mig dins dels grups (mean squares within)

Si les K poblacions tenen variància comuna 2

Proposició 1. Siguin Xi ⇠ N (µi , 2

Font de Suma de Graus de Quadrats

3.2 Supòsits de l’anàlisi de la variància

1. K mostres aleatòries simples independents, una per a cada població.

3. Totes les Xi tenen la mateixa desviació tı́pica de valor desconegut.

1. Calculem les mitjanes mostrals:

2. Estimem la mitja conjunta

3. Variabilitat dins els grups:

4. Variabilitat entre grups:

SSG = 4(70 68)2 + 4(73 68)2 + 4(61 68)2 = 312

Ara ja podem fer la taula de l’Anàlisi de la Variància

Font de Suma de Graus de Quadrats

Total 312 + 156 12 1 = 11

a<-c(75, 70, 66, 69)

> anova(lm(pes.collita ˜ tipus.fert, data=collita))

4 Exercicis (Llista 5 - pel seminari 6)

You might also like