You are on page 1of 13

Estadistica ADE/ECO/ADE-Dret 2017

Guia 6 - Tema 6: Comparació de grups

Material
1. Aquest document
2. De la bibliografia:
Newbold: 8.7 + 8.8 + 9.6 + 9.7.
Moore: 7.3 + 8.3.

Contingut d’aquest document

Índex
1 Introducció 1

2 Problemes de dues mostres independents 3


2.1 Diferència en mitjanes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Diferència en proporcions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3 Anàlisi de la Variància 7
3.1 La idea de l’anàlisi de la variància . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2 Supòsits de l’anàlisi de la variància . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.3 L’exemple resolt, i amb R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

4 Exercicis (Llista 5 - pel seminari 6) 13

1 Introducció
L’objectiu d’aquesta guia és examinar la situació en la què es disposa de mostres aleatòries i es pretén determinar
si existeixen diferències en mitjanes o en proporcions.
Els problemes de dues mostres poden sorgir d’un experiment comparatiu aleatoritzat que divideixi a l’atzar els
individus en dos grups i exposi a cadascun d’ells a dos tractaments diferents. La comparació de dues mostres
aleatòries seleccionades independentment de dues poblacions també és un problema de dues mostres.
Cal mencionar en aquest punt un problema que, tot i que pot semblar-ho a priori, no és un problema de dues
mostres: es tracta del problema del tractament de dades aparellades.
En ocasions disposem d’observacions que han estat mesurades sobre un mateix individu, com en l’exemple que
segueix:
Exemple 1. Les dades següents són els resultats de mesurar el ritme del pols de cinc nens abans i després de
veure un determinat programa de televisió:

Nen Abans Després Diferència


1 96 104 8
2 102 112 10
3 108 112 4
4 89 93 4
5 85 89 4

Suposant normalitat de les observacions, volem determinar si aquest programa de televisió augmenta el ritme
del pols dels nens.
En realitat estem fent inferència sobre una sola població, la població de les diferències entre cada parell. No és
correcte ignorar els parells i analitzar les dades com si tinguéssim dues mostres: la dels nens abans i després de
veure el programa de televisió. Tal i com veurem pròximament, els procediments inferencials per a comparar
dues mostres es basen en que aquestes han estat obtingudes de manera independent. Aquest supòsit no és
cert quan els mateixos individus són considerats dues vegades. El problema es redueix aixı́ al contrast sobre la
mitjana d’una població, en aquest cas normal.
Anomenem X a la variable diferència. Suposarem X ⇠ N (µ, 2
).
Tenim X = 6 i S = 2.8284. Per a contrastar,

H0 : µ = 0
H1 : µ > 0

tenim que

ECobs = 4.7434

i per tant es pot concloure que amb qualsevol nivell de significació dels habituals, arribarem a la conclusió que
el programa fa augmentar el pols en els nens.
Podem resoldre el problema també en R. Primer entrem les observacions i obtenim la variable diferència:
abans <- c(96, 102, 108, 89, 85)
despres <- c(104, 112, 112, 93, 89)
dif <- despres-abans
Verifiquem els valors de la diferència,
dif
Ara demanem que es computi el test per a µ = 0 amb els valors que es troben a dif. Si només escrivim,
t.test(dif)
i obtenim,
One Sample t-test
data: dif
t = 4.7434, df = 4, p-value = 0.009014
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
2.488044 9.511956
sample estimates:
mean of x
6

2
Observa que amb R estaries fent un contrast per a µ = 0 però amb alternativa bilateral. Tot i que el valor de
l’estadı́stic observat seria el mateix, el p-valor correcte, per al nostre contrast d’alternativa unilateral H1 : µ > 0
correspondria a 0.009014
2 . No cal que ho resolguis, pots demanar la comanda a R amb l’alternativa unilateral
corresponent com segueix,
t.test(dif, alternative="greater")
amb els resultats,
One Sample t-test
data: dif
t = 4.7434, df = 4, p-value = 0.004507
alternative hypothesis: true mean is greater than 0
95 percent confidence interval:
3.303403 Inf
sample estimates:
mean of x
6
Finalment comentem que és possible indicar a R que estem treballant amb dades aparellades fent,
t.test(despres, abans, paired=TRUE, alternative="greater")
on obtenim els resultats,
Paired t-test
data: despres and abans
t = 4.7434, df = 4, p-value = 0.004507
alternative hypothesis: true mean is greater than 0
95 percent confidence interval:
3.303403 Inf
sample estimates:
mean of the differences
6

2 Problemes de dues mostres independents

2.1 Diferència en mitjanes

Estudiem ara el cas en què les mostres són independents. Suposem que estem estudiant dues variables aleatòries,
X1 ⇠ N (µ1 , 12 ) i X2 ⇠ N (µ1 , 22 ) independents. Aleshores, per a contrastar:

H0 : µ 1 µ2 = 0

farem servir els següents estadı́stics de prova,

1. 2
1,
2
2 conegudes;

(X1 X2 )
EC = q 2 2
⇠ N (0, 1)
n1 + n2
1 2

2. 2
1,
2
2 desconegudes però amb 2
1 = 2
2 = 2
.
Estimem la variància poblacional comuna per

3
(n1 1)S12 + (n2 1)S22
S2 =
(n1 + n2 2)

i aleshores,

(X1 X2 )
EC = r ⇣ ⌘ ⇠ tn1 +n2 2
S 2 n11 + n12

3. 2
1,
2
2 desconegudes, introduı̈m
(X1 X2 )
EC = q 2 (1)
S1 S22
n1 + n2

A diferència dels altres dos casos, aquest estadı́stic no té una distribució t. És més, la distribució exacta
canvia a mesura que les desviacions tı́piques poblacionals desconegudes 1 i 2 canvien. Malgrat això es
disposa d’una aproximació prou bona per la distribució. La distribució de l’estadı́stic en (1) és aproxima-
dament una distribució t amb els graus de llibertat donats per,
⇣ ⌘2
S12 S22
n1 + n2
gll = ⇣ 2
⌘2 ⇣ ⌘2
1 S1 1 S22
n1 1 n1 + n2 1 n2

Anomenem D a la distribució de referència en cadascun dels 3 casos; aleshores els corresponents p–valors s’ob-
tenen com

1. H1 : µ1 µ2 < 0; p valor = P {D < ECobs }

2. H1 : µ1 µ2 > 0; p valor = P {D > ECobs }


3. H1 : µ1 µ2 6= 0; p valor = P {D < |ECobs |} + P {D > |ECobs |}

Observació 1. En ocasions la hipòtesi nul·la pren la forma H0 : µ1 µ2 0 o bé H0 : µ1 µ2  0, és a dir forma
composta i no pas simple, que és quan tenim una igualtat. Podem resoldre el problema amb la mateixa estratègia
que en el cas d’hipòtesi nul·la simple, definida per una igualtat. Intuı̈tivament podem entendre-ho com segueix:
si ens posem en la situació més extrema possible, això serà la definida per la igualtat, i encara refusem podem
pensar que refusarem en tots els altres valors de la hipòtesi nul·la, menys extrems que la frontera.
Observació 2. Cal remarcar finalment que la decisió entre la igualtat o no de variàncies es pot resoldre a nivell
inferencial, amb proves de significació paramètriques i també amb proves de significació no paramètriques. La
més comuna de les proves paramètriques és la prova F per la comparació de variàncies (atenció! No confondre
amb la F –ratio de l’anàlisi de la variància que veurem al següent apartat). Amb R podem realitzar aquesta prova
en cridar la funció var.test( ) El problema d’aquest procediment és que és extremadament sensible a la no
normalitat de les observacions i aquesta manca de robustesa no millora quan la mida de la mostra augmenta.
La recomanació seria doncs avaluar la normalitat de les observacions gràficament, posant especial èmfasi en la
detecció d’observacions atı́piques i de manca simetria de la distribució i utilitzar la versió de l’estadı́stic t que
no requereix la igualtat de variàncies.

Exemple 2. Un cable elèctric es fabrica de dues maneres. Es vol saber si el tipus de procés seguit en la fabricació
afecta la mitjana de resistència a la ruptura del cable. Es realitzen proves en el laboratori sotmetent els cables a
tensió i anotant les càrregues necessàries per arribar a trencar-los. Suposem que les dues mostres aleatòries d’un
i altre procés són independents i extretes de dues poblacions normals i amb la mateixa variància.

4
(a) Analitzeu les dades experimentals següents:

Mostra Grandària Càrrega mitjana(kg) Variància mostral


X 16 20.5 5.6
Y 17 28.0 7.5

(b) Quina conclusió extreus d’aquestes observacions?

X1 := v.a. que mesura la resistència d’un cable triat a l’atzar entre els fabricats segons el primer procediment
⇠ N (µ1 , 2 ).
X2 := v.a. que mesura la resistència d’un cable triat a l’atzar entre els fabricats segons el segon procediment
⇠ N (µ2 , 2 ).

H0 : µ 1 µ2 = 0
H1 : µ 1 µ2 6= 0

L’estimació de la variància comuna és


(16 1) · 5.6 + (17 1) · 7.5
S2 = = 6.5806
16 + 17 2
i doncs
(20.5 28.0) 0
ECobs = q = 8.3937
6.5806 16+17
16·17

Refusem la hipòtesi nul·la que les resistències promig són la mateixa en una i altra forma de fabricació.
Mirem de treballar sobre un nou exemple però ara amb l’ajut de R.

Exemple 3. Suposem que es mesura el temps (en dies) de recuperació d’una determinada malaltia quan als
pacients se’ls administra un nou medicament. Per tal de valorar-ne l’efectivitat (i evitar l’efecte placebo), s’ad-
ministra a un altre grup un placebo obtenint-se en conjunt els següents resultats:
amb medicament: 15 10 13 7 9 8 21 9 14 8
placebo: 15 14 12 8 14 7 16 10 15 12
Assumint normalitat i igualtat de variàncies, es demana determinar si el medicament es pot considerar o no
efectiu.

Denotem com a µ1 el temps mig de recuperació de la malaltia per als pacients del grup amb medicació i µ2 el
temps mig de recuperació de la malaltia per als pacients del grup placebo. Ens debatem entre H0 : µ1 µ2 = 0
contra l’alternativa que el grup amb medicació es recupera abans, H1 : µ1 µ2 < 0.
Entrem les dades a R,
med <- c(15, 10, 13, 7, 9, 8, 21, 9, 14, 8)
plac<- c(15, 14, 12, 8, 14, 7, 16, 10, 15, 12)
Ara demanem que es resolgui el test
t.test(med,plac,alt="less",var.equal=TRUE)
on hem indicat que l’alternativa és “més petit” i que assumim igualtat de variàncies. Obtenim,
Two Sample t-test
data: med and plac
t = -0.5331, df = 18, p-value = 0.3002
alternative hypothesis: true difference in means is less than 0

5
95 percent confidence interval:
-Inf 2.027436
sample estimates:
mean of x mean of y
11.4 12.3
Tenim un p–valor de 0.3002 la qual cosa indica que no podem rebutjar la hipòtesi nul·la i per tant no s’han
observat evidències a la mostra que avalin l’efectivitat del medicament.

2.2 Diferència en proporcions

Recuperem com a estadı́stic,

(pˆ pˆ2 ) (p1 p2 )


q1 ⇡ N (0, 1)
p1 (1 p1 ) p2 (1 p2 )
n1 + n2

Si volem contrastar H0 : p1 = p2 i denotem per p0 aquest valor comú, podem estimar p0 per,

n1 pˆ1 + n2 pˆ2
pˆ0 =
n1 + n2

i tindrem com a estadı́stic de contrast,

(pˆ1 pˆ2 )
EC = q ⇡ N (0, 1)
pˆ0 (1 pˆ0 ) pˆ0 (1 pˆ0 )
n1 + n2

El pas final en el test és l’obtenció dels p-valors,

1. H1 : p1 p2 < 0; p valor = P {N (0, 1) < ECobs }


2. H1 : p1 p2 > 0; p valor = P {N (0, 1) > ECobs }
3. H1 : p1 p2 6= 0; p valor = P {N (0, 1) < |ECobs |} + P {N (0, 1) > |ECobs |}

en base als quals ja podrem prendre una decisió.

Exemple 4. Es realitza un estudi sobre la situació actual de les empreses de serveis per tal de pal·liar els efectes
de l’actual crisi econòmica. Hi ha indicis per pensar que la situació no és la mateixa en les diferents regions
europees i que, en concret, la regió B està menys adaptada que la regió A.
Un cop fet l’estudi, resulta que de les 250 empreses de serveis enquestades a la regió A, 95 tenien preparat un
pla d’adaptació. A la regió B, 56 de 240.
Creieu que les dades evidencien que la proporció d’empreses de serveis que tenen enllestit un pla d’adaptació
és mes alta en la regió A que en la regió B? (Utilitzeu un nivell de significació de 10%, és a dir ↵ = 0, 10).

Sigui pA la proporció d’empreses a la zona A que tenen preparat un pla d’adaptació i pB a la zona B.
Es contrasta,

H 0 : pA pB = 0
H 1 : pA pB > 0

6
Es té p̂A = 95
250 i p̂B = 240 .
56
L’estimació de la proporció poblacional comuna és

(95/250) · 250 + (56/240) · 240


p̂0 = = 0.3082
250 + 240

i per tant

95 56
250 240
ECobs = q = 3.5149
1 1
(0.3082 · (1 0.3082)) · ( 250 + 240 )

amb la qual cosa refusem la hipòtesi nul·la a pràcticament qualsevol nivell de significació. Conseqüentment hem
de concloure que la zona B està menys preparada que la zona A.
Amb R també podem resoldre el contrast. Utilitzarem la funció prop.test que cridarem amb prop.test(x,n)
sent x el nombre de casos favorables i n el total.
prop.test(c(95,56),c(250,240), alternative="greater", correct="FALSE")
Posem que no s’apliqui la correcció per continuı̈tat de Yates (correct = "FALSE") de la distribució de l’es-
tadı́stic de contrast, que és la manera com s’ha optat en la resolució del problema. L’output que n’obtenim
és,
2-sample test for equality of proportions without continuity correction
data: c(95, 56) out of c(250, 240)
X-squared = 12.3547, df = 1, p-value = 0.0002199
alternative hypothesis: greater
95 percent confidence interval:
0.079092 1.000000
sample estimates:
prop 1 prop 2
0.3800000 0.2333333
p
Observem que l’estadı́stic que calcula R correspon, numèricament, al quadrat del nostre 12.3547 = 3.5149. De
fet, calcula el estadı́stic 2 per la independència entre les piles i columnes de la següent taula de contingència:

Té pla adaptació No té pla adaptació


Zona A 95 155
Zona B 56 184

Per finalitzar, observem amb aquest exemple la connexió entre les diferents tècniques que anem aprenent.

3 Anàlisi de la Variància
L’Anàlisi de la Variància és una tècnica que té com a objectiu comparar les mitjanes de K poblacions, per K 2.
Contrasta,

H0 : µ 1 = µ 2 = · · · = µ K

contra l’alternativa que existeix almenys una de les mitjanes poblacionals que difereix de les altres. Suposa-
rem que totes les poblacions tenen la mateixa variància desconeguda. Mirem de fixar les idees amb el següent
exemple:

7
Exemple 5. Dotze parcel·les de terreny es distribueixen aleatòriament en tres grups. Als dos primers grups se’ls
hi aplica el fertilitzant 1 i 2, i el tercer grup de parcel·les es considera com a unitat de control, sense aplicar-li cap
fertilitzant. Els resultats de la collita són,
A B C
75 74 60
70 78 64
66 72 65
69 68 55

Es pot parlar que hi ha diferències significatives entre els tractaments aplicats?

3.1 La idea de l’anàlisi de la variància

La idea intuı̈tiva queda reflectida en els següents boxplots:

En canvi, si els grups tenien mitjanes diferents,


Si tenim tres grups amb iguals mitjanes, i els reu- en reunir-los en una mostra conjunta (a la dre-
nim tots tres en una mostra conjunta (a la dreta), ta) aquesta té una variància més gran que les dels
la variància del conjunt és molt similar a les va- grups per separat.
riàncies dels grups individuals.
Per tant veiem que analitzant la variància podem decidir si les mitjanes són realment diferents o no.
Siguin Xi ⇠ N (µi , 2
), i = 1, . . . K independents. Ens proposem decidir entre,

H0 : µ 1 = µ 2 = · · · = µ K

i l’alternativa: almenys una mitjana poblacional és diferent.


Observem que sota la hipòtesi nul·la, el formar part d’un grup és irrellevant i totes les observacions podrien
ser considerades com a una mostra d’una única població. Aixı́ doncs, la hipòtesi nul·la especifica que les K
poblacions tenen una mitjana comuna, que podem estimar pel que denotarem com a X.
La tècnica de l’Anàlisi de la Variància està basada en la comparació de dos tipus de variabilitat a la mostra: la
variabilitat dintre dels grups i la variabilitat entre els grups.
Denotem Xij , i = 1, . . . , nj , j = 1, . . . , K la nostra mostra composada de K submostres, una de cada grup.

1. Variabilitat entre els grups.


Mesurem les diferències entre les mitjanes individuals a cada grup i la mitjana global.

(X 1 X)2 , (X 2 X)2 , . . . , (X K X)2

8
Suma de quadrats entre els grups (SSG, sum of squares of groups):
K
X
SSG = ni (X i X)2
i=1

Quadrat mig entre els grups (mean squares groups)

SSG
M SG =
K 1

2. Variabilitat dins dels grups.


Calcularem, per cada grup, com es desvien les observacions de la seva mitjana mostral de grup.
P n1
SS1 = j=1 (X1j X 1 )2
P n2
SS2 = j=1 (X2j X 2 )2
PnK. . .
SSK = j=1 (XKj X K )2

Suma de quadrats dins dels grups (SSW , sum of squares within)


K
X
SSW = SSi
i=1

Quadrat mig dins dels grups (mean squares within)

SSW
M SW =
n K

La variabilitat total de les dades pot ser mesurada a través de la suma de quadrats total (sum of squares total),
nK
K X
X
SST = (Xij X)2
i=1 j=1

verificant-se que
SST = SSW + SSG

Si les K poblacions tenen variància comuna 2


, resulta que tant M SW com M SG poden utilitzar-se per a estimar
2
.

Proposició 1. Siguin Xi ⇠ N (µi , 2


), i = 1, . . . , K independents.
Sota H0 : µ1 = µ2 = · · · = µK ,

1. SSG
2 ⇠ 2
K 1 i per tant E[M SG] = 2

2. SSW
2 ⇠ 2
n K i per tant E[M SW ] = 2

3. M SG i M SW són independents

Si les mitjanes poblacionals no són iguals, M SG no serà un estimador no esbiaxat de la variància poblacional
comuna, tot el contrari, de fet ha d’excedir la variància poblacional comuna doncs incorporarà informació al

9
respecte de les diferències entre les mitjanes poblacionals reals. Si H0 és certa, esperem que el quocient entre
M SG i M SW sigui al voltant de 1. En ser independents,
2
K 1
M SG K 1
F ratio = = 2 ⇠ FK 1,n K
M SW n K
n K

Les distribucions F de Fisher-Snedecor són una famı́lia de distribucions amb dos paràmetres. Aquests són els
graus de llibertat que apareixen al numerador i denominador de l’estadı́stic F (sempre es menciona abans els
graus de llibertat del numerador: si intercanviem els graus la distribució canvia!) Les distribucions F de Fisher
són assimètriques a la dreta i presenten un pic en la corba de densitat al voltant de 1.
En base a la proposició anterior i als comentaris que en segueixen, la F –ratio serà l’estadı́stic de contrast per,

H0 : µ 1 = µ 2 = · · · = µ K

Els valors de M SG/M SW que afavoreixen la hipòtesi alternativa (alguna diferència entre les mitjanes) són
els més grans que 1 ja que MSW no canviaria però M SG augmentaria. El p–valor en aquest contrast serà
P (F –ratio > FK 1,n K ).
Aquesta informació es resumeix en la taula de l’Anàlisi de la Variància,

Font de Suma de Graus de Quadrats


variació quadrats llibertat migs F -ratio
Entre grups SSG K 1 M SG = KSSG
1
M SG
M SW
Dins grups SSW n K M SW = SSW
n K
Total SST n 1

3.2 Supòsits de l’anàlisi de la variància

D’igual manera que amb altres procediments inferencials, l’ANOVA és vàlid sota certs requeriments. Aquests
són, tal i com hem comentat,

1. K mostres aleatòries simples independents, una per a cada població.


2. A cada població, estem estudiant una variable aleatòria Xi amb distribució normal de mitjana µi .

3. Totes les Xi tenen la mateixa desviació tı́pica de valor desconegut.

Aquests supòsits es poden relaxar una mica sense que l’anàlisi deixi de ser aplicable (Moore 9.2.2). Si la distri-
bució de les Xi en cada grup no són normals però són contı́nues simètriques i no hi ha observacions atı́piques,
l’anàlisi de la variància es pot aplicar fins i tot amb mostres petites (de 4 o 5 elements per grup). Evidentment, i
degut al TCL, com més grans siguin les mostres millor funcionarà la prova. Diem que la prova F de l’ANOVA
és robusta front a la manca de normalitat.
No és fàcil comprovar el supòsit que les poblacions tenen la mateixa variància, en part perquè les proves es-
tadı́stiques que es fan servir per verificar la igualtat de variàncies són molt sensibles a la manca de normalitat i,
en conseqüència, tenen poc valor a la pràctica... Com a regla pràctica, que és segura en gran part de les situacions,
direm que:

Els resultats de la prova F del ANOVA són aproximadament correctes quan la desviació tı́pica mos-
tral més gran no és superior que el doble de la desviació tı́pica mostral més petita.

10
3.3 L’exemple resolt, i amb R

Obtenim la taula ANOVA pel nostre cas. Sigui Xi la v.a. collita d’una parcel·la triada a l’atzar entre les que han
estat tractades amb el fertilitzant A (i = 1), fertilitzant B (i = 2) o Cap fertilitzant (i = 3).

n1 = 4 n2 = 4 n3 = 4

1. Calculem les mitjanes mostrals:

X 1 = 70 X 2 = 73 X 3 = 61

2. Estimem la mitja conjunta


X = 68

3. Variabilitat dins els grups:


A B C
(75 70)2 (74 73)2 (60 61)2
(70 70)2 (78 73)2 (64 61)2
(66 70)2 (72 73)2 (65 61)2
(69 70)2 (68 73)2 (55 61)2
42 52 62

SSW = 42 + 52 + 62 = 156

4. Variabilitat entre grups:

SSG = 4(70 68)2 + 4(73 68)2 + 4(61 68)2 = 312

Ara ja podem fer la taula de l’Anàlisi de la Variància

Font de Suma de Graus de Quadrats


variació quadrats llibertat migs F -ratio
Entre grups SSG = 312 3 1=2 M SG = 312
2 = 156
156
17,33 = 9
Dins grups SSW = 156 12 3 = 9 M SW = 9 = 17, 33
156

Total 312 + 156 12 1 = 11

p - valor=P (F2,9 > 9) = 1 pf (9, 2, 9) = 0.007127781 i per tant refusem la hipòtesi nul·la d’igualtat de mitjanes:
almenys hi ha un dels grups que, en mitjana, té collita diferent a la resta. es petit
Ara que hem treballat (i força!) sobre aquestes dades per mirar d’entendre el procediment de decisió, podem
passar a revisar el problema amb R.
Primer hem d’entrar les observacions i combinar-les en un únic conjunt de dades, que aconseguim amb la darrera
instrucció:

a<-c(75, 70, 66, 69)


b<-c(74, 78, 72, 68)
c<-c(60, 64, 65, 55)
collita = list(a=a, b=b, c=c)

Abans de començar amb l’ANOVA, fem una exploració gràfica per mirar de detectar, a nivell exploratori, si hi
ha diferències entre les tres distribucions:
boxplot(collita) o millor stripchart(collita)
El resultat és,

11
75
70
65
60
55

a b c

on s’observa que, per a aquestes dades, les parcel.les sense fertilitzant, tenen una collita inferior a la resta. Mirem
de validar aquesta conjectura via l’anàlisi de la variància.
Si donem una ullada a les dades, veiem que, a hores d’ara tenen forma d’una llista amb les mostres per separat:

> collita
$a
[1] 75 70 66 69
$b
[1] 74 78 72 68
$c
[1] 60 64 65 55

Per tal de poder cridar a la funció de R que realitza l’ANOVA, hem de preparar les dades de manera que siguin
una única variable collita acompanyada d’un factor que assigna cada observació al seu grup. Ho aconseguim
amb,
collita = stack(collita)
on veiem que tenim els valors que hem entrat per a cadascuna de les parcel·les a la columna values i a ind
tenim l’indicador de grup.
Els noms de collita ens donen una idea de la nova estructura, quedarà més clar si fem
names(collita)<- c("pes.collita", "tipus.fert")
Ara ja podem realitzar l’ANOVA cridant la funció oneway.test( ) com segueix,
oneway.test(pes.collita ˜ tipus.fert, data=collita, var.equal=TRUE)
Obtenim com a output,
One-way analysis of means
data: values and ind F = 9, num df = 2, denom df = 9,
p-value = 0.007128
Se’ns facilita la F –ratio de la taula ANOVA, els graus de llibertat del numerador i del denominador i el p-
valor, que ja és el que havı́em obtingut prèviament. Tot i aixı́, trobem a faltar la taula ANOVA de resum del

12
procediment. Tenim la possibilitat de cridar una nova funció de R, que, en realitat forma part dels models lineals
(lineal models) lm( ); aquests són un extens conjunt de models entre els que es pot incloure també l’ANOVA.

> anova(lm(pes.collita ˜ tipus.fert, data=collita))


Analysis of Variance Table

Response: pes.collita
Df Sum Sq Mean Sq F value Pr(>F)
tipus.fert 2 312 156.000 9 0.007128 **
Residuals 9 156 17.333
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

on podem identificar termes amb els nostres càlculs previs i arribar a la mateixa conclusió sobre les diferències
en collita mitjana.

4 Exercicis (Llista 5 - pel seminari 6)


1. La doble correcció dels projectes de fi de carrera realitzats per 10 estudiants, i avaluats en una escala de 0
a 10, es recull en la següent taula

Corrector 1: 6.82 7.60 7.71 6.79 8.88 6.98 6.56 7.38 5.76 7.35
Corrector 2: 6.99 7.74 7.11 6.87 8.40 7.75 8.33 8.42 5.82 6.52

Suposant normalitat de les dades, es pot concloure que hi ha diferència en les mitjanes entre els dos cor-
rectors? Planteja clarament les hipòtesi nul·la i alternativa associades al test, calcula l’estadı́stic de contrast
i el p–valor corresponent.
2. R conté unes dades anomenades mtcars sobre algunes caracterı́stiques d’una sèrie de cotxes americans.
Fes ?mtcars per veure’n detalls. Volem comparar el consum (mpg) dels cotxes segons si tenen canvi
automàtic o manual. Quines són les mitjanes i les desviacions estàndards de cada tipus de cotxe? Fes-ho
primer amb un gràfic, i després amb una prova d’hipòtesi, explicant-ne tots els detalls.
3. En un estudi es realitza una enquesta al llarg de dues setmanes consecutives: es pretén determinar si hi ha
diferències entre l’acceptació del candidat abans (Setmana 1) i després (Setmana 2) d’un debat televisiu.
Les observacions són,

Setmana 1 Setmana 2
Favorable 45 56
No favorable 35 47

Estableix les hipòtesi nul·la i alternativa pel problema en decidir si es pot considerar que el grau d’accep-
tació ha augmentat després del debat.
4. Les notes del control de prova del grup 1 estan en el fitxer notes.dat. Pots utilitzar la següent instrucció
per posar noms a les variables (suposant que has anomenat notes a les dades del fitxer).
names(notes)<-c("grup", "nota")
Per comparar les notes dels grups, fes un boxplot de les notes segons el grup. També pots demanar les
mitjanes de cada grup fent, per exemple,
mean(notes$nota[notes$grup=="g102"])

13

You might also like