Professional Documents
Culture Documents
01075GES5
01075GES5
GUIA DESTUDI 5
3.1. Introducci
3.2. Prova 2 dajust duna distribuci terica
3.3. Prova 2 dindependncia
3.4. Prova de les ratxes
3.5. Prova dels signes
3.6. Prova de Wilcoxon
3.7. Prova U de Mann-Whitney
Prova 2 dindependncia
Utilitzarem aquest test per contrastar la independncia entre 2 atributs o b per detectar
lhomogenetat duna poblaci que ha estat estratificada.
1
Estadstica II
Ritme destudi
Per comenar us suggerim que realitzeu una primera lectura del tema sencer posant especial
mfasi en els punts essencials descrits a continuaci.
1
La columna Punts essencials es refereix a aquells conceptes que haureu de conixer
2
La columna Temps fa referncia al temps aproximat que haureu de necessitar per assimilar els conceptes
inclosos en els apartats, sense incloure la realitzaci de les activitats
2
Estadstica II
Explicacions complementries
A continuaci trobareu explicacions complementries dalguns dels apartats del material, aquestes
explicacions no substitueixen el material imprs. El fet que no hi hagi explicacions
complementries dalguns apartats no implica que no siguin objecte destudi. Abans de llegir les
explicacions complementries s recomanable fer una lectura del material imprs.
H 0 : F ( X ) = F0 ( X )
H 1 : F ( X ) F0 ( X )
Per una altra banda, els parmetres que caracteritzen el model en qesti poden ser especificats o
no. s a dir, que la hiptesi nulla del contrast pot tenir les dues versions segents:
F0 ( X ; especificat ) o, alternativament, F0 ( X ; = ?)
Nota: F(X) indica la funci de distribuci de la poblaci i F0(X) una distribuci en concret. La lletra
grega serveix per notar de forma genrica qualsevol parmetre (valor) incorporat en aquesta
funci matemtica F(X). Aquest valor s que determina F(X), s a dir, la diferencia daquelles altres
variables que pertanyen a la mateixa famlia.
Exemple: la hiptesi nulla daquest contrast dadherncia podria dir que les dades de la mostra
provenen duna distribuci normal sense especificar els seus parmetres (mitjana i desviaci
estndard):
H 0 : X = Normal ( ; )
H 1 : X Normal ( ; )
( parmetres in det er min ats )
o, alternativament, la H0 podria dir que les dades segueixen una distribuci normal de mitjana ()
100 i desviaci estndard = 5:
H 0 : X = Normal ( = 100; = 5)
H 1 : X Normal ( = 100; = 5)
( parmetres fixats )
La manca de lespecificaci dels parmetres afectar als graus de llibertat de la txi-quadrat que ens
servir per resoldre el contrast. Daquesta forma si la poblaci est totalment caracteritzada
(parmetres poblacionals coneguts) els graus de llibertat de la txi sn m-1 (m = nombre de
valors/categories de la variable) mentre que si els parmetres resten indeterminats (i, en
3
Estadstica II
conseqncia, shan destimar a partir de la informaci mostral) els graus de llibertat de la txi seran
m-1-k sent k el nombre de parmetres a estimar.
Nota: En els apunts se suposa que la poblaci especificada a H0 est totalment determinada; es
coneixen tots els seus parmetres. Per tant la txi a utilitzar tindr sempre m-1 graus de llibertat.
(ni ni' ) 2
EC =
ni'
En concret, es pot demostrar que si H0 s certa, lanterior estadstic presenta una distribuci en el
mostratge de txi-quadrat amb m-1 graus de llibertat (m-1-k si la poblaci no est especificada
perqu manca algun (k) parmetres).
(ni ni' ) 2
H 0 : F ( X ) = F0 ( X ) _ certa '
= m2 1( k )
ni
Per tant, si el valor de lanterior estadstic supera un determinat punt crtic (valor crtic determinat
pel nivell de significaci fixat per al contrast) es rebutja H0.
(ni ni' ) 2
n ' > m2 1( k ); RHo : F ( X ) = F0 ( X )
i
4
Estadstica II
Per ltim, moltes variables qualitatives sn el resultat de categoritzar una variable originalment
numrica. Un exemple tpic seria el de la renda de les famlies. A partir de les dades numriques
(en euros) dels ingressos familiars podem fer, per exemple, tres trams i classificar les llars en llars
amb ingressos baixos, mitjans o alts.
Objectiu:
Lobjectiu daquest contrast s conixer si dos atributs sn independents. Ens referirem a aquests
atributs (variables) amb les lletres A i B, seguint la notaci habitual. Per tant, les hiptesis de la
prova sn:
H 0 : A i B sn atributs independents
H1 : A i B NO sn independents
Aix, per exemple, ens interessar saber si el sou de les persones s o no independent del seu
sexe, o dels seus estudis; o si la despesa en activitats doci de les famlies s independent o no de
la situaci laboral dels perceptors dingressos. Amb aquest test volem verificar (o b desestimar)
teories daquest estil, que relacionen variables categriques o variables numriques
categoritzades.
Taula de contingncia:
Necessitem informaci mostral per dur a terme el test o contrast estadstic. En aquest cas se
selecciona una mostra aleatria dels elements poblacionals (individus, famlies, etc.) i sobserven
els valors que prenen els dos atributs en qesti, A i B, per a cada un dels elements mostrals.
A partir daquesta anlisi es pot construir una taula de doble entrada com la que es mostra a
continuaci. A linterior de cada cella recull la freqncia absoluta de les diferents possibles
combinacions de categories dels dos atributs. Aquesta taula rep el nom de taula de contingncia.
Nota: Amb el subndex i es nota un valor genric de latribut A i amb el subndex j un valor genric
de latribut B: i=1,2, ...., I i j=1,2, ..., J. I = Nombre de categories de la variable A i J= Nombre de
categories de la variable B.
5
Estadstica II
Taula de contingncia
A B B1 B2 ...... Bj ...... Bj Ai
A1 n11 n12 ...... n1j ...... n1J n1
A2 n21 n22 ...... n2j ...... n2J n2
...... ...... ...... ...... ...... ...... ......
Ai ni1 ni2 ...... nij ...... niJ ni
...... ...... ...... ...... ...... ...... ......
AI nI1 nI2 ...... nIj ...... nIJ nI
Bj n1 n2 ...... nj ...... nJ n
Notaci:
nij = Freqncia absoluta dobservacions de la mostra que presenten la i-ssima categoria de
latribut A i la j-ssima de latribut B.
ni = Freqncia absoluta dobservacions de la mostra que presenten la i-ssima categoria de
latribut A (independentment de la categoria de latribut B):
J
ni = nij
j =1
n
i =1 j =1
ij =n
- la suma de les freqncies marginals dA i B (freqncies als marges de la taula) ha de ser igual
a la mida de la mostra:
I J
ni = n
i =1
n
j =1
j =n
Contrast dhiptesi
Partim de la informaci mostral ordenada en na taula de contingncia. Aquest contrast es basa en
la comparaci entre les freqncies absolutes observades a la mostra (recollides a la taula de
contingncia) nij i les freqncies que serien desperar si els atributs efectivament fossin
6
Estadstica II
independents nij. Aquesta comparaci sha de fer per a cadascuna de les possibles (I*J)
combinacions dels valors dels atributs, s a dir, per a cadascuna de les celles de la taula.
La freqncia esperada duna determinada combinaci de categories dA i B ve donada pel
producte de la probabilitat de la combinaci en qesti per la mida de la mostra (n). s a dir:
n'ij = n * Pr ob( Ai , B j )
Aplicant aquest resultat obtenim la segent frmula per calcular la freqncia esperada duna
determinada combinaci de valors dA i B suposant que els atributs sn independents:
ni n: j
Pr ob( Ai ) = Pr ob( B j ) =
n n
Aleshores, substituint a lexpressi utilitzada pel clcul de les freqncies esperades:
n i n j n i * n j
n'ij = n * Pr ob( Ai ) * Pr ob( B j ) = n =
n n n
i aquesta s, finalment, la frmula operativa per al clcul de les freqncies esperades de les
diferents combinacions dels dos atributs:
ni * n j
n'ij =
n
Per ltim, comparem les freqncies observades i les esperades mitjanant el segent estadstic
de prova. Si H0 s certa, s a dir, els atributs sn independents, es pot demostrar que aquest
estadstic s comporta en el mostratge de txi-quadrat amb (I-1)(J-1) graus de llibertat:
I J (nij n' ij ) 2
i =1 j =1 n'ij
(2I 1)( J 1)
Nota: Les diferncies entre freqncies observades i esperades seleven al quadrat ja que no
interessa el signe sin la magnitud.
7
Estadstica II
Si lestadstic calculat amb la mostra disponible pren un valor massa gran, s a dir, supera un
determinat punt crtic, haurem de rebutjar H0. Les diferncies entre les freqncies observades (nij)
i les esperades (nij) seran massa grans com per donar credibilitat a la independncia. El punt crtic
sobt amb les taules de la txi-quadrat de (I-1)(J-1) graus de llibertat i dependr del nivell de
significaci al qual realitzem el test. haurem de rebutjar Ho:
I J (nij n' ij ) 2
i =1 j =1 n'ij
> (2I 1)( J 1); RHo : A _ i _ B _ independents
Nota: Aquest contrast s doncs un contrast unilateral a una cua superior, s a dir, la regi crtica
o de rebuig dH0 se situa a la cua superior de la distribuci de lestadstic de prova.
Contrast bilateral:
Aquesta prova o contrast permet saber si una srie dobservacions es poden considerar aleatries,
es dir, independents. La idea que hi ha al darrera s que si el nombre de ratxes observat (R*) s
massa petit o massa gran rebutjarem la hiptesi dindependncia de les observacions.
El valor mnim de lestadstic R (nombre de ratxes) s 2. El valor mxim depn de la mida de les
submostres: n1 i n2 (n1+n2=n) . Si les submostres tenen la mateixa mida, el valor mxim de ratxes
R s 2*n1=2*n2. Si una submostra s menor que laltra (n1<n2) el nmero mxim de ratxes s
(2*n1)+1.
Nota: Aix tamb s vlid en el marc del contrast unilateral (a una cua inferior) de les ratxes.
Contrast unilateral:
En aquest cas es tracta de saber si el valor mitj duna variable s diferent o no quan es tracta de
dos collectius. En aquest cas noms un nombre massa petit de ratxes ens far sospitar de la
igualtat de la variable per als dos collectius, que s la hiptesi que es contrasta H0.
8
Estadstica II
Activitats seleccionades
Activitat 3.1 (Contrast dadherncia: Ajust a una funci uniforme)
Activitat 3.2 (Contrast dadherncia: ajust a una Poisson)
Activitat 3.3 (Contrast dindependncia)
Activitat 3.5 (Contrast de ratxes)
Activitat 3.6 (Contrast de Wilcoxon)
Activitat 3.8 (Contrast U de Mann-Whitney)
9
Estadstica II
Exercicis complementaris
Un estudi sost que la distribuci del nombre de fills dun collectiu de parelles s la segent:
Nombre de fills 0 1 2 3 4 5
Percentatge 15% 30% 35% 10% 7% 3% 100%
Es pot sostenir la hiptesi anterior si una mostra del nombre de fills de 100 parelles daquest
collectiur proporciona la segent distribuci de freqncies?
Nombre de fills 0 1 2 3 4 5
Freqncies 13 27 36 8 10 6 100
(absolutes)
SOLUCI:
Especificaci de les hiptesis del contrast:
H 0 : P( X ) = Po( X )
H 1 : P ( X ) Po( X )
Nota: Donat que la freqncia esperada del darrer valor (X=5) s menor que 5 shaur dagrupar
aquest valor amb lanterior (X=4) a lhora de realitzar el test.
Clcul de les diferncies (Di) entre les freqncies observades (Oi) i les esperades (Ei):
10
Estadstica II
(ni ni' ) 2 (13 15) 2 (27 30) 2 (36 35) 2 (8 10) 2 (16 10) 2
n ' = 15 + 30 + 35 + 10 + 10 = 4,85
i
El valor crtic (VC) per una m2 1=51= 4 i una significaci de 0,10 s 7,779.
A quina conclusi arribar aquest usuari (si fixa en un 1% la probabilitat de rebutjar la hiptesi
comentada quan aquesta sigui certa)?
SOLUCI:
11
Estadstica II
La taula de lenunciat mostra els percentatges, s a dir, les freqncies relatives multiplicades per
100. Per per calcular lestadstic del test necessitem les freqncies absolutes. Aquestes
freqncies absolutes sobtenen multiplicant les relatives per la mida de la mostra:
Efectivament, la probabilitat dun interval per variable aleatria contnua es calcula integrant la
funci de densitat de la variable, f(X), en linterval en qesti. Per exemple:
5 5
1 1 1
Pr ob(0 X 5) = dx = dx = [x]50 = 1 (5 0) = 5 = 0,25
0
20 20 0 20 20 20
15 15
1 1 1 15
Pr ob(10 X 15) = dx = dx = [x]10 = 1 (15 10) = 5 = 0,25
10
20 20 10 20 20 20
Per tant, si la poblaci fos uniforme en linterval [0;20], com diu H0, seria desperar una distribuci
uniforme de les 40 observacions mostrals en cada una de les 4 categories; s a dir, shaurien
dobservar 10 dades (registres) a cada classe.
Clcul de les diferncies (Di) entre les freqncies observades (ni) i les esperades (ni):
12
Estadstica II
Nota: Sha de tenir present que si algun dels temps despera dels observats per lusuari hagus
estat superior a 20 minuts, la H0 daquest contrast shauria hagut de rebutjar, ja que si la poblaci
s Uniforme(a=0;b=20) els valors superiors a 20 NO sn possibles:
Quina ser la conclusi que es derivar de lanlisi de lanterior informaci mostral (fent servir els
tres nivells de significaci ms habituals, del 10, el 5 i l1%)?
SOLUCI:
Especificaci de les hiptesis del contrast:
H 0 : X = Normal ( ; )
H 1 : X Normal ( ; )
13
Estadstica II
n'i = n P ( X 0 X X 1 )
Primer calculem les probabilitats que el model assigna a cada un dels 5 intervals, i que sn
necessries per obtenir les freqncies esperades. Per aix, necessitem disposar destimacions
dels dos parmetres que caracteritzen un model normal: la seva mitjana i la seva desviaci
estndard . Estimem aquests parmetres mitjanant la mitjana i la desviaci estndard mostrals,
respectivament.
X =
X i * ni
=
(500 * 5) + (1500 * 25) + (2500 * 75) + (3500 * 35) + (4500 *10)
= 2633,3
n 150
S=
( Xi X ) 2
* ni
=
(500 2633,3) 2 + ... + (4500 2633,3) 2
= 887,4
n 1 150 1
I, a partir de les anteriors probabilitats, les freqncies esperades de cada interval a la mostra de
150 observacions:
Estadstic de contrast:
14
Estadstica II
(ni n' i ) 2 (30 35,61) 2 (75 63,03) 2 (35 41,87) 2 (10 8,7) 2
n' i = 35,61 + 63,03 + 41,87 + 8,7 = 4,46
Nota: Les classes primera i segona shan hagut dagrupar ja que la freqncia esperada de la
primera (4,71) s inferior a 5.
Quin ser el resultat del contrast dindependncia que aquest investigador far servir per tal de
comprovar si existeix relaci ntre aquests 2 atributs (si fixa el nivell de significaci del test en un
1%)?
SOLUCI:
15
Estadstica II
Clcul de les freqncies esperades de les 4 (I*J=2*2) possibles combinacions dels dos atributs
(sexe i preferncies pictriques):
ni * n j
n'ij =
n
n *n 40 * 50 n1 * n2 40 * 50
n'11 = 1 1 = = 20 n'12 = = = 20
n 100 n 100
n 2 * n1 60 * 50 n 2 * n2 60 * 50
n' 21 = = = 30 n' 22 = = = 30
n 100 n 100
La taula segent mostra les freqncies observades Oij, les esperades Eij i les diferncies entre
les des (Oij Eij) per a cada combinaci de valors:
I J (nij n'ij ) 2 (10 20) 2 (30 20) 2 (40 30) 2 (20 30) 2
i =1 j =1 n'ij
=
20
+
20
+
30
+
30
= 16,67
Busquem el valor crtic a les taules de la txi-quadrat amb (I-1)(J-1)=(2-1)(2-1)=1 graus de llibertat i
amb una significaci de l1%. Trobem VC=6,635.
LEC=16,67 s superior al VC=6,635, per tant la conclusi ser que la informaci mostral no fa
creble la hiptesi dindependncia dels atributs sexe i preferncies artstiques.
I J (nij n' ij ) 2
i =1 j =1 n' ij
= 16,67 > 6,635 = (22 1)( 2 1) =1;0,01 RHo : A i B independents
16
Estadstica II
Aix, les diferncies entre les freqncies observades i les esperades sn el suficientment grans
com per rebutjar la independncia.
Proporcions-filera:
Preferncies (B) Pintura Pintura A
Sexe (A) Abstracta (B1) Realista (B2)
Home (A1) 10/40=0,25 (25%) 30/40=0,75 (75%) 40/40=1,00 (100%)
Dona (A2) 40/60=0,67 (67%) 20/60=0,33 (33%) 60/60=1,00 (100%)
B 50/100=0,50 (50%) 50/100=0,50 (50%) 100/100=1,00 (100%)
Proporcions-columna:
Preferncies (B) Pintura Pintura A
Sexe (A) Abstracta (B1) Realista (B2)
Home (A1) 10/50=0,20 (20%) 30/50=0,60 (60%) 40/100=0,40 (40%)
Dona (A2) 40/50=0,80 (80%) 20/50=0,40 (40%) 60/100=0,60 (60%)
B 50/50=1,00 (100%) 50/50=0,50 (100%) 100/100=1,00 (100%)
Les taules anteriors diuen, per exemple, que noms un 25% dels homes prefereixen la pintura
abstracta mentre que aquest percentatge s molt ms elevat, dun 67%, entre les dones. Si mirem
el conjunt de la mostra la proporci s del 50%. Des dun altre punt de vista, daquells que a la
mostra manifesten les seves preferncies per la pintura realista, un 60% sn homes i un 40% sn
dones mentre que en el grup dels que prefereixen labstracci noms un 20% sn homes sent el
restant 80% dones. Aix doncs, les taules no fan ms que corroborar la dependncia entre els
atributs que ha suggerit el resultat del contrast.
A un nivell de significaci =0,05 (5%), quin ser el resultat del test dindependncia implementat
per resoldre el dubte plantejat?
SOLUCI:
17
Estadstica II
n2 * n1 80 *156 n2 * n2 80 * 44
n' 21 = = = 62,4 n' 22 = = = 17,6
n 200 n 200
Donat que lEC=0,5 < 3,841=VC, arribem a la conclusi que la informaci mostral no s contrria a
la hiptesi dindependncia de lescola de procedncia (pblica o privada) i qualificaci a lexamen
de selectivitat. Per tant, la nota de la selectivitat no depn de lescola de procedncia.
I J (nij n'ij ) 2
i =1 j =1 n' ij
= 0,5 < 3,841 = (221)( 21) =1;0, 05 NoRHo : A i B independents
Si calculem, per exemple, la taula de proporcions-filera observem que un 80% dels alumnes
procedents descoles pbliques aproven, sent aquest percentatge del 75% per als que han estudiat
en centres privats. Per al global de la mostra trobem que aproven el 78%. Aquests percentatges
sn el suficientment semblants com per no rebutjar la hiptesi dindependncia.
Proporcions-filera:
Qualificaci (B) Aprovat (B1) Suspens (B2) A
Procedncia (A)
Pblica (A1) 96/120=0,80 (80%) 24/120=0,20 (20%) 120/120=1,00 (100%)
Privada (A2) 60/80=0,75 (75%) 20/80=0,25 (25%) 60/60=1,00 (100%)
B 156/200=0,78(78%) 44/200=0,22 (22%) 200/200=1,00(100%)
18
Estadstica II
2 2 2 2 1 1 2 2 1 1 1 2 2 2 1 2 2 1 1 1 2 2 2 1 1
Quina conclusi es derivar daplicar el contrast de les ratxes sobre aquestes dades?
SOLUCI:
R (2 * n1 ) + 1 = (2 * 11) + 1 = 23
Per tant,
2 R 23
Mirant les taules a un 5% de significaci, tenim que els punts crtics sn el valor 8 (lmit inferior) i el
valor 19 (lmit superior). La interpretaci s que la probabilitat dobtenir un nombre de ratxes menor
o igual a 8 (2,3,...,8) i superior o igual a 19 (19,20,...,23) en 25 observacions independents, 11 dun
tipus i 14 dun altre, s dun 5% , per tant molt petita. Aix s que si obtenim un nombre de ratxes
en aquesta regi crtica [2,8]U[19,23] haurem de rebutjar la hiptesi dindependncia, tenint present
que hi ha una probabilitat de 0,05 de cometre error tipus-I (rebutjar la independncia quan les
observacions siguin realment independents).
Lestadstic de contrast R per a la mostra en qesti pren el valor 10 (R*=10) i es troba dins la regi
dacceptaci (8,19)=[9,18] per tant no podem rebutjar la hiptesi dindependncia. Estem sostenint,
doncs, que un nombre de ratxes igual a 10 no s ni massa petit ni massa gran com per rebutjar la
independncia de les 25 observacions.
La corba normal que ms saproximar al comportament dR ser aquella amb els segents
parmetres3:
3
Aquesta aproximaci al comportament probabilstic dR mitjanant el model normal tamb s aplicable en
el marc de la prova de les ratxes unilateral (segent exemple).
19
Estadstica II
2n1 n2 2 * 11 * 14
= +1 = + 1 = 13,32
n 25
A continuaci es tracta de veure si el valor R*=10 s un valor probable o un valor extrem per a una
normal dels parmetres anteriors. Per saber-ho, tipifiquem aquest valor 10 (restant la mitjana i
dividint per la desviaci estndard):
R * 10 13,32
Z* = = = 1,38
2,4106
Tot seguit mirem les taules de la Z (normal tipificada) i considerem com a valors probables aquells
en el rang (-1,96;1,96) ja que el contrast s bilateral al 5% de significaci. Per tant, podem
concloure que el valor 1,38 s un valor probable (no extrem) per a una distribuci Z i, en
conseqncia, el valor 10 s tamb un valor probable per a una normal (13,32;2,4106). Aix R ha
pres un valor (el 10) dacord amb el que seria el seu comportament sota la hiptesi
dindependncia. Aix, no hi ha motiu per rebutjar aquesta Ho.
J A A A A A A A A A J J A A A A A A J J J J A A A J J J J J
Qu podem dir a partir de la prova de les ratxes?
SOLUCI:
R (2 * n1 ) + 1 = (2 * 12) + 1 = 25
20
Estadstica II
Per tant,
2 R 25
Buscant a les taules a un 2,5% de significaci, trobem el valor crtic igual a 9. La interpretaci s
que la probabilitat dobtenir un nombre de ratxes menor o igual a 9 (2,3,...,9) en una mostra de 30
observacions (12 dun tipus i 18 dun altre) s dun 2,5%, per tant, molt petita. Aix s que si
obtenim un nombre de ratxes en aquesta regi crtica [2,9] haurem de rebutjar la hiptesi digualtat,
tenint present que tenim una probabilitat de 0,025 de cometre error tipus-I (rebutjar la igualtat quan
les poblacions siguin realment iguals). La regi dacceptaci dH0 (igualtat) ser doncs [10,25].
Lestadstic de Donat que lestadstic R per a la mostra en qesti pren el valor 7 (R*=7) dintre de
la regi crtica [2,9] hem de rebutjar la hiptesi digualtat. Sostenint, doncs, que un nombre de
ratxes igual a 7 s massa petit com per acceptar la igualtat (de la despesa en espectacles de joves
i adults).
2n1 n 2 2 * 12 * 18
= +1 = + 1 = 15,4
n 30
A continuaci s tracta de veure si R*=7 s un valor probable per aquesta normal o no, s a dir, si
es troba o no a la cua inferior que s la regi crtica. Per saber-ho tipifiquem el punt 7, obtenint el
punt Z*=3,25 que, observem, es localitza massa a lextrem inferior de la distribuci Z,
concretament per sota del punt crtic 1,96 (valor crtic del contrast a una cua inferior al 2,5%).
SOLUCI:
A partir de la informaci disponible constituda pels preus dels diferents productes de la mostra en
pessetes i euros (preus que shaurien dexpressar en la mateixa unitat monetria, b en pessetes,
21
Estadstica II
b en euros, per poder fer una correcta comparaci) es podria realitzar el contrast dels signes o
b el de Wilcoxon que s ms potent.
Informaci mostral:
Hem de calcular les diferncies de preus per a cada article a la mostra. Una diferncia positiva
Xi>Yi implicaria un descens en el preu amb el canvi de moneda, mentre que una diferncia
negativa : Xi < Yi indicaria un augment. El contrast dels signes demana el recompte del nombre de
diferncies de cada signe (descartant aquelles diferncies nulles = articles per als quals els preus
abans i desprs sn coincidents). El nombre de diferncies positius i el nombre de diferncies
negatives sn els estadstics de la prova.
Sota la hiptesi nulla (H0: els preus NO shan modificat), aquests estadstics de prova presentarien
una distribuci mostral binomial (n; =0,5) i, per tant, seria desperar un nombre de diferncies
positives similar al de negatives. En aquest cas es podria plantejar un contrast unilateral donat que
s raonable pensar que si els preus han canviat en tot cas hauran pujat i no baixat. Per tan, un
nombre relativament alt de signes negatius (s a dir, un nombre relativament baix de signes
positius) ens far sospitar i rebutjar H0 (manteniment dels preus) i acceptar H1 (augment de preus).
Per aplicar el contrast de Wilcoxon haurem dassignar rangs a les diferncies fixant-nos en llur
magnituds i no en els signes. Desprs sumem els rangs corresponents a les diferncies positives i
els corresponents a les diferncies negatives. En aquest cas un valor elevat daquest darrer
estadstic (suma rangs diferncies negatives) en relaci al valor del primer (suma rangs diferncies
positives) ens far sospitar de la veracitat dH0.
Un darrer comentari sobre el cas: Lelecci duna mostra de productes dhigiene personal per
realitzar lestudi es pot justificar en qu la demanda daquest tipus de bns de consum es pot
suposar relativament estable a diferncia de, per exemple, la de productes alimentaris que
augmenta considerablement en lpoca de Nadal incrementant-se en conseqncia els preus i
distorsionant aix lanlisi. Per un altre costat s un tipus de producte que acostuma a quedar al
marge de les rebaixes.
22
Estadstica II
Activitat 3.1.
Si desprs dobservar 120 clients duns grans magatzems veiem que 26 han pagat a la caixa 1, 17
a la caixa 2, 18 a la 3, 19 a la 4, 25 a la 5 i 15 a la 6, estem en condicions dafirmar que les sis
caixes que hi ha per a anar a pagar operen a un mateix ritme de treball?
Sentn que la mostra ha estat escollida a latzar i que s representativa del moviment que hi ha en
els grans magatzems.
Comproveu si lequiprobabilitat (1/6) s admissible, amb un 5% de significaci, per a totes les
caixes.
1 26 120*1/6=20
2 17 120*1/6=20
3 18 120*1/6=20
4 19 120*1/6=20
5 25 120*1/6=20
6 15 120*1/6=20
Total 120 120
Si les caixes operessin al mateix ritme i pogussim treballar no amb 120 clients (la mostra), sin
amb tots els possibles clients (la poblaci), observarem que les freqncies relatives, que
esdevindrien aleshores probabilitats (la probabilitat es defineix com el lmit de la freqncia
relativa) serien 1/6 per a cada caixa. Aix, ara es tracta de saber (contrastar) si les dades sajusten
al segent model discret de distribuci de probabilitat:
X P(X)
1 1/6
2 1/6
3 1/6
4 1/6
5 1/6
6 1/6
TOTAL 1
Aquestes probabilitats ens han servit per calcular les freqncies esperades de cada valor (caixa)
a la mostra, multiplicant-les per la mida de la mostra.
23
Estadstica II
36 + 9 + 4 + 1 + 25 + 25 100
= = =5
20 20
I donat que s menor que el punt crtic 11.070, direm que a partir de la informaci mostral que
disposem no podem rebutjar la hiptesi (nulla) que sost que les 6 caixes funcionen al mateix
ritme.
Nota: Per trobar el punt crtic hem de mirar les taules de la Txi-quadrat dm-1=6-1=5 graus de
llibertat. Concretament ens interessa aquell punt que deixa a la seva dreta un 5% de la probabilitat
(0,05 en tant per 1) perqu sens demana que fem el contrast amb un nivell de significaci (alfa) del
5%.
Activitat 3.2.
Duna mostra de 150 mestresses de casa, es va comprovar quin era el nombre de paquets de
detergent de mida estndard que havien utilitzat durant lltim mes. Les dades que es van obtenir
sn les segents:
Nombre de
Nombre de mestresses
paquets observat
0 14
1 38
2 40
3 52
Ms de 3 (4,5 i 6
ms de 5)
TOTAL 150
Es pot afirmar que, amb una significaci del 10%, la mostra procedeix duna llei de Poisson de
parmetre l = 2?
En aquest cas la hiptesi nulla proposa que la poblaci (X = Nombre de paquets comprats per
mestressa) segueix una distribuci de Poisson de mitjana, es dir, de parmetre igual a 2. Per
tant que:
e x e 2 * 2 x
P ( X = x) = =
x! x!
24
Estadstica II
A partir daquesta funci matemtica podem calcular les probabilitats dels diferents valors (x) duna
Poisson de igual a 2. No obstant, anirem ms rpid fent servir les taules disponibles daquesta
distribuci. Trobarem que:
P(X=0)=0.1353
P(X=1)=0.2707
P(X=2)=0.2707
P(X=3)=0.1804
P(X>3)=1-P(X3)=1-0.8571=0.1429
Nota: P(X3)=P(X=0)+P(X=1)+P(X=2)+P(X=3)=0.1353+0.2707+0.2707+0.1804=0.8571
Aquestes probabilitats ens han servit per calcular les freqncies esperades multiplicant per la
mida de la mostra.
Donat que el valor de lestadstic supera el punt crtic en taules (7.779) hem de rebutjar la hiptesi
nulla. s a dir, les diferncies observades entre freqncies mostrals i esperades sn massa
grans com per validar la hiptesi nulla que diu que X = Poisson(=2).
Per trobar el punt crtic 7.779 hem de mirar les taules de la Txi-quadrat dm-1=5-1=4 graus de
llibertat. Concretament el punt que deixa a la dreta (per sobre dell) un 10% de la probabilitat, donat
que el contrast lhem de fer al 10% de significaci.
Activitat 3.3.
A la taula ja apareixen les freqncies esperades de cada combinaci de categories dels dos
atributs : tipus de defecte i torn de treball. s la dada de sota (a cada cella). La de dalt s la
freqncia observada a la mostra que t un total de 1525 observacions (cotxes).
Sha de recordar que per calcular les freqncies observades shan de multiplicar les marginals i
dividir pel total dobservacions. Aix, per exemple, per trobar la freqncia que seria desperar a la
mostra si els atributs fossin independents de la combinaci defecte 1 i torn de mat, s a dir el
valor 227,62, hem de multiplicar 394 per 881 i dividir per 1525.
Activitat 3.4.
25
Estadstica II
A partir duna mostra de 400 obrers no qualificats del sector del metall, construm la taula de
freqncies conjuntes dantiguitat i de salaris segent:
Discutiu a l1% de significaci la possible independncia entre ambdues caracterstiques. Veureu
que no s possible acceptar que antiguitat i salaris siguin conceptes independents.
En aquest exercici la taula no incorpora les freqncies esperades sin noms les observades a la
mostra que t 400 observacions (obrers). Per tant, hem de calcular les freqncies esperades de
cada combinaci (en negreta a cada cella) multiplicant les marginals i dividint pel total (400).
Activitat 3.5
Suposem que un auditor ha pres una mostra de setze crrecs del compte de despeses generals i
que els imports que ha obtingut, de manera successiva, sn els segents:
87.215, 76.050, 41.119, 11.236, 45.778, 67.108, 32.511, 24.216, 8.000, 88.214, 12.300,
53.721, 44.520, 14.323, 29.680, 38.423.
Volem discutir, amb un 5% de significaci, el carcter aleatori de la mostra utilitzant la prova de les
ratxes i el criteri que discrimina els grups segons que es tracti danotacions de ms o de menys de
50.000 u.m.
26
Estadstica II
SS/III/S/III/S/I/S/IIII
El nombre de ratxes que tenim R* s 8.
Els valors crtics els hem dobtenir de les taules estadstiques.
n1: observacions marcades amb S = 5
n2: observacions marcades amb I = 11
Les taules dels valors crtics de la prova R de ratxes consideren un 5% de significaci a dues cues.
s a dir, a la primera taula, que dna el valor crtic de la cua inferior, tindrem a lesquerra del valor
trobat una probabilitat de 0,025. De la mateixa manera que per sobre el valor crtic superior tenim
tamb una probabilitat de 0,025.
Els lmits de la regi dacceptaci sn 4 i 11.
Com R*(=8) [4;11], concloem que no podem refusar la hiptesi que la mostra obtinguda s
aleatria.
Activitat 3.6
Resoleu aquest mateix problema aplicant la prova dels signes i comproveu que el resultat s
contrari a aquell obtingut aplicant la prova de Wilcoxon.
X P(X=x) P(X x)
0 0,0020 0,0020
1 0,0176 0,0195
2 0,0703 0,0898
27
Estadstica II
3 0,1641 0,2539
4 0,2461 0,5000
5 0,2461 0,7461
6 0,1641 0,9102
7 0,0703 0,9805
8 0,0176 0,9980
9 0,0020 1,0000
Com la distribuci binomial s discreta, no podem trobar el valor crtic que exactament deixa a la
seva dreta o esquerra un nivell de significaci exacte. Per aix treballem de manera aproximada.
A la segona columna de la taula tenim la probabilitat que la variable prengui els diferents valors
possibles. Observem que la distribuci s simtrica. Qu vol dir? P(X=0)=P(X=9), P(X=1) =
P(X=8),...A la tercera columna tenim les probabilitats acumulades fins el valor considerat.
Com treballem a 2 cues i a un nivell de significaci del 10% hem de buscar el valor que acumula
aproximadament 5%.
Tenim que el valor 2 acumula una probabilitat de 0,0898. Com la distribuci s simtrica, la
probabilitat que la variable prengui un valor superior a 7 tamb ser 0,0898. Aix, els valors 2 i 7
sn els valors que delimiten la zona de rebuig de la de no-rebuig a un nivell de significaci del
17,96% (=20,0898).
Conclusi: Com tan rm (=3) com rM (=6) estan inclosos en linterval que limiten 2 i 7, s a dir, es
troben dins la zona de no-rebuig, no podem rebutjar, donades les dades disponibles, que la
productivitat de dilluns i divendres siguin la mateixa. Comproveu com s diferent a la conclusi de
la pgina 51.
Activitat 3.8
Lanlisi financera de balanos utilitza molt sovint com a mesura de lautofinanament empresarial
la relaci:
Autofinanament / total actiu net
Per a comprovar si hi ha diferncies significatives entre les ratios que presenten les indstries
alimentries i les de productes qumics, shan seleccionat dues mostres representatives daquestes
dues activitats. Els resultats que shan obtingut sn els segents:
Sector alimentari: 12,20; 15,14; 13,17; 11,94; 14,61 i 12,27.
Sector qumic: 13,19; 12,29; 14,11 i 14,85.
Volem esbrinar si lestructura dautofinanament de les empreses dambds sectors s similar
atenent la ratio i aplicant el test U.
Rangs Ordenaci
1 11,94 A
2 12,20 A
3 12,27 A
4 12,29 Q
5 13,17 A
6 13,19 Q
28
Estadstica II
7 14,11 Q
8 14,61 A
9 14,85 Q
10 15,14 A
Estadstics de contrast:
n1 (n1 + 1)
U 1 = n1 n 2 + rangs A
2
n (n + 1)
U 2 = n1 n 2 + 2 2 rangs Q
2
n=10 ; n1= 6 (alim.) ; n2 = 4 (quim.)
6 (6 + 1) 4(4 + 1)
U 1 = (6 4) + 29 U 2 = (6 4) + 26
2 = 16 2 =8
Podem comprovar com U1 + U2 = n1n2 = 24
El segent pas es comparar aquests valors amb els valors crtics corresponents al test de Mann-
Whitney. Seguim la resoluci de la pgina 55. Observem la taula corresponent a n2=6 i n1=4 (fixeu-
vos que ens diu que s igual que n2=4 i n1=6).
Per trobar els valors de U/2 lnic que hem de fer s 24-U1-/2.
Activitat 3.9
Un taller de fusta treballa amb una determinada marca de cola dimpacte i ha rebut loferta duna
nova marca, fet pel qual es planteja la possibilitat dutilitzar-la. Ats que les caracterstiques de
preu, color i de conservaci sn semblants, lnic criteri decisor ha de ser el temps necessari per a
aconseguir un adheriment complet.
Una primera prova amb la marca vella, amb diferents tipus de fusta (set observacions) proporciona
la seqncia de temps: 43 39 45 62 29 46 71.
Una altra prova amb la marca nova proporciona, desprs de sis observacions, els resultats: 38 51
54 48 68 37.
Apliqueu la prova U de Mann-Whitney per a determinar si els temps despera dassecat de la cola
sn semblants.
29
Estadstica II
Estadstics de contrast:
n1 (n1 + 1)
U 1 = n1 n 2 + rangs V
2 suma rangs V = 1+4+5+6+7+11+13 =47
7(7 + 1)
U 1 = (76 ) + 47
2 = 23
n 2 (n 2 + 1)
U 2 = n1 n 2 + rangs N
2 suma rangs N = 2+3+8+9+10+12 = 44
6 (6 + 1)
U 2 = (7 6 ) + 44
2 = 19 Podem comprovar com U1 + U2 = n1n2 = 42
/2 U1-/2 U/2 Recordem que U1=23 i U2 = 19.
0,001 0,02 0 42 Per qualsevol dels nivells de significaci que podem
0,001 0,02 1 41 considerar dels inclosos en aquesta taula, no podrem
0,002 0,04 2 40 refusar la hiptesi nulla.
0,004 0,08 3 39 Aix, per un nivell del 5,2%, els lmits de la zona
0,007 0,014 4 38 dacceptaci els configuren 7 i 35 (tingueu en compte que
0,011 0,022 5 37 si el valors de U1 i U2 fossin exactament 7 i 35 refusarem
la Ho, s a dir, els valors crtics pertanyen a la zona de
0,017 0,034 6 36
rebuig).
0,026 0,052 7 35
Per aquest motiu concloem que, donada la informaci que
0,037 0,074 8 34 disposem, el temps despera dassecat sn semblants en
0,051 0,102 9 33 les dues marques
0,069 0,138 10 32
.
30
Estadstica II
Exercici 10:
Desprs defectuar, en diferents moments del dia, controls de pas en dotze punts de lautopista,
entre lHospitalet de lInfant i lAmetlla de Mar, hem anotat la mitjana de cotxes que
passaven per minut en ambdues direccions:
Apliqueu el test dels signes i el de Wilcoxon per a determinar si hi ha o no una diferncia
significativa entre el trnsit de cotxes en direcci nord i en direcci sud. Opereu, en ambdues
proves, al 10% de significaci.
Laplicaci de la prova del signes i, desprs, de la de Wilcoxon demana el clcul de les diferncies
existents entre cada parella de dades, lobservaci del signe daquestes diferncies i lassignaci
dun rang (prova de Wilcoxon). La taula segent recull aquests clculs necessaris:
31
Estadstica II
P(X=0)+P(X=1)+P(X=2)+P(X=9)+P(X=10)+P(X=11)=0.0654(=2*0.0327)
En aquest cas no podrem rebutjar la hiptesi digualtat doncs ambds estadstics (rm i rM) prenen
un valor (4 i 7) dintre de la regi dacceptaci.
Si redum la regi dacceptaci a [4;7] (o el que s el mateix, augmentem la regi crtica a [0,1,2,3]
U [8,9,10,11]) el nivell de significaci augmenta fins a un 22,5% aproximadament. Efectivament:
P(X=0)+P(X=1)+P(X=2)+P(X=3)+P(X=8)+P(X=9)+P(X=10)+P(X=11)=0.2266(=2*0.1133)
De qualsevol forma, tot i treballant amb aquest nivell de significaci considerablement ms gran, el
resultat del contrast no canvia: seguim sense poder rebutjar la hiptesi digualtat (els valors 4 i 7
segueixen dins la regi dacceptaci).
Prova de Wilcoxon
n(n + 1) 11(11 + 1)
T ( + ) + T ( ) = 11 + 55 = = 66
2 2
Aquest s el valor mxim que pot prendre qualsevol dels dos estadstics, T(+) i T(-). El valor mnim
s el zero (totes les diferncies positives o negatives).
0 T () 66
32
Estadstica II
0 T (+) 66
A continuaci no hi ha ms que mirar les taules per establir els punts crtics o, dit duna altra forma,
les regions dacceptaci i rebuig de la hiptesi digualtat.
Trobem que el punt crtic inferior corresponent a n=11 i un 10% de significaci s el 14. En
conseqncia el punt crtic superior ser el 52 (66-14). Aix implica la segent definici de les
regions crtica i dacceptaci:
Regi crtica: [0;14] U [52;66]
Regi dacceptaci (14;52)
Donat que els estadstics T(+) i T(-) prenen valors (11 i 55) fora de la regi dacceptaci (dintre de
la regi crtica) el resultat del contrast s el rebuig de la hiptesi digualtat.
Donat que el contrast de Wilcoxon s ms potent que la prova dels signes, optarem per aquesta
darrera conclusi. Wilcoxon s ms potent perqu a ms a ms del signe de les diferncies t en
compte tamb la seva magnitud, la qual cosa no fa el primer del contrastos (el dels signes).
33
Estadstica II
Prctiques dExcel/Minitab
Els apartats objecte destudi daquest GES no incorporen prctiques dExcel/Minitab.
Errades detectades
Pgina 37: A la segona taula diu ni = nP(Xi)360 . La frmula correcta s ni = 360P(Xi)
34