You are on page 1of 34

Estadstica II

GES5: Contrastaci no paramtrica

GUIA DESTUDI 5

Mdul 2. Contrastaci no paramtrica

3.1. Introducci
3.2. Prova 2 dajust duna distribuci terica
3.3. Prova 2 dindependncia
3.4. Prova de les ratxes
3.5. Prova dels signes
3.6. Prova de Wilcoxon
3.7. Prova U de Mann-Whitney

Comentari general dels continguts


Introducci
Introduirem nous mtodes dinferncia estadstica que utilitzarem quan les poblacions no
sn normals, tenim mostres petites o b no es compleix alguna de les condicions
necessries per poder aplicar els contrastos estudiats en el tema anterior.

Prova dajust duna distribuci terica


2

Utilitzarem aquesta prova no paramtrica per contrastar si les dades obtingudes amb una
mostra sadhereixen a un model teric donat.

Prova 2 dindependncia
Utilitzarem aquest test per contrastar la independncia entre 2 atributs o b per detectar
lhomogenetat duna poblaci que ha estat estratificada.

Prova de les ratxes


Prova U de Mann-Whitney
Amb aquestes proves contrastarem laleatorietat dunes dades (prova bilateral) o si
existeixen diferncies entre 2 grups (prova unilateral)

Prova dels signes


Prova de Wilcoxon
Aquestes proves ens serviran per contrastar si hi ha diferncies entre els resultats de 2
experiments fets sobre una mateixa mostra, s a dir, per comparar mostres aparellades.

1
Estadstica II

GES5: Contrastaci no paramtrica

Ritme destudi
Per comenar us suggerim que realitzeu una primera lectura del tema sencer posant especial
mfasi en els punts essencials descrits a continuaci.

Us proposem el segent pla destudi:

Apartat Punts essencials1 Temps2

3.1 Introducci Aplicaci contrastos no paramtrics.


Distribuci txi-quadrat.
3.2 Prova dajust duna distribuci
2
Prova dadherncia.
terica 1 hora i
Prova dindependncia.
3.3 Prova dindependncia
2

Aplicaci prova de ratxes i prova U de Mann-


Whitney
3.4 Prova de les ratxes
3.7 Prova U de Mann-Whitney Clculs dels estadstics de contrast per a 2 hores
cada prova

Aplicaci prova dels signes i prova de


Wilcoxon
3.5 Prova dels signes
2 hores
3.6 Prova de Wilcoxon Clculs dels estadstics de contrast per a
cada prova

1
La columna Punts essencials es refereix a aquells conceptes que haureu de conixer
2
La columna Temps fa referncia al temps aproximat que haureu de necessitar per assimilar els conceptes
inclosos en els apartats, sense incloure la realitzaci de les activitats

2
Estadstica II

GES5: Contrastaci no paramtrica

Explicacions complementries
A continuaci trobareu explicacions complementries dalguns dels apartats del material, aquestes
explicacions no substitueixen el material imprs. El fet que no hi hagi explicacions
complementries dalguns apartats no implica que no siguin objecte destudi. Abans de llegir les
explicacions complementries s recomanable fer una lectura del material imprs.

CONTRAST TXI-QUADRAT DADHERNCIA


Amb el contrast de la bondat de lajust, tamb anomenat contrast dadherncia, es verifica si la
mostra sajusta a una determinada poblaci, es dir, a un determinat model de distribuci de
probabilitat que pot ser de tipus discret o de tipus continu:
Les hiptesis que shan de plantejar sn:

H 0 : F ( X ) = F0 ( X )
H 1 : F ( X ) F0 ( X )

Per una altra banda, els parmetres que caracteritzen el model en qesti poden ser especificats o
no. s a dir, que la hiptesi nulla del contrast pot tenir les dues versions segents:

F0 ( X ; especificat ) o, alternativament, F0 ( X ; = ?)

Nota: F(X) indica la funci de distribuci de la poblaci i F0(X) una distribuci en concret. La lletra
grega serveix per notar de forma genrica qualsevol parmetre (valor) incorporat en aquesta
funci matemtica F(X). Aquest valor s que determina F(X), s a dir, la diferencia daquelles altres
variables que pertanyen a la mateixa famlia.

Exemple: la hiptesi nulla daquest contrast dadherncia podria dir que les dades de la mostra
provenen duna distribuci normal sense especificar els seus parmetres (mitjana i desviaci
estndard):
H 0 : X = Normal ( ; )
H 1 : X Normal ( ; )
( parmetres in det er min ats )

o, alternativament, la H0 podria dir que les dades segueixen una distribuci normal de mitjana ()
100 i desviaci estndard = 5:

H 0 : X = Normal ( = 100; = 5)
H 1 : X Normal ( = 100; = 5)
( parmetres fixats )

La manca de lespecificaci dels parmetres afectar als graus de llibertat de la txi-quadrat que ens
servir per resoldre el contrast. Daquesta forma si la poblaci est totalment caracteritzada
(parmetres poblacionals coneguts) els graus de llibertat de la txi sn m-1 (m = nombre de
valors/categories de la variable) mentre que si els parmetres resten indeterminats (i, en

3
Estadstica II

GES5: Contrastaci no paramtrica

conseqncia, shan destimar a partir de la informaci mostral) els graus de llibertat de la txi seran
m-1-k sent k el nombre de parmetres a estimar.
Nota: En els apunts se suposa que la poblaci especificada a H0 est totalment determinada; es
coneixen tots els seus parmetres. Per tant la txi a utilitzar tindr sempre m-1 graus de llibertat.

El passos per dur a terme un contrast sn els segents:


1. Observar a la mostra les freqncies dels diferents valors o categories de la variable (ni). Si
la variable s continua s necessari categoritzar-la.
Nota: En determinats casos shan dagrupar valors/intervals contigus ja que la correcta
aplicaci del contrast exigeix que totes les freqncies esperades siguin com a mnim iguals a
5. Important: aquestes freqncies observades a la mostra han de ser freqncies absolutes i
no relatives.
2. Calcular les freqncies esperades de cada valor o categoria (ni). Aquestes freqncies
esperades es calculen multiplicant la mida de la mostra per la probabilitat que el model
especificat a la H0 del contrast assigna a cada un dels valors o a cadascuna de les categories.
3. Construcci de lestadstic de contrast (EC) : Per a cada categoria, es comparen les
freqncies observades i les esperades calculant la diferncia entre aquestes i elevant-les al
quadrat ja que limportant s la magnitud de la diferncia i no el signe. Finalment es divideix
aquesta diferncia per les freqncies esperades com es mostra a continuaci:

(ni ni' ) 2
EC =
ni'

4. Resoldre el contrast en funci de la magnitud de les diferncies entre freqncies


observades i esperades. Si aquestes sn massa grans es rebutja la H0.

En concret, es pot demostrar que si H0 s certa, lanterior estadstic presenta una distribuci en el
mostratge de txi-quadrat amb m-1 graus de llibertat (m-1-k si la poblaci no est especificada
perqu manca algun (k) parmetres).

(ni ni' ) 2
H 0 : F ( X ) = F0 ( X ) _ certa '
= m2 1( k )
ni

Per tant, si el valor de lanterior estadstic supera un determinat punt crtic (valor crtic determinat
pel nivell de significaci fixat per al contrast) es rebutja H0.

(ni ni' ) 2
n ' > m2 1( k ); RHo : F ( X ) = F0 ( X )
i

Nota: El contrast dadherncia de la txi-quadrat (com el dindependncia que es veur a


continuaci) s a una cua superior, s a dir, la regi crtica (o de rebuig dH0) es concentra a la cua
superior de la distribuci de lestadstic sota H0.

4
Estadstica II

GES5: Contrastaci no paramtrica

CONTRAST TXI-QUADRAT DINDEPENDNCIA


La finalitat daquest test de la txi-quadrat s contrastar si dos atributs sn o no independents. Un
atribut s una variable categrica o qualitativa, s a dir, una variable els valors de la qual no sn
numrics sin categrics.
Exemples de variables qualitatives serien:
El sexe que pot prendre els 2 valors home i dona.
Ledat de les persones, que podria ser jove, adult, gran.
El nivell destudis que, per exemple, pot prendre els valors sense estudis, primaris,
secundaris i superiors.
La situaci laboral, que pot ser daturat, ocupat i jubilat.
El mitj de transport habitualment utilitzat per anar a la feina: bus, metro i/o tren,
vehicle particular i/o taxi, bicicleta i/o caminant, o una classificaci ms simple com
transport pblic o transport privat.

Per ltim, moltes variables qualitatives sn el resultat de categoritzar una variable originalment
numrica. Un exemple tpic seria el de la renda de les famlies. A partir de les dades numriques
(en euros) dels ingressos familiars podem fer, per exemple, tres trams i classificar les llars en llars
amb ingressos baixos, mitjans o alts.

Objectiu:
Lobjectiu daquest contrast s conixer si dos atributs sn independents. Ens referirem a aquests
atributs (variables) amb les lletres A i B, seguint la notaci habitual. Per tant, les hiptesis de la
prova sn:

H 0 : A i B sn atributs independents
H1 : A i B NO sn independents

Aix, per exemple, ens interessar saber si el sou de les persones s o no independent del seu
sexe, o dels seus estudis; o si la despesa en activitats doci de les famlies s independent o no de
la situaci laboral dels perceptors dingressos. Amb aquest test volem verificar (o b desestimar)
teories daquest estil, que relacionen variables categriques o variables numriques
categoritzades.

Taula de contingncia:
Necessitem informaci mostral per dur a terme el test o contrast estadstic. En aquest cas se
selecciona una mostra aleatria dels elements poblacionals (individus, famlies, etc.) i sobserven
els valors que prenen els dos atributs en qesti, A i B, per a cada un dels elements mostrals.
A partir daquesta anlisi es pot construir una taula de doble entrada com la que es mostra a
continuaci. A linterior de cada cella recull la freqncia absoluta de les diferents possibles
combinacions de categories dels dos atributs. Aquesta taula rep el nom de taula de contingncia.
Nota: Amb el subndex i es nota un valor genric de latribut A i amb el subndex j un valor genric
de latribut B: i=1,2, ...., I i j=1,2, ..., J. I = Nombre de categories de la variable A i J= Nombre de
categories de la variable B.

5
Estadstica II

GES5: Contrastaci no paramtrica

Taula de contingncia

A B B1 B2 ...... Bj ...... Bj Ai
A1 n11 n12 ...... n1j ...... n1J n1
A2 n21 n22 ...... n2j ...... n2J n2
...... ...... ...... ...... ...... ...... ......
Ai ni1 ni2 ...... nij ...... niJ ni
...... ...... ...... ...... ...... ...... ......
AI nI1 nI2 ...... nIj ...... nIJ nI
Bj n1 n2 ...... nj ...... nJ n

Notaci:
nij = Freqncia absoluta dobservacions de la mostra que presenten la i-ssima categoria de
latribut A i la j-ssima de latribut B.
ni = Freqncia absoluta dobservacions de la mostra que presenten la i-ssima categoria de
latribut A (independentment de la categoria de latribut B):
J
ni = nij
j =1

nj = Freqncia absoluta dobservacions de la mostra que presenten la j-ssima categoria de


latribut B (independentment de la categoria de latribut A):
I
n j = nij
i =1

Per ltim, sha de complir el segent:


- la suma de totes les freqncies absolutes (a linterior de la taula) ha de coincidir amb la mida de
la mostra:
I J

n
i =1 j =1
ij =n

- la suma de les freqncies marginals dA i B (freqncies als marges de la taula) ha de ser igual
a la mida de la mostra:
I J

ni = n
i =1
n
j =1
j =n

Contrast dhiptesi
Partim de la informaci mostral ordenada en na taula de contingncia. Aquest contrast es basa en
la comparaci entre les freqncies absolutes observades a la mostra (recollides a la taula de
contingncia) nij i les freqncies que serien desperar si els atributs efectivament fossin

6
Estadstica II

GES5: Contrastaci no paramtrica

independents nij. Aquesta comparaci sha de fer per a cadascuna de les possibles (I*J)
combinacions dels valors dels atributs, s a dir, per a cadascuna de les celles de la taula.
La freqncia esperada duna determinada combinaci de categories dA i B ve donada pel
producte de la probabilitat de la combinaci en qesti per la mida de la mostra (n). s a dir:

n'ij = n * Pr ob( Ai , B j )

Aqu introdum el supsit dindependncia, ja que si dos esdeveniments sn independents la


probabilitat de qu es donin combinats s el producte de les probabilitats individuals:

Pr ob( A, B) = P( A) * P( B) si A i B sn esdeveniments independents

Aplicant aquest resultat obtenim la segent frmula per calcular la freqncia esperada duna
determinada combinaci de valors dA i B suposant que els atributs sn independents:

n'ij = n * Pr ob( A1 , B j ) = n * Pr ob( Ai ) * Pr ob( B j )

A continuaci es planteja el problema del desconeixement de les probabilitats associades a les


diferents categories dels atributs A i B. Per estimar aquestes I+J probabilitats, saprofita la
informaci mostral de la taula de contingncia,. Efectivament, les freqncies marginals (als
marges de la taula de contingncia) dividides per la mida de la mostra sn els estimadors
daquestes probabilitats que necessitem:

ni n: j
Pr ob( Ai ) = Pr ob( B j ) =
n n
Aleshores, substituint a lexpressi utilitzada pel clcul de les freqncies esperades:

n i n j n i * n j
n'ij = n * Pr ob( Ai ) * Pr ob( B j ) = n =
n n n

i aquesta s, finalment, la frmula operativa per al clcul de les freqncies esperades de les
diferents combinacions dels dos atributs:
ni * n j
n'ij =
n

Per ltim, comparem les freqncies observades i les esperades mitjanant el segent estadstic
de prova. Si H0 s certa, s a dir, els atributs sn independents, es pot demostrar que aquest
estadstic s comporta en el mostratge de txi-quadrat amb (I-1)(J-1) graus de llibertat:

I J (nij n' ij ) 2

i =1 j =1 n'ij
(2I 1)( J 1)

Nota: Les diferncies entre freqncies observades i esperades seleven al quadrat ja que no
interessa el signe sin la magnitud.

7
Estadstica II

GES5: Contrastaci no paramtrica

Si lestadstic calculat amb la mostra disponible pren un valor massa gran, s a dir, supera un
determinat punt crtic, haurem de rebutjar H0. Les diferncies entre les freqncies observades (nij)
i les esperades (nij) seran massa grans com per donar credibilitat a la independncia. El punt crtic
sobt amb les taules de la txi-quadrat de (I-1)(J-1) graus de llibertat i dependr del nivell de
significaci al qual realitzem el test. haurem de rebutjar Ho:
I J (nij n' ij ) 2

i =1 j =1 n'ij
> (2I 1)( J 1); RHo : A _ i _ B _ independents

Nota: Aquest contrast s doncs un contrast unilateral a una cua superior, s a dir, la regi crtica
o de rebuig dH0 se situa a la cua superior de la distribuci de lestadstic de prova.

PROVA DE LES RATXES

Contrast bilateral:
Aquesta prova o contrast permet saber si una srie dobservacions es poden considerar aleatries,
es dir, independents. La idea que hi ha al darrera s que si el nombre de ratxes observat (R*) s
massa petit o massa gran rebutjarem la hiptesi dindependncia de les observacions.
El valor mnim de lestadstic R (nombre de ratxes) s 2. El valor mxim depn de la mida de les
submostres: n1 i n2 (n1+n2=n) . Si les submostres tenen la mateixa mida, el valor mxim de ratxes
R s 2*n1=2*n2. Si una submostra s menor que laltra (n1<n2) el nmero mxim de ratxes s
(2*n1)+1.
Nota: Aix tamb s vlid en el marc del contrast unilateral (a una cua inferior) de les ratxes.

Contrast unilateral:

En aquest cas es tracta de saber si el valor mitj duna variable s diferent o no quan es tracta de
dos collectius. En aquest cas noms un nombre massa petit de ratxes ens far sospitar de la
igualtat de la variable per als dos collectius, que s la hiptesi que es contrasta H0.

8
Estadstica II

GES5: Contrastaci no paramtrica

Activitats seleccionades
Activitat 3.1 (Contrast dadherncia: Ajust a una funci uniforme)
Activitat 3.2 (Contrast dadherncia: ajust a una Poisson)
Activitat 3.3 (Contrast dindependncia)
Activitat 3.5 (Contrast de ratxes)
Activitat 3.6 (Contrast de Wilcoxon)
Activitat 3.8 (Contrast U de Mann-Whitney)

Exercicis dautoavaluaci seleccionats


Exercici 10 (Contrast Wilcoxon i signes)

9
Estadstica II

GES5: Contrastaci no paramtrica

Exercicis complementaris

EXERCICI 1 (Test 2 dadherncia amb poblaci discreta):

Un estudi sost que la distribuci del nombre de fills dun collectiu de parelles s la segent:

Nombre de fills 0 1 2 3 4 5
Percentatge 15% 30% 35% 10% 7% 3% 100%

Es pot sostenir la hiptesi anterior si una mostra del nombre de fills de 100 parelles daquest
collectiur proporciona la segent distribuci de freqncies?

Nombre de fills 0 1 2 3 4 5
Freqncies 13 27 36 8 10 6 100
(absolutes)

Nota: Realitzar el contrast al 10% de significaci.

SOLUCI:
Especificaci de les hiptesis del contrast:
H 0 : P( X ) = Po( X )
H 1 : P ( X ) Po( X )

Nombre de fills (Xi) 0 1 2 3 4 5


Po(Xi) 0,15 0,30 0,35 0,10 0,07 0,03 1,00

Clcul de les freqncies esperades: n'i = n * P0 ( Xi )

n' ( X = 0) = n * P0 ( X = 0) = 100 * 0,15 = 15


n' ( X = 1) = n * P0 ( X = 1) = 100 * 0,30 = 30
n' ( X = 2) = n * P0 ( X = 2) = 100 * 0,35 = 35
n' ( X = 3) = n * P0 ( X = 3) = 100 * 0,10 = 10
n' ( X = 4) = n * P0 ( X = 4) = 100 * 0,07 = 7
n' ( X = 5) = n * P0 ( X = 5) = 100 * 0,03 = 3

Nota: Donat que la freqncia esperada del darrer valor (X=5) s menor que 5 shaur dagrupar
aquest valor amb lanterior (X=4) a lhora de realitzar el test.

Clcul de les diferncies (Di) entre les freqncies observades (Oi) i les esperades (Ei):

10
Estadstica II

GES5: Contrastaci no paramtrica

Nombre de fills 0 1 2 3 4i5


Freqncies 13 27 36 8 10+6=16 100
Observades (ni)
Freqncies 15 30 35 10 7+3=10 100
Esperades (ni)
Di=Oi-Ei -2 -3 1 -2 6 0

Clcul del valor de lestadstic de contrast :

(ni ni' ) 2 (13 15) 2 (27 30) 2 (36 35) 2 (8 10) 2 (16 10) 2
n ' = 15 + 30 + 35 + 10 + 10 = 4,85
i

El valor crtic (VC) per una m2 1=51= 4 i una significaci de 0,10 s 7,779.

Resoluci del test:


L' EC = 4,85 < 7,779 = VC NoRHo : P ( X ) = Po( X )

Per tant, la hiptesi de lestudi s certa.

EXERCICI 2 (Test 2 dadherncia amb poblaci contnua):


Transports metropolitans duna gran ciutat sost que el temps despera dels autobusos que
circulen per una determinada lnia s distribueix uniformement amb un mxim de 20 minuts. Un
usuari daquesta lnia (amb coneixements dInferncia Estadstica) vol contrastar aquesta afirmaci;
aix que cada dia, durant un any, registra el temps que ell ha hagut desperar lautobs per anar a
treballar. Posteriorment, selecciona de forma aleatria una mostra de 40 daquests registres;
mostra que presenta la segent distribuci:

Minuts 0-5 5-10 10-15 15-20


Percentatge 20% 27,5% 30% 22,5% 100%

A quina conclusi arribar aquest usuari (si fixa en un 1% la probabilitat de rebutjar la hiptesi
comentada quan aquesta sigui certa)?

SOLUCI:

Especificaci de les hiptesis (nulla i alternativa) del contrast:


1 1 1
H 0 : X = Uniforme(a = 0; b = 20) f ( X ) = = = _ si _ 0 X 20
b a 20 0 20
H 1 : X Uniforme(a = 0; b = 20)

Clcul de freqncies observades (ni):

11
Estadstica II

GES5: Contrastaci no paramtrica

La taula de lenunciat mostra els percentatges, s a dir, les freqncies relatives multiplicades per
100. Per per calcular lestadstic del test necessitem les freqncies absolutes. Aquestes
freqncies absolutes sobtenen multiplicant les relatives per la mida de la mostra:

Minuts 0-5 5-10 10-15 15-20


Freqncies 0,2*40=8 0,275*40=11 0,3*40=12 0,225*40=9 1*40=40
absolutes

Clcul de freqncies esperades (ni):


Sobtenen multiplicant la mida de la mostra per la probabilitat que el model Uniforme(a=0,b=20)
assigna a cada categoria de la variable (rang de valors).

El model uniforme presenta la particularitat dassignar la mateixa probabilitat a intervals de la


mateixa longitud. En aquest cas, la probabilitat de cada un dels intervals s de 0,25:

Pr ob(0 X 5) = Pr ob(5 X 10) = Pr ob(10 X 15) = Pr ob(15 X 20) = 0,25

Efectivament, la probabilitat dun interval per variable aleatria contnua es calcula integrant la
funci de densitat de la variable, f(X), en linterval en qesti. Per exemple:

5 5
1 1 1
Pr ob(0 X 5) = dx = dx = [x]50 = 1 (5 0) = 5 = 0,25
0
20 20 0 20 20 20

15 15
1 1 1 15
Pr ob(10 X 15) = dx = dx = [x]10 = 1 (15 10) = 5 = 0,25
10
20 20 10 20 20 20

Aix tindrem les segents freqncies esperades:

n' (0 X 5) = n * Pr ob(0 X 5) = 40 * 0,25 = 10


n' (5 X 10) = n * Pr ob(5 X 10) = 40 * 0,25 = 10
n' (10 X 15) = n * Pr ob(10 X 15) = 40 * 0,25 = 10
n' (15 X 20) = n * Pr ob(15 X 20) = 40 * 0,25 = 10

Per tant, si la poblaci fos uniforme en linterval [0;20], com diu H0, seria desperar una distribuci
uniforme de les 40 observacions mostrals en cada una de les 4 categories; s a dir, shaurien
dobservar 10 dades (registres) a cada classe.

Clcul de les diferncies (Di) entre les freqncies observades (ni) i les esperades (ni):

Temps despera 0-5 5-10 10-15 15-20


Freqncies 8 11 12 9 40
Observades (ni)
Freqncies 10 10 10 10 40
Esperades (ni)
Di=ni-ni -2 1 2 -1 0

Clcul de lestadstic de contrast:

12
Estadstica II

GES5: Contrastaci no paramtrica

(ni n' i ) 2 (8 10) 2 (11 10) 2 (12 10) 2 (9 10) 2


n' i = 10 + 10 + 10 + 10 = 1
Busquem a les taules de la m2 1= 41=3 i una significaci de 001, el valor crtic a partir del qual es
rebutjar la H0: VC = 11,345.

Resoluci del test:

L' EC = 1 < 11,345 = VC NoRHo : X = Uniforme(a = 0; b = 20)

Nota: Sha de tenir present que si algun dels temps despera dels observats per lusuari hagus
estat superior a 20 minuts, la H0 daquest contrast shauria hagut de rebutjar, ja que si la poblaci
s Uniforme(a=0;b=20) els valors superiors a 20 NO sn possibles:

Pr ob( X > 20) = 0 si X = Uniforme(a = 0; b = 20)

EXERCICI 3 (Test 2 dadherncia amb parmetres poblacionals


indeterminats):
Es vol saber si el nombre de visites diries a una pgina web dInternet presenta una distribuci
normal. Si es disposa de la segent informaci de la variable derivada duna mostra de 150 dies:

Nombre de visites al dia Marca de classe Freqncia absoluta


0-1000 500 5
1000-2000 1500 25
2000-3000 2500 75
3000-4000 3500 35
4000-5000 4500 10
150

Quina ser la conclusi que es derivar de lanlisi de lanterior informaci mostral (fent servir els
tres nivells de significaci ms habituals, del 10, el 5 i l1%)?

SOLUCI:
Especificaci de les hiptesis del contrast:
H 0 : X = Normal ( ; )
H 1 : X Normal ( ; )

Freqncies observades (ni):


Sn les que es mostren en la tercera i darrera columna de la taula anterior.

Freqncies esperades (ni):

13
Estadstica II

GES5: Contrastaci no paramtrica

n'i = n P ( X 0 X X 1 )
Primer calculem les probabilitats que el model assigna a cada un dels 5 intervals, i que sn
necessries per obtenir les freqncies esperades. Per aix, necessitem disposar destimacions
dels dos parmetres que caracteritzen un model normal: la seva mitjana i la seva desviaci
estndard . Estimem aquests parmetres mitjanant la mitjana i la desviaci estndard mostrals,
respectivament.

X =
X i * ni
=
(500 * 5) + (1500 * 25) + (2500 * 75) + (3500 * 35) + (4500 *10)
= 2633,3
n 150

S=
( Xi X ) 2
* ni
=
(500 2633,3) 2 + ... + (4500 2633,3) 2
= 887,4
n 1 150 1

Un cop estimats els parmetres i de la normal, a partir de la informaci mostral disponible,


calculem les probabilitats associades a cada un dels 5 intervals:

Pr ob(0 X 1000) = {sent X = Normal ( = 2633,3; = 887,4} =


0 2633,3 1000 2633,3
= Pr ob( Z ) = Pr ob(2,97 Z 1,84) =
887,4 887,4
= Pr ob( Z 1,84) Pr ob( Z 2,97) = 0,329 0,0015 = 0,0314

Pr ob(1000 X 2000) = Pr ob(1,84 Z 0,71) = 0,2060


Pr ob(2000 X 3000) = Pr ob(0,71 Z 0,41) = 0,4202
Pr ob(3000 X 4000) = Pr ob(0,41 Z 1,54) = 0,2791
Pr ob(4000 X 5000) = Pr ob(1,54 Z 2,67) = 0,058

I, a partir de les anteriors probabilitats, les freqncies esperades de cada interval a la mostra de
150 observacions:

n' (0 X 1000) = n * Pr ob(0 X 1000) = 150 * 0,0314 = 4,71


n' (1000 X 2000) = n * Pr ob(1000 X 2000) = 150 * 0,2060 = 30,9
n' (2000 X 3000) = n * Pr ob(2000 X 3000) = 150 * 0,4202 = 63.03
n' (3000 X 4000) = n * Pr ob(3000 X 4000) = 150 * 0,2791 = 41,87
n' (4000 X 5000) = n * Pr ob(4000 X 5000) = 150 * 0,0580 = 8,7

Estadstic de contrast:

Interval Freq. observades (ni) Freq. esperades (n'i) Di=ni-n'i


0-1000 5 4,71 0.29
1000-2000 25 30,9 -5.9
2000-3000 75 63,03 11.97
3000-4000 35 41,87 -6.87
4000-5000 10 8,7 1.3

14
Estadstica II

GES5: Contrastaci no paramtrica

(ni n' i ) 2 (30 35,61) 2 (75 63,03) 2 (35 41,87) 2 (10 8,7) 2
n' i = 35,61 + 63,03 + 41,87 + 8,7 = 4,46
Nota: Les classes primera i segona shan hagut dagrupar ja que la freqncia esperada de la
primera (4,71) s inferior a 5.

Busquem els VC a la taula de la m2 1 k = 412=1 per a cada un dels nivells de significaci:


- per =0,01 2
1; 0 , 01 = 6,635
- per =0,05 2
1; 0 , 05 = 3,841
- per =0,10 12;0,10 = 2,706

Resultat del contrast:

4,46 > 2,706 = m2 1 k =412=1;0,10 RHo : X = Normal


4,46 > 3,841 = m2 1 k = 41 2=1;0, 05 RHo : X = Normal
4,46 < 6,635 = m2 1 k = 41 2=1;0, 01 NoRHo : X = Normal
Nota: K (nmero de parmetres poblacionals indeterminats)=2.

EXERCICI 4 (Test 2 dindependncia):


Un psicleg vol saber si existeix o no una relaci entre el sexe dels individus i llurs preferncies
artstiques. Amb aquest objectiu selecciona una mostra a latzar de 100 persones i els demana que
trin entre dos estils pictrics: labstracci o el realisme. La informaci recollida es mostra a la
segent taula de contingncia:

Preferncies (B) Pintura Pintura A


Sexe (A) Abstracta (B1) Realista (B2)
Home (A1) 10 30 40
Dona (A2) 40 20 60
B 50 50 100

Quin ser el resultat del contrast dindependncia que aquest investigador far servir per tal de
comprovar si existeix relaci ntre aquests 2 atributs (si fixa el nivell de significaci del test en un
1%)?

SOLUCI:

La informaci que recull la taula anterior s la segent:


I = Nombre de categories de latribut A (sexe) = 2
J = Nombre de categories de latribut B (preferncies) = 2
n11 = Homes (a la mostra) que prefereixen la pintura abstracta = 10
n12 = Homes (a la mostra) que prefereixen la pintura realista = 30
n21 = Dones (a la mostra) que prefereixen la pintura abstracta = 40

15
Estadstica II

GES5: Contrastaci no paramtrica

n22 = Dones (a la mostra) que prefereixen la pintura realista = 20


n1= Homes (a la mostra) = 40 (10+30)
n2=Dones (a la mostra) =60 (40+20)
n1=Persones (a la mostra) que prefereixen la pintura abstracta = 50 (10+40)
n2=Persones (a la mostra) que prefereixen la pintura realista = 50 (30+20)

Clcul de les freqncies esperades de les 4 (I*J=2*2) possibles combinacions dels dos atributs
(sexe i preferncies pictriques):

ni * n j
n'ij =
n
n *n 40 * 50 n1 * n2 40 * 50
n'11 = 1 1 = = 20 n'12 = = = 20
n 100 n 100

n 2 * n1 60 * 50 n 2 * n2 60 * 50
n' 21 = = = 30 n' 22 = = = 30
n 100 n 100

La taula segent mostra les freqncies observades Oij, les esperades Eij i les diferncies entre
les des (Oij Eij) per a cada combinaci de valors:

Preferncies (B) Pintura Pintura A


Sexe (A) Abstracta (B1) Realista (B2)
Home (A1) 10 (O11) 30 (O12) 40
20 (E11) 20 (E12)
-10 (D11) 10 (D12) 0
Dona (A2) 40 (O21) 20 (O22) 60
30 (E21) 30 (E22)
10 (D21) -10 (D22) 0
B 50 50 100
0 0

Per acabar, calculem el valor de lestadstic de prova:

I J (nij n'ij ) 2 (10 20) 2 (30 20) 2 (40 30) 2 (20 30) 2

i =1 j =1 n'ij
=
20
+
20
+
30
+
30
= 16,67

Busquem el valor crtic a les taules de la txi-quadrat amb (I-1)(J-1)=(2-1)(2-1)=1 graus de llibertat i
amb una significaci de l1%. Trobem VC=6,635.

LEC=16,67 s superior al VC=6,635, per tant la conclusi ser que la informaci mostral no fa
creble la hiptesi dindependncia dels atributs sexe i preferncies artstiques.

I J (nij n' ij ) 2

i =1 j =1 n' ij
= 16,67 > 6,635 = (22 1)( 2 1) =1;0,01 RHo : A i B independents

16
Estadstica II

GES5: Contrastaci no paramtrica

Aix, les diferncies entre les freqncies observades i les esperades sn el suficientment grans
com per rebutjar la independncia.

Nota final: Si calculem les taules de proporcions-filera i proporcions-columna comprovarem


lassociaci existent entre les categories sexe mascul i preferncia pel realisme, per un costat, i
entre sexe femen i preferncies per la pintura abstracta, per un altre.

Proporcions-filera:
Preferncies (B) Pintura Pintura A
Sexe (A) Abstracta (B1) Realista (B2)
Home (A1) 10/40=0,25 (25%) 30/40=0,75 (75%) 40/40=1,00 (100%)
Dona (A2) 40/60=0,67 (67%) 20/60=0,33 (33%) 60/60=1,00 (100%)
B 50/100=0,50 (50%) 50/100=0,50 (50%) 100/100=1,00 (100%)

Proporcions-columna:
Preferncies (B) Pintura Pintura A
Sexe (A) Abstracta (B1) Realista (B2)
Home (A1) 10/50=0,20 (20%) 30/50=0,60 (60%) 40/100=0,40 (40%)
Dona (A2) 40/50=0,80 (80%) 20/50=0,40 (40%) 60/100=0,60 (60%)
B 50/50=1,00 (100%) 50/50=0,50 (100%) 100/100=1,00 (100%)

Les taules anteriors diuen, per exemple, que noms un 25% dels homes prefereixen la pintura
abstracta mentre que aquest percentatge s molt ms elevat, dun 67%, entre les dones. Si mirem
el conjunt de la mostra la proporci s del 50%. Des dun altre punt de vista, daquells que a la
mostra manifesten les seves preferncies per la pintura realista, un 60% sn homes i un 40% sn
dones mentre que en el grup dels que prefereixen labstracci noms un 20% sn homes sent el
restant 80% dones. Aix doncs, les taules no fan ms que corroborar la dependncia entre els
atributs que ha suggerit el resultat del contrast.

EXERCICI 5 (Test 2 dindependncia):


Volem conixer si el tipus descola (pblica o privada) de procedncia dels alumnes que es
presenten a un examen de selectivitat per entrar a la Universitat t influncia en la qualificaci
daquest examen. Es disposa de la segent informaci recollida a partir duna mostra de 200
alumnes que van realitzar lexamen en la darrera convocatria:

Qualificaci (B) Aprovat (B1) Suspens (B2) A


Procedncia (A)
Pblica (A1) 96 24 120
Privada (A2) 60 20 80
B 156 44 200

A un nivell de significaci =0,05 (5%), quin ser el resultat del test dindependncia implementat
per resoldre el dubte plantejat?

SOLUCI:

17
Estadstica II

GES5: Contrastaci no paramtrica

Calculem les freqncies esperades:


ni * n j
n'ij =
n
n1 * n1 120 * 156 n1 * n2 120 * 44
n'11 = = = 93,6 n'12 = = = 26,4
n 200 n 200

n2 * n1 80 *156 n2 * n2 80 * 44
n' 21 = = = 62,4 n' 22 = = = 17,6
n 200 n 200

Preferncies (B) Pintura Pintura A


Sexe (A) Abstracta (B1) Realista (B2)
Home (A1) 96 (O11) 24 (O12) 120
93,6 (E11) 26,4 (E12)
2,4(D11) -2,4 (D12) 0
Dona (A2) 60 (O21) 20 (O22) 80
62,4 (E21) 17,6 (E22)
-2,4 (D21) 2,4 (D22) 0
B 156 44 200
0 0

Clcul de lestadstic de contrast:


I J (nij n'ij ) 2 (96 93,6) 2 (24 26,4) 2 (60 62,4) 2 (20 17,6) 2

i =1 j =1 n' ij
=
93,6
+
26,4
+
62,4
+
17,6
0,5

Busquem el valor crtic a les taules de txi-quadrat de (I-1)(J-1)=(2-1)(2-1)=1 graus de llibertat i un


5% de significaci. Obtenim VC = 3,841

Donat que lEC=0,5 < 3,841=VC, arribem a la conclusi que la informaci mostral no s contrria a
la hiptesi dindependncia de lescola de procedncia (pblica o privada) i qualificaci a lexamen
de selectivitat. Per tant, la nota de la selectivitat no depn de lescola de procedncia.

I J (nij n'ij ) 2

i =1 j =1 n' ij
= 0,5 < 3,841 = (221)( 21) =1;0, 05 NoRHo : A i B independents

Si calculem, per exemple, la taula de proporcions-filera observem que un 80% dels alumnes
procedents descoles pbliques aproven, sent aquest percentatge del 75% per als que han estudiat
en centres privats. Per al global de la mostra trobem que aproven el 78%. Aquests percentatges
sn el suficientment semblants com per no rebutjar la hiptesi dindependncia.

Proporcions-filera:
Qualificaci (B) Aprovat (B1) Suspens (B2) A
Procedncia (A)
Pblica (A1) 96/120=0,80 (80%) 24/120=0,20 (20%) 120/120=1,00 (100%)
Privada (A2) 60/80=0,75 (75%) 20/80=0,25 (25%) 60/60=1,00 (100%)
B 156/200=0,78(78%) 44/200=0,22 (22%) 200/200=1,00(100%)

18
Estadstica II

GES5: Contrastaci no paramtrica

EXERCICI 6 (Prova de les ratxes bilateral):


Es disposa duna mostra de 25 estudiants duna escola universitria, obtinguda conforme els
alumnes accedien a una conferncia. Es vol saber si es pot o no considerar aleatria, s a dir, si
aquestes 25 observacions sn independents. Amb aquesta finalitat sels discrimina en funci de
pertnyer a un curs de primer o de segon cicle, obtenint-se la segent successi:

2 2 2 2 1 1 2 2 1 1 1 2 2 2 1 2 2 1 1 1 2 2 2 1 1

Quina conclusi es derivar daplicar el contrast de les ratxes sobre aquestes dades?

SOLUCI:

En aquest cas tenim:


Nombre dobservacions mostrals: n=25
Nombre dobservacions dun tipus (estudiants de primer cicle): n1=11
Nombre dobservacions dun altre tipus (estudiants de segon cicle): n2=14
Nombre de ratxes (valor de lestadstic de la prova): R*=10
Nombre mnim de ratxes =2
Nombre mxim de ratxes =23

R (2 * n1 ) + 1 = (2 * 11) + 1 = 23
Per tant,
2 R 23

Mirant les taules a un 5% de significaci, tenim que els punts crtics sn el valor 8 (lmit inferior) i el
valor 19 (lmit superior). La interpretaci s que la probabilitat dobtenir un nombre de ratxes menor
o igual a 8 (2,3,...,8) i superior o igual a 19 (19,20,...,23) en 25 observacions independents, 11 dun
tipus i 14 dun altre, s dun 5% , per tant molt petita. Aix s que si obtenim un nombre de ratxes
en aquesta regi crtica [2,8]U[19,23] haurem de rebutjar la hiptesi dindependncia, tenint present
que hi ha una probabilitat de 0,05 de cometre error tipus-I (rebutjar la independncia quan les
observacions siguin realment independents).

Lestadstic de contrast R per a la mostra en qesti pren el valor 10 (R*=10) i es troba dins la regi
dacceptaci (8,19)=[9,18] per tant no podem rebutjar la hiptesi dindependncia. Estem sostenint,
doncs, que un nombre de ratxes igual a 10 no s ni massa petit ni massa gran com per rebutjar la
independncia de les 25 observacions.

Alternativament, es pot aproximar el comportament de lestadstic mostral R (nombre de ratxes)


mitjanant una corba normal i utilitzar les taules de la normal tipificada per obtenir els punts crtics,
s a dir, per definir les regions crtica i dacceptaci de la hiptesi dindependncia de les
observacions mostrals. La condici per a qu aquesta aproximaci sigui vlida s que les mostres
(n1 i n2) siguin relativament grans (superiors a 10).

La corba normal que ms saproximar al comportament dR ser aquella amb els segents
parmetres3:

3
Aquesta aproximaci al comportament probabilstic dR mitjanant el model normal tamb s aplicable en
el marc de la prova de les ratxes unilateral (segent exemple).

19
Estadstica II

GES5: Contrastaci no paramtrica

2n1 n2 2 * 11 * 14
= +1 = + 1 = 13,32
n 25

2n1 n 2 (2n1 n2 n) 2 * 11 * 14(2 * 11 * 14 25)


= = = 5,811 = 2,4106
n 2 (n 1) 25 2 * 24

R Normal ( = 13,32; = 2,4106)

A continuaci es tracta de veure si el valor R*=10 s un valor probable o un valor extrem per a una
normal dels parmetres anteriors. Per saber-ho, tipifiquem aquest valor 10 (restant la mitjana i
dividint per la desviaci estndard):
R * 10 13,32
Z* = = = 1,38
2,4106

Tot seguit mirem les taules de la Z (normal tipificada) i considerem com a valors probables aquells
en el rang (-1,96;1,96) ja que el contrast s bilateral al 5% de significaci. Per tant, podem
concloure que el valor 1,38 s un valor probable (no extrem) per a una distribuci Z i, en
conseqncia, el valor 10 s tamb un valor probable per a una normal (13,32;2,4106). Aix R ha
pres un valor (el 10) dacord amb el que seria el seu comportament sota la hiptesi
dindependncia. Aix, no hi ha motiu per rebutjar aquesta Ho.

EXERCICI 7 (Prova de les ratxes unilateral):


Es vol conixer si joves i adults gasten el mateix (o no) en cinema, teatre i espectacles en general.
Amb aquesta finalitat se selecciona una mostra de 30 individus (12 joves i 18 adults), i sels
demana per la seva despesa mitjana mensual en aquest tipus de consum. Desprs dordenar la
mostra en funci del valor daquesta despresa, en sentit creixent, sobserva la segent successi:

J A A A A A A A A A J J A A A A A A J J J J A A A J J J J J
Qu podem dir a partir de la prova de les ratxes?

SOLUCI:

En aquest cas tenim:


Nombre dobservacions mostrals: n=30
Nombre dobservacions dun tipus (joves): n1=12
Nombre dobservacions dun altre tipus (adults): n2=18
Nombre de ratxes (valor de lestadstic de la prova): R*=7
Nombre mnim de ratxes =2
Nombre mxim de ratxes =25

R (2 * n1 ) + 1 = (2 * 12) + 1 = 25

20
Estadstica II

GES5: Contrastaci no paramtrica

Per tant,
2 R 25

Buscant a les taules a un 2,5% de significaci, trobem el valor crtic igual a 9. La interpretaci s
que la probabilitat dobtenir un nombre de ratxes menor o igual a 9 (2,3,...,9) en una mostra de 30
observacions (12 dun tipus i 18 dun altre) s dun 2,5%, per tant, molt petita. Aix s que si
obtenim un nombre de ratxes en aquesta regi crtica [2,9] haurem de rebutjar la hiptesi digualtat,
tenint present que tenim una probabilitat de 0,025 de cometre error tipus-I (rebutjar la igualtat quan
les poblacions siguin realment iguals). La regi dacceptaci dH0 (igualtat) ser doncs [10,25].

Lestadstic de Donat que lestadstic R per a la mostra en qesti pren el valor 7 (R*=7) dintre de
la regi crtica [2,9] hem de rebutjar la hiptesi digualtat. Sostenint, doncs, que un nombre de
ratxes igual a 7 s massa petit com per acceptar la igualtat (de la despesa en espectacles de joves
i adults).

Utilitzant laproximaci al comportament de lestadstic R mitjanant una normal, tenim que:

R Normal ( = 15,4; = 2,58)

2n1 n 2 2 * 12 * 18
= +1 = + 1 = 15,4
n 30

2n1 n 2 (2n1 n2 n) 2 * 12 * 18(2 * 12 * 18 30)


= = = 2,58
n 2 (n 1) 30 2 (30 1)

A continuaci s tracta de veure si R*=7 s un valor probable per aquesta normal o no, s a dir, si
es troba o no a la cua inferior que s la regi crtica. Per saber-ho tipifiquem el punt 7, obtenint el
punt Z*=3,25 que, observem, es localitza massa a lextrem inferior de la distribuci Z,
concretament per sota del punt crtic 1,96 (valor crtic del contrast a una cua inferior al 2,5%).

EXERCICI 8 (Prova dels signes i de Wilcoxon):


El desembre de 2001 uns economistes es van plantejar estudiar si lentrada de leuro al gener de
2002 tindria efectes inflacionistes. Amb aquesta finalitat van registrar a 30 de desembre el preu en
pessetes duna mostra de productes per a la higiene personal. Posteriorment, el 10 de gener, van
enregistrar el preu daquests mateixos productes ja en euros. Quines tcniques danlisi estadstica
es podrien aplicar per aportar llum sobre la qesti?

SOLUCI:

A partir de la informaci disponible constituda pels preus dels diferents productes de la mostra en
pessetes i euros (preus que shaurien dexpressar en la mateixa unitat monetria, b en pessetes,

21
Estadstica II

GES5: Contrastaci no paramtrica

b en euros, per poder fer una correcta comparaci) es podria realitzar el contrast dels signes o
b el de Wilcoxon que s ms potent.

Informaci mostral:

Article 1 2 3 ..... i .... n


Preu abans (X) X1 X2 X3 ..... Xi .... Xn
Preu desprs (Y) Y1 Y2 Y3 ..... Yi ..... Yn

Hem de calcular les diferncies de preus per a cada article a la mostra. Una diferncia positiva
Xi>Yi implicaria un descens en el preu amb el canvi de moneda, mentre que una diferncia
negativa : Xi < Yi indicaria un augment. El contrast dels signes demana el recompte del nombre de
diferncies de cada signe (descartant aquelles diferncies nulles = articles per als quals els preus
abans i desprs sn coincidents). El nombre de diferncies positius i el nombre de diferncies
negatives sn els estadstics de la prova.

Sota la hiptesi nulla (H0: els preus NO shan modificat), aquests estadstics de prova presentarien
una distribuci mostral binomial (n; =0,5) i, per tant, seria desperar un nombre de diferncies
positives similar al de negatives. En aquest cas es podria plantejar un contrast unilateral donat que
s raonable pensar que si els preus han canviat en tot cas hauran pujat i no baixat. Per tan, un
nombre relativament alt de signes negatius (s a dir, un nombre relativament baix de signes
positius) ens far sospitar i rebutjar H0 (manteniment dels preus) i acceptar H1 (augment de preus).

Per aplicar el contrast de Wilcoxon haurem dassignar rangs a les diferncies fixant-nos en llur
magnituds i no en els signes. Desprs sumem els rangs corresponents a les diferncies positives i
els corresponents a les diferncies negatives. En aquest cas un valor elevat daquest darrer
estadstic (suma rangs diferncies negatives) en relaci al valor del primer (suma rangs diferncies
positives) ens far sospitar de la veracitat dH0.

Un darrer comentari sobre el cas: Lelecci duna mostra de productes dhigiene personal per
realitzar lestudi es pot justificar en qu la demanda daquest tipus de bns de consum es pot
suposar relativament estable a diferncia de, per exemple, la de productes alimentaris que
augmenta considerablement en lpoca de Nadal incrementant-se en conseqncia els preus i
distorsionant aix lanlisi. Per un altre costat s un tipus de producte que acostuma a quedar al
marge de les rebaixes.

22
Estadstica II

GES5: Contrastaci no paramtrica

Resoluci dalgunes activitats


A continuaci mostrem la soluci detallada dalgunes de les activitats que es plantegen en el
material de lassignatura.

Activitat 3.1.
Si desprs dobservar 120 clients duns grans magatzems veiem que 26 han pagat a la caixa 1, 17
a la caixa 2, 18 a la 3, 19 a la 4, 25 a la 5 i 15 a la 6, estem en condicions dafirmar que les sis
caixes que hi ha per a anar a pagar operen a un mateix ritme de treball?
Sentn que la mostra ha estat escollida a latzar i que s representativa del moviment que hi ha en
els grans magatzems.
Comproveu si lequiprobabilitat (1/6) s admissible, amb un 5% de significaci, per a totes les
caixes.

Caixa Freqncies observades Freqncies esperades

1 26 120*1/6=20
2 17 120*1/6=20
3 18 120*1/6=20
4 19 120*1/6=20
5 25 120*1/6=20
6 15 120*1/6=20
Total 120 120

Si les caixes operessin al mateix ritme i pogussim treballar no amb 120 clients (la mostra), sin
amb tots els possibles clients (la poblaci), observarem que les freqncies relatives, que
esdevindrien aleshores probabilitats (la probabilitat es defineix com el lmit de la freqncia
relativa) serien 1/6 per a cada caixa. Aix, ara es tracta de saber (contrastar) si les dades sajusten
al segent model discret de distribuci de probabilitat:

X P(X)
1 1/6
2 1/6
3 1/6
4 1/6
5 1/6
6 1/6
TOTAL 1

Aquestes probabilitats ens han servit per calcular les freqncies esperades de cada valor (caixa)
a la mostra, multiplicant-les per la mida de la mostra.

Lestadstic de la prova pren el valor:


(ni ni' )2 (26 20)2 (17 20)2 (18 20)2 (19 20)2 (25 20)2 (15 20)2
ni' = 20 + 20 + 20 + 20 + 20 + 20 =

23
Estadstica II

GES5: Contrastaci no paramtrica

36 + 9 + 4 + 1 + 25 + 25 100
= = =5
20 20
I donat que s menor que el punt crtic 11.070, direm que a partir de la informaci mostral que
disposem no podem rebutjar la hiptesi (nulla) que sost que les 6 caixes funcionen al mateix
ritme.

Nota: Per trobar el punt crtic hem de mirar les taules de la Txi-quadrat dm-1=6-1=5 graus de
llibertat. Concretament ens interessa aquell punt que deixa a la seva dreta un 5% de la probabilitat
(0,05 en tant per 1) perqu sens demana que fem el contrast amb un nivell de significaci (alfa) del
5%.

Activitat 3.2.
Duna mostra de 150 mestresses de casa, es va comprovar quin era el nombre de paquets de
detergent de mida estndard que havien utilitzat durant lltim mes. Les dades que es van obtenir
sn les segents:
Nombre de
Nombre de mestresses
paquets observat
0 14
1 38
2 40
3 52
Ms de 3 (4,5 i 6
ms de 5)
TOTAL 150

Es pot afirmar que, amb una significaci del 10%, la mostra procedeix duna llei de Poisson de
parmetre l = 2?

Nombre de mestresses Nombre de mestresses esperat


Nombre de paquets observat
0 14 150*0.1353=20.295
1 38 150*0.2707=40.605
2 40 150*0.2707=40.605
3 52 150*0.1804=27.060
Ms de 3 (4,5 i ms de 5) 6 150*0.1429=21.435
TOTAL 150 150.000

En aquest cas la hiptesi nulla proposa que la poblaci (X = Nombre de paquets comprats per
mestressa) segueix una distribuci de Poisson de mitjana, es dir, de parmetre igual a 2. Per
tant que:
e x e 2 * 2 x
P ( X = x) = =
x! x!

24
Estadstica II

GES5: Contrastaci no paramtrica

A partir daquesta funci matemtica podem calcular les probabilitats dels diferents valors (x) duna
Poisson de igual a 2. No obstant, anirem ms rpid fent servir les taules disponibles daquesta
distribuci. Trobarem que:

P(X=0)=0.1353
P(X=1)=0.2707
P(X=2)=0.2707
P(X=3)=0.1804
P(X>3)=1-P(X3)=1-0.8571=0.1429
Nota: P(X3)=P(X=0)+P(X=1)+P(X=2)+P(X=3)=0.1353+0.2707+0.2707+0.1804=0.8571

Aquestes probabilitats ens han servit per calcular les freqncies esperades multiplicant per la
mida de la mostra.

De la comparaci de freqncies observades i esperades (si la distribuci fos la que es proposa en


la hiptesi nulla) sobt el valor segent per a lestadstic del contrast:

(ni ni ' ) 2 (14 20.295) 2 (38 40.605) 2 (6 21.435) 2


ni' =
20.295
+
40.605
+ ... +
21.435
= 21.256

Donat que el valor de lestadstic supera el punt crtic en taules (7.779) hem de rebutjar la hiptesi
nulla. s a dir, les diferncies observades entre freqncies mostrals i esperades sn massa
grans com per validar la hiptesi nulla que diu que X = Poisson(=2).

Per trobar el punt crtic 7.779 hem de mirar les taules de la Txi-quadrat dm-1=5-1=4 graus de
llibertat. Concretament el punt que deixa a la dreta (per sobre dell) un 10% de la probabilitat, donat
que el contrast lhem de fer al 10% de significaci.

Activitat 3.3.
A la taula ja apareixen les freqncies esperades de cada combinaci de categories dels dos
atributs : tipus de defecte i torn de treball. s la dada de sota (a cada cella). La de dalt s la
freqncia observada a la mostra que t un total de 1525 observacions (cotxes).

Sha de recordar que per calcular les freqncies observades shan de multiplicar les marginals i
dividir pel total dobservacions. Aix, per exemple, per trobar la freqncia que seria desperar a la
mostra si els atributs fossin independents de la combinaci defecte 1 i torn de mat, s a dir el
valor 227,62, hem de multiplicar 394 per 881 i dividir per 1525.

A partir de freqncies observades i esperades, calculem el valor de lestadstic de prova:


(ni ni ' ) 2 (234 227.62) 2 (34 40.56) 2 (32 30.56) 2
ni' = 227.62 + 40.56 + ... + 30.56 = 2.2
Donat que aquest valor NO supera el punt crtic 10,64, NO podem rebutjar la hiptesi nulla
dindependncia. Direm que la informaci mostral sembla verificar la independncia de les dues
variables. Les diferncies entre les freqncies observades i les esperades sn relativament
petites.

Activitat 3.4.

25
Estadstica II

GES5: Contrastaci no paramtrica

A partir duna mostra de 400 obrers no qualificats del sector del metall, construm la taula de
freqncies conjuntes dantiguitat i de salaris segent:
Discutiu a l1% de significaci la possible independncia entre ambdues caracterstiques. Veureu
que no s possible acceptar que antiguitat i salaris siguin conceptes independents.

BAIXOS MITJANS ALTS


POCA 124 28 4 156
57.72 49.92 48.36
MITJANA 20 76 18 114
42.18 36.48 35.34
MOLTA 4 24 102 130
48.10 41.60 40.30
148 128 124 400

En aquest exercici la taula no incorpora les freqncies esperades sin noms les observades a la
mostra que t 400 observacions (obrers). Per tant, hem de calcular les freqncies esperades de
cada combinaci (en negreta a cada cella) multiplicant les marginals i dividint pel total (400).

Lestadstic de prova del contrast val:


(ni ni ' ) 2 (124 57.72) 2 (28 49.92) 2 (102 40.30) 2
ni' =
57.72
+
49.92
+ ... +
40.30
= 331.745
que supera amb escreix el punt crtic 13.28 que obtindrem mirant les taules de la Txi-quadrat de
(L-1)(K-1) = (3-1)*(3-1) = 2*2 = 4 graus de llibertat i buscant aquell valor que deixa a la dreta (per
sobre) un 1% de la probabilitat (0,01). Per tant, conclourem que la informaci mostral sembla
indicar que els atributs antiguitat i salaris NO sn independents; que existeix entre ells una certa
dependncia.

Activitat 3.5
Suposem que un auditor ha pres una mostra de setze crrecs del compte de despeses generals i
que els imports que ha obtingut, de manera successiva, sn els segents:
87.215, 76.050, 41.119, 11.236, 45.778, 67.108, 32.511, 24.216, 8.000, 88.214, 12.300,
53.721, 44.520, 14.323, 29.680, 38.423.
Volem discutir, amb un 5% de significaci, el carcter aleatori de la mostra utilitzant la prova de les
ratxes i el criteri que discrimina els grups segons que es tracti danotacions de ms o de menys de
50.000 u.m.

Ho: observacions mostrals independents


Ha: mostra no aleatria
Es tractar d'un contrast bilateral, perqu una mostra de no independncia s tan si surten poques
ratxes com si en surten moltes.
Anotarem les dades de la segent manera:
S import superior a 50.000 u.m.
I import inferior a 50.000 u.m.
Seqncia dobservacions mostrals:

26
Estadstica II

GES5: Contrastaci no paramtrica

SS/III/S/III/S/I/S/IIII
El nombre de ratxes que tenim R* s 8.
Els valors crtics els hem dobtenir de les taules estadstiques.
n1: observacions marcades amb S = 5
n2: observacions marcades amb I = 11

Les taules dels valors crtics de la prova R de ratxes consideren un 5% de significaci a dues cues.
s a dir, a la primera taula, que dna el valor crtic de la cua inferior, tindrem a lesquerra del valor
trobat una probabilitat de 0,025. De la mateixa manera que per sobre el valor crtic superior tenim
tamb una probabilitat de 0,025.
Els lmits de la regi dacceptaci sn 4 i 11.
Com R*(=8) [4;11], concloem que no podem refusar la hiptesi que la mostra obtinguda s
aleatria.

Activitat 3.6
Resoleu aquest mateix problema aplicant la prova dels signes i comproveu que el resultat s
contrari a aquell obtingut aplicant la prova de Wilcoxon.

Fa referncia a lexemple de la pgina 51 del segon mdul.


Operari 1 2 3 4 5 6 7 8 9 10 11
Dilluns 62,1 67,4 71,6 57,5 59,1 62,2 43,9 82 71,4 74,1 80,3
Divendres 66,5 68,9 70,9 57,5 63,9 64,2 43 80 71,4 77,8 84,3
Signe diferncia - - + 0 - - + + 0 - -

Ho: igualtat de productivitat per operari en dilluns i en divendres


Ha: no hi ha igualtat de productivitat
En aquest cas es tractar duna prova a dues cues perqu refusarem la hiptesi tant si tots els
signes fossin negatius com si fossin tots positius.
rm = nombre de signes menys freqents = 3 (=positius)
rM = nombre de signes ms freqents = 6 (negatius)
El segent pas es mirar si rm o rM pertanyen a la zona de no-rebuig de la Ho o, per contra,
pertanyen a la zona de rebuig.
Com hi ha dos valors que tenen diferncia igual a 0, no els tenim en compte. Aix, n=11-2 = 9.
A ms, com sota la hiptesi nulla no hi ha diferncies de productivitat, la P(signe positiu)=P(signe
negatiu)=0,5.
Per tant, hem de treballar amb una distribuci B(n=9;p=0,5).

X P(X=x) P(X x)
0 0,0020 0,0020
1 0,0176 0,0195
2 0,0703 0,0898

27
Estadstica II

GES5: Contrastaci no paramtrica

3 0,1641 0,2539
4 0,2461 0,5000
5 0,2461 0,7461
6 0,1641 0,9102
7 0,0703 0,9805
8 0,0176 0,9980
9 0,0020 1,0000

Com la distribuci binomial s discreta, no podem trobar el valor crtic que exactament deixa a la
seva dreta o esquerra un nivell de significaci exacte. Per aix treballem de manera aproximada.
A la segona columna de la taula tenim la probabilitat que la variable prengui els diferents valors
possibles. Observem que la distribuci s simtrica. Qu vol dir? P(X=0)=P(X=9), P(X=1) =
P(X=8),...A la tercera columna tenim les probabilitats acumulades fins el valor considerat.
Com treballem a 2 cues i a un nivell de significaci del 10% hem de buscar el valor que acumula
aproximadament 5%.

Tenim que el valor 2 acumula una probabilitat de 0,0898. Com la distribuci s simtrica, la
probabilitat que la variable prengui un valor superior a 7 tamb ser 0,0898. Aix, els valors 2 i 7
sn els valors que delimiten la zona de rebuig de la de no-rebuig a un nivell de significaci del
17,96% (=20,0898).

Conclusi: Com tan rm (=3) com rM (=6) estan inclosos en linterval que limiten 2 i 7, s a dir, es
troben dins la zona de no-rebuig, no podem rebutjar, donades les dades disponibles, que la
productivitat de dilluns i divendres siguin la mateixa. Comproveu com s diferent a la conclusi de
la pgina 51.

Activitat 3.8
Lanlisi financera de balanos utilitza molt sovint com a mesura de lautofinanament empresarial
la relaci:
Autofinanament / total actiu net
Per a comprovar si hi ha diferncies significatives entre les ratios que presenten les indstries
alimentries i les de productes qumics, shan seleccionat dues mostres representatives daquestes
dues activitats. Els resultats que shan obtingut sn els segents:
Sector alimentari: 12,20; 15,14; 13,17; 11,94; 14,61 i 12,27.
Sector qumic: 13,19; 12,29; 14,11 i 14,85.
Volem esbrinar si lestructura dautofinanament de les empreses dambds sectors s similar
atenent la ratio i aplicant el test U.

Ho: no hi ha diferncia entre poblacions


Ha: hi ha diferncia entre poblacions
Per utilitzar la prova U de Mann-Whitney primer haurem dordenar de menys a ms el total de
dades.

Rangs Ordenaci
1 11,94 A
2 12,20 A
3 12,27 A
4 12,29 Q
5 13,17 A
6 13,19 Q

28
Estadstica II

GES5: Contrastaci no paramtrica

7 14,11 Q
8 14,61 A
9 14,85 Q
10 15,14 A

Estadstics de contrast:
n1 (n1 + 1)
U 1 = n1 n 2 + rangs A
2
n (n + 1)
U 2 = n1 n 2 + 2 2 rangs Q
2
n=10 ; n1= 6 (alim.) ; n2 = 4 (quim.)

suma rangs A = 1+2+3+5+8+10 =29


suma rangs Q = 4+6+7+9 = 26

6 (6 + 1) 4(4 + 1)
U 1 = (6 4) + 29 U 2 = (6 4) + 26
2 = 16 2 =8
Podem comprovar com U1 + U2 = n1n2 = 24
El segent pas es comparar aquests valors amb els valors crtics corresponents al test de Mann-
Whitney. Seguim la resoluci de la pgina 55. Observem la taula corresponent a n2=6 i n1=4 (fixeu-
vos que ens diu que s igual que n2=4 i n1=6).
Per trobar els valors de U/2 lnic que hem de fer s 24-U1-/2.

/2 U1-/2 U/2 Com el contrast s bilateral, el nivell de significaci ser el


0,005 0,010 0 24 doble del que apareix a les taules.
0,010 0,020 1 23 Podem comprovar que per cap daquest nivells de
0,019 0,038 2 22 significaci que apareixen a la taula refusarem la hiptesi
0,033 0,066 3 21 nulla perqu els valors 8 i 16 es troben a linterior dels lmits
0,057 0,114 4 20 que estableixen U1-/2 i U/2.

Activitat 3.9
Un taller de fusta treballa amb una determinada marca de cola dimpacte i ha rebut loferta duna
nova marca, fet pel qual es planteja la possibilitat dutilitzar-la. Ats que les caracterstiques de
preu, color i de conservaci sn semblants, lnic criteri decisor ha de ser el temps necessari per a
aconseguir un adheriment complet.
Una primera prova amb la marca vella, amb diferents tipus de fusta (set observacions) proporciona
la seqncia de temps: 43 39 45 62 29 46 71.
Una altra prova amb la marca nova proporciona, desprs de sis observacions, els resultats: 38 51
54 48 68 37.
Apliqueu la prova U de Mann-Whitney per a determinar si els temps despera dassecat de la cola
sn semblants.

Ho: temps despera dassecat sn semblants


Ha: temps despera dassecat sn diferents
Operarem de la mateixa manera que en lactivitat anterior:
Rang 1 2 3 4 5 6 7 8 9 10 11 12 13
Ord. 29 37 38 39 43 45 46 48 51 54 62 68 71
V N N V V V V N N N V N V

29
Estadstica II

GES5: Contrastaci no paramtrica

n=13 ; n1= 7 (vella) ; n2 = 6 (nova)

Estadstics de contrast:
n1 (n1 + 1)
U 1 = n1 n 2 + rangs V
2 suma rangs V = 1+4+5+6+7+11+13 =47
7(7 + 1)
U 1 = (76 ) + 47
2 = 23
n 2 (n 2 + 1)
U 2 = n1 n 2 + rangs N
2 suma rangs N = 2+3+8+9+10+12 = 44
6 (6 + 1)
U 2 = (7 6 ) + 44
2 = 19 Podem comprovar com U1 + U2 = n1n2 = 42
/2 U1-/2 U/2 Recordem que U1=23 i U2 = 19.
0,001 0,02 0 42 Per qualsevol dels nivells de significaci que podem
0,001 0,02 1 41 considerar dels inclosos en aquesta taula, no podrem
0,002 0,04 2 40 refusar la hiptesi nulla.
0,004 0,08 3 39 Aix, per un nivell del 5,2%, els lmits de la zona
0,007 0,014 4 38 dacceptaci els configuren 7 i 35 (tingueu en compte que
0,011 0,022 5 37 si el valors de U1 i U2 fossin exactament 7 i 35 refusarem
la Ho, s a dir, els valors crtics pertanyen a la zona de
0,017 0,034 6 36
rebuig).
0,026 0,052 7 35
Per aquest motiu concloem que, donada la informaci que
0,037 0,074 8 34 disposem, el temps despera dassecat sn semblants en
0,051 0,102 9 33 les dues marques
0,069 0,138 10 32
.

30
Estadstica II

GES5: Contrastaci no paramtrica

Exercicis dautoavaluaci resolts


A continuaci mostrem la soluci detallada dalguns exercicis dautoavaluaci.

Exercici 10:
Desprs defectuar, en diferents moments del dia, controls de pas en dotze punts de lautopista,
entre lHospitalet de lInfant i lAmetlla de Mar, hem anotat la mitjana de cotxes que
passaven per minut en ambdues direccions:
Apliqueu el test dels signes i el de Wilcoxon per a determinar si hi ha o no una diferncia
significativa entre el trnsit de cotxes en direcci nord i en direcci sud. Opereu, en ambdues
proves, al 10% de significaci.

CONTROL Direcci Direcci


nord sud
1 9.4 11.1
2 5.3 10.7
3 8.6 9.9
4 12.5 13.9
5 12.6 13.1
6 16.9 20.2
7 2.4 2.3
8 8.8 8.0
9 3.7 4.6
10 7.4 7.4
11 12.1 11.9
12 11.4 11.0

Laplicaci de la prova del signes i, desprs, de la de Wilcoxon demana el clcul de les diferncies
existents entre cada parella de dades, lobservaci del signe daquestes diferncies i lassignaci
dun rang (prova de Wilcoxon). La taula segent recull aquests clculs necessaris:

CONTROL Direcci Direcci Dif. Dif. Rang


nord sud (signe) (magnitud)
1 9.4 11.1 - 1.7 9
2 5.3 10.7 - 5.4 11
3 8.6 9.9 - 1.3 7
4 12.5 13.9 - 1.4 8
5 12.6 13.1 - 0.5 4
6 16.9 20.2 - 3.3 10
7 2.4 2.3 + 0.1 1
8 8.8 8.0 + 0.8 5
9 3.7 4.6 - 0.9 6
10 7.4 7.4 0.0
11 12.1 11.9 + 0.2 2
12 11.4 11.0 + 0.4 3

31
Estadstica II

GES5: Contrastaci no paramtrica

Prova del signes

Nombre de diferncies no nulles = n = 11


Nombre de signes menys freqent (en aquest cas positius) = rm = 4
Nombre de signes ms freqent (en aquest cas negatius) = rM = 7

Raonament: Si rm s molt petit o, el que s el mateix, si rM s molt gran, rebutjarem la hiptesi


digualtat en les dues poblacions (trnsit de cotxes en sentit nord i en sentit sud). Sota la hiptesi
digualtat aquests estadstics han de tenir un comportament en el mostratge de binomial de
parmetres n=11 i p=0,5.
A partir de les taules daquesta distribuci binomial (que podem obtenir amb el programa Excel,
amb la funci DISTR.BINOMIAL(x;n;p;0/1))

Probabilitats puntuals Probabilitats acumulades


Prob(X=0)=0.00049 Prob(X0)=0.00049
Prob(X=1)=0.00537 Prob(X1)=0.00586
Prob(X=2)=0.02685 Prob(X2)=0.0327
Prob(X=3)=0.08057 Prob(X3)=0.1133
....... ........
Prob(X=8)=0.08057
Prob(X=9)=0.02685
Prob(X=10)=0.00537
Prob(X=11)=0.00049 Prob(X11)=1.0000
observem que la definici de la regi crtica: [0,1,2] U [9,10,11] (regi dacceptaci [3;8]) implica un
nivell de significaci dun 6,5% aproximadament. Efectivament:

P(X=0)+P(X=1)+P(X=2)+P(X=9)+P(X=10)+P(X=11)=0.0654(=2*0.0327)

En aquest cas no podrem rebutjar la hiptesi digualtat doncs ambds estadstics (rm i rM) prenen
un valor (4 i 7) dintre de la regi dacceptaci.

Si redum la regi dacceptaci a [4;7] (o el que s el mateix, augmentem la regi crtica a [0,1,2,3]
U [8,9,10,11]) el nivell de significaci augmenta fins a un 22,5% aproximadament. Efectivament:

P(X=0)+P(X=1)+P(X=2)+P(X=3)+P(X=8)+P(X=9)+P(X=10)+P(X=11)=0.2266(=2*0.1133)

De qualsevol forma, tot i treballant amb aquest nivell de significaci considerablement ms gran, el
resultat del contrast no canvia: seguim sense poder rebutjar la hiptesi digualtat (els valors 4 i 7
segueixen dins la regi dacceptaci).

Prova de Wilcoxon

Suma dels rangs positius = T(+) = 1+2+3+5 = 11


Suma dels rangs negatius = T(-) = 4+6+7+8+9+10+11 = 55
Es verifica que:

n(n + 1) 11(11 + 1)
T ( + ) + T ( ) = 11 + 55 = = 66
2 2
Aquest s el valor mxim que pot prendre qualsevol dels dos estadstics, T(+) i T(-). El valor mnim
s el zero (totes les diferncies positives o negatives).

0 T () 66

32
Estadstica II

GES5: Contrastaci no paramtrica

0 T (+) 66
A continuaci no hi ha ms que mirar les taules per establir els punts crtics o, dit duna altra forma,
les regions dacceptaci i rebuig de la hiptesi digualtat.

Trobem que el punt crtic inferior corresponent a n=11 i un 10% de significaci s el 14. En
conseqncia el punt crtic superior ser el 52 (66-14). Aix implica la segent definici de les
regions crtica i dacceptaci:
Regi crtica: [0;14] U [52;66]
Regi dacceptaci (14;52)

Donat que els estadstics T(+) i T(-) prenen valors (11 i 55) fora de la regi dacceptaci (dintre de
la regi crtica) el resultat del contrast s el rebuig de la hiptesi digualtat.

Aix, les conclusions derivades daquests contrastos sn oposades:

Prova dels signes No rebuig de la hiptesi digualtat.


Prova de Wilcoxon Rebuig de la hiptesi digualtat.

Donat que el contrast de Wilcoxon s ms potent que la prova dels signes, optarem per aquesta
darrera conclusi. Wilcoxon s ms potent perqu a ms a ms del signe de les diferncies t en
compte tamb la seva magnitud, la qual cosa no fa el primer del contrastos (el dels signes).

33
Estadstica II

GES5: Contrastaci no paramtrica

Prctiques dExcel/Minitab
Els apartats objecte destudi daquest GES no incorporen prctiques dExcel/Minitab.

Errades detectades
Pgina 37: A la segona taula diu ni = nP(Xi)360 . La frmula correcta s ni = 360P(Xi)

34

You might also like