You are on page 1of 138

Notes sobre Estadstica II

Xavier Vil Universitat Autnoma de Barcelona

Curs 2011-2012

Notes sobre Estadstica II

Reconeixement-NoComercial-CompartirIgual 3.0 No adaptada (CC BY-NC-SA 3.0)


Sou lliure de:

copiar, distribuir i comunicar pblicament l'obra fer-ne obres derivades

Amb les condicions segents:

Reconeixement:

Heu de reconixer els crdits de l'obra de la

manera especicada per l'autor o el llicenciador (per no d'una manera que suggereixi que us donen suport o rebeu suport per l's que feu l'obra).

No comercial:
comercials.

No podeu utilitzar aquesta obra per a nalitats

Compartir Igual:

Si altereu o transformeu aquesta obra, o

en genereu obres derivades, noms podeu distribuir l'obra generada amb una llicncia idntica a aquesta. Entenent que:

Renuncia

 Es pot renunciar a alguna d'aquestes condicions

si obteniu el perms del titular dels drets d'autor.

Domini Pblic

 Aquesta llicncia no afecta a la situaci de

l'obra o algun dels seus elements quan es trobi en el domini pblic, segons la legislaci vigent aplicable.

Altres drets

 Els drets segents no queden afectats de cap

manera per la llicncia:

 Els vostres drets de repartiment just o s just;  Els drets morals de l'autor;  Drets que altres persones poden ostentar sobre l'obra o sobre l's que se'n fa, com per exemple drets de publicitat
o privacitat.

Avs  Quan reutilitzeu o distribuu l'obra,


clar els termes de la llicncia de l'obra. Copyright

heu de deixar ben

1998-2011 Xavier Vil.

Aix s un resum fcilment llegible del text legal (la llicncia completa) que podeu trobar a

http://creativecommons.org/licenses/ by-nc-sa/3.0/legalcode

ndex

Introducci a l'estadstica inferencial


1.1 1.2 Inferncia estadstica: denici i mtodes d'inferncia . . . . . . . Denici de mostra aleatria simple i propietats . . . . . . . . . . 1.2.1 1.2.2 1.2.3 1.2.4 1.3 Mostratge Aleatori Simple (MAS). . . . . . . . . . . . . . Mostratge sistemtic. Mostratge estraticat. Mostratge per etapes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7
9 11 11 12 13 13

Distribuci dels principals estadstics mostrals: mitjana, varincia i proporci. 1.3.1 1.3.2 1.3.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 17 19 20 21

Mitjana mostral

La Varincia mostral . . . . . . . . . . . . . . . . . . . . . La Proporci mostral . . . . . . . . . . . . . . . . . . . .

1.4

Teorema Central del Lmit . . . . . . . . . . . . . . . . . . . . . .

Estimaci
2.1 2.2 2.3 Objectiu de l'estimaci estadstica . . . . . . . . . . . . . . . . .

23
23 23 24 24 26 26 26 27 28 28

Denici i caracterstiques d'un estimador . . . . . . . . . . . . . Propietats dels estimadors: biaix, ecincia i consistncia 2.3.1 2.3.2 . . . .

Biaix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ecincia 2.3.2.1 2.3.2.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Estimadors no esbiaixats

Estimadors esbiaixats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.3.3

Consistncia 2.3.3.1 2.3.3.2

Estimadors asimptticament inesbiaixats Estimadors consistents

. . . . . . . . . . . . . .

2.4

Mtodes d'estimaci puntual:

mxima versemblana i mtode 29

dels moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

NDEX

2.4.1 2.4.2 2.5

Estimaci per mxima versemblana . . . . . . . . . . . . Estimaci pel mtode dels moments . . . . . . . . . . . .

30 32 34 34 34

Mtodes d'estimaci per Intervals . . . . . . . . . . . . . . . . . . 2.5.1 Interval de conana per la mitjana 2.5.1.1 2.5.1.2 . . . . . . . . . . . .

Cas de poblaci Normal o mostra gran i

2 conegut 2
de-

Cas de poblaci Normal o mostra gran i sconegut

. . . . . . . . . . . . . . . . . . . . . .

35 36 38

2.5.2 2.5.3

Interval de conana per la varincia . . . . . . . . . . . . Interval de conana per la proporci . . . . . . . . . . .

Contrastos d'hiptesis paramtriques


3.1 Concepte de contrast paramtric: hiptesi nulla i hiptesi alternativa 3.2 3.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

41 43

Estadstic de prova i tipus d'error . . . . . . . . . . . . . . . . . .

Contrastos sobre la mitjana, la varincia i la proporci poblacional 45 3.3.1 3.3.2 3.3.3 Test de la mitjana () . . . . . . . . . . . . . . . . . . . . Test de la varincia ( ) . . . . . . . . . . . . . . . . . . . Test de la proporci poblacional ( ) . . . . . . . . . . . . 45 55 60 65 66 74 81 86 87 87 88 89 90

3.4

Contrastos de diferncies . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 3.4.2 3.4.3 Contrast sobre la diferncia de mitjanes Contrast sobre la diferncia de varincies Contrast sobre la diferncia de proporcions . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.5

Anlisi de la Varincia . . . . . . . . . . . . . . . . . . . . . . . . 3.5.1 3.5.2 3.5.3 3.5.4 3.5.5 Marc bsic . . . . . . . . . . . . . . . . . . . . . . . . . .

Contrast . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estadstic de contrast . . . . . . . . . . . . . . . . . . . .

Resultat del contrast . . . . . . . . . . . . . . . . . . . . . La taula ANOVA . . . . . . . . . . . . . . . . . . . . . . .

Anlisi de la bondat d'ajust i de la relaci entre variables


4.1 4.2 4.3 4.4 El contrast de la bondat d'ajust. . . . . . . . . . . . . . . . . . .

93
93 97 98

Tipus de relaci entre variables . . . . . . . . . . . . . . . . . . . El Contrast d'independncia entre variables qualitatives. . . . . . L'anlisi de la correlaci entre variables quantitatives: coecient

de correlaci i contrast d'hiptesi . . . . . . . . . . . . . . . . . . 102

NDEX

Introducci al model de regressi


5.1 5.2 5.3

111

Objectiu del model . . . . . . . . . . . . . . . . . . . . . . . . . . 111 Hiptesis per l'especicaci del model . . . . . . . . . . . . . . . 113

Estimaci per Mnims Quadrats Ordinaris (MQO) i les seves propietats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 5.3.1 5.3.2 5.3.3 5.3.4 Dades en diferncies amb respecte de la mitjana . . . . . 115

Obtenci dels estimadors MQO . . . . . . . . . . . . . . . 116 Estimaci de la varincia del terme d'error Propietats dels estimadors MQO 5.3.4.1 5.3.4.2 Propietats de Propietats de . . . . . . . . 117

. . . . . . . . . . . . . . 118

2 1

. . . . . . . . . . . . . . . . . . 118 . . . . . . . . . . . . . . . . . . 119

5.4

Contrastaci del model . . . . . . . . . . . . . . . . . . . . . . . . 120 5.4.1 5.4.2 Intervals de conana per Contrasts d'hiptesis per

1 i 2 1 i 2

. . . . . . . . . . . . . . 120 . . . . . . . . . . . . . . 121

5.5

Coecient de Bondat de l'ajust i relaci entre la correlaci i l'anlisi de la regressi . . . . . . . . . . . . . . . . . . . . . . . . 121 5.5.1 5.5.2 El Coecient de determinaci (o de Bondat d'ajust) Relaci entre la correlaci i l'anlisi de la regressi . . . 121 . . . . 123

5.6

Previsi 5.6.1 5.6.2

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

Estimaci puntual de

Yn+1

. . . . . . . . . . . . . . . . . 125 . . . . . . . . . . . . . . . 125

Estimaci per intervals de

Yn+1

A Apndix: Taules Estadstiques


A.1 A.2 A.3 A.4 A.5

131

Distribuci Normal estndard . . . . . . . . . . . . . . . . . . . . 132 Distribuci Distribuci Distribuci

t student
2

. . . . . . . . . . . . . . . . . . . . . . . 133

(khi-quadrat) . . . . . . . . . . . . . . . . . . . . . 134 de Snedecor . . . . . . . . . . . . . . . . . . . . . . 135

Valors pel contrast Kolmogorov-Smirnov . . . . . . . . . . . . . . 138

NDEX

Captol 1
Introducci a l'estadstica inferencial

Imagineu un investigador que pretn explicar algun fet del mn real. Per exemple, podem imaginar a Newton intentant explicar perqu cauen les pomes o, com a cas ms familiar, un economista intentant explicar perqu hi ha atur. Normalment, el que un investigador fa es pot desglossar en tres parts:

1. Observar la realitat per tal de concretar el problema a estudiar i obtenir-ne informaci. 2. Reexionar sobre el problema. 3. Oferir una explicaci o Teoria sobre el problema.

El paper de l'Estadstica resulta de vital importncia pel primer d'aquests tres passos . Efectivament, per tal d'estudiar un problema cal observar el mn real i veure com es manifesta aquest problema. D'altra banda, no s difcil comprendre que un investigador no pot observar tota la realitat. Newton no pot observar totes les pomes que cauen ni un economista pot entrevistar tota la poblaci activa d'un determinat pas. Aix doncs cal fer un resum de la realitat, per cal fer-ho de tal manera que aquest resum sigui prou representatiu de la realitat com per que les conclusions que es puguin treure d'ell siguin aplicables amb abilitat a la realitat concreta de la que partim.
1

1 Moltes

vegades, en el primer d'aquests passos no s'obt cap informaci concreta de la

realitat mitjanant tcniques estadstiques, sin que tan sols s'observen pautes generals. A partir d'aquest coneixement l'investigador pot crear una teoria abstracta per tal d'explicar el problema que s'estudia. Aix s, per exemple, el qu va fer Newton o el qu fa la Teoria Econmica. Un cop es t aquesta teoria abstracta construda, es poden utilitzar diverses tcniques estadstiques per tal de comprovar si aquesta teoria s'ajusta a la realitat, com veurem en el Captol 5.

CAPTOL 1.

INTRODUCCI A L'ESTADSTICA INFERENCIAL

La inferncia estadstica s un conjunt de tcniques l'objectiu de les quals s treure conclusions sobre una realitat concreta a partir de l'estudi d'un resum d'aquesta realitat.

En el que segueix estudiarem amb detall aquest procs. En el primer captol estudiarem com es fa, de forma rigorosa, el resum de la

realitat esmentat abans i quines caracterstiques tenen els resultats de les anlisis
que es fan a partir d'aquest resum. En el segon captol veurem una primera aproximaci a com es poden treure conclusions sobre la realitat que volem estudiar a partir del resum que d'ella es fa. El tercer i quart captol presenten tcniques ms sosticades per a poder fer inferncia sobre la realitat a partir dels resultats ms elementals estudiats en el captol 2. Finalment, el cinqu captol constitueix una introducci a l'anlisi de la regressi lineal, una tcnica d'anlisi estadstica amplament utilitzada en economia (i d'altres disciplines) per a estudiar la relaci que existeix entre un parell de variables. Val a dir que el contingut d'aquest primer captol s de vital importncia tant per la bona comprensi dels captols que el segueixen com per a formar-se una idea global del mtode d'anlisi de la inferncia estadstica. Per aquest motiu, es recomana vivament que l'estudi d'aquest captol es faci amb cura i que els seus continguts s'assimilin correctament abans d'abordar l'estudi dels altres captols.

En aquest captol estudiarem com es fa, de forma rigorosa, el resum de la realitat esmentat abans i quines caracterstiques tenen els resultats de les anlisis que es fan a partir d'aquest resum. Resulta important entendre que l'estadstica es basa en eines matemtiques

probabilstiques. Aix doncs, les conclusions que es puguin extreure de l'estudi


d'aquest resum no seran certes per tota la realitat amb total seguretat, sin que ho seran amb una determinada probabilitat. Per exemple, quan es fa una enquesta electoral s clar que els resultats de l'enquesta no es corresponen exactament al resultat nal de les eleccions. No obstant aix, si l'enquesta est ben feta, s a dir, el resum de la realitat (qu en aquest cas correspon al conjunt de gent que s'ha entrevistat) s prou representatiu de la realitat en el seu conjunt (en aquest cas tot el cens electoral), hi haur una determinada probabilitat de que el resultat nal de les votacions sigui molt semblant al que prediu l'enquesta. En les seccions que segueixen veurem quins sn els components bsics de qualsevol anlisi estadstica i les caracterstiques matemtiques (probabilstiques) que tenen.

1.1.

INFERNCIA ESTADSTICA: DEFINICI I MTODES D'INFERNCIA9

1.1 Inferncia estadstica: denici i mtodes d'inferncia


Denirem i descriurem a continuaci els quatre conceptes que conguren la base de la inferncia estadstica. Aquests conceptes estan molt relacionats entre si, i resulta de vital importncia el comprendre aquesta relaci i no confondre'ls.

Poblaci s el conjunt d'elements que s'estudia2 i sobre el qual es vol treure


una conclusi amb respecte d'alguna caracterstica seva.

Exemple 1.1.1 Totes les pomes del mn. La caracterstica que es


vol estudiar s la de si cau o no cau.

Exemple 1.1.2 Poblaci activa a la Uni Europea. La caracterstica que es vol estudiar s la de si est aturat o no.

Exemple 1.1.3 Producci de xips Intel en un dia concret. La caracterstica que es vol estudiar s la de si estan defectuosos o no.

Mostra s un subconjunt de la poblaci utilitzat per aplicar les tcniques de la inferncia estadstica i treure conclusions sobre la poblaci. Exemple 1.1.4 50 pomes del jard de Newton. Exemple 1.1.5 Enquesta de Poblaci Activa a la U.E. Exemple 1.1.6 25 xips Intel dels produts en un dia concret. Parmetre s la caracterstica de la poblaci qu es vol estudiar. Aquesta
caracterstica ha de ser una caracterstica numrica valor ha de ser desconegut
4 3

i, evidentment, el seu

Exemple 1.1.7 Quina s la proporci de pomes que cauen. Exemple 1.1.8 Quina s la proporci d'aturats a la U.E. Exemple 1.1.9 Quina s la proporci de xips Intel dels produts en
un dia concret que surten defectuosos.

Estadstic s un clcul que es fa amb els elements de la mostra per tal d'obtindre una aproximaci al valor del parmetre que ens interessa. s important notar que aquest valor s conegut (ja qu el calculem) i serveix per a treure conclusions sobre el valor del el que ens interessa.

parmetre, que s desconegut i s


en el captol dedicat a la

2 En

aquest sentit, la

Introducci a l'estadstica

Poblaci s el que anomenvem realitat

3 Tamb 4 Si

es poden estudiar caracterstiques no numriques, per les tcniques utilitzades

sn diferents de les que veurem aqu. No obstant aix, en el Captol 4 veurem com fer alguns d'aquests anlisis el valor del

parmetre fos conegut no caldria fer cap anlisi estadstica.

10

CAPTOL 1.

INTRODUCCI A L'ESTADSTICA INFERENCIAL

Exemple 1.1.10 Quina s la proporci de pomes que cauen entre


les 50 pomes del jard de Newton.

Exemple 1.1.11 Quina s la proporci d'aturats que surt a l'Enquesta de Poblaci Activa a la U.E.

Exemple 1.1.12 Quina s la proporci de xips Intel dels 25 que


hem seleccionat d'entre tots els produts en un dia concret que surten defectuosos.

A partir d'aquests conceptes bsics, el procs de la inferncia estadstica opera de la segent manera:

1. A partir de la

mostratge que explicarem ms endavant, s'obt una 2. A partir de la l'obtenci d'un

poblaci que es vol estudiar, i mitjanant tcniques de mostra. mostra obtinguda es realitzen els clculs necessaris per estadstic. estadstic, i mitjanant alguna tcnica d'inferncia es-

3. A partir d'aquest sobre el

tadstica de les qu veurem en els altres captols, es treuen conclusions tica de la

parmetre poblacional desconegut que representa la caracterspoblaci que volem estudiar.

Aquest procs es pot representar amb el grc de la Figura 1.1.

Poblacio

Parametre (desconegut) Inferencia Estadistica

Mostreig

Mostra

Estadistic (conegut)

Figura 1.1: El procs de la inferncia Estadstica

Aix doncs, fent servir la terminologia que acabem d'introduir, podem re-denir la inferncia estadstica de manera ms precisa a la feta a la introducci

Denici 1.1.13 la inferncia Estadstica s una disciplina l'objectiu


de la qual s treure conclusions sobre una d'una

poblaci a partir de l'estudi mostra mitjanant tcniques probabilstiques.

1.2.

DEFINICI DE MOSTRA ALEATRIA SIMPLE I PROPIETATS

11

1.2 Denici de mostra aleatria simple i propietats


Veurem en qu consisteix un mostratge, s a dir, com es pot extreure una mostra a partir d'una poblaci. s important notar que aquest procs no es pot fer de qualsevol manera si el que pretenem s fer servir l'estudi d'aquesta mostra per a treure conclusions sobre la poblaci original. En aquest sentit existeixen tcniques rigoroses i sistemtiques dissenyades a l'efecte. Presentarem a continuaci les tcniques ms bsiques, ja que l'estudi en profunditat del mostreig s una disciplina extensa que s'escapa de l'abast d'aquestes notes. La segent denici explica en qu consisteix un mostratge

Denici 1.2.1 Un

treure una mostra a partir d'una poblaci donada de forma que resulti

sentativa d'aquesta poblaci

mostratge consisteix en una tcnica sistemtica per a exreprerepresentativa. Efectivament, si

La paraula clau en aquesta denici s la de

pretenem que l'estudi de la mostra ens serveixi per a treure conclusions ables sobre la poblaci, voldrem que aquesta mostra sigui (en la seva estructura) el ms del a la poblaci original. Per exemple, si volem fer una enquesta electoral i preguntem la intenci de vot noms als vens d'un barri ric, s clar que les seves respostes no seran la poblaci. Hi ha diferents tipus de mostratge, depenent de les caracterstiques de l'estudi que es vulgui realitzar. Els ms importants sn:

representatives de la intenci de vot del conjunt de

1.2.1 Mostratge Aleatori Simple (MAS).


s el ms aleatori de tots els mostratges i el que prendrem com a referncia. Consisteix en que tots els elements de la de forma part de la

poblaci tenen la mateixa probabilitat mostra. s a dir, la mostra es realitza totalment a l'atzar.

Si pensem en totes les possibles mostres diferents que es poden obtindre d'una poblaci determinada, cada una d'aquestes mostres t la mateixa probabilitat de ser la mostra seleccionada per l'estudi.

Exemple 1.2.2 Considerem la poblaci formada per noms quatre elements


Poblacio

= {A, B, C, D}

Si volem extreure una mostra de mida 2, per exemple, trobem que hi ha 6 mostres possibles (Taula 1.1)
Mostra 1 Mostra 2 Mostra 3 Mostra 4 Mostra 5 Mostra 6

{A, B }

{A, C }

{A, D}

{B, C }

{B, D}

{C, D}

Taula 1.1: Possibles mostres

Aix doncs, en un Mostratge Aleatori Simple (MAS), cada una d'aquestes mostres 1 t la mateixa probabilitat de ser la mostra seleccionada, 6 en aquest cas.

12

CAPTOL 1.

INTRODUCCI A L'ESTADSTICA INFERENCIAL

De forma equivalent podem dir que cada un dels quatre elements de la poblaci t la mateixa probabilitat de formar part de la mostra seleccionada. Efectivament, donat que cada un d'ells apareix en 3 de les possibles mostres i cada mostra 1 t probabilitat 6 de ser la mostra seleccionada, aleshores la probabilitat de que 1 1 1 1 qualsevol d'ells formi part de la mostra seleccionada s 6 + 6 + 6 = 2 .
1 Aquesta probabilitat de 2 que t cada element de la poblaci de formar part de la mostra seleccionada tamb es podria entendre com que cada element de la 1 poblaci t probabilitat 4 de ser el primer element de la mostra i probabilitat 1 3 3 4 de ser el segon element de la mostra donat que no ha estat el primer; en 1 3 1 1 total una probabilitat 4 + 3 4 = 2 de ser un dels 2 elements de la mostra.

1.2.2 Mostratge sistemtic.


s una variaci del MAS que es realitza en casos en que la mostra s'ha d'obtindre d'una poblaci que no s xa sin que varia amb el temps. El segent exemple illustra com funciona aquest tipus de mostratge.

Exemple 1.2.3 Imaginem una fbrica que produeix xips Intel i que vol estudiar quants d'aquests xips surten defectuosos al cap del dia. Aquesta fbrica t un procs de producci en cadena de manera que un cop el xip s produt a la cadena de producci entra automticament en la cadena d'embalatge i a continuaci en la d'enmagatzenament. Suposem que la fbrica produeix 100 xips al dia i que vol treure una mostra de 5 xips per tal de realitzar el seu estudi. Evidentment, el que no es pot fer s esperar que acabi el dia, aturar totes les cadenes del procs i seleccionar aleshores els 5 xips que formaran part de la mostra, ja que aix resultaria molt costs per l'empresa. Interessaria trobar una manera de seleccionar els xips que formaran part de la mostra sense haver d'aturar el procs. El que es fa en aquests casos s el segent:

1. Seleccionar a priori els xips que es desviaran de forma sistemtica del procs productiu per formar part de la mostra. En aquest exemple, si es produeixen 100 xips i es volen seleccionar 5, caldr seleccionar 1 de cada 20 xips produts 2. Se selecciona un nmero entre 1 i 20 a l'atzar (aqu s on interv la component aleatria del mostratge). Imaginem que surt el nmero 6. 3. D'acord amb l'obtingut en els passos anteriors, es decideix que els xips nmeros 6, 26, 46, 66 i 86 (s a dir, a partir del nmero 6 seleccionat es va sumant 20) seran els que formaran part de la mostra. 4. Es programen les mquines de la cadena productiva de forma que aquests xips seleccionats siguin desviats del procs productiu i no passin a la segent cadena d'embalatge. La resta de xips produts continuen el seu procs habitual.

D'aquesta manera es pot obtenir una mostra aleatria sense haver d'interrompre el procs de producci en cadena.

1.2.

DEFINICI DE MOSTRA ALEATRIA SIMPLE I PROPIETATS

13

1.2.3 Mostratge estraticat.


s una altra variaci del MAS que es realitza quan es t molta informaci sobre l'estructura de la poblaci, de manera que es pot obtenir una mostra ms representativa de la poblaci que la qu s'obtindria directament amb un MAS. El segent exemple illustra com funciona aquest tipus de mostratge.

Exemple 1.2.4 Imaginem que es vol realitzar una enquesta d'intenci de vot
a la ciutat de Barcelona. Se sap que la intenci de vot est molt correlacionada amb el districte de la ciutat on es viu. D'aquesta manera, un votant del districte de Pedralbes t una probabilitat ms alta de votar conservador que un votant del Poble Sec, qu probablement votar ms progressista. Per tal d'evitar que un MAS ens seleccioni molts votants del mateix barri i pocs d'un altre, la mostra que es vol obtenir (de mida exactament

n)

se subdivideix en varies submostres (una per

a cada districte de la ciutat) de forma que la suma d'aquestes submostres sigui

n.

Per a obtenir cada una d'aquestes submostres es realitza un MAS

independentment a cada districte de la ciutat. El resultat d'aquest tipus de mostratge s ms representatiu dels diferents votants de la ciutat, ja que cada districte segur que est representat a la mostra. L'nic problema s que cal tenir ms informaci de la que requereix un MAS. En aquest exemple caldria conixer quin pes t la poblaci de votants de cada districte de la ciutat amb respecte de la poblaci total de votants a Barcelona. Un cop aix es coneix, el pes de les diferents submostres amb respecte a la mostra total hauria d'ajustar-se al pes que cada districte de la ciutat t amb respecte al total de Barcelona.

1.2.4 Mostratge per etapes.


s una variaci ms del MAS que es realitza quan l'estructura de la poblaci s tal que la realitzaci directa d'un MAS resultaria molt costosa. El segent exemple illustra com funciona aquest tipus de mostratge.

Exemple 1.2.5 Imaginem que es vol realitzar una enquesta sobre la situaci
de les escoles pbliques a Catalunya. Donada la complexitat d'aquesta enquesta, cal desplaar-se a cada una de les escoles pbliques seleccionades a la mostra i entrevistar al seu director. En aquest context, un MAS podria seleccionar una mostra formada per escoles molt disseminades per tot el territori, el que suposaria una gran despesa en viatges. Per tal d'evitar aix, el procediment que es realitza s el segent: 1. Realitzar un MAS entre totes les comarques de Catalunya de forma que se seleccionin 10 comarques per visitar. 2. Dins de cada una de les 10 comarques seleccionades, realitzar un altre MAS per seleccionar 20 municipis per visitar. (El que dona un total de 200 municipis per visitar) 3. Dins de cada un dels 200 municipis seleccionats, realitzar un MAS per a seleccionar 1 escola pblica de cada municipi per visitar. (El que dna un total de 200 escoles)

14

CAPTOL 1.

INTRODUCCI A L'ESTADSTICA INFERENCIAL

D'aquesta manera s'ha seleccionat una mostra de 200 escoles pbliques de tot Catalunya per visitar reduint-se el cost dels desplaaments (si el comparem amb el que sortiria d'un MAS) en estar concentrades en noms 10 comarques. El problema d'aquest mostratge s que la mostra obtinguda d'aquesta manera s menys representativa del conjunt de Catalunya, ja que moltes comarques no apareixen a la mostra.

En algunes circumstncies, l'obtenci de la mostra es realitza sense que l'atzar intervingui en cap moment (per exemple, demanant voluntaris per a experimentar un nou tractament mdic). Aquests tipus de tcniques resulten habitualment en mostres poc representatives del conjunt de la poblaci. A ms, donat que no hi interv cap component aleatria, no es poden fer servir instruments probabilstics pel seu estudi, per la qual cosa les tcniques de la inferncia estadstica no poden ser aplicades correctament.

En el que segueix, suposarem sempre que el mostratge utilitzat per a obtenir la mostra s un MAS.

1.3 Distribuci dels principals estadstics mostrals: mitjana, varincia i proporci.


Un cop s'ha obtingut una mostra (suposarem que mitjanant un MAS), comena el procs de treballar amb ella, analitzar-la i treure conclusions. En aquest sentit, la principal tasca a fer s l'obtenci d'un ens servir per a treure conclusions sobre el estem interessats. La segent denici formal ens recorda en qu consisteix el concepte d'estadstic introdut en la secci anterior. A continuaci es deneix el concepte d'estimaci. Cal remarcar qu, tot i que sn conceptes molt semblants i relacionats, cal no confondre'ls.

estadstic, un dels

elements bsics de la inferncia estadstica presentats en la secci anterior, que

parmetre de la poblaci en el que

Denici 1.3.1 Un

estadstic, (estadgraf o estimador)

, s una frmula en la

qu se substitueixen els valors (observacions) mostrals per a obtenir una aproximaci del valor d'algun parmetre poblacional desconegut.

Denici 1.3.2 Una


5 El

estimaci

s un valor concret d'un estimador obtingut

a partir d'una mostra concreta.


fet de que el mateix concepte pugui rebre diferents noms no ha de confondre. Normal-

ment s'utilitza un o l'altre depenent del tipus d'anlisi que es realitza. En aquest sentit, en el Captol 2 parlarem d' Sempre ens referirem al mateix concepte, per l'utilitzarem de manera diferent en cada cas.

Estimador, mentre que en els Captols segents parlarem d'Estadstic.

1.3.

DISTRIBUCI DELS PRINCIPALS ESTADSTICS MOSTRALS: MITJANA, VARINCIA I PROPORCI.

Aix doncs, un estadstic no s un nmero sin una frmula, mentre que una estimaci si que s un nmero que s'obt aplicant aquesta frmula (l'estadstic) als valors concrets de la mostra que hem obtingut. s important entendre que quan la mostra que serveix de base pel clcul de l'estadstic prov d'un mostratge aleatori (mostra aleatria), l'estadstic ser una variable aleatria : l'estadstic pot prendre valors diferents amb probabilitats diferents, depenent de quina sigui la mostra obtinguda. En aquest sentit, una

estimaci s una realitzaci concreta d'aquesta variable aleatria. El segent


exemple pretn claricar aquest fet.

Exemple 1.3.3 Suposem que volem conixer el nmero mig de cotxes de les
famlies d'una determinada poblaci. Per tal que l'exemple sigui illustratiu, suposarem que la poblaci es molt petita, de noms 4 famlies, Poblaci

= {A, B, C, D} B
i

Suposem que la famlia i la famlia

t 1 cotxe, les famlies

tenen 2 cotxes cada una

en t 4, per que aix no ho sabem (si ho sabssim no caldria fer

cap anlisi). Per a realitzar l'estudi volem obtindre una mostra de 2 famlies. A partir d'aquesta mostra calcularem el nmero mig (la mitjana) de cotxes a la mostra i aix ens servir per a treure alguna conclusi sobre el nmero mig de cotxes a la poblaci. Aix doncs, en aquest exemple, la mitjana mostral (la mitjana aritmtica dels elements de la mostra) ser el nostre fer servir per a treure conclusions sobre el conjunt o mitjana poblacional. La taula 1.3 resumeix les 6 possibles mostres que es poden obtindre d'aquesta poblaci, quina seria la probabilitat d'obtindre cada una d'elles (que ser la mateixa ja qu hem fet un MAS) i quin seria el resultat de calcular la mitjana

estadstic, que es podr parmetre de la poblaci que ens

interessa, qu s el nmero mig de cotxes de les famlies de la poblaci en el seu

mostral en cada una de les 6 mostres

Mostra 1 Elements Probabilitat Estimaci

Mostra 2

Mostra 3

Mostra 4

Mostra 5

Mostra 6

{A, B }
1 6
1.5

{A, C }
1 6
1.5

{A, D}
1 6
2.5

{B, C }
1 6
2

{B, D}
1 6
3

{C, D}
1 6
3

Taula 1.3:

Possibles mostres, probabilitat de cada una i valor de l'estadstic

(estimaci) en cada cas.

Aix doncs, en aquest exemple veiem que l'

estadstic

que estem fent servir

(la mitjana mostral) pot tenir 4 valors diferents, depenent de quina de les 6 possibles mostres sigui la mostra seleccionada pel MAS. s fcil veure que, donat que el valor 1.5 ens pot sortir en dos casos (Mostra 1 i Mostra 2) i que cada un d'aquests casos t la mateixa probabilitat de ser la mostra seleccionada 1 pel MAS ( 6 ), aleshores la probabilitat que el nostre prengui aquest valor (1.5) ser

estadstic

16

CAPTOL 1.

INTRODUCCI A L'ESTADSTICA INFERENCIAL

P (estimador = 1.5) = P (Mostra 1) + P (Mostra 2) =

1 1 1 + = 6 6 3

A continuaci resumim quins sn aquests valors que pot prendre l' manera que hem fet amb el valor 1.5)

estadstic i

quina s la probabilitat de que prengui cada un d'ells (calculades de la mateixa

estadistic

1.5 2 2.5 3

p= p= p= p=

1 3 1 6 1 6 1 3

Aix doncs, veiem com el nostre

estadstic

pot prendre diferents valors (4 en

aquest cas) amb diferents probabilitats. Per tant, l'


aleatria, tal com havem indicat abans.

estadstic s una

variable

Resultar, doncs, d'utilitat el poder conixer les distribucions de probabilitat dels

estadstics ms comunament estudiats. estadstics o estimadors que s'estudien sn la mitjana mostral,

Els principals

la varincia mostral i la proporci mostral. En la presentaci d'aquests estadstics suposarem que hem obtingut una mostra de

elements mitjanant un MAS i que els seus elements sn

{x1 , x2 , xn }
Aix mateix, suposarem que aquesta mostra s'ha obtingut d'una poblaci que segueix una determinada distribuci. Aquesta distribuci de la poblaci original s important ja que afecta als possibles valors de la mostra i, per tant, als possibles valors dels

estadstics que apliquem a la mostra, tal com hem vist a

l'exemple anterior. Efectivament, en aquest exemple hem vist que la poblaci est distribuda de forma que hi ha 1 element amb un cotxe, 2 elements amb 2 cotxes i 1 element amb 4 cotxes. Per tant, si l'element l'atzar d'aquesta poblaci tindrem que:

xi

de la mostra s'obt a

p(xi = a) =

1 4 1 2 1 4

si a = 1 si a = 2 si a = 4 per qualsevol altre valor de

Aquesta s, en aquest cas, la distribuci de la poblaci. Grcament aquesta distribuci apareix a la Figura 1.2

En general6 , suposarem que la nostra mostra s'ha obtingut mitjanant un MAS a partir d'una poblaci que es distribueix Normalment amb
6 Hi
ha casos especials que considerarem en el seu moment

1.3.

DISTRIBUCI DELS PRINCIPALS ESTADSTICS MOSTRALS: MITJANA, VARINCIA I PROPORCI.

0.5

0.25

Figura 1.2: Poblaci de l'exemple 1.3.3

una certa

mitjana poblacional poblacional 2


. tindrem que per a qualsevol element

i una determinada

varincia
a
i

Qu vol dir aix ? Doncs vol dir que, per a qualsevol parell de nmeros

b,

xi

de la mostra,

p(a xi b) = p(a xi b ) = a xi b a b ) = p( Z )

= p(
on

representa a la distribuci Normal estndard (o Normal tipicada), ha-

bitualment denotada per

N (0, 1),

les probabilitats de les qual podem trobar

tabulades. La Figura 1.3 mostra la representaci grca. Passem a continuaci a veure quines sn les distribucions dels principals estadstics qu, com hem vist, depenen de quina sigui la distribuci de la poblaci de la que s'ha obtingut la mostra. Trobarem tamb en cada cas quina s l'esperana i la varincia d'aquests estimadors.

1.3.1 Mitjana mostral


La mitjana mostral, denotada per mitjanant la formula:

, X

s l'estadstic que s'obt de la mostra

= X
i=1

xi n

18

CAPTOL 1.

INTRODUCCI A L'ESTADSTICA INFERENCIAL

p(a<x<b)

Figura 1.3: Poblaci distribuda Normalment

i que s'utilitza habitualment per a fer inferncia sobre la mitjana poblacional

La seva distribuci depn de les caracterstiques de la poblaci i de la mostra:

1. Si la poblaci s Normal (hiptesi de Normalitat), s a dir, aleshores

Xi N (, 2 ) i,

N (, ) X n
degut a les propietats de la mitjana. 2. Si la poblaci no s Normal per la mostra s gran, aleshores

X
2 n

N (0, 1)

(aproximadament)

degut al Teorema Central del Lmit que estudiarem ms endavant. 3. Si la poblaci no s Normal i la mostra s petita, aleshores es desconeix en general la distribuci de la mitjana 4. Si es desconeix

. X

i la poblaci s Normal, aleshores

X
S2 n

tn1

on

S2

s la

varincia mostral (qu veurem a continuaci) i tn1 s la


amb

distribuci

la distribuci Normal estndard

t Student

n 1 graus de llibertat, qu s molt similar N (0, 1) i tamb es troba tabulada.

Trobarem a continuaci l'esperana i la varincia d'aquest estadstic. Per fer-ho utilitzarem les propietats conegudes de l'esperana i la varincia d'una variable

1.3.

DISTRIBUCI DELS PRINCIPALS ESTADSTICS MOSTRALS: MITJANA, VARINCIA I PROPORCI.

aleatria . Suposarem per aix que la mostra s'ha obtingut d'una poblaci amb mitjana poblacional

i varincia poblacional

2 .

s a dir, qu

E (xi ) =

V (xi ) =

per a qualsevol element

xi

de la mostra.

) = E( E (X
i=1

xi )= n

E(
i=1

xi )= n

i=1

1 E (xi ) = n

i=1

= n

) = V ( V (X
i=1

xi )= n

V(
i=1

xi )= n

i=1

1 V (xi ) = n2

i=1

2 2 = n2 n

Per tant, en el cas de la mitjana mostral

tenim que

2 ) = V (X ) = E (X n

1.3.2 La Varincia mostral


La varincia mostral, denotada per formula:

S2,

s l'estadstic que s'obt mitjanant la

S2 =

1 n1

)2 ( xi X

i que s'utilitza habitualment per a fer inferncia sobre la varincia poblacional

2 .

La seva distribuci tamb depn de les caracterstiques de la poblaci:

1. Si la poblaci s Normal, (Xi

N (, 2 ) i),

aleshores:

(n 1)S 2 2 n1 2
on

2 n1

s la distribuci khi-quadrat amb

tamb es troba tabulada.

(Aquesta distribuci correspon a la suma de

n1

graus de llibertat, que

n1

Normals estndard elevades al quadrat).

2. Si la poblaci no s Normal, aleshores es desconeix la distribuci sigui quin sigui el mida de la mostra. Donat que noms coneixerem la distribuci de la varincia mostral si la poblaci s Normal, farem servir el fet que en aquest cas tenim una distribuci

2 n1

per

trobar l'esperana i la varincia d'aquest estadstic de forma ms simple. Per fer-ho utilitzarem les propietats conegudes de l'esperana i la varincia d'una variable aleatria

1).

Suposarem per tant que la mostra s'ha obtingut d'una poblaci Normal amb

2 2 , concretament que E (2 n1 ) = n 1 i que V (n1 ) = 2(n

mitjana poblacional

i varincia poblacional

2 .

s a dir, que

per a qualsevol element

xi

de la mostra i en conseqncia

xi N ( 2 )

(n 1)S 2 2 n1 2
7 Com
per exemple que l'esperana de la suma s la suma d'esperances, etc.

20

CAPTOL 1.

INTRODUCCI A L'ESTADSTICA INFERENCIAL

aleshores tindrem que

E(

(n 1)S 2 (n 1) )=n1 E (S 2 ) = n 1 E (S 2 ) = 2 2 2

V(

(n 1)2 (n 1)S 2 2 4 2 2 ) = 2( n 1) V ( S ) = 2( n 1) V ( S ) = 2 ( 2 )2 n1

1.3.3 La Proporci mostral


La proporci mostral s un cas especial. S'utilitza quan estem interessats en conixer quina s la proporci d'elements d'una poblaci que tenen una determinada caracterstica. Per exemple, podrem estar interessats en conixer quina s la proporci de fumadors entre els estudiants de 2on de la facultat (en aquest cas, la caracterstica que ens interessa s la de si un estudiant fuma o no), o quina s la proporci de xips Intel que surten defectuosos en un dia concret (en aquest cas, la caracterstica que ens interessa s la de si un xip s defectus o no) La proporci mostral, denotada per formula:

s l'estadstic que s'obt mitjanant la

=
on

xi n

xi = 1

si l'i-ssim element de la mostra posseeix la caracterstica que s'est

estudiant i

xi = 0

si no la t.

La proporci mostral

s'utilitza habitualment per a fer inferncia sobre la pro-

porci poblacional
cada observaci

En aquest cas, la poblaci no ser mai Normal, ja que

xi

prov d'una variable de Bernoulli . Efectivament, suposem

per exemple que estudiem una poblaci de 100 individus dels quals 45 sn fumadors, s a dir, la proporci poblacional s del 45 % element

= 0.45.

D'aquesta

poblaci en traiem una mostra de mida 10. s fcil veure que per a qualsevol

xi

d'aquesta mostra tindrem que:

p(xi = 1) =

45 = 0.45 100

p(xi = 0) =

55 = 0.55 100 xi
segueix una distribuci

En conseqncia, veiem que cada valor de la mostra

Bernoulli de parmetre
desconeguda)

(on

s l'autntica proporci poblacional que s

Pot demostrar-se aleshores que dir que en general:

xi /n

s una variable aleatria Binomial.

Tanmateix, donat que es pot aproximar la Binomial per una Normal, podem

1.4.

TEOREMA CENTRAL DEL LMIT

21

1. Si la mostra s gran

(n (1 ) 5), N (,

aleshores (de forma aproximada):

(1 ) ) n

Aquesta aproximaci per la Normal s tant ms bona quant ms a prop de

0, 5

estigui

2. Si la mostra no s gran, aleshores l'aproximaci per la Normal s molt inexacta.

Respecte de l'Esperana i la Varincia de la proporci mostral, tenim que:

E ( ) =

V ( ) =

(1 ) n

1.4 Teorema Central del Lmit


Aquest teorema estableix un resultat teric que resulta d'extraordinria importncia per la inferncia estadstica. Diu, bsicament, que la suma de variables aleatries idntiques, tinguin la distribuci que tinguin, s'aproxima a una variable aleatria amb distribuci Normal. Des d'un punt de vista prctic, aquest resultat ens permet treballar amb la mitjana mostral com si fos una variable aleatria Normal, tot i que la poblaci d'origen de la que s'obt la mostra no segueixi una distribuci Normal. A ms, aquesta aproximaci s tan ms bona quan ms gran sigui la mostra. Formalment,

Theorem 1.4.1 Siguin X1 , X2 , . . . , Xn un conjunt de variables aleatries, in2 dependents i que tenen idntica distribuci amb esperana i varincia .
Aleshores, si

s sucientment gran, la variable aleatria

= 1 X n

Xi
i=1 2 n

segueix, aproximadament, una distribuci Normal amb


De forma general s'accepta que una mida mostral

X =

2 X =

n > 30 ja garanteix una bona

aproximaci a la distribuci Normal. Per tant, sovint s'utilitza la transformaci

Z=

X
2 n

N (0, 1)

en moltes tcniques de la inferncia estadstica.

22

CAPTOL 1.

INTRODUCCI A L'ESTADSTICA INFERENCIAL

Captol 2
Estimaci

2.1 Objectiu de l'estimaci estadstica


L'estimaci estadstica s la tcnica de inferncia estadstica ms simple i que permet una aproximaci ms rpida al valor del parmetre poblacional de inters. Aix, el seu objectiu s proporcionar una primera mesura orientativa del parmetre a estudi, mesura que podr ser completada i enriquida amb d'altres tcniques de inferncia estadstica que veurem ms endavant.

2.2 Denici i caracterstiques d'un estimador


En el captol anterior hem vist quins sn els principals estadstics que s'utilitzen en la inferncia estadstica. En la denici 1.3.1 hem vist que un estadstic pot rebre noms diferents depenent del que es vulgui fer amb ell. En aquest sentit, en aquest captol els estadstics rebran el nom d'estimadors, ja que els farem servir per a obtindre una

estimaci del parmetre poblacional que ens interessa, s a

dir, una aproximaci al seu valor real (que ens s desconegut). Ms endavant, en altres captols, tornarem a parlar d'estadstics, ja que no els farem servir per a obtindre aquestes estimacions sin com a part de clculs ms elaborats que ens permetran obtindre conclusions sobre el parmetre poblacional a estudi mitjanant altres tcniques. Aix, recordant el que hem vist a la secci 1.3, tenim

Denici 2.2.1 Un

estimador s una frmula en la qu se substitueixen els

valors (observacions) mostrals per a obtenir una aproximaci del valor d'algun parmetre poblacional desconegut.

23

24

CAPTOL 2.

ESTIMACI

Denici 2.2.2 Una

estimaci

s un valor concret d'un estimador obtingut

a partir d'una mostra concreta.

estimador no s un nmero estimaci si que s un nmero que s'obt aplicant aquesta frmula (l'estimador) als valors concrets de la mostra que hem obtingut. Aix mateix, cal recordar que un estimador s una variable
s important recordar en aquest punt que un sin una frmula, mentre que una aleatria, i que a la secci 1.3 hem vist quines sn les distribucions dels principals estimadors que es fan servir a la inferncia estadstica:

la mitjana mostral:

= X

1 n

n i=1 1 n1

xi
n i=1 (xi

la varincia mostral: la proporci mostral:

S2 = =

)2 X

1 n

n i=1

xi

Veurem com poden utilitzar-se aquests estimadors per tal de treure conclusions (de moment molt preliminars) sobre els parmetres poblacionals a estudi. L'estimaci puntual i l'estimaci per intervals seran les tcniques utilitzades. Per acabar el captol veurem els temes ms avanats d'estimaci per mxima

versemblana i estimaci pel mtode dels moments, que ens ajudaran a dissenyar estimadors quan no sabem quin s el que millor s'adequa a l'estudi d'un determinat parmetre poblacional, i la Fita de Cramer-Rao que ens ajudar a saber si el nostre estimador s ecient.

2.3 Propietats dels estimadors: biaix, ecincia i consistncia


Un cop coneixem els principals estadstics que es fan servir a la inferncia estadstica i les seves caracterstiques probabilstiques (bsicament, la seva distribuci, esperana i varincia), veurem en aquest captol les principals propietats de bondat que desitjarem que tinguessin els nostres estadstics (ara

estimadors)

si volem que proporcionin bones aproximacions (estimacions) dels parmetres poblacionals que ens interessen. En aquest sentit, un estimador pot, entre d'altres, satisfer o no satisfer les propietats de ser inesbiaixat, ecient i consistent que tot seguit veurem. En el que segueix, utilitzem la notaci genrica del parmetre poblacional

per

referir-nos a un estimador

sense especicar cap cas concret.

2.3.1 Biaix
Denici 2.3.1 Sigui

un

estimador del parmetre poblacional

El biaix de

es deneix com la diferncia entre el valor esperat de l'estimador i el valor

real del parmetre poblacional:

) = E ( ) B (

2.3.

PROPIETATS DELS ESTIMADORS: BIAIX, EFICINCIA I CONSISTNCIA25

Denici 2.3.2 Un estimador


parmetre poblacional

es diu que s un estimador inesbiaixat del

si el seu biaix s zero:

) = 0 B (

) = ) (o E (

Exemple 2.3.3 Sigui {x1 , x2 , . . . , xn } una mostra aleatria obtinguda d'una tenim poblaci amb mitjana poblacional . Aleshores, per la mitjana mostral X

) = E (X
Per tant,

s un estimador inesbiaixat de

Exemple 2.3.4 Sigui


tenim

{x1 , x2 , . . . , xn } una mostra aleatria obtinguda d'una 2 2 poblaci amb varincia poblacional . Aleshores, per la varincia mostral S E (S 2 ) = 2
Per tant,

S2

s un estimador inesbiaixat de

Exemple 2.3.5 Sigui


tenim

{x1 , x2 , . . . , xn } una mostra aleatria obtinguda d'una poblaci amb proporci poblacional . Aleshores, per la proporci mostral E ( ) =

Per tant,

s un estimador inesbiaixat de

La interpretaci de la propietat de ser inesbiaixat s molt simple. Pel que hem vist en el captol anterior, sabem que un estimador s una variable aleatria (s a dir, pot prendre diferents valors amb diferents probabilitats depenent de la mostra seleccionada). Per tant, s clar que s altament improbable que el valor concret (estimaci) que obtenim en aplicar-lo a una mostra concreta coincideixi exactament amb el valor del parmetre poblacional que estem estudiant. El que diu la propietat de ser inesbiaixat s que aix s cert en termes de la seva esperana. Dit en altres paraules, tot i que en aplicar l'estimador a una mostra concreta l'estimaci obtinguda no coincidir amb el valor del parmetre que volem estimar, si apliqussim l'estimador a 100 mostres diferents el promig de

26

CAPTOL 2.

ESTIMACI

les 100 estimacions obtingudes s'aproximaria molt al valor d'aquest parmetre, i aquesta aproximaci anir millorant si en comptes de 100 mostres ho fssim amb un nmero ms gran de mostres. Per tal de veure-ho ms clar podem comparar un estimador amb un tirador que vol encertar amb el valor autntic del parmetre poblacional (el centre de la diana). Un bon tirador (inesbiaixat) s un tirador que sempre apunta b, tot i que sempre existeix una petita probabilitat que el seu tret surti una mica desviat. Un mal tirador (esbiaixat) s un tirador que sempre apunta malament

2.3.2 Ecincia
El criteri d'ecincia d'un estimador que veurem a continuaci t dues versions diferents depenent de si parlem d'estimadors esbiaixats o inesbiaixats. Veurem per que, de fet, la segona versi inclou la primera com a cas particular.

2.3.2.1

Estimadors no esbiaixats

Denici 2.3.6 Siguin

dos estimadors no esbiaixats de

Aleshores,

l'estimador ms ecient s el de menor varincia.

2.3.2.2

Estimadors esbiaixats

Denici 2.3.7 Siguin

1 i 2 dos estimadors qualsevol de . Aleshores, l'es timador ms ecient s el de menor error quadrtic mig (EQM ) on: ) = E ( )2 = V ( ) + B ( )2 EQM (
El fet que la segona versi d'ecincia inclou la primera es veu en el fet que si en la segona versi el biaix dels dos estimadors que comparem s zero aleshores l'error quadrtic mitj s igual a la varincia.

Exemple 2.3.8 Considerem els segents estimadors de la mitjana poblacional

cional

calculats a partir d'una mostra obtinguda d'una poblaci de mitjana pobla i varincia poblacional 2

1 =

x1 + x2 + x3 3

2 =

x1 + x2 2

2.3.

PROPIETATS DELS ESTIMADORS: BIAIX, EFICINCIA I CONSISTNCIA27

comprovarem primer quin s el biaix d'aquests estimadors:

B ( 1 )

= = =

E ( 1 ) = E (

x1 + x2 + x3 )= 3

1 (E (x1 ) + E (x2 ) + E (x3 )) = 3 1 3 = = 0 3 x1 + x2 )= 2

B ( 2 )

= E ( 2 ) = E ( = =

1 (E (x1 ) + E (x2 )) = 2 1 2 = = 0 2

per tant, el dos estimadors sn inesbiaixats. Mirem aleshores quin dels dos t la varincia menor, aquest ser el ms ecient del dos:

V ( 1 )

= V( = =

x1 + x2 + x3 )= 3

1 (V (x1 ) + V (x2 ) + V (x3 )) = 9 1 2 2 3 = 9 3 x1 + x2 )= 2

V ( 2 )

= V( = =

1 (V (x1 ) + V (x2 )) = 4 1 2 2 2 = 4 2
s el ms ecient dels dos ja que t la var-

veiem aleshores que l'estimador 2 2 incia menor ( 3 < 2 )

La intuci sobre el signicat de l'ecincia d'un estimador tamb s simple. Si un estimador inesbiaixat s com un bon tirador que sempre apunta al centre de la diana, un estimador s ms ecient que un altre si li tremola menys els pols. s a dir, entre dos estimadors inesbiaixats, el ms ecient s el que est concentrat al voltant de la seva esperana. ms

2.3.3 Consistncia
Moltes vegades resulta difcil trobar estimadors ecients d'un determinat parmetre. En aquest cas es miren les propietats asimpttiques dels estimadors, que vol dir mirar quines propietats tenen aquests estimadors si la mostra que s'obt es pot fer tan gran com es vulgui. Veurem en aquest sentit les propietats de

biaix asimpttic i de consistncia

28

CAPTOL 2.

ESTIMACI

2.3.3.1

Estimadors asimptticament inesbiaixats

Denici 2.3.9 Es diu que un estimador


tendeix a innit. Formalment, de

del parmetre poblacional

asimptticament inesbiaixat si el seu biaix desapareix quan el mida de la mostra

s un estimador asimptticament inesbiaixat

si
n

) = 0 lim B (

Exemple 2.3.10 Considerem el segent estimador de la varincia poblacional

( 2 ) 2 = S
s fcil veure qu si
n i=1 (xi

n
n i=1 (xi

)2 X

S2 =
aleshores

)2 X n1

2 = n 1 S 2 S n n1 2 n1 n1 2 S )= E (S 2 ) = n n n

per tant

2 ) = E ( E (S
i aleshores

2 2 ) = E (S 2 ) 2 = n 1 2 2 = B (S n n

2 s un estimador esbiaixat de 2 ja que E (S 2 ) = 2 . No obstant s a dir, S 2 2 aix, S s un estimador asimptticament inesbiaixat de , ja que el seu biaix
desapareix a mesura que la mostra es va fent gran. Efectivament

2 ) = lim = 0 lim B (S n n n
2.3.3.2 Estimadors consistents

La propietat de consistncia no noms t en compte si el biaix desapareix quan la mostra es fa gran, sin que tamb mira qu passa amb la varincia. s a dir, es preocupa del comportament del gran

EQM

de l'estimador quan la mostra es fa

Denici 2.3.11 Es diu que un estimador


consistent si el seu Error Quadrtic Mitj la mostra tendeix a innit. Formalment,

del (EQM )

parmetre poblacional

desapareix quan el mida de si

un estimador consistent de

) = 0 lim EQM (

2.4.

MTODES D'ESTIMACI PUNTUAL: MXIMA VERSEMBLANA I MTODE DELS MOMENTS29

2 . Ja S 2 = n . Trobarem ara la seva varincia per tal d'analitzar el comportament del seu EQM
Exemple 2.3.12 Considerem l'estimador de
que hem vist abans, 2 2 ) sabem que s un estimador esbiaixat de i que el seu biaix s B (S quan la mostra tendeix a innit
2 2 4 2 2 ) = V ( n 1 S 2 ) = ( n 1 )2 V (S 2 ) = (n 1) 2( ) = 2(n 1) V (S n n n2 n1 n2

per tant
4 2 4 2 ) = V (S 2 ) + B (S 2 )2 = 2(n 1) + ( )2 = (2n 1) EQM (S n2 n n2

aleshores
n

2 ) = lim lim EQM (S

(2n 1) 4 =0 n n2 2

Per tant,

2 s S

un estimador consistent de

2.4 Mtodes d'estimaci puntual: mxima versemblana i mtode dels moments


Una estimaci puntual s la forma ms simple d'obtindre una al seu valor. Obtenir una

estimaci del

parmetre poblacional que ens interessi, s a dir, d'obtindre una aproximaci

estimaci puntual consisteix en aplicar l'estimador

que utilitzem a la mostra concreta que tenim.

Exemple 2.4.1 Suposem que d'una determinada poblaci estem interessats en


obtindre una aproximaci al valor de la seva mitjana poblacional hem vist abans, ja sabem que la mitjana mostral
1

Per lo que

s un bon estimador de

ja

que s inesbiaixat . Per tant, aquest ser l'estimador que utilitzarem. Suposem que la mostra obtinguda s Mostra aleshores

= {1, 2, 3, 4}

= 1 + 2 + 3 + 4 = 2.5 X 4

Per tant, en aquest cas, l'

estimaci puntual que tenim de s 2.5


S estimadors a l'abast (X,
2

Ja hem vist que quan volem estimar parmetres poblacionals que sn estndards (,

, ), tenim bons

, ) dels quals ja coneixem

les seves caracterstiques. El problema ve quan volem estimar una altre parmetre poblacional (per exemple la moda, la mediana o qualsevol altre parmetre) pel qual no tenim cap candidat a estimador. Quin estimador, s a dir, quina frmula fem servir ? El mtode de mxima versemblana i el mtode dels moments sn tcniques que ens ajudaran a construir bons estimadors per a un determinat parmetre quan no en tenim cap.

1 Ms
ha.

endavant veurem que, a ms, s l'estimador ms ecient (varincia mnima) que hi

30

CAPTOL 2.

ESTIMACI

2.4.1 Estimaci per mxima versemblana


El mtode d'estimaci per mxima versemblana segueix la segent lgica. Si quan hem fet un mostreig totalment aleatori (MAS) hem obtingut la mostra que hem obtingut, aix ha de ser per algun motiu (podrem haver obtingut una altra mostra ben diferent). Doncs b, segurament si hem obtingut la mostra que hem obtingut s degut a que aquest parmetre poblacional que volem estimar s tal que fa que la mostra que hem obtingut sigui, de alguna manera, la mostra ms probable d'obtindre. En aquest sentit, el que fa el mtode de la mxima versemblana s trobar quin s el valor del parmetre poblacional que maximitza la probabilitat d'haver obtingut la mostra que tenim. El procs es realitza en 3 passos partint de la mostra que tenim volem estimar de densitat (la distribuci) de la poblaci en la qual gura el parmetre

{x1 , x2 , xn } i de la funci () que

f (x; ).

Veurem primer el mtode general i desprs un exemple

per ajudar a aclarir el procs Suposem que volem estimar el parmetre ada per

f (x; )

a partir de la mostra

d'una poblaci amb distribuci don{x1 , x2 , xn }. Ho farem en 3 passos.

Pas 1 Construir la funci de versemblana


La funci de versemblana s la funci que calcula quina s la probabilitat d'haver obtingut la mostra obtinguda depenent del parmetre poblacional que volem estimar. s a dir, s una funci (que denotarem amb una de la mostra obtinguda i del parmetre a estimar

L)

que depn

L(x1 , x2 , xn ; ) = P (X1 = x1 , X2 = x2 , Xn = xn ; )
Donat que la mostra s'ha obtingut a partir d'una poblaci amb distribuci donada per conjunta

f (x; ) i que els elements de la mostra sn independents, la probabilitat P (X1 = x1 , X2 = x2 , Xn = xn ; ) es pot calcular com

P (X1 = x1 , X2 = x2 , Xn = xn ; ) = f (x1 ; ) f (x2 ; ) . . . f (xn ; )


per tant,

L(x1 , x2 , xn ; ) = f (x1 ; ) f (x2 ; ) . . . f (xn ; ) =


Pas 2 Aplicar Logaritmes natural ( Neperians)

f ( xi ; )
i=1

Donada la forma que normalment pren la funci de versemblana (un producte de funcions), l's de logaritmes (logaritmes naturals en aquest cas) permet simplicar la seva forma de manera que sigui ms fcil de treballar. Per tant, en aquest pas simplement apliquem  ln i aprotem les propietats dels logaritmes per tal de simplicar la forma de la funci de versemblana

ln L(x1 , x2 , xn ) = ln

f ( xi ; ) =
i=1 i=1

ln f (xi ; )

2.4.

MTODES D'ESTIMACI PUNTUAL: MXIMA VERSEMBLANA I MTODE DELS MOMENTS31

Pas 3 Maximitzar L'ltim pas s maximitzar la funci de versemblana, s a dir, trobar el valor de

que maximitzi la funci

(que s la probabilitat d'obtenir la mostra que

tenim).

Per aix caldria calcular la derivada de la funci de versemblana i igualar-la a zero per trobar el valor de

amb respecte del parmetre

que

la maximitza. Normalment, fer les coses aix resulta complicat. s per aquest motiu que el que hem fet en el Pas 2 resulta til. Efectivament, donat que la funci logaritme natural s estrictament creixent, el valor de

que maximitzi

ln L

tamb maximitzar

L.

Per tant, en la prctica, el que farem ser:

ln L(x1 , xn ; ) =0
i a partir d'aqu trobar el valor de ser l'estimador mxim versemblant de

que la resolgui. Aquesta soluci de l'equaci M V , i normalment es denota per


una mostra (independent) obtin-

Exemple 2.4.2 Sigui

guda a partir d'una poblaci Normal amb mitjana poblacional varincia poblacional de

{x1 , x2 , xn } 2 .

Obtenir l'estimador mxim versemblant

Abans de comenar amb el primer pas del procs, cal recordar quina s l'expressi de la funci de densitat d'una variable Normal.

f (x; 2 ) =
Pas 1 Funci de versemblana

1 x 2 1 e 2 ( ) 2

L(x1 , x2 , xn )

=
i=1

1 xi 2 1 e 2 ( ) = 2

1 2

e 2

n i=1

) ( xi

qu resultaria fora complicat de derivar. Per aix apliquem els logaritmes

Pas 2 Logaritmes

ln L(x1 , xn ) = ln

1 2

e 2

n i=1

) ( xi

sembla molt complicat, per aplicant les propietats del logaritmes fora

se simplica

ln

1 2

e 2

n i=1

( xi )

= ln

1 2

+ ln e 2

n i=1

( xi ) =

= ln
2 Logaritme

1 2

1 2

i=1

xi

ln e

del producte s la suma de logaritmes, etc.

32

CAPTOL 2.

ESTIMACI

per tant

ln L(x1 , xn ) = ln
Pas 3 Maximitzar
Hem de derivar

1 2

1 2

i=1

xi

ln L(x1 , , xn )

amb respecte de

1 2

i igualar a zero.
n

ln(x1 , xn ) =

ln

1 2

i=1

xi

ln

1 2

1 2

i=1

xi

=0
per tant,

1 2

i=1

xi

1 2

2
i=1

xi

1 ( ) =

i=1

xi 2

L(x1 , xn ) =0
nalment

i=1

xi 2

=0

1 ( xi ) = 0 2 i=1 i=1
n i=1

xi =
i=1 i=1

i=1

xi = n =

xi

n
s la mit-

s a dir, l'estimador Mxim versemblant de la mitjana poblacional jana mostral

X M V =

n i=1

xi

=X

2.4.2 Estimaci pel mtode dels moments


Suposem que tenim una poblaci distribuda segons la funci de densitat on

f (x, ),

representa el parmetre desconegut que volem estudiar.

El mtode dels moments consisteix en:

Pas 1 Calcular l'esperana terica


de densitat

de la poblaci d'acord amb la seva funci

= xf (x, )dx .
Per tant,

El resultat d'aquesta integral ser una funci del parmetre obtindrem una expressi de la forma

= g ( )

2.4.

MTODES D'ESTIMACI PUNTUAL: MXIMA VERSEMBLANA I MTODE DELS MOMENTS33

Pas 2 Donat que

s un bon estimador de

podem fer

=X

, s a dir,

= g ( ) X
Pas 3 Finalment, simplement invertint la funci
ci de

podem expressar

en fun-

i haurem acabat. Haurem trobat un estimador de

que s'anom-

ena estimador pel mtode dels moments

M M

) M M = g 1 (X
Exemple 2.4.3 Considerar una poblaci distribuda segons la funci de densitat

f (x, ) =

( + 1)x 0

altrament

0x1

Trobar l'estimador pel mtode dels moments de 

Pas 1 Esperana

= E (x) =
0

x( + 1)x dx = ( + 1)
0 1

x(+1) dx =

x(+2) = ( + 1) +2
Per tant, podem escriure

=
0

( + 1) ( + 2)

=
Pas 2 Utilitzem el fet que

+1 +2

s un bon estimador de

= +1 X +2
Pas 3 A partir de l'expressi obtinguda en el pas anterior, allem

M M = 1 2X X 1
L'estimaci puntual t l'avantatge de que s molt rpida i simple de calcular. El principal desavantatge, per, s que ens dona molt poca informaci i, a ms, amb molt poca precisi. En l'exemple 2,4,1 sabem que, donat que la mitjana mostral s un estimador inesbiaixat de la mitjana poblacional, el veritable valor de

estar al voltant de

2.5, per no tenim ni idea de si ser ms gran, ms petit, si estar molt a prop de 2.5, molt lluny.... No sabem res de la precisi de la nostra estimaci. Aquesta manca de precisi es corregeix bastant amb el segent mtode d'estimaci.

34

CAPTOL 2.

ESTIMACI

2.5 Mtodes d'estimaci per Intervals


L'objectiu ara no ser obtindre una

estimaci puntual del parmetre que ens

interessa. Farem servir aquesta estimaci puntual per a, junt amb la informaci que ja sabem sobre la distribuci mostral dels nostres estadstics, obtindre un interval dins el qual sabrem que est el valor veritable del parmetre amb una determinada probabilitat. s a dir, podrem ara donar mesura de la precisi de la nostra estimaci. En aquest sentit, el resultat d'una

estimaci per intervals

tindr una forma semblant a (en el cas de la mitjana):

[2.25 , 2.75]

amb una probabilitat del

95%

Els intervals que obtindrem mitjanant aquesta tcnica s'anomenen

intervals de conana, i la probabilitat amb la qu aquest interval inclou el parmetre poblacional s el nivell de conana que es representa per 1 .

2.5.1 Interval de conana per la mitjana


Veurem a continuaci com obtindre un

interval de conana quan el que

estem estudiant s la mitjana poblacional

2 conegut

2.5.1.1

Cas de poblaci Normal o mostra gran i

Sabem que en aquest cas

X
2 n

N (0, 1)

per tant

p(z1 2
on

X
2 n

z1 )=1 2
a la seva esquerra un rea de

z1 2

s el valor d'una

N (0, 1) que deixa

s a dir, tal que

1 2.

P (Z z1 )=1 2
on

representa una

N (0, 1)

i aquest valor es pot trobar a les taules.

Aleshores, si operem dins de les desigualtats que hi ha a dins de la probabilitat, trobarem que

z1 p(X 2
multiplicant per

2 + z1 X 2 n

2 )=1 n

inverteix el signe de les desigualtats, per tant tenim que

+ z1 p(X 2

2 z1 X 2 n

2 )=1 n

2.5.

MTODES D'ESTIMACI PER INTERVALS

35

en denitiva, trobem l'interval de conana que buscvem

z1 [X 2

2 , X + z1 2 n

2 ] n

amb una probabilitat de

1 2 =

Exemple 2.5.1 Suposem que tenim una mostra de 100 elements obtinguda
d'una poblaci Normal de mitjana poblacional desconeguda i varincia

1.000.000. Construir un interval de conana = 26.000. si la mitjana mostral s X


Si el nivell de conana s del 95% tenim que i 2 = 0.025. Aleshores,

al 95% per la mitjana poblacional

1 = 0.95.

Per tant,

= 0.05

1
L'interval tindr la forma

= 0.975 2

z1 [X 2

2 , X + z1 2 n

2 ] n Z
corresponents a la

en el que tots els valors sn coneguts excepte els valors

Normal. En aquest cas, hem de buscar a les taules el valor

Z1 = Z0.975 2
s a dir, el valor d'una

N (0, 1)

que deixa a la seva esquerra una probabilitat de

0.975.

Buscant a les taules trobem

Z0.975 = 1.96
Per tant, tenim:

z1 [X 2 = [26.000 1.96
Fent operacions ens queda

2 , X + z1 2 n

2 ]= n 1.000.000 ] 100

1.000.000 , 26.000 + 1.96 100

[25.804, 26.196] amb


2.5.1.2

una probabilitat del 95%

Cas de poblaci Normal o mostra gran i

2 desconegut

En el cas que hem vist, per tal de poder en la prctica calcular l'interval, necessitem conixer el valor de stituir

2 , s a dir, l'autntic valor de la varincia poblacional,

cosa que rarament passa. Per tal de solucionar aquest problema, podem sub-

S 2 . L'nic que canvia aleshores s que la distribuci a utilitzar no s una N (0, 1), sin una t Student amb n 1 graus de llibertat.
en el interval pel seu estimador inesbiaixat

t1 [X 2

S2 , X + t1 2 n

S2 ] n

amb una probabilitat de

36

CAPTOL 2.

ESTIMACI

on

t1 2 n

s el valor d'una

la seva esquerra una rea de (si es gran, aleshores

t student amb n 1 graus de llibertat que 1 2 i qu tamb es pot trobar taulat.


s aproximadament igual a

deixa a

t1 2

z1 ) 2

Exemple 2.5.2 Suposem que tenim una mostra de 100 elements obtinguda d'una poblaci Normal de mitjana poblacional desconeguda i varincia tamb desconeguda. Construir un interval de conana al 95% per la mitjana poblacional = 26.000 i la varincia mostral s S 2 = 980.000 si la mitjana mostral s X Si el nivell de conana s del 95% tenim que i 2 = 0.025. Aleshores,

1 = 0.95.

Per tant,

= 0.05

1
L'interval tindr la forma

= 0.975 2

t1 [X 2

S2 , X + t1 2 n

S2 ] n t
corresponents a la

en el que tots els valors sn coneguts excepte els valors

t student

amb

les taules el valor

n 1 = 99

graus de llibertat. En aquest cas, hem de buscar a

= t0.975 t1 2
s a dir, el valor d'una

esquerra una probabilitat de de llibertat)

t student amb 99 graus de llibertat que deixa a 0.975. Buscant a les taules trobem (donat

la seva que 99

graus de llibertat no apareix a les taules agafem el valor ms proper, 100 graus

t0.975 (99) = 1.984


Per tant, tenim:

t1 [X 2 = [26.000 1.984
Fent operacions ens queda

S2 , X + t1 2 n

S2 ]= n 980.000 ] 100

980.000 , 26.000 + 1.984 100

[25.803, 56, 26.196, 42] amb

una probabilitat del 95%

2.5.2 Interval de conana per la varincia


De la mateixa manera que hem obtingut l'interval de conana en el cas de la mitjana, tenim el de la varincia. Cal recordar que, en aquest cas, la poblaci ha de ser Normal. Aleshores sabem que

(n 1)S 2 2 n1 2

2.5.

MTODES D'ESTIMACI PER INTERVALS

37

per tant

p( 2
on s 2 el valor d'una

(n 1)S 2 1 )=1 2 2
que deixa a la seva esquerra un rea de

2 i qu 2 es pot trobar tabulat. De la mateixa manera, 1 s el valor d'una n1 que 2 deixa a la seva esquerra un rea de 1 . 2

2 n1

Igual que hem fet abans, manipulant dins les desigualtats trobem que

p(

1 2 1 )=1 2 (n 1)S 1 2 2

p(

(n 1)S 2 (n 1)S 2 2 )=1 1 2 2

s a dir,

2 [

(n 1)S 2 (n 1)S 2 , ] 1 2 2

amb una probabilitat de

Exemple 2.5.3 Suposem que tenim una mostra de 100 elements obtinguda d'una poblaci Normal de mitjana i varincia poblacionals desconegudes. Construir 2 un interval de conana al 95% per la varincia poblacional si la varincia 2 mostral s S = 4.800. Si el nivell de conana s del 95% tenim que i 2 = 0.025. Aleshores,

1 = 0.95.

Per tant,

= 0.05

1
L'interval tindr la forma

= 0.975 2

(n 1)S 2 (n 1)S 2 , ] 1 2 2
corresponents a la

en el que tots els valors sn coneguts excepte els valors khi-quadrat amb les taules el valor

n 1 = 99

graus de llibertat. En aquest cas, hem de buscar a i

1 = 0.975 2

= 0.025 2

s a dir, els valors d'una khi-quadrat amb a la seva esquerra una probabilitat de les taules trobem

n1 = 99 graus de llibertat que deixen 0.975 i 0.025 respectivament, Buscant a


i

0.975 = 129.561
Per tant, tenim:

0.025 = 74.222

(n 1)S 2 (n 1)S 2 , ]= 1 2 2

38

CAPTOL 2.

ESTIMACI

=[
Fent operacions ens queda

994.800 994.800 , ] 129.561 74.222

2 [3667.77, 6402.41] amb

una probabilitat del 95%

2.5.3 Interval de conana per la proporci


Donat que el cas de la proporci s un cas especial ja que, com hem explicat abans, treballar amb una variable Normal s una aproximaci, la mostra ha de ser gran sigui millor, l'interval ser diferent depenent de si la proporci que obtenim a la mostra ( ) est a prop de Si

(n (1 ) > 5).

Per aquest motiu, i per tal de que la aproximaci

0.5

o no.

1 2

[ z1 2
Si

(1 ) , + z1 2 n

(1 ) ] n

1 2

[ z1 2

0.5(1 0.5) , + z1 2 n

0.5(1 0.5) ] n

Exemple 2.5.4 En una mostra aleatria amb 1000 persones, 450 declaren que
fumen regularment. Construir un interval de conana amb un nivell de conana del 95% per la proporci de fumadors, obtingut la mostra. Si el nivell de conana s del 95% tenim que i 2 = 0.025. Aleshores,

en la poblaci de la que s'ha

1 = 0.95.

Per tant,

= 0.05

1
Calculem en primer lloc la

= 0.975 2
de fumadors. En aquest cas

proporci mostral
= 450 = 0.45 1000

Donat que obtenim

0.5,

l'interval tindr la forma

[ z1 2

(1 ) , + z1 2 n

(1 ) ] n Z
corresponents a la

en el que tots els valors sn coneguts excepte els valors

Normal. En aquest cas, hem de buscar a les taules el valor

Z1 = Z0.975 2

2.5.

MTODES D'ESTIMACI PER INTERVALS

39

s a dir, el valor d'una

N (0, 1)

que deixa a la seva esquerra una probabilitat de

0.975.

Buscant a les taules trobem

Z0.975 = 1.96
Per tant, tenim:

[ z1 2 = [0.45 1.96

(1 ) , + z1 2 n

(1 ) ]= n 0.45(1 0.45) ] 1000

0.45(1 0.45) , 0.45 + 1.96 1000

Fent operacions ens queda

[0.4342, 0.4657] amb

una probabilitat del 95%

40

CAPTOL 2.

ESTIMACI

Captol 3
Contrastos d'hiptesis paramtriques

3.1 Concepte de contrast paramtric: hiptesi nulla i hiptesi alternativa


Fins ara hem vist com podem aproximar-nos al valor d'un determinat parmetre poblacional mitjanant l'estimaci. Moltes vegades, per, el que ens interessa no s tant saber quin pot ser el valor d'aquest parmetre sin respondre alguna pregunta sobre el mateix. Per exemple, s el salari mig de Cerdanyola d'aquest

any superior al de l'any passat? Funciona aquest xip Intel a 3000 Mhz.? Ha augmentat la proporci de gent que pensa votar al P.P. amb respecte les darreres eleccions?
En tots aquests casos, doncs, els que ens interessa s comprovar si una determinada creena, idea o conjectura sembla ser certa o no. Per a fer-ho, per a contrastar la nostra hiptesi ens basarem en les dades a l'abast, en la mostra, ja que s l'nica informaci que tenim sobre la realitat. Podem aleshores denir de forma ms precisa el que s'entn per contrast d'hiptesis

Denici 3.1.1 Un contrast d'hiptesis s una tcnica mitjanant la qual es


comprova si les dades d'una mostra donen suport a una determinada hiptesis que es formula sobre algun parmetre poblacional o si, pel contrari, rebutgen (contradiuen) aquesta hiptesi.
En general, l'estructura d'un Contrast d'Hiptesis es por descomposar en 6 passos. Suposem que volem contrastar si el valor del parmetre poblacional s igual al valor

0 ,

aleshores aquests 6 passos sn

1. Especicar la Hiptesi Nulla. Aquesta s la hiptesi que creiem certa i que volem estudiar si est recolzada per les dades de la mostra.

H0 : = 0
41

42

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

2. Especicar una Hiptesi Alternativa, qu s all que s cert si la hiptesi nulla resulta ser falsa. La hiptesi alternativa pot prendre quatre formes estem estudiant o no. diferents, depenent de si coneixem alguna cosa sobre el parmetre que

H1 : = 0

H1 : < 0

H1 : > 0

H1 : = 1

El primer tipus de hiptesi alternativa s el ms general i correspon al cas en el que no es t cap informaci sobre el parmetre que s'estudia. nom podem dir que s diferent. El segon tipus de hiptesi alternativa correspon al cas en el que es t alguna informaci sobre el parmetre que s'estudia que diu que si aquest no s igual al valor que es creu, doncs s ms petit (d'alguna forma se sap que no pot ser ms gran). El tercer tipus de hiptesi alternativa correspon a un cas similar a l'anterior, per en aquesta cas la informaci que es t sobre el parmetre s que aquest no pot ser inferior al valor que es vol contrastar com a cert (0 ). Finalment, el quart tipus de hiptesi alternativa es dona rarament i correspon al cas en que es t molta informaci sobre el parmetre que s'estudia de forma que se sap que si no pren el valor s que sigui igual a un altre valor En aquest sentit, si el parmetre no s igual al valor que es creu (0 ) doncs

aleshores l'nica possibilitat

1 .

Com veurem ms endavant, el primer tipus de hiptesi alternativa dna lloc a un contrast de dues cues, mentre que el segon i tercer tipus donen llocs a contrasts d'una cua per l'esquerra i d'una cua per la dreta respectivament. Finalment, l'ltim tipus de hiptesi dona lloc b a un contrast

d'una cua per l'esquerra (si dreta (si

1 < 0 )

o b a un contrast d'una cua per la

1 > 0 ).

3. Especicar un Estadstic de Contrast (EC) i obtenir el Valor Observar de

l'Estadstic de contrast (VOEC) a partir de les dades de la mostra.


En la prctica, un contrast d'hiptesis en concret es distingeix d'un altre en l'estadstic de contrast que es fa servir. Per tant, de moment es millor no especicar res ms sobre l'estadstic de contrast. En estudiar cada contrast d'hiptesi especc veurem quins sn aquests estadstics. 4. Obtenir quina s la distribuci de l'estadstic de contrast del pas anterior pas anterior, depn de quin s el contrast en concret que estem realitzant i, per tant, ja ho veurem amb ms detall ms endavant. sota el supsit de que la hiptesi nulla s certa. Aix, a l'igual que en el

3.2.

ESTADSTIC DE PROVA I TIPUS D'ERROR

43

5. Obtenir una Zona de Rebuig de mida

(nivell de signicaci)

Aqu s on realment es realitza el contrast. Es tracta de trobar, mitjanant les taules de la distribuci obtinguda al pas 4, una Zona de Rebuig (ZR) tal que tingui la propietat de que si la hiptesi nulla s certa aleshores l'Estadstic de Contrast estar dins d'aquesta ZR amb probabilitat

p(EC ZR) =
En general, aquesta Zona de Rebuig pot estar formada per noms una cua repartida en dues cues simtriques de mida

o b estar cada una d'elles. Tot depn, 2 com hem vist en el pas 2, de la forma que prengui la Hiptesi alternativa.
(contrast d'una cua per l'esquerra o per la dreta) de mida Valor Observat de l'Estadstic de Contrast est, o no, a la Zona de Rebuig que hem trobat. Aix doncs, (a) Si VOEC est a la ZR

6. Finalment, l'ltim pas del contrast consisteix en, simplement, veure si el

(b) SI VOEC NO est a la ZR NULLA

ES REBUTJA LA HIPTESI NULLA

NO ES REBUTJA LA HIPTESI

Notar que la conclusi del contrast s sempre del tipus REBUTJAR o NO REBUTJAR la hiptesi nulla, mai es parla de ACCEPTAR la hiptesi nulla en cas de que no es rebutgi. L'explicaci d'aix s la

segent: si el resultat del contrast s que es rebutja, la interpretaci s que les dades que tenim contradiuen la hiptesi que tenem i, per tant, tenim evidncia emprica en contra d'aquesta hiptesi. Pel contrari, si la conclusi s que no es rebutja, aleshores l'nic que podem dir s que les dades no contradiuen la nostra hiptesis, per no tenim cap evidncia emprica a favor d'ella. Aix s similar a la doctrina que se segueix en un judici. En principi,

la presumpci d'innocncia ens obliga a mantenir la hiptesi que l'acusat s innocent. Si la policia, per, troba prou evidncia emprica que l'incrimina aleshores REBUTGEM la hiptesi d'innocncia i l'acusat es condemnat. Pel contrari, si la policia no troba prou evidncia emprica, la conclusi s que NO PODEM REBUTJAR la hiptesi d'innocncia, la qual cosa no implica ACCEPTAR que sigui innocent, noms que no hem pogut provar que no ho sigui.

3.2 Estadstic de prova i tipus d'error


Com hem vist en l'esquema general que segueix un contrast d'hiptesi, el pas 3 (especicaci de l'estadstic de contrast, EC) s el que en la prctica distingeix un contrast d'un altre. Aix, si volem fer un contrast d'alguna hiptesi que tinguem sobre la mitjana poblacional

el ms natural es que fem servir un

estadstic de contrast basat en la mitjana mostral un contrast sobre la proporci poblacional contrast basat en la proporci mostral

, X

mentre que si volem fer

haurem d'utilitzar un estadstic de

44

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

En cada cas, ser necessari recordar i fer servir la distribuci de l'estadstic corresponent que hem vist a la secci 1.3 i les seves propietats.

Estadstic mostral

Distribuci

Esperana

Varincia

X
Mitjana

= X

1 n

n i=1

2 n

N (0, 1) tn1

xi

si es coneix

) = E (X

) = V (X

X
S2 n

2 n

si es desconeix

Varincia

S2 =

1 n1

n i=1 (xi

)2 X

(n1)S 2 2

2 n1

E (S 2 ) = 2

V ( 2 ) =

2 4 n1

Proporci

1 n

n i=1

xi

) N (, (1n )

E ( ) =

V ( ) =

(1 ) 2

Finalment, abans d'estudiar la tcnica concreta per a cada tipus de contrast, veurem els tipus d'errors que es poden donar en realitzar un contrast d'hiptesi. Efectivament, donat que un contrast est basat en eines probabilstiques, les seves conclusions seran vlides amb una determinada probabilitat. Per tant, es pot donar que les conclusions del contrast siguin errnies. En aquest sentit la conclusi d'un contrast pot ser errnia per:

Rebutjar una hiptesi nulla que en realitat s certa No rebutjar una hiptesi nulla que en realitat s falsa

El primer d'aquests error s'anomena Error del tipus I, mentre que el segon s l'Error del tipus II. Els coneguts ltres de correu per eliminar els e-mails no desitjats funcionen d'aquesta manera. Cada vegada que arriba un nou correu el ltre contrasta la hiptesi aquest s un missatge no-desitjat i arriba a una conclusi. Normalment la conclusi a la que arriba s la correcta i classica el missatge convenientment. De vegades, per, el ltre s'equivoca i pot:

Classicar con normal un missatge que en realitat s no-desitjat (Error del tipus I: rebutja errniament la hiptesis que el correu s no-desitjat) Classicat com no-desitjat un missatge que en realitat s normal (Error del tipus II: no rebutja errniament la hiptesis que el correu s nodesitjat)

La taula 3.1 resumeix els diferents tipus d'error i mostra la probabilitat de cada un d'ells

3.3.

CONTRASTOS SOBRE LA MITJANA, LA VARINCIA I LA PROPORCI POBLACIONAL45

H0

certa

H0

falsa

Rebutjar

H0

No Rebutjar

H0

Taula 3.1: Tipus d'errors

Notar que la probabilitat de l'error del tipus I,

s el nivell de signicaci del

contrast. Efectivament, tal i com hem denit la zona de rebuig (ZR) sabem que d'aquesta ZR (i per tant rebutjarem la hiptesi nulla) amb probabilitat si la hiptesi nulla s certa aleshores l'Estadstic de Contrast (EC) estar dins

p(EC ZR) =
Per tant,

s la probabilitat de rebutjar la hiptesi nulla quan aquesta s certa ,


aquesta depn de quin s

Pel que fa a la probabilitat de l'error del tipus II, el valor real del parmetre a estimar.

3.3 Contrastos sobre la mitjana, la varincia i la proporci poblacional


Veurem a continuaci els tres tipus de contrast d'hiptesis bsics. Aquests on:

3.3.1 Contrast d'hiptesis sobre la mitjana poblacional

3.3.2 Contrast d'hiptesis sobre la varincia poblacional 3.3.3 Contrast d'hiptesis sobre la proporci poblacional

Veurem que tots tres casos comparteixen la mateixa estructura com, els 6 passos que hem vist abans. La diferncia vindr, principalment, de l'estadstic de contrast que farem servir en cada cas (i, en conseqncia, la seva distribuci). Veurem tamb que, per a cada cas, els contrasts poden ser d'una o de dues cues, segons quina sigui la hiptesi alternativa corresponent.

3.3.1 Test de la mitjana ()


1. Hiptesi Nulla s el valor de la mitjana poblacional que volem contrastar

(0 = valor

a contrastar)

H0 : = 0

46

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

2. Hiptesi Alternativa s all que resulta cert si la hiptesi nulla s falsa. contrast tenim 4 possibilitats Depn de quina

informaci tenim de la mitjana poblacional sobre la que estem fent el

Informaci sobre

Tipus de contrast
Dues Cues

H1 : = 0

Cas ms general. No tenim informaci sobre igual a

Per tant, si no s

noms podem dir que

s diferent

H1 : > 0

Tenim certa informaci sobre que diu que si no s igual a aleshores s ms gran

0 0 0

Una cua per la dreta

H1 : < 0

Tenim certa informaci sobre que diu que si no s igual a aleshores s ms petita

Una cua per l'esquerra

H1 : = 1

Tenim certa informaci sobre que diu que si no s igual a

Una cua per la dreta si

aleshores s igual a un altre valor

1 > 0 o una cua per l'esquerra si 1 < 0

1
3. Estadstic de contrast L'estadstic de contrast (EC) a utilitzar en aquest cas depn de si la varincia poblacional

2 2

s coneguda o no.

coneguda
o X
2 n

desconeguda
EC=

EC=

o X
S2 n

En qualsevol d'aquests casos, el Valor Observat de l'Estadstic de Contrast (VOEC) s'obt substituint en la frmula corresponent els valors corresponents, on

X 0 2 S2 n

Mitjana mostral Valor de la Hiptesi Nulla Varincia poblacional (si es coneix) Varincia mostral (si no es coneix mida mostral

2 )

4. Distribuci de l'Estadstic de Contrast si la hiptesi nulla s certa Tal com hem vist en altres casos tenim que, si s veritat que aleshores

= 0

coneguda

desconeguda
o X
S2 n

o X
2 n

N (0, 1)

tn1

3.3.

CONTRASTOS SOBRE LA MITJANA, LA VARINCIA I LA PROPORCI POBLACIONAL47

5. Zona de Rebuig de mida

La zona de rebuig es trobar de manera diferent segons sigui un contrast d'una o de dos cues, depenent de quina forma prengui la hiptesi alternativa (a) Contrast de dues cues. hiptesi alternativa del tipus Correspon al cas en qu tenim una

H1 : = 0

/2

/2

Z1/2 1/2

Z1/2 t1/2

Figura 3.1: Zona de Rebuig en el contrast de dues cues

Els valors que limiten la Zona de Rebuig, trobar a les taules de la

N (0, 1)

o de la

de llibertat respectivament segons

Z1 i t1 s'han de 2 2 t Student amb n 1 graus 2 sigui el cas de que coneixem o


Correspon al cas en qu (o b del tipus

no tal com s'ha explicat abans. (Veure gura 3.1) (b) Contrast d'una cua per la dreta. tenim una hiptesi alternativa del tipus

H1 : > 0

H1 : = 1 i 1 > 0 )

Els valors que limiten la Zona de Rebuig, a les taules de la respectivament

Z1 i t1 s'han de trobar N (0, 1) o de la tstudent amb n1 graus de llibertat 2 segons sigui el cas de que coneixem o no tal com

s'ha explicat abans. (Veure gura 3.2) (c) Contrast d'una cua per l'esquerra. Correspon al cas en qu tenim una hiptesi alternativa del tipus

H1 : < 0

(o b del tipus

H1 : = 1 i 1 < 0 )

48

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

Z1 t1

Figura 3.2: Zona de Rebuig en el contrast d'una cua per la dreta

Els valors que limiten la Zona de Rebuig, a les taules de la respectivament

Z1 i t1 s'han de trobar N (0, 1) o de la tstudent amb n1 graus de llibertat 2 segons sigui el cas de que coneixem o no tal com

s'ha explicat abans. (Veure gura 3.3) 6. Conclusi del contrast Es tracta nalment de veure si el Valor Observat de l'Estadstic de que el contrast rebutja la Hiptesi NulLa. Si no hi est, direm que No

Contrast (VOEC) est, o no, en la Zona de Rebuig. Si hi est, direm es rebutja la Hiptesi Nulla.

Veiem alguns exemples

Exemple 3.3.1 Sigui

{x1 , x2 , , x100 } una mostra aleatria de mida 100 obtinguda de una poblaci Normal de mitjana poblacional desconeguda i varincia 2 = 1.000.000. Contrastar la hiptesi que que la mitjana poblacional s igual 25.000 si = 0.05)
a sabem que la mitjana mostral s

= 26.000. X

(nivell de signicaci

1. Hiptesi Nulla s el valor de la mitjana poblacional que volem contrastar

(0 = 25.000 en

aquest cas)

H0 : = 25.000
2. Hiptesi Alternativa s all que resulta cert si la hiptesi nulla s falsa.

3.3.

CONTRASTOS SOBRE LA MITJANA, LA VARINCIA I LA PROPORCI POBLACIONAL49

Z1 1

Figura 3.3: Zona de Rebuig en el contrast d'una cua per l'esquerra

si nulla s falsa, escollim la forma ms general de la hiptesi alternativa

Com que no tenim cap informaci sobre valors alternatius de

si la hipte-

H1 : = 25.000
3. Estadstic de contrast
2 L'estadstic de contrast ( EC) a utilitzar en aquest cas que coneixem , s

EC =

o X
2 n

El valor observat de l'estadstic de contrast (VOEC) s'obt substituint els valors corresponents en la frmula

V OEC =

26.000 25.000
1.000.000 100

1.000 = 10 100

4. Distribuci de l'Estadstic de Contrast si la hiptesi nulla s certa Tal com he vist, si la hiptesi nulla s certa, s a dir, si aleshores

= 25.000

o X
2 n

N (0, 1)

5. Zona de Rebuig de mida

= 0.05

La zona de rebuig es troba de manera diferent segons sigui un contrast d'una o de dues cues. En aquest cas tenim un Contrast de dues cues ja que la hiptesi alternativa s de la forma

H1 : = 0

50

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

/2

/2

Z1/2 1/2

Z1/2 t1/2

Els valors que limiten la zona de rebuig,

Z1 2

els trobarem a la taula

N (0, 1)
Aix, si

= 0.05

aleshores 2

= 0.025 1

i:

= 0.975 2

Busquem a les taules el valor

Z1 = Z0.975 2
s a dir, el valor d'una itat de

N (0, 1)

que deixa a la seva esquerra una probabil-

0.975.

A les taules:

Z0.975 = 1.96
Per tant,

/2

/2

-1.96

1.96

6. Conclusi del contrast Finalment hem de veure si el Valor observat de l'estadstic de con-

trast (VOEC) est, o no, a la Zona de Rebuig.


Clarament, en aquest cas est. Tenim

V OEC = 10 > 1.96


Diem aleshores que el contrast rebutja la hiptesi nulla

3.3.

CONTRASTOS SOBRE LA MITJANA, LA VARINCIA I LA PROPORCI POBLACIONAL51

Exemple 3.3.2 Sigui {x1 , x2 , , x100 } una mostra aleatria de mida 100 obtinguda de una poblaci Normal de mitjana poblacional desconeguda i varincia 2 = 230.400. Contrastar la hiptesi que que la mitjana poblacional s igual

1.000 contra l'alternativa de ser inferior = 950. (nivell de signicaci = 0.05) X


a 1. Hiptesi nulla

si sabem que la mitjana mostral s

s el valor de la mitjana poblacional que volem contrastar

(0 = 1.000 en

aquest cas)

H0 : = 1.000
2. Hiptesi Alternativa s all que resulta cert si la hiptesi nulla s falsa. Com que tenim informaci que diu que si la hiptesi nulla s falsa aleshores

ser menor, especiquem una hiptesi alternativa de la forma

H1 : < 1.000
3. Estadstic de contrast
2 L'estadstic de contrast ( EC) a utilitzar en aquest cas que coneixem , s

EC =

o X
2 n

El valor observat de l'estadstic de contrast (VOEC) s'obt substituint els valors corresponents en la frmula

V OEC =

950 1000
230.400 100

50 = 1.042 48

4. Distribuci de l'Estadstic de Contrast si la hiptesi nulla s certa Tal com he vist, si la hiptesi nulla s certa, s a dir, si aleshores

= 1.000

o X
2 n

N (0, 1)

5. Zona de Rebuig de mida

= 0.05

La zona de rebuig es troba de manera diferent segons sigui un contrast d'una o de dues cues. En aquest cas tenim un Contrast d'una cua per l'esquerra ja que la hiptesi alternativa s de la forma

H1 : < 0

52

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

Z1 1

Els valors que limiten la zona de rebuig,

Z1

els trobarem a la taula

N (0, 1)
Aix, si

= 0.05

aleshores

1 = 0.95
Busquem a les taules el valor

Z1 = Z0.95
s a dir, el valor d'una itat de

N (0, 1)

que deixa a la seva esquerra una probabil-

0.975.

A les taules:

Z0.95 = 1.645
Per tant,

-1.645

6. Conclusi del contrast Finalment hem de veure si el Valor observat de l'estadstic de con-

trast (VOEC) est, o no, a la Zona de Rebuig.


Clarament, en aquest cas NO est. Tenim

V OEC = 1.042 > 1.645


Diem aleshores que el contrast NO rebutja la hiptesi nulla

3.3.

CONTRASTOS SOBRE LA MITJANA, LA VARINCIA I LA PROPORCI POBLACIONAL53

Exemple 3.3.3 Sigui {x1 , x2 , , x100 } una mostra aleatria de mida 100 obtinguda de una poblaci Normal de mitjana i varincia poblacional desconegudes.
Contrastar la hiptesi que que la mitjana poblacional

s igual a

= l'alternativa de ser inferior si sabem que la mitjana mostral s X 2 varincia mostral s S = 200.000. (nivell de signicaci = 0.05)
1. Hiptesi nulla s el valor de la mitjana poblacional que volem contrastar(0

1.000 contra 1100 i la

= 1.000en

aquest cas)

H0 : = 1.000
2. Hiptesi Alternativa s all que resulta cert si la hiptesi nulla s falsa. Com que tenim informaci que diu que si la hiptesi nulla s falsa aleshores

ser ms gran, especiquem una hiptesi alternativa de la forma

H1 : > 1.000
3. Estadstic de contrast L'estadstic de contrast ( EC) a utilitzar en aquest cas que NO coneixem 2 , s

TS =

o X
S2 n

El valor observat de l'estadstic de contrast (VOEC) s'obt substituint els valors corresponents en la frmula

V OEC =

1.100 1000
200.000 100

100 = 2.236 44.72

4. Distribuci de l'Estadstic de Contrast si la hiptesi nulla s certa Tal com he vist, si la hiptesi nulla s certa, s a dir, si aleshores

= 1.000

o X
S2 n

tn1 = t99

5. Zona de Rebuig de mida

= 0.05

La zona de rebuig es troba de manera diferent segons sigui un contrast d'una o de dues cues. En aquest cas tenim un Contrast d'una cua per la dreta ja que la hiptesi alternativa s de la forma

H1 : > 0

54

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

Z1 t1

El valor que limita la zona de rebuig, t1 el trobarem a la taula tn1 Aix, si

= t99

= 0.05

aleshores

1 = 0.95
Busquem a les taules el valor

t1 = t0.95
s a dir, el valor d'una probabilitat de

0.975.

A les taules:

t student

que deixa a la seva esquerra una

t0.95 = 1.66
Per tant,

1.66

6. Conclusi del contrast Finalment hem de veure si el Valor observat de l'estadstic de con-

trast (VOEC) est, o no, a la Zona de Rebuig.


Clarament, en aquest cas est. Tenim

V OEC = 2.236 > 1.66


Diem aleshores que el contrast rebutja la hiptesi nulla

3.3.

CONTRASTOS SOBRE LA MITJANA, LA VARINCIA I LA PROPORCI POBLACIONAL55

3.3.2 Test de la varincia (2 )


1. Hiptesi Nulla s el valor de la varincia poblacional que volem contrastar

2 = valor (0

a contrastar)

2 H0 : 2 = 0
2. Hiptesi Alternativa s all que resulta cert si la hiptesi nulla s falsa. contrast tenim 4 possibilitats Depn de quina

informaci tenim de la varincia poblacional sobre la que estem fent el

Informaci sobre

Tipus de contrast
Dues Cues

H1 : =

2 0

Cas ms general. No tenim informaci sobre igual a

2 .

Per tant, si no s

2 0

noms podem dir que

s diferent

2 H1 : 2 > 0

Tenim certa informaci sobre que diu que si no s igual a aleshores s ms gran

2 2 0 2 2 0 2 2 0

Una cua per la dreta

2 H1 : 2 < 0

Tenim certa informaci sobre que diu que si no s igual a aleshores s ms petita

Una cua per l'esquerra

2 H1 : 2 = 1

Tenim certa informaci sobre que diu que si no s igual a

Una cua per la dreta si

aleshores s igual a un altre valor

2 1
3. Estadstic de contrast

2 2 1 > 0 una cua per l'es2 2 querra si 1 < 0

L'estadstic de contrast (EC ) a utilitzar en aquest cas s:

EC =

(n 1)S 2 2 0

El Valor Observat de l'Estadstic de Contrast (VOEC ) s'obt substituint en la frmula corresponent els valors corresponents, on

2 0 S2 n

Valor de la Hiptesi Nulla Varincia mostral mida mostral

4. Distribuci de l'Estadstic de Contrast si la hiptesi nulla s certa Tal com hem vist en altres casos tenim que, si s veritat que aleshores

2 2 = 0

(n 1)S 2 2 n1 2 0

5. Zona de Rebuig de mida

La zona de rebuig es trobar de manera diferent segons sigui un contrast d'una o de dos cues, depenent de quina forma prengui la hiptesi alternativa

56

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

(a) Contrast de dues cues. hiptesi alternativa del tipus

Correspon al cas en qu tenim una

2 H1 : 2 = 0

/2

/2

/2

1/2

Figura 3.4: Zona de Rebuig en el contrast de dues cues

Els valors que limiten la Zona de Rebuig, a les taules de la

2 1
2

2 , s'han de trobar
2

amb

(b) Contrast d'una cua per la dreta. tenim una hiptesi alternativa del tipus

n1

graus de llibertat. (Veure gura 3.4) Correspon al cas en qu (o b del tipus

2 2 2 H1 : 2 = 1 i 1 > 0 )

2 H1 : 2 > 0

El valor que limita la Zona de Rebuig, taules de la

2 1 ,

s'ha de trobar a les

amb

(c) Contrast d'una cua per l'esquerra. Correspon al cas en qu tenim una hiptesi alternativa del tipus

n1

graus de llibertat. (Veure gura 3.5)

H1 : =

2 2 i 1 1

<

2 0 )

2 H1 : 2 < 0

(o b del tipus

El valor que limita la Zona de Rebuig, de la

2 ,

s'ha de trobar a les taules

amb

n1

graus de llibertat. (Veure gura 3.6)

6. Conclusi del contrast Es tracta nalment de veure si el Valor Observat de l'Estadstic de que el contrast rebutja la Hiptesi NulLa. Si no hi est, direm que No

Contrast (VOEC) est, o no, en la Zona de Rebuig. Si hi est, direm

es rebutja la Hiptesi Nulla.

3.3.

CONTRASTOS SOBRE LA MITJANA, LA VARINCIA I LA PROPORCI POBLACIONAL57

1
Figura 3.5: Zona de Rebuig en el contrast d'una cua per la dreta

Exemple 3.3.4 Sigui {x1 , x2 , , x100 } una mostra aleatria de mida 100 obtinguda d'una poblaci Normal amb mitjana i varincia desconegudes. Contrastar 2 la hiptesi que la varincia poblacional s igual a 230.400 si sabem que la 2 varincia mostral s S = 200.000. (nivell de signicaci = 0.05)

1. Hiptesi Nulla s el valor de la varincia poblacional que volem contrastar


2 (0 = 230.400en

aquest cas)

H0 : 2 = 230.400
2. Hiptesi Alternativa s all que resulta cert si la hiptesi nulla s falsa nulla s falsa, escollim la forma ms general de la hiptesi alternativa Com que no tenim cap informaci sobre el possible valor de

si la hiptesi

H1 : 2 = 230.400

3. Estadstic de Contrast L'Estadstic de Contrast ( EC) a utilitzar en aquest cas s:

EC

(n 1)S 2 2 0

58

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

Figura 3.6: Zona de Rebuig en el contrast d'una cua per l'esquerra

El Valor Observat de l'Estadstic de Contrast ( VOEC) l'obtenim substituint a la frmula els valors corresponents:

V OEC =

99200.000 = 85.94 230.400

4. Distribuci de l'Estadstic de Contrast si la hiptesi nulla s certa Tal com hem vist tenim que, si s veritat que
2 2 = 0 ,

aleshores

(n 1)S 2 2 n1 2 0
5. Zona de Rebuig de mida

= 0.05

La zona de rebuig es trobar de manera diferent segons sigui un contrast d'una o de dos cues, depenent de quina forma prengui la hiptesi alternativa En aquest cas tenim un Contrast de dues cues ja que la hiptesi 2 2 alternativa s de la forma H1 : = 0

3.3.

CONTRASTOS SOBRE LA MITJANA, LA VARINCIA I LA PROPORCI POBLACIONAL59

/2

/2

/2
2 Els valors que limiten la Zona de Rebuig, 1 i 2 2 les taules de la amb n 1 graus de llibertat.

1/2

2 ,
2

s'han de trobar a

Aix, si

= 0.05

tenim que 2

= 0.025

Per tant, hem de buscar a les taules els valors

= 0.975

2 1 2
2 2

= 2 0.975 = 2 0.025

i trobem:

2 1 2
2 2

= =

2 0.975 = 129.561 2 0.025 = 74.22

Per tant,

/2

/2

74.22

129.561

60

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

6. Conclusi del contrast Es tracta nalment de veure si el Valor Observat de l'Estadstic de

Contrast (VOEC) est, o no, en la Zona de Rebuig.


En aquest cas, clarament NO ja que tenim

74.22 < 85.94 < 129.561 V OEC ZR


Direm aleshores que el contrast no rebutja la Hiptesi Nulla.

3.3.3 Test de la proporci poblacional ()


1. Hiptesi Nulla s el valor de la proporci poblacional que volem contrastar

(0 = valor

a contrastar)

H0 : = 0
2. Hiptesi Alternativa s all que resulta cert si la hiptesi nulla s falsa. contrast tenim 4 possibilitats Depn de quina

informaci tenim de la proporci poblacional sobre la que estem fent el

Informaci sobre

Tipus de contrast
Dues Cues

H1 : = 0

Cas ms general. No tenim informaci sobre igual a

Per tant, si no s

noms podem dir que

s diferent

H1 : > 0

Tenim certa informaci sobre que diu que si no s igual a aleshores s ms gran

0 0 0

Una cua per la dreta

H1 : < 0

Tenim certa informaci sobre que diu que si no s igual a aleshores s ms petita

Una cua per l'esquerra

H1 : = 1

Tenim certa informaci sobre que diu que si no s igual a

Una cua per la dreta si

1 > 0

una cua per l'es-

aleshores s igual a un altre valor

querra si

1 < 0

1
3. Estadstic de contrast L'estadstic de contrast (EC ) a utilitzar en aquest cas s

EC =

0 (10 ) n

El Valor Observat de l'Estadstic de Contrast (VOEC ) s'obt substituint en la frmula els valors corresponents, on

3.3.

CONTRASTOS SOBRE LA MITJANA, LA VARINCIA I LA PROPORCI POBLACIONAL61

0 n

Proporci mostral Valor de la Hiptesi Nulla mida mostral

4. Distribuci de l'Estadstic de Contrast si la hiptesi nulla s certa Tal com hem vist en altres casos tenim que, si s veritat que aleshores
1

= 0

0 (10 ) n

N (0, 1)

5. Zona de Rebuig de mida

La zona de rebuig es trobar de manera diferent segons sigui un contrast d'una o de dos cues, depenent de quina forma prengui la hiptesi alternativa (a) Contrast de dues cues. hiptesi alternativa del tipus Correspon al cas en qu tenim una

H1 : = 0

/2

/2

Z1/2

Z1/2

Figura 3.7: Zona de Rebuig en el contrast de dues cues

El valor que limita la Zona de Rebuig, taules de la

, Z1 2

s'ha de trobar a les

N (0, 1).

(Veure gura 3.7) Correspon al cas en qu (o b del tipus

(b) Contrast d'una cua per la dreta. tenim una hiptesi alternativa del tipus

H1 : > 0

H1 : = 1 i 1 > 0 )
1 Recordeu
ms a prop de

que aix s una aproximaci, que ser tan ms bona quant ms alta sigui

0, 5

estigui

0 .

En concret, caldria que

n0 (1 0 ) > 5

62

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

Z1

Figura 3.8: Zona de Rebuig en el contrast d'una cua per la dreta

El valor que limita la Zona de Rebuig, taules de la

Z1 ,

s'ha de trobar a les

N (0, 1).

(Veure gura 3.8)

(c) Contrast d'una cua per l'esquerra. Correspon al cas en qu tenim una hiptesi alternativa del tipus

H1 : < 0

(o b del tipus

H1 : = 1 i 1 < 0 )

Z1

Figura 3.9: Zona de Rebuig en el contrast d'una cua per l'esquerra

El valor que limita la Zona de Rebuig, taules de la

Z1 ,

s'ha de trobar a les

N (0, 1).

(Veure gura 3.9)

6. Conclusi del contrast

3.3.

CONTRASTOS SOBRE LA MITJANA, LA VARINCIA I LA PROPORCI POBLACIONAL63

Es tracta nalment de veure si el Valor Observat de l'Estadstic de

Contrast (VOEC) est, o no, en la Zona de Rebuig. Si hi est, direm


que el contrast rebutja la Hiptesi NulLa. Si no hi est, direm que No

es rebutja la Hiptesi Nulla.

Exemple 3.3.5 Al darrer Barmetro de Opinin amb intenci de vot del


Centro de Investigaciones Sociolgicas (Gener 2010), un 40% dels 2.477 in-

dividus entrevistats van declarar que votarien al PP en unes noves eleccions. Contrastar la hiptesi de que el PP obtindria ms del 35% dels vots en unes hipottiques eleccions. (nivell de signicaci

= 0.05)

1. Hiptesi Nulla s el valor de la proporci poblacional que volem contrastar

(0 = 0.35en

aquest cas)

H0 : = 0.35
2. Hiptesi Alternativa s all que resulta cert si la hiptesi nulla s falsa. En aquest cas, com que volem contrastar si el PP podria obtindre ms del 35% dels vots, utilitzem la hiptesi alternativa:

H1 : > 0.35

3. Estadstic de contrast L'estadstic de contrast (EC) a utilitzar en aquest cas s

EC =

0 (10 ) n

El Valor Observat de l'Estadstic de Contrast (VOEC) s'obt substituint en la frmula els valors corresponents,

VOEC

0.4 0.35

= 5.22

0.35(10.35) 2.477

4. Distribuci de l'Estadstic de Contrast si la hiptesi nulla s certa Tal com hem vist en altres casos tenim que, si s veritat que aleshores

= 0

0 (10 ) n

N (0, 1)

Comprovem la condici

n0 (1 0 ) > 5

n0 (1 0 ) = 2477(0.35)(1 0.35) = 563.52

64

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

5. Zona de Rebuig de mida

= 0.05

La zona de rebuig es trobar de manera diferent segons sigui un contrast d'una o de dos cues, depenent de quina forma prengui la hiptesi alternativa En aquest cas tenim un Contrast d'una cua per la dreta ja que la hiptesi alternativa s de la forma

H1 : > 0

Z1

El valor que limita la Zona de Rebuig, de la

Z1 ,

s'ha de trobar a les taules

N (0, 1). = 0.05


aleshores

En aquest cas, si

1 = 0.95
Busquem a les taules i trobem:

Z1 = Z0.95 = 1.645

Per tant,

1.645

6. Conclusi del contrast

3.4.

CONTRASTOS DE DIFERNCIES

65

Es tracta nalment de veure si el Valor Observat de l'Estadstic de

Contrast (VOEC) est, o no, en la Zona de Rebuig.


Clarament, en aquest cas SI que hi est. Tenim:

V OEC = 5.22 > 1.96 V OEC ZR


Direm aleshores que el contrast rebutja la Hiptesi Nulla.
Notar que en aquest cas estem rebutjant la hiptesi l'alternativa

H0 : = 0.35

contra

H1 : > 0.35.

Per tant, la conclusi del contrast s que l'enquesta no permet rebutjar la hiptesi de que el PP pot obtindre ms del 35% dels vots en unes properes eleccions

3.4 Contrastos de diferncies


Moltes vegades, el que ens interessa contrastar no s quin s el valor d'un determinat parmetre poblacional com hem vist en l'apartat anterior (per exemple: s el salari mig a Cerdanyola de 30.000e anuals ?) sin comparar aquest parmetre poblacional amb altres parmetres relacionats. Per exemple, podrem estar interessats en contrastar si el salari mig a Cerdanyola enguany s igual o superior al de l'any passat o, en un altre cas, si el salari mig a Cerdanyola s igual al salari mig en Sant Cugat. s a dir, ara estarem interessats en comparar els

parmetres poblacionals de dues poblacions, ja sigui dues poblacions


fsicament diferents (com en el cas de comparar els salaris mitjos de Cerdanyola i Sant Cugat) o la mateixa poblaci en dos moments diferents (com en el cas de comparar el salari mig de Cerdanyola d'enguany amb el de l'any passat). En qualsevol d'aquests dos ltims casos, el que es realitza s un contrast de

comparaci de mostres. El que tenim ara sn dues poblacions (Poblaci 1


i Poblaci 2) cada una de elles amb les seus parmetres poblacionals corresponents (1 ,

2 1 i 1

per la primera poblaci i

2 2 , 2 i 2

per la segona poblaci).

D'aquestes dues poblacions obtenim dues mostres (Mostra 1 i Mostra 2) que poden ser de mides diferents (n1 i

n2 )

a partir de les quals obtenim els correper la segona poblaci)

sponents estadstics mostrals que ens serviran per a fer els contrastos que calgui

1, (X

2 S1 i 1

per la primera poblaci i

2, S 2 i X 2 2

De forma resumida , el que tenim s: Poblaci 1 Poblaci 2

2 1 , 1 i 1
Mostra 1

2 2 , 2 i 2
Mostra 2

x11 x21
. . .

x12 x22
. . .

x n1 1 1, S 2 i X 1 1

x n2 2 2, S 2 i X 2 2

A partir d'aqu podem fer contrastos sobre:

66

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

1. La diferncia de mitjanes entre les dues poblacions: 2. La diferncia de varincies entre les dues poblacions

1 2
2 2 1 2

3. La diferncia de proporcions entre les dues poblacions

1 2

3.4.1 Contrast sobre la diferncia de mitjanes


Es tracta de contrastar si la diferncia entre les mitjanes de dues poblacions s igual a un determinat valor

o no. Per exemple, podrem contrastar si el

salari mig a Cerdanyola s igual al salari mig a Sant Cugat (1

altre exemple seria contrastar si el temps mig de son abans de prendre un nou somnfer s igual al temps mig de son desprs de prendre'l (per tal de comprovar l'eccia d'aquest somnfer) Els sis passos que corresponen a aquest contrast sn: 1. Hiptesi Nulla s el valor de la diferncia entre les mitjanes poblacionals que volem contrastar

2 = 0).

Un

(0 = difer` encia

a contrastar)

H0 : 1 2 = 0
2. Hiptesi Alternativa s all que resulta cert si la hiptesi nulla s falsa. Depn de quina

informaci tenim sobre les mitjanes poblacionals. Tenim 4 possibilitats

Informaci sobre

1 i 2

Tipus de contrast
Dues Cues

H1 : 1 2 = 0

Cas ms general. No tenim informaci sobre les mitjanes poblacionals. Per tant, si la diferncia no s igual a

noms podem dir Una cua per la dreta

que s diferent

H1 : 1 2 > 0

Tenim certa informaci sobre les mitjanes que diu que si la diferncia no s igual a ms gran

aleshores s Una cua per l'esquerra

H1 : 1 2 < 0

Tenim certa informaci sobre les mitjanes que diu que si la diferncia no s igual a ms petita

aleshores s Una cua per la dreta si

H1 : 1 2 = 1

Tenim certa informaci sobre les mitjanes que diu que si la diferncia no s igual a

1 > 0

una cua per l'es-

aleshores s

querra si

1 < 0

igual a un altre valor 3. Estadstic de contrast

L'estadstic de contrast (EC) a utilitzar en aquest cas depn de si les varincies poblacionals

2 2 1 i 2

sn conegudes o no.

3.4.

CONTRASTOS DE DIFERNCIES

67

2 2 1 i 2
EC=

conegudes
1 X 2 )o (X
2 1 n1 2 + n2 2

2 2 1 o 2

desconeguda
1 X 2 )o (X
S2 n1

EC=

+S n

En qualsevol d'aquests casos, el Valor Observat de l'Estadstic de Contrast (VOEC) s'obt substituint en la frmula corresponent els valors corresponents, on

1 i X 2 X 0 2 2 1 i 2 2 S n1 i n2

Mitjanes mostrals Valor de la Hiptesi Nulla Varincies poblacionals (si es coneixen) Varincia mostral com (si no es coneix Mides mostrals

2 2 1 o 2 )

En les frmules anteriors, el valor de la Varincia mostral com

S2

(que

2 2 s'utilitza si no es coneix 1 o 2 ) s'obt mitjanant l'expressi

S2 =
on

2 S1

2 S2

2 2 (n1 1)S1 + (n2 1)S2 n1 + n2 2

sn les varincies mostrals de la primera i la segona mostra

respectivament. La ra d'utilitzar aquesta estimaci com de la varin-

cia poblacional per a les dues mostres s que per tal de que aquest
contrast tingui sentit (la comparaci de les dues mitjanes poblacionals) cal que les dues poblacions siguin comparables. Tcnicament aix equival a demanar que les dues poblacions tinguin una varincia poblacional semblant. D'aqu, doncs, que s'utilitzi un estimador com (S ) de la varincia per a les dues poblacions 4. Distribuci de l'Estadstic de Contrast si la hiptesi nulla s certa Tal com hem vist en altres casos tenim que, si s veritat que aleshores

1 2 = 0

2 2 1 i 2

conegudes

2 2 1 o 2

desconeguda

1 X 2 )o (X
2 1 n1 2 + n2 2

N (0, 1)

1 X 2 )o (X
S2 n1

+S n

2 2

tn1 +n2 2

5. Zona de Rebuig de mida

La zona de rebuig es trobar de manera diferent segons sigui un contrast d'una o de dos cues, depenent de quina forma prengui la hiptesi alternativa (a) Contrast de dues cues. hiptesi alternativa del tipus Correspon al cas en qu tenim una

H1 : 1 2 = 0 Z1 2 t student t1 s'han de 2 amb n1 + n2 2


i

Els valors que limiten la Zona de Rebuig, trobar a les taules de la

N (0, 1)

o de la

graus de llibertat respectivament segons sigui el cas de que coneixem les dues varincies poblacionals o no tal com s'ha explicat abans. (Veure gura 3.10)

68

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

/2

/2

Z1/2 1/2

Z1/2 t1/2

Figura 3.10: Zona de Rebuig en el contrast de dues cues

(b) Contrast d'una cua per la dreta. tenim una hiptesi alternativa del tipus tipus

Correspon al cas en qu (o b del

H1 : 1 2 = 1 i 1 > 0 )

H1 : 1 2 > 0

Els valors que limiten la Zona de Rebuig, a les taules de la

llibertat respectivament segons sigui el cas de que coneixem les dues varincies poblacionals o no tal com s'ha explicat abans. gura 3.11) (c) Contrast d'una cua per l'esquerra. Correspon al cas en qu tenim una hiptesi alternativa del tipus tipus (Veure

Z1 i t1 s'han de trobar N (0, 1) o de la t student amb n1 + n2 2 graus de

H1 : 1 2 = 1 i 1 < 0 )

H1 : 1 2 < 0

(o b del

Els valors que limiten la Zona de Rebuig, a les taules de la

llibertat respectivament segons sigui el cas de que coneixem les dues varincies poblacionals o no tal com s'ha explicat abans. gura 3.12) 6. Conclusi del contrast

Z1 i t1 s'han de trobar N (0, 1) o de la t student amb n1 n2 2 graus de


(Veure

Es tracta nalment de veure si el Valor Observat de l'Estadstic de que el contrast rebutja la Hiptesi NulLa. Si no hi est, direm que No

Contrast (VOEC) est, o no, en la Zona de Rebuig. Si hi est, direm

es rebutja la Hiptesi Nulla.

Exemple 3.4.1 Un consumidor est dubtant entre dues marques a l'hora de decidir quines bombetes de baix consum comprar. Tant el fabricant de les bombetes

3.4.

CONTRASTOS DE DIFERNCIES

69

Z1 t1

Figura 3.11: Zona de Rebuig en el contrast d'una cua per la dreta

de la marca A com el fabricant de la marca B asseguren que el temps promig de vida de les seves bombetes s de 10.000 hores. El consumidor, per, consulta un informe sobre aquest tipus de bombetes en el qual, a partir d'una prova amb 50 bombetes de la marca A i 45 bombetes de la marca B, es van observar unes durades mitjanes de 9.430 hores per les de la marca A i de 9.660. Se sap, a ms, per que la forma de produir aquestes bombetes, al varincia real en els dos 2 2 casos s de 1 = 2 = 10.000. Podem dir que les bombetes de les dues marques tenen la mateixa vida esperada ? (nivell de signicaci = 0.05) En aquest cas tenim :

Poblaci 1 (Marca A)
2 1 = desconeguda, 1 = 10.000 Mostra 1 (n1 = 50) 1 = 9.430 X

Poblaci 2 (Marca B)
2 2 = desconeguda, 2 = 10.000 Mostra 2 (n2 = 45) 2 = 9.660 X

1. Hiptesi nulla s el valor de la diferncia de mitjanes poblacionals que volem contrastar(0

0 en

aquest cas)

H0 : 1 2 = 0
2. Hiptesi Alternativa s all que resulta cert si la hiptesi nulla s falsa. Com que en principi cap bombeta sembla millor que l'altre, especiquem una hiptesi alternativa de la forma

70

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

Z1 1

Figura 3.12: Zona de Rebuig en el contrast d'una cua per l'esquerra

H1 : 1 2 = 0
3. Estadstic de contrast L'estadstic de contrast ( EC) a utilitzar en aquest cas que coneixem s
2 2 1 i 2 ,

EC =

1 X 2 )o (X
2 1 n1

+ n2

2 2

El valor observat de l'estadstic de contrast (VOEC) s'obt substituint els valors corresponents en la frmula

V OEC =

(9.430 9.660) 0
10.000 50

10.000 45

230 = 11.19 20.55

4. Distribuci de l'Estadstic de Contrast si la hiptesi nulla s certa Tal com he vist, si la hiptesi nulla s certa, s a dir, si aleshores

1 2 = 0

1 X 2 ) o (X
2 1 n1

2 2 n2

N (0, 1)

5. Zona de Rebuig de mida

= 0.05

La zona de rebuig es troba de manera diferent segons sigui un contrast d'una o de dues cues. En aquest cas tenim un Contrast de dues cues ja que la hiptesi alternativa s de la forma

H1 : 1 2 = 0

3.4.

CONTRASTOS DE DIFERNCIES

71

/2

/2

Z1/2

Z1/2

Els valors que limiten la zona de rebuig,

Z1 2

els trobarem a la taula

N (0, 1)
Aix, si

= 0.05

aleshores 2

= 0.025 1

i:

= 0.975 2

Busquem a les taules el valor

Z1 = Z0.975 2
s a dir, el valor d'una itat de

N (0, 1)

que deixa a la seva esquerra una probabil-

0.975.

A les taules:

Z0.975 = 1.96
Per tant,

/2

/2

-1.96

1.96

6. Conclusi del contrast Finalment hem de veure si el Valor observat de l'estadstic de con-

trast (VOEC) est, o no, a la Zona de Rebuig.


Clarament, en aquest cas hi est. Tenim

Diem aleshores que el contrast rebutja la hiptesi nulla

V OEC = 11.19 < 1.96

72

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

Exemple 3.4.2 Un fabricant de vidres climatitzats utilitza dues mquines diferents per la producci dels seus vidres. El fabricant sospita que una de les mquines (mquina A) produeix els vidres amb un allament inferior a l'altre (mquina B). Per a contrastar aquesta hiptesi, el fabricant comprova el nivell d'allament de 50 vidres produts a cada mquina. Aix, de la mostra estudiada a partir dels vidres produts a la mquina A observa que l'allament mig s de 0.81, mentre que a la mostra obtinguda a la mquina B l'allament mig s de 2 0.85. Aix mateix, les varincies mostrals corresponents sn de S1 = 0.01 en el 2 primer cas i de S2 = 0.015 pel que fa a la mquina B. T ra el fabricant o les dues mquines produeixen els mateixos resultats ? En aquest cas tenim :

Poblaci 1 (Mquina A)
2 1 = desconeguda, 1 = desconeguda Mostra 1 (n1 = 50) 1 = 0.81, S 2 = 0.01 X 1

Poblaci 2 (Mquina B)
2 2 = desconeguda, 2 = desconeguda Mostra 2 (n2 = 50) 2 = 0.85, S 2 = 0.015 X 2

1. Hiptesi nulla s el valor de la diferncia de mitjanes poblacionals que volem contrastar(0

0 en

aquest cas)

H0 : 1 2 = 0
2. Hiptesi Alternativa s all que resulta cert si la hiptesi nulla s falsa. Com que el fabricant sospita que nativa de la forma

1 < 2 ,

especiquem una hiptesi alter-

H1 : 1 2 < 0
3. Estadstic de contrast L'estadstic de contrast ( EC) a utilitzar en aquest cas que NO coneixem
2 2 1 i 2 ,

EC =

1 X 2 )o (X
S2 n1

+S n

2 2

on

S2

correspon a la Varincia mostral com

S2

que s'obt mitjanant

l'expressi

S2 =

2 2 (n1 1)S1 + (n2 1)S2 n1 + n2 2

3.4.

CONTRASTOS DE DIFERNCIES

73

essent

2 S1

2 S2

les varincies mostrals de la primera i la segona mostra

respectivament. El valor observat de l'estadstic de contrast (VOEC) s'obt substituint els valors corresponents en la frmula. Calculem en primer lloc la Varincia mostral com S 2

S2 =
Per tant,

2 2 49 0.01 + 49 0.015 (n1 1)S1 + (n2 1)S2 = = 0.0125 n1 + n2 2 50 + 50 2

V OEC =

(0.81 0.85) 0
0.0125 50

0.0125 50

0.04 = 1.789 0.022

4. Distribuci de l'Estadstic de Contrast si la hiptesi nulla s certa Tal com he vist, si la hiptesi nulla s certa, s a dir, si aleshores

1 2 = 0

1 X 2 ) o (X
S2 n1

S2 n2

tn1 +n2 2

5. Zona de Rebuig de mida

= 0.05

La zona de rebuig es troba de manera diferent segons sigui un contrast d'una o de dues cues. En aquest cas tenim un Contrast d'una cua per l'esquerra ja que la hiptesi alternativa s de la forma

H1 : 1 2 <0

t1

El valor que limita la zona de rebuig,

tn1 +n2 2 = t98


Aix, si

t1 ,

el trobarem a la taula de la

= 0.05

aleshores

Busquem a les taules el valor

1 = 0.95

t1 = t0.95 = 1.66
Per tant,

74

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

1.66
6. Conclusi del contrast

Finalment hem de veure si el Valor observat de l'estadstic de con-

trast (VOEC) est, o no, a la Zona de Rebuig.


Clarament, en aquest cas hi est. Tenim

V OEC = 1.789 < 1.66


Diem aleshores que el contrast rebutja la hiptesi nulla
s a dir, estem rebutjant que les dues mitjanes siguin iguals. Aix, doncs, indica que el fabricant podria tenir ra

3.4.2 Contrast sobre la diferncia de varincies


Es tracta, en aquest cas, de contrastar si dues poblacions tenen, o no, la mateixa varincia poblacional. Aquest s un contrast especial per tres motius:

1. Noms es contrasta si les dues varincies sn iguals o no, s a dir, la Hiptesi nulla sempre s la mateixa

2 2 H0 : 1 = 2
2. El contrast sempre s'ha de realitzar seguint un ordre molt estricte, la qual cosa es realitza en un pas previ als 6 passos habituals del contrast 3. El contrast s important perqu permet veure si dues poblacions semblen tenir, o no, la mateixa varincia, la qual cosa s important per a la realitzaci d'altres contrastos de comparaci de mostres. Efectivament, com hem vist en el cas anterior, el contrast sobre la diferncia de mitjanes noms t sentit si les dues poblacions que es comparen sn comparables (i aix ho formulvem dient que les dues poblacions havien de tenir la mateixa varincia)

Aix doncs, en aquest cas especial el contrast comenar amb una pas previ (pas 0) on s'estableix l'ordre dels elements del contrast.

3.4.

CONTRASTOS DE DIFERNCIES

75

0.

Pas Previ
D'aquesta manera, un cop

De les dues mostres que tenim, canviem la seva denominaci de forma que SEMPRE la mostra amb la varincia mostral ms gran sigui la mostra 1, essent la mostra 2 la que t la varincia mostral menor. denominades les mostres, sempre tindrem que

2 2 S1 > S2
1. Hiptesi Nulla Sempre s la mateixa i, com hem dit abans, sempre consisteix en veure si les dues varincies poblacionals sn iguals o no. Degut a l'estructura del contrast, la forma correcta d'especicar aquesta Hiptesi nulla s:

H0 :
2. Hiptesi Alternativa

2 1 2 =1 2

s all que resulta cert si la hiptesi nulla s falsa. En aquest contrast en concret, noms hi dues possibilitats per la Hiptesi alternativa (degut, un cop ms, a la seva estructura especial)

Informaci sobre

H1 :

2 1 2 2

2 2 1 i 2 2 2 .
Per

Tipus de contrast
Dues Cues

=1

Cas ms general. No tenim informaci sobre

2 1

ni sobre

tant, si no sn iguals noms podem dir que sn diferents


2 1 2 2

H1 :

>1

2 1 2 i 2 que diu que si no sn iguals aleshores una de les dues s ms


Tenim certa informaci sobre gran. Degut a la denominaci feta en el Pas 0, la ms gran sempre ser

Una cua per la dreta

2 1

3. Estadstic de contrast L'estadstic de contrast (EC) a utilitzar en aquest cas s:

E.C.

2 S1 2 S2

El Valor Observat de l'Estadstic de Contrast (VOEC) s'obt substituint en la frmula corresponent els valors corresponents, on

2 S1 2 S2

Varincia mostral de la primera mostra Varincia mostral de la segona mostra

Notar que, donat que hem denominat les mostres de forma que sempre tindrem que VOEC>

2 2 > S2 , S1

76

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

4. Distribuci de l'Estadstic de Contrast si la hiptesi nulla s certa En aquest cas, l'Estadstic de Contrast que es fa servir segueix una distribuci anomenada

de Snedecor. Aquesta distribuci, a l'igual que la

t student

o la

tamb est caracteritzada pels seus graus de lliber-

tat. La diferncia, per, s que aquesta denominador. Aix, si escrivim:

graus de llibertat, els corresponents al numerador i els corresponents al

F snedecor

t una parella de

2 S1 2 F(n1 1,n2 1) S2
estem dient que l'Estadstic de contrast
2 S1 2 es distribueix segons una S2

snedecor

amb

mostra corresponent al

n1 1

graus llibertat al numerador (s a dir la mida de la

2 S1

que hi ha al numerador menys 1) i

llibertat al denominador (s a dir la mida de la mostra corresponent al que hi ha al denominador menys 1).

n2 1 graus 2 S2

Cal recordar que s molt important respectar l'ordre establert en el Pas 0 del contrast, s a dir, tot el referent a la mostra 1 (tot el que porta el subndex 1 ) ha de correspondre a la mostra que t la varincia mostral (S ) major. En aquest sentit, els graus de llibertat del numerador sn la mida d'aquesta mostra 1 menys 1: mira les taules de la

F snedecor

per trobar la Zona de Rebuig.

n1 1 .

Aix s important quan es

5. Zona de Rebuig de mida

La zona de rebuig es trobar de manera diferent segons sigui un contrast d'una o de dos cues, depenent de quina forma prengui la hiptesi alternativa. En aquest contrast especial, per, sigui d'una o de dues

cues, l'nic que importar sempre s la cua de la dreta


(a) Contrast de dues cues. hiptesi alternativa del tipus Correspon al cas en que tenim una

H1 :

2 1 2 2

=1

de trobar

zona de rebuig ho estar en la cua de la dreta. Per la forma en que

F1 i F , noms s'ha 2 2 F1 a les taules de la F amb n1 1 graus de llibertat al 2 numerador i n2 1 graus de llibertat al denominador. L'altre valor, F , no fa falta en cap cas ja que donat que el VOEC> 1, si est a la 2
Dels valors que limiten la Zona de Rebuig,

s'ha realitzat el contrast (la denominaci de les dades que hem fet al pas 0), el Valor Observat de l'Estadstic de Contrast mai estar a la cua de l'esquerra. (Veure gura
3.13) (b) Contrast d'una cua per la dreta. tenim una hiptesi alternativa del tipus Correspon al cas en que
2 1 2 2

H1 :

>1

El valor que limita la Zona de Rebuig, taules de la

F1 ,

s'ha de trobar a les

amb

graus de llibertat al denominador. (Veure gura 3.14)

n1 1

graus de llibertat al numerador i

n2 1

3.4.

CONTRASTOS DE DIFERNCIES

77

/2

/2

(no cal buscar-lo)

F1/2

Figura 3.13: Zona de Rebuig en el contrast de dues cues

6. Conclusi del contrast Es tracta nalment de veure si el Valor Observat de l'Estadstic de

Contrast (VOEC) est, o no, en la Zona de Rebuig. Si est, direm es rebutja la Hiptesi Nulla.

que el contrast rebutja la Hiptesi NulLa. Si no est, direm que No

Exemple 3.4.3 Per l'anlisi de les cotitzacions a borsa de diferents accions,


la varincia dels preus d'aquestes accions acostuma a fer-se sevir com a mesura del risc associat a cada una. En aquest sentit, la observaci de 50 cotitzacions de les accions de l'empresa A va donar com a resultat una varincia de 3.9, mentre que 100 cotitzacions de les accions de l'empresa B oferien una varincia de 4.1. Pot concloure's que les accions de les dues empreses tenen el mateix risc associat ? En aquest cas tenim :

Poblaci 1 (Empresa A)
2 1 = desconeguda, 1 = desconeguda Mostra 1 (n1 = 50) 2 S1 = 3.9

Poblaci 2 (Empresa B)
2 2 = desconeguda, 2 = desconeguda Mostra 2 (n2 = 100) 2 S2 = 4.1

0 . Pas Previ

78

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

F1
Figura 3.14: Zona de Rebuig en el contrast d'una cua per la dreta

De les dues mostres que tenim, canviem la seva denominaci de forma que SEMPRE la mostra amb la varincia mostral ms gran sigui la mostra 1, essent la mostra 2 la que t la varincia mostral menor. Per tant, hem de re-ordenar les nostres mostres de forma que:

Poblaci 1 (Empresa B)
2 1 = desconeguda, 1 = desconeguda Mostra 1 (n1 = 100) 2 S1 = 4.1

Poblaci 2 (Empresa A)
2 2 = desconeguda, 2 = desconeguda Mostra 2 (n2 = 50) 2 S2 = 3.9

1. Hiptesi Nulla Sempre s la mateixa, sempre consisteix en veure si les dues varincies poblacionals sn iguals o no.
2 1 2 =1 2

H0 :
2. Hiptesi Alternativa

s all que resulta cert si la hiptesi nulla s falsa. En aquest contrast en concret, com que no tenim cap informaci, fem servir
2 1 2 =1 2

H1 :

3.4.

CONTRASTOS DE DIFERNCIES

79

3. Estadstic de contrast L'estadstic de contrast ( EC) a utilitzar en aquest cas s:


2 S1 2 S2

EC =

El Valor Observat de l'Estadstic de Contrast (VOEC) s'obt substituint en la frmula corresponent els valors corresponents
2 S1 4.1 = = 1.0513 2 S2 3.9

V OEC =

Notar que, donat que hem denominat les mostres de forma que sempre tindrem que VOEC>

2 2 S1 > S2 ,

4. Distribuci de l'Estadstic de Contrast si la hiptesi nulla s certa En aquest cas, l'Estadstic de Contrast que es fa servir segueix una distribuci

de Snedecor.
2 S1 F(n1 1,n2 1) 2 S2

amb n1 1 graus llibertat al numerador i inador. En aquest cas

n2 1

graus llibertat al denom-

2 S1 2 F(n1 1,n2 1) = F(99,49) S2

[Cal recordar que s molt important respectar l'ordre establert en el Pas 0 del contrast]

5. Zona de Rebuig de mida

= 0.05

La zona de rebuig es trobar de manera diferent segons sigui un contrast d'una o de dos cues, depenent de quina forma prengui la hiptesi alternativa. E n aquest contrast especial, per, sigui d'una o de dues cues,

l'nic que importar sempre s la cua de la dreta


En aquest cas tenim un Contrast de dues cues ja que tenim una 2 H1 : 1 2 = 1 2

hiptesi alternativa del tipus

80

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

/2

/2

(no cal buscar-lo)

F1/2

Dels valors que limiten la Zona de Rebuig, trobar i

Aix, si

F n2 1

1 2

a les taules de la
aleshores 2

amb

graus de llibertat al denominador.

n1 1 graus de llibertat al numerador


i:

F1 2

F , 2

noms s'ha de

= 0.05

= 0.025 1

= 0.975 2

Busquem a les taules el valor

= F0.975 F1 2
s a dir, el valor d'una itat de

0.975.

F(99,49) que deixa a la seva esquerra una probabilA les taules: F0.975 = 1.66

/2

/2

(no cal buscar-lo)

1.66

3.4.

CONTRASTOS DE DIFERNCIES

81

6. Conclusi del contrast Es tracta nalment de veure si el Valor Observat de l'Estadstic de

Contrast (VOEC) est, o no, en la Zona de Rebuig.


En aquest cas tenim

V OEC = 1.0513 < 1.66 V OEC ZR


(a) Per tant, NO es pot rebutjar la hiptesi de que les dues varincies sn iguals

3.4.3 Contrast sobre la diferncia de proporcions


Es tracta de contrastar si la diferncia entre les proporcions d'elements de dues poblacions que tenen una determinada caracterstica s igual a un determinat valor

o no. Per exemple, podrem contrastar si la proporci de votants del

P.P. a Cerdanyola en les properes eleccions generals s igual a la proporci de votants del P.P. a Sant Cugat (1 si la proporci de persones que es curen d'una malaltia desprs de seguir un determinat tractament s major que la proporci de persones que es curen sense prendre'l (per tal de comprovar l'eccia d'aquest medicament)

2 = 0).

Un altre exemple seria contrastar

Els sis passos que corresponen a aquest contrast sn:

1. Hiptesi Nulla s el valor de la diferncia entre les proporcions poblacionals que volem contrastar

(0 = difer` enca

a contrastar)

H0 : 1 2 = 0

2. Hiptesi Alternativa s all que resulta cert si la hiptesi nulla s falsa. Depn de quina

informaci tenim sobre les proporcions poblacionals. Tenim 4 possibilitats

82

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

Informaci sobre

1 i 2

Tipus de contrast
Dues Cues

H1 : 1 2 = 0

Cas ms general. poblacionals.

No tenim intant, si la

formaci sobre les proporcions Per diferncia no s igual a

noms sobre Una cua per la dreta

podem dir que s diferent

H1 : 1 2 > 0

Tenim

certa

informaci

les proporcions que diu que si la diferncia no s igual a aleshores s ms gran

0
Una cua per l'esquerra

H1 : 1 2 < 0

Tenim

certa

informaci

sobre

les proporcions que diu que si la diferncia no s igual a aleshores s ms petita

0
Una cua per la dreta si

H1 : 1 2 = 1

Tenim

certa

informaci

sobre

les proporcions que diu que si la diferncia no s igual a

1 > 0

una cua per l'es-

querra si

1 < 0

aleshores s igual a un altre valor

1
3. Estadstic de contrast L'estadstic de contrast (EC) a utilitzar en aquest cas sempre ser el mateix. E.C.

( 1 2 ) 0
(1 ) n1

(1 ) n2

En qualsevol d'aquests casos, el Valor Observat de l'Estadstic de Contrast (VOEC) s'obt substituint en la frmula corresponent els valors corresponents, on

1 i 2 0 n1 i n2

Mitjanes mostrals Valor de la Hiptesi Nulla Proporci mostral com Mides mostrals

En les frmules anteriors, el valor de la proporci mostral com mitjanant l'expressi

s'obt

n1 1 + n2 2 n1 + n2

qu s equivalent a calcular la proporci d'elements de les dues mostres (juntes) que tenen la caracterstica que s'est estudiant. 4. Distribuci de l'Estadstic de Contrast si la hiptesi nulla s certa Tal com hem vist en altres casos tenim que, si s veritat que aleshores

1 2 = 0

( 1 2 ) 0
(1 ) n1

(1 ) n2

N (0, 1)

3.4.

CONTRASTOS DE DIFERNCIES

83

5. Zona de Rebuig de mida

La zona de rebuig es trobar de manera diferent segons sigui un contrast d'una o de dos cues, depenent de quina forma prengui la hiptesi alternativa (a) Contrast de dues cues. hiptesi alternativa del tipus Correspon al cas en qu tenim una

H1 : 1 2 = 0

/2

/2

Z1/2

Z1/2

Figura 3.15: Zona de Rebuig en el contrast de dues cues

El valor que limita la Zona de Rebuig, taules de la

Z1 , 2

s'ha de trobar a les

N (0, 1).

(Veure gura 3.15) Correspon al cas en qu (o b del

(b) Contrast d'una cua per la dreta. tenim una hiptesi alternativa del tipus tipus

H1 : 1 2 = 1 i 1 > 0 )

H1 : 1 2 > 0

El valor que limita la Zona de Rebuig, taules de la

Z1 ,

s'ha de trobar a les

N (0, 1).

(Veure gura 3.16)

(c) Contrast d'una cua per l'esquerra. Correspon al cas en qu tenim una hiptesi alternativa del tipus tipus

H1 : 1 2 = 1 i 1 < 0 )

H1 : 1 2 < 0

(o b del

El valor que limita la Zona de Rebuig, taules de la

Z1 ,

s'ha de trobar a les

N (0, 1).

(Veure gura 3.17)

6. Conclusi del contrast Es tracta nalment de veure si el Valor Observat de l'Estadstic de

Contrast (VOEC) est, o no, en la Zona de Rebuig. Si hi est, direm

84

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

Z1

Figura 3.16: Zona de Rebuig en el contrast d'una cua per la dreta

es rebutja la Hiptesi Nulla.

que el contrast rebutja la Hiptesi Nulla. Si no hi est, direm que No

Exemple 3.4.4 Segons la Encuesta de Poblacin Activa publicada pel Insituto Nacional de Estadstica, en el tercer trimestre del 2009 la taxa d'atur

entre els joves menors de 30 anys amb titulaci universitria era del 19.76%, i del 30.64% en el cas de joves amb noms educaci secundria. D'acord amb aquestes dades, podem concloure que la taxa d'atur entre els joves amb titulaci universitria s, com a mnim, un 10% inferior a la taxa d'atur dels joves amb noms educaci secundria ? Les mides de les mostres van ser de 5.000 joves amb titulaci universitria i 20.000 amb noms educaci secundria. 1. Hiptesi Nulla s el valor de la diferncia entre les proporcions poblacionals que volem contrastar

(0 = 0.1

en aquest cas)

H0 : 1 2 = 0.1
2. Hiptesi Alternativa s all que resulta cert si la hiptesi nulla s falsa. informaci tenim sobre les proporcions poblacionals En aquest cas, com que volem contrastar si hiptesi alternativa de la forma: Depn de quina

1 < 2 0.1,

fem servir una

H1 : 1 2 < 0.1
3. Estadstic de contrast

3.4.

CONTRASTOS DE DIFERNCIES

85

Z1

Figura 3.17: Zona de Rebuig en el contrast d'una cua per l'esquerra

L'estadstic de contrast (EC) a utilitzar en aquest cas sempre ser el mateix.

EC =

( 1 2 ) 0
(1 ) n1

(1 ) n2

En qualsevol d'aquests casos, el Valor Observat de l'Estadstic de Contrast (VOEC) s'obt substituint en la frmula corresponent els valors corresponents, on la proporci mostral com

s'obt mitjanant l'expressi

n1 1 + n2 2 5000 (0.1976) + 20000 (0.3064) = 0.2864 = n1 + n2 5000 + 20000

Per tant, tenim:

V OEC =

0.2864(10.2864) 5000

(0.1976 0.3064) (0.1) +

0.2864(10.2864) 20000

0.0088 = 1.23 0.00714

4. Distribuci de l'Estadstic de Contrast si la hiptesi nulla s certa Tal com hem vist en altres casos tenim que, si s veritat que aleshores

1 2 = 0

( 1 2 ) 0
(1 ) n1

(1 ) n2

N (0, 1)

5. Zona de Rebuig de mida

La zona de rebuig es trobar de manera diferent segons sigui un contrast d'una o de dos cues, En aquest cas tenim un Contrast d'una cua per l'esquerra ja que tenim una hiptesi alternativa del tipus

H1 : 1 2 < 0

86

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

Z1

El valor que limita la zona de rebuig, de la

N (0, 1). = 0.05


aleshores

Z1 ,

el podem trobar a les taules

Per tant, si

1 = 0.95

A les taules trobem

Z1 = Z0.95 = 1.645
6. Conclusi del contrast Es tracta nalment de veure si el Valor Observat de l'Estadstic de

Contrast (VOEC) est, o no, en la Zona de Rebuig.


En aquest cas no hi est. Tenim:

V OEC = 1.23 > 1.645 V OEC / ZR


Diem aleshores que les dades no rebutgen la Hiptesi Nulla
Notar en aquest cas que NO estem rebutjant la hiptesi

0.1

contraposada a l'alternativa

H1 : 1 2 < 0.1

H0 : 1 2 =

Per tant, la conclusi s que les dades Encuesta de Poblacin Activa rebutgen la hiptesi que la diferncia entre les dues taxes d'atur s de ms del 10%

3.5 Anlisi de la Varincia


L'anlisi de la varincia s un conjunt de tcniques estadstiques que permeten estudiar l'efecte simultani de diferents factors. Per exemple, varietats de En cada factor blat, diferents tipus de cables, vehicles de diferents marques.

observem una caracterstica contnua que varia aleatriament: el pes del blat, la conductivitat elctrica dels cables, el consum dels vehicles. Es vol saber si existeix, o no, relaci entre el valor mig de la caracterstica estudiada i el factor: tenen totes les varietats de blat el mateix pes? tenen la mateixa resistncia mitjana els diferents cables? tenen el mateix consum mig els diferents vehicles?

3.5.

ANLISI DE LA VARINCIA

87

3.5.1 Marc bsic


Es tracta de contrastar si les mitjanes de vries poblacions coincideixen, essent el nmero de poblacions. Cada una de les poblacions normalment amb varincia com

k (j = 1, . . . , k ) es distribueix

2 : xk N (k , 2 ) nj .

x1 N (1 , 2 )

x2 N (2 , 2 ) j

De cada una de les poblacions

s'obt una mostra de mida

Notaci:

xij : Observaci mostral i-ssima de la mostra de la poblaci j , (i = 1, . . . , nj ; j = 1, . . . , k ). N:


Nmero total d'observacions

N=
j =1

nj

j : X

Mitjana mostral de la mostra de la poblaci

j.

j = 1 X nj

nj

xij
i=1

Mitjana total o mitjana de totes les observacions

= 1 X N

nj

xij =
j =1 i=1

1 + n2 X 2 + + nk X k n1 X n1 + n2 + + nk X n1 = n2 =
s la mitjana de les mitjanes

Es pot demostrar que si totes les mostres tenen la mateixa mida,

= nk ,

aleshores la mitjana total

= 1 (X 1 + + X k ) X k

3.5.2 Contrast
El test a realitzar s de la forma

H0 : H1 :

1 = 2 = = k
No totes les

sn iguals

88

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

3.5.3 Estadstic de contrast


La realitzaci del test es basa en l'estudi de les desviacions de cada una de les observacions

xij

amb respecte de la mitjana total

: X

xij X
Aquestes desviacions es poden descomposar en desviacions de cada observaci amb respecte la mitjana de la seva mostra i desviacions de cada una de les mitjanes de les

mostres amb respecte la mitjana total:

) = (x X ) j ) + (X j X (xij X ij
Com s habitual, el que interessa s estudiar la suma d'aquestes desviacions elevades al quadrat:

nj

nj

j =1 i=1

)2 (xij X

=
j =1 i=1 k

j )2 + (xij X

j =1

)2 + j X nj (X

nj

2
j =1 i=1

) j )(X j X (xij X

Pot demostrar-se que el tercer terme d'aquesta expressi s igual a zero i, per tant, tindrem:

nj

nj

j =1 i=1

)2 = (xij X

j =1 i=1

j )2 + (xij X

j =1

)2 j X nj (X

o, el que s el mateix,

Variaci Total = Variaci Dins les Mostres + Variaci Entre Mostres

VT = VDM + VEM
on:

ni

VT =
j =1 i=1 k

)2 (xij X j )2 (xij X

nj

V DM =
j =1 i=1 k

V EM =
j =1

)2 j X nj (X

s important entendre ara que,

3.5.

ANLISI DE LA VARINCIA

89

1. Si la hiptesi nulla s certa,

2 SE =

V EM k1 s un estimador inesbiaixat de

2 .

Per tant,

2 (k 1)SE V EM 2 2 k 1 k 1 2 2

(3.1)

2. En considerar totes les varincies com iguals,

2 SD =

V DM N k s un estimador

inesbiaixat de

. Per tant,

2 (N k )SD V DM 2 2 k 1 N k 2 2

(3.2)

Aleshores, si la hiptesi nulla s certa, haurem d'esperar que el rati

2 2 SE /SD

fos

molt proper a 1. Aix s el que farem servir com a estadstic de contrast:

F =

2 SE 2 SD

Per veure quina s la distribuci d'aquest estadstic tenim que,

S2 F = E 2 = SD

V EM 2 (k1) V DM 2 (N k)

2 k 1 k 1 2 N k N k

F(k1,N k)

s a dir, l'estadstic de contrast

k1

graus de llibertat al

F segueix una distribuci F d'Snedecor amb numerador i N k graus de llibertat al denominador F =


2 SE 2 F(k1,N k) SR

3.5.4 Resultat del contrast


El contrast s sempre d'una cua per la dreta. Un cop s'ha obtingut el Valor Observat de l'Estadstic de Contrast (VOEC), es compara amb el valor tabulat d'una

d'Snedecor per un nivell de signicaci

xat,

F(k1,N k) (1 )2
la convenci que hem estat fent servir, denotem amb

2 Seguint

valor d'una variable aleatria

que deixa a la seva esquerra una rea de

F(k1,N k) (1 )) = 1 ).

S'ha tenir sempre present, per, que depenent de les taules la

F(k1,N k) (1 ) el 1 (p(F <

probabilitat que s'ofereix s la complementria, s a dir,

p(F > F(k1,N k) (1 ))

90

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

F1

El criteri de decisi del contrast s doncs:

Si Si

V OEC < F(k1,N k) (1 ) V OEC > F(k1,N k) (1 )

NO es rebutja la Hiptesi Nulla Es rebutja la Hiptesi Nulla

3.5.5 La taula ANOVA


Per a la realitzaci d'aquest contrast, i per tal de facilitar els clculs, s'acostuma a treballar amb l'anomenada Taula ANOVA la distribuci
3

on tamb es presenta el Valor

Observat de l'Estadstic de Contrast per la seva comprovaci amb les taules de

F.

La taula t la forma:

Variaci

Suma
k j =1 k j =1

gdl

Suma mitjana
V EM k 1 V DM N k 2 = SE 2 = SD

V EM V DM

)2 j X nj (X
nj i=1 (xij

k1 N k N 1

j )2 X )2 X

F =

2 SE 2 SD

VT

k j =1

ni i=1 (xij

AN alysis O f VAriance

3.5.

ANLISI DE LA VARINCIA

91

Exemple 3.5.1 Tres grups de lots de peix, 5 a cada grup, provinents de 3


llotges diferents sn pesats per tal de comprovar si hi ha diferncies entre el pes del lots que es comercialitzen als diferents ports. Els resultats obtinguts van ser: Llotja 1 48 50 53 52 50 Llotja 2 55 52 53 55 53 Llotja 3 51 52 50 53 50

Hi ha diferncies signicatives en el pes dels lots dels diferents ports? Per realitzar el contrast hem de fer els clculs corresponents a les per poder completar la taula ANOVA. En aquest cas tenim, Mostres Observacions mosta 1 Observacions mosta 2 Observacions mosta 3 Observacions totals Del clcul de les mitjanes obtenim:

( = 0.05)
i

V EM

V DM

k n1 n2 n3 N = n1 + n2 + n3

3 5 5 5 15

1 X X2 3 X X
A partir d'aqu obtenim
k

50.6 53.6 51.2 51.8

V EM =
j =1 k

)2 = 25.2 j X nj (X
nj

V DM =
j =1 i=1

j )2 = 29.2 (xij X

Per tant,

Variaci
V EM V DM

Suma
25.2 29.2

gdl
k1=2 N k = 12 N 1 = 14

Suma mitjana
V EM k 1 V DM N k

= =

25.2 2 29.2 12

= 12.6 = 2.43 F =
12.6 2.43

= 5.18

VT

54.4

92

CAPTOL 3.

CONTRASTOS D'HIPTESIS PARAMTRIQUES

s a dir, obtenim un VOEC

F = 5.18
Busquem ara a les taules d'una al numerador i

d'Snedecor amb

a la seva esquerra una probabilitat de

N k = 12

graus de llibertat al denominador el valor que deixa

k1 = 2

graus de llibertat

1 = 0.95

F(2,12) (0.95) = 3.89


Aix doncs, com que

F = 5.18 > 3.89 = F(2,12) (0.95)


tenim que el VOEC s a la zona de rebuig del contrast i, per tant, rebutgem rebutjant la hiptesi de que els lots de peix pesen el mateix als tres ports.

la hiptesi nulla que les tres mitjanes poblacionals sn igual. Per tant, estem

Captol 4
Anlisi de la bondat d'ajust i de la relaci entre variables

En els captols anteriors hem vist els principals casos dels anomenats tests paramtrics. Es tractava en tots els casos de contrastar hiptesis referents a algun parmetre (numric) de la poblaci. En aquest captol veurem un contrast del tipus no paramtrics. Es tracta En

de contrastar hiptesis ms generals que el simple valor d'un parmetre. determinada distribuci terica.

concret veurem com contrastar si les observacions d'una mostra s'ajusten a una

Per nalitzar s'introduir el concepte de relaci entre variables, que ser ampliat en el captol 5. Veurem com contrastar si dues variables aleatries estan relacionades o no i com mesurar la fora i el sentit d'aquesta relaci

4.1 El contrast de la bondat d'ajust.


El contrast de la bondat d'ajust de Kolmogorov-Smirnov analitza si les dades recollides a una mostra s'ajusten a una distribuci de probabilitat concreta, i com de bo s aquest ajust Podem contrastar, per exemple, si la distribuci de la renda per capita a Cerdanyola segueix una distribuci Normal amb la esperana i la varincia observades a la mostra (test de Normalitat). El contrast consisteix en comprovar formalment si les freqncies observades en la mostra coincideixen amb les freqncies teriques que s'obtindrien d'una distribuci Normal amb l'esperana i varincia observades a la mostra. El procediment per contrastar si les dades d'una mostra s'ajusten a una distribuci Normal amb esperana=

i varincia=

s el segent

1. La Hiptesi Nulla s sempre la mateixa:

H 0 : FO = FT
93

94CAPTOL 4. ANLISI DE LA BONDAT D'AJUST I DE LA RELACI ENTRE VARIABLES

On

FO

s la freqncia acumulada observada a la mostra iFT s la fre1

qncia acumulada terica corresponent a una distribuci Normal . Ms endavant veurem com es calculen aquestes freqncies 2. La Hiptesi Alternativa s sempre la mateixa:

HA : F0 = FT
s a dir, si les freqncies no sn iguals, sn diferents. 3. Estadstic de contrast En aquest contrast, el clcul de l'estadstic de contrast s fora laboris. En primer lloc, per obtindre les freqncies observades lar, per cada observaci

FO , hem de calcu-

xi

a la mostra, quina s la proporci o freqncia

d'observacions que sn ms petites o iguals a ella

FO (xi ) =

N umero d observacions a la mostra menors o iguals a xi N umero total d observacions a la mostra


corresponents a al

A continuaci hem de calcular (fent servir les taules de la Normal estndard Normal

N (0, 1)) quines sn les freqncies teriques N (, 2 ), l'ajust a la qual estem contrastant

X xi xi FT (xi ) = P (X xi ) = P ( ) = P (Z ) 2 2 2
on, com sempre,

Finalment, calculem les diferncies entre cada una de les freqncies observades

Z N (0, 1)

FO (xi )

i la corresponent freqncia terica

FT (xi )

i ens xem s (per

en el MXIM (en valor absolut) d'aquestes diferncies.

Aquest mx-

im ser el valor observat de l'estadstic de contrast en aquest cas.


a dir, l'estadstic de contrast en aquest cas, que es denota Kolmogorov-Smirnov), ve donat per:

KS

K S = max |FO (xi ) FT (xi )|


i el seu VOEC corresponent s'obt dels clculs de les diferncies i la selecci del mxim tal com s'ha explicat abans 4. Distribuci de l'estadstic de contrast certa

KS

quan la hiptesi nulla s

En aquest contrast la distribuci a utilitzar s una especca anomenada distribuci de Kolmogorov-Smirnov, els valors crtics de la qual es troben tabulats. 5. rea de rebuig de mida

Aquest contrast sempre s d'una cua per la dreta. En les taules KolmogorovSmirnov trobem els valors lmit per aquesta rea de rebuig en funci del seu tamany

i del tamany de la mosta

1 El

contrast es podria realitzar tamb per comprovar si la mostra s'ajusta a qualsevol

altre distribuci, com ara una exponencial, una Poisson, una Binomial, etc. Aqu ens centrem noms en el test de Normalitat.

4.1.

EL CONTRAST DE LA BONDAT D'AJUST.

95

6. Conclusi del contrast Donades les caracterstiques especials d'aquest contrast, noms hem de comprovar si el valor observat de l'estadstic de contrast (o no) que el valor que trobem a les taules de Kolmogorov-Smirnov. Si efectivament s major, aleshores es rebutja la hiptesi nulla que diu que les observacions de la mostra s'ajusten a una distribuci Normal. valor observat s menor, aleshores no es rebutja la hiptesi nulla Si el

K S

s major

Exemple 4.1.1 En una enquesta recent realitzada amb 5000 famlies de Cerdanyola es va recollir la segent informaci

Salari (e)
0-5000 5001-10000 10001-15000 15001-20000 20001-25000 25001-30000 30001-35000 35001-40000 40001-45000 45001-50000 50001-55000 55001-60000 >60000

Freqncia
33 78 224 456 753 952 959 753 459 218 82 28 5

Contrastar si aquestes dades s'ajusten a una distribuci Normal amb mitjana 30.000 i Desviaci estndard 10.000 1. La Hiptesi Nulla s sempre la mateixa:

H 0 : FO = FT
On

FO s la freqncia acumulada observada a la mostra i FT s la freqncia acumulada terica corresponent a una distribuci Normal

2. La Hiptesi Alternativa s sempre la mateixa:

HA : F0 = FT
s a dir, si les freqncies no sn iguals, sn diferents. 3. Estadstic de contrast

En primer lloc, per obtindre les freqncies observades calcular, per cada observaci

xi

FO , hem de a la mostra, quina s la proporci o xi

freqncia d'observacions que sn ms petites o iguals a ella

FO (xi ) =

Nmero d'observacions a la mostra menors o iguals a Nmero total d'observacions a la mostra

96CAPTOL 4. ANLISI DE LA BONDAT D'AJUST I DE LA RELACI ENTRE VARIABLES

D'acord amb les dades recollides tenim:

Salari (e)
0-5000 5001-10000 10001-15000 15001-20000 20001-25000 25001-30000 30001-35000 35001-40000 40001-45000 45001-50000 50001-55000 55001-60000 >60000

Freqncia
33 78 224 456 753 952 959 753 459 218 82 28 5

Freq. Cumulativa
33 111 335 791 1544 2496 3455 4208 4667 4885 4967 4995 5000

Fo
0.0066 0.0222 0.0670 0.1582 0.3088 0.4992 0.6910 0.8416 0.9334 0.9770 0.9934 0.9990 1.0000

A continuaci hem de calcular (fent servir les taules de la Normal estndard a al Normal

N (0, 1)) quines sn les freqncies teriques corresponents N (, 2 ), l'ajust a la qual estem contrastant

X 30.000 xi 30.000 xi 30.000 FT (xi ) = P (X xi ) = P ( ) = P (Z ) 10.000 10.0002 10.0002


on, com sempre,

Z N (0, 1).

En aquest cas tenim:

Salari (e)
0-5000 5001-10000 10001-15000 15001-20000 20001-25000 25001-30000 30001-35000 35001-40000 40001-45000 45001-50000 50001-55000 55001-60000 >60000

Salari Estandarditzat
-2.5 -2.0 -1.5 -1.0 -0.5 0 0.5 1.0 1.5 2.0 2.5 3.0

FT
0.0062 0.0228 0.0668 0.1587 0.3085 0.5000 0.6915 0.8413 0.9332 0.9772 0.9938 0.9987 1.0000

Finalment, calculem les diferncies entre cada una de les freqncies observades

FO (xi )

i la corresponent freqncia terica

FT (xi )

4.2.

TIPUS DE RELACI ENTRE VARIABLES

97

Salari (e)
0-5000 5001-10000 10001-15000 15001-20000 20001-25000 25001-30000 30001-35000 35001-40000 40001-45000 45001-50000 50001-55000 55001-60000 >60000

Fo
0.0066 0.0222 0.0670 0.1582 0.3088 0.4992 0.6910 0.8416 0.9334 0.9770 0.9934 0.9990 1.0000

FT
0.0062 0.0228 0.0668 0.1587 0.3085 0.5000 0.6915 0.8413 0.9332 0.9772 0.9938 0.9987 1.0000

|F o F T |
0.0004 0.0006 0.0002 0.0005 0.0003 0.0008 0.0005 0.0003 0.0002 0.0002 0.0004 0.0003 0.0000

L'estadstic de contrast, que es denota

K S,

ve donat per:

K S = max |FO (xi ) FT (xi )|


i el seu VOEC corresponent s'obt dels clculs de les diferncies i la selecci del mxim tal com apareix a la taula anterior

K S = max |FO (xi ) FT (xi )| = 0.0008


4. Distribuci de l'estadstic de contrast En aquest contrast la distribuci a utilitzar s una especca anomenada distribuci de Kolmogorov-Smirnov, els valors crtics de la qual es troben tabulats. 5. rea de rebuig de tamany

K S

quan la hiptesi nulla s certa

Aquest contrast sempre s d'una cua per la dreta. En les taules KolmogorovSmirnov trobem els valors lmit per aquesta rea de rebuig en funci del seu tamany

= 0.05

i del tamany de la mosta

n = 5.000

1.22 1.22 1.22 V alor l mit = = = = 0.01725 70 .71 n 5000


6. Conclusi del contrast Ara noms hem de comprovar si el valor observat de l'estadstic de contrast

K S

s major (o no) que el que trobem a les taules K-S. En aquest cas

K S = 0.0008 < 0.01725


Per tant, com que s ms petit, no rebutgem la hiptesi de Normalitat

4.2 Tipus de relaci entre variables


Considerem dues mostres independents, obtingues de forma aleatria, corresponents a dues caracterstiques (o parmetres) d'una poblaci (o de dues poblacions diferents). Per exemple, podrem pensar en una mostra sobre l'atur a la

98CAPTOL 4. ANLISI DE LA BONDAT D'AJUST I DE LA RELACI ENTRE VARIABLES

Uni Europea i una altra amb la inaci tamb a la Uni Europea. Aleshores ens podrem preguntar si existeix alguna relaci entre aquestes dades; si sembla cert (per exemple) que quan la taxa d'atur s elevada aleshores la inaci es modera. Aquest tipus de preguntes sn segurament ms ambicioses per l'anlisi econmica que les plantejades en captols anteriors. Efectivament, des del punt de vista de la poltica econmica resulta molt important conixer quins tipus de relacions existeixen entre les diferents variables econmiques. En aquest sentit, hi ha dos tipus de relaci que es podrien observar entre variables:

1. Causal Es diu que dues variables tenen una relaci causal quan canvis en una de les variables indueixen canvis en l'altre. Per exemple, sembla clar que quan ms baix sigui el tipus d'inters ms elevada ser la demanda de crdits. Es pot dir aleshores que la disminuci del tipus de inters causa un augment de la demanda de crdit

2. Espria Es diu que dues variables tenen una relaci espria quan aparentment estan relacionades per aquesta relaci no s causal sin que est explicada per un altre factor. Per exemple, a la Castella del segle XVIII s'observava que quantes ms cigonyes hi havia, ms naixements es produen. No sembla que la relaci sigui causal, sin que est explicada per un altre factor: el calendari. La Castella del segle XVIII era una societat agrria, dedicada sobretot al conreu del blat. El gra es recollia cap a nals de Juny i es venia al Juliol. Un cop recollits els guanys monetaris, la majoria de les cerimnies nupcials se realitzaven al mesos d'Agost i Setembre. A partir d'aqu, el cicle de la reproducci humana explica perqu els naixements coincidien majoritriament amb l'arribada de les cigonyes (Mar-Abril).

Un cop sabem si dues variables estan relacionades (o no), s molt important conixer quina s la fora i el tipus d'aquesta relaci. Efectivament, incls en el cas de que dues variables estiguin relacionades entre si, no podrem utilitzar aquesta relaci en la prctica si no sabem com funciona.

4.3 El Contrast d'independncia entre variables qualitatives.


Es tracta d'un contrast per comprovar si dues variables quantitatives o dues variables aleatries discretes sn independents o si, per el contrari, estan relacionades. Les observacions es disposen en una taula de freqncies que es denomina taula

de contingncia

4.3.

EL CONTRAST D'INDEPENDNCIA ENTRE V ARIABLES QUALITATIVES.99

x1 x2
. . .

y1 O11 O21
. . .

y2 O12 O22
. . .


.. .

yc O1c O2c
. . .

Total

X1 X2
. . .

xf
Total

Of 1 Y1

Of 2 Y2

Of c Yc

Xf n

on

{x1 , . . . , xf } {y1 , . . . , yc } Oij

Valors diferents que pren la variable Valors diferents que pren la variable Nmero d'observacions conjuntes de

X Y xi i yj

A partir d'aquesta taula es pot obtenir la taula de freqncies esperades (les que serien observades en cas d'independncia) per comparar i realitzar el contrast.

x1 x2
. . .

y1 E11 E21
. . .

y2 E12 E22
. . .


.. .

yc E1c E2c
. . .

Total

xf
Total

Ef 1

Ef 2

Ef c n

on cada una de les freqncies esperades s'obt de la formula:

Eij = n p(X = xi Y = yj ) = n p(X = xi ) p(y = yj ) = n

Xi Yj Xi Yj = n n n

La comparaci formal d'aquesta taula de freqncies esperades amb la taula de contingncia de freqncies observades s la base del contrast El contrast que es realitza s:

H0 : H1 :
L'estadstic de contrast s

s independent de

Y X
i

Hi ha dependncia entre

P =
i=1 j =1

(Oij Eij )2 Eij

Aquest estadstic de contrast es distribueix com una

amb

la dreta sempre. Per tant, rebutjarem la Hiptesi Nulla (independncia entre

de llibertat si la hiptesi nulla s certa. El contrast resultant s d'una cua per

(f 1)(c 1) graus

) si el VOEC

P > 2 1

100CAPTOL 4. ANLISI DE LA BONDAT D'AJUST I DE LA RELACI ENTRE VARIABLES

Exemple 4.3.1 Es van realitzar 500 entrevistes entre executius junior de diferents empreses. En aquestes entrevistes es va preguntar sobre el salari anual i el ttol obtingut a la universitat. Les dades recollides es presenten a la segent taula

Menys de 80.000 e Ms de 80.000 e Total

Salari \ Ttol

Economia No Economia Total


100 100 200 250 50 300 350 150 500

A partir d'aquestes dades, podem concloure que existeix una relaci entre el salari anual i els estudis realitzats a la universitat ? Sigui i

la variable que representa el salari anual,

la variable que representa el ttol universitari,

X {menys de 80.000, ms de Y {economia, no economia}

80.000}

El Test a realitzar s:

H0 : H1 :

X X

i i

Y Y

sn independents no sn independents

Per fer-ho, hem de calcular la Freqncia Esperada de cada parell de dades si la Hiptesi nulla (independncia) fos certa

Eij = n p(X = xi Y = yj ) = n p(X = xi ) p(y = yj ) = n

Xi Yj Xi Yj = n n n

Segons les dades recollides tenim la taula segent de Freqncies Observades

Oij
Salari \ Ttol

Menys de 80.000 e Ms de 80.000 e Total


Per tant,

Economia No Economia
O11 =100 O21 =100 Y1 =200 O12 =250 O22 =50 Y2 =300

Total
X1 =350 X2 =150 n =500

E11 E12 E21 E22

= = = =

X1 Y1 n X1 Y2 = n X2 Y1 = n X2 Y2 = n =

350 200 500 350 300 = 500 150 200 = 500 150 300 = 500 =

= 140 = 210 = 60 = 90 Eij ,

Aix, obtenim la segent taula de Freqncies Esperades

4.3.

EL CONTRAST D'INDEPENDNCIA ENTRE V ARIABLES QUALITATIVES.101

Menys de 80.000 e Ms de 80.000 e Total

Salari \ Ttol

Economia No Economia
E11 =140 E21 =60 Y1 =200 E12 =210 E22 =90 Y2 =300

Total
X1 =350 X2 =150 n =500

Per calcular el Valor Observat de l'Estadstic de Contrast


f c

P =
i=1 j =1

(Oij Eij )2 Eij

utilitzem la segent taula

Freq. Obs. 100

Oij

Freq. Esp. 140

Eij

Oij Eij
-40

(Oij Eij )2
1.600

(Oij Eij )2 Eij 1600 140

= 11.43

250

210

40

1.600

1600 210

= 7.62

100

60

40

1.600

1600 60

= 26.67

50

90

-40

1.600

1600 90

= 17.78

P = 63.5

Per tant, tenim el segent Valor Observat de l'Estadstic de Contrast

P = 63.5
Per completar el Test hem de comprovar si aquest valor P cau dins l'rea de 2 rebuig determinada per una amb (c 1)(f 1) = (2 1)(2 1) = 1 graus 2 de llibertat. Buscant a les taules el valor d'una 1 que deixa a la seva esquerra una probabilitat de 0.95 (prenent = 0.05) trobem

2 1 (0.95) = 3.84
Aix doncs, com que

P = 63.5 > 3.84 P RA


hem de concloure que les dades empriques rebutgen la hiptesi nulla d'independncia La conclusi del test s, per tant, que sembla existir una relaci entre els ttol obtingut a la universitat i el salari anual dels executius junior

102CAPTOL 4. ANLISI DE LA BONDAT D'AJUST I DE LA RELACI ENTRE VARIABLES

4.4 L'anlisi de la correlaci entre variables quantitatives: coecient de correlaci i contrast d'hiptesi
L'anlisi parteix de parelles de dades de les variables contnues

X x1 x2
. . .

Y y1 y2
. . .

xn

yn

Si representem aquest parells de dades en uns eixos podem obtindre, bsicament, un dels quatre tipus de grcs que apareixen a la gura 4.1, anomenats diagrama

de punts o diagrama de dispersi

Cada un d'aquests quatre tipus de resultat de la dispersi de les dades es correspon a un tipus de relaci entre les variables de la gura 4.2

X i Y,

tal com es recull a la taula

Amb l'anlisi de la correlaci es busca determinar

1. Quin tipus de relaci existeix entre les variables 2. Quin s el grau de la relaci entre les variables

Per entendre com s'obt l'anomenat Coecient de correlaci, que donar informaci sobre el tipus i el grau de la relaci, procedim de la segent manera:

1. Calculem el signe de la relaci, qu ens indicar el seu tipus (a) Calculem les dades en diferncies

x i

y i

x i y i

= =

) (x i X ) (yi Y

i observem que el signe d'aquestes diferncies (amb respecte de la mitjana) dependr de en quina de les quatre regions (denides pel parell

Y )) (X,

que apareixen a la gura 4.3 es troben les diferents

observacions

4.4.

L'ANLISI DE LA CORRELACI ENTRE VARIABLES QUANTITATIVES: COEFICIENT DE CORRELA

. .. .. ... .. .. . .
X Tipus A

. . .. ... .. .. ..
X Tipus B

. . . . . . .. . .. . . .

.. . . .
X

. .. . .. .

. .. .. . .. .
X

Tipus C
Figura 4.1: Tipus de Dispersi de les dades

Tipus D

Figura 4.3: Regions del diagrama de dispersi

104CAPTOL 4. ANLISI DE LA BONDAT D'AJUST I DE LA RELACI ENTRE VARIABLES

Tipus de Dispersi A

Tipus de Relaci entre les variables Montona creixent

Comentari Les dues en variables la es

mouen direcci. ms B Montona decreixent Les alt

mateixa

Quant ms alt s el valor de es

sigui el valor d'una d'elles, l'altra dues variables mouen en direccions contrries. Quant ms alt sigui el valor d'una d'elles, ms baix s el valor de l'altra C No hi ha relaci No s'observa cap relaci entre les variables. De vegades, alts de D Relaci no montona valors alts de

van acompanyats de valors

i de vegades de

valors baixos Hi ha relaci entre les variables, per de vegades s creixent (com en el Tipus A) i de vegades decreixent (com en el Tipus B) Figura 4.2: Tipus de Relaci entre les variables

Observem que: i. Per punts (observacions) a les regions I i III tenim que ii. Per punts (observacions) a les regions II i IV tenim que (b) Calculem la suma del producte d'aquestes diferncies

x i y i > 0 x i y i < 0

x i y i
Pel que hem observat en (a), tenim que i. Si

que amb

x i y i > 0 s perqu hi ha molts ms termes amb x i y i > 0 x i y i < 0. s a dir, hi ha ms punts a les regions I i III

que a les regions II i IV. Aix indicaria que existeix una relaci montona creixent (dispersi dels Tipus A d'acord amb la gura 4.1) ii. Si

que amb

x i y i < 0 s perqu x i y i > 0. s

hi ha molts ms termes amb

x i y i < 0

a dir, hi ha ms punts a les regions

II i IV que a les regions I i III. Aix indicaria que existeix una relaci montona decreixent (dispersi dels Tipus B d'acord amb la gura 4.1) iii. Si

x i y i 0 s perqu hi ha tants termes amb x i y i < 0 com amb x i y i > 0. s a dir, hi ha punts per totes les regions. Aix tant

4.4.

L'ANLISI DE LA CORRELACI ENTRE VARIABLES QUANTITATIVES: COEFICIENT DE CORRELA

pot indicar que no existeix relaci (dispersi dels Tipus C d'acord amb la gura 4.1) com que existeix una relaci no montona (dispersi dels Tipus D d'acord amb la gura 4.1) Tipus de Dispersi Tipus de Relaci entre les variables Grca

A (

x i y i > 0)

Montona creixent

B (

x i y i < 0)

Montona decreixent

C o D (

x i y i 0)

No hi ha relaci o Relaci no montona

Figura 4.4: Tipus de Relaci entre les variables a partir de

x i y i

A la taula 4.4 tenim recollits aquests resultats. 2. Amb el signe d'aquest sumatori tenim doncs identicat el tipus de relaci. El seu valor, per, no el podem utilitzar com a mesura de quin s el grau d'aquesta relaci. (n petit). Efectivament, podria passar que una srie de dades tingui moltes observacions (n gran) mentre que d'altre en tingui poques Aleshores tindrem que el resultat de

x i y i

seria gran en el

106CAPTOL 4. ANLISI DE LA BONDAT D'AJUST I DE LA RELACI ENTRE VARIABLES

primer cas i petit en el segon, senzillament perqu sumem ms valors. Podrem aix arribar a la conclusi errnia que la relaci s ms forta en el primer cas que en el segon. Per a evitar aquest error podem dividir el sumatori d'observacions

x i y i

pel nmero

i corregim aix aquest efecte

x i y i n
3. Finalment, queda un altre efecte per corregir. Considerem dues sries referides a les mateixes observacions de dues variables, per una mesurada en euros i l'altre en milers d'euros. Les observacions de la primera srie sn doncs com les de la segona srie per multiplicades per mil, per clarament el grau de la relaci entre les variables hauria de ser el mateix en les dues sries. En fer el sumatori

x i y i , per, passar que el resultat per

la primera srie ser major que per la segona srie, senzillament perqu sumem valors mil vegades ms grans. Podrem aix arribar novament a la conclusi errnia de que la relaci s ms forta en el primer cas que en el segon.

x i y i per algun facn tor que incorpori les unitats de mesura de les dades. El que es fa en aquest
Per a evitar aquest error podem ara tornar a dividir sentit s dividir pel producte dels errors estndard de les observacions de les dues variables,

SX

SY : x i y i nSX SY

4. Arribem d'aquesta manera a l'expressi nal del coecient de correlaci :

r=

x i y i nSX SY

(4.1)

on, recordem,

x i y i SX SY
Si substitum els valors de compacta

= = = =

) (x i X ) (yi Y x 2 i n 2 y i n

SX

SY

en l'expressi (4.1) tenim la frmula ms

r=
Es pot demostrar que taula de la gura 4.5

x i y i x 2 i
2 y i

(4.2)

1 r 1,

i la seva interpretaci s la que apareix a la

4.4.

L'ANLISI DE LA CORRELACI ENTRE VARIABLES QUANTITATIVES: COEFICIENT DE CORRELA

r 1 r < 0
Valor de

Interpretaci Hi ha una relaci montona negativa (Tipus B). Quant ms a prop de -1 estigui

r,

ms forta s la relaci

0<r1 r0

Hi ha una relaci montona positiva (Tipus A). Quant ms a prop de 1 estigui Si

r,

ms forta s la relaci

est a prop de

0,

vol dir que no hi No

ha relaci o que no s montona. Tipus D Figura 4.5: Interpretaci de

es pot distingir si s del Tipus C o del

El coecient de correlaci

s un estimador, calculat a partir de la mostra

d'observacions de les variables

X i Y,

del coecient de correlaci poblacional

que mesura la correlaci verdadera entre dues variables. En aquest sentit, i tal com hem fet en els captols anteriors amb d'altres estimadors (com per exemple

de la mitjana poblacional

),

podem utilitzar

per fer inferncia sobre el

valor de que,

(intervals de conana, contrasts d'hiptesis). Per a fer-ho ens cal

conixer la distribuci d'aquest estimador. En aquest sentit, es pot demostrar

1 1+r 1 1+ 1 ln( ) N ( ln( ), ) 2 1r 2 1 n3

Exemple 4.4.1 Considerar la segent srie de dades de les variables

Y.

X Y

6 6.5

4 4.5

8 7

5 5

3.5 4

7 8

5 7

10 10

5 6

4 5

108CAPTOL 4. ANLISI DE LA BONDAT D'AJUST I DE LA RELACI ENTRE VARIABLES

Per calcular el coecient de correlaci

fem els segents clculs:

1.

. Y X Y = = 6 + 4 + 8 + 3.5 + 7 + 5 + 10 + 5 + 4 = 5.75 10 6.5 + 4.5 + 7 + 5 + 4 + 8 + 7 + 10 + 6 + 5 = 6.3 10

2. A la taula segent es calculen els sumatoris

xi
6 4 8 5 3.5 7 5 10 5 4

yi
6.5 4.5 7 5 4 8 7 10 6 5

X
5.75 5.75 5.75 5.75 5.75 5.75 5.75 5.75 5.75 5.75

Y
6.3 6.3 6.3 6.3 6.3 6.3 6.3 6.3 6.3 6.3

x i
0.25 -1.75 2.25 -0.75 -2.25 1.25 -0.75 4.25 -0.75 -1.75 0

y i
0.2 -1.8 0.7 -1.3 -2.3 1.7 0.7 3.7 -0.3 -1.3 0

x 2 i
0.063 3.063 5.063 0.563 5.063 1.563 0.563 18.063 0.563 3.063

2 y i

x i y i
0.05 3.15 1.58 0.98 5.18 2.13 -0.53 15.73 0.23 2.28

0.040 3.240 0.490 1.690 5.290 2.890 0.490 13.690 0.090 1.690

37.63

29.6

30.75

4.4.

L'ANLISI DE LA CORRELACI ENTRE VARIABLES QUANTITATIVES: COEFICIENT DE CORRELA

3. Calculem nalment el coecient de correlaci

r=

x i y i x 2 i
2 y i

30.75 = 0.9214 37.63 29.6

Aix, veiem que hi ha una forta relaci montona creixent (del 92,14 %) entre les variables

110CAPTOL 4. ANLISI DE LA BONDAT D'AJUST I DE LA RELACI ENTRE VARIABLES

Captol 5
Introducci al model de regressi

5.1 Objectiu del model


Es tracta ara d'estudiar quina s la relaci existent entre dues variables numriques qualsevol

Y.

Per exemple, si mirem les dades corresponents al Producte

Interior Brut (Gross Domestic Product ) en la Uni Europea entre 1991 i 2003 i a la Demanda Interna (Domestic Demand ) en el mateix perode obtenim la grca segent:

Figura 5.1: Dades de PIB i Demanda Interna

111

112

CAPTOL 5.

INTRODUCCI AL MODEL DE REGRESSI

Aquesta grca (com hem vist al estudiar l'anlisi de la correlaci ) sembla suggerir una clara relaci creixent entre Interior Brut

(Domestic Demand) i

(Gross Domestic

Product), quant ms alta s la Demanda Interna

(X ),

ms alt s el Producte

(Y )

Ms concretament, la grca sembla suggerir que aquesta relaci segueix una lnia recta. s a dir, s com si es pogus dibuixar una recta que passi per (quasi) tots els punts de la grca. La gura segent mostra aquesta recta:

Figura 5.2: Dades de PIB i Demanda Interna i Recta ajustada

L'objectiu principal de l'anlisi de la regressi lineal s obtindre l'equaci d'aquesta recta i estudiar les seves propietats a partir d'un conjunt de parells d'observacions de les variables:

{(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )}.

Aquesta equaci reectir la relaci existent entre aquestes dues variables i tindr una expressi del tipus

Y = 1 + 2 X
on

s el punt on la recta talla l'eix vertical i

s el pendent de la recta

Una relaci com la descrita s un cas concret de relaci de causalitat en el sentit que els canvis en una de les variables expliquen els canvis en l'altra variable. Aix, es parla de la variable explicativa (exgena o independent) (la (endgena o depenent) (la

en aquest

cas) que s la que causa (o explica) el comportament de la variable explicada

Y ).

5.2.

HIPTESIS PER L'ESPECIFICACI DEL MODEL

113

5.2 Hiptesis per l'especicaci del model


Normalment, per, aquesta relaci no s perfecta. s a dir, acostuma a passar que la variable

X X

per si sola no pot explicar tot el comportament de la variable la recta no passa per tots els punts i

Y.

Aix es pot observar en el grc:

que relacionen

Y.

Sempre, incls en el millor dels casos, hi ha un petit

error, una petita diferncia deguda a d'altres factors que tamb poden explicar el comportament de la variable

per que no hem tingut en compte. L'Anlisi


1

de la Regressi parteix del supsit que aquests errors sn petits i aleatoris, s a dir, tenen poca importncia i no es poden preveure . Aix es recull incorporant un terme d'error

(u)

a l'equaci que relaciona les dues variables:

Y = 1 + 2 X + u
Tenim doncs que el model de l'anlisi de la regressi lineal simple t dues parts: 1. 2.

1 +2 X Part u Part

de la variaci de Y explicada per X (Variaci explicada)

de la variaci de Y no explicada per X (Variaci no explicada)

Aix deneix l'anomenat Model Teric [MT]

[MT]

Yi = 1 + 2 Xi + ui i-ssima
observaci de les variables.

(5.1)

on els subndex i fa referncia a la

Tcnicament, la hiptesi que els errors sn petits i aleatoris es concreta en les segents propietats que s'atribueixen a aquests errors: 1.

2 ). ui N (0, u l'error ui s una

Aquesta hiptesi especica que per cada observaci variable aleatria amb distribuci Normal,

xi
(s

E (ui ) = 0

a dir s'espera que aquest error sigui petit) i

2 V (ui ) = u

(s a dir, tots

els errors tenen la mateixa varincia). Aquest darrer supsit que totes les varincies sn iguals s'anomena homocedasticitat. Si aquesta hiptesi no se satisf s diu que el model s heterocedstic. 2.

E (ui uj ) = 0

si

i = j,

el que vol dir que no hi ha cap relaci entre els

errors associats a observacions diferents

3. Els valors de la variable explicativa 4.

sn deterministes i no aleatoris

E (Xi ui ) = 0.

La variable

i els errors

no tenen cap relaci entre si sn constants

5. Els parmetres desconeguts del model,

2 1 , 2 i u ,

D'aquestes hiptesis es deriva que en el Model Teric aleatria Normal caracteritzada per

s una variable

E (Yi ) V (Yi )
1 Si

= E (1 + 2 Xi + ui ) = 1 + 2 Xi + E (ui ) = 1 + 2 Xi
2 = V (1 + 2 Xi + ui ) = 0 + 0 + V (ui ) = u

fossin importants, invalidarien l'anlisi. Si no fossin aleatoris, s a dir, si es poguessin

predir, els haurem d'incorporar a l'anlisi.

114

CAPTOL 5.

INTRODUCCI AL MODEL DE REGRESSI

A partir d'aqu, l'anlisi de la regressi simple procedeix amb l'estimaci dels parmetres desconeguts del model,

2 1 , 2 i u ,

a partir de la srie de dades

{(x1 .y1 ), (x2 , y2 ), . . . , (xi , yi ), . . . , (xn , yn )}


que es disposa. donat per Per a fer-ho, s'especica l'anomenat Model Estimat [ME]

[ME]
que apareix a la gura 5.2. En aquest Model Estimat,

1 + 2 xi y i =

(5.2)

que correspon a l'equaci de la recta ajustada a les dades observades, com la

y i

s la estimaci del valor de la variable

corresponent a l'observaci

xi

1 2

s l'estimaci del parmetre poblacional

1 . 2 .

En la recta, correspon al

punt de tall amb l'eix vertical s l'estimaci del parmetre poblacional En la recta, correspon al

pendent s fcil observar que per cada valor corresponent de la variable per

xi

hi ha una diferncia entre el valor real

(yi ) i el valor corresponent a la recta estimada

(y i ). A aquesta diferncia se l'anomena residu o error de la regressi, i es denota

u i : u i = yi y i
(5.3)

Figura 5.3: Recta ajustada i errors

Es tracta de trobar la recta que millor s'ajusti a les dades. s a dir, hem de

trobar el Model Estimat que millor s'ajusti al Model Teric; les estimacions i

que facin que aquests residus siguin el ms petits possible (minimitzar

el residus)

5.3.

ESTIMACI PER MNIMS QUADRATS ORDINARIS (MQO) I LES SEVES PROPIETATS115

5.3 Estimaci per Mnims Quadrats Ordinaris (MQO) i les seves propietats
Si observem la gura 5.3 veurem que hi ha residus positius i residus negatius. Efectivament, en alguns casos tenim que que

yi > y i

mentre que en d'altres trobem

yi < y i .

Per tant, el que no hem de fer s intentar trobar la recta per la

qual la suma de tots aquest residus sigui mnima, ja que errors positius (u i s'anularien amb errors negatius (u i fos zero o proper a zero.

> 0) < 0) i podria passar que trobssim un Model

Estimat que tot i tenir molts errors, en fer la suma d'aquests errors l'error total

Figura 5.4: Errors positius i negatius s'anulen

El mtode dels Mnims Quadrats Ordinaris (MQO) opera en aquest sentit, per minimitzant la suma dels quadrats d'aquests errors. quadrat s'eviten els valors negatius. Aix doncs, es tracta de trobar els valors de En elevar els errors al

1 i 2

tals que es minimitzi

u 2 i.

Notar que, a partir de la denici de aquests errors de l'equaci (5.3) i de la especicaci del model estimat (5.2) aix ho podem escriure com

u 2 i =
i=1 i=1

(yi y i )2 =

i=1

1 + 2 xi ))2 (yi (

(5.4)

5.3.1 Dades en diferncies amb respecte de la mitjana


Per tal de poder procedir amb aquesta anlisi s convenient realitzar algunes transformacions amb les dades.

116

CAPTOL 5.

INTRODUCCI AL MODEL DE REGRESSI

Siguin

dues variables de les quals tenim els parells d'observacions:

{(x1 .y1 ), (x2 , y2 ), . . . , (xi , yi ), . . . , (xn , yn )}


A partir d'aquests dades podem calcular les mitjanes (totes les sumes van de

i=1

n): = X xi , Y = n yi n

A partir d'aqu construm les series anomenades dades en diferncies, que corresponen a les mateixes dades per expressades en desviacions (o diferncies) amb respecte de la seva mitjana, s a dir:

x i = xi X y i = yi Y
A partir d'aquests dades transformades podem realitzar els segents clculs (de nou tots els sumatoris

van de

i=1

ns

n): 2 x2 i nX
2 2 yi nY
(5.5)

x 2 i =
2 y i =

)2 = (xi X )2 = (yi Y

(5.6) (5.7)

x i y i =

)(yi Y ) = (xi X

Y xi yi nX

5.3.2 Obtenci dels estimadors MQO


Trobarem ara els valors de quadrat

que es minimitzen la suma dels errors al

u 2 i =
i=1 i=1

(yi y i )2 =

i=1

1 + 2 xi ))2 (yi ( u 2 i
amb respecte de

Per a fer-ho, derivarem aquesta expressi de igualarem a zero.

En fer aquestes dues derivades obtindrem dues equacions

(anomenades equacions normals ) que haurem de resoldre conjuntament per a obtindre les dues incgnites,

1 i 2 1 + 2 xi ))(1) = 0 (yi ( 1 + 2 xi ))(xi ) = 0 (yi ( 1 + 2 yi = n = 1 yi xi = x2 i 2 xi +

u 2 i 1

=2 =2

u 2 i 2

= x2 i

1 + 2 xi )) = 0 (yi ( 1 + 2 xi ))xi = 0 (yi (

xi

1 + 2 X = Y 1 nX 2 + yi xi =
Allant

de la primera equaci obtenim

5.3.

ESTIMACI PER MNIMS QUADRATS ORDINARIS (MQO) I LES SEVES PROPIETATS117

1 = Y 2 X
i substituint en la segona

(5.8)

2 X 2 X n 2 + yi xi = n Y
Reordenant obtenim

x2 i

2 ( X = yi xi n Y
i,nalment,

2 x2 i nX )

2 =

X yi xi nY 2 2 xi nX

Fent servir les expressions (5.7) i (5.5) ho podem reescriure en forma ms compacta

2 =

x i y i 2 x i

(5.9)

5.3.3 Estimaci de la varincia del terme d'error


Finalment, per completar l'estimaci dels tots els parmetres del model, cal obtindre una estimaci de la varincia del terme d'error aleatori,

2 u .

Aquesta estimaci s'obt a partir de la varincia dels errors observats en l'estimaci de la recta de regressi per MQO.
2

2 2 u = Su =

( ui u )2 n2 u i = 0.

Notar en primer lloc que de la primera equaci normal es dedueix que Per tant,

u = 0.

Aix, a partir de l'expressi (5.4) podem calcular

2 u =

u 2 i = n2

1 + 2 xi ))2 (yi ( n2

Substituint

per la seva expressi MQO (5.8) i reordenant els termes tindrem

2 u

= =
2 Recordar

2 X 2 (xi X 2 xi ))2 + ) ))2 (yi (Y ((yi Y = = n2 n2 2 2 2 2 x 2 y 2 x 2 y 2 ( yi i )2 ( yi 2 i x i + y i 2 i x i + 2 i ) 2 = = n2 n2 n2


que per obtindre una estimaci no esbiaixada de la varincia cal dividir pels

x 2 i

graus de llibertat. En aquest cas sn

n2

ja que treballem amb dues equacions

118

CAPTOL 5.

INTRODUCCI AL MODEL DE REGRESSI

Recuperant l'expressi MQO de tant,

(5.9) trobem que

2 y i x i =

x 2 i.

Per

2 u =

2 2 2 x 2 y i 2 2 i + 2 n2

x 2 i

Aix, nalment tenim que

2 u =

2 2 y i 2 n2

x 2 i

(5.10)

5.3.4 Propietats dels estimadors MQO


Un cop obtingudes les expressions dels estimadors MQO de

1 i 2 ,

1 = Y 2 X ;
estudiarem les seves propietats principals

2 =

x i y i x 2 i

5.3.4.1
1.

Propietats de

2 2
pot expressar-se com una combi-

Linealitat .

Notar que l'estimador


3

naci lineal dels valors observats de la variable els coecients

Y.

Efectivament, si denim

ci

com

ci =
podem escriure

x i x 2 i ci y i 2

2 =
2.

Normalitat.
Yi ).
Per tant,

De la propietat de linealitat es deriva que l'estimador

s la suma de transformacions lineals de variables aleatries Normals (les

s tamb una variable aleatria Normal Calculem l'esperana de l'estimador

3.

No esbiaixament .
2 ) E ( = = =
Aix doncs,

ci E ( yi ) =

) = ci E (Yi Y ui )) = n x 2 i = 2 x 2 i

+ ci E (1 + 2 Xi + ui (1 + 2 X ) = 2 ci 2 (Xi X 2 ) = 2 E ( ci x i = 2

3 Notar

que aquests coecients depenen noms dels valors observats de la variable

i, per

tant, sn valors determinstics del model, no aleatoris.

5.3.

ESTIMACI PER MNIMS QUADRATS ORDINARIS (MQO) I LES SEVES PROPIETATS119

4.

Ecincia .
2 ) V ( = =
Aix doncs,

Trobem la varincia de l'estimador

2 c2 i V (Yi ) = c2 i V (ui ) =

V(
2 u

ci y i ) =
2 c2 i = u

c2 i V (Yi Y ) = [ x 2 i 2 = u x i ]2 1 x 2 i 1 x 2 i

2 ) = 2 V ( u
de

i pot demostrar-se que d'entre tots els estimadors lineals i no-esbiaixats

2 ,

aquesta s la mnima varincia

En conseqncia podem escriure

2 N (2 , 2 u
5.3.4.2 Propietats de

1 ) x 2 i

1 2

Donat que

s una transformaci lineal de

1 = Y 2 X
tindr les mateixes propietats que 1.

2 Y

Linealitat . Normalitat.
Yi ).
Per tant,

A l'igual que

2 ,

tenim que

es pot expressar com una

combinaci lineal dels valors de 2.

De la propietat de linealitat es deriva que l'estimador

s la suma de transformacions lineals de variables aleatries Normals (les

s tamb una variable aleatria Normal Calculem l'esperana de l'estimador

3.

No esbiaixament .
1 ) E ( = = = =
Aix doncs,

2 X ) = E( E (Y

Yi 2 Xi ) = n n (1 + 2 Xi + ui ) Xi E( 2 )= n n (1 + 2 Xi ) Xi 2 = n n n1 Xi Xi + 2 2 = 1 n n n 1 ) = 1 E (

4.

Ecincia .
1 ) V (

Trobem la varincia de l'estimador

1 Yi 2 ) = 2 V ( )+X n 1 2 2 2 (u u +X )= x 2 i

2 X 2 ) = V ( ) = V (Y ) + X 2 V ( = V (Y = =

1 1 1 2 2 (u V (Yi ) + X )= 2 n2 x 2 n i 2 1 1 X n 2 2 2 2 ( u + X ) = u ( + ) u 2 2 n x i n x 2 i

120

CAPTOL 5.

INTRODUCCI AL MODEL DE REGRESSI

Aix doncs,

1 ) = 2 ( V ( u

2 1 X ) + x 2 n i

i pot demostrar-se que d'entre tots els estimadors lineals i no-esbiaixats de

1 ,

aquesta s la mnima varincia

En conseqncia podem escriure

2 1 N (1 , 2 ( 1 + X )) u n x 2 i

5.4 Contrastaci del model


Les expressions de valors de

parmetres poblacionals

2 que hem trobat sn estimadors dels verdaders 1 i 2 del model teric. Aix, podem utilitzar aquests

per a obtindre intervals de conana pels autntics valors de

i per a fer contrasts d'hiptesis. Per a fer-ho, utilitzarem els segents

estadstics (junt amb les seves distribucions) que es basen en las distribucions que hem trobat pels estimadors

1 i 2 . 1 1 tn2 S 1 2 2 tn2 S 2
(5.11)

(5.12)

on

S 1 =

2 = S
1

2( u

2 1 X + ) n x 2 i 1 x 2 i

(5.13)

S 2 =

2 = S
2

2 u

(5.14)

5.4.1 Intervals de conana per 1 i 2


A partir dels estadstics (5.11) i (5.12), i seguint la tcnica desenvolupada a la secci 2.5, trobem els segents intervals de conana per determinat grau de conana

per un

1 :
(5.15)

1 t1 S , 1 + t1 S ] 1 [ 1 1 2 2 2 t1 S , 2 + t1 S ] 2 [ 2 2 2 2

(5.16)

5.5.

COEFICIENT DE BONDAT DE L'AJUST I RELACI ENTRE LA CORRELACI I L'ANLISI DE LA REG

5.4.2 Contrasts d'hiptesis per 1 i 2


1.

Contrast sobre
contrast

1 :

Per contrastar la hiptesi nulla

H0 : 1 = 10

davant la hiptesi alternativa

H1 : 1 = 10 = 1 1 0 S 1

farem servir l'estadstic de

t(1 )

qu sota la hiptesi nulla tindr una distribuci t-student amb de llibertat. Aix, tal com he vist al Captol 3, si trobem

n 2 graus

|t(1 )| < t1 = No 2
2.

es rebutja rebutja

H0 : 1 = 10

Contrast sobre 2 : Per contrastar la hiptesi nulla H0 : 2 = 2


la hiptesi alternativa

|t(1 )| > t1 = Es 2 H1 : 2 = 2 0
t(2 )

H0 : 1 = 10
0

davant

farem servir l'estadstic de contrast

2 2 0 S 2 n 2 graus

qu sota la hiptesi nulla tindr una distribuci t-student amb de llibertat. Aix, tal com he vist al Captol 3, si trobem

|t(2 )| < t1 = No 2

es rebutja rebutja

H0 : 2 = 20

|t(2 )| > t1 = Es 2

H0 : 2 = 20

En aquest cas t especial inters el contrast

H0 : 2 = 0 H1 : 2 = 0
Efectivament, si trobssim que no podem rebutjar la hiptesi tindrem que el model teric quedaria de la forma

2 = 0

Yi = 1 + 0Xi + ui
s a dir,

Yi = 1 + ui
la qual cosa indicaria que no hi ha cap relaci entre les variables i que tot el comportament de la variable d'error

Y,

quedaria explicat pel terme

ui ,

invalidant d'aquesta manera el nostre model.

5.5 Coecient de Bondat de l'ajust i relaci entre la correlaci i l'anlisi de la regressi


5.5.1 El Coecient de determinaci (o de Bondat d'ajust)
Un cop trobats els valors de

1 i 2

que determinen la recta que millor s'ajusta

a les observacions de les variables, volem ara conixer la bondat d'aquest ajust. Aix es fa mitjanant el coecient de determinaci.

122

CAPTOL 5.

INTRODUCCI AL MODEL DE REGRESSI

El coecient de determinaci (R ) mesura quin percentatge del comportament de la variable

es pot explicar amb el nostre model estimat. D'aquesta man-

era, el percentatge restant (1-R ) correspondr a errors del nostre model, al comportament de

que no est explicat.

Es tracta d'explicar les variacions de la variable mitjana

amb respecte de la seva

mateix, aquestes desviacions s'eleven al quadrat,

). (yi Y

Per tal de que variacions positives i negatives comptin el

una mesura de la Variaci Total, sumen totes aquestes variacions:

)2 . Finalment, per tenir (yi Y


(5.17)

VT =
L'expressi (5.17) es pot escriure com

)2 (yi Y

VT =
on

))2 ((yi y i ) + ( yi Y

pel model estimat mentre que

Desenvolupant aquesta expressi tenim:

) s, com hem vist, la part del comportament de la variable Y explicada ( yi Y (yi y i ) sn els errors u i del model estimat. VT = = = ) + ( )2 ) = ((yi y i )2 + 2(yi y i )( yi Y yi Y (yi y i )2 + 2 u 2 i +2 ) + (yi y i )( yi Y )2 ( yi Y
(5.18)

) + (yi y i )( yi Y (yi y i ) = u i

)2 ( yi Y

A partit d'aqu, donat que

i que

1 + 2 xi ) ( 1 + 2 X 2 (xi X ) = ( ) = ) ( yi Y
podem escriure el sumant central de l'expressi (5.18) com

(5.19)

) = 2 (yi y i )( yi Y

2 (xi X 2 ) = 2 u i

2 X u i xi 2

u i

que s igual a zero ja que a partir de les equacions normals tenim que

u i u i xi

= =

0 0

Aix doncs, tenim que l'expressi (5.18) queda com

VT =

u 2 i +

)2 ( yi Y u 2 i
s la suma dels errors, s a dir, la

Si observem aquesta expressi viem que

Variaci No Explicada pel model estimat (VNE) mentre que


Variaci Explicada (VE). Per tant, tenim que

i )2 ( yi Y

s la

)2 = (yi Y
o, de forma equivalent,

u 2 i +

)2 ( yi Y
(5.20)

V T = V NE + V E

5.5.

COEFICIENT DE BONDAT DE L'AJUST I RELACI ENTRE LA CORRELACI I L'ANLISI DE LA REG

El coecient de determinaci la Variaci Total (VT):

R2

calcula el percentatge de la Variaci Total

explicat pel model, s a dir, quant representa la Variaci Explicada (VE) sobre

R2 =

VE = VT

)2 ( yi Y )2 (yi Y R2
com

A partir de l'expressi (5.19) podem expressar

R2 =

2 (xi X 2 (xi X )2 )2 2 2 = )2 )2 (yi Y (yi Y

Finalment, podem obtindre una expressi ms compacta fent servir les dades en diferncies:

R2 =

2 2

x 2 i
2 y i

(5.21)

Notar que

0 R2 1
Efectivament,

1.

R2 R2

sempre pren un valor positiu ja que el seu clcul es fa a partir d'ex-

pressions quadrtiques 2. sempre pren un valor inferior o igual a 1, ja que es calcula com un

percentatge

Un valor un valor

R2 = 0 indica una absncia R2 = 1 indicaria una relaci

de relaci lineal entre lineal perfecta (100%)

Y,

mentre que

5.5.2 Relaci entre la correlaci i l'anlisi de la regressi


A partir de les dades observades de les variables

{(x1 .y1 ), (x2 , y2 ), . . . , (xi , yi ), . . . , (xn , yn )}


podem calcular el coecient de correlaci

tal com es va fer a la secci 4.4.

Aix, tenem la frmula (4.2) per calcular el coecient de correlaci

r=

x i y i x 2 i
2 y i

Si calculem el quadrat d'aquesta expressi tenim

r2 =

x 2 i

x i y i )2 2 y i

124

CAPTOL 5.

INTRODUCCI AL MODEL DE REGRESSI

A partir de l'expressi (5.9) de

2 2 = x i y i 2 x i 2 ( x i y i )2 = 2
tenim

tenim que

2 x i y i =

x 2 ( i = r2

2 x 2 i)

Substituint a l'expressi que tenim de

r2 =

2 2 ( x 2 x 2 2 x i y i )2 2 2 i i) = = 2 2 2 y i y i x 2 x 2 y i i i

que veiem coincideix amb la frmula (5.21) del coecient de determinaci Aix doncs, tenim que

R2 .

R2 = r 2
s a dir, el coecient de determinaci

R2

de l'anlisi de la regressi lineal coin-

cideix amb el quadrat del coecient de correlaci

de l'anlisi de la correlaci.

Aix, l'anlisi de la regressi lineal incorpora l'anlisi de la correlaci, afegint ms detall en l'estudi de la causalitat en la relaci entre les variables.

5.6 Previsi
Un us habitual del model de regressi s fer prediccions sobre el valor futur de la variable depenent depenent

a partir d'informaci sobre el valor que tindr la variable

X.

En aquest sentit, el ms habitual s formar una expectativa (o

esperana ) sobre el valor de

condicionada a un valor concret de

X. X
i

n {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )},


Formalment, si a partir dels

parells d'observacions de les variables hem estimat el model

Y,

1 + 2 xi y i =
i ara disposem d'informaci sobre un valor futur (xn+1) ) de la variable la variable

X , podem

formar una expectativa (previsi o predicci) del valor corresponent (yn+1 ) de

donat aquest valor conegut de la variable

X.

s a adir,

E (Yn+1 /xn+1 )
Donat que d'acord amb el model teric [MT] tenim que

Yi = 1 + 2 xi + ui
calculant l'esperana condicionada tenim

E (Yn+1 /xn+1 )

= = =

E (1 + 2 xn+1 + un+1 ) = E (1 ) + E (2 xn+1 ) + E (un+1 ) = 1 + 2 xn+1

5.6.

PREVISI

125

ja que, per hiptesi,

E (un+1 ) = 0.

Aix, tenim que

E (Yn+1 /xn+1 ) = 1 + 2 xn+1


A partir d'aqu podem obtenir una estimaci d'aquest valor futur de la variable

de dues maneres diferents: fent una estimaci puntual o fent una estimaci

per intervals

5.6.1 Estimaci puntual de Yn+1


Aquesta s l'aproximaci ms simple a fer una previsi futura del valor de la variable depenent

Y.

Efectivament, si tenim el model estimat [ME]

1 + 2 xi y i =
podem obtindre una estimaci puntual (y n+1 ) del valor de ement de

a partir del coneix-

xn+1

utilitzant directament el model estimat:

1 + 2 xn+1 y n+1 =
Aquesta estimaci, per, resulta imprecisa ja que, com s'explica al nal de l'apartat 2.4, no sabem si el valor que realment tindr la variable intervals ens donar ms informaci

estar molt

a prop o no d'aquesta estimaci puntual. En aquest sentit, una estimaci per

5.6.2 Estimaci per intervals de Yn+1


Seguint la mateixa tcnica vista a l'apartat 2.5, es pot demostrar que un interval de conana amb un nivell

pel valor de

Yn+1 ve

donat per

Sy Sy n+1 + t1 Yn+1 [ yn+1 t1 n+1 , y n+1 ] 2 2


on t1 s el valor d'una 2 seva esquerra una rea de

y n+1

ve donada per

t student amb n 2 graus de llibertat que deixa a la 1 n+1 , de l'estimador 2 i la desviaci estndard, Sy )2 (xn+1 X 1 + 2 n x i

Sy n+1 =

2 u

El segent exemple recull la majoria de clculs que permeten treballar amb l'anlisi de la regressi

Exemple 5.6.1 Recordem l'exemple 4.2.1 del captol anterior, on tenem la


serie de dades

X Y

6 6.5

4 4.5

8 7

5 5

3.5 4

7 8

5 7

10 10

5 6

4 5

126

CAPTOL 5.

INTRODUCCI AL MODEL DE REGRESSI

a partir de la qual havem obtingut els segents resultats

X Y x i y i x 2 i
2 y i

= = = = =

5.75 6.3 30.75 37.63 29.6 1


i

A partir d'aqu podem calcular els valors dels estimadors formules (5.8) i (5.9)

2 .

Recordem les

1 = Y 2 X 2 =
En aquest cas tenim:

x i y i x 2 i

2 1

= =

30.75 = 0.817 37.63 6.3 (0.817)5.75 = 1.6

Aix doncs obtenim el Model Estimat

y i = 1.6 + 0.817xi
Grcament,

5.6.

PREVISI

127

Calculem ara el coecient de determinaci

R2

a partir de la frmula (5.21)

R2 =

2 2

x 2 i
2 y i

(0.817)2 37.63 = 0.849028 29.6

Aix doncs, el Model Estimat explica un 85% del comportament de la variable

Y.
Obtindrem a continuaci intervals de conana per conana del 95% d'aquests intervals:

(1 ) = 0.95.

1 i 2 amb un nivell de Partim de les expressions (5.15) i (5.16)

1 + t1 S ] 1 t1 S , 1 [ 1 1 2 2 2 t1 S , 2 + t1 S ] 2 [ 2 2 2 2
Observem que hem d'obtindre a les taules de la t-student amb de llibertat el valor
05 = t10.025 = t0.975 = 2.306 t1 = t1 0.2 2

(n 2) = 8

graus

Aix mateix, hem de calcular els valors dels errors estndard dels estimadors,

S 1

S 2

a partir de les frmules (5.13) i (5.14)

S 1 =

2 = S
1

2( u

2 1 X + ) n x 2 i 1 x 2 i

S 2 =

2 = S
2

2 u

per la qual cosa primer hem de calcular


2 u =

fent servir la frmula (5.10)

2 y i 2 n2

x 2 i

29.6 (0.817)2 37.63 = 0.5586 8

Per tant,

S 1 =

2( u

2 1 X + )= n x 2 i
2 u

0.5586(

1 (5.75)2 + ) = 0.74 10 37.63 1 = 0.122 37.63

S 2 =

1 = x 2 i

0.5586

Ara podem calcular els intervals

1 [1.6 (2.306)(0.74), 1.6 + (2.306)(0.74)] = [0.106, 3.306] 2 [0.817 (2.306)(0.122), 0.817 + (2.306)(0.122)] = [0.536, 1.098] 2 = 0, que s'acostuma a fer comprovar la tal com s'ha discutit al nal de la secci 5.4.2. Donat que 2 hem obtingut un valor elevat de R , podem esperar que aquesta hiptesi ser
Realitzarem, per acabar, el contrast relaci entre rebutjada.

128

CAPTOL 5.

INTRODUCCI AL MODEL DE REGRESSI

El contrast a realitzar s

H0 : 2 = 0 H1 : 2 = 0
En aquest cas l'estadstic de contrast a utilitzar s

t(2 ) =

2 S 2 tstudent
amb

que, tal com he vist abans, es distribueix seguint una corresponent:

graus de llibertat. En fer els intervals de conana ja em trobat el valor tabulat

(n 2) = 8

t0.975 = 2.306
El valor observat de l'estadstic de contrast s

t(2 ) =
Clarament, com que

0.817 = 6.7 0.122

= Es |t(2 )| > t1 2
el que indica que la relaci entre

rebutja

H0 : 2 = 0

s signicativa.

Suposem, nalment, que tenim informaci que ens diu que la variable el valor

ha pres

x11 = 8.

Quina predicci podem fer sobre el valor corresponent (y11 ) de

la variable depenent

Y?

Una estimaci puntual es pot calcular fcilment a partir del model estimat que hem obtingut

y i = 1.6 + 0.817xi

Aix, si

x11 = 8,

tindrem que

y 11

= =

1.6 + 0.817x11 = 1.6 + 0.817 8 = 8.136 Y


tindr el valor

Per tant, si x11 = 8 podem predir que la variable (de forma aproximada).

y 11 = 8.136

Si volem ms informaci sobre aquesta estimaci, podem construir l'interval de conana corresponent. Aix, amb un nivell de conana del 95% tindrem que

(1 ) = 0.95

Y11 [ y11 t1 Sy 11 + t1 Sy 11 , y 11 ] 2 2
Observem que hem d'obtindre a les taules de la t-student amb de llibertat el valor
05 = t10.025 = t0.975 = 2.306 t1 = t1 0.2 2

(n 2) = 8

graus

5.6.

PREVISI

129

Per poder construir l'interval hem de calcular

Sy 11 =

Sy 11

2 u

)2 1 (x11 X + 2 n x i

0.5586

1 (8 5.75)2 + 10 37.63

= 0.362

Aix, nalment tenim

Y11 [8.136 2.306 0.362, 8.136 + 2.306 0.362] Y11 [7.3, 8.97]
s a dir, el valor de probabilitat del 95%

Y11

corresponent a

x11 = 8

estar entre 7.3 i 8.97 amb una

130

CAPTOL 5.

INTRODUCCI AL MODEL DE REGRESSI

Apndix A
Apndix: Taules Estadstiques

A.1 Distribuci Normal Estndard A.2 Distribuci A.3 Distribuci A.4 Distribuci

t student 2 F
de Snedecor

A.5 Valors pel contrast Kolmogorov-Smirnov

131

132

APNDIX A.

APNDIX: TAULES ESTADSTIQUES

A.1 Distribuci Normal

estndard
p(Z z) z

z
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9

0.00 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9773 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 1.0000

0.01 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.9991 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 1.0000

0.02 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.9991 0.9994 0.9995 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.03 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.9991 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.04 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.05 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.06 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.07 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.9992 0.9995 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.08 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.9993 0.9995 0.9996 0.9997 0.9998 0.9999 0.9999 0.9999 1.0000

0.09 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 0.9999 0.9999 0.9999 1.0000

A.2.

DISTRIBUCI

T ST U DEN T

133

A.2 Distribuci t student


p(tn t)=

n
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 24 30 40 50 60 80 100 200

0.90 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.318 1.310 1.303 1.299 1.296 1.292 1.290 1.286 1.282

0.95 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.711 1.697 1.684 1.676 1.671 1.664 1.660 1.653 1.645

0.975 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.064 2.042 2.021 2.009 2.000 1.990 1.984 1.972 1.960

0.990 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.492 2.457 2.423 2.403 2.390 2.374 2.364 2.345 2.326

0.995 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.797 2.750 2.704 2.678 2.660 2.639 2.626 2.601 2.576

0.999 318.302 22.327 10.215 7.173 5.894 5.208 4.785 4.501 4.297 4.144 4.025 3.930 3.852 3.787 3.733 3.686 3.646 3.611 3.579 3.552 3.467 3.385 3.307 3.261 3.232 3.195 3.174 3.131 3.090

0.9995 636.619 31.598 12.941 8.610 6.859 5.959 5.405 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 3.745 3.646 3.551 3.496 3.460 3.416 3.391 3.340 3.291

134

APNDIX A.

APNDIX: TAULES ESTADSTIQUES

A.3 Distribuci 2 (khi-quadrat)

2 p(2 n ) =

n
1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 11.0 12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0 21.0 22.0 23.0 24.0 25.0 26.0 27.0 28.0 29.0 30.0 40.0 50.0 60.0 70.0 80.0 90.0 100.0 0.005 0.01 0.025 0.05 0.00393 0.1026 0.3518 0.7107 1.145 1.635 2.167 2.733 3.325 3.940 4.575 5.226 5.892 6.571 7.261 7.962 8.672 9.390 10.117 10.851 11.591 12.338 13.091 13.848 14.611 15.379 16.151 16.928 17.708 18.493 26.509 34.764 43.188 51.739 60.391 69.126 77.929 0.950 3.841 5.991 7.815 9.488 11.070 12.592 14.067 15.507 16.919 18.307 19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.144 31.410 32.671 33.924 35.172 36.415 37.652 38.885 40.113 41.337 42.557 43.773 55.758 67.505 79.082 90.531 101.879 113.145 124.342 0.975 5.024 7.378 9.348 11.143 12.832 14.449 16.013 17.535 19.023 20.483 21.920 23.337 24.736 26.119 27.488 28.845 30.191 31.526 32.852 34.170 35.479 36.781 38.076 39.364 40.646 41.923 43.195 44.461 45.722 46.979 59.342 71.420 83.298 95.023 106.629 118.136 129.561 0.990 6.635 9.210 11.345 13.277 15.086 16.812 18.475 20.090 21.666 23.209 24.725 26.217 27.688 29.141 30.578 32.000 33.409 34.805 36.191 37.566 38.932 40.289 41.638 42.980 44.314 45.642 46.963 48.278 49.588 50.892 63.691 76.154 88.379 100.425 112.329 124.116 135.807 0.995 7.879 10.597 12.838 14.860 16.750 18.548 20.278 21.955 23.589 25.188 26.757 28.300 29.819 31.319 32.801 34.267 35.718 37.156 38.582 39.997 41.401 42.796 44.181 45.559 46.928 48.290 49.645 50.993 52.336 53.672 66.766 79.490 91.952 104.215 116.321 128.299 140.169 0.999 10.828 13.816 16.266 18.467 20.515 22.458 24.322 26.124 27.877 29.588 31.264 32.909 34.528 36.123 37.697 39.252 40.790 42.312 43.820 45.315 46.797 48.268 49.728 51.179 52.620 54.052 55.476 56.892 58.301 59.703 73.402 86.661 99.607 112.317 124.839 137.208 149.449

0.04 393
0.010003 0.07172 0.2070 0.4117 0.6757 0.9893 1.344 1.735 2.156 2.603 3.074 3.565 4.075 4.601 5.142 5.697 6.265 6.844 7.434 8.034 8.643 9.260 9.886 10.520 11.160 11.808 12.461 13.121 13.787 20.707 27.991 35.534 43.275 51.172 59.196 67.328

0.03 157
0.02010 0.1148 0.2971 0.5543 0.8721 1.239 1.646 2.088 2.558 3.053 3.571 4.107 4.660 5.229 5.812 6.408 7.015 7.633 8.260 8.897 9.542 10.196 10.856 11.524 12.198 12.879 13.565 14.256 14.953 22.164 29.707 37.485 45.442 53.540 61.754 70.065

0.03 982
0.05064 0.2158 0.4844 0.8312 1.237 1.690 2.180 2.700 3.247 3.816 4.404 5.009 5.629 6.262 6.908 7.564 8.231 8.907 9.591 10.283 10.982 11.689 12.401 13.120 13.844 14.573 15.308 16.047 16.791 24.433 32.357 40.482 48.758 57.153 65.647 74.222

A.4.

DISTRIBUCI

DE SNEDECOR

135

A.4 Distribuci F de Snedecor


Aquestes taules corresponen a una distribuci llibertat en el numerador i

de Snedecor amb

graus de

graus de llibertat en el denominador

Aquests valor estan calculats a partir de la frmula:

p(Fv1 ,v2 F ) =
com en el grc:

p(F1,2 F) =

F
Figure A.1: Distribuci

de Snedecor

Aquesta taula mostra els valors per superior en cada entrada correspon a corresponen a valors de

= 0.95, = 0.975 i = 0.99. El nmero = 0.95, mentre que els altres dos nmeros

de

0.975 i 0.99 respectivament

136

APNDIX A.

APNDIX: TAULES ESTADSTIQUES

1
1
161 1 648 4052 18.51 2 38.51 98.50 10.13 3 17.44 34.12 7.71 4 12.22 21.20 6.61 5 10.01 16.26 5.99 6 8.81 13.75 5.59 7 8.07 12.25 5.32

2
199 799 5000 19.00 39.00 99.00 9.55 16.04 30.82 6.94 10.65 18.00 5.79 8.43 13.27 5.14 7.26 10.92 4.74 6.54 9.55 4.46 6.06 8.65 4.26 5.71 8.02 4.10 5.46 7.56 3.89 5.10 6.93 3.68 4.77 6.36 3.49 4.46 5.85 3.39 4.29 5.57 3.18 3.97 5.06 3.09 3.83 4.82

3 216 864 5403 19.16 39.17 99.17 9.28 15.44 29.46 6.59 9.98 16.69 5.41 7.76 12.06 4.76 6.60 9.78 4.35 5.89 8.45 4.07 5.42 7.59 3.86 5.08 6.99 3.71 4.83 6.55 3.49 4.47 5.95 3.29 4.15 5.42 3.10 3.86 4.94 2.99 3.69 4.68 2.79 3.39 4.20 2.70 3.25 3.98

4 225 900 5625 19.25 39.25 99.25 9.12 15.10 28.71 6.39 9.60 15.98 5.19 7.39 11.39 4.53 6.23 9.15 4.12 5.52 7.85 3.84 5.05 7.01 3.63 4.72 6.42 3.48 4.47 5.99 3.26 4.12 5.41 3.06 3.80 4.89 2.87 3.51 4.43 2.76 3.35 4.18 2.56 3.05 3.72 2.46 2.92 3.51

5 230 922 5764 19.30 39.30 99.30 9.01 14.88 28.24 6.26 9.36 15.52 5.05 7.15 10.97 4.39 5.99 8.75 3.97 5.29 7.46 3.69 4.82 6.63 3.48 4.48 6.06 3.33 4.24 5.64 3.11 3.89 5.06 2.90 3.58 4.56 2.71 3.29 4.10 2.60 3.13 3.85 2.40 2.83 3.41 2.31 2.70 3.21

6 234 937 5859 19.33 39.33 99.33 8.94 14.73 27.91 6.16 9.20 15.21 4.95 6.98 10.67 4.28 5.82 8.47 3.87 5.12 7.19 3.58 4.65 6.37 3.37 4.32 5.80 3.22 4.07 5.39 3.00 3.73 4.82 2.79 3.41 4.32 2.60 3.13 3.87 2.49 2.97 3.63 2.29 2.67 3.19 2.19 2.54 2.99

7 237 948 5928 19.35 39.36 99.36 8.89 14.62 27.67 6.09 9.07 14.98 4.88 6.85 10.46 4.21 5.70 8.26 3.79 4.99 6.99 3.50 4.53 6.18 3.29 4.20 5.61 3.14 3.95 5.20 2.91 3.61 4.64 2.71 3.29 4.14 2.51 3.01 3.70 2.40 2.85 3.46 2.20 2.55 3.02 2.10 2.42 2.82

8 239 957 5981 19.37 39.37 99.37 8.85 14.54 27.49 6.04 8.98 14.80 4.82 6.76 10.29 4.15 5.60 8.10 3.73 4.90 6.84 3.44 4.43 6.03 3.23 4.10 5.47 3.07 3.85 5.06 2.85 3.51 4.50 2.64 3.20 4.00 2.45 2.91 3.56 2.34 2.75 3.32 2.13 2.46 2.89 2.03 2.32 2.69 100 50 25 20 15 12 10 9 8 7 6 5 4 3 2 1

7.57 11.26 5.12

7.21 10.56 4.96

10

6.94 10.04 4.75

12

6.55 9.33 4.54

15

6.20 8.68 4.35

20

5.87 8.10 4.24

25

5.69 7.77 4.03

50

5.34 7.17 3.94

100

5.18 6.90

A.4.

DISTRIBUCI

DE SNEDECOR

137

1
9 241 10 242 969 6056 19.40 39.40 99.40 8.79 14.42 27.23 5.96 8.84 14.55 4.74 6.62 10.05 4.06 5.46 7.87 3.64 4.76 6.62 3.35 4.30 5.81 3.14 3.96 5.26 2.98 3.72 4.85 2.75 3.37 4.30 2.54 3.06 3.80 2.35 2.77 3.37 2.24 2.61 3.13 2.03 2.32 2.70 1.93 2.18 2.50 12 244 977 6106 19.41 39.41 99.42 8.74 14.34 27.05 5.91 8.75 14.37 4.68 6.52 9.89 4.00 5.37 7.72 3.57 4.67 6.47 3.28 4.20 5.67 3.07 3.87 5.11 2.91 3.62 4.71 2.69 3.28 4.16 2.48 2.96 3.67 2.28 2.68 3.23 2.16 2.51 2.99 1.95 2.22 2.56 1.85 2.08 2.37 15 246 985 6157 19.43 39.43 99.43 8.70 14.25 26.87 5.86 8.66 14.20 4.62 6.43 9.72 3.94 5.27 7.56 3.51 4.57 6.31 3.22 4.10 5.52 3.01 3.77 4.96 2.85 3.52 4.56 2.62 3.18 4.01 2.40 2.86 3.52 2.20 2.57 3.09 2.09 2.41 2.85 1.87 2.11 2.42 1.77 1.97 2.22 20 248 993 6209 19.45 39.45 99.45 8.66 14.17 26.69 5.80 8.56 14.02 4.56 6.33 9.55 3.87 5.17 7.40 3.44 4.47 6.16 3.15 4.00 5.36 2.94 3.67 4.81 2.77 3.42 4.41 2.54 3.07 3.86 2.33 2.76 3.37 2.12 2.46 2.94 2.01 2.30 2.70 1.78 1.99 2.27 1.68 1.85 2.07 25 249 998 6240 19.46 39.46 99.46 8.63 14.12 26.58 5.77 8.50 13.91 4.52 6.27 9.45 3.83 5.11 7.30 3.40 4.40 6.06 3.11 3.94 5.26 2.89 3.60 4.71 2.73 3.35 4.31 2.50 3.01 3.76 2.28 2.69 3.28 2.07 2.40 2.84 1.96 2.23 2.60 1.73 1.92 2.17 1.62 1.77 1.97 50 252 1008 6303 19.48 39.48 99.48 8.58 14.01 26.35 5.70 8.38 13.69 4.44 6.14 9.24 3.75 4.98 7.09 3.32 4.28 5.86 3.02 3.81 5.07 2.80 3.47 4.52 2.64 3.22 4.12 2.40 2.87 3.57 2.18 2.55 3.08 1.97 2.25 2.64 1.84 2.08 2.40 1.60 1.75 1.95 1.48 1.59 1.74 100 253 1013 6334 19.49 39.49 99.49 8.55 13.96 26.24 5.66 8.32 13.58 4.41 6.08 9.13 3.71 4.92 6.99 3.27 4.21 5.75 2.97 3.74 4.96 2.76 3.40 4.41 2.59 3.15 4.01 2.35 2.80 3.47 2.12 2.47 2.98 1.91 2.17 2.54 1.78 2.00 2.29 1.52 1.66 1.82 1.39 1.48 1.60

963 6022 19.38

39.39 99.39 8.81

14.47 27.35 6.00

8.90 14.66 4.77

6.68 10.16 4.10

5.52 7.98 3.68

4.82 6.72 3.39

4.36 5.91 3.18

4.03 5.35 3.02

10

3.78 4.94 2.80

10

12

3.44 4.39 2.59

12

15

3.12 3.89 2.39

15

20

2.84 3.46 2.28

20

25

2.68 3.22 2.07

25

50

2.38 2.78 1.97

50

100

2.24 2.59

10

138

APNDIX A.

APNDIX: TAULES ESTADSTIQUES

A.5 Valors pel contrast Kolmogorov-Smirnov

n
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 0.1 0.9000 0.6838 0.5648 0.4927 0.4470 0.4104 0.3815 0.3583 0.3391 0.3226 0.3083 0.2958 0.2847 0.2748 0.2659 0.2578 0.2504 0.2436 0.2373 0.2316 0.2262 0.2212 0.2165 0.2120 0.2079 0.2040 0.2003 0.1968 0.1935 0.1903 0.1873 0.1844 0.1817 0.1791 0.1766 0.1742 0.1719 0.1697 0.1675 0.05 0.9500 0.7764 0.6360 0.5652 0.5094 0.4680 0.4361 0.4096 0.3875 0.3687 0.3524 0.3382 0.3255 0.3142 0.3040 0.2947 0.2863 0.2785 0.2714 0.2647 0.2586 0.2528 0.2475 0.2424 0.2377 0.2332 0.2290 0.2250 0.2212 0.2176 0.2141 0.2108 0.2077 0.2047 0.2018 0.1991 0.1965 0.1939 0.1915 0.025 0.9750 0.8419 0.7076 0.6239 0.5633 0.5193 0.4834 0.4543 0.4300 0.4092 0.3912 0.3754 0.3614 0.3489 0.3376 0.3273 0.3180 0.3094 0.3014 0.2941 0.2872 0.2809 0.2749 0.2693 0.2640 0.2591 0.2544 0.2499 0.2457 0.2417 0.2379 0.2342 0.2308 0.2274 0.2242 0.2212 0.2183 0.2154 0.2127 0.01 0.9900 0.9000 0.7846 0.6889 0.6272 0.5774 0.5384 0.5065 0.4796 0.4566 0.4367 0.4192 0.4036 0.3897 0.3771 0.3657 0.3553 0.3457 0.3369 0.3287 0.3210 0.3139 0.3073 0.3010 0.2952 0.2896 0.2844 0.2794 0.2747 0.2702 0.2660 0.2619 0.2580 0.2543 0.2507 0.2473 0.2440 0.2409 0.2379 0.005 0.9950 0.9293 0.8290 0.7342 0.6685 0.6166 0.5758 0.5418 0.5133 0.4889 0.4677 0.4490 0.4325 0.4176 0.4042 0.3920 0.3809 0.3706 0.3612 0.3524 0.3443 0.3367 0.3295 0.3229 0.3166 0.3106 0.3050 0.2997 0.2947 0.2899 0.2853 0.2809 0.2768 0.2728 0.2690 0.2653 0.2618 0.2584 0.2552

> 40

1.07/ n

0.1655

1.22/ n

0.1891

1.36/ n

0.2101

1.52/ n

0.2349

1.63/ n

0.2521

You might also like