You are on page 1of 22

Estadstica Inferencial aplicada a leducaci

Ormazbal, F.J. (Coord.) Vil, R.; Mateo, M. ; Torrado, M.; Berlanga, V.; del Barrio, J.; Ruiz, A. Departament de Mtodes d'Investigaci i Diagnstic en Educaci (MIDE) Facultat de Pedagogia Universitat de Barcelona Facult

Aquesta publicaci compta amb la segent llicncia de Creative Commons:

Estadstica inferencial aplicada a leducaci est subjecte a una llicncia de Reconeixement-NoComercial-SinObraDerivada 3.0 (CC BY-NC-ND 3.0)

Para citar la obra: Ormazbal, F.J. (coord.) Vila, R.; Mateo, M.; Torrado, M.; Berlanga, V.; Del Barrio, J.; Ruiz, A. (2012) Estadstica inferencial aplicada a leducaci. Barcelona: Universitat de Barcelona. Dipsit Digital http://hdl.handle.net/2445/21383

INDEX

Estadstica Inferencial 1.1 Conceptes bsics 1.1.1 Distribuci mostral de mitjanes 1.1.2 Distribuci mostral de proporcions 1.1.3 Altres distribucions mostrals 1.2 Teoria de lestimaci estadstica 1.2.1 Interval de probabilitat 1.2.2 Interval de confiana 1.3 Teoria de la decisi estadstica 1.3.1 Errors i riscos 1.3.2 Potncia dun contrast 1.3.3 Grau de significaci 1.3.4 Contrasts unilaterals i bilaterals 4 6 7 7 8 8 11 17 18 19 20 21

1.1 Conceptes Bsics L'Estadstica Inferencial es basa en la inferncia estadstica. No es limita a l'estudi purament descriptiu d'unes dades, sin que, a partir de les dades observades en una mostra (d'on obtenim els estadstics), s'infereix (es generalitza) l'estudi a la poblaci d'aquesta mostra (parmetres).

MOSTRA POBLACI

ESTADSTICS: PARMETRES:

SX X

pO p

n
N

MOSTRA

Inferncia

POBLACI

Procs pel qual, a partir de les dades d'una mostra, establim conclusions per a la poblaci

La inferncia estadstica s correcta sempre que la mostra sigui representativa. Una mostra s representativa quan: ... s un subconjunt de la poblaci. ... T una mida suficient (depn de la precisi que es desitgi i del risc d'error). ... La tcnica de selecci de la mostra s correcta (mostreig). Error mostral: s la diferncia entre un estadstic (mostra) i el seu parmetre (poblaci). Pot ser de dos tipus: Aleatori: s el degut a l'atzar, es produeix quan fem un mostreig probabilstic o aleatori. Es pot calcular i controlar si es coneix quina llei de probabilitat segueix. De biaix: Es deu a altres causes, a ms de l'atzar, i es produeix (entre altres motius) quan utilitzem un mostreig no probabilstic. El problema no s que el biaix sigui gran o petit, sin que no el podem calcular, ja que no coneixem quina Llei segueix. Distribuci mostral i error tpic: Es distingeix entre distribuci poblacional, distribuci d'una mostra i la distribuci mostral.

DISTRIBUCI POBLACIONAL (s la distribuci duna variable en la poblaci)

N 2 p q

Distribuci de X en diverses mostres:

n1 X1 S21 S1

n2 X2 S22 S2

n3 X3 S23 S3

n4 X4 S24 S4

n5 X5 S25 S5

ni Xi S2i Si

DISTRIBUCI MOSTRAL DESTADSTICS

X =

Po =

pq n

DISTRIBUCI MOSTRAL DE MITJANES: DISTRIBUCI MOSTRAL DE PROPORCIONS:

XX = XPo = p

Po

Error tpic (o error estndard) s la desviaci tpica de la distribuci mostral: ... de mitjanes ... de proporcions

X =

Po =

pq n

Teorema del Lmit Central: - Els estadstics obtinguts en les mostres tendeixen a agrupar-se al voltant del parmetre. - Quan "n" augmenta els estadstics estan ms agrupats. - Si les mostres sn grans (n 30) i la poblaci d'origen segueix la Llei Normal, la grfica de la distribuci mostral s simtrica i t forma de campana, s a dir, segueix la Llei Normal. Tamb pot seguir altres models: t de Student, 2 (khi Quadrat), F de Snedecor. - Poden definir distribucions mostrals per diferncies i sumes d'estadstics.

1.1.1 Distribuci mostral de mitjanes - Segueix la Llei Normal. - La mitjana X X s el parmetre (o sigui, la mitjana de la poblaci: ). - La desviaci tpica (o error tpic): * Si la poblaci s infinita o el mostreig s amb reemplaament (no exhaustiu):

* Si la poblaci s finita i el mostreig s sense reemplaament (exhaustiu):

Nn N 1

..on N = Mida de la poblaci n = Mida de la mostra

Exemple: Qu passa amb lerror tpic quan augmenta la mida de la mostra? = 10 i = 2 Si n = 25

X X = = 10 2 X = = 0'4 25
Observem: - En tots els casos, parmetre) - L'error tpic disminueix a mesura que augmenta n, perqu influeix menys l'atzar.

Si n = 100

X X = = 10
X =

XX =

( s el

2 = 0'2 100

Si n = 400

X X = = 10
X =

2 = 01 ' 400

1.1.2 Distribuci mostral de proporcions Segueix la Llei Normal. La mitjana de les proporcions observades (po) s el parmetre

( Xpo = p)
La desviaci tpica (error tpic): * Si la poblaci s infinita o el mostreig amb reemplaament (no exhaustiu):

po

p q n

* Si la poblaci s finita o el mostreig sense reemplaament (exhaustiu):

po

p q n

Nn N 1

Exemple: Qu passa amb lerror tpic quan augmenta la mida de la mostra? p = 0'6 n = 25

Xpo = p = 0'6

po =

0'6 0'4 = 0'0979 25


Observem: - En tots els casos, parmetre) - L'error tpic disminueix a mesura que augmenta n, perqu influeix menys l'atzar.

n = 100

Xpo = p = 0'6

0'6 0'4 po = = 0'0489 100


n = 400

Xpo = p (s el

Xpo = p = 0'6

po =

0'6 0'4 = 0'0245 400

1.1.3 Altres distribucions mostrals Duna manera similar, hi ha distribucions mostrals daltres estadstics, com els que segueixen: la mitjana, quartils, desviaci semintercuartlica, coeficient de variaci, decils, etc.

1.2 Teoria de lEstimaci Estadstica Els dos pilars bsics de l'Estadstica Inferencial sn: La Teoria de l'estimaci estadstica La Teoria de la decisi estadstica La Teoria de l'estimaci Estadstica tracta de l'estimaci de parmetres a partir dels estadstics. Es basa en els conceptes de: distribuci mostral i error tpic o error estndard. Com moltes de les distribucions mostrals segueixen una llei Normal, de la qual coneixem la mitjana (el parmetre) i la desviaci tpica (error tpic o estndard), podem resoldre qualsevol problema de probabilitat sense necessitat de resoldre integrals, simplement utilitzant la taula de la Llei Normal Estndard (centrada i reduda: Z = 0, Z =1), com fiem per a qualsevol distribuci X que segueix la Llei Normal. L'algorisme s el mateix, per utilitzant en cada cas la mitjana i la desviaci tpica corresponent.

DISTRIBUCI NORMAL DE X:

DISTRIBUCI MOSTRAL DE MITJANES:

DISTRIBUCI MOSTRAL DE PROPORCIONS:

X
Zi = Xi X Sx
Xi = X + Sx Zi

X
Zi = X x
X = + x Zi

po
Zi = po p po
po = p + po Zi

Z
TAULA Pr. % (A)

Z
TAULA Pr. % (A) TAULA

Z
TAULA Pr. % (A)

TAULA

TAULA

Interval de Probabilitat

1.2.1 Interval de probabilitat s un interval (simtric) al voltant d'un parmetre que cont una proporci 1 - dels estadstics de la distribuci mostral.

/2

1-

/2

INTERVAL DE PROBABILITAT Per conveni en Cincies Humanes i Socials el sol valer:


8

= 005 ( 5% ) = 001 ( 1% ) Aix doncs,

Si = 005 Si = 001

1 - = 095 (95%) 1 - = 099 (99%)

1-

L'interval de probabilitat permet predir amb un risc (0'05 o 0'01) dequivocar-se, els lmits dins dels quals es trobaran, partint d'un parmetre poblacional, els 1 - (0'95 o 0'99, 95% o 99%) dels estadstics observats en mostres de grandria n extretes a l'atzar de la poblaci. Dit en altres paraules, l'interval de probabilitat cont dins dels seus lmits 1 - (0'95 o 0'99, 95% o 99%) de la distribuci mostral.

A) Interval de probabilitat de mitjanes (o d'una mitjana) s un interval simtric al voltant de la mitjana de la poblaci que cont una proporci igual a 1 - de les mitjanes observades en mostres de grandria n extretes a l'atzar de la poblaci.

x =

X Z

X = + x Zi

/2
Z/2 n

1-

+ Z/2

/2
pr, % (A)

X Z /2 X = Z /2

Exemple. S'accepta que els CI es distribueixen en la poblaci segons una llei normal Ci = 100 i CI = 15. Calcular entre quins valors estaran els CI mitjans (95%, 99%) de mostres a l'atzar de: a) 100 subjectes b) 50 subjectes c) 25 subjectes

a) n = 100

a 1. a 2.
b) n = 50

( = 0 '05), 1 = 0 '95 CI 100 1'96

15 102 '94 ( mx . ) = 100 2 '94 97 '06 ( mn . ) 100 15 103'87 ( mx . ) ( = 0 '01), 1 = 0 '99 CI 100 2 '58 = 100 3'87 96 '13( mn . ) 100

b 1. b 2.
c) n = 25

( = 0 '05), 1 = 0 '95 CI 100 1'96

15 104 '16 ( mx . ) = 100 4 '16 95'84 ( mn . ) 50 15 105'47 ( mx . ) ( = 0 '01), 1 = 0 '99 CI 100 2 '58 = 100 5'47 94 '53( mn . ) 50

c 1. c 2.

( = 0 '05), 1 = 0 '95 CI 100 1'96

15 105'88 ( mx . ) = 100 5'88 94 '12 ( mn .) 25 15 107 '74 ( mx . ) ( = 0 '01), 1 = 0 '99 CI 100 2 '58 = 100 7 '74 92 '26 ( mn . ) 25

Observem:
- En els tres casos el interval 1 - = 0'99 s ms ampli que 1 - = 0'95, ja que ha de contenir una proporci ms gran (99%> 95%) d'estadstics. - A mesura que disminum n (mida de les mostres) l'interval de probabilitat es va ampliant o, el que s el mateix, la dispersi dels estadstics s ms gran com menor s n. Aix s aix, perqu, com ms petit s n, ms influeix l'atzar.

B) Interval de probabilitat de proporcions (o d'una proporci) s un interval simtric al voltant de la proporci de la poblaci (p) que cont una proporci 1 - de les proporcions observades (po) en mostres de grandria n extretes a l'atzar de la poblaci origen.

po =

pq n

po po = p + po Zi Zi

/2
p - Z /2 po

1-
p
p + Z /2 po

/2
pr, % (A)

10

po p Z/2 po = p Z/2

pq n

Exemple. Sabem que una determinada assignatura s suspesa pel 30% de l'alumnat. Calcular entre quins valors oscillaran els percentatges de suspesos (=0,05) en mostres a l'atzar de: a) 100 alumnes b) 400 alumnes a) n = 100

a 1. ( = 0'05), 1 = 0'95 po 0'3 1'96


b) n = 400

0'3898 38'98% 0'3 0'7 = 0'3 0'0898 0'2102 21'02% 100 0'3449 34'49% 0'3 0'7 = 0'3 0'0449 0'2551 25'51% 400

b1. ( = 0'05), 1 = 0'95 po 0'3 1'96

1.2.2 Interval de confiana L'interval de Probabilitat serveix per resoldre una qesti de simple predicci (dels estadstics a partir del parmetre), per no per a l'estimaci estadstica prpiament dita (estimar parmetres a partir dels estadstics).

PARMETRES

Predicci
ESTADSTICS

Estimaci

Dos tipus d'estimaci estadstica: Estimaci puntual: a partir d'un estadstic hem de donar un sol i nic valor per al parmetre. Es demostra matemticament que, en general, la millor estimaci puntual d'un parmetre (, 2, , p) s el seu estadstic corresponent (, S2, S, po), especialment si treballem amb mostres grans (n 30). Aquest tipus d'estimaci t l'inconvenient que no indica quina s la precisi d'aquesta estimaci. s per aquest motiu que s'utilitza l'estimaci per interval.

11

Estimaci per interval: permet estimar els parmetres a partir del seu estadstic corresponent, amb un risc d'error conegut (i petit).

Interval de Confiana: s un interval (simtric) al voltant d'un estadstic que t una probabilitat 1 - (generalment 0'95 o 0'99) de contenir el parmetre. Un interval s un valor lineal que queda definit pels seus dos lmits (superior i inferior). Els lmits de l'interval de confiana van ser denominats per R.A. Fisher, lmits de confiana o lmits fiducials. Tamb es basa en els conceptes de distribuci mostral i error tpic. Com aquesta segueix la llei normal (per a mostres grans) el: 95% = (1 - = 0'95) est comprs entre + 1'96 Z 99% = (1 - = 0'99) est comprs entre + 2'58 Z

En general, + Z /2

A) Interval de confiana d'una mitjana s un interval simtric al voltant de la mitjana observada que t una probabilitat 1 de contenir la mitjana de la poblaci ().

X =

/2
X x Z/2

1-
X

/2

X + x Z/2

X x Z/2 = X

Sx Z/2 X Z/2 n n

Grandria de la Mostra (mitjana) Podem calcular la mida de la mostra que ha de fer com a mnim per poder realitzar l'estimaci del parmetre. Aquest mida dependr de la precisi (error mxim = e) i aquest per la seva banda, dependr del risc que estiguem disposats a admetre. - Per poblacions infinites o mostreig no exhaustiu:

Z2 /2 2 Z/2 e= Z/2 n = n= 2 e e n

12

- Per poblacions finites o mostreig exhaustiu:

e=

Nn N Z2 /2 2 Z/2 n = 2 N 1 Z /2 2 + e 2 ( N 1) n

Exemple. Un grup de 100 alumnes d'Estadstica ha obtingut en una prova una mitjana de 5'8 punts i una desviaci tpica de 1'2. Estimar la mitjana de la poblaci origen d'aquest grup: a) Quina s lestimaci puntual de la mitjana de la poblaci? b) Quina s lestimaci de la mitjana de la poblaci, amb un nivell de confiana del 95%? c) I amb un nivell de confiana del 99%?

1a ) = X = 58 ' 12 ' '0352 = 58 ' 0'23526 55648 ' 100 12 ' 61096 ' 1c) 58 ' 2'58 = 58 ' 0'30965 ' 4904 100 1b ) 58 ' 196 '
Exemple. El mateix per en un grup de 36 alumnes.

2 a ) = X = 58 ' 12 ' 6192 ' = 58 ' 0'3925 '408 36 12 ' 6'316 2 c) 58 ' 2'58 = 58 ' 0'5165 '284 36 2 b ) 58 ' 196 '
Exemple. Es vol estimar la mitjana de l'alumnat d'una determinada assignatura. S'accepta que la seva desviaci tpica s 0'8. Calcular la mida mnima necessria de la mostra. a) = 0'01 i e= 0'2

n=

2'58 0'8 = 106'5024 107 0'2


2

b) = 0'05 i e= 0'2

n=

1'96 0'8 = 614656 62 ' 0'2


2

c) = 0'01 i e= 0'1
13

2'58 0'8 n= = 426'0096 427 0'1


2

d) El mateix que al c, per sabent que N = 512

n=

' 512 2'582 0'82 21811692 = = 232'7797 233 2 2 2 ' (511) 2'58 0'8 + 01 9'3701

B) Interval de Confiana de Proporcions (mostres grans) s un interval simtric al voltant de la proporci observada (po) que t una probabilitat 1 - de contenir la proporci de la poblaci (p).

p =

pq n

/2
po - Z /2 p

1-
po

/2

po + Z /2 p

Per poblacions infinites o mostreig no exhaustiu:

p po Z/2 p = po Z/2
-

pq n pq N n n N 1

Per poblacions finites i mostreig exhaustiu:

p po Z/2 p = po Z/2

Si es desconeixen p i q (que s lgic): a) S'estimen a partir de dades obtingudes en estudis anteriors. b) Es realitza un sondeig previ (estudi pilot). c) S'agafa el cas ms desfavorable p = q = 0,5 (perqu el producte p q s mxim: p q = 0'25). d) S'utilitzen els valors observats (po i qo):

14

p po Z/2

po qo n

Hi ha condicions d'aplicaci: mostres grans, s a dir, tots els productes n p, n q, n po han de valer com a mnim 5.

Grandria de la Mostra (proporcions) De manera similar al cas de la mitjana, podem calcular la mida mnima de la mostra que necessitem per estimar el parmetre (p), en funci del risc i la precisi o error mxim (e).

- Per poblacions infinites o mostreig no exhaustiu:

pq e = Z/2 n

Z/2 p q n= e2

Z/2 n = pq e

- Per poblacions finites i mostreig exhaustiu:

pq N n e = Z/2 n N 1

N Z2 /2 p q n= 2 e ( N 1) + ( Z2 /2 p q )

Exemple. En un grup de 30 alumnes d'Estadstica han aprovat 18. Quina ser la p d'aprovats de l'assignatura? - E. puntual:

po p =

18 = 0'6 30

p = po = 0'6

- E. interval ( = 0'01):

p 0'6

0'6 0'4 0'8308 2'58 = 0'6 0'23080 '3692 30

Exemple. Com a lanterior (po = 0,6) per en un grup de 100 alumnes. - E. puntual: p = po = 0'6 - E. interval ( = 0'01):

p 0'6

0'6 0'4 '7264 2'58 = 0'6 01264 ' 0 0 '4736 100

15

Exemple. En un estudi d'opini en el qual noms s'ha de contestar s / no, es desconeix la tendncia de la poblaci. Es vol saber quants individus ser necessari enquestar per estimar la proporci de resposta amb un error mxim del 4% i una probabilitat de 0'95.

n=

Z2 /2 p q 196 ' 2 0'5 0'5 = = 600'25 601 e2 0'04 2

Exemple. Igual que en el problema anterior, per en el cas que hgim estimat que el percentatge de respostes a favor est entre el 60% i el 70%.

1'962 0'6 0'4 n= = 576'24 577 0'04 2


Exemple. Si el 75% de l'alumnat aprova una determinada assignatura Quants alumnes aprovarien en un grup de 200? ( = 0,05)

po p Z/2

pq 0'75 0'25 0'81 200 = 162 = 0'75 196 ' = 0'75 0'060 '69 200 = 138 n 200

Exemple. Igual que en l'anterior, per en un grup de 64 alumnes.

po 0'75 196 '

0'75 0'25 0'8561 64 = 55 = 0'75 01061 ' 0 '6439 64 = 41 64

16

1.3 Teoria de la Decisi Estadstica

Tracta de la presa de decisions en Estadstica. Tamb es basa en els conceptes de distribuci mostral i error tpic. Es diu prova d'hiptesis o contrast d'hiptesis al procediment mitjanant el qual s'arriba a la decisi de rebutjar o no una determinada hiptesi. Hiptesi: s una proposici o afirmaci, que relaciona de forma concreta variables, que la naturalesa de la qual no coneixem amb absoluta certesa i que, justament per aix, es planteja en termes de conjectura, una cosa que possiblement s certa, alguna cosa a verificar. Dos tipus de Hiptesis estadstiques: Hiptesi Nulla (H0): la que ens plantegem a priori a verificar i que "acceptem" o rebutgem desprs de l'anlisi estadstica de les dades (diferncia estadsticament nulla o no significativa, prou petita com per poder ser explicada per l'atzar). Hiptesi Alternativa (H1): s la complementria (no noms la contrria) de la H0 (diferncia estadsticament diferent de zero o significativa: massa gran o diferent de zero com per no ser explicada noms per l'atzar).

La teoria de la decisi tamb es basa en els conceptes de distribuci mostral i error tpic:

1-

/2
H1 H0 H1

/2

H1
Zona (es) de rebuig de la H0 Zona (es) dacceptaci de la H1 Zona (es) crtiques Nivell de significaci

H0

Zona de probabilitat 1 - Zona de no rebuig de la H0 Zona no crtica Nivell de confiana 1 -

Dos tipus de decisions:

17

- Rebutjar la Ho: "Rebutgem la H0 amb un risc i acceptem la H1" (diferncia significativa). - No rebutjar ("acceptar") la Ho: "Res s'oposa a acceptar la H0" (diferncia no significativa).

1.3.1 Errors i riscos Dos tipus d'errors (o riscs d'error): : de primera espcie o error tpic : de segona espcie o error tpic II REALITAT DECISI Rebutjar la H0 No rebutjar la H0 (acceptar) H0 VERDADERA : error tpic I o de 1 espcie Decisi correcta H0 FALSA Decisi correcta (potncia dun contrast 1 ) : Error tpic II o de 2 espcie

: risc d'error conegut (fixat a priori) i petit, habitualment 0'05 (5%) o 0'01 (1%). : risc d'error desconegut, perqu depn de la diferncia entre el parmetre real i el parmetre teric i generalment el parmetre real el desconeixem. Anomenarem (en el cas de les mitjanes): : parmetre teric. ': parmetre real (desconegut). X: estadstic observat.

= 005

= 400 =6

1 = 402 1 = 6

2 = 404 2 = 6

n = 36
e = 196 ' 6 = 196 ' 36

/2
397 398 399 400

1 2 402

/2
403 404 405 406 407

401

Cas 1: 1 = 402, 1 = 6

18

Cas 2: 2 = 404, 2 = 6

En el cas 1 (diferncia 1 - = 402 400 = 2) el risc (intersecci) s 40 %. En canvi, en el cas 2 (2 - = 404 400 = 4), la diferncia s major i el risc s menor que en el cas 1.

1.3.2 Potncia dun contrast (funci de potncia) (1 - )

Capacitat que t un contrast per detectar que la H0 s falsa i rebutjar-la. Com augmentar la potncia (1 - ) d'un contrast? (disminuir ): - Augmentar (mala soluci). - Augmentar n: la distribuci mostral t menys desviaci i l'interval de probabilitat es redueix i tamb (sense augmentar ).

= 400 = 403 = = 6 = 005

= 400

= 403

n = 36

e = 196 '

6 = 196 ' 36

/2
398 399 400 401 402

/2
403 404 405 406

397

n = 64
6 e = 196 ' = 147 ' 64

/2
398 399 400

401

/2
403 404 405 406

397

402

19

En augmentar n (de 36 a 64) els intervals sn ms estrets i, per tant, el risc (intersecci) disminueix.

1.3.3 Grau de significaci (P) s la probabilitat d'observar un valor igual o major al estadstic (quan la H0 s verdadera) o la probabilitat associada a lestadstic de contrast. En els outputs de programes informtics figura la dada p, i serveix per a la presa de decisi estadstica. Exemple. La X est a la zona crtica, el valor p (p/2) s menor que (/2), per tant, la decisi s rebutjar la Hiptesi nulla (H0) H1

1
/2

/2

p/2

Exemple. La X est a la zona no crtica, el valor p s ms gran que , per tant, la decisi s que res no s'oposa a acceptar la Hiptesi nulla (H0).

p/2

p/2

/2

/2
X

Si p s major o igual a s'accepta la H0, en canvi si p s menor a saccepta la H1

20

1.3.4 Contrasts unilaterals i bilaterals

- C. Bilateral - C. de dues cues - C. no direccional (bidireccional)

s aquell contrast on l est situat en ambds extrems de la distribuci.

H0 :

= X=

H1:

/2
H1 H0

/2

H1

- C. Unilateral - C. duna cua - C.direccional (unidireccional)

Aquell contrast on l est situat en un dels extrems (inferior o esquerre; superior o dret) de la distribuci.

H0 :

H0 :

H1:

< X<

H1:

> X>

H1 H0 H0

H1

Avui en dia els contrastos unilaterals estan fora qestionats perqu: Sn menys exigents que els bilaterals. Amb els bilaterals tamb podem saber si s inferior o superior.

En principi i sempre que no tinguem un criteri explcit (si s superior o inferior, ha millorat o empitjorat, etc) els contrastos els plantejarem com a bilaterals.

21

Risc

10% 010

5% 005 196

2% 002 233

1% 001 258

Bilateral

Z/2
Unilateral

1645

128

1645

205

233

22

You might also like