Professional Documents
Culture Documents
1 / 63 2 / 63
http://diari.uib.cat/digitalAssets/124/124064_1_reportatge.pdf
3 / 63 4 / 63
Definicions bàsiques Formalment
Estimador (puntual), o estadístic: Una funció que aplicada als Una m.a.s. de mida n d’una v.a. X és un vector de n còpies
valors d’una mostra ens permet estimar un paràmetre que independents (X1 , . . . , Xn ) de X
vulguem saber de tota la població
Exemple: Sigui X la v.a. «triam un estudiant de la UIB i li
Exemple: Empram la mitjana aritmètica de les alçades d’una midam l’alçada». Una m.a.s. de X de mida n serà un vector
mostra d’estudiants de la UIB per estimar l’alçada mitjana dels de n còpies independents (X1 , . . . , Xn ) d’aquesta X .
estudiants de la UIB
Una realització de la m.a.s. (X1 , . . . , Xn ) és un vector
(x1 , . . . , xn ) de valors presos per aquestes vv.aa.
5 / 63 6 / 63
Formalment Formalment
Un estimador T és una funció aplicada a una m.a.s. Un estimador T és una funció aplicada a una m.a.s. X1 , . . . , Xn
X1 , . . . , Xn :
T = f (X1 , . . . , Xn ) T = f (X1 , . . . , Xn )
Aquest estimador s’aplica a les realitzacions de la mostra i
dóna nombres reals
Per tant, un estimador és una (nova) variable aleatòria, amb
Exemple: La mitjana mostral d’una m.a.s. X1 , . . . , Xn de mida distribució (en diem la distribució mostral de l’estimador),
n és esperança, desviació típica (en diem l’error estàndard, o típic,
X1 + · · · + Xn
X := de l’estimador), etc.
n
Quan l’aplicam a una realització x1 , . . . , xn de la m.a.s., Del coneixement d’aquesta distribució mostral, podrem
obtenim la seva mitjana aritmètica: estimar propietats de X a partir de les d’una mostra
x1 + · · · + xn
n
7 / 63 8 / 63
La vida real La vida real
A la vida real, les mostres aleatòries se solen prendre sense
Probabilitat que si triam n estudiants de la UIB Mida màxima d'una mostra perquè la probabilitat de repeticions
repeticions (sense reposició). No són mostres aleatòries siguin tots diferents sigui menor que 0.05
40
1.0
simples. Però:
0.9
35
0.8
• Si la mida N de la població és MOLT més gran que la
0.7
30
0.6
mida n de la mostra, els resultats per a m.a.s. valen
probabilitat
25
0.5
n
(aproximadament) en aquest cas, perquè les repeticions
0.4
20
0.3
són improbables i les variables aleatòries que formen la
15
0.2
mostra són gairebé independents
0.1
10
0.0
Cometrem l’abús de llenguatge de dir que en aquest cas 0 20 40 60 80 100 120 140 160 180 200 500 2000 3500 5000 6500 8000 9500 11000 12500 14000 15500
9 / 63 10 / 63
Heu de tenir clar que els resultats que donarem NO són vàlids
en aquest cas, però si no tenim res millor. . .
15 / 63 16 / 63
Exemple Combinació lineal de normals és
normal
S’ha pres una m.a.s. de 10 estudiants de la UIB, i les seves
alçades han estat Teorema
Si Y1 , . . . , Yn son vv.aa. normals independents, cada
1.62, 1.75, 1.64, 1.69, 1.83, 1.85, 1.72, 1.61, 1.93, 1.62
Yi ∼ N(µi , σi ), i a1 , . . . , an , b ∈ R aleshores
Podem estimar l’alçada mitjana dels estudiants de la UIB:
Y = a1 Y1 + · · · + an Yn + b
1.62 + 1.75 + 1.64 + · · · + 1.62
x= = 1.726 és una v.a. N(µ, σ) amb µ i σ les que toquen:
10
Com de «fina» és aquesta estimació? No us perdeu el proper • E (Y ) = a1 µ1 + · · · + an µn + b
tema! • Var (Y ) = a12 σ12 + · · · + an2 σn2
p
• σ(Y ) = a12 σ12 + · · · + an2 σn2
17 / 63 18 / 63
Teorema Teorema
Sigui X1 , . . . , Xn una m.a.s. d’una v.a. X d’esperança µX i Sigui X1 , . . . , Xn una m.a.s. d’una v.a. X qualsevol d’esperança
desviació típica σX . Si X és N(µX , σX ), aleshores µX i desviació típica σX . Quan n → ∞,
σX σX
X és N µX , √ X → N µX , √
n n
19 / 63 20 / 63
Teorema Central del Límit Distribució mostral de X
En resum, per una m.a.s.:
Histograma de notes de tests Histograma de la mostra de mitjanes
• Si X és normal, sempre:
20000
30
σX
X ∼ N µX , √
15000
n
Freqüències
Freqüències
20
10000
10
5000
• Si X no és normal però n és gran (n > 30 o 40),
σX
0
0
0 20 40 60 80 100 40 45 50 55 60 65 70 X ≈ N µX , √
Notes dels tests Mitjanes n
21 / 63 22 / 63
o bé
X − 115 110 − 115
P(X 6 110) = P 6
2.5 2.5
= P(Z 6 −2) = pnorm(-2) = 0.023
23 / 63 24 / 63
Exemple Exemple
Quina és la probabilitat que la mitjana mostral de les alçades L’alçada d’una espècie de matolls té valor mitjà 115 cm, amb
sigui 6 110 cm? una desviació típica de 25. Prenem una m.a.s. de 100 matolls
√
X ≈ N(115, 25/ 100) = N(115, 2.5) d’aquesta espècie.
P(X 6 110) = Quina és la probabilitat que la mitjana mostral de les alçades
estigui entre 113 cm i 117 cm?
25 / 63 26 / 63
29 / 63 30 / 63
31 / 63 32 / 63
Proporció mostral Un experiment
Pel T.C.L.: > aprovs = rep (0 , length ( tests ) )
> aprovs [ which ( tests >=50) ]=1
«Teorema» > prop . table ( table ( aprovs ) )
Si n és gran (n > 30 o 40) i la mostra és aleatòria simple, aprovs
r ! 0 1
pX (1 − pX ) 0.4054054 0.5945946
pbX ≈ N pX , > p _ X = prop . table ( table ( aprovs ) ) [2]
n > set . seed (100)
> props . mostrals = replicate (10^5 ,
i per tant mean ( sample ( aprovs ,40 , rep = TRUE ) ) )
pb − pX > mean ( props . mostrals )
qX ≈ N(0, 1) [1] 0.5944708
pX (1−pX )
n > sd ( props . mostrals )
[1] 0.07769086
> sqrt ( p _ X * (1 - p _ X ) / 40)
[1] 0.07762922
33 / 63 34 / 63
10000
5000
0
Proporcions mostrals
35 / 63 36 / 63
Exemple Variància mostral
Un 59.1% dels estudiants de la UIB són dones. Si prenem una
Sigui X1 , . . . , Xn una m.a.s. de mida n d’una v.a. X
m.a.s. de 60 estudiants, quina és la probabilitat que la
d’esperança µX i desviació típica σX
proporció mostral de dones sigui superior al 61.5%?
La variància mostral és
Pn
i=1 (Xi− X )2
SeX2 =
n−1
La desviació típica mostral és
q
SeX = + SeX2
A més, escriurem
Pn
(Xi − X )2 (n − 1) e2
q
2
SX = i=1 = SX i SX = + SX2
n n
37 / 63 38 / 63
39 / 63 40 / 63
La distribució χ2n Els graus de llibertat
Sigui y0 > 0. Si volem trobar x1 , . . . , xn tals que
Xn
Algunes khi quadrat Khi quadrat vs Normal
(xi − x)2 = y0 ,
Khi quadrat amb n=300
0.4
n=1
Normal
i=1
0.015
n=2
n=3
n=4
n=5
n=10 podem triar x1 , . . . , xn−1 qualssevol i llavors xn queda fixat (per
0.3
n=20
0.010
n
0.2
(xi − x)2 = y0
P
i=1
0.005
n
0.1
0.000
P
n2 xi2 − (2n − 1) xi = n2 y0
P
0 5 10 15 20 25 30 150 200 250 300 350 400 450
i=1 i=1
n−1 n−1
P 2
2
P 2 2 2
n xi + n · xn − (2n − 1) xi
i=1 i=1
n−1
P
−2(2n − 1) xi xn − (2n − 1)xn2 = n2 y0
i=1
41 / 63 42 / 63
0.4
0.4
Normal estàndard Normal estàndard
t amb n=2
t amb n=50
t amb n=3
• Amb R és t
t amb n=4
t amb n=5
t amb n=10
0.3
0.3
• Si Tν té distribució tν , E (Tν ) = 0 si ν > 1 i
ν
si ν > 2
0.2
0.2
Var (Tν ) =
ν−2
0.1
0.1
• La funció de densitat de Tν és simètrica respecte de 0
(com la d’una N(0, 1)):
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4
44 / 63 45 / 63
46 / 63 47 / 63
Estimadors no esbiaixats Estimadors no esbiaixats
Quan un estimador és bo? Exemples
Un estimador puntual θb d’un paràmetre poblacional θ és no • E (X ) = µX : X és estimador no esbiaixat de µX
esbiaixat quan el seu valor esperat és precisament el valor del
pX ) = pX : pbX és estimador no esbiaixat de pX
• E (b
paràmetre:
E (θ)
b =θ • E (SeX2 ) = σX2 si X és normal: SeX2 és estimador no esbiaixat
Es diu aleshores que l’estimació puntual és no esbiaixada. de σX2 quan X és normal
b −θ
El biaix de θb és E (θ) n−1 2
• E (SX2 ) = σX si X és normal; per tant SX2 és
n
esbiaixat, amb biaix
n−1 2 σ2
E (SX2 ) − σX2 = σX − σX2 = − X −→ 0
n n n→∞
• E (SeX ), E (SX ) 6= σX ni tan sols quan X és normal: SeX i
SX són estimadors esbiaixats de σX
48 / 63 49 / 63
52 / 63 53 / 63
54 / 63 55 / 63
Exemple: Estimació de poblacions Estimadors màxim versemblants
Exemple: Assegut en un bar del Passeig Marítim vaig apuntar
Un estimador d’un paràmetre és màxim versemblant (MV)
les llicències dels 40 primers taxis que passaren:
quan, per a cada m.a.s., la probabilitat d’observar-la és
> taxis = c (1217 ,600 ,883 ,1026 ,150 ,715 ,297 ,137 , màxima quan el paràmetre pren el valor de l’estimador aplicat
508 ,134 ,38 ,961 ,538 ,1154 ,314 ,1121 ,823 ,158 ,
940 ,99 ,977 ,286 ,1006 ,1207 ,264 ,1183 ,1120 ,
a la mostra
498 ,606 ,566 ,1239 ,860 ,114 , 701 ,381 ,836 ,561 , Exemple: Suposem que tenim una v.a. Bernoulli X de
494 ,858 ,187)
probabilitat d’èxit pX desconeguda
Suposaré que formen una m.a.s. dels taxis de Palma. Donada una m.a.s. x1 , . . . , xn de X , siguin pbx la seva proporció
Aleshores, estimo que el nombre de taxis de Palma era mostral i P(x1 , . . . , xn | p) la probabilitat d’obtenir la mostra
> max ( taxis ) +( max ( taxis ) - length ( taxis ) ) quan la probabilitat poblacional és p
/ length ( taxis )
[1] 1268.975 Teorema
En realitat, n’hi havia 1246 El valor de p per al qual P(x1 , . . . , xn | p) és màxim és pbx
http://www.caib.es/eboibfront/es/2014/10195/551436/
departamento-de-movilidad-seccion-de-transportes-r La proporció mostral pbX és un estimador MV de pX
56 / 63 57 / 63
58 / 63 59 / 63
Exemple: Marca-recaptura Exemple: Marca-recaptura
pbX és estimador màxim versemblant de p: Estimam que Suposem que hem marcat 15 peixos del llac, i que en una
captura de 10 peixos, n’hi ha 4 de marcats. Quants peixos
K k n·K estimau que conté el llac?
= ⇒N =
N n k
Per tant, l’estimador 15 · 10
Nb = = 37.5
n·K 4
Nb =
k Per tant, estimam que hi haurà entre 37 i 38 peixos al llac
maximitza la probabilitat de l’observació «k marcats de n
capturats». És l’estimador màxim versemblant de N a partir
de K , k i n.
60 / 63 61 / 63
L’estimador de Chapman
0.25
(n + 1) · (K + 1)
Nb = −1
0.20
k +1
0.15
15 25 35 45 55 65 75 85 95 62 / 63 63 / 63
N