Professional Documents
Culture Documents
de Probabilidad y Estadstica
(Versi on Preliminar)
CARLOS BUSTOS-L
OPEZ
A los caminos que aun faltan por recorrer
siendo un peque no saltamontes
Indice general
1. Estadsticas Descriptivas: Deniciones 4
1.1. Fundamentos de la Investigacion
Cientca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2. Motivaciones y Deniciones . . . . . . . . . . . . . . . . . . . 5
1.2.1. Tipos de Variables . . . . . . . . . . . . . . . . . . . . 6
1.2.2. Tabulaci on . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.3. Representacion Graca . . . . . . . . . . . . . . . . . . 13
1.3. Medidas de Tendencia Central . . . . . . . . . . . . . . . . . . 22
1.3.1. Media Armonica (H(X)). . . . . . . . . . . . . . . . . 22
1.3.2. Media Geometrica (G(X)). . . . . . . . . . . . . . . . . 23
1.3.3. Media Aritmetica o Promedio (
X
, x o M(X)). . . . . 23
1.3.4. Media Ponderada (
P
, x
P
). . . . . . . . . . . . . . . . 26
1.3.5. Media Recortada en % . . . . . . . . . . . . . . . . . 27
1.3.6. Moda (Mo(X)). . . . . . . . . . . . . . . . . . . . . . . 28
1.3.7. Mediana (Me(X)). . . . . . . . . . . . . . . . . . . . . 29
1.3.8. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . 31
1.4. Medidas de Posici on . . . . . . . . . . . . . . . . . . . . . . . 31
1.4.1. Mnimo (X
Min
). . . . . . . . . . . . . . . . . . . . . . . 32
1.4.2. Maximo (X
Max
). . . . . . . . . . . . . . . . . . . . . . 32
1.4.3. Percentiles( P
). . . . . . . . . . . . . . . . . . . . . . 32
1.4.4. Diagrama de Cajon o Box-Plot: . . . . . . . . . . . . . 34
1.5. Medidas de Variabilidad o de Dispersion . . . . . . . . . . . . 35
1.5.1. Amplitud o Rango (R). . . . . . . . . . . . . . . . . . . 35
1.5.2. Rango Intercuartil (RI). . . . . . . . . . . . . . . . . . 36
1.5.3. Desviacion Media (DM). . . . . . . . . . . . . . . . . . 36
1.5.4. Varianza y Desviacion Estandar (
2
X
, S
2
X
o VVar(X)). . 36
1.5.5. Coeciente de Variaci on (C.V.(X)). . . . . . . . . . . . 38
1
INDICE GENERAL 2
1.6. Analisis Bivariado . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.6.1. Tablas de Doble Entrada. . . . . . . . . . . . . . . . . 40
1.6.2. Analisis Condicional. . . . . . . . . . . . . . . . . . . . 41
1.6.3. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . 45
1.7. Correlacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
1.7.1. Coeciente de Correlacion Lineal de Pearson (
XY
o r
XY
) 47
1.7.2. Matrix-Plot . . . . . . . . . . . . . . . . . . . . . . . . 50
1.7.3. Concepto de Rango . . . . . . . . . . . . . . . . . . . . 50
1.7.4. Correlacion de Rangos de Spearman (r
S
). . . . . . . . . 52
1.7.5. Correlacion de Punto Biserial (r
pb
). . . . . . . . . . . . 53
1.7.6. Correlacion Phi (). . . . . . . . . . . . . . . . . . . . 54
1.8. Ejercicios Resueltos . . . . . . . . . . . . . . . . . . . . . . . . 56
2. Regresion Lineal 133
2.1. Modelo de Regresion Lineal . . . . . . . . . . . . . . . . . . . 133
2.2. Ejercicios Resueltos . . . . . . . . . . . . . . . . . . . . . . . . 135
3. Probabilidades 153
3.1. Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . 153
3.1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . 153
3.1.2. Deniciones . . . . . . . . . . . . . . . . . . . . . . . . 154
3.1.3. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . 156
4. Variables Aleatorias 164
4.1. Variable Aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . 164
4.1.1. Varaibles Aleatorias Discretas . . . . . . . . . . . . . . 165
4.1.2. Varaibles Aleatorias Continuas . . . . . . . . . . . . . . 165
4.2. Valor Esperado . . . . . . . . . . . . . . . . . . . . . . . . . . 166
5. Inferencia Estadstica 170
5.1. Estimacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
5.2. Estimacion Puntual . . . . . . . . . . . . . . . . . . . . . . . . 172
5.2.1. Metodo de Maxima Verosimilitud . . . . . . . . . . . . 173
5.2.2. Metodo de los Momentos . . . . . . . . . . . . . . . . . 180
5.2.3. Propiedades de los Estimadores Puntuales . . . . . . . 182
5.2.4. Estimacion Intervalar . . . . . . . . . . . . . . . . . . . 198
5.3. Docima de Hipotesis . . . . . . . . . . . . . . . . . . . . . . . 203
5.3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . 203
Carlos Bustos-Lopez
INDICE GENERAL 3
5.3.2. Docimas . . . . . . . . . . . . . . . . . . . . . . . . . . 204
5.3.3. Docimas Univariadas . . . . . . . . . . . . . . . . . . . 205
5.3.4. Docimas Bivariadas . . . . . . . . . . . . . . . . . . . . 209
5.4. Docimas de Hipotesis No Parametricas . . . . . . . . . . . . . 214
5.4.1. Prueba de Suma de Rangos de Wilcoxon . . . . . . . . 214
5.4.2. Docima de Bondad de Ajuste Chi-cuadrado . . . . . . 217
5.4.3. Tablas de Contingencia . . . . . . . . . . . . . . . . . . 218
5.4.4. Docima Chi-cuadrado de Independencia . . . . . . . . 220
6. Muestreo 224
6.1. Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
6.1.1. Muestreo Aleatorio Simple. (m.a.s.) . . . . . . . . . . . 227
6.1.2. Muestreo Estraticado. . . . . . . . . . . . . . . . . . . 227
6.1.3. Muestreo Sistematico. . . . . . . . . . . . . . . . . . . 228
6.1.4. Tama no Muestral . . . . . . . . . . . . . . . . . . . . . 229
6.1.5. Plan de Muestreo . . . . . . . . . . . . . . . . . . . . . 230
Carlos Bustos-Lopez
Captulo 1
Estadsticas Descriptivas:
Deniciones
1.1. Fundamentos de la Investigacion
Cientca
La Ciencia se puede entender como un conjunto sistematizado de conocimien-
tos, sobre la realidad observada, que se obtienen aplicando el metodo cient-
co.
El n esencial de la ciencia es la teora, la que levanta como un conjunto de
leyes y reglas que son la base del conocimiento; la teora sirve para relacionar,
explicar, predecir y controlar fenomenos.
Denicion 1.1.1 El metodo, (meta=hacia; hodos=camino), es un conjun-
to de acciones desarrolladas seg un un plan preestablecido con el n de lograr
un objetivo.
El metodo cientco diferencia la investigaci on de la especulacion, y
el conocimiento cientco (universal, necesario, sistematico y metodico), del
vulgar (particular, contingente, asistematico y ametodico).
4
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
_
Cualitativa
_
Nominal
Ordinal
Cuantitativa
_
Discreta
Continua
Cualitativas: Son todas aquellas variables cuyo conjunto de posibles
respuestas corresponden a cualidades del objeto en estudio.
Nominales: El conjunto de posibles respuestas de las variables
corresponden a nombres de las cualidades del objeto en estudio.
(p.e. 1: representa sexo masculino y 2: sexo femenino).
Ordinales: El conjunto de posibles respuestas de las variables
tienen un orden jerarquico natural. (p.e. En un partido de f utbol:
-1 es perder, 0 es empatar y 1 es ganar).
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
ITULO 1. ESTAD
j=1
n
j
.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
j=1
f
j
.
Note que:
a)
k
i=1
n
i
= N .
b)
k
i=1
f
i
= 1 .
c) N
k
=
k
i=1
n
i
= N .
d) F
k
=
k
i=1
f
i
= 1 .
e) F
i
=
i
j=1
f
j
=
i
j=1
n
j
N
=
1
N
i
j=1
n
j
=
N
i
N
.
Ejemplo 1.2.1 La siguiente informacion representa el nivel de in-
struccion de 20 personas:
B, M, S, S, B, B, M, M, M, S, S, M, B, B, M, M, B, M, S, B .
Nivel de Instruccion n
i
f
i
N
i
F
i
F
i
%
Basico 7
7
20
= 0,35 7 0,35 35 %
Medio 8
8
20
= 0,40 15 0,75 75 %
Superior 5
5
20
= 0,25 20 1,00 100 %
Total 20 1,00
Ejemplo 1.2.2 Para las ventas de un modelo de automovil en una
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
N .
c) Cuando el n umero de observaciones es muy grande se preere:
k = 1,6 ln N .
d) Otra posibilidad para el n umero de intervalos es la formula de
Sturges:
NI = 1 + 3,3 ln N .
e) Ademas la amplitud del intervalo esta dado por:
a =
X
Max
X
Min
k
.
f ) En una tabla de frecuencias con intervalos de clase se pierde in-
formacion, porque solo se conoce el intervalo al que pertenecen los
resultados. Lo usual es considerar a la marca de clase como un
valor representativo de todos los datos del correspondiente inter-
valo.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
ITULO 1. ESTAD
ITULO 1. ESTAD
ITULO 1. ESTAD
ITULO 1. ESTAD
ITULO 1. ESTAD
ITULO 1. ESTAD
ITULO 1. ESTAD
ITULO 1. ESTAD
i=1
1
x
i
=
n
1
x
1
+
1
x
2
+ +
1
x
n
.
Ejemplo 1.3.1 Consideremos el conjunto de datos que consta de 5 valores:
3, 4, 6, 6 y 8, entonces:
H(X) =
5
1
3
+
1
4
+
1
6
+
1
6
+
1
8
=
5
25
24
= 4,8 .
1
A estos indicadores llamaremos Estadgrafos.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
_
n
i=1
x
i
=
n
x
1
x
2
x
n
.
Ejemplo 1.3.2 Consideremos el conjunto de datos que consta de 5 valores:
3, 4, 6, 6 y 8, entonces:
G(X) =
5
3 4 6 6 8 = 5,1 .
1.3.3. Media Aritmetica o Promedio (
X
, x o M(X)).
Denicion 1.3.3 Sean x
1
, x
2
, . . . , x
n
los valores observados de una variable
X, entonces denominamos como media o promedio a
2
:
X
=
x
1
+ x
2
+ + x
n
n
=
n
i=1
x
i
n
.
Ejemplo 1.3.3 Consideremos el conjunto de datos que consta de 5 valores:
3, 4, 6, 6 y 8, entonces:
X
=
3 + 4 + 6 + 6 + 8
5
=
27
5
= 5,4 .
2
Se denota con
X
a la media aritmeticapoblacional y con x a la media aritmetica
muestral.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
i=1
x
i
n
i
n
,
note que en este caso x
i
no es la observaci on i, sino corresponde a la i-esima
marca de clase.
Ejemplo 1.3.6 Ahora construyamos la tabla de frecuencias: k =
60
7,75 8, R = 62 33 = 29, entonces LI =
29
8
3,63.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
i=1
w
i
x
i
= w
1
x
1
+ w
2
x
2
+ + w
n
x
n
, con
n
i=1
w
i
= 1 .
Si la variable en la muestra tiene k valores distintos (k n) que aparecen
con frecuencias n
1
, n
2
, . . . , n
k
, entonces la media puede ser obtenida como:
x =
n
1
x
1
+ n
2
x
2
+ + n
k
x
k
n
=
k
i=1
n
i
x
i
n
,
= f
1
x
1
+ f
2
x
2
+ . . . + f
k
x
k
=
k
i=1
f
i
x
i
,
donde f
i
es la frecuencia relativa de la observacion x
i
, con i = 1, 2, . . . , k.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
i=1
x
i
n
i
p
i=1
n
i
.
Ejemplo 1.3.7 En un estudio de 92 personas de tres grupos sobre la altura
media en cierta compa na, se obtuvieron los siguientes resultados, separados
seg un tramo de edad:
x
1
= 158,5mt. , n
1
= 34
x
2
= 172,3mt. , n
2
= 30
x
3
= 163,1mt. , n
3
= 28
Ejemplo 1.3.8 Y el valor de la media poblacional es:
x =
x
1
n
1
+ x
2
n
2
+ x
3
n
3
n
1
+ n
2
+ n
3
,
=
158,5 34 + 172,3 30 + 163,1 28
34 + 30 + 28
,
=
5389 + 5169 + 4566,8
92
=
15124,8
92
= 164,4mt.
Ademas, si w
i
= 1/n, para todo i, entonces x
P
= x.
1.3.5. Media Recortada en % .
Denicion 1.3.5 Se llama media recortada en a un promedio o media que
no considera una proporcion de las observaciones en cada extremos de las
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
ITULO 1. ESTAD
ITULO 1. ESTAD
ITULO 1. ESTAD
).
Los percentiles corresponden a ciertos valores de las observaciones que
dejan un determinado porcentaje de observaciones por bajo este valor. En
general se designa como P
es % de las
observaciones, es decir:
F
x
= % .
Los percentiles se calculan de manera diferente seg un sea la variable disc-
reta o continua.
1. Variable Discreta.
En este caso el percentil se dene como x
.
Recordemos el ejemplo de venta de automoviles, el percentil 50 es P
50
=
1, esto quiere decir que el 50 % de los distribuidores vende un auto o
menos, el percentil 93 corresponde a P
93
= 2 y esto signica que el 93 %
de los distribuidores vende dos o menos.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
= LI
i
+
_
n
100
N
i1
_
a
i
n
i
.
Ejemplo 1.4.1 Retomemos el ejemplo anterior, y calculemos el P
75
,
en este caso i = 6, LI
6
= 51,15, n = 60, = 75, N
5
= 40, a
6
= 3,63 y
n
6
= 11, entonces:
P
75
= 51,15 + (60 0,75 40)
3,63
11
,
= 51,15 + 5 0,33 = 52,8a nos .
Notas:
Los percentiles no tienen sentido en variables nominales en las que no
se puede ordenar las observaciones de menor a mayor.
Los percentiles dependen de la forma seg un la que se ha construido la
tabla de frecuencias; esto signica que no existe una forma unica para
obtener los percentiles. (a menos que conozcamos la distribucion de los
datos.).
Para datos no agrupados es usual calcular los percentiles del siguiente
modo: se supone que la observaci on ordenada que ocupa el lugar i
corresponde al percentil:
k =
i 1
n 1
100 .
Otra forma es denir a la observaci on ya ordenada, n umero i como
correspondiente al percentil:
k =
i
n + 1
100 .
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
ITULO 1. ESTAD
i=1
|x
i
x|
2
n
.
1.5.4. Varianza y Desviacion Estandar (
2
X
, S
2
X
o VVar(X)).
Denicion 1.5.4 Corresponde a la media de las desviaciones o diferencias
al cuadrado de las observaciones, con respecto a su media
4
.
1. Datos desagrupados (no tabulados): En este caso se tienen para X
(variable de interes) las n observaciones x
1
, x
2
, . . . , x
n
.
2
X
=
1
n
n
i=1
(x
i
)
2
=
1
n
_
n
i=1
x
2
i
n
2
_
,
X
=
_
1
n
_
n
i=1
x
2
i
n
2
_
.
4
Se denomina Desviacion Estandar a =
2
.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
i=1
_
x
i
X
_
2
=
1
n 1
_
n
i=1
x
2
i
n
X
2
_
,
S
X
=
_
1
n 1
_
n
i=1
x
2
i
n
X
2
_
.
2. Datos agrupados (tabulados): En este caso se tiene una tabla de fre-
cuencias con k intervalos, donde n
i
es la frecuencia absoluta del in-
tervalo i, x
i
la marca de clase del i-esimo intervalo y n el total de
observaciones.
2
X
=
1
n
_
k
i=1
n
i
x
2
i
n
2
_
X
=
_
1
n
_
k
i=1
n
i
x
2
i
n
2
_
.
S
2
X
=
1
n 1
_
k
i=1
n
i
x
2
i
n
X
2
_
S
X
=
_
1
n 1
_
k
i=1
n
i
x
2
i
n
X
2
_
.
Propiedades de la Varianza (VVar(X)).
Sean X e Y variables aleatorias independientes, y a, b y c constantes.
VVar(X) 0.
VVar(c) = 0.
VVar(X b) = VVar(X).
VVar(aX b) = a
2
VVar(X).
VVar(aX bY ) = a
2
VVar(X) + b
2
VVar(Y ).
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
X
100 % .
El coeceinte de variacion (CV ), nos entrega una forma de medir la ho-
mogeneidad de los datos, ademas es un indicador sin unidad de medida, lo
que permite comparar distintos conjuntos de datos. Si el valor del coeciente
de variacion es cercano a 0, diremos que los datos son muy homogeneos, es
decir, son muy parecidos entre ellos, al contrario si el valor del coeciente
de variaci on es muy alto, diremos que los datos son heterogeneos, es decir,
muy diferentes entre ellos. De esa forma podemos comparar conjuntos de
datos distintos, ya sean de poblaciones o muestras distintas o de variables
con unidades de medida distintas. La interpretaci on sera:
Si 0 C.V.(X) < 25 %, los datos se diran Muy Homogeneos.
Si 25 % C.V.(X) < 50 %, los datos se diran Homogeneos.
Si 50 % C.V.(X) < 75 %, los datos se diran Heterogeneos.
Si C.V.(X) 75 %, los datos se diran Muy Heterogeneos.
Ejemplo 1.5.1 Modiquemos la tabla del ejemplo.
Int. de Clase M. de C.x
i
n
i
x
i
n
i
x
2
i
x
2
i
n
i
[33,00, 36,63] 34,82 1 34,8 1212,08 1212,08
(36,63, 40,26] 38,45 1 38,4 1478,02 1478,02
(40,26, 43,89] 42,08 5 210,4 1770,31 8851,53
(43,89, 47,52] 45,71 13 594,2 2088,95 27156,31
(47,52, 51,15] 49,34 20 986,7 2433,94 48678,84
(51,15, 54,78] 52,97 11 582,6 2805,29 30858,20
(54,78, 58,41] 56,60 8 452,8 3202,99 25623,95
(58,41, 62,04] 60,23 1 60,2 3627,05 3627,05
Total 60 2960,1 147485,99
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
Y
100 %, necesitamos determinar la media de Y y
su desviacion estandar.
Pero M(Y ) = M(3,2X + 4) = 3,2M(X) + 4 = 3,2 12,1 + 4 = 42,72.
Ademas,
VVar(Y ) = VVar(3,2X + 4) = 3,2
2
VVar(X) = 10,24 4,3
2
,
= 10,24 18,49 = 189,3376 .
Entonces, el
C.V.(Y ) =
189,3376
42,72
100 % =
13,76
42,72
100 % 32,2 %.
1.6. Analisis Bivariado
En todas las discusiones anteriores, hemos tratado las variables y su res-
pectiva informacion como variables aisladas, pero en general, no solo nos
interesa una variable especca, sino varias de ellas, y poder descubrir las
posibles asociaciones entre dos o mas variables.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
j=1
n
ij
, n
+j
=
I
i=1
n
ij
, n
++
=
I
i=1
J
j=1
n
ij
.
Ejemplo 1.6.1 Considere la siguiente tabla con la informacion de puntajes
obtenidos en un test, seg un tramo de edad.
5
Este total corresponde a la frecuencia marginal de X
6
Este total corresponde a la frecuencia marginal de Y .
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
X|Y 27
=
995
21
43,38puntos.
Ejemplo 1.6.3 De la tabla anterior, nos interesa saber la media de edad,
dado que las personas lograron menos de 45 puntos.
En este caso, debemos determinar la tabla de distribucion de frecuencias
condicional dado que X < 45.
X < 45
Edad y
j
30 40 40 50 y
j
n
j
25 27 26 5 + 6 = 11 286
27 29 28 10 + 10 = 20 560
Total 31 846
Luego,
Y |X<45
=
846
31
27,29a nos.
Ejemplo 1.6.4 La siguiente tabla corresponde a las alturas de 151 personas
de una empresa, separadas por sexo. Donde X es la altura en centmetros,
Y = 0 (Mujer) e Y = 1 (Hombre). Determine la media, moda y mediana de
X.
Y : Sexo
Muj. Hom. Frec. Marg.
X : Altura x
i
y
j
0 1 de X x
i
n
i
h
i
H
i
155 160 157,5 30 15 45 7087,5 0,298 0,298
160 165 162,5 25 32 57 9262,5 0,378 0,676
165 170 167,5 17 20 37 6197,5 0,245 0,921
170 175 172,5 3 9 12 2070 0,079 1,000
Frec. Marg. de Y 75 76 151 24617,5
X
=
24617,5
151
163,03cm.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
57 45
(57 45) + (57 37)
5 ,
= 160 +
12
12 + 20
5 ,
= 160 +
12
32
5 ,
160 + 1,875 161,875cm.
Me(X) = 160 +
151
2
45
5
57
,
= 160 + (75,5 45)
5
57
,
160 + 30,5 0,088 ,
160 + 2,684 162,684cm.
Ejemplo 1.6.5 Determine la distribucion condicional de X dado Y = 0 y
su respectiva media, moda y mediana.
Y = 0
Altura x
i
(Mujeres) x
i
n
i
h
i
H
i
155 160 157,5 30 4725 0,400 0,400
160 165 162,5 25 4062,5 0,333 0,733
165 170 167,5 17 2847,5 0,227 0,960
170 175 172,5 3 517,5 0,040 1,000
Total 75 12152,5
X|Y =0
=
12152,5
75
162,03cm.
Mo(X|Y = 0) = 155 +
30 0
(30 0) + (30 25)
5 ,
= 155 +
30
30 + 5
5 ,
= 155 +
30
35
5 ,
155 + 0,857 159,286cm.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
75
2
30
5
25
,
= 160 + (37,5 30)
5
25
,
160 + 7,50 0,20 ,
160 + 1,50 161,50cm.
Ejemplo 1.6.6 Determine la distribucion condicional de X dado Y = 1 y
su respectiva media, moda y mediana.
Y = 1
Altura x
i
(Hombres) x
i
n
i
h
i
H
i
155 160 157,5 15 2362,5 0,197 0,197
160 165 162,5 32 5200 0,421 0,618
165 170 167,5 20 3350 0,263 0,881
170 175 172,5 9 51552,5 0,118 1,000
Total 76 12465
X|Y =1
=
12465
76
164,01cm.
X|Y =1
=
12465
76
164,01cm.
Mo(X|Y = 1) = 160 +
32 15
(32 15) + (32 20)
5 ,
= 160 +
17
17 + 12
5 ,
= 160 +
17
29
5 ,
160 + 2,93 162,93cm.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
76
2
15
5
32
,
= 160 + (38 15)
5
32
,
160 + 23 0,156 ,
160 + 3,588 163,588cm.
1.6.3. Covarianza
En los analisis bivariados obtenemos la informacion de las frecuencias
absolutas de un suceso bajo dos variables aleatorias, pero ademas nos interesa
saber la relacion que existe entre estas dos variables.
As como la varianza es una forma de medir la variabilidad de una variable
de interes, la covarianza nos permite medir la variabilidad conjunta de dos
variables X e Y
7
.
1. Datos no agrupados: Sean x
1
, . . . , x
n
e y
1
, . . . , y
n
las respectivas obser-
vaciones para las variables X e Y , ademas sean
X
y
Y
, las respectivas
medias de las variables. La covarianza se denota por
XY
8
.
XY
=
1
n
_
n
i=1
x
i
y
i
n
X
Y
_
=
n
i=1
x
i
y
i
n
X
Y
.
2. Datos agrupados: En este caso se tiene una tabla con frecuencias con-
juntas para las variables X e Y , es decir, se tiene una tabla con I las
7
El lector debe poner atencion en que, la covarianza de una variable X con sigo misma,
es decir,
XX
=
2
X
corresponde a la varianza de la variable X.
8
Tambien se suele utilizar Cov(X, Y ).
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
XY
=
1
n
_
I
i=1
J
j=1
n
ij
x
i
y
j
n
X
Y
_
=
I
i=1
J
j=1
n
ij
x
i
y
j
n
X
Y
.
Ejemplo 1.6.7 Considere el siguiente ejemplo:
Edades de postulantes
25 27 27 29 Frec. Marg. x
i
n
i
Puntajes x
i
y
j
26 28 de X
30 40 35 5 10 15 525
40 50 45 6 10 16 720
50 60 55 10 8 18 990
Frec. Marg. de Y 21 28 49 2235
y
j
n
j
546 784 1330
Luego,
X
=
2235
49
= 45,61a nos y
Y
=
1330
49
= 27,14a nos.
Entonces,
Cov(X, Y ) =
35 26 5 + 35 28 10 + 45 26 6 + 45 28 10 + 55 26 10 + 55 28 8
49
45,61 27,14
=
60590
49
45,61 27,14
= 1236,53 45,61 27,14
= 1236,53 1237,86
= 1,33a nos puntos .
1.7. Correlacion
En la seccion anterior hemos visto como las tablas bivariadas nos permiten
tener una idea del comportamiento de las observaciones cuando estas son
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
XY
=
XY
_
2
X
2
Y
,
r
XY
=
n
i=1
x
i
y
i
n x y
_
_
n
i=1
x
2
i
n x
2
__
n
i=1
y
2
i
n y
2
_
.
El coeciente de correlacion, cumple que: 1 r
XY
1.
Interpretacion:
Cuando los valores de r
XY
son cercanos a -1, se dice que las variables
X e Y tienen alta asociacion lineal inversa.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
244 2,573
,
=
5,05
627,812
,
=
5,05
25,01
,
0,202 .
Ejemplo 1.7.2 Consideremos la tabla anterior y calculemos la correlacion
entre Edad y Altura.
x =
1340
8
167,5, z =
210
8
26,25
r
XZ
=
35207 8 167,5 26,25
_
(224694 8 167,5
2
)(5520 8 26,25
2
)
,
=
35207 35175
_
(224694 224450)(5520 5512,5)
,
=
32
244 7,5
,
=
32
1830
,
=
32
42,78
,
0,75 .
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
ITULO 1. ESTAD
i=1
d
2
i
n(n
2
1)
,
donde d
i
= Rango de x
i
Rango de y
i
, y n es el n umero total de obser-
vaciones.
Ejemplo 1.7.6 Retomemos los datos de Espirometra, y determinemos sus
respectivos rangos:
Edad (Z) Altura (X) Z X d
i
d
2
i
25 160 1.5 2 0.5 0.25
25 159 1.5 1 -0.5 0.25
26 174 4 7.5 3.5 12.25
26 171 4 6 2.0 4.00
26 164 4 3 -1.0 1.00
27 168 6.5 4 -2.5 6.25
27 170 6.5 5 -1.5 2.25
28 174 7 7.5 0.5 0.25
Total 26.50
r
S
= 1
6 26,50
8(8
2
1)
,
= 1
159
504
,
1 0,316 ,
0,684 .
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
t
_
n
A
n
B
n(n 1)
,
donde x
A
y x
B
corresponden a las medias de cada grupo,
t
es la desviacion
estandar de todos los datos, n
A
y n
B
son los respectivos tama nos de los
grupos, y n es el total de observaciones.
Se utiliza para saber si las personas adecuada son las que obtienen las
respuestas correctas.
Ejemplo 1.7.7 Consideremos los datos de disminucion de grasa, en por-
centaje, seg un si realizaron dieta o no.
Respuesta
SI 17 18 23 16 21 14 22 15
NO 11 10 17 23 13 20 18
En este caso debemos determinar las respectivas medias de cada grupo y
la desviacion estandar total.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
8 7
15(15 1)
,
=
2,3
4,13
_
56
210
,
0,557
_
0,2667 ,
0,287 .
En este caso, aunque el valor de r
pb
es mayor que cero, no es muy claro que
exista una relacion lineal entre la dieta y la disminucion de grasa.
1.7.6. Correlacion Phi ().
Permite relacionar dos variables dicotomicas del tipo nominal.
Sea la tabla bidimensional:
Variable 2
Atributo 1 Atributo 2 Total
Variable 1 Atributo 1 a b a +b
Atributo 2 c d c +d
Total a +c b +d
Entonces la forma del coeciente esta dado por:
=
a d b c
w x y z
,
donde w = a + c, x = b + d, y = a +b y z = c + d.
Ejemplo 1.7.8 Consideremos los datos de participacion en la empresa y
nivel de reconocimiento.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
50 100 28 122
,
=
1408 408
17080000
,
1000
4132,796
,
0,2420 .
Interpretacion:
Si el coeciente resulta ser positivo, entonces los valores iguales estan
asociados entre s, reejando una relacion directa entre ambos atributos
de ambas variables.
Si el coeciente resulta ser negativo, entonces existen relaciones opues-
tas entre los atributos de las variables.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
ITULO 1. ESTAD
ITULO 1. ESTAD
ITULO 1. ESTAD
ITULO 1. ESTAD
ITULO 1. ESTAD
X
=
1
65
(2 15 + 4 38 + 6 12) ,
=
254
65
,
= 3,91 .
d) Directamente de la denicion de mediana se puede concluir que
bajo este valor esta el 50 % de las observaciones, es decir, 65
(50 %/100 %) = 32,5 33 alumnos. Para determinar el valor de
la mediana, realizamos el calculo previo de 65/2 = 32,5, que esta
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
X
=
1
950
(955 140 + 1020 350 + 1125 300 + 1300 160) ,
=
1036200
950
,
= 1090,74 UF .
b)
1150 = 1050 +
_
950
100
490
_
150
300
,
(1150 1050) =
_
950
100
490
_
150
300
,
100
300
150
=
alpha 950
100
490 ,
200 + 490 =
950
100
,
690
100
950
= ,
= 72,63 % .
Luego el 72,63 % de los departamentos tiene un precio inferior a
1150, entonces 950 (72,63 %/100 %) = 690 departamentos.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
2
X
=
1
950
_
(140 955
2
+ 350 1020
2
+ 300 1125
2
+ 160 1300
2
) 950 1090,74
2
_
,
=
1
950
(1141911000 1130228060) ,
=
11682940
950
,
= 12297,83 (UF)
2
,
X
= 110,90 UF .
6. La siguiente tabla muestra el gasto anual en electricidad (en millones
de pesos) de 200 personas.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
X
=
339,5
200
= 1,70 millones de pesos.
b)
1,8 = 1,6 +
_
200
100
90
_
0,4
45
,
1,8 1,6 =
_
200
100
90
_
0,4
45
,
0,2
45
0,4
=
200
100
90 ,
22,5 + 90 =
200
100
,
= 112,5
100
200
,
= 56,25 % .
Luego el 56,25 % de las personas tiene un gasto inferior a 1.8 mil-
lones, entonces 100 %56,25 % = 43,75 % tiene un gasto superior
a 1.8 millones, as 200 (43,75 %/100 %) = 87,5 88 personas.
c)
Mo(X) = 1,0 +
_
70 20
(70 20) + (70 45)
_
0,6 ,
= 1,0 +
50
50 + 25
0,6 ,
= 1,0 +
50
75
0,6 ,
= 1,0 + 0,4 ,
= 1,4 millones de pesos.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
X
=
1106
250
= 4,42 millones de pesos.
b)
2
X
=
1
250
_
5154 250 4,42
2
_
,
=
269,9
250
,
= 1,08 (millones de pesos)
2
,
X
= 1,34 millones de pesos.
c)
3,2 = 2,5 +
_
250
100
27
_
1,0
19
,
=
_
(3,2 2,5)
19
1,0
+ 27
_
100
250
,
= (13,3 + 27)
100
250
,
= 16,12 % .
d) Para el valor modal, primero identicamos el intervalo con la may-
or frecuencia observada.
Mo(X) = 4,5 +
_
179 25
(179 25) + (179 0)
_
1,0 ,
= 4,5 +
154
154 + 179
1,0 ,
= 4,5 +
154
333
,
= 4,5 + 0,46 ,
= 4,96 millones de pesos.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
X
=
548
30
= 18,27 millones de pesos.
b)
19 = 18 +
_
30
100
16
_
7
7
,
= ((19 18)1 + 16)
100
30
,
= 56,67 % .
Entonces el 56,67 % de las familias tienen un gasto inferior a
$19000 mensuales en locomocion, as el (100 %56,67 %) = 43,33 %
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
2
X
=
1
30
(11653,5 30 18,27
2
) =
1639,71
30
= 54,66 (miles de pesos)
2
e)
P
75
= 18 +
_
30 75
100
16
_
7
7
,
= 18 + (22,5 16) ,
= 24,5 miles de pesos.
9. En una encuesta realizada a 200 personas sobre su edad se registraron
los siguientes resultados.
Edad N umero de personas
18-21 16
21-27 42
27-30
30-35 25
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
X
=
5467
200
= 27,34 a nos.
b)
Me(X) = 27 +
_
200 50
100
58
_
3
117
,
= 27 + (100 58)
3
117
,
= 27 + 1,08 ,
= 28,08 a nos.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
2
X
=
1
200
(151715,5 200 27,34
2
) =
2220,38
200
= 11,10 (a nos)
2
,
X
= 3,33 a nos.
d) Primero determinaremos el porcentaje de personas que se encuen-
tra en el intervalo, para ello determinaremos el porcentaje de per-
sonas que estan por bajo los 31 a nos y luego lo restaremos con
el porcentaje que deja por bajo los 25 a nos, para posteriormente
determinar la cantidad de personas.
31 = 30 +
_
200
100
175
_
5
25
,
=
_
(31 30)
25
5
+ 175
_
100
200
,
= 180
100
200
,
= 90 % .
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
X
=
7563,5
322
= 23,49 miles de pesos.
b)
30 = 28 +
_
322
100
196
_
4
70
,
=
_
(30 28)
70
4
+ 196
_
100
322
,
= (35 + 196)
100
322
,
= 71,74 % .
Entonces, el 71,74 % de los entrevistados gasta menos de $30000 al
mes en diversion, as el 28,26 % gasta mas de $30000 en diversi on,
y estos son 322 (28,26 %/100 %) = 91 jovenes.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
2
X
=
1
322
(214772,25 322 23,49
2
) ,
=
37099,06
322
,
= 115,21 (miles de pesos)
2
,
X
= 10,73 miles de pesos.
C.V.(X) =
10,73
23,49
100 % = 45,7 % .
11. Las utilidades en millones de pesos que tienen dos empresas, estan
relacionadas con el n umero de proyectos que realizan anualmente, la
siguiente tabla muestra las utilidades de los ultimos a nos de ambas
empresas.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
E
1
=
1822,5
241
,
= 7,56 millones de pesos.
E
2
=
794,15
116
,
= 6,85 millones de pesos.
2
E
1
=
1
241
_
14246,91 241 7,56
2
_
,
=
472,89
241
,
= 1,96 (millones de pesos)
2
: .
2
E
2
=
1
116
_
7284,85 116 6,85
2
_
,
=
1841,84
116
,
= 15,88 (millones de pesos)
2
.
La empresa 2 presenta una mayor variabilidad en sus utilidades.
b) Sea E: utilidad de las empresas, en millones de pesos.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
1,96
7,56
100 % = 18,5 %, C.V.(E
2
) =
15,88
6,82
100 % = 58,2 %.
Por propiedades de la varianza y la media se tiene que luego de
los ajustes los nuevos coecientes de variaci on para las empresas
son:
C.V.(E
1
) =
(1 + 0,07)
1,96
(1 + 0,07) 7,56
100 % =
1,07
1,96
1,07 7,56
100 % =
1,96
7,56
100 % = 18,5 %,
C.V.(E
2
) =
(1 0,06)
15,88
(1 0,06) 6,82 + 3
100 % =
0,94
15,88
0,94 6,82 + 3
100 % =
3,74
9,41
100 % = 39,7 %.
12. La siguiente tabla muestra la distribucion del nivel de ingresos, en mil-
lones de pesos, de un grupo de Profesionales seg un su sexo.
Sueldo mensual Sexo
(millones de pesos) Hombres Mujeres
0.4-0.6 2 3
0.6-0.8 8 2
0.8-1.2 9 4
1.2-1.5 10 6
1.5-1.8 5 3
1.8-2.0 2 1
a) Cuales son los ingresos medios de hombres y mujeres?
b) Que cantidad de mujeres tiene un ingreso entre $650000 y $1250000?
c) Comparativamente, Quienes tiene sueldos mas homogeneos?
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
H
=
41,15
36
= 1,143 millones de pesos.
M
=
21,75
19
= 1,145 millones de pesos.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
2
H
=
1
36
(52,48 36 1,143
2
) =
5,448
36
= 0,151 (millones de pesos)
2
,
H
= 0,389 millones de pesos.
2
M
=
1
19
(28,45 19 1,145
2
) =
3,541
19
= 0,186 (millones de pesos)
2
,
H
= 0,431 millones de pesos.
C.V.(H) =
0,389
1,143
100 % = 34,0 % , C.V.(M) =
0,431
1,145
100 % = 37,6 .
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
H
= (1 + 0,03)1,143 = 1,03 1,143 = 1,177 millones de pesos. ,
M
= (1 + 0,05)1,145 + 0,01 = 1,05 1,145 + 0,01 = 1,212 millones de pesos.
13. Las demanda mensual de cajas (X) de cierto producto en los superme-
rcados de dos comunas se resume en la siguiente tabla.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
X|A
=
50 12 + 85 21 + 115 36 + 140 29
98
=
10585
98
= 108,01 cajas mensuales.
X|B
=
50 5 + 85 8 + 115 19 + 140 10
42
=
4515
42
= 107,50 cajas mensuales.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
2
X|A
=
1
98
_
(50
2
12 + 85
2
21 + 115
2
36 + 140
2
29) 98 108,01
2
_
,
=
1
98
(1226225 1143283,69) ,
=
82941,31
98
,
= 846,34 (cajas mensuales)
2
,
X|A
= 29,09 cajas mensuales.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
2
X|B
=
1
42
_
(50
2
5 + 85
2
8 + 115
2
19 + 140
2
10) 42 107,50
2
_
,
=
1
42
(517575 485362,50) ,
=
32212,50
42
,
= 766,96 (cajas mensuales)
2
,
X|B
= 27,69 cajas mensuales.
C.V.(X|A) =
29,09
108,01
100 % = 26,9 % C.V.(X|B) =
27,69
107,50
100 % = 25,8 % .
La Comuna B tiene una demanda mas homogenea en comparacion
a la Comuna A.
e)
X|A
= (1 0,05) 108,01 7 = 95,61 cajas mensuales.
X|B
= (1 + 0,15) 107,50 = 123,63 cajas mensuales.
14. En una encuesta realizada a 800 familias, se les consulta sobre dos
puntos: si estan inscritos en los registros electorales y sobre el nivel de
ingresos, de donde se obtiene la siguiente tabla.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
X|Y =SI
=
250 120 + 550 90 + 850 210
420
=
258000
420
= 614,29 miles de pesos.
X|Y =NO
=
250 200 + 550 150 + 850 30
380
=
158000
380
= 415,79 miles de pesos.
El ingreso medio de las familias que estan inscritas en los registros
electorales es mayor que las familas no inscritas.
b)
500 = 400 +
_
380
100
200
_
300
150
=
_
(500 400)
150
300
+ 200
_
100
380
= 250
100
380
= 65,79
El 65,79 % de las familias no inscritas en los registros electorales
tiene un ingreso menor a $500000, entonces, el 34,21 % tiene un
ingreso superior, es decir, 380 (34,21 %/100 %) = 130 familias.
c)
2
X|Y =SI
=
1
420
_
(250
2
120 + 550
2
90 + 850
2
210) 420 614,29
2
_
,
=
1
420
(186450000 158487925,7) ,
=
27962074,28
420
,
= 66576,37 (miles de pesos)
2
,
X|Y =SI
= 258,02 miles de pesos.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
2
X|Y =NO
=
1
380
_
(250
2
200 + 550
2
150 + 850
2
30) 380 415,79
2
_
,
=
1
380
(79550000 65694903,16) ,
=
13855096,84
380
,
= 36460,78 (miles de pesos)
2
,
X|Y =NO
= 190,95 miles de pesos.
C.V.(X|Y = SI) =
258,02
614,29
100 % = 42,0 % C.V.(X|Y = NO) =
190,95
415,79
100 % = 45,9 % .
Las familias inscritas en los registros electorales tienen sueldos
mas homogeneos que las familias no inscritas en los registros elec-
torales.
15. El siguiente cuadro muestra el n umero de horas semanales dedicadas
al estudio de un grupo de alumnos y la nota nal que obtuvieron al
termino del curso.
Horas de estudio Nota nal
1-3 3-5 5-7
0-2 3 1 4
2-4 5 5 6
4-6 6 4 9
6-8 1 4 7
a) Determine el numero medio de horas de estudio y de nota nal.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
X
=
1 8 + 3 16 + 5 19 + 4 12
55
,
=
235
55
,
= 4,27 horas.
Y
=
2 15 + 4 14 + 6 26
55
,
=
242
55
,
= 4,40 .
b)
Mo(X) = 4 +
_
19 16
(19 16) + (19 12)
_
2 ,
= 4 +
3
3 + 7
2 ,
= 4 + 0,6 ,
= 4,6 horas.
c)
4 = 3 +
_
55
100
15
_
2
14
,
=
_
(4 3)
14
2
+ 15
_
100
55
,
= 22
100
55
,
= 40 % .
Como el 40 % de las observaciones tiene una nota nal inferior
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
X|Y >5
=
14+36+59+77
26
=
116
26
= 4,46 horas.
f ) .
x
i
Y |X < 4
2 1 3 3 + 5 = 8
4 3 5 1 + 5 = 6
6 5 7 4 + 6 = 10
Total 24
Y |X<4
=
28+46+610
24
=
100
24
= 4,17
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
2
X
=
1
55
_
(1
2
8 + 3
2
16 + 5
2
19 + 7
2
12) 55 4,27
2
_
,
=
1
55
(1215 1002,81) ,
= 3,86 (horas)
2
,
X
= 1,96 horas.
2
Y
=
1
55
_
(2
2
15 + 4
2
14 + 6
2
26) 55 4,40
2
_
,
=
1
55
(1220 1064,80) ,
= 2,82 ,
Y
= 1,68 .
C.V.(X) =
1,96 horas
4,27 horas
100 % = 45,9 % C.V.(Y ) =
1,68
4,40
100 % = 38,2 % .
Como el C.V.(X) > C.V.(Y ) los alumnos son mas homogeneos en
la nota que obtuvieron que en las horas de estudio.
h)
XY
=
1
55
((1 3 2 + 1 1 4 + 1 4 6 + 3 5 2 + 3 5 4 + 3 6 6 ,
+5 6 2 + 5 4 4 + 5 9 6 + 7 1 2 + 7 4 4 + 7 7 6) ,
55 4,27 4,40) ,
=
1
55
(1062 55 4,27 4,40) ,
=
28,66
55
,
= 0,52 ,
r
XY
=
0,52
1,96 1,68
= 0,158 .
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
P
=
4 90 + 2 85 + 5 91 + 6 100 + 3 95
20
=
1870
20
= 93,5 US$ ,
G
=
3 93 + 2 112 + 3 86 + 4 95 + 1 98
13
=
1239
13
= 95,31 US$ .
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
N|P
=
851+901+912+951+1002
7
,
=
652
7
,
= 93,14 US$ ,
I|P
=
851+903+913+952+1004
13
,
=
1218
13
,
= 93,69 US$ .
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
P|N
= 93,14 US$ ,
G|N
=
86 2 + 93 0 + 95 2 + 98 1 + 112 1
6
=
572
6
= 95,33 US$ .
2
P|N
=
1
7
_
(85
2
1 + 90
2
1 + 91
2
2 + 95
2
1 + 100
2
2) 7 93,14
2
_
,
=
1
7
(60912 60725,42) ,
= 26,65 (US$)
2
,
P|N
= 5,76 US$ .
2
G|N
=
1
6
_
(86
2
2 + 93
2
0 + 95
2
2 + 98
2
1 + 112
2
1) 6 95,33
2
_
,
=
1
6
(54990 54526,85) ,
= 77,19 (US$)
2
,
G|N
= 8,79 US$ .
C.V.(P|N) =
5,76 US$
93,14 US$
100 % = 5,5 % , C.V.(G|N) =
8,79 US$
95,33 US$
100 % = 9,2 % .
Los calefactores Nacionales a Parana tienen precios mas homogeneos
que los calefactores Nacionales a Gas.
e)
Mo
1
(G|N) = 86 US$ , Mo
2
(G|N) = 95 US$ .
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
X
=
250 24 + 475 28 + 850 14
66
,
=
31200
66
,
= 472,73 miles de pesos.
c)
X|Y =U
=
250 3 + 475 5 + 850 5
13
=
7375
13
= 567,31 miles de pesos.
d)
X|Y =M
=
250 9 + 475 8 + 850 2
19
=
7750
19
= 407,89 miles de pesos.
X|Y =TP
=
250 12 + 475 15 + 850 7
34
=
16075
34
= 472,79 miles de pesos.
2
X|Y =M
=
1
19
_
(250
2
9 + 475
2
8 + 850
2
2) 19 407,89
2
_
,
=
1
19
(3812500 3161110,79) ,
= 34283,64 (miles de pesos)
2
,
X|Y =M
= 185,16 miles de pesos.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
2
X|Y =TP
=
1
34
_
(250
2
12 + 475
2
15 + 850
2
7) 34 472,79
2
_
,
=
1
34
(9191875 7600033,06) ,
= 46818,89 (miles de pesos)
2
,
X|Y =TP
= 216,38 miles de pesos.
2
X|Y =U
=
1
13
_
(250
2
3 + 475
2
5 + 850
2
5) 13 567,31
2
_
,
=
1
13
(4928125 4183928,27) ,
= 57245,90 (miles de pesos)
2
,
X|Y =M
= 239,26 miles de pesos.
C.V.(M) =
185,16
407,89
100 % = 45,4 % , C.V.(TP) =
216,38
472,79
100 % = 45,8 % , C.V.(U) =
239,26
567,31
100 % = 42,2 % .
Los empleados con educacion Universitaria tienen sueldos mas ho-
mogeneos, en comparacion a los otros trabajadores.
18. Una empresa dedicada a la venta de departamentos en la Quinta region,
resume en la siguiente tabla los valores de departamentos seg un sus
contribuciones.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
X
=
12,5 18 + 17,5 13 + 25 19 + 35 9 + 45 16
75
,
=
1764,5
75
= 23,53 millones de pesos.
Y
=
75 17 + 150 16 + 250 20 + 350 22
75
,
=
16375
75
= 218,33 miles de pesos.
b)
5 + 2 + 6 + 9
75
100 % =
22
75
100 % = 29,3 % .
c) .
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
XY
=
1
75
((12,5 10 75 + 12,5 4 150 + 12,5 3 250 + 12,5 1 350
+17,5 3 75 + 17,5 6 150 + 17,5 1 250 + 17,5 3 350
+25 4 75 + 25 3 150 + 25 5 250 + 25 7 350
+35 0 75 + 35 2 150 + 35 5 250 + 35 2 350
+45 0 75 + 45 1 150 + 45 6 250 + 45 9 350)
75 23,53 218,33) ,
=
1
75
(479062,5 75 23,53 218,33) ,
=
93764,63
75
,
= 1250,20 .
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
2
X
=
1
75
`
(12,5
2
18 + 17,5
2
13 + 25
2
19 + 35
2
9 + 45
2
16) 17 23,53
2
,
=
1
75
(62093,75 41524,57) ,
=
20569,18
75
,
= 274,26 (millones de pesos)
2
,
X
= 16,56 millones de pesos.
2
Y
=
1
75
`
(75
2
17 + 150
2
16 + 250
2
20 + 350
2
22) 75 218,33
2
,
=
1
75
(4400625 3575099,17) ,
=
825525,83
75
,
= 11007,01 (miles de pesos)
2
,
Y
= 104,91 miles de pesos.
r
XY
=
1250,20
16,56 104,91
= 0,720 .
En este caso existe una mediana asociacin lineal directa entre las variables.
19. En un curso de 50 alumnos, 15 de ellos obtuvieron una nota nal menor
a 3.5 y solo 4 de ellos una nota superior a 6.2.
a) Determine la nota media y su variabilidad.
b) Supera la nota mediana a la mas frecuente?
c) Cuantos alumnos aprobaron el curso?
Des.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
X
=
2,25 15 + 4,85 31 + 6,6 4
50
=
210,5
50
= 4,21 ,
2
X
=
1
50
_
(2,25
2
15 + 4,85
2
31 + 6,6
2
4) 50 4,21
2
_
,
=
1
50
(979,38 886,21) ,
=
93,17
50
,
= 1,86 .
b)
Me(X) = 3,5 +
_
50 50
100
15
_
2,7
31
,
= 3,5 + (25 15)
2,7
31
,
= 3,5 + 0,87 ,
= 4,37 ,
Mo(X) = 3,5 +
_
31 15
(31 15) + (31 4)
_
2,7 ,
= 3,5 +
16
16 + 27
2,7 ,
= 3,5 + 1,0 ,
= 4,5 .
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
X
=
350 15 + 550 11 + 750 18
44
=
24800
44
,
= 563,64 miles de pesos.
Y
=
32,5 10 + 37,5 14 + 43 20
44
=
1710
44
,
= 38,86 horas.
b)
X|Y >40
=
350 5 + 550 6 + 750 9
20
,
=
11800
20
= 590 miles de pesos.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
Y |450<X<650
=
32,5 3 + 37,5 2 + 43 6
11
,
=
430,5
11
= 39,14 horas.
d)
XY
=
1
44
((350 10 32,5 + 350 4 37,5 + 350 5 43
+550 3 32,5 + 550 2 37,5 + 550 6 43
+750 1 32,5 + 750 8 37,5 + 750 9 43) ,
44 563,64 38,86) ,
=
1
44
(972400 44 563,64 38,86) ,
=
8665,78
44
,
= 196,95 .
2
X
=
1
44
_
(350
2
15 + 550
2
11 + 750
2
18) 44 563,64
2
_
,
=
1
44
(15290000 13978362,18) ,
=
1311637,82
44
,
= 29809,95 (miles de pesos)
2
,
X
= 172,66 miles de pesos.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
2
Y
=
1
44
_
(32,5
2
10 + 37,5
2
14 + 43
2
20) 44 38,86
2
_
,
=
1
44
(67230 66444,38) ,
=
785,62
44
,
= 17,85 (horas)
2
,
Y
= 4,23 horas.
r
XY
=
196,95
172,66 4,23
= 0,270 .
21. La siguiente tabla resume el resultados de 54 postulantes a un cargo
ejecutivo de una gran empresa, seg un sus edades.
Puntajes Edad (Y)
(X) 25-28 28-32
30-45 5 12
45-50 7 10
50-65 11 9
a) Calcule el valor medio de los puntajes y de las edades.
b) Determine el valor mas frecuente de la edad dado que los postu-
lantes obtuvieron menos de 50 puntos.
c) Determine el puntaje que obtuvieron como maximo el 25 % de los
mas bajos, dado que tienen menos de 28 a nos.
d) Determine el coeciente de correlacion lineal entre las variables.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
X
=
37,5 17 + 47,5 17 + 57,5 20
54
=
2595
54
= 48,06 puntos.
Y
=
26,5 23 + 30 31
54
=
1539,5
54
= 28,51 a nos.
b) .
Y |X < 50
25 28 5 + 7 = 12
28 32 12 + 10 = 22
Total 34
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
XY
=
1
54
((37,5 5 26,5 + 37,5 12 30
+47,5 7 26,5 + 47,5 10 30
+57,5 11 26,5 + 57,5 9 30)
54 48,06 28,51) ,
=
1
54
(73816,25 54 48,06 28,51) ,
=
174,04
54
,
= 3,22 .
2
X
=
1
54
_
(37,5
2
17 + 47,5
2
17 + 57,5
2
20) 54 48,06
2
_
,
=
1
54
(128387,50 124727,23) ,
=
3660,27
54
,
= 67,78 (puntos)
2
,
X
= 8,23 puntos.
2
Y
=
1
54
_
(26,5
2
23 + 30
2
31) 54 28,51
2
_
,
=
1
54
(44051,75 43892,29) ,
=
159,46
54
,
= 2,95 (a nos)
2
,
Y
= 1,72 a nos.
r
XY
=
3,22
8,23 1,72
= 0,227 .
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
Y |X>22
=
70 17 + 80 30
47
=
3590
47
= 76,41 Kgrs.
c)
Y
=
70 23 + 80 41
64
=
4890
64
= 76,41 Kgrs.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
Y |X<25
=
70 13 + 80 25
38
=
2910
38
= 76,58 Kgrs.
El peso medio de todos los alumnos es menor que el peso de los
alumnos menores de 25 a nos.
d)
X
=
20 17 + 23,5 21 + 26,5 26
64
=
1522,5
64
= 23,79 a nos.
XY
=
1
64
((20 6 70 + 20 11 80
+23,5 7 70 + 23,5 14 80
+26,5 10 70 + 26,5 16 80)
64 23,79 76,41)
=
1
64
(116305 64 23,79 76,41)
=
33,81
64
= 0,528
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
2
X
=
1
64
_
(20
2
17 + 23,5
2
21 + 26,5
2
26) 64 23,79
2
_
=
1
64
(36655,75 36221,70)
=
434,05
64
= 6,78 (a nos)
2
X
= 2,60 a nos.
2
Y
=
1
64
_
(70
2
23 + 80
2
41) 64 76,41
2
_
=
1
64
(375100 373663,24)
=
1436,76
64
= 22,45 (Kgrs.)
2
Y
= 4,74 kgrs.
r
XY
=
0,528
2,60 4,74
= 0,056
Existe una baja asociacion lineal inversa entre las variables.
23. La siguiente tabla muestra los puntajes (X) obtenidos por un grupo de
alumnos de un colegio seg un el tramo de edad (Y ).
Puntajes Edad (Y)
(X) 9-11 11-14 14-16
0-30 3 6 10
30-50 8 4 11
50-70 9 7 5
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
X
=
15 19 + 40 23 + 60 21
63
=
2465
63
= 39,13 puntos.
Y
=
10 20 + 12,5 17 + 15 26
63
=
802,5
63
= 12,74 a nos.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
2
X
=
1
63
_
(15
2
19 + 40
2
23 + 60
2
21) 63 39,13
2
_
,
=
1
63
(116675 96462,88) ,
=
20212,12
63
= 320,83 (puntos)
2
,
X
= 17,91 puntos.
2
Y
=
1
63
_
(10
2
20 + 12,5
2
17 + 15
2
26) 63 12,74
2
_
,
=
1
63
(10506,25 10225,38) ,
=
280,87
63
,
= 4,46 (a nos)
2
,
Y
= 2,11 a nos.
c)
XY
=
1
63
((15 3 10 + 15 6 12,5 + 15 10 15
+40 8 10 + 40 4 12,5 + 40 11 15
+60 9 10 + 60 7 12,5 + 60 5 12,5)
63 39,13 12,74) ,
=
1
63
(30775 63 39,13 12,74) ,
=
631,52
63
,
= 10,02 .
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
Y |X>30
=
10 17 + 12,5 11 + 15 16
44
=
547,5
44
= 12,44 a nos.
e) .
x
i
X|Y > 11
15 0 30 6 + 10 = 16
40 30 50 4 + 11 = 15
60 50 70 7 + 5 = 12
Total 43
X|Y >11
=
15 16 + 40 15 + 60 12
43
=
1560
43
= 36,28 puntos.
24. La siguiente tabla resume las horas semanales que un grupo de ni nos
pasa frente al computador (Y ) respecto a su edad (X).
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
X
=
13 42 + 15 43
85
=
1191
85
= 14,01 a nos.
Y
=
3 25 + 5 29 + 7 31
85
=
437
85
= 5,14 horas.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
X|Y <6
=
13 27 + 15 27
54
=
756
54
= 14 a nos.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
XY
=
1
85
((13 13 3 + 13 14 5 + 13 15 7
+15 12 3 + 15 15 5 + 15 16 7)
85 14,01 5,14)
=
1
85
(6127 85 14,01 5,14) ,
=
6,03
85
,
= 0,071 (a nos) (horas).
2
X
=
1
85
_
(13
2
42 + 15
2
43) 85 14,01
2
_
,
=
1
85
(16773 16683,81) ,
=
89,19
85
,
= 1,05 (a nos)
2
,
X
= 1,02 a nos.
2
Y
=
1
85
_
(3
2
25 + 5
2
29 + 7
2
31) 85 5,14
2
_
,
=
1
85
(2469 2245,67) ,
=
223,33
85
,
= 2,63 (horas)
2
,
Y
= 1,62 horas.
r
XY
=
0,071
1,02 1,62
= 0,043 .
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
X
=
3 10 + 7,5 9 + 12,5 16 + 20 10
45
,
=
497,5
45
= 11,06 miles de pesos.
b)
12 = 10 +
_
45
100
9
_
5
16
,
=
_
(12 10)
16
5
+ 9
_
100
45
,
= (6,4 + 9)
100
45
,
= 15,4
100
45
,
= 34,22 % .
El 34,22 % de las familias gasta mensualmente menos de $12000,
luego el 65,78 % de las familas gasta mas de $12000 mensualmente.
c)
X|Y =SA
=
3 3 + 7,5 4 + 12,5 6 + 20 4
17
,
=
194
17
= 11,41 miles de pesos.
d)
X|Y =CA
=
3 7 + 7,5 5 + 12,5 10 + 20 6
28
,
=
303,5
28
= 10,84 miles de pesos.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
2
X|Y =CA
=
1
28
_
(3
2
7 + 7,5
2
5 + 12,5
2
10 + 20
2
6) 28 10,84
2
_
,
=
1
28
(4306,75 3290,16) ,
=
1016,59
28
,
= 36,31 (miles de pesos)
2
,
X|Y =CA
= 6,03 miles de pesos.
2
X|Y =SA
=
1
17
_
(3
2
3 + 7,5
2
4 + 12,5
2
6 + 20
2
4) 17 11,41
2
_
,
=
1
17
(2789,50 2213,20) ,
=
576,30
17
,
= 33,90 (miles de pesos)
2
,
X|Y =SA
= 5,82 miles de pesos.
CV
X|Y =CA
=
6,03
10,84
100 % = 55,6 % .
CV
X|Y =SA
=
5,82
11,41
100 % = 51,0 % .
Los gastos en diarios y revistas de las familias sin automovil son
mas homogeneos que las familias con automovil.
26. La siguiente tabla muestra las alturas y pesos de un grupo de jovenes
deportistas.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
X|Y <17
=
1,45 14 + 1,60 20 + 1,75 12
46
=
73,3
46
= 1,59 mt.
c)
15 + 17
88
=
32
88
= 0,3636100 .
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
X
=
1,45 24 + 1,60 35 + 1,75 29
88
=
141,55
88
= 1,61 mt.
Y
=
15 46 + 18,5 42
88
=
1467
88
= 16,67 a nos.
2
X
=
1
88
_
(1,45
2
24 + 1,60
2
35 + 1,75
2
29) 88 1,61
2
_
,
=
1
88
(228,87 228,10) ,
=
0,77
88
,
= 0,0087 (mt)
2
,
X
= 0,093 mt.
2
Y
=
1
88
_
(15
2
46 + 18,5
2
42) 88 16,67
2
_
,
=
1
88
(24724,50 24454,22) ,
=
270,28
88
,
= 3,07 (a nos)
2
,
X
= 1,75 a nos.
27. La tabla siguiente muestra los litros de alcohol (X) utilizados en un pro-
ceso de limpieza de ciertos ltos, por algunas farmacias y el presupuesto
disponible de ellas (Y), en miles de pesos.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
ITULO 1. ESTAD
X
=
3,5 33 + 9,0 11 + 13,5 19
63
=
471
63
= 7,48 litros.
Y
=
47,5 29 + 85 16 + 145 18
63
=
5347,5
63
= 84,88 miles de pesos.
b) .
x
i
X|Y < 110
3,5 1 6 18 + 7 = 25
9,0 6 12 4 + 1 = 5
13,5 12 15 7 + 8 = 15
Total 45
X|Y <110
=
3,5 25 + 9,0 5 + 13,5 15
45
=
335
45
= 7,44 litros.
c) .
y
i
Y |X > 6
47,5 35 60 4 + 7 = 11
85 60 110 1 + 8 = 9
145 110 180 6 + 4 = 10
Total 30
11
30
= 0,367
El 36,7 % de las farmacias que utilizan mas de 6 litros de alcohol
en la limpieza de sus ltros, tiene un presupuesto inferior a $60000.
Carlos Bustos-Lopez
CAP
ITULO 1. ESTAD
XY
=
1
63
((3,5 18 47,5 + 3,5 7 85 + 3,5 8 145
+9,0 4 47,5 + 9 1 85 + 9 6 145
+13,5 7 47,5 + 13,5 8 85 + 13,5 4 145)
63 7,48 84,88) ,
=
1
63
(40938,75 63 7,48 84,88) ,
=
939,90
63
,
= 14,92 .
2
X
=
1
63
_
(3,5
2
33 + 9
2
11 + 13,5
2
19) 63 7,48
2
_
,
=
1
63
(4758 3524,88) ,
=
1233,12
63
,
= 19,57 (litros)
2
,
X
= 4,42 litros.
2
Y
=
1
63
_
(47,5
2
29 + 85
2
16 + 145
2
18) 63 84,88
2
_
,
=
1
63
(559481,25 453890,71) ,
=
105590,54
63
,
= 1676,04 (miles de pesos)
2
,
Y
= 40,94 miles de pesos.
r
XY
=
14,92
4,42 40,94
= 0,082 .
Carlos Bustos-Lopez
Captulo 2
Regresion Lineal
2.1. Modelo de Regresion Lineal
La idea fundamental de los modelos de regresion es, poder representar
de la mejor forma posible el comportamiento de los datos. Los datos tienen
distintos comportamientos dependiendo del tipo de variable que se este in-
vestigando. Si se observan dos variables al mismo tiempo, se puede estar
interesado en el comportamiento conjunto de estas variables y a traves del
coecientes de correlacion podriamos conocer el tipo de asociacion que exis-
te entre ellas. El modelo matematico mas simple que intenta representar el
comportamiento de los datos es el modelo lineal, el cual parte de la base que
es posible ajustar una linea recta a las observaciones, siendo esta ecuacion
una forma de resumir y representar la informacion. El modelo de regresion
lineal simple en la versi on frecuentista, considera las observaciones de pares
ordenados (x
i
, y
i
), con i =, . . . , n. Para el modelo
y =
0
+
1
x + ,
133
CAP
ITULO 2. REGRESI
ON LINEAL 134
en general, el interes se concentra en la estimacion de los parametros =
(
0
,
1
),
los cuales se pueden obtener mediante los EMCO
1
al resolver la equacion:
mn
n
i=1
2
i
= mn
n
i=1
(y
i
1
x
i
)
2
,
derivando con respecto a
0
y
1
e igualando a cero se obtienen:
0
=
Y
1
X ,
1
=
S
XY
S
XX
,
donde S
XY
=
n
i=1
(x
i
X)(y
i
Y ) y S
XX
=
n
i=1
(x
i
X)
2
, siendo (
X,
Y ),
las medias muestrales respectivas. De esa forma el modelo de regresion lineal
estimado esta dado por:
y
i
=
0
+
1
x
i
,
para todo i = 1, . . . , n.
Ademas, se puede determinar el grado de asociacion representada por el
modelo de regresion lineal estimado para las observaciones, este coeciente
es denominado R
2
y corresponde exactamente al cuadrado del coeciente de
correlacion lineal de Pearson, que ademas puede ser calculado por:
R
2
= (r
XY
)
2
=
S
2
XY
S
XX
S
Y Y
,
donde S
Y Y
=
n
i=1
(y
i
Y )
2
, y su interpretaci on es que el modelo explica a
los observaciones (o representa) en un R
2
100 %. Con un poco de algebra
se puede llegar a las siguientes expresiones simplicadas de S:
S
XY
=
n
i=1
x
i
y
i
n
X
Y , S
XX
=
n
i=1
x
2
i
n
X
2
, S
Y Y
=
n
i=1
y
2
i
n
Y
2
.
1
Estimadores de mnimos cuadrados ordinarios.
Carlos Bustos-Lopez
CAP
ITULO 2. REGRESI
ON LINEAL 135
2.2. Ejercicios Resueltos
1. La siguiente tabla muestra el ujo diario de automoviles (X) en miles,
y su cantidad de partculas que emiten en mg/cm
3
.
X Y
19,09 522,10
27,83 1198,30
39,10 1472,00
39,10 1239,70
39,10 1674,40
55,89 2173,50
55,89 1697,40
76,36 1745,70
a) Determine el modelo de regresion lineal simple asociado.
b) Determine el grado de explicacion del modelo.
c) Para un ujo de 20000 automoviles diarios, Cual sera la cantidad
esperada de particulas en suspencion dadas por este ujo?
d) Determine la cantidad de automoviles que generan 1000 mg/cm
3
en un da.
Des.
Completamos la tabla con las respectivas multiplicaciones y sumas para
determinar los parametros del modelo.
Carlos Bustos-Lopez
CAP
ITULO 2. REGRESI
ON LINEAL 136
X Y XY X
2
Y
2
19,09 522,10 9966,89 364,43 272588,41
27,83 1198,30 33348,69 774,51 1435922,89
39,10 1472,00 57555,20 1528,81 2166784,00
39,10 1239,70 48472,27 1528,81 1536856,09
39,10 1674,40 65469,04 1528,81 2803615,36
55,89 2173,50 121476,92 3123,69 4724102,25
55,89 1697,40 94867,69 3123,69 2881166,76
76,36 1745,70 133301,65 5830,85 3047468,49
352,36 11723,10 564458,34 17803,60 18868504,25
a)
X =
352,36
8
= 44,05
Y =
11723,10
8
= 1465,39
S
XY
= 564458,34 8 44,05 1465,39 = 48054,90
S
XX
= 17803,60 8 44,05
2
= 2280,38
S
Y Y
= 18868504,25 8 1465,39
2
= 1689561,43
1
=
48054,90
2280,38
= 21,07
0
= 1465,39 21,07 44,05 = 537,26
y = 537,26 + 21,07x
b)
R
2
=
48054,90
2
2280,38 1689561,43
= 0,5994
El modelo representa a las observaciones en un 59,94 %.
Carlos Bustos-Lopez
CAP
ITULO 2. REGRESI
ON LINEAL 137
c)
y = 537,26 + 21,07 20
= 958,66 mg/cm
3
.
d)
1000 = 537,26 + 21,07x
x =
1000 537,26
21,07
= 21,96 miles de automoviles.
2. Una empresa desea determinar como la inversion que ha realizado en
publicidad (X) en UF, de los ltimos meses ha afectado la demanda de
su producto (Y ) en miles de unidades. Para tal efecto ha recopilado la
siguiente informacion dque se resume en la tabla.
Carlos Bustos-Lopez
CAP
ITULO 2. REGRESI
ON LINEAL 138
X Y
105,80 27,60
121,90 32,20
85,10 25,30
75,90 29,90
92,00 23,00
92,00 18,40
96,60 39,10
78,20 27,60
66,70 23,00
138,00 34,50
101,20 20,70
94,30 29,90
110,40 34,50
a) Determine un modelo de regresion lineal.
b) La empresa esta interesada en determinar cual debe ser la cantidad
que debe invertir en publicidad de tal forma que espere tener una
venta de 30000 unidades de su producto.
c) Si no quiere invertir mas de 80 UF en publicidad, Cual sera la
cantidad maxima de unidades que esperara vender?
d) Cual es el grado de ajuste del modelo?
Des.
Carlos Bustos-Lopez
CAP
ITULO 2. REGRESI
ON LINEAL 139
X Y XY X
2
Y
2
105,80 27,60 2920,08 11193,64 761,76
121,90 32,20 3925,18 14859,61 1036,84
85,10 25,30 2153,03 7242,01 640,09
75,90 29,90 2269,41 5760,81 894,01
92,00 23,00 2116,00 8464,00 529,00
92,00 18,40 1692,80 8464,00 338,56
96,60 39,10 3777,06 9331,56 1528,81
78,20 27,60 2158,32 6115,24 761,76
66,70 23,00 1534,10 4448,89 529,00
138,00 34,50 4761,00 19044,00 1190,25
101,20 20,70 2094,84 10241,44 428,49
94,30 29,90 2819,57 8892,49 894,01
110,40 34,50 3808,80 12188,16 1190,25
1258,10 365,70 36030,19 126245,85 10722,83
a)
X =
1258,10
13
= 96,78
Y =
365,70
13
= 28,13
S
XY
= 36030,19 13 96,78 28,13 = 638,71
S
XX
= 126245,85 13 96,78
2
= 4483,06
S
Y Y
= 10722,83 13 28,13
2
= 435,97
1
=
638,71
4483,06
= 0,142
0
= 28,13 0,142 96,78 = 14,39
Carlos Bustos-Lopez
CAP
ITULO 2. REGRESI
ON LINEAL 140
y = 14,39 + 0,142x
b)
30 = 14,39 + 0,142x
x =
30 14,39
0,142
= 109,93 UF
c)
y = 14,39 + 0,142 80
= 25,75 miles de unidades.
d)
R
2
=
638,71
2
4483,06 435,97
= 0,2087
El modelo explica a las observaciones en un 20,87 %.
3. En un estudio realizado al contenido de caloras (X) en kcal, respecto al
nivel de grasas (Y ) en g, de cierto producto, se recopilaron los siguientes
datos:
Carlos Bustos-Lopez
CAP
ITULO 2. REGRESI
ON LINEAL 141
X Y
103,50 161,00
46,00 115,00
92,00 138,00
92,00 115,00
108,10 207,00
69,00 126,50
57,50 126,50
46,00 80,50
34,50 92,00
80,50 149,50
a) Determine un modelo de regresion, que permita determinar el
comportamiento de los niveles grasa por caliras.
b) Cuantas caloras contiene 110 g de grasa?
c) Cuantos gramos de grasa se necesitan para tener 100 kcal?
d) Determine el nivel de ajuste del modelo estimado.
Des.
Carlos Bustos-Lopez
CAP
ITULO 2. REGRESI
ON LINEAL 142
X Y XY X
2
Y
2
103,50 161,00 16663,50 10712,25 25921,00
46,00 115,00 5290,00 2116,00 13225,00
92,00 138,00 12696,00 8464,00 19044,00
92,00 115,00 10580,00 8464,00 13225,00
108,10 207,00 22376,70 11685,61 42849,00
69,00 126,50 8728,50 4761,00 16002,25
57,50 126,50 7273,75 3306,25 16002,25
46,00 80,50 3703,00 2116,00 6480,25
34,50 92,00 3174,00 1190,25 8464,00
80,50 149,50 12034,75 6480,25 22350,25
729,10 1311,00 102520,20 59295,61 183563,00
a)
X =
729,10
10
= 72,91
Y =
1311,00
10
= 131,10
S
XY
= 102520,20 10 72,91 131,10 = 6935,19
S
XX
= 59295,61 10 72,91
2
= 6136,93
S
Y Y
= 183563,00 10 131,10
2
= 11690,9
1
=
6935,19
6136,93
= 1,13
0
= 131,10 1,13 72,91 = 48,71
y = 48,71 + 1,13x
Carlos Bustos-Lopez
CAP
ITULO 2. REGRESI
ON LINEAL 143
b)
110 = 48,71 + 1,13x
x =
110 48,71
1,13
= 54,24 kcal.
c)
y = 48,71 + 1,13 100
= 161,71 g.
d)
R
2
=
6935,19
2
6136,93 11690,9
= 0,6704
El modelo tiene un ajuste del 67,04 % de los datos.
4. En un centro hospilatario se ha implementado una nueva campaa de
provencion para disminuir el porcentaje de afecciones respiratorias en
el periodo invernal, para ello han distribuido una serie de folletos ex-
plicativos donde una de las medidas mas importantes es dismincion de
niveles de toxicidad derivados del humo del cigarrillo por lo cual se les
recomienda a las personas que no fumen dentro de su hogar. A contin-
uacion se muestra una tabla con los porcentajes de personas que han
dejado de fumar al interior de sus hogares (X) y el porcentaje de per-
sonas al interior del hogar que han sufrido de afecciones respiratorias
durante el periodo (Y ).
Carlos Bustos-Lopez
CAP
ITULO 2. REGRESI
ON LINEAL 144
X( %) Y ( %)
23,00 43,70
27,60 41,40
29,90 36,80
32,20 34,50
34,50 34,50
39,10 32,20
46,00 32,20
48,30 29,90
50,60 27,60
46,00 29,90
a) Determine si se puede establecer alg un modelo simple que reeje
el comportamiento de estas medidas.
b) Establezca el porcentaje esperado de personas por hogar que ten-
dran alg un problema respiratorio, si el 30 % de ellas ha dejado de
fumar al interior de sus hogares.
c) Si el porcentaje de personas afectadas por problemas respiratorios
ha sido de un 30 %, Cual ha sido el porcentaje de personas que
ha seguido las sugerencias del centro de salud?
d) Cual es el nivel de ajuste del modelo de regresion lineal estimado?
Des.
Carlos Bustos-Lopez
CAP
ITULO 2. REGRESI
ON LINEAL 145
X Y XY X
2
Y
2
23,00 43,70 1005,10 529,00 1909,69
27,60 41,40 1142,64 761,76 1713,96
29,90 36,80 1100,32 894,01 1354,24
32,20 34,50 1110,90 1036,84 1190,25
34,50 34,50 1190,25 1190,25 1190,25
39,10 32,20 1259,02 1528,81 1036,84
46,00 32,20 1481,20 2116,00 1036,84
48,30 29,90 1444,17 2332,89 894,01
50,60 27,60 1396,56 2560,36 761,76
46,00 29,90 1375,40 2116,00 894,01
377,20 342,70 12505,56 15065,92 11981,85
a)
X =
377,20
10
= 37,72
Y =
342,70
10
= 34,27
S
XY
= 12505,56 10 37,72 34,27 = 421,08
S
XX
= 15065,92 10 37,72
2
= 837,94
S
Y Y
= 11981,85 10 34,27
2
= 237,52
1
=
421,08
837,94
= 0,503
0
= 34,27 (0,503) 37,72 = 53,24
y = 53,24 0,503x
Carlos Bustos-Lopez
CAP
ITULO 2. REGRESI
ON LINEAL 146
b)
y = 53,24 0,503 30
= 38,15 %
c)
30 = 53,24 0,503x
x =
30 53,24
0,503
=
23,24
0,503
= 46,20 %
d)
R
2
=
(421,08)
2
837,94 237,52
= 0,8909
El modelo explica el 89,09 % del comportamiento de las observa-
ciones.
5. En un experimento con ratas de laboratorio sobre el nivel de glucosa
en la sangre (Y ), en mg/dL, bajo la administracion de cierto farmaco
(X), en g/Kgr, se recopilo la siguiente informacion
Carlos Bustos-Lopez
CAP
ITULO 2. REGRESI
ON LINEAL 147
X(g/Kgr) Y (mg/dL)
8,28 55,20
7,59 48,30
6,44 50,60
5,98 50,60
6,21 41,40
5,98 52,90
6,21 43,70
6,67 29,90
4,60 20,70
5,98 13,80
8,51 57,50
7,82 48,30
a) Estime el modelo de regresion para la respuesta nivel de glicemia
en la sangre de estas ratas.
b) Determine el nivel de ajuste del modelo estimado.
c) Que dosis es necesaria ser administrada a las ratas para que su
nivel de glucosa sea de 50 mg/dL?
d) Que nivel de glicemia tendra una rata a la que se le administre
8 g/kgr?
Des.
Carlos Bustos-Lopez
CAP
ITULO 2. REGRESI
ON LINEAL 148
X Y XY X
2
Y
2
8,28 55,20 457,06 68,56 3047,04
7,59 48,30 366,60 57,61 2332,89
6,44 50,60 325,86 41,47 2560,36
5,98 50,60 302,59 35,76 2560,36
6,21 41,40 257,09 38,56 1713,96
5,98 52,90 316,34 35,76 2798,41
6,21 43,70 271,38 38,56 1909,69
6,67 29,90 199,43 44,49 894,01
4,60 20,70 95,22 21,16 428,49
5,98 13,80 82,52 35,76 190,44
8,51 57,50 489,33 72,42 3306,25
7,82 48,30 377,71 61,15 2332,89
80,27 512,90 3541,13 551,27 24074,79
a)
X =
80,27
12
= 6,69
Y =
512,90
12
= 42,74
S
XY
= 3541,13 12 6,69 42,74 = 109,96
S
XX
= 551,27 12 6,69
2
= 14,20
S
Y Y
= 24074,79 12 42,74
2
= 2154,30
1
=
109,96
14,20
= 7,74
0
= 42,74 7,74 6,69 = 9,04
Carlos Bustos-Lopez
CAP
ITULO 2. REGRESI
ON LINEAL 149
y = 9,04 + 7,74x
b)
R
2
=
109,96
2
14,20 2154,30
= 0,3953
El modelo explica solo el 39,53 % de las observaciones.
c)
50 = 9,04 + 7,74x
x =
50 + 9,04
7,74
= 7,63 g/Kgr.
d)
y = 9,04 + 7,74 8
= 52,88 mg/dL.
6. En un estudio realizado sobre el gasto en electricidad (Y , en miles de
pesos) derivado del uso de aire acondicionado, respecto al incremento
en grados de temperatura ambiental (X, en grados celsius), arrojo los
siguientes resultados:
Carlos Bustos-Lopez
CAP
ITULO 2. REGRESI
ON LINEAL 150
X Y
2,30 7,89
2,76 8,63
3,22 10,40
3,68 11,80
4,14 13,66
4,60 14,61
5,52 18,38
5,98 18,93
6,44 21,76
6,90 23,81
8,05 26,59
8,28 28,84
8,51 29,69
a) Estime el mejor modelo de regresion lineal para estas variables.
b) Cual es el nivel de ajuste del modelo?
c) Si la temperatura ha sufrido un incremento de 6,5 grados celsius,
Cual es gasto en electricidad esperado por el concepto de aire
acondicionado?
d) Si los departamentos tuvieron un gasto en electricidad de $30000,
Cuanto fue el incremento en la temperatura?
Des.
Carlos Bustos-Lopez
CAP
ITULO 2. REGRESI
ON LINEAL 151
X Y XY X
2
Y
2
2,30 7,89 18,14 5,29 62,24
2,76 8,63 23,81 7,62 74,39
3,22 10,40 33,48 10,37 108,08
3,68 11,80 43,42 13,54 139,22
4,14 13,66 56,56 17,14 186,65
4,60 14,61 67,18 21,16 213,31
5,52 18,38 101,44 30,47 337,71
5,98 18,93 113,20 35,76 358,31
6,44 21,76 140,12 41,47 473,41
6,90 23,81 164,25 47,61 566,68
8,05 26,59 214,03 64,80 706,92
8,28 28,84 238,81 68,56 831,86
8,51 29,69 252,69 72,42 881,67
70,38 234,97 1467,13 436,21 4940,44
a)
X =
70,38
13
= 5,41
Y =
234,97
13
= 18,07
S
XY
= 1467,13 13 5,41 18,07 = 196,27
S
XX
= 436,21 13 5,41
2
= 55,72
S
Y Y
= 4940,44 13 18,07
2
= 695,62
1
=
196,27
55,72
= 3,52
0
= 18,07 3,52 5,41 = 0,973
Carlos Bustos-Lopez
CAP
ITULO 2. REGRESI
ON LINEAL 152
y = 0,973 + 3,52x
b)
R
2
=
196,27
2
55,72 695,62
= 0,9939
El modelo explica el 99,39 % de los datos.
c)
y = 0,973 + 3,52 6,5
= 21,907 miles de pesos.
d)
30 = 0,973 + 3,52x
x =
30 + 0,973
3,52
= 8,80 grados celsius.
Carlos Bustos-Lopez
Captulo 3
Probabilidades
3.1. Probabilidades
3.1.1. Introduccion
El concepto de Probabilidades no es ajeno a la vida cotidiana, siempre
estamos, de una forma u otra, utilizando las probabilidades, por ejemplo,
cuando nos preguntamos en la ma nana antes de salir de casa, llovera o
no?, lo hacemos bajo un contexto determinado, es decir, si creemos que
existen posibilidades de que ese fenomeno ocurra.
Ademas de ciertas evidencias cualitativas que favorezcan el realizar la
pregunta, por ejemplo, si es invierno, si esta nublado, etc.
Bajo lo anterior, uno trata de responder la pregunta en condiciones de
incerteza, asignando un valor a aquella armacion, es decir, s , creo que
llovera, o simplemente no creo que llueva. Esta asignacion subjetiva, le
dara mayor, menor o igual peso a cada una de las posibilidades.
153
CAP
i=1
IP(A|B
i
)IP(B
i
) .
Ejemplo 3.1.6 Sea el siguiente experimento E: Se lanzan dos dados c ubicos
equilibrados y se observan sus resultados, ademas se ha observado que la
suma T es impar. Determinar la probabilidad de que la suma sea menor a 8.
Denamos los siguientes eventos:
A := T < 8, es decir, la suma es menor a 8.
B := T impar.
Entonces, el evento A B (la suma es menor que 8 y es impar) tiene
los siguientes elementos:
A B = {3, 5, 7} .
Ademas, el espacio muestral es el siguiente:
Carlos Bustos-Lopez
CAP
n
\
i=1
A
i
!
=
8
>
<
>
:
Q
n
i=1
IP(A
i
) , si los A
i
son independientes.
IP(A
1
)IP(A
2
|A
1
)IP(A
3
|A
1
A
2
) IP
A
n
|
T
n1
i=1
A
i
, si los A
i
no son independientes.
Teorema 3.1.3 (Teorema de Bayes) Si un espacio muestral esta for-
mado por A
1
, A
2
, . . . , A
n
particiones y conocemos la ocurrencia de un suceso
B, que esta en ; entonces para determinar la probabilidad de que un suceso
cualquiera de la particion ocurra dado que ocurrio B, esta dado por:
IP(A
i
|B) =
IP(B|A
i
)IP(A
i
)
n
j=1
IP(B|A
j
)IP(A
j
)
, i = 1, 2, . . . , n .
Carlos Bustos-Lopez
CAP
i=1
IP(B|A
i
)IP(A
i
)
,
=
0,02 0,3
0,01 0,2 + 0,02 0,3 + 0,03 0,5
,
=
0,006
0,023
,
0,26 .
Carlos Bustos-Lopez
Captulo 4
Variables Aleatorias
4.1. Variable Aleatoria
Sea (, A, IP) un espacio de probabilidad. Una variable aleatoria X es
una funcion medible desde (, A) hasta (IR, B(IR)). Ademas, sea A cualquier
subconjunto de la recta real y sea IP(X A la probabilidad de que el valor
de X pertenezca al subconjunto A. Entonces IP(X A) es igual a la proba-
bilidad de que el resultado s B del experimento, sea tal que X(s) A, es
decir
1
:
IP(X A) = IP({s : X(s) A}) .
Existen basicamente dos tipos de variables aleatorias (v.a.), las discretas
y las continuas, que se diferencias en el recorrido de sus posibles resultados.
1
Denicion de distribucion de una variable aleatoria, DeGroot, 1988.
164
CAP
xB
p
X
(x) =
xB
IP(X = x) = 1 .
4.1.2. Varaibles Aleatorias Continuas
La v.a. X se dice que es continua, si su conjunto de posibles resultados
(soporte) B es un conjunto innito no numerable.
Denicion 4.1.2 Llamaremos funcion de distribucion acumulada (f.d.a.)
de la v.a. X, si existe una funcion no negativa f, denida sobre la recta real,
tal que para cualquier intervalo A:
F
X
(x) = IP(X A) =
_
A
f
X
(x)dx .
lm
x
F
X
(x) = 0 .
Carlos Bustos-Lopez
CAP
f
X
(x)dx = 1 .
Ademas, se dene para todo a < b IR que la probabilidad que el valor
de X se encuentre en el intervalo [a, b] esta dada por:
IP(a X b) =
_
b
a
f
X
(x)dx .
4.2. Valor Esperado
Denicion 4.2.1 Llamaremos Valor Esperado o Esperanza Matematica
de la v.a. X a:
IE(X) =
xB
xIP(X = x) .
La cual cumple, que si a, b IR, y X una v.a.,
IE(aX + b) = aIE(X) + b .
Denicion 4.2.2 Llamaremos Momento de Orden k de la v.a. X a:
IE(X
k
) =
xB
x
k
IP(X = x) .
Carlos Bustos-Lopez
CAP
(0) =
_
d
dt
IE(e
tX
)
_
t=0
,
= IE
__
d
dt
e
tX
_
t=0
_
,
= IE
__
Xe
tX
_
t=0
,
= IE[X] .
De donde se tiene que la f.g.m. (t) en el punto t = 0 corresponde al primer
momento de la v.a. X. As se tiene que:
(n)
(0) =
_
d
n
dt
n
IE(e
tX
)
_
t=0
,
= IE
__
d
n
dt
n
e
tX
_
t=0
_
,
= IE
__
X
n
e
tX
_
t=0
,
= IE[X
n
] .
Entonces,
(0) = IE(X),
(0) = IE(X
2
),
(0) = IE(X
3
), y as sucesiva-
mente.
Teorema 4.2.2 Sea X una variable acleatoria cuya f.g.m., es
1
; sea Y =
aX +b, donde a y b son constantes; y sea
2
la f.g.m. de Y . Entonces, para
Carlos Bustos-Lopez
CAP
2
(t) = e
bt
1
(at) .
Dem.
2
(t) = IE(e
tY
) = IE(e
t(aX+b)
) = IE(e
taX
e
tb
) = e
tb
IE(e
taX
) = e
bt
1
(at) .
Teorema 4.2.3 Si las f.g.m., de dos variables aleatorias X
1
y X
2
son identi-
cas para todos los valores de t en un intervalo alrededor del punto t = 0,
entonces las distribuciones de probabilidad de X
1
y X
2
deben ser identicas.
Carlos Bustos-Lopez
Captulo 5
Inferencia Estadstica
5.1. Estimacion
En las secciones anteriores hemos visto distintas formas de como describir
una o dos variables poblacionales, pero en general, tabajamos con una mues-
tra que corresponde a una parte de la poblacion y nuestro interes es poder
concluir algo sobre el comportamiento de la poblacion.
Para responder a las necesidades anteriores, es necesario que utilicemos
la Estadstica Inferencial.
Denicion 5.1.1 La Estadstica Inferencial, permite concluir, inferir y
deducir aspectos importantes de una poblacion mediante el analisis de una
muestra de ella.
Denicion 5.1.2 Muestra Aleatoria (m.a.): Consiste en un conjunto
de variables aleatorias independientes X
1
, X
2
, . . . , X
n
que tienen la misma
densidad de probabilidad f
X
(x|) de la variable X asociada a la poblacion.
170
CAP
ISTICA 171
Denicion 5.1.3 Espacio de Informacion ( ): Es el conjunto de to-
das las posibles muestras aleatorias de tama no n que se pueden obtener de la
poblacion. Es decir:
= {(x
1
, x
2
, . . . , x
n
) IR
n
|(x
1
, x
2
, . . . , x
n
) es una m.a. de X}.
Denicion 5.1.4 Estadstico o estadgrafo (T(X
i=1
X
i
2. T
2
=
1
n
n
i=1
X
2
i
3. T
3
=
1
n
n
i=1
(X
i
X)
2
Denicion 5.1.5 Espacio Parametrico (): El espacio parametrico es
el conjunto de todos los valores posibles que puede asumir un parametro pobla-
cional.
Carlos Bustos-Lopez
CAP
ISTICA 172
5.2. Estimacion Puntual
Denicion 5.2.1 Parametro: Un parametro es una caracterstica de in-
teres en la poblacion, que tiene un valor jo, pero desconocido. Generalmente,
se denota con letras griegas (p.e. , , , , , etc.).
Una de las tecnicas mas utilizadas para poder describir el comportamien-
to de la poblacion es la estimacion del verdadero valor del parametro pobla-
cional, mediante un solo valor.
Existen numerosas tecnicas de estimacion puntual de los parametros, las
mas utilizadas son:
1. Metodo de los Momentos.
2. Metodo de Maxima Verosimilitud.
Carlos Bustos-Lopez
CAP
ISTICA 173
3. Metodo de los Mnimos Cuadrados.
4. Metodos Bayesianos.
5. Metodos Robustos.
6. Metodos Computacionales.
5.2.1. Metodo de Maxima Verosimilitud
Denicion 5.2.2 La Funcion de Verosimilitud, corresponde a la fun-
cion de probabilidad conjunta de la muestra X
= (X
1
, . . . , X
n
) y esta dada
por:
L(|x
) =
n
i=1
f
X
i
(x
i
|) .
Ejemplo 5.2.1 Suponga que x
= (x
1
, x
2
, . . . , x
n
) son los datos asociados a
una muestra aleatoria (X
1
, X
2
, . . . , X
n
) de una poblacion Poisson, con fun-
cion de probabilidad dada por:
f
X
(x|) =
x
e
x!
.
La funcion de verosimilitud es:
L(|x
) =
n
i=1
f
X
i
(x
i
|) =
n
i=1
X
i
e
X
i
!
=
P
n
i=1
X
i
e
n
n
i=1
X
i
!
.
El objetivo es determinar el valor del parametro que maximiza la funcion
de verosimilitud. Donde tambien se dene la funcion de log-verosimilitud
como:
Carlos Bustos-Lopez
CAP
ISTICA 174
l() = ln
_
P
n
i=1
X
i
e
n
n
i=1
X
i
!
_
,
=
n
i=1
X
i
ln() n ln
_
n
i=1
X
i
!
_
,
=
n
i=1
X
i
ln() n
n
i=1
ln X
i
! ,
l
=
1
i=1
X
i
n = 0
MV
=
n
i=1
X
i
n
.
Luego,
=
X es el estimador maximo verosimail de .
Ejemplo 5.2.2 Sea una poblacion con funcion de densidad:
f
X
(x|) =
2
1
x
31
1
, si 0 x 1 .
El estimador maximo verosimil de es:
L(|X
1
, . . . , X
n
) =
n
i=1
2
1
X
31
1
i
,
=
_
2
1
_
n
_
n
i=1
X
i
_31
1
,
l(|X
1
, . . . , X
n
) = nln 2 + nln nln(1 ) +
3 1
1
n
i=1
ln X
i
,
l
=
n
+
n
1
+
3(1 ) + (3 1)
(1 )
2
n
i=1
ln X
i
= 0 ,
0 =
n
+
n
1
+
2
(1 )
2
n
i=1
ln X
i
,
Carlos Bustos-Lopez
CAP
ISTICA 175
2
(1 )
2
n
i=1
ln X
i
=
n
n
1
,
2
(1 )
2
n
i=1
ln X
i
=
n(1 ) + n
(1 )
,
2
(1 )
2
n
i=1
ln X
i
=
n
(1 )
,
2
(1 )
n
i=1
ln X
i
=
n
MV
=
n
n 2
n
i=1
ln X
i
.
Ejercicos Resueltos
1. Despues de varios reclamos de diferentes consumidores formulados al
SERNAC, la empresa de productos lacteos ZOPROLIN ha sido someti-
da a varias inspecciones para vericar la calidad del estado de conser-
vacion de la leche en envases tetra pack. Para ello a tomado una caja
al azar con 10 de estos envases donde se ha observado lo siguiente:
B, B, D, B, B, B, D, B, D, B ,
donde B la leche esta en buen estado, y D la leche esta descompuesta.
Con estos resultados, Cual es la probabilidad de que al tomar cualquier
otra caja se registren 2 envases con leche descompuesta?
Des.
Claramente, el estado de la leche B o D es una variable con un com-
portamiento que puede ser representado mediante un modelo Bernoulli
Carlos Bustos-Lopez
CAP
ISTICA 176
(X
i
Ber(p)), entonces el problema se reduce a determinar la mejor
estrategia para estimar p. De esa forma, el estimador MV, se puede
extraer de:
L(p|X
1
, . . . , X
n
) =
n
i=1
p
X
i
(1 p)
1X
i
,
= p
P
n
i=1
X
i
(1 p)
n
P
n
i=1
X
i
,
l(p|X
1
, . . . , X
n
) =
n
i=1
X
i
ln(p) + (n
n
i=1
X
i
) ln(1 p) ,
l
p
=
n
i=1
X
i
p
+
n
n
i=1
X
i
(1 p)
(1) = 0 ,
0 = (1 p)
n
i=1
X
i
p(n
n
i=1
X
i
) ,
p =
1
n
n
i=1
X
i
.
2. Considere una m.a., proveniente de una distribucion Poisson de parametro
. Determine el EMV de . Des.
L(|X
1
, . . . , X
n
) =
n
i=1
X
i
e
X
i
!
=
P
n
i=1
X
i
e
n
n
i=1
X
i
!
,
l(|X
1
, . . . , X
n
) =
n
i=1
X
i
ln() n ln
_
n
i=1
X
i
!
_
,
l
=
1
i=1
X
i
n = 0 ,
=
1
n
n
i=1
X
i
.
Carlos Bustos-Lopez
CAP
ISTICA 177
3. Considere una m.a., proveniente de una distribucion Rayleigh de parametro
2
. Determine el EMV de
2
. Des.
L(
2
|X
1
, . . . , X
n
) =
n
i=1
X
i
2
e
X
2
i
2
2
,
=
1
2n
n
i=1
X
i
e
1
2
2
P
n
i=1
X
2
i
,
l(
2
|X
1
, . . . , X
n
) =
n
i=1
ln X
i
nln
2
1
2
2
n
i=1
X
2
i
,
l
2
=
n
n
i=1
X
2
i
2
(1)
(
2
)
2
= 0 ,
2
=
n
i=1
X
2
i
2n
.
4. Considere una m.a., proveniente de una distribucion Exponencial de
parametro . Determine el EMV de . Des.
L(|X
1
, . . . , X
n
) =
n
i=1
e
X
i
=
n
e
P
n
i=1
X
i
,
l(|X
1
, . . . , X
n
) = nln
n
i=1
X
i
,
l
=
n
i=1
X
i
= 0 ,
=
n
n
i=1
X
i
.
Carlos Bustos-Lopez
CAP
ISTICA 178
5. Considere una m.a., proveniente de una distribucion Gama de paramet-
ros y . Determine el EMV de . Des.
L(|, X
1
, . . . , X
n
) =
n
i=1
()
X
1
i
e
X
i
,
=
n
()
n
_
n
i=1
X
i
_
1
e
P
n
i=1
X
i
,
l(|, X
1
, . . . , X
n
) = nln nln () + ( + 1)
n
i=1
ln X
i
i=1
X
i
,
l
=
n
i=1
X
i
= 0 ,
=
n
n
i=1
X
i
.
6. Considere una m.a., proveniente de una distribucion Weibull de paramet-
ros y . Determine el EMV de . Des.
L(|, X
1
, . . . , X
n
) =
n
i=1
X
1
i
e
(
X
i
,
=
n
n
_
n
i=1
X
i
_
1
e
P
n
i=1
(
X
i
,
l(|, X
1
, . . . , X
n
) = nln nln + ( 1)
n
i=1
ln X
i
i=1
X
,
Carlos Bustos-Lopez
CAP
ISTICA 179
l
=
n
i=1
X
i
()
+1
= 0 ,
n
i=1
X
+1
=
n
n
i=1
X
i
n
,
=
_
n
i=1
X
i
n
_
1/
.
7. Considere una m.a., proveniente de una distribucion Normal de paramet-
ros y . Determine los EMV de y . Des.
L(,
2
|X
1
, . . . , X
n
) =
n
i=1
1
2
2
e
1
2
2
(X
i
)
2
,
=
_
1
2
_
n/2
1
(
2
)
n/2
e
1
2
2
P
n
i=1
(X
i
)
2
,
l(,
2
|X
1
, . . . , X
n
) =
n
2
ln 2
n
2
ln
2
1
2
2
n
i=1
(X
i
)
2
,
l
=
1
2
2
2
n
i=1
(X
i
)(1) = 0 ,
l
2
=
n
2
2
1
2
n
i=1
(X
i
)
2
(1)
(
2
)
2
= 0 ,
n
i=1
(X
i
)
2
= 0 =
1
n
n
i=1
X
i
,
n
i=1
(X
i
)
2
2(
2
)
2
=
n
2
2
2
=
1
n
n
i=1
(X
i
)
2
.
Carlos Bustos-Lopez
CAP
ISTICA 180
8. Considere una m.a., proveniente de una distribucion f
X
(x|) = ( +
1)x
i=1
( + 1)X
i
,
= ( + 1)
n
n
i=1
X
i
,
l(|X
1
, . . . , X
n
) = nln( + 1) +
n
i=1
ln X
i
,
l
=
n
+ 1
+
n
i=1
= ln X
i
= 0 ,
=
_
n
n
i=1
ln X
i
+ 1
_
.
5.2.2. Metodo de los Momentos
Consiste en sustituir los momentos poblacionales de la distribucion con
los respectivos momentos muestrales. Luego se construye un sistema de ecua-
ciones p-dimencional
1
.
Denicion 5.2.3 Sea x
= (x
1
, x
2
, . . . , x
n
) los datos asociados a una m.a.,
(X
1
, X
2
, . . . , X
n
), se dene el momento muestral de orden k (k IN),
como:
m
k
=
1
n
n
i=1
x
k
i
.
1
El fundamento de esta tecnica es la convergencia de los momentos muestrales a los
momentos poblacionales a medida que el tama no de la muestra n aumenta.
Carlos Bustos-Lopez
CAP
ISTICA 181
Denicion 5.2.4 Sea X una v.a., se dene el momento poblacional de
orden k (k IN), como:
k
= IE(X
k
) =
_
xB
x
k
p
X
(x) , si X es discreta.
_
x
k
f
X
(x|) , si X es continua.
Si p es el n umero de parametros a estimar, entonces el estimador de momentos
de se obtiene al resolver el sistema
2
:
1
= m
1
2
= m
2
.
.
.
p
= m
p
Ejemplo 5.2.3 Suponga que (X
1
, X
2
, . . . , X
n
) es una m.a., de una poblacion
Poisson, con parametro . En este caso hay un solo parametro y se necesita
solo una ecuacion:
1
= m
1
= =
1
n
n
i=1
x
i
=
= x .
Ejemplo 5.2.4 Sea una poblacion con funcion de densidad:
f
X
(x|) =
2
1
x
31
1
, si 0 x 1 .
2
Este sistema podra ser no lineal.
Carlos Bustos-Lopez
CAP
ISTICA 182
El estimador por el metodo de los momentos de es:
IE(X) =
2
1
_
1
0
x x
31
1
dx ,
=
2
1
_
1
0
x
2
1
dx ,
=
2
1
x
2
1
+1
2
1
+ 1
1
0
,
=
2
1
1
1
1
,
=
2
1 +
.
=
2
1 +
=
X ,
2 =
X( + 1) ,
2 =
X +
X ,
2
X =
X ,
(2
X) =
X ,
X
2
X
.
5.2.3. Propiedades de los Estimadores Puntuales
1. Insesgamiento
Denicion 5.2.5 Un estimador es Insesgado, si el valor medio
de todas sus estimaciones obtenidas con una muestra de tama no n, es
igual al parametro que estima. Por lo tanto, si es el parametro y
su
Carlos Bustos-Lopez
CAP
ISTICA 183
estimador insesgado, se debe cumplir que:
IE(
) = .
Teorema 5.2.1 Si X
1
, X
2
, . . . , X
n
es una m.a., de n variables que
tienen la misma media y la misma varianza
2
, se cumple que
X, la
media de la muestra, es un estimador insesgado de y su varianza es
2
/n.
Proof: Sea
X =
1
n
n
i=1
X
i
, entonces,
IE(
X) = IE
_
n
i=1
X
i
n
_
,
=
1
n
n
i=1
IE(X
i
) ,
=
1
n
n
i=1
,
=
n
n
,
= .
Luego,
X es un estimador insesgado del parametro .
Carlos Bustos-Lopez
CAP
ISTICA 184
Por otra parte:
VVar(
X) = VVar
_
n
i=1
X
i
n
_
,
=
1
n
2
n
i=1
VVar(X
i
) ,
=
1
n
2
n
i=1
2
,
=
n
n
2
2
,
=
2
n
.
Teorema 5.2.2 Si la varianza S
2
de una m.a., de tama no n, de una
poblacion con media y varianza
2
, se dene como:
S
2
=
1
n 1
n
i=1
(X
i
X)
2
,
se cumple que IE(S
2
) =
2
, es decir S
2
es un estimador insesgado de
la varianza de la poblacion.
Proof:
IE(S
2
) = IE
_
1
n 1
n
i=1
(X
i
X)
2
_
,
=
1
n 1
n
i=1
IE(X
i
X)
2
,
=
1
n 1
n
i=1
IE(X
2
i
2X
i
X +
X
2
) ,
=
1
n 1
n
i=1
_
IE(X
2
i
) 2IE(X
i
X) + IE(
X
2
)
_
,
Carlos Bustos-Lopez
CAP
ISTICA 185
Pero,
IE(X
2
i
) =
2
+
2
,
IE(
X
2
) =
2
n
+
2
,
IE(X
i
X) = IE
_
X
i
n
j=1
X
j
n
_
,
=
1
n
n
j=1
IE(X
i
X
j
) ,
=
1
n
_
n
j=1,i=j
IE(X
i
X
j
) + IE(X
2
i
)
_
,
=
1
n
_
(n 1)
2
+
2
+
2
_
,
=
n
n
2
+
2
n
,
=
2
+
2
n
,
IE(S
2
) =
1
n 1
n
i=1
_
2
+
2
2
_
2
+
2
n
_
+
2
n
+
2
_
,
=
2
.
Teorema 5.2.3 Si el estimador p de la proporcion p de elementos de
una poblacion que tienen cierto atributo se dene como:
p =
n
i=1
X
i
n
, X
i
=
_
_
1 elemento i-esimo posee el atributo.
0 si no.
Se cumple que p es un estimador insesgado de p, y la varianza de p es
p(1 p)/n.
Carlos Bustos-Lopez
CAP
ISTICA 186
Proof:
IE( p) = IE
_
n
i=1
X
i
n
_
=
1
n
n
i=1
X
i
,
pero
IE(X
i
) = 1 p + 0 (1 p) = p ,
entonces,
IE( p) =
1
n
n
i=1
p =
n
n
p = p .
VVar( p) = VVar
_
1
n
n
i=1
X
i
_
=
1
n
2
n
i=1
VVar(X
i
) ,
pero
VVar(X
i
) = IE(X
2
i
) IE
2
(X
i
) = p p
2
= p(1 p) ,
entonces,
VVar( p) =
1
n
2
n
i=1
p(1 p) =
n
n
2
p(1 p) =
p(1 p)
n
.
Ejemplo 5.2.5 Consideremos la siguiente poblacion P{1, 2, 3, 4}. La
media y la varianza poblacionales son respectivamente 2.5 y 1.25. Sacare-
mos todas las muestras posibles con sustitucion de tama no 2 y evalua-
remos en cada una la media y su varianza y vericaremos que son
Carlos Bustos-Lopez
CAP
ISTICA 187
estimadores insesgados.
Muestra
X
i
S
2
i
Muestra
X
i
S
2
i
(1, 1) 1 0 (3, 1) 2 2
(1, 2) 1, 5 0, 5 (3, 2) 2, 5 0, 5
(1, 3) 2 2 (3, 3) 3 0
(1, 4) 2, 5 4, 5 (3, 4) 3, 5 0, 5
(2, 1) 1, 5 0, 5 (4, 1) 2, 5 4, 5
(2, 2) 2 0 (4, 2) 3 2
(2, 3) 2, 5 0, 5 (4, 3) 3, 5 0, 5
(2, 4) 3 2 (4, 4) 4 0
Note que,
X =
16
i=1
X
i
/16 = 40/16 = 2,5, que corresponde a la media
poblacional. Ademas,
16
i=1
S
2
i
/16 = 20/16 = 1,25, que es la varianza
de la poblacion.
2. Consistencia
La consistencia de un estimador esta relacionada con su proximidad al
parametro que estima cuando el tama no de la muestra que se utiliza
tiende a ser innita. Este es el concepto de convergencia en probabili-
dad.
Denicion 5.2.6 Un estimador
de un parametro es consistente
si se cumple que:
lm
n
IP(|
| ) = 1 .
Carlos Bustos-Lopez
CAP
ISTICA 188
Teorema 5.2.4 Si
es un estimador del parametro que cumple:
a) lm
n
IP(IE(
) ) = 0.
b) lm
n
VVar(
) = 0.
entonces,
es un estimador consistente.
Ejemplo 5.2.6 De una poblacion con media IE(X) = y varianza
VVar(X) =
2
, se extrae una m.a., (X
1
, X
2
, . . . , X
n
). Determine que
X
y S
2
son consistente.
lm
n
IP(IE(
X) ) = lm
n
IP( ) = 0 ,
lm
n
VVar(
) = lm
n
2
n
= 0 .
X es consistente.
Carlos Bustos-Lopez
CAP
ISTICA 189
lm
n
IP(IE(S
2
)
2
) = lm
n
VVar
_
n
i=1
(X
i
X)
2
n 1
_
,
= lm
n
1
(n 1)
2
VVar
_
n
i=1
(X
i
X)
2
_
,
= lm
n
1
(n 1)
2
VVar
_
n
i=1
(X
2
i
2X
i
X +
X
2
)
_
,
= lm
n
1
(n 1)
2
VVar
_
n
i=1
X
2
i
n
X
2
_
,
= lm
n
1
(n 1)
2
VVar
_
n
i=1
X
2
i
_
,
= lm
n
1
(n 1)
2
_
n
i=1
VVar(X
2
i
) + 2
i<j
Cov(X
i
, X
j
)
_
,
= lm
n
1
(n 1)
2
_
n
i=1
(
2
+
2
)
_
,
= lm
n
n
(n 1)
2
_
2
+
2
_
= 0 .
Teorema 5.2.5 Si
1
es un estimador consistente del parametro
1
y
2
es un estimador consistente del parametro
2
se cumple que:
a)
1
+
2
es un estimador consistente de
1
+
2
.
b)
2
es un estimador consistente de
1
2
.
c)
1
/
2
es un estimador consistente de
1
/
2
.
3. Varianza Mnima
Carlos Bustos-Lopez
CAP
ISTICA 190
Denicion 5.2.7 Un estimador insesgado de un parametro es llamado
de varianza mnima, cuando tiene la menor varianza entre todos los
posibles estimadores insesgados del parametro
3
.
Ejemplo 5.2.7 Suponga que de una poblacion con IE(X) = y VVar(X) =
2
se saca una muestra de tama no 3. Decida cual de los siguientes es-
timadores es mejor:
1
=
1
4
X
1
+
1
2
X
2
+
1
4
X
3
.
2
=
X .
Des.
IE(
1
) = IE
_
1
4
X
1
+
1
2
X
2
+
1
4
X
3
_
,
=
1
4
IE(X
1
) +
1
2
IE(X
2
) +
1
4
IE(X
3
) ,
=
1
4
+
1
2
+
1
4
,
= .
3
El estimador que tenga la menor varianza es tambien llamado el mejor de todos los
estimadores.
Carlos Bustos-Lopez
CAP
ISTICA 191
Luego
1
es insesgado.
IE(
2
) = IE
_
X
_
= IE
_
1
3
3
i=1
X
i
_
,
=
1
3
3
i=1
IE(X
i
) ,
=
1
3
3
i=1
,
= .
Luego
2
es insesgado.
VVar(
1
) = VVar
_
1
4
X
1
+
1
2
X
2
+
1
4
X
3
_
,
=
1
4
2
VVar(X
1
) +
1
2
2
VVar(X
2
) +
1
4
2
VVar(X
3
) ,
=
1
4
2
2
+
1
2
2
2
+
1
4
2
2
,
=
3
8
2
.
VVar(
2
) = VVar
_
X
_
= VVar
_
1
3
3
i=1
X
i
_
,
=
1
3
2
3
i=1
VVar(X
i
) ,
=
1
3
2
3
i=1
2
,
=
2
3
.
Luego
2
es mejor, puesto que tiene menor varianza.
4. Error Cuadratico Medio
Carlos Bustos-Lopez
CAP
ISTICA 192
Denicion 5.2.8 El error cuadratico medio es el valor esperado
de la desviacion cuadratica entre el estimador y el parametro que esti-
ma.
MSE() = IE(
)
2
,
= VVar(
) + b
2
() ,
= IE[(
IE(
))
2
] + (IE(
) )
2
.
De acuerdo a los valores que pueda tomar el parametro, es posible que
un estimador sesgado sea mejor que uno insesgado.
Ejemplo 5.2.8 Suponga que
1
y
2
son dos estimadores del parametro
. Sebemos que:
IE(
1
) = VVar(
1
) = 3 ,
IE(
2
) = 0,9 VVar(
1
) = 2 .
Des.
MSE(
1
) = 3 + ( )
2
= 3 ,
IE(
2
) = 2 + (0,9 )
2
= 2 + 0,01
2
.
Si || > 10,
1
es mejor que
2
.
Si || < 10,
2
es mejor que
1
.
5. Suciencia
Carlos Bustos-Lopez
CAP
ISTICA 193
Dada una poblacion distribuida f
X
(x|), que depende de un solo parametro
se saca una muestra aleatoria (X
1
, X
2
, . . . , X
n
) y una estadstica
= g(X
1
, X
2
, . . . , X
n
) es utilizada para estimar .
Dado que
es una sola variable aleatoria, y disponamos de n variables
aleatorias, cabe preguntarse si se perdio alguna informacion al usar
.
Por ejemplo, si
= X
1
, es evidente que no fue usada toda la informa-
cion.
Denicion 5.2.9 Una estadstica
que contenga toda la informa-
cion respecto al parametro que esta en la muestra, recibe el nombre
de Estadstica Suciente. Ning un otro estimador denido con la
misma muestra puede suministrar informacion adicional respecto a .
Teorema 5.2.6 Sea (X
1
, X
2
, . . . , X
n
) una m.a., sacada de la poblacion
f
X
(x|). Si:
g(X
1
, X
2
, . . . , X
n
|) =
n
i=1
f
X
(x
i
|) ,
y
n
i=1
f
X
(x
i
|) = h(
, )g(x
1
, x
2
, . . . , x
n
) ,
en donde g(x
1
, x
2
, . . . , x
n
) no depende de , entonces
es una estadsti-
ca suciente para .
Carlos Bustos-Lopez
CAP
ISTICA 194
Ejemplo 5.2.9 Sea (X
1
, X
2
, . . . , X
n
) de X N(, 1).
n
i=1
1
2
e
1
2
(x
i
)
2
= (2)
n
2
e
1
2
P
n
i=1
(x
i
)
2
,
= (2)
n
2
e
1
2
P
n
i=1
((x
i
x)( x))
2
,
= (2)
n
2
e
1
2
[
P
n
i=1
(x
i
x)
2
+n( x)
2
]
,
= (2)
n
2
e
1
2
P
n
i=1
(x
i
x)
2
e
1
2
n( x)
2
.
Luego x es estadstica suciente para .
6. Suciente Minimal
Una estadstica suciente que resume los datos tanto como sea posible
es llamada Estadstica Suciente Minimal.
Para encontrar estadsticas sucientes minimales uasaremos metodos
de Lehmann y Schee.
Denicion 5.2.10 Sean x
1
, x
2
, . . . , x
n
e y
1
, y
2
, . . . , y
n
dos conjuntos de
valores que toman todas las variables (X
1
, X
2
, . . . , X
n
) de la m. a. Si
se forma la razon:
f(x
1
|)f(x
2
|) f(x
n
|)
f(y
1
|)f(y
2
|) f(y
n
|)
,
esta razon no incluira al parametro si existe una funcion g tal que:
g(x
1
, x
2
, . . . , x
n
) = g(y
1
, y
2
, . . . , y
n
) ,
en tal caso g(y
1
, y
2
, . . . , y
n
) es la estadstica suciente minimal para .
Carlos Bustos-Lopez
CAP
ISTICA 195
Ejemplo 5.2.10 Sea X Ber(n, p), se forma la razon:
p
x
1
(1 p)
1x
1
p
x
n
(1 p)
1x
n
p
y
1
(1 p)
1y
1
p
y
n
(1 p)
1y
n
=
p
P
n
i=1
x
i
(1 p)
n
P
n
i=1
x
i
p
P
n
i=1
y
i
(1 p)
n
P
n
i=1
y
i
,
=
p
P
n
i=1
x
i
P
n
i=1
y
i
(1 p)
n
P
n
i=1
y
i
(
n
P
n
i=1
x
i)
,
=
p
P
n
i=1
x
i
P
n
i=1
y
i
(1 p)
P
n
i=1
x
i
P
n
i=1
y
i
,
=
_
p
1 p
_
P
n
i=1
x
i
P
n
i=1
y
i
,
si
n
i=1
x
i
=
n
i=1
y
i
la razon es independiente de p. Luego g =
n
i=1
y
i
es estadstica minimal suciente. Es decir, p =
n
i=1
y
i
/n es estimador
que contiene toda la informacion de la muestra con un mnimo de
datos
4
.
7. Eciencia
En el estudio de la consistencia de un estimador se percibe que mientras
menor es la varianza de un estimador incrementa la posibilidad de
obtener estimaciones mas proximas al verdadero valor del parametro
que se estima. Luego, mientras mas peque na es su varianza, mayor es
la eciencia del estimador.
Denicion 5.2.11 Un estimador insesgado
es el mas eciente de
todos los estimadores insesgados si su varianza satisface la cota inferior
4
Este es, por lo tanto, un estimador insesgado lineal de mnima varianza (MVUE).
Carlos Bustos-Lopez
CAP
ISTICA 196
de la desigualdad de Rao-Cramer.
VVar(
)
1
nIE
_
_
lnf
X
(x|)
_
2
_ .
Ejemplo 5.2.11 Si
X es evaluado con valores de una m. a., (X
1
, X
2
, . . . , X
n
)
sacada de una distribucion normal con varianza
2
0
conocida, demostrar
que
X es el estimador mas eciente para estimar la media .
f
X
(x|) =
1
_
2
2
0
e
1
2
2
0
(x)
2
,
lnf
X
(x|) =
1
2
ln(2
2
0
)
1
2
2
0
(x )
2
,
lnf
X
(x|)
=
2(x )
2
2
0
(1) ,
IE
_
_
lnf
X
(x|)
_
2
_
= IE
_
_
2(x )
2
2
0
_
2
_
=
1
4
0
IE[(x )
2
] ,
IE
_
_
lnf
X
(x|)
_
2
_
=
2
0
4
0
,
nIE
_
_
lnf
X
(x|)
_
2
_
=
n
2
0
,
1
nIE
_
_
lnf
X
(x|)
_
2
_ =
2
0
n
= VVar(
X) .
Luego
X es un estimador eciente de la media poblacional , puesto
que alcanza la cota de Rao-Cramer.
8. Eciencia Relativa
Carlos Bustos-Lopez
CAP
ISTICA 197
Denicion 5.2.12 Si hay dos estimadores
1
y
2
insesgado, para el
mismo parametro el estimador
2
es mas eciente que
1
si:
VVar(
2
) < VVar(
1
) ,
VVar(
2
)
VVar(
1
)
< 1 .
Nos enfocaremos principalmente en el metodo de Maxima Verosimili-
tud
Propiedades de los estimadores de Maxima Verosimilitud (MV).
1. Insesgamiento: Los estimadores MV pueden ser sesgados, pero al incre-
mentar el tama no de la muestra n se hacen asintoticamente insesgados.
2. Consistencia: Bajo condiciones regulares los estimadors MV son con-
sistentes.
3. Invarianza: Si existe una funcion de un parametro, se obtiene un esti-
mador de la funcion sustituyendo el parametro por su estimador MV.
p.e. g() es estimada por g() = g(
N(, VVar()) .
Carlos Bustos-Lopez
CAP
ISTICA 198
Par ametro Estimador Puntual
Media
X =
P
n
i=1
X
i
n
Varianza
2
S
2
=
P
n
i=1
(X
i
X)
2
n1
Proporcion p =
P
n
i=1
Y
i
n
, donde Y
i
=
_
_
1 cumple condicion
0 si no
Correlacion r
XY
=
P
n
i=1
X
i
Y
i
n
X
Y
q
(
P
n
i=1
X
2
i
n
X
2
)(
P
n
i=1
Y
2
i
n
Y
2
)
5.2.4. Estimacion Intervalar
Otro procedimiento que permite tener una estimacion del verdadero va-
lor del parametro poblacional es, mediante intervalos de conanza, es decir,
construir rangos de valores posibles para el verdadero valor del parametro
mediante la distribucion asociada al estimador del parametro de interes.
Denicion 5.2.13 Un intervalo de conanza de un nivel de (1)100 %,
para el parametro , esta dado por:
P (LI
LS
) = 1 ,
donde LI
ISTICA 199
De esa forma, si se desea construir un intervalo de conanza con un nivel de
(1) 100 % para , es necesario conocer la distribucion muestral de
que
es el estimador puntual de .
En general, los estimadosres de maxima verosimilitud tienen las siguientes
distribuciones:
X N
_
,
2
n
_
, si n es grande.
(
X)
n
S
t
(n1)
, si n es peque no.
p N
_
,
(1)
n
_
.
S
2
2
(n1)
2
(n1)
.
Carlos Bustos-Lopez
CAP
ISTICA 200
Intervalo de conanza para la media con varianza conocida:
IC() =
_
X Z
1
n
;
X + Z
1
n
_
IP
_
X Z
1
n
X + Z
1
n
_
= 1
Intervalo de conanza para la media con varianza desconocida y n lo
sucientemente grande
5
(n ):
IC() =
_
X Z
1
2
S
n
;
X + Z
1
2
S
n
_
5
Tama nos muestrales de al menos 30 observaciones, han entregado buenos resultados
al ser considerados como grandes.
Carlos Bustos-Lopez
CAP
ISTICA 201
IP
_
X Z
1
2
S
n
X + Z
1
2
S
n
_
= 1
Intervalo de conanza para la media con varianza desconocida y n
peque no:
IC() =
_
X t
(
n1 , 1
2
)
S
n
;
X + t
(
n1 , 1
2
)
S
n
_
IP
_
X t
(
n1 , 1
2
)
S
n
X + t
(
n1 , 1
2
)
S
n
_
= 1
Intervalo de conanza para la varianza:
IC(
2
) =
_
_
(n 1)S
2
2
(
n1 , 1
2
)
;
(n 1)S
2
2
(
n1 ,
2
)
_
_
IP
_
_
(n 1)S
2
2
(
n1 , 1
2
)
2
(n 1)S
2
2
(
n1 ,
2
)
_
_
= 1
Intervalo de conanza para la proporcion:
IC() =
_
p Z
1
2
_
p(1 p)
n
; p + Z
1
2
_
p(1 p)
n
_
IP
_
p Z
1
2
_
p(1 p)
n
p + Z
1
2
_
p(1 p)
n
_
= 1
Ejemplo 5.2.12 Las manadas de lobos son territoriales, con territorios de
130km
2
o mas. Se piensa que los aullidos de los lobos, que comunican tanto
de la situacion como de la composicion de la manada, estan relacionados
con la territorialidad. Se obtuvieron los siguientes valores para la duracion
en minutos de una sesion de aullidos de una determinada manada sometida
a estudio.
Carlos Bustos-Lopez
CAP
ISTICA 202
1.0 1.8 1.6 1.5 2.0 1.8
1.2 1.9 1.7 1.6 1.6
1.7 1.5 1.4 1.4 1.4
Una estimacion puntual para la duracion media de una sesion de aullidos
en esta manada es x = 1,57 minutos.
La varianza muestral para estos datos es s
2
= 0,066(minutos)
2
.
Nos interesa determinar los rangos maximo y mnimo de la duracion
promedio de los aullidos.
Si consideramos un intervalo de conanza del 95 %, se tiene que:
IC() = 1,57 2,131
0,26
16
,
= 1,57 0,14 ,
= (1,43 minutos; 1,71 minutos) .
Si consideramos un intervalo de conanza del 99 %, se tiene que:
IC() = 1,57 2,947
0,26
16
,
= 1,57 0,19 ,
= (1,38 minutos; 1,76 minutos) .
Carlos Bustos-Lopez
CAP
ISTICA 203
5.3. Docima de Hipotesis
5.3.1. Introduccion
Denicion 5.3.1 Una Docima de hipotesis estadstica es, la comprobacion
de una armacion o conjetura sobre alg un parametro de la poblacion. Basica-
mente se pueden distinguir dos tipos de hipotesis:
Hipotesis Nula (H
0
): Es el verdadero estado de la naturaleza (Sin
cambio).
Hipotesis Alternativa (H
1
): Es el posible estado de la naturaleza
(Despues del cambio).
Basicamente, existen dos formas de docimas de hipotesis, las docimas
unilaterales (una cola) y las bilaterales (dos colas).
H
0
:
0
v/s H
1
: <
0
H
0
:
0
v/s H
1
: >
0
H
0
: =
0
v/s H
1
: =
0
Carlos Bustos-Lopez
CAP
ISTICA 204
5.3.2. Docimas
Para plantear una hipotesis estadstica se pueden seguir los siguientes
pasos:
1. Establesca la hipotesis nula y alternativa en el contexto del problema.
2. Establesca la hipotesis nula y alternativa estadsticas.
3. Seleccione un nivel de signicancia.
4. Describa la distribucion de la poblacion y del estadgrafo.
5. Calcule el estadstico de prueba.
6. Determine el o los valores crticos.
7. Dena la region de rechazo de la hipotesis nula (regla de decision).
8. Tome la decision con respecto de la hipotesis nula.
9. Interprete sus resultados en el contexto del problema.
Al momento de realizar una docima de hipotesis, tambien hay que con-
siderar que se pueden cometer los siguientes errores:
Carlos Bustos-Lopez
CAP
ISTICA 205
H
0
Decision sobre H
0
Verdadera Falsa
Aceptar H
0
Decision Correcta Error Tipo II
1
Rechazar H
0
Error Tipo I Decision Correcta
1
Se preere siempre que > .
5.3.3. Docimas Univariadas
Ejemplo 5.3.1 La contaminacion de los ros por metales pesados, constituye
una de las mayores preocupaciones de los gobiernos. Se sabe que el nivel
de metilmercurio tiene una distribucion normal con varianza conocida de
9(g/g)
2
. Queremos saber si los resultados obtenidos en el ultimo estudio el
nivel medio de metilmercurio es superior a 21,0(g/dl).
Podemos plantear las siguientes hipotesis:
H
0
: 21,0(g/g) El nivel medio de metilmercurio no es superior a
21,0(g/g).
H
1
: > 21,0(g/g) El nivel medio de metilmercurio no es superior a
21,0(g/g).
Supongamos que tomamos una muestra de 16 observaciones de agua,
dispuestas uniformemente a lo largo de la rivera, con lo que tendremos
Carlos Bustos-Lopez
CAP
ISTICA 206
x
1
, . . . , x
16
.
x =
16
i=1
x
i
16
.
Si x es muy grande, tenderemos a rechazar H
0
, pero estaremos tomando
una buena decision? o estas diferencias se deben solo al azar o variabilidad
natural de la poblacion.
Entonces, debemos determinar un valor lmite que nos permita estable-
cer que, si el valor muestral es superior (menor) a este valor de tolerancia,
entonces diremos que la muestra tiene un valor estadsticamente superior
(menor) al de la poblacion, con una signicacion de 100 %.
Estos valores lmites, se pueden establecer mediante las distribuciones
asociadas a los estimadores muestrales, de la siguiente forma, sean:
Z
c
=
(
X
0
)
N(0, 1).
t
c
=
(
X
0
)
n
S
t
(n1)
.
Z
c
=
( pp
0
)
q
p
0
(1p
0
)
n
N(0, 1).
2
c
=
(n1)S
2
2
0
2
(n1)
.
Docima de hipotesis para la media con varianza conocida. El estadstico
adecuado es:
Z
c
=
(
X
0
)
N(0, 1) .
Y las Hipotesis son:
Carlos Bustos-Lopez
CAP
ISTICA 207
H
0
H
1
Existe evidencia en contra de H
0
si:
=
0
=
0
|Z
c
| > Z
1
2
0
>
0
Z
c
> Z
1
0
<
0
Z
c
< Z
n
S
N(0, 1) .
Y las Hipotesis son:
H
0
H
1
Existe evidencia en contra de H
0
si:
=
0
=
0
|Z
c
| > Z
1
2
0
>
0
Z
c
> Z
1
0
<
0
Z
c
< Z
n
S
t
(n1)
.
Y las Hipotesis son:
H
0
H
1
Existe evidencia en contra de H
0
si:
=
0
=
0
|t
c
| > t
(n1,1
2
)
0
>
0
t
c
> t
(n1,1)
0
<
0
t
c
< t
(n1,)
Carlos Bustos-Lopez
CAP
ISTICA 208
Docima de hipotesis para la proporcion. El estadstico adecuado es:
Z
c
=
( p p
0
)
_
p
0
(1p
0
)
n
N(0, 1) .
Y las Hipotesis son:
H
0
H
1
Existe evidencia en contra de H
0
si:
= p
0
= p
0
|Z
c
| > Z
1
2
p
0
> p
0
Z
c
> Z
1
p
0
< p
0
Z
c
< Z
2
c
=
(n 1)S
2
2
0
2
(n1)
.
Y las Hipotesis son:
H
0
H
1
Existe evidencia en contra de H
0
si:
2
=
2
0
2
=
2
0
2
c
>
2
(n1,1
2
)
2
c
<
2
(n1,
2
)
2
2
0
2
>
2
0
2
c
>
2
(n1,1)
2
2
0
2
<
2
0
2
c
<
2
(n1,)
Ejemplo 5.3.2 Retomando, del ejemplo anterior se tiene que la muestra
presenta los siguientes resultados:
16.2 23.3 35.4 15.3 25.2 16.1 27.4 12.5
34.6 45.7 24.2 10.0 9.3 14.2 35.2 12.3
Carlos Bustos-Lopez
CAP
ISTICA 209
Lo cual nos entrega el siguiente promedio x = 22,31. Entonces,
Z
c
=
(22,31 21)
16
3
= 1,75 .
De esa forma, se se considera un nivel de conanza del 95 %, el estadstico
con el cual debemos comparar es con Z
0,975
= 1,96.
Y como 1,75 < 1,96, entonces no existe evidencia para rechazar H
0
:
21,0(g/g), el nivel medio de metilmercurio no es superior a 21,0(g/g), con
5 % de signicacion.
5.3.4. Docimas Bivariadas
Supongamos ahora que, no solo nos interesa saber que sucede con una
poblacion, si no que estamos interesados en comparar dos conjuntos de datos,
para determinar si corresponden a poblaciones diferentes.
Docima de hipotesis para la comparacion de medias con varianzas cono-
cidas. El estadstico adecuado es:
Z
c
=
(
X
1
X
2
)
0
_
2
1
n
1
+
2
2
n
2
N(0, 1) .
Y las Hipotesis son:
H
0
H
1
Existe evidencia en contra de H
0
si:
2
=
0
1
2
=
0
|Z
c
| > Z
1
2
0
1
2
>
0
Z
c
> Z
1
2
0
1
2
<
0
Z
c
< Z
Carlos Bustos-Lopez
CAP
ISTICA 210
Docima de hipotesis para la comparacion de medias con varianzas des-
conocidas y n
1
30 y n
2
30. El estadstico adecuado es:
Z
c
=
(
X
1
X
2
)
0
_
S
2
1
n
1
+
S
2
2
n
2
N(0, 1) .
Y las Hipotesis son:
H
0
H
1
Existe evidencia en contra de H
0
si:
2
=
0
1
2
=
0
|Z
c
| > Z
1
2
0
1
2
>
0
Z
c
> Z
1
2
0
1
2
<
0
Z
c
< Z
X
2
)
0
S
p
_
1
n
1
+
1
n
2
t
(n
1
+n
2
2)
,
donde
S
2
p
=
(n
1
1)S
2
1
+ (n
2
1)S
2
2
n
1
+ n
2
2
.
Y las Hipotesis son:
H
0
H
1
Existe evidencia en contra de H
0
si:
2
=
0
1
2
=
0
|t
c
| > t
(n
1
+n
2
2,1
2
)
2
0
1
2
>
0
t
c
> t
(n
1
+n
2
2,1)
2
0
1
2
<
0
t
c
< t
(n
1
+n
2
2,)
Carlos Bustos-Lopez
CAP
ISTICA 211
Docima de hipotesis para la comparacion de medias con varianzas des-
conocidas y n
1
< 30 y n
2
< 30 pero
2
1
y
2
2
son estadsticamente
distintas.
El estadstico adecuado es:
t
c
=
(
X
1
X
2
)
0
_
S
2
1
n
1
+
S
2
2
n
2
t
()
,
donde
=
_
S
2
1
n
1
+
S
2
2
n
2
_
2
S
2
1
n
1
2
n
1
1
+
S
2
2
n
2
2
n
2
1
.
Y las Hipotesis son:
H
0
H
1
Existe evidencia en contra de H
0
si:
2
=
0
1
2
=
0
|t
c
| > t
(,1
2
)
2
0
1
2
>
0
t
c
> t
(,1)
2
0
1
2
<
0
t
c
< t
(,)
Docima de hipotesis para muestras pareadas.
El estadstico adecuado es:
t
c
=
d
0
S
d
n
t
(n1)
.
Y las Hipotesis son:
H
0
H
1
Existe evidencia en contra de H
0
si:
0
d
=
0
|t
c
| > t
(n1,1
2
)
d
0
d
>
0
t
c
> t
(n1,1)
d
0
d
<
0
t
c
< t
(n1,)
Carlos Bustos-Lopez
CAP
ISTICA 212
Donde
d =
n
i=1
(x
i
y
i
)/n y S
2
d
=
n
i=1
(d
i
d)/(n 1), con n el
n umero de observaciones conjuntas para la variable X antes y despues
del tratamiento.
Docima de hipotesis para la comparacion de proporciones. El estadstico
adecuado es:
Z
c
=
( p
1
p
2
)
0
_
p
1
(1p
1
)
n
1
+
p
2
(1p
2
)
n
2
N(0, 1) .
Y las Hipotesis son:
H
0
H
1
Existe evidencia en contra de H
0
si:
2
=
0
1
2
=
0
|Z
c
| > Z
1
2
0
1
2
>
0
Z
c
> Z
1
2
0
1
2
<
0
Z
c
< Z
F
(n
1
1,n
2
1)
.
Y las Hipotesis son:
H
0
H
1
Existe evidencia en contra de H
0
si:
2
1
2
2
=
2
1
2
2
= F
c
>
1
F
(n
1
1,n
2
1,1
2
)
F
c
<
1
F
(n
1
1,n
2
1,
2
)
2
1
2
2
2
1
2
2
> F
c
>
1
F
(n
1
1,n
2
1,1)
2
1
2
2
2
1
2
2
< F
c
<
1
F
(n
1
1,n
2
1,)
Carlos Bustos-Lopez
CAP
ISTICA 213
Ejemplo 5.3.3 En un estudio sobre habitos de alimentacion en murcielagos,
se marcan 25 hembras y 11 machos y se les rastrea por radio. Una variable
de interes es la distancia que recorre volando en una pasada en busca de
alimento, se cree que las hembras hacen un recorrido mayor que los machos.
El experimento proporciono la siguiente informacion:
Hembras Machos
n
1
= 25 n
2
= 11
x
1
= 205 metros x
2
= 135 metros
s
1
= 100 metros s
2
= 95 metros
Como s
2
1
/s
2
2
= 100
2
/95
2
= 1,11, se puede considerar que las varianzas
son estadsticamente iguales.
De esa froma se tiene que al realizar la prueba con un 5 % de signicacion:
La hipotesis intrnseca es, H
0
:
1
=
2
versus H
1
:
1
=
2
, as:
t
c
=
(205 135) 0
98,56
_
1
25
+
1
11
= 1,96 ,
y al ser comparado con el valor del estadstico de tabla t
(
25+112,1
0,05
2
)
=
2,0322.
Se tiene que no hay evidencia para rechazar H
0
, es decir, no existen difer-
encias signicativas entre las distancias recorridas por los distintos grupos.
Ademas, el valor p > 0,0608, que es mayor que el nivel de signicacion.
Carlos Bustos-Lopez
CAP
ISTICA 214
5.4. Docimas de Hipotesis No Parametricas
5.4.1. Prueba de Suma de Rangos de Wilcoxon
Es una alternativa a la prueba t para comparar medias cuando no se
cumple el supuesto de normalidad y cuando las muestras son independientes.
Denicion 5.4.1 Sean X
1
, X
2
, . . . , X
n
1
y Y
1
, Y
2
, . . . , Y
n
2
muestras aleato-
rias de dos poblaciones que dieren solo en su medida de tendencia central.
Ademas, las poblaciones tienen la misma forma y dispersion, pero no nece-
sariamente normales.
El procedimiento para la prueba es primero, determinar el rango o posicion
de cada dato en la muestra combinada. Luego se calcula la suma de rangos
para la estadstica T de solo los datos de la primera muestra. Si n
1
10 y
n
2
10, la distribucion de T es aproximadamente normal. Y el estadstico
de prueba es:
Z
c
=
T IE(T)
_
VVar(T)
N(0,1) ,
donde IE(T) = n
1
(n
1
+n
2
+ 1)/2 y VVar(T) = n
1
n
2
(n
1
+ n
2
+ 1)/12.
Y las hipotesis son:
H
1
Existe evidencia en contra de H
0
si:
f
1
(x) esta desplazada de f
2
(y) |Z
c
| > Z
1
2
f
1
(x) esta desplazada hacia la derecha de f
2
(y) Z
c
> Z
1
f
1
(x) esta desplazada hacia la derecha de f
2
(y) Z
c
< Z
Carlos Bustos-Lopez
CAP
ISTICA 215
Ejemplo 5.4.1 Una compa na de taxis quiere probar dos programas para
mejorar el uso del combustible por partye de sus choferes. A los conductores
del programa A, se les asigna un rendimiento objetivo y se les da un bono
cuando lo superan. A los conductores del programa B se les otorga una cuota
mensual maxima de gasolina, si esta se agota, el chofer debera pagar de su
bolsillo la gasolina extra. Todos los taxis son del mismo modelo y se les da
el mismo mantenimiento. Despues de 3 meses, se calcula el rendimiento de
cada chofer en millas recorridas por galon de combustible. Los datos basados
en dos muestras independientes son los siguientes:
A 22, 17 24, 25 26, 33 23, 47 25, 29 23, 99
23, 6 22, 56 23, 34 23, 73
B 22, 43 22, 04 21, 39 22, 95 20, 87 21, 65
22, 82 22, 3 23, 21
Se puede inferir de estos datos que los conductores de taxis del programa A
consumjen mas combustible que los del programa B?
De esa froma se tiene que al realizar la prueba con un 5 % de signicacion:
La hipotesis intrnseca es, H
0
: f
A
(x) = f
B
(x) versus H
1
: f
1
(x) esta
desplazada a la derecha de f
2
(x). Luego determinamos los rangos de las ob-
servaciones:
Carlos Bustos-Lopez
CAP
ISTICA 216
A Rango B Rango
22, 17 5 20, 87 1
22, 56 8 21, 39 2
23, 34 12 21, 65 3
23, 47 13 22, 04 4
23, 60 14 22, 3 6
23, 73 15 22, 43 7
23, 99 16 22, 82 9
24, 25 17 22, 95 10
25, 29 18 23, 21 11
26, 33 19
Ahora se determina la suma de los rangos de la primera muestra T = 137,
como as tambien IE(T) = 10(10 + 9 + 1)/2 = 100, VVar(T) = 10 9(10 + 9 +
1)/12 = 150, de esa forma:
Z
c
=
137 100
150
= 3,02 ,
y al ser comparado con el valor del estadstico de tabla Z
0,975
= 1,96.
Se tiene que hay evidencia para rechazar H
0
, es decir, la distribucion del
grupo A esta desplazada hacia la derecha de de la del grupo B.
Carlos Bustos-Lopez
CAP
ISTICA 217
5.4.2. Docima de Bondad de Ajuste Chi-cuadrado
La idea es poder determinar si una variable con distribucion desconoci-
da, al formular una hipotesis respecto a una posible distribucion de esta es
efectiva o no.
De las observaciones de una muestra se estiman los valores de los paramet-
ros de la funcion de probabdilidad, o de densidad, que se han postulado en
la hipotesis.
Sean:
1. n
i
, es el n umero de observaciones en la i-esima clase.
2. n =
k
i=1
n
i
, es el n umero total de observaciones en las k celdas.
3. p
i
= IP(X = x
i
) o p
i
= IP(x
i1
X x
i
), es la probabilidad que
el valor de x
i
este en la i-esima celda, si la variable es discreta, o la
probabilidad que el valor de la variable este en el intervalo (x
i1
, x
i
) si
la variable es continua.
4.
IE(n
i
) = np
i
n umerop esperado de observaciones en la i-esima celda.
Con estos elementos se dene la estadstica
2
c
, como:
2
c
=
k
i=1
(n
i
IE(n
i
))
2
IE(n
i
)
,
si
2
c
>
2
(ks1,1)
se rechaza la hipotesis que la distribucion de la variable
es la especicada, porque la distancia entre el valor observado y el esperado
es demaciado grande. Donde s es el n umero de parametros de la distribucion
Carlos Bustos-Lopez
CAP
ISTICA 218
que se conjetura que se estiman con las observaciones recolectadas en la
muestra.
Ejemplo 5.4.2 En un experimento sobre la duracion de baterias, en a nos,
se desea comprobar si la distribucion de frecuencias de esta variable sigue
una distribucion normal. Para ello se toma una muestra de 40 baterias y
se registra su duracion hasta que estas dejan de funcionar, los resultados se
resumen en la siguiente tabla
6
:
x
i
X n
i
p
i
n p
i
(n
i
n p
i
)
2
(n
i
n p
i
)
2
n p
i
2, 2 1, 45 2, 95 7 0, 2641 10, 5640 12, 7021 1, 2024
3, 2 2, 95 3, 45 15 0, 2603 10, 4120 21, 0497 2, 0217
3, 7 3, 45 3, 95 10 0, 2485 9, 9400 0, 0036 0, 0004
4, 45 3, 95 4, 95 8 0, 2074 8, 2960 0, 0876 0, 0106
40 3, 2350
As,
2
c
= 3,2350 y al ser comparado con el valor de tabla
(421,10,05)
=
3,841, se tiene que no existe evidencia en contra de suponer que la duracion
de las bateras tengan una distribucion norma.
5.4.3. Tablas de Contingencia
En este caso trabajaremos con variables nominales y ordinales (en general
variables categoricas). Este tipo de variables aparecen en todos los campos,
en particular en ciencias biologicas y ciencias sociales.
6
Note que, los valores de p
i
en la tabla, corresponden al calculo de probabilidad de una
N(3,4; 0,723
2
)
Carlos Bustos-Lopez
CAP
ISTICA 219
Cuando las observaciones en una muestra pueden ser clasicadas de acuer-
do a sus valores con respecto a dos variables categoricas, se puede formar una
tabla de contingencia como una de las formas de estudiarlas conjuntamente.
De esa forma una tabla de este estilo, tiene la siguiente forma:
Y
Y
1
Y
2
Y
J
Total
X
1
n
11
n
12
n
1J
n
1+
X X
2
n
21
n
22
n
2J
n
2+
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
X
I
n
I1
n
I2
n
IJ
n
I+
Total n
+1
n
+2
n
+J
n
++
donde, n
ij
es el n umero de elementos observados en la celda (i, j); n
i+
es el
n umero de elementos totales de la i-esima la; n
+j
es el n umero de elemen-
tos totales de la j-esima columna y n
++
es el n umero de elementos totales
observados, en una tabla de I J. Ademas:
n
i+
=
J
j=1
n
ij
, n
+j
=
I
i=1
n
ij
, n
++
=
I
i=1
J
j=1
n
ij
.
Carlos Bustos-Lopez
CAP
ISTICA 220
Ademas, podemos denir las proporciones observadas en la tabla como:
Y
Y
1
Y
2
Y
J
Total
X
1
p
11
p
12
p
1J
p
1+
X X
2
p
21
p
22
p
2J
p
2+
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
X
I
p
I1
p
I2
p
IJ
p
I+
Total p
+1
p
+2
p
+J
1
donde, p
ij
= n
ij
/n
++
es la proporcion de elementos observados en la celda
(i, j); p
i+
= n
i+
/n
++
es la proporcion de elementos totales de la i-esima la;
p
+j
= n
+j
/n
++
es la proporcion de elementos totales de la j-esima columna.
Ademas:
p
i+
=
J
j=1
p
ij
, p
+j
=
I
i=1
p
ij
,
I
i=1
J
j=1
p
ij
= 1 .
5.4.4. Docima Chi-cuadrado de Independencia
La pregunta clave aca es si existe alg un tipo de asociacion entre dos vari-
ables de una tabla de contingencia. el concepto contrario o complementario
de asociacion es el de independencia estadstica.
Entonces, dos variables categoricas (nominales u ordinales) son estadsti-
camente independientes, si las distribuciones condicionales, en la poblacion,
de una de ellas son iguales para cada nivel de la otra.
Usualmente solo tenemos la informacion de la muestra y desconocemos,
en consecuencia, las distribuciones condicionales en la poblacion. Pero si las
Carlos Bustos-Lopez
CAP
ISTICA 221
variables no son independientes, sus distribuciones condicionales muestrales
discreparan en forma importane.
Pero hay suciente evidencia en los datos para rechazar la independencia
de las variables?
La prueba Chi-cuadrado nos permite docimar la independencia de dos
variables categoricas.
H
0
: Las variables son estadsticamente independientes.
H
1
: Las variables son estadsticamente dependientes.
La estadstica de prueba es:
2
c
=
I
i=1
J
j=1
(o
ij
e
ij
)
2
e
ij
,
donde o
ij
es la frecuencia observada para la celda (i, j) y e
ij
= n
i+
n
+j
/n
++
es
la frecuencia esperada para la celda (i, j) bajo H
0
. Si
2
c
>
2
((I1)(J1),1)
se
rechaza la hipotesis de que las variables son estadsticamente independientes.
Ejemplo 5.4.3 En un estudio sobre la posible inuencia genetica de la mano
diestra de los padres (derecha o izquierda) sobre la mano diestra de sus hijos,
una muestra de 400 ni nos fueron clasicados de acuerdo a su mano diestra
Carlos Bustos-Lopez
CAP
ISTICA 222
y a la de sus padres, obteniendose:
Mano diestra Mano diestra hijo
Padre-Madre Derecha Izquierda Total
Derecha-Derecha 303 37 340
Derecha-Izquierda 29 9 38
Izquierda-Izquierda 16 6 22
Total 348 52 400
Nota:
Podemos usar el docima Chi-cuadrado cuando se cumple lo siguiente:
1. Para tablas 22, las frecuencias observadas deben ser al menos iguales
a cinco para cada celda.
2. Para tablas mas grandes, la frecuencia observada debe ser al menos
igual a cinco en el 75 % de las celdas y mayor a 1 en el resto.
Ejemplo 5.4.4 En una empresa se desea estudiar si existe una dependencia
entre el nivel de las remuneraciones y los a nos de experiencia del person-
al de su planta de profesionales. Con este objetivo, se clasican las remu-
neraciones, seg un su monto, en tres categoras (I,II y III) y los a nos de
experiencia, de acuerdo a su n umero en cuatro categoras (A,B,C y D).
La informacion obtenida de acuerdo a una muestra aleatoria de 100 ob-
Carlos Bustos-Lopez
CAP
ISTICA 223
servaciones es la siguiente:
Experiencia
A B C D Total
I 4 11 9 14 38
Remuneracion II 12 9 8 4 33
III 10 6 7 6 39
Total 26 26 24 24 100
Carlos Bustos-Lopez
Captulo 6
Muestreo
El interes de tomar una muestra esta basicamente centrado que, en muchas
ocaciones el tama no de la poblacion en estudio es muy grande o desconocido,
como para tomar los datos de cada elemento que la componen, ademas los
costos involucrados son muy altos y se requiere de mucho tiempo para llevar
a cabo este proceso. De esa forma es recomendable tomar una muestra de un
tama no menor a la poblacion, pero que es representativa de ella, desde donde
se extraeran, mediante un proceso de estimacion, los valores estimados de
los correspondientes parametros de interes.
Principalmente se distinguen dos tipos de muestreos, el probabilstico y
el no probabilstico, de ellos solo nos centraremos en el primero. Una muestra
probabilstica tiene como caracterstica basica que, cualquier elemento de la
poblacion tiene la misma probabilidad (= 0) conocida de ser incluido en la
muestra.
Existen varios metodos de muestreos probabilsticos, siendo los mas famosos:
el Muestreo Aleatorio Simple (m.a.s.), el Muestreo Aleatorio Estraticado y
224
CAP
n
i=1
x
i
n
, V ar(p
x
) =
p
x
(1 p
x
)
n
_
N n
N 1
_
.
Pero para poblaciones grandes (N 40) los estimadores siguen asintotica-
mente una distribucion Normal.
As, si queremos asegurar que el valor de nuestra estimacion este con-
tenido en un intervalo de (1 )100 % de conanza, realizamos la siguiente
construccion:
Carlos Bustos-Lopez
CAP
i=1
N
i
= N ,
donde N
i
es la cantidad total de elementos del i-esimo estrato, tambien se
puede determinar la proporcion que representan cada estrato en la poblacion
como p
i
= N
i
/N, que cumple:
k
i=1
p
i
= 1 ,
de esa forma si se desea extraer una muestra de tama no n desde la poblacion,
los elementos en la muestra deben ser distribuidos como:
n
i
=
N
i
N
n = p
i
n , con
k
i=1
n
i
= n ,
de esa forma la muestra debe contener n
i
elementos del i-esimo estrato.
6.1.3. Muestreo Sistematico.
Se fundamenta en que, el espacio muestral es listado en forma arbitrara,
lo cual produce bloques o grupos que son articiales, por lo cual es necesario
quitar el efecto lista. La idea es seleccionar los n elementos de la muestra,
descartando cada k de ellos. El procedimiento consiste en:
1. Seleccionar un n umero aleatorio m tal que 1 m N, como el punto
de partida para el muestreo, de tal forma que el elemento en la posicion
m, constituye el primer elemento de la muestra.
Carlos Bustos-Lopez
CAP
n
. .
X + Z
1
n
. .
_
_
Es decir, se puede considerar un error para la estimacion del verdadero
valor de la media poblacional, y de esa forma se puede despejar el valor de
n.
As, una forma rapida de determinar el tama no muestral para realizar
inferencia sobre la media de una poblacion, con un nivel de conanza de
(1 ) 100 %, donde la variaci on poblacional es y se pretende cometer
un error de a lo mas un , se puede emplear la siguiente formula:
n =
_
Z
1
_
2
.
Carlos Bustos-Lopez
CAP
2
_
p
0
(1 p
0
)
_
2
.
Que permite determinar el tama no muestral para realizar inferencia sobre la
proporcion de una poblacion, con un nivel de conanza de (1 ) 100 %,
y se pretende cometer un error de a lo mas un .
Ejemplo 6.1.1 Cuantas observaciones son necesarias si la desviacion
estandar de la duracion de los aullidos es = 0,25 y se quiere realizar
una estimacion de la duracion media, con un 95 % de conanza y se
desea cometer un error de a lo mas 5 segundos?
n =
_
1,96 0,25
0,08
_
2
= 37,5 38 .
Si consideramos ahora un nivel de conanza del 99 %, se tiene que:
n =
_
2,57 0,25
0,08
_
2
= 64,5 65 .
6.1.5. Plan de Muestreo
1. Primera etapa: Bajo Muestreo Aleatorio Simple y normalidad asint otica,
se tiene que el intervalo de conanza a (1 )100 % para p
x
esta dado
por:
p
x
Z
1/2
SE(p
x
) , (6.1)
Carlos Bustos-Lopez
CAP
, (6.2)
donde
SE(p
x
) =
_
p
x
(1 p
x
)
n
_
N n
N 1
__
1/2
,
el cual incorpora el factor de correccion por nitud para tama nos de
poblacion conocidas, se tiene en (2) que:
Z
1/2
_
p
x
(1 p
x
)
n
_
N n
N 1
__
1/2
,
luego,
n
Z
2
1/2
p
x
(1 p
x
)N
(N 1)
2
+ Z
2
1/2
p
x
(1 p
x
)
, (6.3)
de esa forma se determina el mnimo n (tama no muestral) que garantiza
que el intervalo contenga al estimador con (1 )100 % de conanza.
2. Segunda etapa: En general, y este caso no es la escepcion, los com-
ponentes de una poblacion tienen caractersticas que as como los difer-
encian entre ellos tambien otras los reunen en grupos homogeneos en
Carlos Bustos-Lopez
CAP
L
h=1
n
h
y
N =
L
h=1
N
h
, luego:
n
h
=
N
h
p
h
(1 p
h
)n
L
h=1
N
h
p
h
(1 p
h
)
, (6.4)
donde p
h
corresponde a la proporcion de los elementos del estrato h en
la poblacion.
Ademas (4) es una muestra autoponderada obtenida a traves de un
muestreo estraticado, pero con el afan de lograr las mejores estima-
ciones posibles, se ha determinado (4) mediante una ajacion optima,
de tal forma que las varianzas de los estimadores sea la menor posi-
ble, es decir, hemos considerado el costo de tomar un elemento dentro
de un estrato, se incorpora el efecto que pueden tener las diferencias
signicativas de las varianzas de los estratos.
3. Tercera etapa: Como se menciono anteriormente la poblacion puede
estar compuesta de estratos y estos a su vez por subestratos, de esa for-
ma si consideramos nuevamente un muestreo estraticado para obtener
una muestra autoponderada con ajacion optima dentro de cada estra-
to se puede proceder como:
Sean i = 1, . . . , I, con I n umero de subestratos dentro del estrato h =
1, . . . , L, N
hi
el n umero de elementos de la poblacion que corresponden
Carlos Bustos-Lopez
CAP
I
i=1
N
hi
p
hi
(1 p
hi
)
. (6.5)
4. Cuarta etapa: Luego de determinados los tama nos muestrales en los
subestratos, estratos y de la poblacion muestral, procedemos a selec-
cionar los elementos. Existen varias tecnicas de seleccion, por ejemplo
repeticion del m.a.s., o a traves de un muestreo sistematico de salto
sitematico k = N/n.
Carlos Bustos-Lopez
CAP