Professional Documents
Culture Documents
Estadistica Curso de Estadistica Inferencial
Estadistica Curso de Estadistica Inferencial
DEPARTAMENTO DE MATEMATICAS
GUIA DE ESTUDIO
E
ES
EST
ESTA
ESTAD
ESTADI
ESTADIS
ESTADIST
ESTADISTI
ESTADISTIC
ESTADÍSTICA
INFERENCIAL
INFERENCIA
INFERENCI
INFERENC
INFEREN
INFERE
INFER
INFE
INF
IN
I
Abril de 2006
.
INTRODUCCION
2
CONTENIDO TEMATICO
I.- ESTIMACION.
3
1.1 INTRODUCCION AL MUESTREO Y DISTRIBUCIONES DE
MUESTREO.
En años recientes, las técnicas de muestreo se han usado cada vez más para
obtener información en muchas áreas, tales como:
1.- Opinión pública del resultado de elecciones políticas antes de las elecciones,
índices de audiencias televisivas, cuestiones de guerra, impuestos, etc.
4
El muestreo se clasifica en dos grandes ramas: El muestreo aleatorio o
probabilístico y el no aleatorio, también llamado de juicio ( no interviene el azar ).
A su vez, el muestreo aleatorio se divide o clasifica en:
1.- Muestreo aleatorio simple. Qué es el más sencillo y por consiguiente el más
usado. Se seleccionan las muestras mediante métodos que permitan a cada muestra
tener igual probabilidad de ser seleccionada y a cada elemento de la población
entera tener igual probabilidad de quedar incluido en la muestra.
Ejemplo.
ESTUDIANTES A,B,C Y D
5
3.- Muestreo Estratificado.- Para aplicar este tipo de muestreo, la población tiene
que dividirse en grupos homogéneos relativos, llamados estratos. Después se
recurre a uno de dos métodos posibles. O bien seleccionamos al azar en cada
estrato un número específico de elementos correspondientes a la proporción del
estrato de la población total o se extrae un número igual de elementos de cada
estrato y damos un peso a los resultados de acuerdo con la proporción del estrato
en la población total. En cualquiera de los dos casos, se garantiza que todos los
elementos de la población tengan una probabilidad de ser seleccionados.
Se recomienda utilizar este proceso cuando cada grupo presenta una pequeña
variabilidad en su interior, pero exista una amplia variación entre ellos.
b) Muestreo para poblaciones infinitas.- Se dice que una muestra aleatoria simple
de una población infinita es la que satisface las siguientes dos condiciones:
6
Un instrumento de apoyo en este proceso, es la Tabla de Números Aleatorio
63271 59986 71744 51102 15141 80714 58683 93108 13554 79945
88547 09986 95436 79115 08303 01041 20030 63754 08459 28364
55957 57243 83865 09911 19761 66535 40102 26646 60147 15702
46276 87453 44790 67122 45573 84358 21625 16999 13385 22782
55363 07449 34835 15290 76616 67191 12777 21861 68689 03263
69393 92785 49902 58447 42048 30738 87618 26933 40640 16281
13186 29431 88190 04588 38733 81290 89541 70290 40113 08243
17726 28652 56836 78351 47327 18518 92222 55201 27340 10493
36520 64465 05550 30157 82242 29520 69753 72602 23756 54935
81628 36100 39254 56835 37636 02421 98063 89641 64953 99337
84649 48968 75215 75498 49539 74240 03466 49292 36401 45525
63291 11618 12613 75055 43915 26488 41116 64531 56827 30825
70502 53225 03655 05915 37140 57051 48393 91322 25653 06543
06426 24771 59935 49801 11082 66762 94477 02494 88215 27191
20711 55609 29430 70165 45406 78484 31639 52009 18873 96927
41990 70538 77191 25860 55204 73417 83920 69468 74972 38712
72452 36618 76298 26678 89334 33938 95567 29380 75906 91807
37042 40318 57099 10528 09925 89773 41335 96244 29002 46453
53766 52875 15987 46962 67342 77592 57651 95508 80033 69828
90585 58955 53122 16025 84299 53310 67380 84249 25348 04332
32001 96293 37203 64516 51530 37069 40261 61374 05815 06714
62606 64324 46354 72157 67248 20135 49804 09226 64419 29457
10078 28073 85389 50324 14500 15562 64165 06125 71353 77669
91561 46145 24177 15294 10061 98124 75732 00815 83452 97355
13091 98112 53959 79607 52244 63303 10413 63839 74762 50289
7
Cuando hablamos de las características y medidas de la población, éstas se
consideran parámetros ( media μ , desviación estándar σ y proporción p ),
mientras que en la muestra se denominan estadísticos ( media x , desviación
estándar s y proporción p ).
Población Se selecciona, en la
con media población una muestra
μ =? aleatoria simple de
n elementos.
8
Valor Esperado de x .- Cuando se utilizan distintas muestras aleatorias simples,
dan como resultado varios valores de la media de la muestra x . Como son posibles
muchos valores distintos de la variable aleatoria x , nos debe interesar la media de
todos esos valores posibles, es decir, esa media es el valor esperado de x . Sea
E (x) el valor esperado de x , y μ la media de la población de donde se toma la
muestra, para el muestreo aleatorio simple, los dos valores son iguales:
E ( x) = μ
9
Desviación Estándar de la Distribución Muestral de Medias. Para definir éste
valor es necesario declarar la siguiente notación:
N −n σ σ
σx = ( ) σx =
N −1 n n
10
Distribución de Probabilidad Normal. Es un tipo de Distribución Continua, que
tiene las siguientes propiedades:
a b
X
z 1 z 2
11
12
13
EJERCICIOS PARA LA DISTRIBUCION NORMAL
3.- Los pesos netos de los paquetes de cierto cereal tienen una media de 16
onzas y una desviación estándar de 0.5 onzas. Los pesos están normalmente
distribuidos.¿ Cuál es la probabilidad de que una muestra aleatoria de 25
paquetes tenga un peso neto promedio comprendido entre 15.8 y 16.2 onzas?
14
Distribución Muestral de p .- Existen muchos casos en la administración de
negocios y en la economía, donde se usa la proporción muestral p para hacer
inferencias estadísticas sobre la proporción poblacional p , como se muestra en la
figura 2.
E ( p) = p
15
Desviación Estándar de p . La desviación estándar de p se llama error estándar
de la proporción .También aquí se manejan dos ecuaciones o fórmulas,
según el tipo de población:
N −n p (1 − p ) p (1 − p )
σp = σp =
N −1 n n
Se sigue la misma regla que para la media de la muestra, si la población es finita y
n
≤ 0.05 se usará la segunda fórmula.
N
La distribución muestral de p se puede aproximar con una distribución de
probabilidad normal, siempre que el tamaño de la muestra sea grande:
1.- np ≥ 5 .
2.- n(1 − p) ≥ 5
Estos son algunos de los conceptos básicos que se deben considerar como
introductorios para iniciar el tema de Estimación.
¿ Qué es una Estimación ? . Decimos que estamos estimando algo, cuando tenemos
una idea acerca del valor que tiene o que puede tomar una variable, un estadístico o
un parámetro.
16
tamaño de la muestra, el estimador puntual tiende aproximarse
al valor real del parámetro de la población.
1.- Se han reunido los siguientes datos de una muestra aleatoria simple.
5 8 10 7 10 14
a) ¿ Cuál es la estimación puntual de la media de la población ?.
b) ¿ Cuál es la estimación puntual de la desviación estándar de la población ?.
Mes: 1 2 3 4 5
Unidades vendidas: 94 100 85 94 92
Total 784
17
4.- En la revista Appliance Magazine se publicaron estimaciones acerca de la
esperanza de vida de los aparatos del hogar (USA Today, 5 de septiembre de
2000 ). En una muestra aleatoria simple de 10 videocaseteras se observó la
siguiente vida útil en años:
6.5 8.0 6.2 7.4 7.0 8.4 9.5 4.6 5.0 7.4
6.- Una población tiene una media de 200 y una desviación estándar de 50. Se
tomará una muestra aleatoria simple de tamaño 100 y se usará la media de la
muestra x para estimar la media de la población.
7.- Una población tiene una media de 200 y una desviación estándar de 50.
Suponga que se selecciona una muestra simple de tamaño 100 y que se usa x
para estimar la media de la población.
18
8.- Suponga que la desviación estándar de la población es 25. Calcule el error
estándar de la media x , para el tamaño de muestra de 50,100,150 y 200.
¿ Qué se puede decir acerca del tamaño del error estándar de la media cuando
aumenta el tamaño de la muestra?
10.- Una población tiene una media de 100 y una desviación estándar de 16.¿
Cuál es la probabilidad de que una media de una muestra quede ± 2 o menos
de la media de la población, en cada uno de los siguientes tamaños muestrales?
a).- n = 50
b).- n = 100
c).- n = 200
d).- n = 400
e).- ¿ Cuál es la ventaja de un tamaño grande de muestra?
19
1.3 ESTIMACIONES POR INTERVALO
x ± margen de error
p ± margen de error
x − μ = error de muestreo
a) Se supone que se conoce σ .
El procedimiento general que se sigue en este caso es el siguiente:
20
Estimación del intervalo de una media poblacional: caso muestra
grande (n ≥ 30) en el cual se supone que se conoce σ :
σ
x ± zα
n
2
α
origina un área de en la cola o extremo superior de la distribución
2
de probabilidad normal estándar.
Por medio de las tablas de áreas para la distribución normal estándar, un área de
α 0.05
= = 0.025 en el extremo superior da z 0.025 = 1.96 .
2 2
20
82 ± 1.96
100
82 ± 3.92
Por lo tanto, el margen de error es 3.92 y el intervalo de confianza es:
21
82 − 3.92 = 78.08 a 82 + 3.92 = 85.92
Lo cual indica que se puede tener una confianza de 95 % de que la media de la
población se encuentra entre 78.08 y 85.92.
α
Nivel de confianza α zα
2 2
90 % 0.10 0.050 1.645
95 % 0.05 0.025 1.960
98 % 0.02 0.010 2.330
99 % 0.01 0.005 2.576
20
82 ± 2.576
100
82 ± 5.15
s
x ± zα
n 2
22
Para ilustrar este procedimiento, consideremos un estudio de muestreo diseñado
para estimar la deuda de tarjetas de crédito de los hogares estadounidenses. Una
muestra de 85 hogares proporcionó la información siguiente:
Con n=85 tenemos un caso de muestra grande, pero si no contamos con un historial
acerca de los balances de las tarjetas de crédito, la desviación estándar de la
población σ se estimará mediante la desviación estándar de la muestra s . Para
construir un intervalo de confianza de 95 % de la media poblacional. Primero se usan
los datos de la muestra y estos dan x = 5900 dólares y la desviación estándar
s = 3058 dólares. Al nivel de confianza de 95 % , z α = z 0.025 = 1.96 .
2
s
Esto muestra que: x ± z α
2 n
3058
5900 ± 1.96
85
5900 ± 650
En consecuencia, el margen de error de 650 dólares y la estimación del intervalo de
confianza de 95 % queda: 5900-650=5250 a 5900+650=6550 dólares. Por lo
cual se tiene un nivel de confianza de 95 % de que el balance promedio poblacional
de tarjetas de crédito para todos los hogares está entre 5250 y 6550 dólares.
23
EJERCICIOS
1.- Una muestra aleatoria simple de 40 elementos dio como resultado una
media muestral de 25. La desviación estándar de la población es σ = 5 .
24
ESTIMACION DEL INTERVALO DE UN PROMEDIO
POBLACIONAL: CASO DE MUESTRA PEQUEÑA
El análisis se inicia suponiendo que la población tiene una distribución normal y que
se conoce la desviación estándar de la población σ . Bajo estas condiciones, la
distribución muestral de x tiene una distribución normal con media μ y desviación
σ
estándar σx = para cualquier tamaño de muestra. Por todo lo anterior, el
n
procedimiento de estimación del intervalo es el siguiente:
α
origina un área de en la cola o extremo superior de la distribución
2
de probabilidad normal estándar.
25
Se usa un subíndice en t para indicar el área en la cola superior de la distribución
t . Por ejemplo t 0.025 indica una área de 0.025 en el extremo superior de la
distribución, con 10 grados de libertad, da una lectura de 2.228 en la Tabla de
distribución t como la que se muestra a continuación:
26
Para hacer la estimación por intervalo, aplicamos lo siguiente:
1 52
2 44
3 55
4 44
5 45
6 59
7 50
8 54
9 62
10 46
11 54
12 58
13 60
14 62
15 63
27
En primer lugar se obtiene la media de la muestra:
x=
∑x =
52 + 44 + ... + 63 808
= = 53.866 días
n 15 15
n −1
s ⎛ 6.82 ⎞
Por lo tanto: x ± tα = 53.87 ± 2.145⎜⎜ ⎟⎟
2 n ⎝ 15 ⎠
53.87 ± 3.78
28
EJERCICIOS
a) A la izquierda de 1.782.
b) A la derecha de -1.356.
c) A la derecha de 2.681.
d) A la izquierda de -1.782.
e) Entre -1.356 y 1.782.
29
RESUMEN DE PROCEDIMIENTOS DE ESTIMACION DEL INTERVALO
PARA UNA MEDIA POBLACIONAL.
30
DETERMINACION DEL TAMAÑO DE LA MUESTRA
σ
x ± zα
2 n
La cantidad que se suma y resta es el margen de error, donde se combinan los
valores de z α , la desviación estándar poblacional σ y el tamaño de la muestra n
2
para determinar su valor. Cuando ya se selecciona el coeficiente de confianza 1- α ,
se puede determinar z ε , entonces al tener un valor para σ , podremos calcular el
2
tamaño de la muestra utilizando la fórmula que a continuación se analiza:
σ
E = zα ( )
2 n
De donde despejamos n .
zα σ
n= 2
(zα )2σ 2
n= 2
. Tamaño de la muestra para una estimación del intervalo
E2
de una media poblacional.
Con este tamaño de muestra, se puede obtener el margen deseado de error con el
nivel de confianza elegido.
Para poder aplicar esta última ecuación, se requiere un valor para la desviación
estándar de la población σ , el cual en la mayoría de los casos prácticos se
desconoce. Sin embargo se puede aplicar dicha ecuación, si se cuenta con un valor
de planeación de σ . El cual se puede manejar bajo los siguientes criterios
prácticos:
1.- Usar la desviación estándar muestral de una muestra previa de las mismas
unidades, o de otras parecidas.
31
2.- Usar un estudio piloto para seleccionar una muestra preliminar de unidades. La
desviación estándar muestral de ella se puede usar como el valor de planeación de
σ.
3.- Usar el juicio o una “mejor estimación” del valor de σ . Por ejemplo, se puede
comenzar estimando los valores máximo y mínimo de los datos de la población. La
diferencia entre ellos proporciona una estimación del rango de los datos. Por último,
se sugiere tomar el rango dividido entre cuatro como una aproximación de la
desviación estándar para contar con un valor de planeación aceptable para σ .
(zα ) 2σ 2
n= 2
E2
(1.96) 2 (9.65) 2
n= = 89.43
22
Así pues, el tamaño de muestra para el estudio debe ser por lo menos de 89.43
rentas de automóviles medianos para las condiciones dadas.
32
EJERCICIOS
1.- ¿ De qué tamaño debe ser una muestra para poder tener 95 % de
confianza en que el error muestral es de 5 o menor ?. Suponga que la
desviación estándar de la población es de 25.
33
ESTIMACION DEL INTERVALO DE UNA PROPORCION DE LA POBLACION.
p (1 − p )
Donde 1 − α es el coeficiente de confianza. Como σp = , la ecuación
n
p (1 − p )
para el intervalo queda: p ± z α .
2
n
34
Por ejemplo, en los Estados Unidos se realizó una encuesta nacional de 902
mujeres golfistas para conocer como consideran el trato que reciben en los cursos
de golf. En la encuesta se encontró que 397 mujeres golfistas estuvieron
satisfechas con la disponibilidad de tiempos de tee . Así, la estimación puntual de la
proporción de la población de mujeres golfistas que están satisfechas con la
397
disponibilidad de los tiempos de tee es = 0.44 . Al utilizar la ecuación para
902
hacer una estimación por intervalo para la proporción poblacional, con un nivel de
confianza de 95 % :
p (1 − p )
p ± zα
2
n
0.44(1 − 0.44)
0.44 ± 1.96
902
0.44 ± 0.0324
35
DETERMINACION DEL TAMAÑO DE LA MUESTRA.
p(1 − p )
E = zα
2
n
( z α ) 2 p (1 − p )
Al despejar n de la fórmula anterior nos queda: n = 2
.
E2
Para utilizar esta ecuación es necesario fijar el margen de error deseado E; en la
mayoría de los casos , E es 0.10 o menor. Como en la mayoría de los casos prácticos
se desconoce la proporción poblacional, se debe utilizar un valor de planeación que
se elige de diferentes maneras:
1.- Usar la proporción muestral de una muestra anterior de las mismas unidades.
2.- Llevar a cabo un estudio piloto para seleccionar una muestra preliminar de
unidades. La proporción muestral a partir de esta muestra se puede usar
como valor de planeación.
Si regresamos al ejemplo de las mujeres golfistas, ¿ qué tan grande debe ser la
muestra si el director de la encuesta quiere estimar la proporción poblacional con
un margen de error de 0.025 con un nivel de confianza de 95 % ?.
Por consiguiente, el tamaño de muestra debe ser de al menos 1514.51, lo cual nos
lleva a determinar que debe ser el entero siguiente 1515 mujeres.
36
EJERCICIOS
1.- Una muestra aleatoria simple de 400 artículos contiene 100 respuestas
Sí.
2.- Una muestra aleatoria simple de 800 unidades genera una proporción
p = 0.70 .
37
II.-PRUEBAS DE HIPOTESIS
Introducción.
1.- El número medio de kilómetros que rueda una llanta radial Goodyear con banda
de acero es de más de 96,500 kilómetros ( 60,000 millas)
2.- Una familia estadounidense típica vive en el mismo hogar durante más de 11.8
años.
3.- El salario inicial medio para los licenciados en administración es de 26,000
dólares al año.
4.- Advil aliviará los síntomas de la jaqueca en menos de 20 minutos.
38
¿ Qué es la prueba de hipótesis?
Ejemplo: Un artículo indicó que la edad media de los aviones comerciales en Estados
Unidos es de 15 años. Para realizar una prueba estadística sobre esta afirmación ,
el primer paso consiste en determinar la hipótesis nula y alternativa. La hipótesis
nula representa la condición actual o declarada. Se escribe Ho: μ = 15 . La hipótesis
alternativa es que la afirmación no es verdad, es decir, H1: μ ≠ 15 . Es importante
recordar que, sin importar como se determina el problema, la hipótesis nula siempre
contendrá el signo igual. El signo igual (=) nunca aparecerá en la hipótesis
alternativa.¿Por qué? Porque la hipótesis nula es la declaración que se prueba, y es
necesario incluir un valor específico en los cálculos. La hipótesis alternativa se
observa si se demuestra que no es verdad la hipótesis nula.
39
Paso #2: Seleccionar un nivel de significancia.
Luego de establecer la hipótesis nula y alternativa, el siguiente paso consiste en
definir el nivel de significancia.
Nivel de significancia: La probabilidad de rechazar la hipótesis nula cuando es
verdadera.
Para ilustrar como se puede rechazar una hipótesis verdadera, suponga que una
firma que fabrica computadoras personales utiliza una gran cantidad de tarjetas de
circuitos impresos. Los proveedores concursan para abastecer las tarjetas y, a
quien presenta la cotización más baja, se le otorga un contrato considerable.
Suponga también que el contrato especifica que el departamento de control de
calidad del fabricante de las computadoras hará un muestreo de todos los
embarques de tarjetas de circuitos que reciba. Si más del 6% de las tarjetas de la
muestra están por debajo de la norma, el embarque será rechazado. La hipótesis
nula es que los embarques de tarjetas que se reciben contienen 6% o menos de
tarjetas por debajo de la norma. La hipótesis alternativa es que está defectuoso
más del 6% de las tarjetas.
40
La probabilidad de cometer otro tipo de error, llamado error tipo II, se designa
por la letra griega β .
Una regla de decisión es una afirmación de las condiciones bajo las que se rechaza
la hipótesis nula y bajo las que no se rechaza. El área o región de rechazo define la
ubicación de todos aquellos valores que son tan grandes o tan pequeños que la
probabilidad de que ocurran bajo una hipótesis nula verdadera es bastante remota.
Valor crítico: Punto de división entre la región en que se rechaza la hipótesis nula y
la región en la que no se rechaza.
41
La región crítica para la hipótesis alternativa μ < μ o cae en la cola izquierda de la
distribución del estadístico de prueba, mientras que la región crítica para la
hipótesis alternativa μ > μ o cae por completo en la cola derecha.
Una prueba de cualquier hipótesis estadística donde la alternativa bilateral, tal
como:
Ho : μ = μo
recibe el nombre de prueba de dos colas, ya que la región crítica se divide en dos
partes, generalmente con iguales probabilidades en cada cola de la distribución del
estadístico de prueba. La hipótesis alternativa μ ≠ μ o , establece que μ < μ o o
μ > μo .
Siempre se establecerá la hipótesis nula, Ho utilizando el signo igual, con objeto de
especificar un solo valor. De está forma, la probabilidad de cometer un error tipo I
puede ser controlada.
42
PRUEBA DE DOS COLAS:
43
Paso #4:La regla de decisión se fórmula hallando los valores críticos de z.
Paso #5: Debido a que el valor del estadístico de prueba z= 1.55 cae dentro de la
región de aceptación, la hipótesis nula no se rechaza. Se llega a la conclusión que la
media de la población no es diferente de 200.
Solución:
a).- HO : μ = 68 litros
H1 : μ ≠ 68 litros
b).- La probabilidad de cometer el error tipo I es α = 0.05
X −μ
c).- z=
σ/ n
44
z = -2.67
17.0 − 18.0
e).- z = = −2.67
3 / 64
45
Los valores críticos para una prueba de una cola son distintos de los de dos colas al
mismo nivel de significancia, porque todo el “riesgo” se encuentra en una sola
dirección.
Solución:
46
Paso #5: Se acepta la hipótesis nula, debido a que el valor calculado del estadístico
de prueba es mayor que el valor crítico, por lo que el contenido promedio de los
refrescos es de 21.9 decilitros.
EJERCICIOS
Ejemplo: Una empresa eléctrica fabrica focos que tienen una duración que está
distribuida aproximadamente en forma normal con una media de 800 horas y una
desviación estándar de 40. Pruebe la hipótesis de que μ = 800 horas en
contraposición de la alternativa de que μ ≠ 800 horas, si una muestra aleatoria de
30 focos tiene una duración promedio de 788 horas. Utilice un nivel de significancia
de 0.04.
Ejemplo :Se afirma que un automóvil recorre un promedio anual de 20,000 km.. Para
probar esta afirmación, se le solicita a una muestra aleatoria de 100 propietarios
de automóvil que lleve un registro de los kilómetros que recorren. ¿ Estaría usted
de acuerdo con esta afirmación si en la muestra aleatoria resulta un promedio de
23,500 km. Y una desviación estándar de 3900 km?. Use un nivel de significancia de
0.05.
47
EJERCICIOS COMPLEMENTARIOS
a).- ¿ Cuales son los valores críticos para el estadístico de prueba y cuál es la regla
de rechazo para H0?.
b).- Suponga que en una muestra de seguimiento de 112 trabajadores la media
muestral es de 38.5 horas y que la desviación estándar muestral es de 4.8 horas.
¿Cuál es el valor del estadístico de prueba?.
c).- ¿ Se puede rechazar la hipótesis nula?. ¿ Cuál es su conclusión?
48
5.- Las empresas CNN y ActMedia fundaron un canal de TV que presentaba
noticias, novedades y anuncios dirigido a individuos que esperan en las filas de
cajas de supermercados. Los programas de TV fueron diseñados con un ciclo de
8 minutos, suponiendo que la media del tiempo que espera un cliente en la fila
es 8 minutos. Una muestra de 120 compradores en un gran supermercado
produjo una media de 7.5 minutos de tiempo de espera, con 3.2 minutos de
desviación estándar. Pruebe H0 : μ = 8 y H1 : μ ≠ 8 con α = 0.05 .
a).- ¿ Cuales son los valores críticos de el estadístico de prueba y cuál es la regla de
rechazo?
b).- Calcule el valor del estadístico de prueba.
c).- ¿ Cuál es su conclusión?.
7.-El fabricante de la llanta radial con banda de acero X-15 para camión
afirma que la distancia media que puede rodar la llanta antes de que se
desgaste es de 96500 km.,(60,000 millas).La desviación estándar de esta
distancia es de 8000km(5000 millas ).Crosset Truck Company compró 48
llantas y descubrió que la distancia media en sus camiones fue de 95700 km.,
(59500 millas).¿ La experiencia de Crosset es distinta de la que afirma el
fabricante en el nivel de significancia de 0.05?.
8.- Una encuesta nacional reciente descubrió que los estudiantes de secundaria
veían una media de 6.8 videos por mes. Una muestra aleatoria de 36
estudiantes universitarios reveló que el número medio de videos que vieron por
mes fue de 6.2, con una desviación estándar de 0.5.
En el nivel de significancia de 0.05, ¿ es posible concluir que los estudiantes
universitarios ven menos videos al mes que los de secundaria?.
49
9.- Una nueva empresa dedicada al cuidado del peso, Weight Reducers
Internacional, anuncia que todos los que se inscriban perderán, en promedio,
4.5 kilogramos ( 10 libras ) en las primeras dos semanas. Una muestra
aleatoria de 50 personas inscritas al programa reveló que la pérdida media de
peso fue de 4 kilogramos ( 9 libras ). La desviación estándar de la muestra se
calculó en 1.27 kilogramos(2.8 libras ). En el nivel de significancia de 0.05, ¿
es posible concluir que aquellos que se unen al programa de reducción de peso
perderán más de 4.5 kilogramos ( 10 libras ).
11.- Según el líder sindical local, el ingreso medio de los plomeros en el área
de Salt Lake City tiene una distribución normal, con una media de 30,000
dólares y una desviación estándar de
3000 dólares. Hace poco, un reportero de investigación de una estación
televisora local descubrió, para una muestra de 120 plomeros, que el ingreso
promedio bruto fue de 30,500 dólares. En el nivel de significancia de 0.10,¿ es
posible concluir que el ingreso medio no es igual a 30,000 dólares?.
50
Valor p en la prueba de hipótesis.
51
PRUEBAS SOBRE LA MEDIA DE UNA POBLACION: caso de muestra pequeña.
x − μo
t= ; donde :
s
n
t= distribución t de student.
x = media muestral.
μo = media hipotética poblacional.
s = desviación estándar muestral.
n = tamaño de la muestra.
Solución:
52
Paso # 2: Como se observó, se utiliza un nivel de significancia de 0.05. Éste es α,
la probabilidad de cometer un error tipo I.
x − μo 7.75 − 7
t= = = 2.14
s 1.215
n 12
Paso #4:Se formula la regla de decisión: El valor crítico t=1.796 es menor que el
valor calculado del estadístico de prueba t=2.14.
Paso #5:Tomar una decisión :Debido a que el valor del estadístico de prueba es
mayor que el valor crítico, la hipótesis nula se rechaza.
Solución:
1er. Paso: Se establecen las hipótesis nula y la alternativa:
HO : μ ≥ $60
H1 : μ < $60
53
2do. Paso : Selecciona el nivel e significancia: Se utiliza el nivel de 0.01
5to. Paso: Tomar una decisión: Dado que el valor calculado del estadístico de
prueba
t = -1.530 esta situado a la derecha del valor crítico t=-2.485, la hipótesis nula no
se rechaza.
54
Solución:
x − μ 41.5 − 43.0
t= = = −2.92
s 1.78
n 12
Paso #5: Se toma una decisión : El valor calculado del estadístico de prueba está a
la izquierda del valor crítico t =-2.718, por lo que se rechaza la hipótesis nula.
55
EJERCICIOS
Ejemplo: Se calibró una máquina para que llenara una pequeña botella con 9.0
gramos de medicina. Se alega que el peso medio es menor que 9.0 gramos. La
hipótesis se probará en el nivel de significancia de 0.01. Una muestra reveló los
siguientes pesos ( en gramos ): 9.2,8.7,
8.9,8.6,8.8,8.5,8.7y9.0.
a).- Establezca las hipótesis nula y alternativa
b).- ¿ Cuántos grados de libertad tiene?
c).- Proporcione la regla de decisión
d).- Calcule t y llegue a una decisión.
56
EJERCICIOS COMPLEMENTARIOS
1.- Los registros muestran que la vida promedio de una batería utilizada en un
reloj digital es de 305 días. Las duraciones de las baterías tienen una
distribución normal. La batería se modificó recientemente y se probó una
muestra de 20 baterías modificadas. La vida promedio fue de 311 días, y la
desviación estándar de la muestra fue de 12 días. Para un nivel de
significancia de 0.05,¿ la modificación incrementó la vida promedio de la batería?.
a).- Establezca las hipótesis nula y alternativa
b).- Muestre en forma gráfica la regla de decisión
c).- Calcule t y llegue a una decisión.
4.- Los registros de los camiones Yellowstone revelaron que la duración media
de un juego de bujías es de 35,558.9 km. Un fabricante aseguró que sus
bujías tienen una duración promedio que excede esa cifra. El dueño de la
flotilla adquirió una gran cantidad de juegos. Una muestra de 18 de ellos
reveló que la duración media de la muestra era 37,650.6 km., y que la
desviación estándar era de 2,413.5 km., ¿ Existen evidencias suficientes para
verificar la afirmación del fabricante en un nivel de 0.05?.
57
5.-Fast service, cadena de talleres de servicio automotriz , anuncia que su
personal puede cambiar el aceite , remplazar el filtro y lubricar cualquier
automóvil normal en 15 minutos, en promedio. El buró nacional de negocios
recibió varias quejas de los clientes en el sentido de que el servicio es mucho
más lento. Para verificar la afirmación de Fast service, dicha dependencia hizo
el servicio en 21 automóviles sin marcar. El tiempo medio de servicio fue de 18
minutos, y la desviación estándar de la muestra fue de 1 minuto. Utilice un nivel
de 0.05 para revisar la sensatez de la afirmación de Fast service.
6.- La experiencia con la cría de pollos de New Jersey Red reveló que el peso
promedio de los pollos a los cinco meses de edad es de 4.35 libras. Los pesos
tienen una distribución normal. Con el fin de incrementar el peso de los pollos,
se añadió a su alimento un nutriente especial. Los pesos subsecuentes de una
muestra de pollos de cinco meses de edad fueron (en libras):
4.41,4.37,4.33,4.35,4.30,4.39,4.36,4.38,4.40,4.39. Para un nivel de 0.01,¿
el nutriente especial ha incrementado el peso de los pollos?.
58
9.- Se estima que, en promedio, un ama de casa con marido y dos niños
trabaja 55 horas por semana o menos en actividades del hogar. Las horas que
trabajaron ocho amas de casa de una muestra fueron 58,52,64,63,59,62,62 y
55. Pruebe Ho: μ ≤ 55 , H1: μ > 55 , con α = 0.05 .
a).- ¿ Cuál es el valor crítico para la prueba y cuál es la regla de rechazo?.
b).- Calcule la media muestral.
c).- Encuentre la desviación estándar muestral.
d).- Calcule el valor del estadístico de prueba.
e).- ¿Cuál es su conclusión?.
f).- ¿Qué puede decir acerca del valor p?.
59
PRUEBAS DE HIPOTESIS ACERCA DE LA DIFERENCIA ENTRE LAS MEDIAS
DE DOS POBLACIONES . Caso de muestra grande.
60
para encontrar las razones de esa diferencia. Entonces las hipótesis nula y
alternativa son las siguientes:
HO : μ 1 − μ 2 = 0
H1 : μ1 − μ 2 ≠ 0
z=
(x
1 − x 2 ) − (μ1 − μ 2 )
σ 12 σ 22
+
n1 n2
61
z=
(82.5 − 78) − 0 = 2.09
(8)2 + (10)2
30 40
Como z=2.09>1.96, la conclusión es rechazar Ho. Así las calificaciones en las
muestras conducen a concluir que los dos centros de enseñanza difieren en su
calidad educativa.
En esta prueba de hipótesis nos interesaba determinar si las medias de las dos
poblaciones son distintas. No teníamos indicación de que una podría ser mayor o
menor que la otra, así que fueron adecuadas las hipótesis Ho : μ1 − μ 2 = 0 y H1:
μ1 − μ 2 ≠ 0 . En otras pruebas de hipótesis sobre la diferencia entre las medias de
dos poblaciones podremos determinar si una de las medias es mayor que, o quizá
menor que la otra. En esos casos lo adecuado es una prueba de hipótesis unilateral.
Las dos formas de una prueba unilateral acerca de la diferencia entre dos medias
de población son las siguientes:
Ho: μ1 − μ 2 ≤ 0 Ho : μ1 − μ 2 ≥ 0
H1 : μ 1 − μ 2 > 0 H1 : μ1 − μ 2 < 0
62
a).- ¿ Cuál es su conclusión de la prueba de hipótesis con α = 0.05 ?
b).- ¿ Cuál es el valor de p?.
63
EJERCICIOS COMPLEMENTARIOS
1.- Las áreas costeras de Estados Unidos, como Cape Cod, los bancos
ribereños, las Carolinas y la costa del golfo, tuvieron tasas de crecimiento
poblacional relativamente altas durante la década de los 90´. Se reunieron
datos acerca de los residentes de las comunidades costeras, así como de los
que viven en áreas no costeras en todo Estados Unidos. Suponga que se
obtuvieron los resultados muestrales siguientes acerca de las edades de los
individuos en las dos poblaciones:
Áreas costeras Áreas no costeras
x1 = 39.3 años x 2 = 35.4 años
s1 = 16.8 años s2 = 15.2 años
n1 = 150 n2 = 175
Pruebe la hipótesis de que no hay diferencia entre las edades promedio de las
dos poblaciones. Use α = 0.05 .
a).- Formule la hipótesis nula y alternativa
b).- ¿ Cuál es la regla de rechazo?
c).- ¿ Cuál es el valor del estadístico de prueba?
d).- ¿ Cuál es su conclusión?
e).-¿ Cuál es el valor de p?
64
Alumnos mujeres Alumnos hombres
x1 = 547 x 2 = 525
s1 = 83 s2 = 78
Esos datos, ¿ respaldan la conclusión que, dada una población de alumnos mujeres y
una de alumnos hombres con aptitudes matemáticas altas, los alumnos mujeres
tienen una aptitud bastante mayor de expresión oral?. Haga la prueba con nivel de
significancia de 0.02.¿ Cuál es su conclusión?
5.- Arnold Palmer y Tiger Woods son dos de los mejores golfistas que alguna
vez hayan existido. La pregunta que surge es en cuanto a cómo se compararían
estos dos jugadores si estuvieran en su nivel máximo de juego. En los
siguientes datos muestrales se observan los resultados de las puntuaciones de
18 hoyos durante una competencia del torneo PGA. Las puntuaciones de Palmer
son desde su temporada de 1960, en tanto que las puntuaciones de Woods son
desde su temporada de 1999.
Palmer,1960 Woods,1999
x1 = 69.95 x 2 = 69.56
n1 = 112 n 2 = 84
Utilice los resultados para probar la hipótesis de que no hay diferencia entre
las puntuaciones poblacionales promedio de 18 hoyos para los dos golfistas.
a).- Suponiendo una desviación estándar poblacional de 2.5 para ambos golfistas,
¿cuál es el valor del estadístico de prueba?
b).- ¿Cuál es el valor de p?
c).- Con α = 0.01 ,¿ cuál es su conclusión?
65
6.- Almacenes Dorados S.A., rediseña los carriles de las cajas en sus
supermercados en todo el país. Se sugieren dos diseños. En pruebas con
clientes se determinaron los tiempos de cobro en las cajas a la salida de dos
almacenes, donde se instalaron los dos nuevos sistemas. El resumen de los
resultados obtenidos es el siguiente:
Sistema A Sistema B
n1 = 120 n 2 = 80
x1 = 4.1 minutos x 2 = 3.3 minutos
s1 = 2.2 minutos s 2 = 1.5 minutos
Trate de determinar, con el nivel de significancia de 0.05, si hay diferencia
entre los tiempos de cobro en caja para los dos sistemas.¿ Cuál sistema
prefiere?.
66
PRUEBA DE HIPOTESIS ACERCA DE LA DIFERENCIA ENTRE DOS MEDIAS
POBLACIONALES: Caso muestra pequeña.
En este estudio hay dos poblaciones: una de analistas de sistemas que usan la
tecnología actual, y una de analistas de sistemas que usan el nuevo programa.
Considerando el tiempo necesario para terminar el diseño del sistema de
información, las medias de población son:
67
El estadístico de prueba para el caso de muestra pequeña es:
t=
(x1 − x2 ) − (μ1 − μ 2 )
⎛1 1 ⎞
s 2 ⎜⎜ + ⎟⎟
⎝ n1 n 2 ⎠
En el caso de dos muestras aleatorias independientes de tamaño n1 y n2, la
distribución t tendrá n1+n2-2 grados de libertad. Para α = 0.05 , la tabla de
distribución t muestra que con 12+12-2=22 grados de libertad, t 0.05 = 1.717 . Así,
con el estadístico de prueba , la regla de rechazo para la prueba unilateral es :
Rechace Ho si t > 1.717
Con los datos de la muestra, se obtiene el siguiente valor del estadístico de prueba:
t=
(325 − 288) − 0= 2.16
⎛1 1⎞
1768⎜ + ⎟
⎝ 12 12 ⎠
Al revisar la región de rechazo vemos que t = 2.16 permite el rechazo de Ho con un
nivel de significancia de 0.05. Así, los resultados de las muestras permiten que el
investigador concluya que μ1 − μ 2 > 0 y que el nuevo programa de cómputo sí
permite menores tiempos promedio de terminación.
68
TABLA TIEMPOS DE TERMINACION Y ESTADISTICOS DEL ESTUDIO DE PRUEBA
10.3
DEL PROGRAMA
TECNOLOGIA ACTUAL NUEVO PROGRAMA DE COMPUTO
300 276
280 222
344 310
385 338
372 200
360 302
288 317
321 260
376 320
290 312
301 334
283 265
Resumen estadístico
Tamaño de muestra n1 = 12 n 2 = 12
Media de la muestra x1 = 325 x 2 = 288
Desviación estándar s1 = 40 s 2 = 44
De la muestra
Delta Northwest
x1 = 2.5 minutos x 2 = 2.1 minutos
s1 = 0.8 minutos s 2 = 1.1 minutos
n1 = 22 n 2 = 20
a).- Formule la hipótesis si el propósito es probar una diferencia significativa entre
los tiempos promedio para estas dos aerolíneas.
b).- Con α = 0.05 ,¿ cuál es la regla de rechazo?
c).- Calcule el valor del estadístico de prueba
d).- ¿Cuál es su conclusión?
e).- ¿ Qué puede decir acerca del valor de p?
69
Ejemplo: Periódicamente a los clientes de Merril Lynch se les pide evaluar a los
asesores y servicios financieros de Merril Lynch. Las calificaciones altas en la
encuesta de satisfacción al cliente indican mejor servicio con 7 como la calificación
de servicio máxima. A continuación se resumen las muestras independientes de
calificaciones de servicio para dos asesores financieros. El asesor A tiene 10 años
de experiencia, en tanto que el asesor B tiene un año de experiencia. Pruebe con
α = 0.05 para ver si el asesor con más experiencia tiene la mayor calificación de
servicio promedio poblacional.
Asesor A Asesor B
x1 = 6.82 x 2 = 6.25
s1 = 0.64 s 2 = 0.75
n1 = 16 n 2 = 10
a).- Formule las hipótesis nula y alternativa
b).- ¿ Cuál es la regla de rechazo?
c).- Calcule el valor del estadístico de prueba
d).- ¿ Cuál es su conclusión?
e).- ¿ Qué puede decir acerca del valor de p?
70
EJERCICIOS COMPLEMENTARIOS
71
5.- En un estudio reciente se comparó el tiempo que pasan juntos los
integrantes de parejas en las que sólo trabaja uno y en las que ambas lo
hacen. De acuerdo con los registros llevados por las esposas durante el
estudio, la cantidad de tiempo promedio que pasan juntos viendo televisión las
parejas en las que sólo trabaja uno de sus integrantes fue de 61 minutos al
día, con una desviación estándar de 15.5 minutos. Para las parejas en las que
ambos trabajan, el número medio de minutos que pasan juntos viendo televisión
fue de 48.4, con una desviación estándar de 18.1. En el nivel de significancia
de 0.01,¿es posible concluir que aquellas parejas en las que sólo trabaja uno de sus
integrantes pasan más tiempo juntas viendo la televisión?.Se estudiaron quince
parejas con un solo integrante asalariado y 12 con ambos.
7.- La cámara de comercio del área de Tampa Bay ( Florida ) deseaba conocer
si el salario semanal promedio de las enfermeras era superior al de los
maestros de primaria. Para investigarlo, se recopiló la siguiente muestra de
información. ¿ Es razonable concluir que el salario semanal promedio de las
enfermeras es superior?. Utilice un nivel de significancia de 0.01.
Maestros de escuela primaria ( en dólares ):
545,526,527,575,484,509,502,520,529,530,542,532
Enfermeras ( en dólares ): 541,590,521,471,550,559,525,529.
72
8.- La gerencia de Discount Furniture, una cadena de mueblerías de descuento
ubicada en el noreste, diseño un plan de incentivos para los vendedores. Para
evaluar este novedoso plan , se seleccionaron 12 vendedores al azar y se
registraron sus ingresos semanales antes y después de aplicarlo.
Ingreso semanal Ingreso semanal
Vendedor Antes Después Vendedor Antes Después
Sid Mahone $320 $340 PegMancuso $625 $631
Carol Quick 290 285 Anita Loma 560 560
Tom Jackson 421 475 Jhon Cuso 360 365
Andy Jones 510 510 Carl Utz 431 431
Jean Sloan 210 210 A.S.Kushne 506 525
r
Jack Walker 402 500 Fern Lawton 505 619
¿ Hubo algún incremento significativo en el ingreso semanal promedio de los
vendedores debido al novedoso plan de incentivos?.Utilice el nivel de significancia
de 0.05.
73
10.- Harry Hutchings es el propietario de la Clínica Hutchings de
levantamiento de pesas. Él asegura que mediante la toma de una vitamina
especial, un levantador de pesas puede aumentar su fuerza. Se seleccionan de
forma aleatoria diez atletas novatos y se les aplica una prueba de fuerza
utilizando una plancha de levantamiento normal. Luego de dos semanas de
entrenamiento regular, complementadas con la vitamina, se les prueba de
nuevo. Los resultados se muestran a continuación :
Novato Antes Después Novato Antes Después
Evie Gorky 190 196 Pat O' Leary 126 129
Bob Mack 250 240 Kip Dennis 186 189
Lou Brandon 345 345 Connie Daye 116 115
Karl Unger 210 212 Tom Dama 196 194
Sue Koontz 114 113 Maxine Sims 125 124
Con un nivel de significancia de 0.01,¿ Es posible concluir que la vitamina especial
aumentó la fortaleza de los atletas novatos?.
74
III. REGRESION Y CORRELACION LINEAL.
Introducción.
Todos los días las personas que administran tienen que tomar decisiones personales
y profesionales que se basan en las predicciones de hechos futuros. Para hacer
tales pronósticos debe confiarse en la relación ( intuitiva y calculada ) entre lo que
ya se conoce y lo que va a estimarse. Si puede determinar como se relaciona lo
conocido con el evento futuro, contribuirá de manera importante al proceso de
toma de decisiones. Y ése es precisamente el tema de este capítulo: la manera de
determinar la relación entre variables.
El término regresión fue usado por primera vez como concepto estadístico en 1877
por Sir Francis Galton. Galton efectuó un estudio que demostró que la altura de los
hijos de padres altos tendía a retroceder, o “ regresar “, hacia la talla media de la
población. Regresión fue el nombre que se le dio al proceso general de predecir una
variable ( talla de los niños ) a partir de otra ( talla de los padres ).
75
2.- Relación inversa.- Cuando al aumentar la variable independiente, la variable
dependiente disminuye.
y
El primer paso al determinar si existe una relación entre dos variables consiste en
examinar la gráfica de los datos observados ( o desconocidos ). Esta gráfica, o
diagrama, recibe el nombre de diagrama de dispersión.
El diagrama de dispersión, nos proporciona dos tipos de información: visualmente
podemos buscar los patrones que indican que las variables están relacionadas,
después, si existe una relación entre ellas, podemos ver que clase de línea, o
ecuación de estimación, describe dicha relación.
• • • • •
• • • • • •
• • • • • •
• • • • • •
• • • • • •
• • • •
• • • • •• • • •
• •• •• • • • •• •
• • •• • • • • • • ••
• •• • • •• • • • •• • •
• •• ••• • • • • • • •
• • •• • • • • •• •
• • •• • •
Curvilíneo inverso Lineal inverso con Sin relación
más dispersión
76
Para calcular la línea de regresión con más precisión, aplicando una ecuación que
relaciona las dos variables matemáticamente.
La ecuación de una recta donde la variable dependiente Y está determinada por la
variable independiente X :
Intersección en Y
Y = a + bX
Y
Y = a + bX
b=
∑ XY − n X Y
∑X − nX 2 2
77
a = Y - bX
a = intersección en Y.
Con estas dos ecuaciones podemos encontrar la línea de regresión del mejor ajuste
para un conjunto de datos cualquiera de dos variables de puntos de datos.
Para simplificar el uso de las fórmulas, se recomienda construir una tabla que
contenga los valores de cada una de las partes que las conforman.
Por ejemplo. En una empresa que produce sustancias químicas, se quiere conocer la
relación entre el dinero gastado en investigación y desarrollo y las utilidades
anuales de la empresa.
La tabla siguiente contiene la información relativa a los seis años anteriores:
MILLONES GASTADOS
EN INVESTIGACION Y UTILIDAD ( MILLONES )
AÑO DESARROLLO (x) (Y)
1986 $5 $ 31
1985 11 40
1984 4 30
1983 5 34
1982 3 25
1981 2 20
AÑO (n=6) X Y XY X2
1986 5 31 155 25
1985 11 40 440 121
1984 4 30 120 16
1983 5 34 170 25
1982 3 25 75 9
1981 2 20 40 4
_____ ____ ______ ______
∑ X = 30 ∑ Y = 180 ∑ XY = 1000 ∑ X 2
= 200
X =
∑X
n
30
= =5
6
Y=
∑Y =
180
= 30
n 6
78
Aplicando las ecuaciones: b =
∑ XY − n X Y = 1000 − (6)(5)(30) = 100 = 2
200 − (6)(25)
∑X − nX
2
2 50
a = Y - b X = 30 − (2)(5) = 20
∧
Por lo tanto la ecuación de estimación queda: Y = 20 + 2 X
∧
Y = 20 + 2(8) = 36 millones anuales de utilidad
∧
Y Y = 20 + 2 X Error individual
31 - 20+2(5)= 1
40 - 20+2(11)= -2
30 - 20+2(4)= 2
34 - 20+2(5)= 4
25 - 20+2(3)= -1
20 - 20+2(2)= -4
_____
0 ← error total
El hecho de que la suma total de los errores individuales nos de cero, nos indica que
no se ha cometido algún error grave.
79
El error estándar de la estimación mide la variabilidad o dispersión de los valores
observados alrededor de la línea de regresión. La fórmula a utilizar, es:
sc =
∑ (Y − Y ) 2
n−2
∧ ∧ ∧
X Y Y Y −Y (Y − Y ) 2
5 31 30 1 1
11 40 42 -2 4
4 30 28 2 4
5 34 30 4 16
3 25 26 -1 1
2 20 24 -4 16
_______
∧
∑ (Y − Y ) 2
= 42
Aplicando la fórmula: s c =
∑ (Y − Y ) 2
=
42
=
42
= 10.5 = 3.2403
n−2 6−2 4
sc =
∑Y 2
− a ∑ Y − b∑ XY
n−2
80
Gráficamente se puede representar:
∧
Y = a + bX
•
•
• •
Esto es que podemos tener una seguridad del 95.5 % de que el valor real de Y se
∧
encuentre dentro de 2 errores estándar del valor estimado Y y un 99.7 % dentro
de 3 errores estándar.
∧
Para el ejemplo en cuestión, de la ecuación de estimación Y = 20 + 2 X , para el
caso donde X = 5
∧
Nos da Y = 20 + 2(5) = 30 . Se estima una utilidad de 30 millones si gasta 5
millones en investigación y desarrollo.
Tendríamos una seguridad del 68 % de que la utilidad real caerá en el intervalo:
∧
Y − 1s e =30-(1)(3.2403)=26.7597 millones ← límite inferior del intervalo
de predicción.
∧
Y + 1s e =30+(1)(3.2403)=33.2403 millones ← límite superior del intervalo
de predicción.
Una seguridad del 95.5 % de que el valor real estará dentro del intervalo:
∧
Y − 2 s e =30-(2)(3.2403)=23.5194 millones ← límite inferior del intervalo
de predicción.
∧
Y + 2s e =30+(2)(3.2403)=36.4806 millones ← límite superior del intervalo
81
de predicción.
(X − X 0 )
2
1
s p = se 1+ +
∑ X 2 − nX
2
n
Donde:
82
EJERCICIOS COMPLEMENTARIOS
83
10.- Para el siguiente conjunto de datos:
X 13 16 14 11 17 9 13 17 18 12
Y 1.0 2.0 1.4 0.8 2.2 0.5 1.1 2.8 3.0 1.2
X 56 48 42 58 40 39 50
Y 9.5 7.5 7.0 9.5 6.2 6.6 8.7
84
ANALISIS DE CORRELACION.
∧
Variación de los valores de Y alrededor de = ∑ (Y − Y ) 2
la línea de regresión
de su media
∑ (Y − Y ) 2
85
Una interpretación intuitiva de r 2 .
∧
Variación de los valores de Y = ∑ (Y − Y ) 2
= ∑ ( 0) 2 = 0
alrededor de la línea de regresión
86
= (4 − 18) 2 = 196
= (8 − 18) 2 = 100
= (12 − 18) 2 = 36
= (16 − 18) 2 = 4
= (20 − 18) 2 = 4
= (24 − 18) 2 = 36
= (28 - 18) 2 = 100
= (32 − 18) 2 = 196
∧
∑ (Y − Y ) 2
= 672
Sustituyendo estos valores en la fórmula del coeficiente muestral de
determinación nos da +1:
r 2
= 1−
∑ (Y − Y ) 2
= 1−
0
= 1 ← Coeficiente muestral de determinación
∑ (Y − Y ) 2
672
Cuando hay correlación perfecta.
87
Un segundo valor extremo en el cual las variables X y Y pueden relacionarse
es aquel en que los puntos pueden encontrarse a igual distancia en ambos
lados de una línea horizontal de regresión, tal como se muestra en la
siguiente gráfica:
88
La desviación total de Y respecto a su media es: (Y − Y )
∧
La desviación explicada de Y respecto de su media será : (Y − Y )
∧
Desviación inexplicada de Y respecto de la media: (Y − Y )
r 2
= 1−
∑ (Y − Y ) 2
∑ (Y − Y ) 2
a ∑ Y + b∑ XY − nY
2
r = 2
∑Y
2
2
− nY
Y = 30
a ∑ Y + b∑ XY − nY
2
(20)(180) + (2)(1000) − (6)(30) 2 200
r =
2
= = = 0.826
5642 − 5400
∑Y
2
2
− nY 242
89
El Coeficiente de Correlación.
r = r2
90
EJERCICIOS COMPLEMENTARIOS
Ventas ( unidades ) 33 38 24 61 52 45 65 82 29 63 50 79
Número de secc. 3 7 6 6 10 12 12 13 12 13 14 15
X ( número de anuncios ) 4 9 3 0 1 6 2 5
Y ( latas compradas ) 12 14 7 6 3 5 6 10
91
BIBLIOGRAFIA
2.- ESTADÍSTICA
Murray R. Spiegel
McGraw-Hill
92