You are on page 1of 92

UNIVERSIDAD DE OCCIDENTE

DEPARTAMENTO DE MATEMATICAS

GUIA DE ESTUDIO

E
ES
EST
ESTA
ESTAD
ESTADI
ESTADIS
ESTADIST
ESTADISTI
ESTADISTIC
ESTADÍSTICA
INFERENCIAL
INFERENCIA
INFERENCI
INFERENC
INFEREN
INFERE
INFER
INFE
INF
IN
I

Ing. Oscar Guillermo López Navidad.


Ing. José Antonio Castro Inzunza.
Ing. Luis Antonio Achoy Bustamante

Abril de 2006

.
INTRODUCCION

El curso de Estadística Inferencial constituye una aportación más de las

materias formativas del perfil profesional de los alumnos de diferentes carreras

que la Universidad de Occidente ofrece, ya que proporciona los conceptos, el

manejo y aplicación de los criterios que se deben tomar en cuenta para el

planteamiento y solución de diferentes problemas de interés, tales como: la

selección de una muestra, su análisis, obtención de datos, interpretación de

resultados y enseguida hacer la inferencia hacia los elementos de la población,

verificando la validez de la inferencia mediante las pruebas de hipótesis y

de esta manera tener fundamentos suficientes para la toma de decisiones en el

instante que se requiera.

Es además, un prerrequisito para cursos de Estadística Aplicada con el

enfoque según la carrera profesional que se trate.

2
CONTENIDO TEMATICO

I.- ESTIMACION.

1.1 Introducción al muestreo y distribuciones de muestreo.


1.2 Estimación para una media.
1.3 Estimación para la diferencia entre dos medias.
1.4 Estimación para una proporción.
1.5 Estimación para la diferencia entre dos proporciones.
1.6 Cálculo del tamaño de la muestra.
1.7 Estimación para la varianza.

II.- PRUEBAS DE HIPOTESIS.

2.1 Conceptos básicos.


2.2 Procedimiento de verificación de hipótesis.
2.3 Prueba de hipótesis para una media.
2.4 Prueba de hipótesis para dos medias.
2.5 Prueba de hipótesis para dos proporciones.
2.6 Prueba de hipótesis para la varianza.

III.- REGRESION Y CORRELACION LINEAL.

3.1 Régimen lineal.


3.2 Modelo de regresión lineal simple.
3.3 Método de mínimos cuadrados.
3.4 Coeficiente de determinación.
3.5 Análisis de varianza.
3.6 Prueba de hipótesis sobre la pendiente de la recta.
3.7 Predicciones.
3.8 Correlación.
3.9 Modelo de correlación lineal simple.
3.10 Suposiciones que fundamentan el modelo de correlación.
3.11 Coeficiente de correlación.
3.12 Prueba de hipótesis sobre el coeficiente de correlación.

3
1.1 INTRODUCCION AL MUESTREO Y DISTRIBUCIONES DE
MUESTREO.

La Inferencia Estadística contempla dos grandes áreas; La Estimación y las


Pruebas de Hipótesis. Para abordarlas es necesario hacer una introducción a los
conceptos básicos sobre el muestreo y las distribuciones muestrales.

El muestreo, concebido como la técnica por medio de la cual es seleccionada una


porción ( muestra ) de una población de interés, es la herramienta principal de toda
persona involucrada en un análisis estadístico de una problemática dada.
La importancia de este paso radica en que la muestra debe ser representativa de la
población de la cual fue seleccionada y para ello debemos asegurarnos de que fue
seleccionada en forma aleatoria, es decir, que solo haya intervenido en el proceso,
el azar.

En años recientes, las técnicas de muestreo se han usado cada vez más para
obtener información en muchas áreas, tales como:

1.- Opinión pública del resultado de elecciones políticas antes de las elecciones,
índices de audiencias televisivas, cuestiones de guerra, impuestos, etc.

2.- Investigación de mercado para determinar preferencias del consumidor y la


efectividad de una variedad de políticas publicitarias.

3.- Procedimientos de control de calidad para procesos de manufactura.

4.- Contabilidad y auditoria.

5.- Pronósticos de la producción agrícola.

6.- Determinaciones de la incidencia de enfermedades o condiciones específicas


dentro del área geográfica determinada ( por ejemplo, ciudad, poblado, estado,
región o nación ) por medio de alguna encuesta de salud.

7.- Investigación relacionada con muchos problemas sociales y económicos.

8.- Determinación de características poblacionales tales como la situación laboral,


el ingreso y la educación.

4
El muestreo se clasifica en dos grandes ramas: El muestreo aleatorio o
probabilístico y el no aleatorio, también llamado de juicio ( no interviene el azar ).
A su vez, el muestreo aleatorio se divide o clasifica en:

1.- Muestreo aleatorio simple. Qué es el más sencillo y por consiguiente el más
usado. Se seleccionan las muestras mediante métodos que permitan a cada muestra
tener igual probabilidad de ser seleccionada y a cada elemento de la población
entera tener igual probabilidad de quedar incluido en la muestra.
Ejemplo.

ESTUDIANTES A,B,C Y D

Muestras posibles de dos personas: AB,AC,AD,BC,CD,BD


La probabilidad de extraer esta muestra de dos personas debe ser:
AB=1/6
AC=1/6
AD=1/6
BC=1/6
CD=1/6
BD=1/6
La probabilidad de que este estudiante figure en la muestra debe ser:
A=1/2
B=1/2
C=1/2
D=1/2
Usando la probabilidad marginal para un evento:
P(A)=P(AB)+P(AC)+P(AD)=1/2

2.- Muestreo Sistemático. Los elementos se seleccionan de la población con un


intervalo uniforme que se mide en el tiempo, en el orden o en el espacio. Difiere del
muestreo aleatorio simple en que cada elemento tiene iguales posibilidades de ser
seleccionado, pero cada muestra no tiene esa misma probabilidad. En el muestreo
sistemático se corre el riesgo de introducir un error en el proceso. Por ejemplo si
estuviéramos muestreando la basura de papel producida por familias y que hemos
decidido muestrear 100 familias todos los lunes. Existen muchas probabilidades de
que nuestra muestra no sea representativa, pues la basura de los lunes seguramente
incluirá el periódico dominical. Pero también tiene algunas ventajas, aun cuando no
sea apropiado si los elementos presentan un patrón secuencial, tal vez requiera
menos tiempo y algunas veces cuesta menos que el simple muestreo aleatorio.

5
3.- Muestreo Estratificado.- Para aplicar este tipo de muestreo, la población tiene
que dividirse en grupos homogéneos relativos, llamados estratos. Después se
recurre a uno de dos métodos posibles. O bien seleccionamos al azar en cada
estrato un número específico de elementos correspondientes a la proporción del
estrato de la población total o se extrae un número igual de elementos de cada
estrato y damos un peso a los resultados de acuerdo con la proporción del estrato
en la población total. En cualquiera de los dos casos, se garantiza que todos los
elementos de la población tengan una probabilidad de ser seleccionados.
Se recomienda utilizar este proceso cuando cada grupo presenta una pequeña
variabilidad en su interior, pero exista una amplia variación entre ellos.

Ejemplo. Los pacientes de un hospital:


GRUPO DE EDAD PORCENTAJE DEL TOTAL
Nacimiento-19 años 30 %
20-39 años 40
40-59 años 20
60 años en adelante 10

4.- Muestreo por Conglomerados. También en este tipo de muestreo se divide la


población en grupos o conglomerados y luego se selecciona una muestra aleatoria de
ellos. Se utiliza cuando se percibe o advierte considerable variación dentro de cada
grupo pero los grupos son esencialmente semejantes entre sí.

Existe un tipo de muestreo aleatorio, el muestreo aleatorio simple, es el más


común de los procedimientos. La definición de este método y el proceso de
seleccionar una muestra aleatoria simple dependen de si la población es finita o
infinita. A continuación se describen las dos aplicaciones:

a) Muestreo para poblaciones finitas.- Una muestra aleatoria simple de tamaño n,


obtenida de una población de tamaño N, es aquella muestra que fue
seleccionada de tal manera que cada muestra posible tiene la misma
probabilidad de ser seleccionada.

b) Muestreo para poblaciones infinitas.- Se dice que una muestra aleatoria simple
de una población infinita es la que satisface las siguientes dos condiciones:

1.- Cada elemento seleccionado proviene de la misma población.


2.- Cada elemento se selecciona de una manera independiente.

Un procedimiento muy utilizado para la identificación de una muestra aleatoria


simple a partir de una población finita, es la de seleccionar uno por uno los
elementos que constituyen dicha muestra, propiciando que los elementos que van
quedando en la población tengan la misma posibilidad de ser seleccionados.

6
Un instrumento de apoyo en este proceso, es la Tabla de Números Aleatorio

A continuación se muestra una Tabla de 250 Números Aleatorios generada por


computadora:

63271 59986 71744 51102 15141 80714 58683 93108 13554 79945
88547 09986 95436 79115 08303 01041 20030 63754 08459 28364
55957 57243 83865 09911 19761 66535 40102 26646 60147 15702
46276 87453 44790 67122 45573 84358 21625 16999 13385 22782
55363 07449 34835 15290 76616 67191 12777 21861 68689 03263

69393 92785 49902 58447 42048 30738 87618 26933 40640 16281
13186 29431 88190 04588 38733 81290 89541 70290 40113 08243
17726 28652 56836 78351 47327 18518 92222 55201 27340 10493
36520 64465 05550 30157 82242 29520 69753 72602 23756 54935
81628 36100 39254 56835 37636 02421 98063 89641 64953 99337

84649 48968 75215 75498 49539 74240 03466 49292 36401 45525
63291 11618 12613 75055 43915 26488 41116 64531 56827 30825
70502 53225 03655 05915 37140 57051 48393 91322 25653 06543
06426 24771 59935 49801 11082 66762 94477 02494 88215 27191
20711 55609 29430 70165 45406 78484 31639 52009 18873 96927

41990 70538 77191 25860 55204 73417 83920 69468 74972 38712
72452 36618 76298 26678 89334 33938 95567 29380 75906 91807
37042 40318 57099 10528 09925 89773 41335 96244 29002 46453
53766 52875 15987 46962 67342 77592 57651 95508 80033 69828
90585 58955 53122 16025 84299 53310 67380 84249 25348 04332

32001 96293 37203 64516 51530 37069 40261 61374 05815 06714
62606 64324 46354 72157 67248 20135 49804 09226 64419 29457
10078 28073 85389 50324 14500 15562 64165 06125 71353 77669
91561 46145 24177 15294 10061 98124 75732 00815 83452 97355
13091 98112 53959 79607 52244 63303 10413 63839 74762 50289

7
Cuando hablamos de las características y medidas de la población, éstas se
consideran parámetros ( media μ , desviación estándar σ y proporción p ),
mientras que en la muestra se denominan estadísticos ( media x , desviación
estándar s y proporción p ).

DISTRIBUCION MUESTRAL.- Cuando se van obteniendo diferentes valores en las


muestras aleatorias simples seleccionadas de la población, y se hace con ellas una
distribución, ésta recibe el nombre de Distribución Muestral, es decir, es la
distribución de probabilidad de todos los valores posibles del estadístico muestral.
Este concepto es aplicable a: medias, desviación estándar, proporciones, etc.
1.- Distribución Muestral de Medias x. Uno de los procedimientos estadísticos
más comunes es usar la media de la muestra x para hacer inferencias acerca de la
media de la población μ . El proceso se muestra en la Figura 1. En cada repetición
del proceso se puede anticipar que se obtendrá un valor distinto de la media de la
muestra x , por lo que la correspondiente distribución de probabilidad de todos los
valores posibles de la media de la muestra recibe el nombre de Distribución
Muestral de la media de la muestra x .

Figura 1. PROCESO ESTADISTICO QUE EMPLEA UNA MEDIA


MUESTRAL PARA HACER INFERENCIAS ACERCA DE UNA
MEDIA POBLACIONAL.

Población Se selecciona, en la
con media población una muestra
μ =? aleatoria simple de
n elementos.

Se usa el valor de x Los datos muestrales


para hacer inferencias proporcionan un valor
acerca del valor de μ de la media de la
muestra x

8
Valor Esperado de x .- Cuando se utilizan distintas muestras aleatorias simples,
dan como resultado varios valores de la media de la muestra x . Como son posibles
muchos valores distintos de la variable aleatoria x , nos debe interesar la media de
todos esos valores posibles, es decir, esa media es el valor esperado de x . Sea
E (x) el valor esperado de x , y μ la media de la población de donde se toma la
muestra, para el muestreo aleatorio simple, los dos valores son iguales:
E ( x) = μ

Teorema de Límite Central.- Establece que al seleccionar muestras aleatorias


simples de tamaño n de una población, la distribución muestral de la media muestral
x se puede aproximar con una distribución de probabilidad normal, cuando el
tamaño de la muestra es grande ( n ≥ 30) .
A continuación se muestra en la Figura 2 ,el comportamiento de tres poblaciones
diferentes:

Figura 2. Tomada de Estadística para Administración y Economía. Anderson, Sweeney y


Williams. Editorial Thomson.

9
Desviación Estándar de la Distribución Muestral de Medias. Para definir éste
valor es necesario declarar la siguiente notación:

σ x = desviación estándar de la distribución muestral de x .


σ = desviación estándar de la población.
n = tamaño de la muestra.
N = tamaño de la población.

Cuando se utiliza el muestreo aleatorio simple, la desviación estándar de x depende


de si la población es finita o infinita. Las dos ecuaciones siguientes representan
dicho concepto:

Población finita Población infinita

N −n σ σ
σx = ( ) σx =
N −1 n n

Al analizar las ecuaciones anteriores, se observa que se requiere un factor


N −n
para la población finita y ninguno para la población infinita. Este factor
N −1
recibe el nombre de factor de corrección para población finita. Para los casos
prácticos en los cuales la población es grande, mientras que el tamaño de la muestra
es pequeño, el efecto de este factor es despreciable debido a que su valor es muy
cercano al 1. Por lo que los valores obtenidos con las dos ecuaciones son
prácticamente el mismo, y se opta por utilizar la fórmula para población infinita ya
que proporciona una buena aproximación del valor de la desviación estándar.

Se recomienda utilizarla cuando la población sea finita y el tamaño de la muestra


n
sea menor o igual al 5 % del tamaño de la población ( ≤ 0.05 ).
N
Este valor es utilizado para determinar lo alejado que puede estar la media de la
muestra de la media de la población. Por lo que juega un papel importante en el
cálculo de los errores de muestreo, σ x se conoce como error estándar de la
media.

Para disminuir el valor del error estándar de la media, se aumenta el tamaño de la


muestra – como se observa una variación inversa con la desviación estándar de la
población en la ecuación para población infinita-.

10
Distribución de Probabilidad Normal. Es un tipo de Distribución Continua, que
tiene las siguientes propiedades:

1.- Su gráfica es una curva no cerrada que se obtiene de la función:


1
f ( x) = e −( x − μ ) / 2σ 2
− ∞ < x < +∞ .
2
;
σ 2π
2.- El punto más alto de la curva normal es la media, que también es la mediana y la
moda de la distribución.
3.- El área total bajo la curva vale 1.
4.- El área bajo la curva representa probabilidad.
5.- La gráfica presenta simetría respecto al valor de la media ( 0.5 a cada lado ).
6.- Existen Tablas que resumen el uso de la función.
x−μ
7.- Para leer los valores de z en la tabla es necesario utilizar: z = .
σ
z representa los valores estandarizados de la variable x.

a b
X
z 1 z 2

Ejemplos de distribuciones normales con diferentes parámetros.

11
12
13
EJERCICIOS PARA LA DISTRIBUCION NORMAL

1.- El número promedio de años de experiencia en conducir de cierto grupo de


camioneros es de 10 años y la desviación estándar es de 3 años. ¿ Cuál es la
probabilidad de que una muestra aleatoria de 81 de estos camioneros arroje
una media mayor de 10 años y 8 meses?

2.- Los pesos de la placenta en cierta especie de animales experimentales


están distribuidos normalmente con una media de 7 gramos y una desviación
estándar de 1.5 gramos.¿ Cuál es la probabilidad de que el peso promedio de
la placenta en una muestra aleatoria de 9 animales sea menor que 6 gramos?

3.- Los pesos netos de los paquetes de cierto cereal tienen una media de 16
onzas y una desviación estándar de 0.5 onzas. Los pesos están normalmente
distribuidos.¿ Cuál es la probabilidad de que una muestra aleatoria de 25
paquetes tenga un peso neto promedio comprendido entre 15.8 y 16.2 onzas?

4.- En cierta población de alcohólicos, la duración promedio del abuso de


alcohol es de 12 años y la desviación estándar de 6 años.¿ Cuál es la
probabilidad de que una muestra aleatoria de 36 individuos de esta población
tenga una duración promedio de abuso de alcohol entre 10 y 11 años?

5.- En una población de 1200 adolescentes la cantidad promedio de dinero


gastada en recreación por semana es de $ 6.50 y la desviación estándar de $
6.00 .¿ Cuál es la probabilidad de que una muestra aleatoria de 36
adolescentes de esta población arroje una media comprendida entre $ 5.00 y
$ 10.00?

14
Distribución Muestral de p .- Existen muchos casos en la administración de
negocios y en la economía, donde se usa la proporción muestral p para hacer
inferencias estadísticas sobre la proporción poblacional p , como se muestra en la
figura 2.

Figura 2. PROCESO ESTADISTICO PARA USAR UNA PROPORCION


MUESTRAL PARA HACER INFERENCIAS ACERCA DE UNA
PROPORCION POBLACIONAL.

Población Se selecciona una


con muestra aleatoria simple
proporción de n elementos de la
p=? población.

El valor de p se usa Los datos muestrales


para hacer inferencias proporcionan un valor
acerca del valor de p de la proporción p de
la muestra.

En cada repetición del proceso obtendremos un valor distinto de la proporción de


una muestra p . La distribución de probabilidad para todos los valores posibles de
la proporción muestral, se llama Distribución Muestral de la Proporción muestral p .
Valor Esperado de p .-Tal y como se manejó para la media, el valor esperado de la
proporción de la muestra, es igual a la proporción de la población:

E ( p) = p

15
Desviación Estándar de p . La desviación estándar de p se llama error estándar
de la proporción .También aquí se manejan dos ecuaciones o fórmulas,
según el tipo de población:

Población finita Población infinita

N −n p (1 − p ) p (1 − p )
σp = σp =
N −1 n n
Se sigue la misma regla que para la media de la muestra, si la población es finita y
n
≤ 0.05 se usará la segunda fórmula.
N
La distribución muestral de p se puede aproximar con una distribución de
probabilidad normal, siempre que el tamaño de la muestra sea grande:
1.- np ≥ 5 .
2.- n(1 − p) ≥ 5

Estos son algunos de los conceptos básicos que se deben considerar como
introductorios para iniciar el tema de Estimación.

¿ Qué es una Estimación ? . Decimos que estamos estimando algo, cuando tenemos
una idea acerca del valor que tiene o que puede tomar una variable, un estadístico o
un parámetro.

¿ Qué es un Estimador ?. Es el estadístico muestral o instrumento utilizado para


hacer una estimación de un parámetro de la población de interés.

¿ Qué es una estimación puntual ?. Es el uso de datos de una muestra para


calcular un valor de un estadístico de la muestra, que sirva como estimación de un
valor de un parámetro de la población.

¿ Qué propiedades debe tener un estimador puntual ?. Se considera que un buen


estimador puntual, debe reunir tres características principales:

1) Insesgadez.- Cuando el valor esperado del estadístico de muestra es igual al


parámetro de la población que se estima, entonces se dice que
ese estadístico es un estimador insesgado del parámetro pobla-
cional.
2) Eficiencia.- Cuando se utilizan los datos de una muestra para obtener dos
estimadores puntuales del mismo parámetro poblacional, se
prefiere el que tenga una desviación estándar menor, ya que
constituye una mejor aproximación del valor del parámetro de
la población, es decir, tiene una mayor eficiencia relativa.
3) Consistencia.- Esta propiedad se basa en el hecho de que al ir aumentando el

16
tamaño de la muestra, el estimador puntual tiende aproximarse
al valor real del parámetro de la población.

1.2 ESTIMACIONES PUNTUALES.

1.2.1 Estimación de una media, desviación estándar y proporciones.

1.- Se han reunido los siguientes datos de una muestra aleatoria simple.

5 8 10 7 10 14
a) ¿ Cuál es la estimación puntual de la media de la población ?.
b) ¿ Cuál es la estimación puntual de la desviación estándar de la población ?.

2.- Una muestra aleatoria simple de datos de cinco meses de ventas da la


siguiente información:

Mes: 1 2 3 4 5
Unidades vendidas: 94 100 85 94 92

a) ¿ Cuál es la estimación puntual de la media de la población del número de


unidades vendidas por mes ?.
b) ¿ Cuál es la estimación puntual de la desviación estándar de la población ?.

3.- Se preguntó a 784 niños de una muestra, cuyas edades eran de 9 a 14


años, en qué forma conseguían dinero de sus padres. Se obtuvieron las
siguientes respuestas:
Fuente de ingresos Frecuencia
Sólo domingos 149
Quehaceres, dádivas y domingo 219
Quehaceres y dádivas, sin domingo 251
Nada 165

Total 784

a) ¿ Qué proporción de niños recibe domingo como única fuente de dinero ?.


b) ¿ Qué proporción de niños recibe dinero por quehaceres y dádivas, pero no lo
recibe como domingo ?.
c) ¿ Qué proporción de niños reciben al menos algo de dinero de sus padres ?.

17
4.- En la revista Appliance Magazine se publicaron estimaciones acerca de la
esperanza de vida de los aparatos del hogar (USA Today, 5 de septiembre de
2000 ). En una muestra aleatoria simple de 10 videocaseteras se observó la
siguiente vida útil en años:

6.5 8.0 6.2 7.4 7.0 8.4 9.5 4.6 5.0 7.4

a) ¿Cuál es la estimación puntual de la esperanza de vida media poblacional ?.


b) ¿ Cuál es la estimación puntual de la desviación estándar poblacional para la
esperanza de vida de las videocaseteras ?.

5.- El Departamento de Transporte en Estados Unidos, publica estadísticas de


llegadas, antes o después del horario programado, de los principales vuelos
( Associated Press, 8 de septiembre de 2000 ). Suponga que la proporción
estimada de vuelos que llegan a tiempo, para todas las aerolíneas, se basa en
una muestra de 1 400 vuelos. Si 1117 llegan a tiempo, ¿ cuál es la estimación
puntual de la proporción de vuelos que llegan a tiempo ?.

6.- Una población tiene una media de 200 y una desviación estándar de 50. Se
tomará una muestra aleatoria simple de tamaño 100 y se usará la media de la
muestra x para estimar la media de la población.

a).- ¿ Cuál es el valor esperado de x ?


b).- ¿ Cuál es la desviación estándar de x ?
c).- Determine la distribución muestral de x
d).- ¿ Qué indica la distribución muestral de x ?.

7.- Una población tiene una media de 200 y una desviación estándar de 50.
Suponga que se selecciona una muestra simple de tamaño 100 y que se usa x
para estimar la media de la población.

a).- ¿ Cuál es la probabilidad de que la media de la muestra quede dentro de


± 5 de la media de la población?
b).- ¿Cuál es la probabilidad de que la media de la muestra quede dentro de
± 10 de la media de la población?

18
8.- Suponga que la desviación estándar de la población es 25. Calcule el error
estándar de la media x , para el tamaño de muestra de 50,100,150 y 200.

¿ Qué se puede decir acerca del tamaño del error estándar de la media cuando
aumenta el tamaño de la muestra?

9.- Una muestra aleatoria simple de tamaño 50 se selecciona de una población


con desviación estándar igual a 10. Calcule el valor del error estándar de la
media en cada uno de los siguientes casos ( si es necesario, aplique el factor
de corrección de población finita ).

a).- El tamaño de la población es infinito.


b).- El tamaño de la población es N = 50,000
c).- El tamaño de la población es N = 5,000
D).- El tamaño de la población es N = 500

10.- Una población tiene una media de 100 y una desviación estándar de 16.¿
Cuál es la probabilidad de que una media de una muestra quede ± 2 o menos
de la media de la población, en cada uno de los siguientes tamaños muestrales?

a).- n = 50
b).- n = 100
c).- n = 200
d).- n = 400
e).- ¿ Cuál es la ventaja de un tamaño grande de muestra?

19
1.3 ESTIMACIONES POR INTERVALO

Una estimación del intervalo de un parámetro poblacional se construye al restar y


sumar un valor, llamado margen de error, a una estimación puntual. Por lo que toma
la forma general:
Estimación puntual ± margen de error

En forma particular, las estimaciones por intervalo para la media poblacional y la


proporción poblacional, respectivamente tendrán la forma:

x ± margen de error

p ± margen de error

Estimación del intervalo de una media de la población: Muestra grande.

Al usar la Tabla de áreas de la Distribución de Probabilidad Normal Estándar, se


observa que 95 % de los valores de una variable aleatoria con distribución normal
quedan dentro de una distancia igual a ± 1.96 desviaciones estándar de la media.
Debido a que la distribución de muestreo de x se puede aproximar mediante una
distribución normal, 95 % de los valores de x deben estar dentro de ± 1.96 σ x de
la media μ.
Error muestral.- Cuando se utiliza la media de una muestra x para hacer una
estimación puntual de la media poblacional μ , surge la pregunta ¿ qué tan buena es
la estimación ?, lo cual implica el error incurrido al hacer la estimación. Por lo que se
considera como error de muestreo al valor absoluto de la diferencia entre el
estimador puntual insesgado y el parámetro de la población:

x − μ = error de muestreo
a) Se supone que se conoce σ .
El procedimiento general que se sigue en este caso es el siguiente:

20
Estimación del intervalo de una media poblacional: caso muestra
grande (n ≥ 30) en el cual se supone que se conoce σ :
σ
x ± zα
n
2

Donde (1 − α ) es el coeficiente de confianza y z α es el valor de z que


2

α
origina un área de en la cola o extremo superior de la distribución
2
de probabilidad normal estándar.

Para construir un intervalo de confianza de 95 %, el coeficiente de confianza


1 − α =0.95, por lo cual α = 0.05 .

Por medio de las tablas de áreas para la distribución normal estándar, un área de
α 0.05
= = 0.025 en el extremo superior da z 0.025 = 1.96 .
2 2

Si consideramos un ejemplo donde x = 82 , σ = 20 (valor supuesto ), un tamaño de


muestra n = 100 , se obtiene:

20
82 ± 1.96
100

82 ± 3.92
Por lo tanto, el margen de error es 3.92 y el intervalo de confianza es:

21
82 − 3.92 = 78.08 a 82 + 3.92 = 85.92
Lo cual indica que se puede tener una confianza de 95 % de que la media de la
población se encuentra entre 78.08 y 85.92.

Existen otros niveles de confianza, tales como 90 % y 99 %.


La siguiente tabla muestra los niveles de confianza de uso más común.

α
Nivel de confianza α zα
2 2
90 % 0.10 0.050 1.645
95 % 0.05 0.025 1.960
98 % 0.02 0.010 2.330
99 % 0.01 0.005 2.576

Para los datos anteriores, el nivel de confianza del 99 % produce:

20
82 ± 2.576
100
82 ± 5.15

Y el intervalo de confianza es : 82-5.15=76.85 a 82+5.15=87.15.

Al comparar los resultados de los niveles de confianza de 95 y 99 %, podemos


apreciar que para tener un grado más alto de confiabilidad, deben ser mayores el
margen de error y el ancho del intervalo de confianza.

b) Caso con muestras grandes con σ estimada mediante s .


Existe una dificultad para calcular una estimación del intervalo de un media
poblacional ya que en muchas aplicaciones prácticas no hay bases para suponer que
se conoce la desviación estándar poblacional. En esos casos se usa la desviación
estándar de la muestra s para estimar σ . El Teorema de Límite Central y el hecho
de la desviación estándar de la muestra s da una buena estimación de σ cuando el
tamaño de la muestra se vuelve grande, esto nos permite usar el siguiente
procedimiento para construir una estimación por intervalo de una media poblacional.

Estimación del intervalo de una media poblacional: caso de muestra


grande, con σ estimada mediante s

s
x ± zα
n 2

Donde s es la desviación estándar de la muestra, (1 − α ) es el coeficiente


α
de confianza y z α es el valor z que define una área deen la cola o
2
2
extremo superior de la distribución de probabilidad normal estándar.

22
Para ilustrar este procedimiento, consideremos un estudio de muestreo diseñado
para estimar la deuda de tarjetas de crédito de los hogares estadounidenses. Una
muestra de 85 hogares proporcionó la información siguiente:
Con n=85 tenemos un caso de muestra grande, pero si no contamos con un historial
acerca de los balances de las tarjetas de crédito, la desviación estándar de la
población σ se estimará mediante la desviación estándar de la muestra s . Para
construir un intervalo de confianza de 95 % de la media poblacional. Primero se usan
los datos de la muestra y estos dan x = 5900 dólares y la desviación estándar
s = 3058 dólares. Al nivel de confianza de 95 % , z α = z 0.025 = 1.96 .
2

s
Esto muestra que: x ± z α
2 n

3058
5900 ± 1.96
85

5900 ± 650
En consecuencia, el margen de error de 650 dólares y la estimación del intervalo de
confianza de 95 % queda: 5900-650=5250 a 5900+650=6550 dólares. Por lo
cual se tiene un nivel de confianza de 95 % de que el balance promedio poblacional
de tarjetas de crédito para todos los hogares está entre 5250 y 6550 dólares.

23
EJERCICIOS

1.- Una muestra aleatoria simple de 40 elementos dio como resultado una
media muestral de 25. La desviación estándar de la población es σ = 5 .

a) ¿ Cuál es el error estándar de la media ?.


b) Con 95 % de probabilidades, ¿ Cuál es el margen de error ?

2.- Una muestra aleatoria simple de 50 artículos originó una media de


muestra de 32 y una desviación estándar muestral de 6.

a) Determine un intervalo de confianza de 90 % para la media de la población.


b) Calcule un intervalo de confianza de 95 % para la media de la población.
c) Obtenga un intervalo de confianza de 99 % para la media poblacional.

3.- Una muestra de 60 artículos tuvo una media de 80 y una desviación


estándar de 15.

a) Determine un intervalo de confianza de 95 % para la media de la población.


b) Suponga que la media y la desviación estándar de la muestra se obtuvieron
de una muestra de 120 artículos. Determine un intervalo de confianza de
95 % para la media de la población.
c) ¿ Cuál es el efecto de mayor tamaño de la muestra sobre la estimación del
intervalo de un media poblacional ?.

4.- Se informa que el intervalo de confianza de 95 % para una media de


población fue de 122 a 130. Si la media de la muestra es 126 y la desviación
estándar de la muestra es 16.07, ¿ qué tamaño de muestra se usó en la
determinación ?.

5.- Para tratar de estimar la media de consumo por cliente, en un gran


restaurante, se reunieron datos de una muestra de 49 clientes. Suponga una
desviación estándar poblacional de 5 dólares.

a) Con nivel de confianza de 95 %, ¿ cuál es el margen de error ?.


b) Si la media de la muestra es de 24.80 dólares, ¿ cuál es el intervalo de
confianza de 95 % para la media de la población ?.

24
ESTIMACION DEL INTERVALO DE UN PROMEDIO
POBLACIONAL: CASO DE MUESTRA PEQUEÑA

Los procedimientos de estimación de intervalos anteriores, están basados en la


teoría para muestras grandes y el uso del Teorema de Límite Central. También la
distribución de muestreo de x se puede aproximar mediante una distribución de
probabilidad sin considerar la población.
Para el caso de muestras pequeñas, se tiene que considerar el tipo de distribución
que tiene la población. Los procedimientos que se describiràn para este caso, se
basan en la suposición que la distribución de la población es normal.

Caso de muestras pequeñas donde se supone que se conoce σ.

El análisis se inicia suponiendo que la población tiene una distribución normal y que
se conoce la desviación estándar de la población σ . Bajo estas condiciones, la
distribución muestral de x tiene una distribución normal con media μ y desviación
σ
estándar σx = para cualquier tamaño de muestra. Por todo lo anterior, el
n
procedimiento de estimación del intervalo es el siguiente:

Estimación del intervalo de una media poblacional: caso muestras


pequeñas (n < 30) en el cual se supone que se conoce σ :
Suposición: la población tiene una distribución normal.
σ
x ± zα
2 n
Donde (1 − α ) es el coeficiente de confianza y z α es el valor de z que
2

α
origina un área de en la cola o extremo superior de la distribución
2
de probabilidad normal estándar.

Caso de muestras pequeñas en que σ se estima mediante s .


Si no existen elementos para suponer que se conoce la desviación estándar de la
población σ , se utiliza la desviación estándar de la muestra s para estimar σ . El
procedimiento de estimación del intervalo sufre un cambio, ya que se usa una
distribución de probabilidad conocida como distribución t.
La distribución t es una familia de distribuciones de probabilidad similares, con una
distribución t específica que depende de un parámetro denominado grados de
libertad. Es decir, existe una distribución para cada número de grados de libertad
y tiene la característica de que al ir aumentando el número de grados de libertad, la
diferencia entre ella y la distribución normal se hace cada vez mas pequeña, además
tiene como promedio 0.

25
Se usa un subíndice en t para indicar el área en la cola superior de la distribución
t . Por ejemplo t 0.025 indica una área de 0.025 en el extremo superior de la
distribución, con 10 grados de libertad, da una lectura de 2.228 en la Tabla de
distribución t como la que se muestra a continuación:

26
Para hacer la estimación por intervalo, aplicamos lo siguiente:

Estimación del intervalo de un promedio de población: caso muestra


pequeña (n < 30) con σ estimada mediante s :
s
x ± tα
2 n
Donde s es la desviación estándar de la muestra, (1 − α ) es el coeficiente
α
de confianza y t α es el valor de t que origina un área de en la cola o
2
2
extremo superior de la distribución t con ( n − 1) grados de libertad.

Ejemplo.- El director de una empresa está interesado en implementar un programa


de adiestramiento asistido por computadora. Para ello solicita al Depto. de personal
que se haga una estimación del tiempo promedio necesario para lograr dicha
capacitación. Se tomó una muestra de 15 empleados y sus tiempos de capacitación
fueron los siguientes:

Empleado Tiempo ( días )

1 52
2 44
3 55
4 44
5 45
6 59
7 50
8 54
9 62
10 46
11 54
12 58
13 60
14 62
15 63

Se quiere construir un intervalo de confianza del 95 % para estimar la duración


promedio de la capacitación para los empleados de toda la empresa.

27
En primer lugar se obtiene la media de la muestra:

x=
∑x =
52 + 44 + ... + 63 808
= = 53.866 días
n 15 15

Ahora se calcula la desviación estándar de la muestra: s =


∑ ( x − x) 2

n −1

(52 − 53.87) 2 + (44 − 53.87) 2 + ... + (63 − 53.87) 2 651.73


s= = = 6.82 días
14 14

Con este valor se estima σ =6.82.

Para construir el intervalo, se tiene 1 − α = 0.95 ∴ α = 0.05 y t α = t 0.025 , el


2
cual se lee en la Tabla para Distribución t , con n − 1 = 14 grados de libertad.

El valor correspondiente es t 0.025 = 2.145

s ⎛ 6.82 ⎞
Por lo tanto: x ± tα = 53.87 ± 2.145⎜⎜ ⎟⎟
2 n ⎝ 15 ⎠

53.87 ± 3.78

Se estima que la duración promedio de la capacitación para los empleados de la


empresa, estará entre 50.09 y 57.65 días, con una confianza de 95 %.

28
EJERCICIOS

1.- Para una Distribución t con 12 grados de libertad, determine el área, o


probabilidad que hay en cada región.

a) A la izquierda de 1.782.
b) A la derecha de -1.356.
c) A la derecha de 2.681.
d) A la izquierda de -1.782.
e) Entre -1.356 y 1.782.

2.- Determine el o los valores t en cada uno de los siguientes ejemplos.

a) Área de la cola superior de 0.05 con 18 grados de libertad.


b) Área de la cola inferior de 0.10 con 22 grados de libertad.
c) 90 % del área está entre estos dos valores de t con 14 grados de libertad.

29
RESUMEN DE PROCEDIMIENTOS DE ESTIMACION DEL INTERVALO
PARA UNA MEDIA POBLACIONAL.

Figura 3. Tomada de Estadística para Administración y Economía. Anderson,


Sweeney y Williams. Editorial Thomson.

30
DETERMINACION DEL TAMAÑO DE LA MUESTRA

Para el caso de muestras grandes, donde se supone que se conoce el valor de σ , la


estimación del intervalo de la media poblacional está dado por

σ
x ± zα
2 n
La cantidad que se suma y resta es el margen de error, donde se combinan los
valores de z α , la desviación estándar poblacional σ y el tamaño de la muestra n
2
para determinar su valor. Cuando ya se selecciona el coeficiente de confianza 1- α ,
se puede determinar z ε , entonces al tener un valor para σ , podremos calcular el
2
tamaño de la muestra utilizando la fórmula que a continuación se analiza:

Sea E = error máximo de muestreo.

σ
E = zα ( )
2 n

De donde despejamos n .

zα σ
n= 2

(zα )2σ 2
n= 2
. Tamaño de la muestra para una estimación del intervalo
E2
de una media poblacional.

Con este tamaño de muestra, se puede obtener el margen deseado de error con el
nivel de confianza elegido.
Para poder aplicar esta última ecuación, se requiere un valor para la desviación
estándar de la población σ , el cual en la mayoría de los casos prácticos se
desconoce. Sin embargo se puede aplicar dicha ecuación, si se cuenta con un valor
de planeación de σ . El cual se puede manejar bajo los siguientes criterios
prácticos:

1.- Usar la desviación estándar muestral de una muestra previa de las mismas
unidades, o de otras parecidas.

31
2.- Usar un estudio piloto para seleccionar una muestra preliminar de unidades. La
desviación estándar muestral de ella se puede usar como el valor de planeación de
σ.

3.- Usar el juicio o una “mejor estimación” del valor de σ . Por ejemplo, se puede
comenzar estimando los valores máximo y mínimo de los datos de la población. La
diferencia entre ellos proporciona una estimación del rango de los datos. Por último,
se sugiere tomar el rango dividido entre cuatro como una aproximación de la
desviación estándar para contar con un valor de planeación aceptable para σ .

Ejemplo.- En los Estados Unidos se realizó un estudio previo donde se investigó el


costo promedio de renta de un automóvil mediano y se encontró que era muy
cercano a los 55 dólares por día. Supongamos que a la misma organización que
realizó este estudio, le interesa ahora estimar el costo de renta promedio por día
para un automóvil mediano con un margen de error de 2 dólares y un nivel de
confianza de 95 %.
Para determinar el tamaño que debe tener la muestra, usemos:

(zα ) 2σ 2
n= 2

E2

Donde: E = 2 , z 0.025 = 1.96 . Para el valor de planeación de σ se usa en este caso


un valor encontrado por un analista en los datos de la muestra de estudio original,
que es de σ = 9.65 dólares.

(1.96) 2 (9.65) 2
n= = 89.43
22

Así pues, el tamaño de muestra para el estudio debe ser por lo menos de 89.43
rentas de automóviles medianos para las condiciones dadas.

En los casos donde el valor de n no corresponde a un entero, se redondea al


entero inmediato superior, por lo tanto el tamaño de muestra debe ser 90 rentas.

32
EJERCICIOS

1.- ¿ De qué tamaño debe ser una muestra para poder tener 95 % de
confianza en que el error muestral es de 5 o menor ?. Suponga que la
desviación estándar de la población es de 25.

2.- Se estima que el rango para un conjunto de datos es 36.

a)¿Cuál es el valor de planeación para la desviación estándar de la población ?.


b) Con un nivel de confianza de 95 %, ¿ qué tan grande debe ser la muestra para dar
un margen de error de 3 ?.

33
ESTIMACION DEL INTERVALO DE UNA PROPORCION DE LA POBLACION.

La proporción muestral p es un estimador insesgado de una proporción poblacional


p . Para muestras grandes, la distribución muestral de p se puede aproximar con
una distribución de probabilidad normal. Recordando que el empleo de la
distribución normal como aproximación de la distribución muestral de p se basa en
la condición de muestras grandes donde tanto np como n(1 − p ) valen 5 o más.
El error de muestreo asociado a este proceso, esta dado por: p − p . Cuando el
tamaño de la muestra es grande, se puede hacer la siguiente aseveración de
precisión acerca del margen de error. Hay una probabilidad de 1 − α de que el valor
de la proporción poblacional origine un error muestral igual a z α σ p o menos, por
2

consiguiente, la cantidad z α σ p es el margen de error.


2
Por lo cual, el intervalo para estimar la proporción poblacional, toma la forma:
p ± zα σ p .
2

p (1 − p )
Donde 1 − α es el coeficiente de confianza. Como σp = , la ecuación
n
p (1 − p )
para el intervalo queda: p ± z α .
2
n

34
Por ejemplo, en los Estados Unidos se realizó una encuesta nacional de 902
mujeres golfistas para conocer como consideran el trato que reciben en los cursos
de golf. En la encuesta se encontró que 397 mujeres golfistas estuvieron
satisfechas con la disponibilidad de tiempos de tee . Así, la estimación puntual de la
proporción de la población de mujeres golfistas que están satisfechas con la
397
disponibilidad de los tiempos de tee es = 0.44 . Al utilizar la ecuación para
902
hacer una estimación por intervalo para la proporción poblacional, con un nivel de
confianza de 95 % :

p (1 − p )
p ± zα
2
n

0.44(1 − 0.44)
0.44 ± 1.96
902

0.44 ± 0.0324

El margen de error es 0.0324 y la estimación del intervalo de confianza va de


40.76 % a 47.24 % para la proporción de la población, con una confianza de 95 %.

35
DETERMINACION DEL TAMAÑO DE LA MUESTRA.

Anteriormente se vio como determinar el tamaño de la muestra para estimar una


media en la población. De manera similar, en las proporciones si se conoce o se
desea obtener un cierto valor de precisión para el margen de error, entonces
podemos deducir la forma de obtener dicho tamaño de muestra.

Sea E = margen de error deseado.

p(1 − p )
E = zα
2
n

( z α ) 2 p (1 − p )
Al despejar n de la fórmula anterior nos queda: n = 2
.
E2
Para utilizar esta ecuación es necesario fijar el margen de error deseado E; en la
mayoría de los casos , E es 0.10 o menor. Como en la mayoría de los casos prácticos
se desconoce la proporción poblacional, se debe utilizar un valor de planeación que
se elige de diferentes maneras:

1.- Usar la proporción muestral de una muestra anterior de las mismas unidades.

2.- Llevar a cabo un estudio piloto para seleccionar una muestra preliminar de
unidades. La proporción muestral a partir de esta muestra se puede usar
como valor de planeación.

3.- Usar el juicio o un estimado mejor del valor de p.

4.- Si no se aplica alguna de las alternativas anteriores, usar p = 0.50.

Si regresamos al ejemplo de las mujeres golfistas, ¿ qué tan grande debe ser la
muestra si el director de la encuesta quiere estimar la proporción poblacional con
un margen de error de 0.025 con un nivel de confianza de 95 % ?.

Con el resultado de p = 0.44 del estudio anterior, E = 0.025 y z 0.025 = 1.96 ,


sustituimos en la fórmula:

(1.96) 2 (0.44)(1 − 0.44)


n= = 1514.51
(0.025) 2

Por consiguiente, el tamaño de muestra debe ser de al menos 1514.51, lo cual nos
lleva a determinar que debe ser el entero siguiente 1515 mujeres.

36
EJERCICIOS

1.- Una muestra aleatoria simple de 400 artículos contiene 100 respuestas
Sí.

a) ¿ Cuál es la estimación puntual de la proporción de la población que tiene


respuesta Sí ?.
b) ¿ Cuál es el error estándar de la proporción de la población ?.
c) Determine el intervalo de confianza de 95 % para la proporción poblacional.

2.- Una muestra aleatoria simple de 800 unidades genera una proporción
p = 0.70 .

a) Determine un intervalo de confianza de 90 % para la proporción poblacional.


b) Calcule un intervalo de confianza de 95 % para la proporción de la población.

3.- En una encuesta se dice que el valor de planeación para la proporción


poblacional es de 0.35. ¿ De qué tamaño se debe tomar la muestra para
obtener un intervalo de confianza de 95 % con margen de error igual a
0.05 ?

4.- ¿ De qué tamaño se debe tomar la muestra para tener 95 % de confianza


de que el margen de error para la estimación de una proporción poblacional sea
de 0.03 ?. suponga que no se dispone de datos históricos para establecer el
valor de planeación para p .

37
II.-PRUEBAS DE HIPOTESIS

Introducción.

En el eje temático de Estimación se describió la forma de seleccionar una muestra


aleatoria y, con base en esta, estimar el valor de un parámetro de la población. En
otras palabras, se calculó un parámetro de la población a partir de un estadístico de
la muestra. Además , se desarrolló un rango de valores, llamado intervalo de
confianza , dentro de los que se esperaba que se encontrará el valor del parámetro
de la población.
En este eje temático se continúa el estudio de la Inferencia Estadística. Sin
embargo, en lugar de desarrollar un rango de valores dentro del cual se espera que
se encuentre el parámetro de la población, se realizará la prueba de hipótesis
acerca de una afirmación sobre un parámetro de la población. Algunos ejemplos de
afirmaciones que se podrían probar utilizando los métodos de la prueba de hipótesis
son:

1.- El número medio de kilómetros que rueda una llanta radial Goodyear con banda
de acero es de más de 96,500 kilómetros ( 60,000 millas)
2.- Una familia estadounidense típica vive en el mismo hogar durante más de 11.8
años.
3.- El salario inicial medio para los licenciados en administración es de 26,000
dólares al año.
4.- Advil aliviará los síntomas de la jaqueca en menos de 20 minutos.

¿ Qué es una hipótesis?


Una hipótesis es una afirmación acerca de un parámetro de la población. Luego, se
utilizan los datos para verificar qué tan razonable es una afirmación. Para
comenzar, es preciso definir la palabra hipótesis.

Hipótesis: Enunciado acerca de un parámetro de la población, que se desarrolla con


el propósito de realizar pruebas.
En el análisis estadístico se hace una afirmación , es decir, se establece una
hipótesis, y luego se sigue con la prueba para verificar la afirmación o bien para
determinar que no es cierto.
En la mayoría de los casos, la población es tan grande que no se podrá estudiar a
todos los artículos, objetos o personas que integran la población. Por ejemplo, no
sería posible ponerse en contacto con todos los analistas de sistemas en Estados
Unidos, para encontrar su ingreso mensual.

38
¿ Qué es la prueba de hipótesis?

Los términos prueba de hipótesis y probar una hipótesis se utilizan de manera


indistinta. La prueba de hipótesis se inicia con una afirmación o suposición , sobre
un parámetro de la población : como la media de la población. Como se observó, está
declaración se conoce como hipótesis.

Prueba de hipótesis: Procedimiento que se basa en la evidencia de las muestras y


en la teoría de probabilidad para determinar si la hipótesis es un enunciado
razonable.

Procedimiento de cinco pasos para probar una hipótesis:

Paso #1: Plantear la hipótesis nula ( Ho ) y la hipótesis alternativa ( H1).

Hipótesis nula :Una afirmación respecto del valor de un parámetro de la población.


El primer paso consiste en plantear la hipótesis que se prueba. Se le conoce como
hipótesis nula, se designa como Ho y se lee “ H subíndice cero”. La hipótesis nula se
rechaza o se acepta.
La hipótesis nula no se rechaza a menos que los datos de prueba proporcionen
evidencias convincentes de que es falsa.

Hipótesis alternativa: Una afirmación que se acepta si los datos de la muestra


proporcionan evidencia suficiente de que la hipótesis nula es falsa.

La Hipótesis alternativa describe la conclusión a la que se llegará si se rechaza la


hipótesis nula. Se escribe H1 y se lee “ H subíndice uno”. La hipótesis alternativa se
acepta si los datos de la muestra proporcionan suficiente evidencia estadística de
que la hipótesis nula es falsa.

El ejemplo siguiente ayudará a clarificar qué significan la hipótesis nula y la


hipótesis alternativa.

Ejemplo: Un artículo indicó que la edad media de los aviones comerciales en Estados
Unidos es de 15 años. Para realizar una prueba estadística sobre esta afirmación ,
el primer paso consiste en determinar la hipótesis nula y alternativa. La hipótesis
nula representa la condición actual o declarada. Se escribe Ho: μ = 15 . La hipótesis
alternativa es que la afirmación no es verdad, es decir, H1: μ ≠ 15 . Es importante
recordar que, sin importar como se determina el problema, la hipótesis nula siempre
contendrá el signo igual. El signo igual (=) nunca aparecerá en la hipótesis
alternativa.¿Por qué? Porque la hipótesis nula es la declaración que se prueba, y es
necesario incluir un valor específico en los cálculos. La hipótesis alternativa se
observa si se demuestra que no es verdad la hipótesis nula.

39
Paso #2: Seleccionar un nivel de significancia.
Luego de establecer la hipótesis nula y alternativa, el siguiente paso consiste en
definir el nivel de significancia.
Nivel de significancia: La probabilidad de rechazar la hipótesis nula cuando es
verdadera.

El nivel de significancia se designa con α , la letra griega alfa. Se le llama también


nivel de riesgo. Quizá sea un término más apropiado, por el riesgo que se asume al
rechazar la hipótesis nula cuando de hecho es verdadera.
No hay un nivel de significancia que se aplique a todas las pruebas. Se toma la
decisión de utilizar los niveles 0.05( que con frecuencia se conoce como nivel de
5%), 0.01,0.10, o cualquier otro entre 0 y 1.

Para ilustrar como se puede rechazar una hipótesis verdadera, suponga que una
firma que fabrica computadoras personales utiliza una gran cantidad de tarjetas de
circuitos impresos. Los proveedores concursan para abastecer las tarjetas y, a
quien presenta la cotización más baja, se le otorga un contrato considerable.
Suponga también que el contrato especifica que el departamento de control de
calidad del fabricante de las computadoras hará un muestreo de todos los
embarques de tarjetas de circuitos que reciba. Si más del 6% de las tarjetas de la
muestra están por debajo de la norma, el embarque será rechazado. La hipótesis
nula es que los embarques de tarjetas que se reciben contienen 6% o menos de
tarjetas por debajo de la norma. La hipótesis alternativa es que está defectuoso
más del 6% de las tarjetas.

Una muestra de 50 tarjetas del lote que se recibió el 21 de julio de Allied


Electronics reveló que cuatro de ellas, es decir un 8%, estaban por debajo de la
norma. El embarque se rechazó porque excedía el valor máximo de 6% de tarjetas
de circuito por debajo de la norma. Si el embarque en realidad estaba por debajo
de la norma, entonces la decisión de regresar las tarjetas al proveedor fue
correcta. Suponga sin embargo que las cuatro tarjetas seleccionadas en la muestra
de 50 eran las únicas defectuosas en todo el embarque de 4000 tarjetas. Entonces,
sólo 0.1% estaban defectuosas (4/4000= 0.001). En ese caso, menos del 6% de
todo el embarque estaba por debajo de la norma y el rechazo del embarque fue un
error. En términos de prueba de hipótesis, se rechazó la hipótesis nula de que el
embarque estaba por debajo de la norma cuando el embarque debió haberse
aceptado. Al rechazar una hipótesis verdadera, se cometió un error tipo I. La
probabilidad de cometer un error tipo I es α .

Error tipo I: Rechazar la hipótesis nula, Ho, cuando es ver


dadera.

40
La probabilidad de cometer otro tipo de error, llamado error tipo II, se designa
por la letra griega β .

Error tipo II: Aceptar la hipótesis nula Ho, cuando es falsa.

Paso #3: Calcular el estadístico de prueba.

Estadístico de prueba: Es un valor que se calcula con base en la información de la


muestra, y que se utiliza para determinar si se rechaza la hipótesis nula.
En la prueba de hipótesis para la media ( μ ), el estadístico de prueba z se calcula
por:
x−μ
z= Distribución z como estadístico de prueba
σ
n
El valor z se basa en la distribución de muestreo de X , que tiene una distribución
normal cuando la muestra es razonablemente grande con una media ( μ x ) igual a μ
σ
y una desviación estándar σx que es igual a . Así, es posible determinar si la
n
diferencia entre X y μ es importante desde el punto de vista estadístico, al
encontrar cuantas desviaciones estándar separan a X de μ.

Paso #4:Formular la regla de decisión.

Una regla de decisión es una afirmación de las condiciones bajo las que se rechaza
la hipótesis nula y bajo las que no se rechaza. El área o región de rechazo define la
ubicación de todos aquellos valores que son tan grandes o tan pequeños que la
probabilidad de que ocurran bajo una hipótesis nula verdadera es bastante remota.
Valor crítico: Punto de división entre la región en que se rechaza la hipótesis nula y
la región en la que no se rechaza.

Paso #5: Tomar una decisión.

El quinto y último paso en la prueba de hipótesis consiste en tomar la decisión de


rechazar o no rechazar la hipótesis nula.
Pruebas de significancia de una y dos colas.
Una prueba de cualquier hipótesis estadística, donde la alternativa es unilateral, tal
como :
Ho : μ = μ o Ho : μ = μ o
H1 : μ < μo o tal vez, H1 : μ > μo ,

recibe el nombre de prueba de una cola.

41
La región crítica para la hipótesis alternativa μ < μ o cae en la cola izquierda de la
distribución del estadístico de prueba, mientras que la región crítica para la
hipótesis alternativa μ > μ o cae por completo en la cola derecha.
Una prueba de cualquier hipótesis estadística donde la alternativa bilateral, tal
como:

Ho : μ = μo

recibe el nombre de prueba de dos colas, ya que la región crítica se divide en dos
partes, generalmente con iguales probabilidades en cada cola de la distribución del
estadístico de prueba. La hipótesis alternativa μ ≠ μ o , establece que μ < μ o o
μ > μo .
Siempre se establecerá la hipótesis nula, Ho utilizando el signo igual, con objeto de
especificar un solo valor. De está forma, la probabilidad de cometer un error tipo I
puede ser controlada.

El hecho de establecer una prueba de una o de dos colas dependerá de la conclusión


que se saque si se rechaza Ho. La localización de la región crítica puede
determinarse únicamente después de que se ha establecido H1. Por ejemplo, para
probar un nuevo medicamento, se establece la hipótesis de que esté no es mejor
que otros similares actualmente en el mercado y se prueba contra la hipótesis
alternativa de que el nuevo medicamento es mejor. Tal hipótesis alternativa
resultará en una prueba de una cola con la región crítica en la cola derecha.

PRUEBA DE LA MEDIA DE LA POBLACION: muestra grande, desviación


estándar de la población conocida.
Estas preguntas suponen una media de la población:

• ¿En el sector de manufactura, el ingreso medio de los ejecutivos de alto


nivel es de 325,000 dólares anuales ?
• ¿ La longitud media de los trozos de salchicha cortados es de 5.000
centímetros ( 2.000 pulgadas?
• ¿ La edad media de los internos en las prisiones federales es menor de 40
años?
• ¿ La cantidad media que deben los suscriptores de tarjetas es mayor de
1000 dólares?
• ¿ La producción semanal media de escritorios del modelo A325 en
Jamestown Steel Company es de 200?

42
PRUEBA DE DOS COLAS:

Ejemplo: Jamestown Steel Company fabrica y ensambla escritorios y otros equipos


de oficina en varias plantas en el occidente del estado de Nueva York. La
producción del escritorio del modelo A325 en la planta de Fredonia tiene una media
de 200 piezas al mes y una desviación estándar de 16. Hace poco, por la expansión
del mercado, se introdujeron nuevos métodos de producción y se contrató a nuevos
empleados. El vicepresidente de manufactura quiere investigar si hubo un cambio en
la producción semanal del escritorio del modelo A325. Dicho en otros términos,
¿el número medio de escritorios producidos en la planta de Fredonia es diferente
de 200 con un nivel de significancia de 0.01?. Se tiene una muestra de 50 semanas
con una media de 203.5 escritorios.

Solución: Se utiliza el procedimiento de prueba de hipótesis estadística para


investigar si el nivel de producción varió de 200 al mes.

Paso #1:La hipótesis nula es “ la media de la población es 200”. La hipótesis


alternativa es “la media es diferente de 200”.
Ho : μ = 200
H1: μ ≠ 200

Paso #2: Como se observó, se utiliza el nivel de significancia de 0.01.Éste es α , la


probabilidad de cometer un error tipo I.

Paso #3:El estadístico de prueba para una muestra grande es z.


X −μ 203.5 − 200
z= = = 1.55
σ/ n 16 / 50

43
Paso #4:La regla de decisión se fórmula hallando los valores críticos de z.

Paso #5: Debido a que el valor del estadístico de prueba z= 1.55 cae dentro de la
región de aceptación, la hipótesis nula no se rechaza. Se llega a la conclusión que la
media de la población no es diferente de 200.

Ejemplo: Un estudio de la Asociación Estadounidense de Refrescos mostró que el


adulto estadounidense típico consume al año 68 litros ( 18 galones ) de refresco de
cola. Según la misma investigación, la desviación estándar del consumo es de 11.3
litros (3.0 galones). Una muestra aleatoria de 64 estudiantes universitarios reveló
que el año anterior consumieron un promedio ( media ) de 64.2 litros ( 17.0 galones )
de refresco de cola. En el nivel de significancia de 0.05, ¿ es posible concluir que
existe una diferencia entre el consumo medio de los estudiantes universitarios y de
los adultos en general?.

a).- Establezca la hipótesis nula y la alternativa


b).- ¿ Cuál es la probabilidad de un error tipo I?
c).- Escriba la fórmula del estadístico de prueba.
d).- Establezca la regla de decisión.
e).- ¿ Cuál es el valor calculado del estadístico de prueba?.
f).- ¿ Cuál es la decisión respecto de la hipótesis nula?.
g).- Interprete su decisión.

Solución:
a).- HO : μ = 68 litros
H1 : μ ≠ 68 litros
b).- La probabilidad de cometer el error tipo I es α = 0.05
X −μ
c).- z=
σ/ n

d).- Rechazar la H0 si z< - 1.96 ó z > 1.96

44
z = -2.67

17.0 − 18.0
e).- z = = −2.67
3 / 64

f).- Rechazar H0 y aceptar H1

g).- El consumo medio de refrescos de cola para los estudiantes universitarios no es


igual a 68 litros ( 18 galones ) al año.

PRUEBA DE UNA COLA :

En el ejemplo de Jamestown Steel Compnay, solo interesaba informar al


vicepresidente si hubo un cambio en el número medio de escritorios ensamblados en
la planta de Fredonia .No interesa saber si el cambio fue un aumento o una
disminución en la producción.
Para ilustrar una prueba de una cola, se cambiará la pregunta. Suponga que el
vicepresidente quiere saber si hubo un aumento en el número de unidades
ensambladas. En otros términos, ¿ se puede concluir, con base en las mejoras en los
métodos de producción, que el número medio de escritorios ensamblados en las
últimas 50 semanas fue mayor a 200?.
Observe la diferencia en el modo en que se formula la pregunta. En el primer caso,
se quería si había una diferencia en la media de escritorios ensamblados, pero
ahora se desea saber si hubo un aumento. Debido a que se investigan preguntas
diferentes, se establecerá la hipótesis de modo distinto.
Prueba de dos colas Prueba de una cola
H0 : μ = 200 H0 : μ ≤ 200
H1 : μ ≠ 200 H1 : μ > 200

45
Los valores críticos para una prueba de una cola son distintos de los de dos colas al
mismo nivel de significancia, porque todo el “riesgo” se encuentra en una sola
dirección.

Ejemplo: Una muestra aleatoria de 36 refrescos de una máquina despachadora


automática tiene un contenido promedio e 21.9 decilitros, con una desviación
estándar de 1.42 decilitros. Pruebe la hipótesis de que μ = 22.2 decilitros en
contraposición a la hipótesis alternativa, μ < 22.2 , en el nivel de significancia de
0.05.

Solución:

Paso #1: Establecer las hipótesis nula y alternativa


H0 : μ ≥ 22.2 decilitros
H1 : μ < 22.2 decilitros

Paso #2: Como se observó, se utiliza el nivel de significancia de 0.05.

Paso #3: Se calcula el estadístico de prueba z.


x − μ 21.9 − 22.2
z= = = −1.26
σ / n 1.42 / 36

Paso #4: Se formula la regla de decisión.

Si el valor calculado de z es menor que el valor crítico z = -1.645, la hipótesis nula


se rechaza, caso contrario se acepta.

46
Paso #5: Se acepta la hipótesis nula, debido a que el valor calculado del estadístico
de prueba es mayor que el valor crítico, por lo que el contenido promedio de los
refrescos es de 21.9 decilitros.

EJERCICIOS

Ejemplo: Una empresa eléctrica fabrica focos que tienen una duración que está
distribuida aproximadamente en forma normal con una media de 800 horas y una
desviación estándar de 40. Pruebe la hipótesis de que μ = 800 horas en
contraposición de la alternativa de que μ ≠ 800 horas, si una muestra aleatoria de
30 focos tiene una duración promedio de 788 horas. Utilice un nivel de significancia
de 0.04.

Ejemplo: La altura promedio de las mujeres en el grupo de primer año de una


institución de enseñanza superior es de 162.5 centímetros con una desviación
estándar de 6.9 centímetros.
¿Hay alguna razón para creer que existe un cambio en la altura promedio si una
muestra aleatoria de 50 mujeres del grupo actual tiene una altura promedio de
165.2 centímetros?.
Use α = 0.05

Ejemplo :Se afirma que un automóvil recorre un promedio anual de 20,000 km.. Para
probar esta afirmación, se le solicita a una muestra aleatoria de 100 propietarios
de automóvil que lleve un registro de los kilómetros que recorren. ¿ Estaría usted
de acuerdo con esta afirmación si en la muestra aleatoria resulta un promedio de
23,500 km. Y una desviación estándar de 3900 km?. Use un nivel de significancia de
0.05.

Ejemplo: El Edison Electric Institute ha publicado cifras acerca de las horas


anuales de uso de varios aparatos para el hogar. Afirma que un compactador de
basura se usa un promedio de 125 horas al año. Si una muestra aleatoria de 49
hogares equipados con compactadores de basura indica un uso promedio de 126.9
horas con una desviación estándar de 8.4 horas, ¿ sugiere esto que estos aparatos
se utilizan, en promedio, mas de 125 horas al año?. Use α = 0.01

47
EJERCICIOS COMPLEMENTARIOS

1.- Se tiene la siguiente prueba de hipótesis :


H0 : μ = 10
H1 : μ ≠ 10
Una muestra de 36 artículos produce un promedio de 11 y una desviación
estándar de 2.5.

a).- ¿ Cuál es la regla de rechazo con α = 0.05 ?


b).- Calcule el valor del estadístico z. ¿ Cuál es su conclusión?

2.- Se tiene la siguiente prueba de hipótesis :


H0 : μ = 15
H1 : μ ≠ 15
Con una muestra de 50 elementos se obtiene una media de 14.2 y una
desviación estándar de 5.

a).- ¿ Cuál es la regla de rechazo con α = 0.02


b).- Determine el valor del estadístico de prueba z.
c).- ¿ Cuál es su conclusión?

3.- Se tiene la siguiente prueba de hipótesis.


H0 : μ = 25
H1 : μ ≠ 25
Se usa una muestra de tamaño 80, y la desviación estándar es de 10.Use
α = 0.05 y determine el valor del estadístico z, especificando su conclusión
en cada uno de los siguientes resultados de la muestra.
a).- x = 22.0 b).- x = 27.0 c).- x = 23.5 d).- x = 28.0

4.- La duración promedio de una semana de trabajo para la población de


trabajadores es de 39.2 horas. Pruebe las hipótesis : H0 : μ = 39.2 y H1
:μ ≠ 39.2 con α = 0.05 .

a).- ¿ Cuales son los valores críticos para el estadístico de prueba y cuál es la regla
de rechazo para H0?.
b).- Suponga que en una muestra de seguimiento de 112 trabajadores la media
muestral es de 38.5 horas y que la desviación estándar muestral es de 4.8 horas.
¿Cuál es el valor del estadístico de prueba?.
c).- ¿ Se puede rechazar la hipótesis nula?. ¿ Cuál es su conclusión?

48
5.- Las empresas CNN y ActMedia fundaron un canal de TV que presentaba
noticias, novedades y anuncios dirigido a individuos que esperan en las filas de
cajas de supermercados. Los programas de TV fueron diseñados con un ciclo de
8 minutos, suponiendo que la media del tiempo que espera un cliente en la fila
es 8 minutos. Una muestra de 120 compradores en un gran supermercado
produjo una media de 7.5 minutos de tiempo de espera, con 3.2 minutos de
desviación estándar. Pruebe H0 : μ = 8 y H1 : μ ≠ 8 con α = 0.05 .

a).- ¿ Cuales son los valores críticos de el estadístico de prueba y cuál es la regla de
rechazo?
b).- Calcule el valor del estadístico de prueba.
c).- ¿ Cuál es su conclusión?.

6.- La cadena de restaurantes Mac Burger afirma que el tiempo de espera de


los clientes tiene una media de 3 minutos, con un minuto de desviación
estándar. El departamento de aseguramiento de la calidad encontró en una
muestra de 50 clientes en el Mac Burger de Warren Road que el tiempo medio
de espera fue de 2.75 minutos. En el nivel de significancia de 0.05, ¿ es posible
concluir que el tiempo medio de espera es menor de 3 minutos?.

7.-El fabricante de la llanta radial con banda de acero X-15 para camión
afirma que la distancia media que puede rodar la llanta antes de que se
desgaste es de 96500 km.,(60,000 millas).La desviación estándar de esta
distancia es de 8000km(5000 millas ).Crosset Truck Company compró 48
llantas y descubrió que la distancia media en sus camiones fue de 95700 km.,
(59500 millas).¿ La experiencia de Crosset es distinta de la que afirma el
fabricante en el nivel de significancia de 0.05?.

8.- Una encuesta nacional reciente descubrió que los estudiantes de secundaria
veían una media de 6.8 videos por mes. Una muestra aleatoria de 36
estudiantes universitarios reveló que el número medio de videos que vieron por
mes fue de 6.2, con una desviación estándar de 0.5.
En el nivel de significancia de 0.05, ¿ es posible concluir que los estudiantes
universitarios ven menos videos al mes que los de secundaria?.

49
9.- Una nueva empresa dedicada al cuidado del peso, Weight Reducers
Internacional, anuncia que todos los que se inscriban perderán, en promedio,
4.5 kilogramos ( 10 libras ) en las primeras dos semanas. Una muestra
aleatoria de 50 personas inscritas al programa reveló que la pérdida media de
peso fue de 4 kilogramos ( 9 libras ). La desviación estándar de la muestra se
calculó en 1.27 kilogramos(2.8 libras ). En el nivel de significancia de 0.05, ¿
es posible concluir que aquellos que se unen al programa de reducción de peso
perderán más de 4.5 kilogramos ( 10 libras ).

10.-Dole Pineapple, Inc., se preocupa porque las latas de 450 gramos ( 16


onzas )de piña en rebanadas se están llenando en exceso. El departamento de
control de calidad tomó una muestra aleatoria de 50 latas y descubrió que el
peso medio aritmético fue de 455 gramos
( 16.05 onzas ), con una desviación estándar de 0.8 gramos ( 0.03 onzas ).
En el nivel de significancia de 0.05, ¿ es posible concluir que el peso medio es
mayor a 16 onzas?.

11.- Según el líder sindical local, el ingreso medio de los plomeros en el área
de Salt Lake City tiene una distribución normal, con una media de 30,000
dólares y una desviación estándar de
3000 dólares. Hace poco, un reportero de investigación de una estación
televisora local descubrió, para una muestra de 120 plomeros, que el ingreso
promedio bruto fue de 30,500 dólares. En el nivel de significancia de 0.10,¿ es
posible concluir que el ingreso medio no es igual a 30,000 dólares?.

50
Valor p en la prueba de hipótesis.

Al probar una hipótesis, se comparó el estadístico de prueba con un valor crítico.


Se tomó la decisión de rechazar o no la hipótesis nula. Así, por ejemplo, si el valor
crítico es 1.96 y el valor calculado del estadístico de prueba es 2.19, la decisión es
rechazar la hipótesis nula.

En los años recientes , impulsada por la disponibilidad de software de cómputo, con


frecuencia se presenta información sobre la fuerza del rechazo. Es decir,¿ qué
tanta confianza había al rechazar la hipótesis nula?. Este enfoque representa la
probabilidad ( suponiendo que la hipótesis nula sea verdadera) de lograr el valor del
estadístico de prueba al menos tan extremo como el valor que se obtuvo de hecho.
Este proceso compara la probabilidad, llamada valor p, con el nivel de significancia.
Si el valor p es menor que el nivel de significancia, se rechaza H0. Si es mayor que el
nivel de significancia, H0 no se rechaza.

¿ Como se calcula el valor p? .Para ilustrarlo, se utilizará el ejemplo en el que se


probó la hipótesis nula de que la cantidad media de escritorios que se producen en
la planta de Fredonia fue 200. No se rechazó la hipótesis nula, porque el valor de z
de 1.55 cae en la región entre -2.58 y 2.58. Se aceptó no rechazar la hipótesis nula
si el valor calculado de z cayó en esta región. La probabilidad de encontrar un valor
de z de 1.55 o más es 0.0606, que se encuentra por 0.5000 – 0.4394. Es decir, la
probabilidad de obtener una X mayor a 203.5 si μ = 200 es 0.0606. Para calcular el
valor p, es preciso interesarse por la región menor a -1.55 tanto como por los
valores mayores a 1.55 ( debido a que la región de rechazo está en ambas colas). El
valor p es 0.1212, que se encuentra por 2(0.0606). El valor p de 0.1212 es mayor que
el nivel de significancia de 0.01 que se decidió al principio, de modo que H0 no se
rechaza.

51
PRUEBAS SOBRE LA MEDIA DE UNA POBLACION: caso de muestra pequeña.

Los procedimientos de prueba de hipótesis acerca de una media poblacional


analizados anteriormente, se basaron en el teorema del límite central y la teoría de
muestras grandes. A continuación consideraremos el caso donde el tamaño de
muestra es pequeña (n<30), se supone que la población tiene una distribución normal
y la desviación estándar poblacional σ se estima mediante la desviación estándar
muestral s. En este caso se puede usar la distribución t para hacer inferencias
acerca del valor de la media poblacional. Cuando se utiliza la distribución t para la
prueba de hipótesis, el estadístico de prueba es :

x − μo
t= ; donde :
s
n
t= distribución t de student.
x = media muestral.
μo = media hipotética poblacional.
s = desviación estándar muestral.
n = tamaño de la muestra.

El estadístico de prueba tiene una distribución t con n-1 grados de libertad.

Prueba unilateral o de una cola :

Ejemplo :La asociación internacional de transporte aéreo pide a los viajeros de


negocios que califiquen los aeropuertos internacionales trasatlánticos. La
calificación máxima posible es 10. Una revista dedicada a los viajes desea clasificar
a los aeropuertos según la calificación que reciben. De los que tienen una
calificación de media de población de 7 o más se considera que ofrecen un servicio
superior. Suponga que una muestra aleatoria simple de 12 viajeros se les pidió
calificar al aeropuerto Heathrow de Londres, y que las 12 calificaciones obtenidas
son 7,8,10,8,6,9,6,7,7,8,9 y8. La media para estos datos es x = 7.75 , y la
desviación estándar es s=1.215. Suponiendo que la población de calificaciones se
puede aproximar con una distribución de probabilidad normal,¿ puede decirse que
Heathrow ofrece un servicio superior?. Use un nivel de significancia de 0.05.

Solución:

Paso #1 :La hipótesis nula es “ la media poblacional es menor o igual a 7”. La


hipótesis alternativa es “ la media poblacional es mayor que 7”.
H O : μO ≤ 7
H1 : μO > 7

52
Paso # 2: Como se observó, se utiliza un nivel de significancia de 0.05. Éste es α,
la probabilidad de cometer un error tipo I.

Paso # 3: El estadístico de prueba para una muestra pequeña es t.

x − μo 7.75 − 7
t= = = 2.14
s 1.215
n 12

Paso #4:Se formula la regla de decisión: El valor crítico t=1.796 es menor que el
valor calculado del estadístico de prueba t=2.14.

Paso #5:Tomar una decisión :Debido a que el valor del estadístico de prueba es
mayor que el valor crítico, la hipótesis nula se rechaza.

Ejemplo: El departamento de reclamaciones de la compañía aseguradora Mac


Farland informa que el costo promedio de procesar un reclamo, manejar toda la
papelería, pagar al investigador, etc., es de $60. Un comparativo elaborado en el
sector mostró que la cantidad era mayor que para la mayoría de las demás
aseguradoras, puesto que ellas instituyeron medidas para recortar gastos. Para
evaluar el efecto de dichas medidas , Mac Farland seleccionó una muestra aleatoria
de 26 reclamos y encontró que la media para esta muestra fue de $57 y la
desviación estándar de $10. Con un nivel de ignificancia de 0.01 ¿ podría concluir
que las medidas de recorte de gastos en realidad reducen el costo?.¿ O acaso
debieran concluir que los $3 de diferencia entre la media de la población ($60) y la
media de la muestra ($57) se deben a la casualidad?.

Solución:
1er. Paso: Se establecen las hipótesis nula y la alternativa:
HO : μ ≥ $60
H1 : μ < $60

53
2do. Paso : Selecciona el nivel e significancia: Se utiliza el nivel de 0.01

3er. Paso : Se calcula el estadístico de prueba :


x − μ 57 − 60
t= = = −1.530
s 10
n 26

4to. Paso : Se formula la regla de decisión: El valor crítico de t para el nivel de


significancia de 0.01 es : -2.485

5to. Paso: Tomar una decisión: Dado que el valor calculado del estadístico de
prueba
t = -1.530 esta situado a la derecha del valor crítico t=-2.485, la hipótesis nula no
se rechaza.

Ejemplo : La longitud media de una pequeña barra de compensación es de 43


milímetros. Existe la preocupación de que los ajustes a la máquina que las elabora ha
cambiado. La hipótesis nula es que no ha habido cambios en la longitud media
( μ = 43 ). La hipótesis alternativa es que sí existe algún cambio (μ ≠ 43) . Pruebe
con el nivel 0.02. Se seleccionaron de manera aleatoria 12 barras de la producción .
Sus longitudes en milímetros fueron:
42, 39,42,45,43,40,39,41,40,42,43,42. Media igual a x = 41.5 y desviación
estándar s=1.78.

54
Solución:

Paso #1: Establecer las hipótesis nula y alternativa .


Ho : μ = 43
H1 : μ ≠ 43

Paso #2 : Seleccionar un nivel de significancia. Para este ejemplo es α = 0.02 .


Para este nivel de significancia los valores críticos son:
Grados de libertad = n-1, esto es n=12-1 =11 grados de libertad.
Los valores de la tabla t de student para t con 11 grados de libertad son : t= -2.718
y t = 2.718

Paso #3 : Calcular el estadístico de prueba :

x − μ 41.5 − 43.0
t= = = −2.92
s 1.78
n 12

Paso #4 :Se establece la regla de decisión :

Paso #5: Se toma una decisión : El valor calculado del estadístico de prueba está a
la izquierda del valor crítico t =-2.718, por lo que se rechaza la hipótesis nula.

55
EJERCICIOS

Ejemplo: Se calibró una máquina para que llenara una pequeña botella con 9.0
gramos de medicina. Se alega que el peso medio es menor que 9.0 gramos. La
hipótesis se probará en el nivel de significancia de 0.01. Una muestra reveló los
siguientes pesos ( en gramos ): 9.2,8.7,
8.9,8.6,8.8,8.5,8.7y9.0.
a).- Establezca las hipótesis nula y alternativa
b).- ¿ Cuántos grados de libertad tiene?
c).- Proporcione la regla de decisión
d).- Calcule t y llegue a una decisión.

Ejemplo: El gerente de ventas de Irwin/Mc Graw Hill Collage Publishing,Inc., para la


región de las Montañas Rocallosas argumenta que los representantes de ventas
hacen un promedio de 40 llamadas semanales a los profesores. Diversos informes
dicen que esta estimación es muy baja.
Para investigarlo, se tomó una muestra aleatoria de 28 representantes de ventas
que reveló que el número medio de llamadas hechas la semana pasada fue de 42. La
desviación estándar de la muestra fue de 2.1 llamadas. Con un nivel de significancia
de 0.05,¿ es posible concluir que el número medio de llamadas semanales por
vendedor es de más de 40?.

Ejemplo: La administración de industrias White está estudiando un nuevo método


de ensamblaje para su carrito de golf con tres ruedas. El método actual requiere,
en promedio, de 42.3 minutos para ensamblar una unidad. Se introdujo el nuevo
método y se realizó un estudio de tiempo y movimiento sobre una muestra aleatoria
de 24 carritos. El tiempo medio de ensamblaje se calculó en 40.6 minutos. La
desviación estándar de la muestra fue de 2.7 minutos. Utilizando un nivel de
significancia de 0.10,¿ se puede decir que el tiempo de ensamblaje con el método
nuevo es significativamente inferior al precedente?.

56
EJERCICIOS COMPLEMENTARIOS

1.- Los registros muestran que la vida promedio de una batería utilizada en un
reloj digital es de 305 días. Las duraciones de las baterías tienen una
distribución normal. La batería se modificó recientemente y se probó una
muestra de 20 baterías modificadas. La vida promedio fue de 311 días, y la
desviación estándar de la muestra fue de 12 días. Para un nivel de
significancia de 0.05,¿ la modificación incrementó la vida promedio de la batería?.
a).- Establezca las hipótesis nula y alternativa
b).- Muestre en forma gráfica la regla de decisión
c).- Calcule t y llegue a una decisión.

2.- Dadas las hipótesis siguientes :


HO : μ ≤ 10
H1 : μ > 10
Para una muestra aleatoria de 10 observaciones, la media es de 12 y la
desviación estándar 3
Empleando un nivel de significancia de 0.05:

a).- Establezca la regla de decisión


b).- Calcule el valor del estadístico de prueba
c).- ¿ Cuál es su decisión acerca de la hipótesis nula?

3.- Dadas las siguientes hipótesis :


HO : μ = 400
H1 : μ ≠ 400
Para una muestra aleatoria de 12 observaciones, la media de la muestra
es de 407 y la desviación estándar 6. Empleando un nivel de significancia de
0.01:
a).- Establezca la regla de decisión
b).- Calcule el valor del estadístico de prueba
c).- ¿ Cuál es su decisión acerca de la hipótesis nula?.

4.- Los registros de los camiones Yellowstone revelaron que la duración media
de un juego de bujías es de 35,558.9 km. Un fabricante aseguró que sus
bujías tienen una duración promedio que excede esa cifra. El dueño de la
flotilla adquirió una gran cantidad de juegos. Una muestra de 18 de ellos
reveló que la duración media de la muestra era 37,650.6 km., y que la
desviación estándar era de 2,413.5 km., ¿ Existen evidencias suficientes para
verificar la afirmación del fabricante en un nivel de 0.05?.

57
5.-Fast service, cadena de talleres de servicio automotriz , anuncia que su
personal puede cambiar el aceite , remplazar el filtro y lubricar cualquier
automóvil normal en 15 minutos, en promedio. El buró nacional de negocios
recibió varias quejas de los clientes en el sentido de que el servicio es mucho
más lento. Para verificar la afirmación de Fast service, dicha dependencia hizo
el servicio en 21 automóviles sin marcar. El tiempo medio de servicio fue de 18
minutos, y la desviación estándar de la muestra fue de 1 minuto. Utilice un nivel
de 0.05 para revisar la sensatez de la afirmación de Fast service.

6.- La experiencia con la cría de pollos de New Jersey Red reveló que el peso
promedio de los pollos a los cinco meses de edad es de 4.35 libras. Los pesos
tienen una distribución normal. Con el fin de incrementar el peso de los pollos,
se añadió a su alimento un nutriente especial. Los pesos subsecuentes de una
muestra de pollos de cinco meses de edad fueron (en libras):
4.41,4.37,4.33,4.35,4.30,4.39,4.36,4.38,4.40,4.39. Para un nivel de 0.01,¿
el nutriente especial ha incrementado el peso de los pollos?.

7.-La familia estadounidense promedio gasta 90 dólares diarios. Suponga que


una muestra de 25 familias en Corning, Nueva York, tiene un promedio diario
de 84.50 dólares de gastos con desviación estándar de 14.50 dólares. Pruebe
Ho: μ = 90 y H1: μ ≠ 90 con α = 0.05 .
a).- ¿ Cuáles son los valores críticos del estadístico de prueba, y cuál es la región de
rechazo?
b).- Calcule el valor del estadístico de prueba
c).- ¿ Cuál es su conclusión?
d.-¿ Qué puede decir acerca del valor de p?.

8.- Las ganancias promedio poblacionales por acción para corporaciones de


servicios financieros, como American Express, E*Trade Group, Goldman Sachs
y Merril Lynch fueron de 3 dólares. En 2001, para una muestra de 10
corporaciones de servicios financieros se obtuvieron los datos siguientes de
ganancias por acción:
1.92, 2.16, 3.63, 3.16, 4.02, 3.14, 2.20, 2.34, 3.05, 2.38
a).- Formule la hipótesis nula y alternativa que permitan determinar si las ganancias
promedio poblacionales por acción en 2001 difieren de los tres dólares informados
en el 2000.
b).- Con α = 0.05 ,¿ cuáles son los valores críticos para el estadístico de prueba, y
¿cuál es la regla de decisión?
c).- Calcule la media muestral
d).- Encuentre la desviación estándar muestral
e).-Calcule el valor del estadístico de prueba
f).- ¿ Cuál es su conclusión?
g).- ¿ Qué puede decir acerca del valor de p?

58
9.- Se estima que, en promedio, un ama de casa con marido y dos niños
trabaja 55 horas por semana o menos en actividades del hogar. Las horas que
trabajaron ocho amas de casa de una muestra fueron 58,52,64,63,59,62,62 y
55. Pruebe Ho: μ ≤ 55 , H1: μ > 55 , con α = 0.05 .
a).- ¿ Cuál es el valor crítico para la prueba y cuál es la regla de rechazo?.
b).- Calcule la media muestral.
c).- Encuentre la desviación estándar muestral.
d).- Calcule el valor del estadístico de prueba.
e).- ¿Cuál es su conclusión?.
f).- ¿Qué puede decir acerca del valor p?.

10.- El precio de un diamante color H, claridad VS2 de un quilate en Diamond


Source USA es de 4000 dólares. Un joyero de la región central de Estados
Unidos llama a sus contactos en el distrito de diamantes de Nueva Cork para
ver si el precio promedio de diamantes similares difiere de 4000 dólares. El
joyero está de acuerdo en reunir datos de costos de 14 contactos en la ciudad
de Nueva York.
a).- Formule las hipótesis nula y alternativa que permitan determinar si el precio
promedio en la ciudad de Nueva York difiere de 4000 dólares.
b).- Con α = 0.05 ,¿ cuáles son los valores críticos para la prueba y cuál es la regla
de rechazo?
c).- Suponga que para la muestra de 14 se tiene que el precio promedio es de 4120
dólares y que la desviación estándar es de 275 dólares. Calcule el valor del
estadístico de prueba.
d).- ¿Cuál es su conclusión?
e).- ¿ Qué puede decir acerca del valor de p?.

59
PRUEBAS DE HIPOTESIS ACERCA DE LA DIFERENCIA ENTRE LAS MEDIAS
DE DOS POBLACIONES . Caso de muestra grande.

En esta sección presentaremos los procedimientos para probar hipótesis acerca de


la inferencia entre las medias de dos poblaciones. De nuevo la metodología se divide
en los casos de muestra grande (n1 ≥ 30 ,n2 ≥ 30 ) y de muestra pequeña ( n1<30 y/o
n2<30).
Como parte de un estudio para evaluar las diferencias en los niveles educativos
entre dos centros de capacitación, se aplicó un examen común a personas que
asisten a cada centro. Las calificaciones ( tabla 10.1 ) del examen son uno de los
factores principales para evaluar diferencias de la calidad entre los centros.

Tabla 10.1: Datos de calificaciones en el examen


Centro de adiestramiento A Centro de adiestramiento B
97 83 91 64 66 91 84
90 84 87 85 83 78 85
94 76 73 72 74 87 85
79 82 92 64 70 93 84
78 85 64 74 82 89 59
87 85 74 93 82 79 62
83 91 88 70 75 84 91
89 72 88 79 78 65 83
76 86 74 79 99 78 80
84 70 73 75 57 66 76

Resultados de las calificaciones en el examen


Centro de adiestramiento A Centro de adiestramiento B
n 1=30 n2 =40
x1 = 82.5 x 2 = 78
s 1 =8 s2 =10

Las medias para los dos centros son las siguientes:


μ1 = media de la calificación para la población de personas adiestradas en el centro
A
μ 2 = media de la calificación para la población de personas adiestradas en el centro
B
Comenzaremos con el supuesto de que no hay diferencia en la calidad de
adiestramiento que se da en los dos centros. Por consiguiente, en términos de la
media de la calificación, la hipótesis nula es que μ1 − μ 2 = 0 . Si la evidencia de la
muestra conduce la rechazo de esta hipótesis, llegaremos a la conclusión de que las
medias de las calificaciones son distintas para las dos poblaciones, lo cuál indica que
hay una diferencia en la calidad de los dos centros, lo que amerita una investigación

60
para encontrar las razones de esa diferencia. Entonces las hipótesis nula y
alternativa son las siguientes:
HO : μ 1 − μ 2 = 0
H1 : μ1 − μ 2 ≠ 0

Al seguir el procedimiento de prueba de hipótesis, haremos el supuesto de que Ho


es verdadera. Al emplear la diferencia entre las medias de las muestras como
estimador puntual de la diferencia entre las medias poblacionales, podremos
examinar la distribución de x1 − x 2 cuando Ho es verdadera.
Como la distribución muestral de x1 − x 2 se puede aproximar mediante una
distribución de probabilidad normal , emplearemos el siguiente estadístico de
prueba :

z=
(x
1 − x 2 ) − (μ1 − μ 2 )
σ 12 σ 22
+
n1 n2

Si se desconocen los valores de σ1 y σ2 , podemos usar las desviaciones estándar


muestrales s1 y s2 para calcular el estadístico de prueba.
El valor de z que se obtiene con el estadístico de prueba se puede considerar como
la cantidad de desviaciones estándar que dista la diferencia x1 − x 2 del valor
μ1 − μ 2 especificado en Ho.
α
Para α = 0.05 y, en consecuencia, z = z 0.025 = 1.96 , la región de rechazo para la
2
prueba bilateral de hipótesis es la que vemos en la siguiente figura:

La regla de rechazo es : rechace Ho si z< -1.96 o z> 1.96


Suponga que las muestras aleatorias independientes de personas capacitadas en los dos
centros dieron como resultado las calificaciones de la tabla 10.1. Al usar s1 y s2 para
estimar σ 1 y σ 2 , vemos que el estadístico de prueba z, calculado para la hipótesis nula
Ho: μ1 − μ 2 = 0 resulta:

61
z=
(82.5 − 78) − 0 = 2.09
(8)2 + (10)2
30 40
Como z=2.09>1.96, la conclusión es rechazar Ho. Así las calificaciones en las
muestras conducen a concluir que los dos centros de enseñanza difieren en su
calidad educativa.
En esta prueba de hipótesis nos interesaba determinar si las medias de las dos
poblaciones son distintas. No teníamos indicación de que una podría ser mayor o
menor que la otra, así que fueron adecuadas las hipótesis Ho : μ1 − μ 2 = 0 y H1:
μ1 − μ 2 ≠ 0 . En otras pruebas de hipótesis sobre la diferencia entre las medias de
dos poblaciones podremos determinar si una de las medias es mayor que, o quizá
menor que la otra. En esos casos lo adecuado es una prueba de hipótesis unilateral.
Las dos formas de una prueba unilateral acerca de la diferencia entre dos medias
de población son las siguientes:

Ho: μ1 − μ 2 ≤ 0 Ho : μ1 − μ 2 ≥ 0
H1 : μ 1 − μ 2 > 0 H1 : μ1 − μ 2 < 0

Ejemplo: Se tiene la siguiente prueba de hipótesis :


Ho : μ 1 − μ 2 ≤ 0
H1 : μ1 − μ 2 > 0
Los resultados siguientes son para do muestras independientes tomadas de dos
poblaciones.
Muestra 1 Muestra 2
n1 = 40 n2=50
x1 = 25.2 x 2 = 22.8
s1 =5.2 s2 = 6.0
a).- ¿ Cuál es su conclusión de la prueba de hipótesis con α = 0.05 ?
b).- ¿ Cuál es el valor de p?

Ejemplo: Se tiene la siguiente prueba de hipótesis.


Ho : μ1 − μ 2 = 0
H1 : μ1 − μ 2 ≠ 0
Los siguientes resultados corresponden a dos muestras independientes de dos
poblaciones.
Muestra 1 Muestra 2
n1 = 80 n2 = 70
x1 = 104 x 2 = 106
s1 = 8.4 s2 = 7.6

62
a).- ¿ Cuál es su conclusión de la prueba de hipótesis con α = 0.05 ?
b).- ¿ Cuál es el valor de p?.

Ejemplo : Se tiene la siguiente prueba de hipótesis:


Ho : μ1 − μ 2 = 0
H1 : μ1 − μ 2 ≠ 0
Los resultados siguientes corresponden a dos muestras independientes de las dos
poblaciones. ¿ Cuál es su conclusión de la prueba de hipótesis, con α = 0.05 ?
Muestra 1 Muestra 2
n1 = 8 n2 = 7
x1 = 1.4 x 2 = 1 .0
s1 =0.4 s2 = 0.6

63
EJERCICIOS COMPLEMENTARIOS

1.- Las áreas costeras de Estados Unidos, como Cape Cod, los bancos
ribereños, las Carolinas y la costa del golfo, tuvieron tasas de crecimiento
poblacional relativamente altas durante la década de los 90´. Se reunieron
datos acerca de los residentes de las comunidades costeras, así como de los
que viven en áreas no costeras en todo Estados Unidos. Suponga que se
obtuvieron los resultados muestrales siguientes acerca de las edades de los
individuos en las dos poblaciones:
Áreas costeras Áreas no costeras
x1 = 39.3 años x 2 = 35.4 años
s1 = 16.8 años s2 = 15.2 años
n1 = 150 n2 = 175
Pruebe la hipótesis de que no hay diferencia entre las edades promedio de las
dos poblaciones. Use α = 0.05 .
a).- Formule la hipótesis nula y alternativa
b).- ¿ Cuál es la regla de rechazo?
c).- ¿ Cuál es el valor del estadístico de prueba?
d).- ¿ Cuál es su conclusión?
e).-¿ Cuál es el valor de p?

2.- El estudio de las tiendas Greystone Department Store produjo los


siguientes datos acerca de las edades de los clientes, con dos muestras
aleatorias independientes tomadas en dos lugares de la ciudad.
Tienda del centro Tienda sub-urbana
n1 = 36 n2 = 49
x1 = 40 años x 2 = 35 años
s1 = 9 años s2 = 10 años
Para α = 0.05 , pruebe Ho : μ1 − μ 2 = 0 contra la alternativa H1 :
μ1 − μ 2 ≠ 0 .¿ Cuál es su conclusión acerca de las medias de las edades de las
poblaciones de los clientes en las dos tiendas? ¿ Cuál es el valor de p?.

3.- El servicio de evaluación educativa llevó a cabo un estudio para investigar


las diferencias entre las calificaciones de alumnos hombres y mujeres en la
prueba de aptitud escolar ( PAE ).
El estudio identificó una muestra aleatoria de 562 alumnos mujeres y 852
alumnos hombres que alcanzaron la misma alta calificación en la parte de
matemáticas. Esto es, se consideró que los alumnos, mujeres y hombres,
tienen aptitudes semejantes y altas en matemáticas. Las calificaciones de
expresión oral del PAE, para las dos muestras, se resumen en la tabla
siguiente.

64
Alumnos mujeres Alumnos hombres
x1 = 547 x 2 = 525
s1 = 83 s2 = 78
Esos datos, ¿ respaldan la conclusión que, dada una población de alumnos mujeres y
una de alumnos hombres con aptitudes matemáticas altas, los alumnos mujeres
tienen una aptitud bastante mayor de expresión oral?. Haga la prueba con nivel de
significancia de 0.02.¿ Cuál es su conclusión?

4.-Una empresa estudia los tiempos de entrega de dos proveedores de materia


prima. En general, está satisfecha con el proveedor A, y lo conservará si la
media de su tiempo de entrega es igual o menor que la del proveedor B. Sin
embargo, si observa que la media del tiempo de entrega del proveedor B es
menor que el proveedor A, comenzará a comprar con el proveedor B.
a).- ¿ Cuáles son las hipótesis nula y alternativa para este caso?
b).- Suponga que unas muestras independientes dan las siguientes características
de tiempo de entrega para los dos proveedores.
Proveedor A Proveedor B
n1 = 50 n2 =30
x1 = 14 días x 2 = 12.5 días
s1 = 3 días s 2 = 2 días
¿ Cuál es su conclusión respecto a las hipótesis del inciso a, con α = 0.05 ? ¿ Qué
acción recomienda usted respecto a la elección de proveedor?

5.- Arnold Palmer y Tiger Woods son dos de los mejores golfistas que alguna
vez hayan existido. La pregunta que surge es en cuanto a cómo se compararían
estos dos jugadores si estuvieran en su nivel máximo de juego. En los
siguientes datos muestrales se observan los resultados de las puntuaciones de
18 hoyos durante una competencia del torneo PGA. Las puntuaciones de Palmer
son desde su temporada de 1960, en tanto que las puntuaciones de Woods son
desde su temporada de 1999.
Palmer,1960 Woods,1999
x1 = 69.95 x 2 = 69.56
n1 = 112 n 2 = 84
Utilice los resultados para probar la hipótesis de que no hay diferencia entre
las puntuaciones poblacionales promedio de 18 hoyos para los dos golfistas.
a).- Suponiendo una desviación estándar poblacional de 2.5 para ambos golfistas,
¿cuál es el valor del estadístico de prueba?
b).- ¿Cuál es el valor de p?
c).- Con α = 0.01 ,¿ cuál es su conclusión?

65
6.- Almacenes Dorados S.A., rediseña los carriles de las cajas en sus
supermercados en todo el país. Se sugieren dos diseños. En pruebas con
clientes se determinaron los tiempos de cobro en las cajas a la salida de dos
almacenes, donde se instalaron los dos nuevos sistemas. El resumen de los
resultados obtenidos es el siguiente:
Sistema A Sistema B
n1 = 120 n 2 = 80
x1 = 4.1 minutos x 2 = 3.3 minutos
s1 = 2.2 minutos s 2 = 1.5 minutos
Trate de determinar, con el nivel de significancia de 0.05, si hay diferencia
entre los tiempos de cobro en caja para los dos sistemas.¿ Cuál sistema
prefiere?.

66
PRUEBA DE HIPOTESIS ACERCA DE LA DIFERENCIA ENTRE DOS MEDIAS
POBLACIONALES: Caso muestra pequeña.

Ahora analicemos las pruebas de hipótesis acerca de la diferencia entre la medias


de dos poblaciones en el caso de muestra pequeña, esto es, cuando n1<30 y/o n2<30.
El procedimiento que usaremos se basa en la distribución t con n1+n2-2 grados de
libertad, puesto que supone que ambas poblaciones tienen distribuciones normales
de probabilidad, y que sus varianzas son iguales.
El caso con el que ilustraremos el método con muestra pequeña es de un nuevo
programa de cómputo que se ha desarrollado para ayudar a los analistas de sistemas
a reducir el tiempo requerido para diseñar, desarrollar e implementar un sistema de
información. Para evaluar las ventajas del nuevo programa se selecciona una
muestra aleatoria de 24 analistas de sistemas. A cada analista se le proporcionan
especificaciones para un sistema hipotético de información, y a 12 de ellos se les
pide producir el sistema usando la tecnología actual. A los otros 12 se les capacita
primero en el uso del nuevo paquete y, a continuación, se les pide usarlo para
producir el sistema de información.

En este estudio hay dos poblaciones: una de analistas de sistemas que usan la
tecnología actual, y una de analistas de sistemas que usan el nuevo programa.
Considerando el tiempo necesario para terminar el diseño del sistema de
información, las medias de población son:

μ1 = media de tiempo de terminación del sistema, para los analistas de sistemas


que usan la tecnología actual.
μ 2 = media del tiempo de terminación del sistema, para los analistas de sistemas
que usan el nuevo programa de cómputo.

El investigador a cargo del proyecto de evaluación del nuevo programa espera


demostrar que ese paquete permite un menor tiempo promedio de terminación del
proyecto. En consecuencia, el busca pruebas que le permitan concluir que μ 2 es
menor que μ1 ; en este caso la diferencia entre las dos medias poblacionales,
μ1 − μ 2 , será mayor que cero. La hipótesis de investigación, μ1 − μ 2 > 0 , es la
hipótesis alternativa.
Ho: μ1 − μ 2 ≤ 0
H1: μ1 − μ 2 > 0
El investigador busca evidencia para rechazar Ho y, con ello, llegar a la conclusión
de que el nuevo programa asegura un menor tiempo de terminación.
Suponga que los 24 analistas terminan el estudio y obtienen los resultados que se
muestran en la tabla 10.3. Con la hipótesis de que las varianzas de las poblaciones
son iguales, se estima el valor combinado de la varianza σ2.
s2 =
(n1 − 1)s1 2 + (n2 − 1)s 2 2 =
11(40) + 11(44)
2 2
= 1768
n1 + n2 − 2 12 + 12 − 2

67
El estadístico de prueba para el caso de muestra pequeña es:

t=
(x1 − x2 ) − (μ1 − μ 2 )
⎛1 1 ⎞
s 2 ⎜⎜ + ⎟⎟
⎝ n1 n 2 ⎠
En el caso de dos muestras aleatorias independientes de tamaño n1 y n2, la
distribución t tendrá n1+n2-2 grados de libertad. Para α = 0.05 , la tabla de
distribución t muestra que con 12+12-2=22 grados de libertad, t 0.05 = 1.717 . Así,
con el estadístico de prueba , la regla de rechazo para la prueba unilateral es :
Rechace Ho si t > 1.717
Con los datos de la muestra, se obtiene el siguiente valor del estadístico de prueba:

t=
(325 − 288) − 0= 2.16
⎛1 1⎞
1768⎜ + ⎟
⎝ 12 12 ⎠
Al revisar la región de rechazo vemos que t = 2.16 permite el rechazo de Ho con un
nivel de significancia de 0.05. Así, los resultados de las muestras permiten que el
investigador concluya que μ1 − μ 2 > 0 y que el nuevo programa de cómputo sí
permite menores tiempos promedio de terminación.

68
TABLA TIEMPOS DE TERMINACION Y ESTADISTICOS DEL ESTUDIO DE PRUEBA
10.3
DEL PROGRAMA
TECNOLOGIA ACTUAL NUEVO PROGRAMA DE COMPUTO
300 276
280 222
344 310
385 338
372 200
360 302
288 317
321 260
376 320
290 312
301 334
283 265

Resumen estadístico
Tamaño de muestra n1 = 12 n 2 = 12
Media de la muestra x1 = 325 x 2 = 288
Desviación estándar s1 = 40 s 2 = 44
De la muestra

Ejemplo: El tiempo promedio para localizar información de vuelo en los sitios de


Internet de las principales aerolíneas es por lo común de dos a tres minutos. A
continuación se muestran los resultados muestrales representativos de los tiempos
para Delta Airlines y Northwest Airlines.

Delta Northwest
x1 = 2.5 minutos x 2 = 2.1 minutos
s1 = 0.8 minutos s 2 = 1.1 minutos
n1 = 22 n 2 = 20
a).- Formule la hipótesis si el propósito es probar una diferencia significativa entre
los tiempos promedio para estas dos aerolíneas.
b).- Con α = 0.05 ,¿ cuál es la regla de rechazo?
c).- Calcule el valor del estadístico de prueba
d).- ¿Cuál es su conclusión?
e).- ¿ Qué puede decir acerca del valor de p?

69
Ejemplo: Periódicamente a los clientes de Merril Lynch se les pide evaluar a los
asesores y servicios financieros de Merril Lynch. Las calificaciones altas en la
encuesta de satisfacción al cliente indican mejor servicio con 7 como la calificación
de servicio máxima. A continuación se resumen las muestras independientes de
calificaciones de servicio para dos asesores financieros. El asesor A tiene 10 años
de experiencia, en tanto que el asesor B tiene un año de experiencia. Pruebe con
α = 0.05 para ver si el asesor con más experiencia tiene la mayor calificación de
servicio promedio poblacional.
Asesor A Asesor B
x1 = 6.82 x 2 = 6.25
s1 = 0.64 s 2 = 0.75
n1 = 16 n 2 = 10
a).- Formule las hipótesis nula y alternativa
b).- ¿ Cuál es la regla de rechazo?
c).- Calcule el valor del estadístico de prueba
d).- ¿ Cuál es su conclusión?
e).- ¿ Qué puede decir acerca del valor de p?

Ejemplo: En ocho aeropuertos importantes se muestrearon los precios por galón


para la gasolina de automóviles rentados. A continuación se dan los datos para las
compañías Hertz y Nacional de renta de automóviles.
Aeropuerto Hertz Nacional
Boston Logan 1.55 1.56
Chicago O' Hare 1.62 1.59
Los Angeles 1.72 1.78
Miami 1.65 1.49
Nueva York (JFK ) 1.72 1.51
Nueva York ( La guardia) 1.67 1.5
Orange County, CA 1.68 1.77
Washington ( Dulles ) 1.52 1.41
Pruebe con α = 0.05 la hipótesis de que no existe diferencia entre los precios
promedio por galón poblacionales para las dos compañías.

70
EJERCICIOS COMPLEMENTARIOS

1.- El supervisor de producción de Corry Steel Company, fabricante de sillas


de ruedas, desea comparar el número de sillas defectuosas producidas por el
turno diurno con la cantidad producida por el nocturno. Una muestra de la
producción de 6 turnos diurnos y de 8 nocturnos mostró la siguiente
información:
Día : 5, 8, 7, 6, 9,7
Noche: 8,10,7,11,9,12,14,9
En un nivel de significancia de 0.05, ¿ existe alguna diferencia en el número
medio de sillas defectuosas por turno?.

2.- Las hipótesis nula y alternativa son:


Ho: μ1 = μ 2
H1: μ1 ≠ μ 2
Una muestra aleatoria de 10 observaciones de una población reveló una media
de 23 y una desviación muestral de 4. Una muestra aleatoria de 8
observaciones de otra población reveló una media de 26 y una desviación
estándar de 5. Con un nivel de significancia de 0.05,¿existe alguna diferencia
entre las medias poblacionales?.
a).- Establezca la regla de decisión
b).- Calcule la estimación combinada de la varianza poblacional
c).- Calcule el estadístico de prueba
d).- Establezca una decisión acerca de la hipótesis nula.

3.- Las hipótesis nula y alternativa son:


Ho: μ1 = μ 2
H1: μ1 ≠ μ 2
Una muestra aleatoria de 15 observaciones a partir de una primera población
reveló una media de 350 y una desviación estándar de 12. Una muestra
aleatoria de 17 observaciones, de una segunda población reveló una media de
342 y una desviación estándar de 15. Con un nivel de significancia de 0.10,¿
existe alguna diferencia entre las medias de la población?
a).- Establezca la regla de decisión
b).- Calcule la estimación combinada de la varianza poblacional
c).- Calcule el stadístico de prueba
d).- Establezca una decisión acerca de la hipótesis nula.

4.- Una muestra de calificaciones obtenidas en un examen de estadística son:


Hombres:72,69,98,66,85,76,79,80,77
Mujeres: 81,67,90,78,81,80,76
Con un nivel de significancia de 0.01,¿ es la calificación femenina promedio más
alta que la masculina?.

71
5.- En un estudio reciente se comparó el tiempo que pasan juntos los
integrantes de parejas en las que sólo trabaja uno y en las que ambas lo
hacen. De acuerdo con los registros llevados por las esposas durante el
estudio, la cantidad de tiempo promedio que pasan juntos viendo televisión las
parejas en las que sólo trabaja uno de sus integrantes fue de 61 minutos al
día, con una desviación estándar de 15.5 minutos. Para las parejas en las que
ambos trabajan, el número medio de minutos que pasan juntos viendo televisión
fue de 48.4, con una desviación estándar de 18.1. En el nivel de significancia
de 0.01,¿es posible concluir que aquellas parejas en las que sólo trabaja uno de sus
integrantes pasan más tiempo juntas viendo la televisión?.Se estudiaron quince
parejas con un solo integrante asalariado y 12 con ambos.

6.- La señora Lisa Monnin es directora de presupuestos en la New Process


Company y le gustaría comparar los gastos de transportación diarios entre el
personal de ventas y el de verificación contable. Para ello, recopiló la siguiente
muestra de información:
Ventas(dólares): 131,135,146,165,136,142
Verificación contable ( en dólares ): 130,102,129,143,149,120,139
Con un nivel de significancia de 0.10,¿ puede ella concluir que los gastos
promedio son mayores para el personal de ventas?.

7.- La cámara de comercio del área de Tampa Bay ( Florida ) deseaba conocer
si el salario semanal promedio de las enfermeras era superior al de los
maestros de primaria. Para investigarlo, se recopiló la siguiente muestra de
información. ¿ Es razonable concluir que el salario semanal promedio de las
enfermeras es superior?. Utilice un nivel de significancia de 0.01.
Maestros de escuela primaria ( en dólares ):
545,526,527,575,484,509,502,520,529,530,542,532
Enfermeras ( en dólares ): 541,590,521,471,550,559,525,529.

72
8.- La gerencia de Discount Furniture, una cadena de mueblerías de descuento
ubicada en el noreste, diseño un plan de incentivos para los vendedores. Para
evaluar este novedoso plan , se seleccionaron 12 vendedores al azar y se
registraron sus ingresos semanales antes y después de aplicarlo.
Ingreso semanal Ingreso semanal
Vendedor Antes Después Vendedor Antes Después
Sid Mahone $320 $340 PegMancuso $625 $631
Carol Quick 290 285 Anita Loma 560 560
Tom Jackson 421 475 Jhon Cuso 360 365
Andy Jones 510 510 Carl Utz 431 431
Jean Sloan 210 210 A.S.Kushne 506 525
r
Jack Walker 402 500 Fern Lawton 505 619
¿ Hubo algún incremento significativo en el ingreso semanal promedio de los
vendedores debido al novedoso plan de incentivos?.Utilice el nivel de significancia
de 0.05.

9.- Se realiza un estudio en la Universidad Central del Norte para medir el


efecto del cambio de ambiente sobre los estudiantes provenientes de otros
países. Una de las partes del estudio es una comparación del peso del
estudiante a su llegada al campo con su peso un año después. Se sospecha que
la comida estadounidense, más rica en calorías, producirá un aumento de peso.
Se utiliza el nivel de significancia de 0.01. Se elige para el estudio una
muestra aleatoria de 11 estudiantes,¿Cuál es su conclusión?.
Peso Peso un año Peso Peso un
año
Nombre a la llegada Después Nombre a la llegada después
Nassar 124 142 Farouk 149 150
O´Toole 157 157 Thatcher 176 184
Obie 98 96 Sambul 200 209
Silverman 190 212 Onassis 180 180
Kim 103 116 Pierre 256 269
Gross 135 134

73
10.- Harry Hutchings es el propietario de la Clínica Hutchings de
levantamiento de pesas. Él asegura que mediante la toma de una vitamina
especial, un levantador de pesas puede aumentar su fuerza. Se seleccionan de
forma aleatoria diez atletas novatos y se les aplica una prueba de fuerza
utilizando una plancha de levantamiento normal. Luego de dos semanas de
entrenamiento regular, complementadas con la vitamina, se les prueba de
nuevo. Los resultados se muestran a continuación :
Novato Antes Después Novato Antes Después
Evie Gorky 190 196 Pat O' Leary 126 129
Bob Mack 250 240 Kip Dennis 186 189
Lou Brandon 345 345 Connie Daye 116 115
Karl Unger 210 212 Tom Dama 196 194
Sue Koontz 114 113 Maxine Sims 125 124
Con un nivel de significancia de 0.01,¿ Es posible concluir que la vitamina especial
aumentó la fortaleza de los atletas novatos?.

11.- Las hipótesis nula y alternativa son:


Ho: μ ≤ 0
H1: μ >0
La siguiente información de muestra representa el número de unidades
defectuosas producidas durante el primer turno y durante el segundo turno,
para una muestra de cuatro días específicos.
Día
____________________
1 2 3 4
______________________________________
Primer turno 10 12 15 19
Segundo turno 8 9 12 15
_______________________________________
Con un nivel de significancia de 0.05,¿se puede concluir que en promedio se
producen más unidades defectuosas durante el primer turno?.

74
III. REGRESION Y CORRELACION LINEAL.

Introducción.

Todos los días las personas que administran tienen que tomar decisiones personales
y profesionales que se basan en las predicciones de hechos futuros. Para hacer
tales pronósticos debe confiarse en la relación ( intuitiva y calculada ) entre lo que
ya se conoce y lo que va a estimarse. Si puede determinar como se relaciona lo
conocido con el evento futuro, contribuirá de manera importante al proceso de
toma de decisiones. Y ése es precisamente el tema de este capítulo: la manera de
determinar la relación entre variables.

Los análisis de regresión y correlación mostrarán cómo determinar la naturaleza y


la fuerza de una relación entre dos variables. Se aprenderá también a predecir con
cierto grado de exactitud, el valor de una variable desconocida basada en
observaciones anteriores de esa variable y de otras.

El término regresión fue usado por primera vez como concepto estadístico en 1877
por Sir Francis Galton. Galton efectuó un estudio que demostró que la altura de los
hijos de padres altos tendía a retroceder, o “ regresar “, hacia la talla media de la
población. Regresión fue el nombre que se le dio al proceso general de predecir una
variable ( talla de los niños ) a partir de otra ( talla de los padres ).

En el análisis de regresión, se desarrollará una ecuación de estimación, es decir, la


fórmula matemática que relaciona las variables conocidas con las desconocidas.
Luego de haber aprendido el patrón de dicha relación, se hace el análisis de
correlación para determinar el grado de relación que hay entre las variables. Así
pues, el análisis de correlación nos dice con qué precisión la ecuación de estimación
describe la relación.

El análisis de regresión y correlación se basan en la relación o asociación existente


entre dos o más variables. La variable conocida recibe el nombre de variable
independiente (x), mientras que la que intentamos predecir se llama variable
dependiente (y).
Existen dos tipos de relaciones entre las variables:

1.- Relación directa.- Esta se presenta cuando al aumentar la variable independiente


también lo hace la variable dependiente.
y

75
2.- Relación inversa.- Cuando al aumentar la variable independiente, la variable
dependiente disminuye.
y

El primer paso al determinar si existe una relación entre dos variables consiste en
examinar la gráfica de los datos observados ( o desconocidos ). Esta gráfica, o
diagrama, recibe el nombre de diagrama de dispersión.
El diagrama de dispersión, nos proporciona dos tipos de información: visualmente
podemos buscar los patrones que indican que las variables están relacionadas,
después, si existe una relación entre ellas, podemos ver que clase de línea, o
ecuación de estimación, describe dicha relación.

A continuación se muestran algunos ejemplos de diagramas de dispersión:

• • • • •
• • • • • •
• • • • • •
• • • • • •
• • • • • •
• • • •

Lineal directo Lineal inverso Curvilíneo directo

• • • • •• • • •
• •• •• • • • •• •
• • •• • • • • • • ••
• •• • • •• • • • •• • •
• •• ••• • • • • • • •
• • •• • • • • •• •
• • •• • •
Curvilíneo inverso Lineal inverso con Sin relación
más dispersión

En todos los casos se ha colocado la línea en forma arbitraria, es decir, solamente


para mostrar la relación existente.

76
Para calcular la línea de regresión con más precisión, aplicando una ecuación que
relaciona las dos variables matemáticamente.
La ecuación de una recta donde la variable dependiente Y está determinada por la
variable independiente X :
Intersección en Y
Y = a + bX

Variable dependiente Variable independiente


Pendiente de
la línea

La representación gráfica de la ecuación de la recta, es:

Y
Y = a + bX

Ahora surge la necesidad de calcular los valores de las constantes numéricas a y b.


Para ello se utiliza un Método Matemático llamado MINIMOS CUADRADOS, el cual
usa los datos del diagrama de dispersión y se obtiene con ellos la línea de mejor
ajuste, es decir aquella línea que minimiza el error entre los puntos estimados
sobre la línea y los puntos reales observados que quedarán por encima y por debajo
de ella ( suma de los cuadrados de los errores ).

Las fórmulas que miden los valores para b y a, son:

b=
∑ XY − n X Y
∑X − nX 2 2

b = pendiente de la línea de estimación de mejor ajuste.


X =valores de la variable independiente.
Y = valores de la variable dependiente.
X = media de los valores de la variable independiente.
Y = media de los valores de la variable dependiente.
n = número de datos.

77
a = Y - bX

a = intersección en Y.

Con estas dos ecuaciones podemos encontrar la línea de regresión del mejor ajuste
para un conjunto de datos cualquiera de dos variables de puntos de datos.

Para simplificar el uso de las fórmulas, se recomienda construir una tabla que
contenga los valores de cada una de las partes que las conforman.

Por ejemplo. En una empresa que produce sustancias químicas, se quiere conocer la
relación entre el dinero gastado en investigación y desarrollo y las utilidades
anuales de la empresa.
La tabla siguiente contiene la información relativa a los seis años anteriores:

MILLONES GASTADOS
EN INVESTIGACION Y UTILIDAD ( MILLONES )
AÑO DESARROLLO (x) (Y)
1986 $5 $ 31
1985 11 40
1984 4 30
1983 5 34
1982 3 25
1981 2 20

AÑO (n=6) X Y XY X2
1986 5 31 155 25
1985 11 40 440 121
1984 4 30 120 16
1983 5 34 170 25
1982 3 25 75 9
1981 2 20 40 4
_____ ____ ______ ______
∑ X = 30 ∑ Y = 180 ∑ XY = 1000 ∑ X 2
= 200

X =
∑X
n
30
= =5
6

Y=
∑Y =
180
= 30
n 6

78
Aplicando las ecuaciones: b =
∑ XY − n X Y = 1000 − (6)(5)(30) = 100 = 2
200 − (6)(25)
∑X − nX
2
2 50

a = Y - b X = 30 − (2)(5) = 20


Por lo tanto la ecuación de estimación queda: Y = 20 + 2 X

Si se sirve de esta ecuación de estimación, se podrán predecir las utilidades


anuales obtenidas con la cantidad destinada al departamento. Por ejemplo si la
compañía le dedica un presupuesto de $ 8 millones para investigación y desarrollo
en 1987, cabe esperar que gane aproximadamente:


Y = 20 + 2(8) = 36 millones anuales de utilidad

Las ecuaciones de estimación no son predictores perfectos, sin embargo, la


regresión nos da una idea de lo que debemos esperar.

Ahora que ya sabemos calcular la línea de regresión, podemos verificar la exactitud


de la ecuación de estimación. Una forma es utilizar una de las propiedades
matemáticas de una línea ajustada por el método de mínimos cuadrados; es decir,
los errores individuales, tanto positivos como negativos, han de dar un total de
cero:


Y Y = 20 + 2 X Error individual
31 - 20+2(5)= 1
40 - 20+2(11)= -2
30 - 20+2(4)= 2
34 - 20+2(5)= 4
25 - 20+2(3)= -1
20 - 20+2(2)= -4
_____
0 ← error total

El hecho de que la suma total de los errores individuales nos de cero, nos indica que
no se ha cometido algún error grave.

El siguiente proceso que necesitamos es cómo medir la confiabilidad de la ecuación


de estimación que se obtuvo. Para ello, los estadísticos han desarrollado el error
estándar de la estimación . Este error se representa con s c y se parece a la
desviación estándar.

79
El error estándar de la estimación mide la variabilidad o dispersión de los valores
observados alrededor de la línea de regresión. La fórmula a utilizar, es:

sc =
∑ (Y − Y ) 2

n−2

Y = valores de la variable dependiente.



Y = valores estimados obtenidos de la ecuación de estimación que corresponden a
cada valor de Y .
n = número de puntos de datos usados para ajustar la línea de regresión.

∧ ∧ ∧
X Y Y Y −Y (Y − Y ) 2
5 31 30 1 1
11 40 42 -2 4
4 30 28 2 4
5 34 30 4 16
3 25 26 -1 1
2 20 24 -4 16
_______

∑ (Y − Y ) 2
= 42

Aplicando la fórmula: s c =
∑ (Y − Y ) 2

=
42
=
42
= 10.5 = 3.2403
n−2 6−2 4

Existe otro método para evaluar el error estándar de la estimación. Se le denomina


el Método Abreviado, el cual utiliza la fórmula:

sc =
∑Y 2
− a ∑ Y − b∑ XY
n−2

La interpretación del valor del error estándar de la estimación es que


aproximadamente el 68 % de los puntos observados se deben encontrar dentro de
± 1s c ( o 1 error estándar positivo o negativo de la estimación ), 95.5 % de los datos
dentro de ± 2 s c y 99.7% a ± 3s c de la estimación.

80
Gráficamente se puede representar:


Y = a + bX


• •

Esto es que podemos tener una seguridad del 95.5 % de que el valor real de Y se

encuentre dentro de 2 errores estándar del valor estimado Y y un 99.7 % dentro
de 3 errores estándar.


Para el ejemplo en cuestión, de la ecuación de estimación Y = 20 + 2 X , para el
caso donde X = 5


Nos da Y = 20 + 2(5) = 30 . Se estima una utilidad de 30 millones si gasta 5
millones en investigación y desarrollo.
Tendríamos una seguridad del 68 % de que la utilidad real caerá en el intervalo:


Y − 1s e =30-(1)(3.2403)=26.7597 millones ← límite inferior del intervalo
de predicción.

Y + 1s e =30+(1)(3.2403)=33.2403 millones ← límite superior del intervalo

de predicción.

Una seguridad del 95.5 % de que el valor real estará dentro del intervalo:


Y − 2 s e =30-(2)(3.2403)=23.5194 millones ← límite inferior del intervalo
de predicción.


Y + 2s e =30+(2)(3.2403)=36.4806 millones ← límite superior del intervalo

81
de predicción.

Los intervalos de predicción anteriores son sólo aproximados. Los estadísticos


pueden calcular el error estándar de la predicción, s p , aplicando la siguiente
fórmula:

(X − X 0 )
2
1
s p = se 1+ +
∑ X 2 − nX
2
n
Donde:

X 0 =valor específico de X en que queremos predecir el valor de Y.

82
EJERCICIOS COMPLEMENTARIOS

1.- ¿ Qué es el análisis de regresión ?.

2.- En el análisis de regresión, ¿Qué es una ecuación de estimación ?.

3.- ¿ Cuál es el análisis de correlación ?.

4.- Defina las relaciones directas e inversas.

5.- Explique la diferencia entre relaciones lineales y curvilínea.

6.- Explique por qué y cómo construímos un diagrama de dispersión.

7.- ¿ Qué es un análisis de regresión múltiple ?.

8.- Un profesor quiere averiguar cómo el número de estudiantes ausentes


en determinado día se relaciona con la temperatura media de ese día. Una
muestra aleatoria de 10 días se utilizó en el estudio. Los datos se
transcriben a continuación:

Número de estudiantes ausentes 8 7 5 4 2 3 5 6 8 9


Temperatura 10 20 25 30 40 45 50 55 59 60

a) Formule las variables.


b) Dibuje un diagrama de dispersión de los datos.
c) ¿ Parece ser lineal o curvilínea la relación existente entre las variables?.
d) ¿ Qué tipo de gráfica podría usted trazar a través de los datos ?.

9.- El Instituto Nacional de Ciencias de la Salud ha estado estudiando las


relaciones estadísticas entre muchas variables diferentes y el resfriado
común. Una de las variables es el empleo de toallas faciales (X) y el número
de días en que aparecieron los síntomas de resfriado (Y) en 7 personas
durante un período de 12 meses. ¿ Qué relación, si hay, parece existir entre
las dos variables ?.

X 2 000 1 500 500 750 600 900 1 000


Y 60 40 10 15 5 25 30

83
10.- Para el siguiente conjunto de datos:

a) Grafique el diagrama de dispersión.


b) Desarrolle la ecuación de estimación que mejor describa los datos.
c) Determine Y para X=10, 15, 20.

X 13 16 14 11 17 9 13 17 18 12
Y 1.0 2.0 1.4 0.8 2.2 0.5 1.1 2.8 3.0 1.2

11.- Sí tenemos el siguiente conjunto de datos:

a) Encuentre la línea de mejor ajuste.


b) Calcule el error estándar de la estimación.
c) Calcule el intervalo de predicción con 95 % del nivel de confianza para
cuando X=44.

X 56 48 42 58 40 39 50
Y 9.5 7.5 7.0 9.5 6.2 6.6 8.7

12.- Un estudio efectuado por el departamento de transporte de Atlanta


sobre el efecto que los precios de los boletos de autobús tienen en el
número de pasajeros, produjo los siguientes resultados:

Precio del boleto ( centavos ) 15 20 25 30 35 40 45 50


Pasajeros por 100 millas 440 430 430 370 360 340 350 350

a) Grafique los datos.


b) Desarrolle la ecuación de estimación que mejor describa estos datos.
c) Determine el número de pasajeros por 100 millas si el precio del boleto
costase 35 centavos de dólar. Use un intervalo aproximado de predicción
de 95 %.

84
ANALISIS DE CORRELACION.

Este análisis es la herramienta estadística que nos permite describir el


grado de relación que hay entre dos variables. Se usa junto con el análisis
de regresión para medir la eficacia con que la línea de regresión explica la
variación de la variable dependiente.

Los estadísticos han inventado dos medidas para describir la correlación


entre dos variables: el coeficiente de determinación y el coeficiente de
correlación.

El coeficiente de determinación es una manera primaria de medir el grado, o


fuerza , de la relación que existe entre dos variables, X y Y. Hemos usado
una muestra de puntos para desarrollar las líneas de regresión y por eso a
esta medida la llamaremos el coeficiente muestral de determinación.

Este coeficiente se obtiene de la relación entre dos tipos de variación: la


variación de los valores de Y en el conjunto de datos alrededor de:

1.- La línea de regresión ajustada.


2.- Su propia media.


Variación de los valores de Y alrededor de = ∑ (Y − Y ) 2

la línea de regresión

Variación de los valores de Y alrededor = ∑ (Y − Y ) 2

de su media

Uno menos la razón entre esas dos variaciones es el coeficiente muestral de


determinación, que se representa por r 2 :

Coeficiente muestral de determinación r2 = 1−


∑ (Y − Y ) 2

∑ (Y − Y ) 2

85
Una interpretación intuitiva de r 2 .

Considerando formas extremas en que las variables X y Y pueden estar


relacionadas. En la siguiente Tabla cada valor observado de Y se halla sobre
la línea de estimación, según puede demostrarse visualmente en la gráfica.
Esta es una correlación perfecta.
PUNTOS DE DATOS VALOR DE X VALOR DE Y
Primero 1 4
Segundo 2 8
Tercero 3 12
Cuarto 4 16
Quinto 5 20
Sexto 6 24
Séptimo 7 28
Octavo 8 32
----------
∑ Y = 144
144
Y= = 18
8


Variación de los valores de Y = ∑ (Y − Y ) 2
= ∑ ( 0) 2 = 0
alrededor de la línea de regresión

Puesto que todos los valores de Y se encuentran en la línea de regresión, la



diferencia entre Y y Y es cero en todos los casos.

Variación de los valores de Y



alrededor de su media = ∑ (Y − Y ) 2

86
= (4 − 18) 2 = 196
= (8 − 18) 2 = 100
= (12 − 18) 2 = 36
= (16 − 18) 2 = 4
= (20 − 18) 2 = 4
= (24 − 18) 2 = 36
= (28 - 18) 2 = 100
= (32 − 18) 2 = 196


∑ (Y − Y ) 2
= 672
Sustituyendo estos valores en la fórmula del coeficiente muestral de
determinación nos da +1:

r 2
= 1−
∑ (Y − Y ) 2

= 1−
0
= 1 ← Coeficiente muestral de determinación
∑ (Y − Y ) 2
672
Cuando hay correlación perfecta.

El valor de r 2 es igual a +1, siempre que la línea de regresión sea un


estimador perfecto.

87
Un segundo valor extremo en el cual las variables X y Y pueden relacionarse
es aquel en que los puntos pueden encontrarse a igual distancia en ambos
lados de una línea horizontal de regresión, tal como se muestra en la
siguiente gráfica:

En este caso el valor del coeficiente muestral de determinación es cero,


puesto que no hay correlación entre las variables involucradas.

Otra manera de interpretar r 2 .

Los estadísticos también interpretan el coeficiente muestral de


determinación examinando la magnitud de la variación de Y que es explicada
por la línea de regresión.

88
La desviación total de Y respecto a su media es: (Y − Y )

La desviación explicada de Y respecto de su media será : (Y − Y )

Desviación inexplicada de Y respecto de la media: (Y − Y )

Todos estos valores son utilizados en la fórmula que mide el coeficiente


muestral de determinación:

r 2
= 1−
∑ (Y − Y ) 2

∑ (Y − Y ) 2

El procedimiento anterior es tedioso por todos los cálculos que requiere. Es


por ello que los Estadísticos usan un Método abreviado que requiere de
valores que ya se obtuvieron en el análisis de regresión. Su fórmula es:

a ∑ Y + b∑ XY − nY
2

r = 2

∑Y
2
2
− nY

Si aplicamos esta fórmula al ejemplo de la relación de los gastos de


investigación y desarrollo con las utilidades. Recordemos que la línea de

regresión tiene como ecuación: Y = 20 + 2 X

Año Gasto en Utilidad


Invest. Y des. (X) anual (Y) XY X2 Y2
1986 5 31 155 25 961
1985 11 40 440 121 1600
1984 4 30 120 16 900
1983 5 34 170 25 1156
1982 3 25 75 9 625
1981 2 20 40 4 400
------ ------- ------ ------- -------
∑ X = 30 ∑ Y = 180 ∑ XY = 1000 ∑ X 2
= 200 ∑ Y 2 = 5642

Y = 30

a ∑ Y + b∑ XY − nY
2
(20)(180) + (2)(1000) − (6)(30) 2 200
r =
2
= = = 0.826
5642 − 5400
∑Y
2
2
− nY 242

Por lo tanto podemos afirmar que la variación en los gastos de investigación


y desarrollo explica 82.6% de la variación en las utilidades anuales.

89
El Coeficiente de Correlación.

El coeficiente de correlación es la segunda medida con que puede


describirse la eficacia con que una variable es explicada por otra. Cuando se
trabaja con muestras, el coeficiene muestral de correlación se denota con
r y es la raíz cuadrada del coeficiente muestral de determinación:

r = r2

Cuando la pendiente de la ecuación de estimación es positiva, r es la raíz


cuadrada positiva; pero si b es negativa, r es la raíz cuadrada negativa. Así
pues, el signo de r indica la dirección de la relación entre las dos variables X
y Y. Si existe una relación inversa, es decir, si Y disminuye al aumentar X,
entonces r caerá entre 0 y -1. De manera análoga, si hay una relación
directa, r será un valor dentro del intervalo de 0 a 1.

El coeficiente de correlación es más difícil de interpretar que r 2 . ¿ Qué


significa r = 0.9 ?. Para contestar esta pregunta es preciso recordar que
r = 0.9 es lo mismo que r 2 = 0.81 . Este último nos dice que 81 % de la
variación de Y es explicado por la línea de regresión. Vemos, pues, que r no
es otra cosa que la raíz cuadrada de r 2 , y no podemos interpretar
directamente su significado.

Si volvemos al problema que relaciona los gastos en investigación y las


utilidades, el coeficiente muestral de determinación es r 2 = 0.826 , por lo
que se puede obtener r = 0.826 = 0.909 .

La relación entre las dos variables es directa y la pendiente es positiva; por


tanto, el signo de r es positivo.

90
EJERCICIOS COMPLEMENTARIOS

1.- ¿ Qué tipo de correlación ( positiva, negativa o cero ) debemos esperar


de estas variables ?

a) Capacidad de los supervisores y productividad de sus


subordinados.
b) Antigüedad en su trabajo de tiempo completo y número de años
de escolaridad.
c) Peso y presión sanguínea.
d) Promedio de calificaciones del estudiante en la Universidad y su
altura.

2.- La biblioteca de una Universidad ha estado vendiendo una guía de


estudios durante 12 semestres y le gustarían estimar la relación existente
entre las ventas y el número de secciones de estadística elemental
impartida en cada semestre. Se reunieron los datos que se dan a
continuación:

Ventas ( unidades ) 33 38 24 61 52 45 65 82 29 63 50 79
Número de secc. 3 7 6 6 10 12 12 13 12 13 14 15

a) Desarrolle la ecuación de estimación que mejor se ajuste a los datos.


b) Calcule el coeficiente muestral de determinación y el de correlación.

3.- Una compañía refresquera esta estudiando el efecto de su última


campaña publicitaria. A un grupo de personas a quienes se escogió al azar se
les preguntó por teléfono cuántas latas del nuevo refresco habían comprado
en la semana anterior y cuántos anuncios de él habían leído o visto en esa
semana.

X ( número de anuncios ) 4 9 3 0 1 6 2 5
Y ( latas compradas ) 12 14 7 6 3 5 6 10

a) Desarrolle la ecuación de estimación que mejor se ajuste a los datos.


b) Calcule el coeficiente muestral de determinación y el de correlación.

91
BIBLIOGRAFIA

1.- PROBABILIDAD Y ESTADÍSTICA


Murray R. y Spiegel
McGraw-Hill

2.- ESTADÍSTICA
Murray R. Spiegel
McGraw-Hill

3.- ESTADÍSTICA PARA ADMINISTRADORES


Richard Levin
Prentice Hall

4.- ESTADÍSTICA APLICADA A ADMINISTRACIÓN Y ECONOMIA


Leonard Kazmier
Alfredo Díaz Mata
McGraw-Hill

5.- ESTADÍSTICA ELEMENTAL


Robert Jhonson
Grupo Editorial Ibero América

6.- ESTADÍSTICA PARA ADMINISTRACIÓN


Stevenson
McGrall Hill

7.- ESTADISTICA PARA ADMINISTRACION( CONT. SOFTWARE )


Lind
McGraw Hill

92

You might also like