You are on page 1of 256

UNA La Molina - Dpto.

de Estadística e Informática Estadística General

CAPÍTULO I
CONCEPTOS BÁSICOS

La Estadística proporciona una serie de métodos y técnicas que permiten analizar
información de las diferentes especialidades como Agronomía, Industrias Alimentarias,
Zootecnia, Economía, etc. con la finalidad de analizarla y tomar decisiones.

Objetivo. Entender conceptos básicos y los alcances de la estadística, que servirán de
base para la comprensión y desarrollo de los capítulos posteriores.

1.1 Definición de Estadística

La Estadística es la ciencia del aprendizaje a partir de los datos y de medición, control y
comunicación de la incertidumbre, proporcionando los medios esenciales para el avance
científico y social.
Los estadísticos proporcionan una guía crucial para determinar qué información es fiable
y que predicciones son confiables. Ayudan a la búsqueda de pistas sobre la solución de
un misterio científico y, a veces a evitar que los investigadores sean engañados por falsas
impresiones.
Fuente: Davidian, M. and Louis, T. Whats is Statistics?. Consultado el 24 de Julio de
2014, página web de la American Statistical Association.
http://www.amstat.org/careers/whatisstatistics.cfm

División de la Estadística

La Estadística puede ser dividida en:

 La Estadística Descriptiva. Parte de la estadística que se ocupa de la clasificación,
descripción, simplificación y presentación de los datos. Comprende el uso de tablas
de frecuencias, gráficos y el cálculo de medidas estadísticas.

 La Estadística Inferencial. Parte de la estadística que se ocupa de la estimación y
prueba de hipótesis de los parámetros de una población, a partir de una muestra
aleatoria extraída de dicha población.

Ejemplo 1
Se desea hacer un estudio sobre el consumo de drogas en el distrito de Comas. Con esta
finalidad se extrae una muestra aleatoria de 240 adolescentes del distrito de Comas en
el 2013 y se les aplica la encuesta respectiva.

Se aplica la Estadística Descriptiva para recopilar, clasificar, organizar y presentar en una
tabla de frecuencias y en forma gráfica los datos recogidos de una encuesta.

Distribución de la frecuencia de
consumo de droga

Frecuencia Frecuencia consumo de droga

de consumo Número Porcentaje 50,0
41,7
No 100 41,7 40,0 33,3

Interdiario 80 33,3 30,0
%

20,0 16,7
Diario 40 16,7 10,0
8,3

A veces 20 8,3 0,0
No Interdiario Diario A veces
Total 240 100,0
Frecuencia
Fuente: Elaboración propia
Fuente: Elaboración propia

1
UNA La Molina - Dpto. de Estadística e Informática Estadística General

También se calcula medidas estadísticas. La edad promedio de la muestra de los
adolescentes que consumen droga es 20.5 años.

Se aplica la Estadística Inferencial para estimar la proporción de adolescentes que
consumen drogas diariamente del distrito de Comas, cuya estimación fue de 65%. Para
probar la hipótesis si esta proporción es mayor al 68%.

1.2. Conceptos básicos

1) Población. Es el conjunto de unidades elementales con características similares. El
estudio de toda la población constituye un censo.
Ejemplo 2
1. El conjunto de todos los estudiantes de una institución educativa.
2. El conjunto de todos los meses de venta en una casa comercial entre el 2007-
2011.
3. El conjunto de personas que viven en el Distrito de Breña.

2) Unidad Elemental. Es un elemento particular de la población o muestra.
Ejemplo 3
1. Un estudiante de la institución educativa.
2. Cada mes de venta en una casa comercial entre el 2007-2011.
3. Cada persona que viven en el Distrito de Breña.

3) Muestra. Es un subconjunto de la población. Al proceso de obtención de una muestra
se le llama “muestreo”. Para que una muestra sea representativa debe cumplir con
las siguientes condiciones:
a) Debe haber sido obtenida al azar.
b) Su tamaño y sus elementos deben haber sido seleccionados aplicando un método
de muestreo.
Ejemplo 4
1. 120 estudiantes de la institución educativa.
2. 45 meses de venta en una casa comercial entre el 2007-2011.
3. 80 personas que viven en el Distrito de Breña.

Ejercicio 1. El área de marketing del supermercado ABC, desea hacer un estudio sobre
la satisfacción de los clientes que realizaron sus compras en el último trimestre. Para el
estudio se obtuvo una muestra aleatoria de 420 clientes. Defina población, unidad
elemental y muestra.

2
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 2. El instituto Nacional Agraria e Innovación (INAI), va realizar un estudio de
reforestación en la Selva Central del Perú. Para el estudio se desea evaluar una muestra
de 450 árboles que tengan más de 10 años de edad. Defina población, unidad elemental
y muestra.

4) Variable. Son las características que toman diferentes valores cuando son evaluadas
en las unidades elementales de una población o muestra. Se representan por las
últimas letras mayúsculas del alfabeto, por ejemplo: X, Y, Z, W, P, T, X1, X2, Y1, etc.

Tipos de Variables

Variables Cuantitativas. Son aquellas que se expresan en forma numérica y tiene
sentido realizar operaciones matemáticas con ellas. Pueden ser del tipo:

 Variable Cuantitativa Continua. Son aquellas que pueden tomar cualquier valor
numérico dentro de un intervalo continuo. Se utiliza un instrumento de medición para
generar sus valores: balanza, termómetros, test, escalas, cronómetros, winchas, etc.

Ejemplo 5
1. Peso del langostino de río (en gr)
2. Tiempo para encontrar estacionamiento en un centro comercial (minutos)
3. Gasto mensual familiar en atención médica (nuevos soles)

 Variable Cuantitativa Discreta. Son aquellas que cumplen con la condición de que
entre un valor cualesquiera y su consecutivo no es posible que existan valores
intermedios. Generalmente son representados por el conjunto de números enteros.
Las observaciones cuantitativas discretas se registran por conteo.

Ejemplo 6
1. Número de artículos defectuosos en un lote de 20
2. Número de clientes atendidos cada 20 minutos en una ventanilla
3. Número de predios que posee un agricultor de un valle

Variable Cualitativa. Son aquellas que permiten que una unidad elemental pueda ser
clasificada como poseedora o no de cierta cualidad, propiedad o atributo. No tiene sentido
realizar operaciones matemáticas con ellas. Son aquellas cuyos valores posibles son
atributos o categorías.

 Variable Cualitativa Nominal. Son aquellas cuyos valores (cualidades, propiedades
o atributos) no son factibles de ser clasificados a través de un criterio de orden o
jerarquía. Sus valores posibles no tienen un orden de importancia.

3
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 7
1. Sexo de los estudiantes (Masculino o Femenino)
2. Estado civil de una persona (Soltero, Casado, Divorciado, Viudo o Conviviente)
3. Marca de una computadora (A, B, C o D)
4. Marca de Automóvil (Toyota, Chevrolet, Mercedes Benz, etc…)

 Variable Cualitativa Jerárquica u Ordinal. Son aquellas donde sí se puede
establecer un criterio de orden o jerarquía entre sus atributos de la variable.

Ejemplo 8
1. Nivel de instrucción (Sin instrucción, Primaria, Secundaria o Superior)
2. Nivel socioeconómico de un cliente (Alto, Medio o Bajo)
3. Calificación de un servicio (Bueno, Regular o Malo)
4. Rango Militar (Cabo, Sargento, Coronel)

5) Observación. Es el valor posible que toma una variable. A las observaciones se les
suele representar con las letras minúsculas subindicadas, como por ejemplo x i , yi
, zi
Ejemplo 9

1. X = Peso del langostino de río (en gr). Observaciones:
x1  2.5, x2  3.0,.., x10  3.2
2. Y = Calificación de un servicio. Observaciones: y1  Bueno, y2  Re gular, y3  Malo

Ejercicio 3. Considerando que para el ejercicio 1 se aplicó la siguiente encuesta.

Supermercado ABC: Encuesta de opinión
1. Edad
2. ¿Cuál es el tipo de pago?
1=Contado 2=Tarjeta de crédito 3=Crédito ABC
3. ¿Cómo encuentra el estado de los productos?
1=Muy bueno 2=Bueno 3=Regular 4=Malo
4. ¿Con qué frecuencia encuentra sus productos?
1=Siempre 2=Casi siempre 3=Raramente 4=Nunca
5. Número de veces que viene al supermercado semanalmente
6. El gasto semanal en sus compras

Complete el siguiente cuadro:

Variable Tipo de variable Observación
Edad
Tipo de pago
Estado de los productos

Frecuencia que encuentra
los productos
Número de veces que viene
al supermercado
semanalmente
Gasto semanal

4
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 4. Para evaluar un programa productivo cuyos beneficiarios son los agricultores
de una comunidad campesina, se ha aplicado la siguiente encuesta.

Encuesta para evaluación del programa productivo
1. Nivel tecnológico usado
1=Alto 2=Medio 3=Bajo
2. Usa fungicidas
1=Si 2=No
3. Usa insecticidas
1=Si 2=No
4. Número de meses que está en el programa
5. Tamaño de su predio (has)
6. Ingreso mensual (en soles)

Complete el siguiente cuadro:

Variable Tipo de variable Observación
Nivel tecnológico usado
Usa fungicidas
Usa insecticidas
Número de meses que está en el programa

Tamaño del predio
Ingreso mensual

6) Parámetro. Es una medida estadística para describir el comportamiento de una
variable en la población. Son calculadas con los datos de toda la población. Es un
valor constante. Se representan con letras griegas.

Ejemplo 10
1. Suponga que el número promedio de cocinas vendidas en todos los meses de venta
es 15.4 ( = 15.4).
2. El Censo Nacional 2007: XI de Población y VI de Vivienda indica que en el grupo edad
de 20 a 29 años, el 1.4% de los hombres no sabe leer y escribir mientras que el 3.1%
de las mujeres no sabe leer y escribir (1 = 0.014 y 2 = 0.031).
3. Suponga que en todo Breña la proporción del nivel de instrucción resultó:

Instrucción Proporción (i)
Primaria 0.455
Secundaria 0.445
Superior 0.100
TOTAL 1.000

7) Valor estadístico o Estadígrafo. Es una medida para describir el comportamiento
de una variable en la muestra. Se calculan con los datos obtenidos de una muestra.
Son valores variables (varían de muestra a muestra). Los estadísticos sirven para
estimar a los parámetros. Se representan con letras latinas.

5
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 11
1. En una muestra de 30 meses de venta se encontró que el número promedio de
cocinas vendidas fue de 14.9 ( x  14 .9) .
2. En la encuesta nacional de hogares (ENAHO) indica que el 1.1% de los hombres no
sabe leer y ni escribir ( p  0.011) .
2. Suponga que en distrito de Breña se ha seleccionado una muestra de 500 personas
encontrándose los siguientes resultados:

Instrucción Proporción (pi)
Primaria 0.460
Secundaria 0.430
Superior 0.110
TOTAL 1.000

Notación de los principales parámetros y estadísticos
Medidas estadísticas En una población En una muestra
(parámetro) (estadístico)
Media  X
Mediana ME me
Moda MO mo
Proporción  p
Variancia o Varianza 2 S2
Desviación Estándar  S
Coeficiente de Variabilidad CV cv

Ejemplo 12
En el siguiente ejercicio, identificar: la población, la muestra, unidad elemental, la
variable, tipo de variable, observación, parámetro y valor del estadístico.

La Oficina de Servicios Generales de la UNALM desea conocer los medios en los cuales
con mayor frecuencia se transportan los alumnos de la UNALM. Para ello, realiza una
encuesta a 50 alumnos de pregrado en el semestre 2013-II y encuentra los siguientes
resultados:
a) El 70% de los encuestados usa el transporte público y un 20% usa el transporte de
la universidad.
b) El 20% de los encuestados consideran que el estado de las unidades de transporte de
la UNALM es bueno, el 35% que es regular y el 45% que es malo.
c) El número promedio de unidades que toma para llegar a la universidad es de 1.5.
d) El tiempo promedio de traslado de su casa a la universidad es de 39.70 minutos.

Solución

Población:
Todos los alumnos de la UNALM La Molina de pregrado del semestre 2013-II

Unidad elemental:
Cada alumno de la UNALM La Molina de pregrado del semestre 2013-II

Muestra:
50 alumnos de la UNALM La Molina de pregrado del semestre 2013-II

6
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Valor del
Tipo de
Variable Observación Estadístico Parámetro
Variable
(estimación)
a) X= Medio de transporte Cualitativa x22  público p p  0.70 La proporción de
usado para llegar a la nominal alumnos según el
UNALM. pu  0.20 medio de transporte
po  0.10 usado para llegar a la
UNALM.

b) Y= Opinión sobre el estado Cualitativa y40  bueno pb  0.20 La proporción de
de las unidades de jerárquica alumnos según la
transporte de la pr  0.35 opinión sobre el
UNALM. pm  0.45 estado de las
unidades de
transporte de la
UNALM.

c) Z= Número de unidades de Cuantitativa z4  1 z  1.45 El número promedio
transporte que toma discreta de unidades de
para llegar a la UNALM. transporte que toma
para llegar a la
UNALM
d) V= Tiempo de traslado de Cuantitativa v48  55 v  39.70 El tiempo promedio
la universidad a su continua de traslado de la
casa. universidad a su casa

Ejemplo 13
Se presentaron algunos resultados del informe gerencial de marketing “Perfil del adulto
joven” elaborado por Apoyo Opinión y Mercado. (www.apoyo.com). El informe fue
elaborado a partir de los resultados de una encuesta realizada el 25 Abril del 2010 a una
muestra aleatoria conformada por 2000 jóvenes de Lima Metropolitana de todos los
niveles socioeconómicos y cuyas edades fluctúan entre los 21 y 35 años de edad.
 El ingreso medio mensual es de 1320 nuevos soles.
 El 5% tiene estudios de postgrado, el 17% universitaria completa, el 33% universitaria
incompleta, el 35% secundaria completa y el resto secundaria incompleta.
 El 42% de jóvenes trabaja en empresas estatales.

Solución

Población.
Todos los jóvenes de Lima Metropolitana de todos los niveles socioeconómicos y cuyas
edades fluctúan entre los 21 y 35 años.

Muestra.
2000 jóvenes de Lima Metropolitana de todos los niveles socioeconómicos y cuyas edades
fluctúan entre los 21 y 35 años.

Unidad Elemental.
Un joven de Lima Metropolitana de cualquier nivel socioeconómicos y cuya edad fluctúa
entre los 21 y 35 años.

Variables Tipo de variable Observación
Ingreso mensual de los jóvenes Variable cuantitativa continua 1000
Grado de instrucción Variable cualitativa jerárquica Superior
Tipo de empresa que trabaja Variable cualitativa nominal Estatal

7
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Valor estadístico
El ingreso medio mensual es de 1320 nuevos soles.
El 17% universitaria completa
El 42% de jóvenes trabaja en empresas estatales.
Parámetros
El ingreso promedio mensual
Porcentaje de jóvenes que tienen cierto grado de instrucción.
Porcentaje de jóvenes que trabajan en cierto tipo de empresa.

Ejemplo 14
Con la finalidad de efectuar mejoras con los servicios al turista, se seleccionaron 200
turistas franceses al azar que arribaron a nuestro país el 2013 y se les aplicó una encuesta
en la que se preguntó por:

 Número de días que permanecieron en el país, obteniéndose un promedio de 8 días.
 Medio de transporte que utilizaron para viajar, a lo que el 20% respondió que viajó en
avión, el 30% en tren y el 50% en bus.
 Monto gastado durante el tiempo de estadía, de lo que se obtuvo un promedio de
4560.6 soles por encuestado.
 En cuanto al servicio de alimentación el 30% lo calificó de excelente, el 20% muy
bueno y el 50% bueno.

Solución:

Población:
Todos los turistas franceses que arribaron a nuestro país el 2013
Muestra:
200 turistas franceses que arribaron a nuestro país el 2013
Unidad elemental:
Un turista francés que arribó a nuestro país el 2013

Variables: Tipo de variables: Observación:
X1: Número de días de permanencia en el país Cuantitativa discreta 10 días
X2: Medio de transporte para trasladarse Cualitativa nominal Avión
X3: Monto gastado durante el tiempo de estadía Cuantitativa continua S/. 3520
X4: Opinión sobre el servicio de alimentación Cualitativa jerárquica Excelente

Valor estadístico:
Número promedio de días de permanencia en el país ( x  8 días )
Porcentaje del medio de transporte para trasladarse en avión ( p  20 .0%)
Monto gastado promedio durante el tiempo de estadía ( x  S / .4560.6)
Porcentaje que opinaron sobre el servicio de alimentación excelente ( p  30 .0%)

Parámetros:
Número promedio de días de permanencia en el país
Porcentaje del medio de transporte para trasladarse
Monto gastado promedio durante el tiempo de estadía
Porcentaje que opinaron sobre el servicio de alimentación

Ejercicio 5. La Dirección de Salud (DISA) de una zona rural desea realizar un estudio
para evaluar la calidad de servicio de las postas de salud. Con esta finalidad se extrae
aleatoriamente 30 postas de la DISA con lo cual se obtiene la siguiente información:
 El 60% de las postas de salud registraron como enfermedad principal las respiratorias.
 El número promedio de niños menores de 6 años atendidos fue de 120.5
 Sólo el 25% de las postas tienen como turno de atención mañana y tarde.

8
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Identificar la población, unidad elemental, muestra, variables, tipos de variables,
observación, parámetros y valor estadístico.

Variable Tipo de Observación Valor del Parámetro
Variable Estadístico

Ejercicio 6. Una empresa distribuidora desea evaluar su eficiencia para atender los
pedidos de sus clientes. Selecciona aleatoriamente 30 servicios de reparto realizados en
el 2013 y registra los siguientes datos: Tiempo que se tarda para atender el pedido, nivel
de satisfacción del cliente (Completamente satisfecho, satisfecho, poco satisfecho, nada
satisfecho) y el distrito en el que se encuentra el cliente. Algunos resultados fueron: El
tiempo promedio de atención es de 52 minutos, el 40% está completamente satisfecho y
el 30% de los pedidos son del distrito de Ate.
Identificar la población, unidad elemental, muestra, variables, tipos de variables,
observación, parámetros y valor estadístico.

Variable Tipo de Observación Valor del Parámetro
Variable Estadístico

9
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. Indique el tipo de variable que sea la más apropiada para cada una de las siguientes
variables:
 Edad
 Tamaño de bebida (pequeño, mediano, grande)
 Ventas anuales
 Número de camiseta de un jugador
 Placa del automóvil.
 Número de DNI
 Forma de pago ( efectivo, cheque, tarjeta de crédito)
 Tipo de medalla( Oro, Plata, Bronce)
 Puesto de llegada en una competencia.
 Número de celular.
 Número de personas a favor del aborto.
 Número de hermanos.

Para cada ejercicio, identificar: la población, la muestra, unidad elemental, la
variable, tipo de variable, observación, parámetro y valor del estadístico.

2. Se presentaron algunos resultados del informe gerencial de marketing “Perfil del
adulto joven” elaborado por Apoyo Opinión y Mercado. (www.apoyo.com). El informe
fue elaborado a partir de los resultados de una encuesta realizada el 14 Julio del 2011
a una muestra aleatoria conformada por 2000 jóvenes de Lima Metropolitana, de
todos los niveles socioeconómicos y cuyas edades fluctúan entre los 21 y 35 años de
edad.
 El ingreso medio mensual es de 850 nuevos soles.
 El 1% tiene estudios de postgrado, el 12% educación universitaria completa, el 15%
educación universitaria incompleta y el 2% educación primaria incompleta.
 El 42% de jóvenes trabaja en empresas estatales.

3. Con el fin de realizar una modificación en el Impuesto al Valor del Patrimonio Predial
del Municipio de La Molina, se hace un estudio socioeconómico sobre una muestra
aleatoria de 300 familias residentes en el distrito. Del presente estudio se encontraron
los siguientes resultados:
 El ingreso familiar promedio es de S/ 2500.00 nuevos soles.
 El tipo de material predominante usado en la construcción de la vivienda, 24 de
ellos dijeron que era de material noble.
 El 40% de ellos afirmaron que el estado de conservación de su vivienda era
excelente, 20% muy buena, 20% buena, 10% regular y 10% en pésimas
condiciones.
Identificar la población, unidad elemental, muestra, variables, tipos de variables,
observación, parámetros y valor estadístico.
4. En un estudio de preferencia de bebidas gaseosas realizado en una muestra de 100
alumnos de la universidad peruana de las Américas en el semestre 2011-II se han
obtenido los siguientes resultados:
 El 52% de los encuestados fueron de sexo masculino
 El 47% de los encuestados prefieren la gaseosa en presentación de plástico
 El 40% de los encuestados prefiere la marca Inca Kola y el 30% prefiere Coca Cola.
 La edad promedio de los encuestados es de 20.47 años
 El número promedio de gaseosas tamaño mediano consumidas por alumno
semanalmente es de 3.4

10
UNA La Molina - Dpto. de Estadística e Informática Estadística General

5. Estudios realizados sobre la contaminación ambiental coinciden en que los principales
causantes de la contaminación del aire son la combustión en los vehículos con motores
diesel y la falta de un mantenimiento técnico. Para tener información cuantitativa de
lo mencionado anteriormente, se ha tomado una encuesta a una muestra de 30
choferes de la ruta Portada del Sol-Santa Anita (Línea P) encontrándose los siguientes
resultados:
 El número promedio de veces que los choferes realizan una revisión técnica a sus
vehículos es 1.36 veces al año.
 La ganancia promedio por día es de 97.73 nuevos soles
 20 choferes poseen un grado de instrucción secundario, 5 choferes poseen primaria
completa, 5 choferes poseen nivel universitario.

6. La microempresa “Milglen”, fabrica yogurt y va a lanzar al mercado un nuevo sabor
de yogurt; como desea conocer la necesidad de los consumidores realiza una encuesta
a 90 consumidores de yogurt que acuden al supermercado “Metro” de La Molina,
encontrándose los siguientes resultados:
 El 75% de los encuestados consume yogurt por costumbre, frente a un 20% que
lo hace por gusto y un 5% que lo hace por dieta.
 El 33% consume la marca “Gloria”.
 El precio promedio que estarían dispuestos a pagar por un yogurt de 1 litro es de
4.50 nuevos soles.
 El 95% prefiere el yogurt con fruta frente a un 5% que lo prefiere natural.

7. Con la finalidad de efectuar mejoras con los servicios al turista, se seleccionaron 200
turistas al azar y se les aplicó una encuesta en la que se preguntó por:
 Número de días que permanecieron en el país, obteniéndose un promedio de 8
días.
 Medio de transporte que utilizaron para viajar, a lo que el 20% respondió que viajó
en avión, el 30% en tren y el 50% en bus.
 Dinero gastado durante el tiempo de estadía, de lo que se obtuvo un promedio de
1253.6 nuevos soles por encuestado.
 En cuanto al servicio de alimentación el 30% lo calificó de excelente, el 20% muy
bueno y el 50% bueno.
8. El Departamento de Estadística e Informática de la Universidad Nacional Agraria La
Molina con la finalidad de contar con mayor información sobre los alumnos
matriculados en el curso de Estadística General, aplicó una encuesta a dichos alumnos
en la que se preguntó por:
 Facultad a la que pertenece, a lo que el 35% respondió pertenecer a Agronomía.
 Número de veces que ha llevado el curso.
 Promedio ponderado, obteniéndose un promedio para todos los alumnos de 12.10.
 Expectativa sobre la dificultad del curso (muy fácil, fácil, difícil, muy difícil).

11
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Preguntas de Autoevaluación

1. Las medidas estadísticas calculadas con los datos de una población se llaman
___________________ y las calculadas con los datos de una muestra
___________________________.
2. La parte de la estadística que permite la estimación y prueba de hipótesis de los
parámetros se llama ____________________ y el cálculo de medidas estadística se
denomina ___________________.
3. El valor posible que toma una variable de denomina _____________________.
4. Una ONG que brinda asistencia técnica a productores de truchas en el valle de
Huancayo ha aplicado una encuesta para establecer una línea de base en tres zonas
(A, B y C). Los resultados obtenidos indicaron que la edad promedio de los productores
es de 35.8 años; el peso promedio de las truchas en la zona A, B y C son 1.2, 1.8 y
1.6 kgrs. respectivamente. Entonces las variables son
_______________________________________________________________.
5. Si el ganadero Juan Pérez, desea registrado el número diario de litros de leche
producidas, entonces la unidad elemental es ____________________.
6. Si se han definido cuatro rangos de las edades de una muestra de 100 agricultores:
de 18 a 25, de 26 a 40, de 41 a 60 y de 61 a más años, entonces la variable rango
de edades es del tipo ______________________________________.
7. Para un estudio sobre la contaminación de un reservorio de agua, se extraen 400
muestras de dos litros de agua y se halló que el número promedio de bacterias fue
de 10.5. Entonces:
Población: __________________________________________.
Unidad elemental: ____________________________________.
Variable: ___________________________________________.
8. En la ENAHO (Encuesta Nacional de Hogares) del 2011, respecto al material
predominante en las viviendas, el 65% es de material noble, el 20% de calamina, el
10% de esteras y 5% otros. La variable en estudio es de tipo _________________.
9. Si un establecimiento de salud del MINSA registra trimestralmente el número de niños
atendidos menores a 5 años, entonces la unidad elemental es __________ y la
variable es del tipo _______________________.
10. Indique si es Verdadero (V) o Falso (F) cada uno de los siguientes enunciados:

Item Enunciado V/F
a. La población y una muestra extraída de ella pueden tener diferentes
unidades elementales
b. Las medidas estadísticas que se pueden calcular con los datos de un
censo son parámetros y valores estadísticos.
c. Las medidas estadísticas calculadas para el estado civil de una muestra
de 120 personas pueden ser la mediana y la moda
d. Una condición para que una muestra sea representativa de una
población es que sea aleatoria.
e. Los valores de las variables sólo pueden ser obtenidos de las unidades
elementales de una población.

12
UNA La Molina - Dpto. de Estadística e Informática Estadística General

CAPÍTULO II

ORGANIZACIÓN DE DATOS

La organización de datos consiste en la elaboración de tablas de frecuencias y gráficos
con la finalidad de clasificar, agrupar y presentar la información en forma resumida,
facilitando el análisis descriptivo de los conjuntos de datos. La elaboración de una tabla
de frecuencia y su gráfico respectivo dependerá del tipo de variable definida.

Objetivo. Aplicar en forma adecuada los procedimientos de la estadística descriptiva
para tabular, clasificar, analizar, graficar y presentar información según sea la variable
cualitativa o cuantitativa.

2.1 Organización para variables cualitativas (nominal o jerárquica)

La tabla de frecuencia es organizada por clases o categorías que corresponden a los
distintos valores (atributos) que toma la variable cualitativa

Tabla de frecuencias

N° de clase Clase o categoría (fi) (fri) (pi)

1 Atributo 1 f1 fr1 p1
2 Atributo 2 f2 fr2 p2
.
.
.
K Atributo k fk frk pk
Total n 1 100

Donde:
k= Número de clases
n= Número de observaciones o unidades elementales

Frecuencia absoluta (fi). Es el número de observaciones que existen en la clase o
categoría i.
k
Se cumple: f
i 1
i n

Frecuencia relativa (fri). Es la proporción o porcentaje de observaciones con respecto
fi
al total (n) que existen en la clase o categoría i. Se tiene: fri  .
n
k
Se cumple:  fr  1
i 1
i

Frecuencia porcentual (pi). Es el porcentaje de observaciones con respecto al total (n)
que existen en la clase o categoría i. Se tiene: pi  fri  100 .
k
Se cumple: p
i 1
i  100%

Tipo de gráficos

Se pueden usar las frecuencias absolutas (fi) o relativas (fri) para elaborar dos tipos de
gráficos
 Gráfico de barras vertical u horizontal
 Gráfico circular

13
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 1
Se hizo una encuesta a una muestra de 45 clientes del Banco Comercial y se obtuvo los
siguientes resultados:

Tarjeta
Ingreso Nº de Monto de
de Lugar de uso de
Caso Edad Mensual viajes deuda Sexo
crédito tarjeta de crédito
(miles de S/.) (mensual) (miles de S/.)
usada
1 29 3.00 3 Ta1 centros comerciales 1.80 F
2 34 1.99 3 Ta2 discotecas 1.10 F
3 61 2.90 2 Ta3 restaurantes 0.60 M
4 28 4.70 0 Ta2 grifos 2.70 M
5 41 3.00 1 Ta4 centros comerciales 1.30 F
6 57 5.80 2 Ta1 otros 0.80 F
7 30 4.50 4 Ta4 grifos 0.64 M
8 43 7.09 0 Ta3 centro de estudios 0.90 F
9 45 4.40 1 Ta5 centros comerciales 1.40 M
10 35 6.82 0 Ta2 grifos 2.46 F
11 42 5.30 3 Ta1 restaurantes 1.10 F
12 28 5.80 2 Ta4 discotecas 0.20 M
13 28 5.70 1 Ta2 grifos 0.80 F
14 24 4.70 4 Ta4 restaurantes 0.50 M
15 35 6.60 1 Ta5 discotecas 0.40 F
16 42 6.60 2 Ta4 restaurantes 3.46 F
17 48 5.74 1 Ta1 discotecas 1.20 M
18 34 4.23 0 Ta5 centros comerciales 1.90 F
19 66 5.50 3 Ta1 restaurantes 2.35 M
20 36 6.60 1 Ta4 centros comerciales 1.90 F
21 59 3.85 1 Ta4 restaurantes 0.30 M
22 37 6.70 3 Ta6 centros comerciales 0.70 F
23 53 3.50 0 Ta5 restaurantes 0.67 F
24 35 8.80 1 Ta1 discotecas 0.50 F
25 63 10.00 4 Ta5 restaurantes 1.50 M
26 28 10.10 2 Ta1 centro de estudios 0.70 F
27 43 13.40 2 Ta2 discotecas 1.50 F
28 60 3.90 0 Ta5 otros 1.99 M
29 59 5.84 1 Ta5 restaurantes 0.60 M
30 63 3.50 1 Ta4 grifos 1.50 M
31 55 4.40 2 Ta2 centro de estudios 0.40 M
32 42 3.70 0 Ta5 centros comerciales 1.80 F
33 51 4.50 1 Ta1 otros 0.70 M
34 39 5.63 1 Ta1 otros 0.80 M
35 55 4.60 4 Ta1 discotecas 1.25 M
36 35 5.79 0 Ta5 discotecas 1.60 M
37 42 2.93 3 Ta5 grifos 0.20 M

14
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Tarjeta
Ingreso Nº de Monto de
de Lugar de uso de
Caso Edad Mensual viajes deuda Sexo
crédito tarjeta de crédito
(miles de S/.) (mensual) (miles de S/.)
usada
38 36 6.60 1 Ta3 grifos 4.37 F
39 49 4.60 0 Ta3 centros comerciales 2.00 M
40 27 6.60 0 Ta4 grifos 0.90 F
41 36 2.90 4 Ta1 discotecas 0.47 M
42 42 4.69 2 Ta2 centros comerciales 0.80 F
43 25 3.99 1 Ta4 restaurantes 4.32 F
44 32 6.70 2 Ta1 centros comerciales 0.60 M
45 28 2.58 1 Ta4 otros 1.70 M

Organización de datos cualitativos

Organicemos las observaciones de la variable tarjeta de crédito usada.
Tabla de frecuencias del tipo de tarjeta de crédito usada
Frecuencia Frecuencia Frecuencia
Tarjeta de
N° de clase Absoluta Relativa Porcentual
crédito usada
fi fri pi
1 Ta1 12 0.2667 26.67
2 Ta2 7 0.1556 15.56
3 Ta3 4 0.0889 8.89
4 Ta4 11 0.2444 24.44
5 Ta5 10 0.2222 22.22
6 Ta6 1 0.0222 2.22
Total 45 1.0000 100.00
Fuente: Elaboración propia

f3 = 4 indica que 4 de los clientes del Banco Comercial utilizan la tarjeta de crédito
Ta3
fr1 = 0.2667 indica la proporción de clientes del Banco Comercial que utilizan la tarjeta
de crédito Ta1.
p2 = 15.56 indica que el 15.56% de clientes del Banco Comercial utilizan la tarjeta de
crédito Ta2.

Gráfico de Barras

Tarjetas de crédito usada
30

25

20
%

15

10

5

0
Ta1 Ta2 Ta3 Ta4 Ta5 Ta6
Tarjeta de crédito

Fuente: Elaboración propia

En el gráfico de barras, se aprecia que la tarjeta Ta1 es la de uso más frecuente.
15
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Gráfico Circular

Tarjetas de crédito usada
C ategory
Ta6 Ta1
1, 2.2% Ta2
Ta3
Ta5 Ta1 Ta4
10, 22.2% 12, 26.7% Ta5
Ta6

Ta2
Ta4 7, 15.6%
11, 24.4%

Ta3
4, 8.9%

Fuente: Elaboración propia

En el gráfico circular, se aprecia que la tarjeta de crédito Ta6 es la de uso menos
frecuente.

Ejercicio 1. Se ha realizado una encuesta para evaluar el grado de satisfacción de cuatro
planes de seguro familiar (A, B, C y D). Los resultados para una muestra de 40 clientes
que adquirieron el seguro familiar en los dos últimos años se muestra en la siguiente
tabla.

A Bueno A Regular A Malo D Regular C Bueno
A Malo A Malo A Malo C Malo B Bueno
B Regular D Regular D Regular B Regular D Regular
C Regular C Bueno B Regular C Malo C Bueno
B Malo B Bueno C Malo B Regular C Malo
D Malo C Malo B Regular D Bueno A Bueno
A Regular B Regular D Bueno A Bueno C Malo
D Regular B Malo B Bueno D Malo B Regular

a. Elabore una tabla de frecuencias y un gráfico de barras de frecuencias absolutas para
la variable plan de seguro familiar.

16
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. Elabore una tabla de frecuencias y un gráfico circular frecuencias relativas para la
variable grado de satisfacción del plan de seguro familiar.

Tabulaciones cruzadas

 También llamadas tablas de contingencia o de doble entrada.
 Se usan para resumir de manera simultánea los datos para dos variables
cualitativas.

Ejercicio 2. En el 2010 el Instituto Nacional de Estadística e Informática (INEI) en
convenio con la Asamblea Nacional de Rectores (ANR) realizó el II Censo Nacional
Universitario. A continuación se presentan los resultados de dos características generales.

Distribución de los alumnos de pre-grado según el sexo y edad

Edad
Sexo De 15 a De 21 a De 26 a De 31 a De 36 a Más de Total
20 años 25 años 30 años 35 años 40 años 40 años
Masculino 126214 169306 60006 21465 10651 12503 400145
Femenino 150859 159091 42243 15313 7333 7986 382825
Total 277073 328397 102249 36778 17984 20489 782970
Fuente: PERÚ, II Censo Nacional Universitario 2010

 Las variables utilizadas en la realización de esta tabla de contingencia son:
___________________________________________________________________
 El total de alumnos de pre-grado del sexo masculino es ______________________
 El total de alumnos de pre-grado de 31 a 35 años es _________________________
 El % de los alumnos de pre-grado del sexo masculino que tienen 26 a 30 años es
________
 El % de alumnos de pre-grado de 21 a 25 años que son del sexo femenino es
________
 El % de alumnos de pre-grado de 26 a 30 años y que son del sexo femenino es
_________

17
UNA La Molina - Dpto. de Estadística e Informática Estadística General

2.2 Organización para variables cuantitativas discretas

La tabla de frecuencia es organizada por clases o categorías que corresponden a los
distintos valores (números) que toma la variable cuantitativa discreta. Se usa cuando el
conjunto de valores posible de la variable cuantitativa discreta es pequeño.

Tabla de frecuencias
N° de clase Valor de la (fi) (fri) (pi)
variable
1 x1 f1 fr1 p1
2 x2 f2 fr2 p2
.
.
.
k xk fk frk pk
Total n 1 100

Tipo de gráfico. Se elabora el gráfico de bastones o varas con las frecuencias absolutas,
relativas o porcentual.

Ejemplo 2. Organización de datos cuantitativos discretos
Organicemos las observaciones de la variable número de viajes al mes de los clientes.

Tabla de frecuencias del número de viajes al mes
Frecuencia
Frecuencia Frecuencia
N° de viajes al Absoluta
Relativa Porcentual
mes No de clientes
fri pi
fi
0 10 0.2222 22.22
1 15 0.3333 33.33
2 9 0.2000 20.00
3 6 0.1333 13.33
4 5 0.1111 11.11
Total 45 1.0000* 100.00*
Fuente: Elaboración propia

Interprete:
f2 = 15 Existen 15 clientes del Banco Comercial que hacen un viaje al mes.
p1 = 22.22 El 22.22% de los clientes no han realizado viajes.

Gráfico de bastones o varas

Viajes al mes
35

30

25

20
%

15

10

5

0
0 1 2 3 4
Viajes

Fuente: Elaboración propia

En el gráfico de varas, se aprecia que en la variable número de viajes al mes, el número
1 (un viaje al mes) es el más frecuente.
18
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 3. En una estación experimental se ha determinado el número de larvas de
insectos encontrados en 40 parcelas, en un cultivo de frijol. Los datos se muestran a
continuación:

1 3 3 5 6 6 9 9 10 10
1 3 5 5 6 3 9 10 3 1
10 3 5 5 6 5 9 10 1 1
3 3 5 6 6 5 9 5 3 1

a. Elabore una tabla de frecuencias y su respectivo gráfico de bastones.

b. Interprete f3 y p3

c. ¿Qué número y porcentaje de parcelas muestran al menos 6 larvas?

2.3 Organización para variables cuantitativas continuas

El conjunto de datos es agrupado por intervalos de clase que conforman las clases o
categorías de la tabla de frecuencias.

Tabla de frecuencias
N° de Intervalos Marca Frec. Frec. Frec. Frec. Frec. Frec.
clases de clase de Absoluta Relativa Porc. Acumulada Acumulada Acum.
clase Absoluta Relativa Porc.
[LI-LS> xi' fi fri pi Fi Fri Pi

1 [LI1-LS1> x’1 f1 fr1 p1 F1 Fr1 P1
2 [LI2-LS2> x’2 f2 fr2 p2 F2 Fr2 P2
.
.
.
k [LIk-LSk] x’k fK frK pk FK FrK Pk
Total N 1 100 1 100

19
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Donde:

LIi = Límite inferior de la clase i (Límite cerrado)
LSi= Límite superior de la clase i (Límite abierto, salvo la última clase que es cerrado)

Marcas de Clase ( X i ). Es el punto medio del intervalo de clase. Se considerada como
'

el valor representativo de los valores que pertenecen al intervalo de clase.
LI i  LS i
Se calcula: X i  o X i'  X i'1  TIC , donde TIC es el tamaño del intervalo
'

2
de clase

Frecuencia Porcentual (pi). Indica el porcentaje de observaciones o unidades
k
elementales que hay en la clase i. Se cumple: p
i 1
i  100%

Frecuencia Acumulada Absoluta (Fi). Indica el número de observaciones o unidades
elementales que hay desde la primera clase hasta la clase i. Se calcula por:
k
Fk   fi  f1  f 2  ...  f k .
i 1
t
Propiedad: Ft  Fh  f
ih1
i , ht

Frecuencia Acumulada Relativa (Fri). Indica la proporción de observaciones o
unidades elementales que hay desde la primera clase hasta la clase i. Se calcula por:
i

Fi
 fj i
Fri 
n
 j 1

n
 
j 1
f rj
t
Propiedad: Frt  Frh   fr
ih1
i , h t
Frecuencia Acumulada Porcentual (Pi). Indica el porcentaje de observaciones o
unidades elementales que hay desde la primera clase hasta la clase i.
t
Propiedad: Pt  Ph  p
ih1
i , h< t

Pasos para la construcción de una tabla de frecuencias:

Paso 1. Hallar el rango o amplitud (r). r  Máximo  Mínimo

Paso 2. Hallar el número de intervalos de clase (k). Se aplica la regla de Sturges:
k  1  3.3 log( n) . Eligiendo un valor: 3 ≤ k ≤ 15

 Se aplica el redondeo normal a entero.
Si el primer dígito decimal: es  5, se redondea al entero inmediato superior
y si es < 5, se considera el entero obtenido.
r
Paso 3. Hallar el tamaño de Intervalo de Clase (TIC). TIC 
k
 El número de decimales debe ser igual al de las observaciones.
 Se aplica el redondeo por exceso. Si la posición del decimal es  1, se
redondea al valor inmediato superior, de lo contrario no se redondea.

20
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Paso 4. Hallar los límites inferiores y superiores de cada intervalo de clase.

LI1 = Mínimo LS1= LI1 + TIC
LI2 = LI1 + TIC = LS1 LS2= LI2 + TIC
LI3 = LI2 + TIC = LS2 LS3= LI3 + TIC
...
LIk = LIk-1 + TIC = LSk-1 LSk= LIk + TIC

Paso 5. Realizar el conteo del conjunto de datos, como el resultado de asignar cada
observación a alguno de los intervalos de clase. Luego completar la tabla hallando x’i , fi ,
fri , Fi , Fri .

Tipos de gráficos
 Histograma. Se usan las frecuencias absolutas o relativas en el eje vertical y los
intervalos de clase en el eje horizontal.
 Polígono. Se usan las frecuencias absolutas o relativas en el eje vertical y las
marcas de clase en el eje horizontal.

Ejemplo 3. Organización de datos cuantitativos continuos

Organicemos las observaciones de la variable ingreso mensual de los clientes (en miles
de nuevos soles).

Paso 1. Calcule el rango ( R ). R= xmax - xmin
En el ejemplo R = 13.40 – 1.99 = 11.41

Paso 2. Determine el número de intervalos de clase ( k ). Utilice la regla de Sturges
k = 1 + 3.3 log n = 1 + 3.3 log 45 = 6.4556

Redondeo estadístico: Se toma en consideración el primer valor decimal, si es:

 5 se redondea al entero inmediato superior
< 5 se considera el entero obtenido

En nuestro ejemplo, k = 6.4556, estamos en el segundo caso, por lo que el número
de clases que se debe considerar es k = 6.

Paso 3. Halle el tamaño de los intervalos de clase (TIC)
R 11.41
TIC    1.90167
k 6

Redondeo por exceso: se toma en consideración el número mayor de decimales que
tienen las observaciones. Considerando la posición de este decimal, se presentan 2 casos:

 Si existe alguna cifra significativa a la derecha de este valor, se redondea al valor
inmediato superior
 Si no existe ninguna cifra significativa a la derecha de este valor, entonces no se
realiza ningún redondeo

TIC  1.90167

Como las observaciones tienen 2 decimales en el TIC también se considerará con 2
decimales y como hay al menos un valor diferente de cero a la derecha de las centésimas
se incrementa en una centésima quedando TIC = 1.91

21
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Paso 4. Construya la tabla de frecuencias.
Tener en cuenta que en la última clase el intervalo es cerrado en el lado derecho.
Tabla de frecuencias del ingreso mensual

Marca Frec
Frec. Frec. Frec. Frec. Frec.
Ingreso de .
Rel. Porc. Acum. Acum. Acum.
N° de mensual clase Abs.
Abs. Rel. Porc.
clases [LI-LS>
xi' fi
fri pi Fi Fri Pi
1 [1.99 - 3.90> 2.945 11 0.2444 24.44 11 0.2444 24.44
2 [3.90 - 5.81> 4.855 20 0.4444 44.44 31 0.6888 68.88
3 [5.81 - 7.72> 6.765 10 0.2222 22.22 41 0.9110 91.10
4 [7.72 - 9.63> 8.675 1 0.0222 2.22 42 0.9332 93.32
5 [9.63 -11.54> 10.585 2 0.0444 4.44 44 0.9776 97.76
6 [11.54-13.45] 12.495 1 0.0222 2.22 45 1.000 100
45 1.0000 100
Fuente: Elaboración propia

Interprete:
a. f2 = 20; 20 de los clientes tienen un ingreso mensual de por lo menos S/. 3900
pero menos de S/. 5810.

b. fr4 = 0.0222; 0.0222 es la proporción de clientes que ganan por lo menos
S/. 7720 pero menos de S/. 9630

c. p5 = 4.44; 4.44% de los clientes ganan por lo menos S/. 9630 pero menos de
S/. 11540.

3
d. F3   fi  f1  f 2  f3  11  20  10  41 41 de los clientes ganan mensualmente por
i 1

lo menos S/. 1990 pero menos de S/. 7720

e. F5 – F2 = 44 – 31 =13
5
F5 – F2 = f
i 3
i  f3  f 4  f5  10  1  2  13 13 de los clientes ganan por lo menos

S/. 5810 pero menos de S/. 11540
4
f. Fr4   fri  fr1  fr2  fr3  fr4  0.2444  0.4444  0.2222  0.0222  0.9332 , indica que
i 1
0.9332 es la proporción de clientes que ganan por lo menos S/. 1990 pero menos de
S/. 9630.

g. Fr5 – Fr3 = 0.9776 – 0.9110 = 0.0666
5
Fr5 – Fr3 =  fr  fr
i 4
i 4  fr5  0.0222  0.0444  0.0666 , indica que 0.0666 es la
proporción de los clientes que ganan por lo menos S/.7720 pero menos de S/.11540.

3
h. P3   pi  p1  p2  p3  24.44  44.44  22.22  91.10 , indica que el 91.10% de los
i 1
clientes tienen ingresos mensuales de por lo menos S/.1990 pero menos de S/.7720

22
UNA La Molina - Dpto. de Estadística e Informática Estadística General

i. P5 – P2 = 97.76 – 68.88 = 28.88
5
P5 – P2 = p
i 3
i  p3  p4  p5  22.22  2.22  4.44  28.88 , indica que el 28.88% de
los clientes de ese banco tienen ingresos mensuales por lo menos S/. 5810 pero
menos de S/. 11540.

j. x3'  6.765 es el valor representativo de los clientes que ganan por lo menos S/.5810
pero menos de S/.7720. Las diez observaciones (f3 = 10) que hay en la clase 3 son
representadas por el valor S/. 6765.

Histograma de frecuencias

Ingreso Mensual
50

40

30
%

20

10

0
1.99 3.90 5.81 7.72 9.63 11.54 13.45
Ingreso

Fuente: Elaboración propia

En el histograma se puede apreciar que la clase más frecuente es la segunda esto indica
que los ingresos más frecuentes son de por lo menos S/. 3900 pero menores a S/. 5810.

Polígono de frecuencias
Ingreso Mensual

Series1, 4.855, 20

Series1, 2.945, 11 Series1, 6.765, 10

Series1,
Series1, 8.675, 10.585, 2
1 Series1,
Series1, 1.035, 0 Series1, 12.495,
14.405, 1
0
Fuente: Elaboración propia

En el polígono de frecuencias se observa que son pocos los clientes con ingresos
mensuales altos.

23
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 4. Con la finalidad de evaluar la viabilidad de un proyecto de reforestación de
una zona sometida a estrés turístico, para el que se ha solicitado una subvención pública,
se ha tomado muestras sobre la composición en mg/cm3 de desechos orgánicos en el
suelo. Los datos obtenidos fueron:

Composición de desechos orgánicos (mg/cm3)
8.2 12.9 15.3 18.8 20.8
9.2 12.9 15.8 19.7 21.0
9.4 14.0 15.9 20.3 21.4
10.8 14.2 16.9 20.3 22.2
10.8 14.4 18.2 20.3 22.5
11.1 15.1 18.4 20.2 23.2
11.2 15.1 18.6 20.7 25.8
a. Construir la tabla de frecuencias usando la regla de Sturges.

b. A partir de la tabla de frecuencias interprete: fr3 , F4 , P4 y 1-Fr2

c. ¿Entre qué niveles de composición se encuentra aproximadamente el 51.4% de las
observaciones con menores niveles registrados?

24
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 5. La gerencia de marketing del Supermercado ABC desea realizar un estudio
con la finalidad de evaluar la satisfacción de sus clientes. Para el estudio se selecciona
aleatoriamente a 40 clientes que acudieron al supermercado en un día y se registró los
siguientes datos.

N° Tipo Estado de Número de Monto N° Tipo Estado de Número de Monto
pago los compras (nuevos pago los compras (nuevos
productos semanal soles) productos semanal soles)
1 1 2 2 200.5 21 3 4 2 350.5
2 2 2 4 200.3 22 3 2 4 250.3
3 2 1 1 136.0 23 3 4 5 180.4
4 2 2 2 150.2 24 2 3 1 320.8
5 2 2 3 300.6 25 2 1 2 150.6
6 1 1 2 320.8 26 3 4 3 190.8
7 3 2 2 310.8 27 1 3 2 240.5
8 3 1 4 229.2 28 2 1 3 275.8
9 1 2 3 180.5 29 3 2 3 130.8
10 2 3 5 110.6 30 3 3 1 180.2
11 3 1 1 140.8 31 2 4 4 315.4
12 1 3 3 368.6 32 1 2 2 290.6
13 2 2 2 160.2 33 2 3 2 265.8
14 3 1 3 180.9 34 3 4 1 360.8
15 3 2 1 190.5 35 1 1 3 260.2
16 2 3 2 210.4 36 2 2 3 140.5
17 3 2 3 89.4 37 1 3 2 180.2
18 1 3 3 110.6 38 3 4 3 220.5
19 2 1 4 100.5 39 3 1 2 345.8
20 1 1 1 120.3 40 3 2 3 95.4
Considerar: Tipo de pago: 1=Contado 2=Tarjeta de crédito 3=Crédito ABC
Estado de los productos: 1=Muy bueno 2=Bueno 3=Regular 4=Malo
a. Elabore una tabla de frecuencias y un gráfico de barras de frecuencia relativa de la
variable tipo de pago.

25
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. Elabore la tabla de frecuencias para la variable número de compras semanal. Elabore
el respectivo gráfico de varas.

c. Elabore la tabla de frecuencias usando la regla de Sturges para la variable monto
semanal.

d. Interprete f4 , F4 , 100-P2

26
UNA La Molina - Dpto. de Estadística e Informática Estadística General

e. Elabore el respectivo histograma y polígono de frecuencias.

Ejercicio 6. Se ha recolectado información de 20 sacos de papa tomados al azar,
cosechados para un trabajo experimental. Se muestra a continuación el número de papas
que están comenzando descomponerse por saco y las variedades de papas cosechadas.
Número de papas
descomponiéndose Variedades de papa cosechadas

8 12
8 12 10
8 12 8
9 16 6
9 16 4
9 16 2
12 16 0
12 17 amarilla negra blanca tomasa serrana
12 17 Serie1 3 5 9 2 1
12 18
Variedad de papa
Fuente: Estudio Experimental.

a. Elabore una tabla de frecuencias para la variable cuantitativa.

b. Elabore un cuadro que resuma la información de la variable cualitativa.

27
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Práctica Dirigida N° 1

1. La agencia agropecuaria del MINAG desea evaluar su programa de asistencia técnica
dirigido a los agricultores Región de Cajamarca. Los resultados obtenidos de una
muestra de 350 agricultores que asistieron al programa fueron los siguientes:

 El tamaño promedio del predio por agricultor es de 3.5 has.
 El ingreso promedio agropecuario fue de S/. 1250.0
 El 65.5% de los agricultores usan fungicidas.
 En cuanto al uso de semillas, el 45% usa certificada, el 35% mejorada y el resto
su propia semilla.
 El número promedio de visitas fue de 4.8

a) De acuerdo al enunciado identifique la población de estudio, unidad elemental y
muestra.

b) Identifique las variables, tipos, observación, estadístico o parámetro.

Variable Tipo de Observación Estadístico Parámetro
Variable

28
UNA La Molina - Dpto. de Estadística e Informática Estadística General

2. La empresa de turismo “El Viajero” que ofrece paquetes turísticos a nivel nacional,
desea evaluar su nuevo sistema de ventas por internet. Para el análisis seleccionó
una muestra aleatoria de 30 clientes que hicieron su reserva por internet, y se
registra el tiempo de demora (en minutos) en hacer la reserva, el tipo y número de
días de estadía del paquete turístico. Los datos se presentan en la siguiente tabla:

Tiempo de Tipo de Número de Tiempo de Tipo de Número de
demora paquete días demora paquete días
10.0 Clásico 2 19.8 Clásico 3
12.7 Todo incluido 3 20.0 Clásico 2
13.0 Premium 3 20.3 Clásico 2
13.8 Clásico 3 20.6 Clásico 4
14.0 Todo incluido 2 22.8 Todo incluido 5
14.4 Todo incluido 4 23.0 Premium 6
14.6 Clásico 5 24.1 Clásico 5
15.9 Todo incluido 6 24.5 Todo incluido 4
16.9 Clásico 3 24.8 Premium 3
16.1 Premium 4 25.6 Todo incluido 4
16.2 Premium 5 26.0 Clásico 3
17.8 Clásico 5 26.4 Todo incluido 2
18.0 Todo incluido 6 28.0 Premiun 6
18.4 Clásico 3 30.0 Clásico 5
18.5 Todo incluido 3 32.0 Todo incluido 5
19.6 Premiun 2 34.0 Premium 4

a) Con respecto a la información proporcionada, identifique la población, unidad
elemental y muestra.

b) Elabore una tabla de frecuencias sobre el tipo de paquete y un gráfico de barras
de frecuencias porcentuales.

29
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c) Elabore la tabla de frecuencias para la variable tiempo que demora en hacer la
reservación por internet. Use la regla de Sturges.

d) Interprete f4, p4, F5, y 100-P5.

30
UNA La Molina - Dpto. de Estadística e Informática Estadística General

e) Elabore el respectivo histograma de frecuencias porcentuales.

f) Elabore la tabla de frecuencias para la variable número de días de estadía y su
gráfico respectivo.

31
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. En Marzo del 2009 la empresa de investigación de mercados “CONTHEOS”, fue
contratada por el banco “Nuevo Horizonte” para que realice un estudio sobre la
aceptación de los créditos anuales que ofrecen a sus clientes en sus sucursales de los
distritos de La Molina y Surco. La empresa “CONTHEOS” después de hacer un estudio
de las características de los clientes activos del banco, seleccionó una muestra de 36
clientes de la sucursal de La Molina, y recolectó de ellas información para un conjunto
de variables seleccionadas para tal fin. Los resultados se muestran a continuación:

Nº Tipo de Nº de Monto de crédito. Tipo de
Cliente crédito solicitudes (miles de soles) cliente
1 1 1 30.0 2
2 2 2 35.3 3
3 3 1 48.4 2
4 1 2 50.1 2
5 2 1 55.3 3
6 4 2 57.2 2
7 5 1 58.1 1
8 3 1 60.4 3
9 5 2 65.3 3
10 4 1 66.0 2
11 3 3 68.0 2
12 4 1 69.1 2
13 2 3 70.2 3
14 5 3 72.5 2
15 4 1 73.1 3
16 2 4 75.3 3
17 3 4 77.2 3
18 4 1 79.1 3
19 4 3 82.7 2
20 5 7 84.3 3
21 3 1 86.0 1
22 4 5 90.3 1
23 1 6 95.2 2
24 3 1 100.1 3
25 4 2 101.2 3
26 1 4 102.2 1
27 3 1 102.2 3
28 4 2 104.3 2
29 1 4 110.1 2
30 3 1 115.3 3
31 4 3 118.4 2
32 1 2 119.1 1
33 3 1 125.1 3
34 1 3 128.0 2
35 1 1 130.2 2
36 2 2 140.0 3

Tipo de Crédito: (1) Inversión en negocio, (2) Compra de inmuebles,
(3) Compra de maquinarias, (4) Inversión en bolsa de valores
(5) Compra de autos.
Tipo de cliente: (1) Casado (a), (2) Soltero (a), (3) Divorciado(a)

32
UNA La Molina - Dpto. de Estadística e Informática Estadística General

a) Elabore una gráfica adecuada para la variable cualitativa.
b) Haciendo uso de la regla de Sturges construya un cuadro de distribución de
frecuencias para la variable Monto de crédito (miles de soles).
c) Interprete según enunciado los valores de f2, p3, F4, P5 y (p5+p6).
d) Construya el polígono de frecuencias para la variable Monto de crédito.
e) Construya un cuadro de distribución de frecuencias para la variable cuantitativa
discreta.

2. La siguiente información se tomó de los registros del Hospital Centro de Salud Materno
Infantil San Bartolomé. Sección Maternidad entre el 18 y el 22 de Mayo del 2012.

Madre Hijo
Caso Edad Estado Civil No de partos Peso Sexo
1 25 conv 2 2.90 F
2 22 conv 2 2.90 F
3 32 conv 4 4.04 M
4 22 conv 1 4.35 F
5 18 casada 1 3.60 M
6 21 casada 3 3.50 M
7 20 soltera 2 3.20 M
8 19 casada 1 3.00 F
9 23 casada 3 3.60 M
10 26 casada 2 2.80 M
11 36 casada 5 3.00 M
12 30 conv 5 3.30 F
13 23 soltera 3 3.10 F
14 29 conv 4 3.30 F
15 22 conv 2 3.30 F
16 23 casada 1 3.50 F
17 27 conv 2 3.62 M
18 28 conv 3 3.30 F
19 19 conv 1 2.65 F
20 32 casada 2 2.86 F
21 17 conv 1 2.62 M
22 21 conv 2 3.56 F
23 18 casada 2 3.10 M
24 27 conv 3 3.62 F
25 21 casada 1 3.18 M
26 19 casada 1 2.95 M
27 19 conv 2 3.90 M
28 31 casada 3 3.00 F
29 32 casada 4 4.00 F
30 21 conv 2 3.85 M
31 23 casada 2 2.75 F
32 19 casada 1 3.18 F
33 19 conv 1 3.14 F
34 26 conv 3 3.08 F
35 18 casada 1 2.80 F
36 24 casada 2 3.40 M
37 30 casada 3 3.00 F
38 26 casada 3 3.05 F
39 19 casada 1 2.90 F
40 34 casada 3 3.10 F

33
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Madre Hijo
Caso Edad Estado Civil No de partos Peso Sexo
41 28 casada 3 3.40 M
42 24 casada 2 2.97 F
43 26 casada 2 2.94 F
44 22 casada 2 3.80 M
45 34 casada 5 4.65 F

a) Elabore una tabla y grafica adecuada para la variable ESTADO CIVIL.
b) Haciendo uso de la regla de Sturges construya un cuadro de distribución de
frecuencias para la variable PESO DEL RECIEN NACIDO.
c) Interprete según enunciado los valores de f2, fr4, p5, F3, P3 y (P5-P2) del cuadro de
distribución de frecuencias anterior.
d) Construya el polígono de frecuencias para la variable PESO DEL RECIEN NACIDO.
e) Construya un cuadro de distribución de frecuencias para la variable Nº DE
PARTOS.

3. Con el objeto de determinar el número de horas diarias que los alumnos de la
facultad de ciencias se dedican a estudiar en la biblioteca de la UNALM, se llevó a cabo
una encuesta a 49 de ellos, obteniéndose los siguientes resultados expresados en
horas:

1.2 1.8 2.3 2.6 3.0 3.1 3.6
1.2 1.8 2.3 2.7 3.0 3.1 3.6
1.3 2.3 2.3 2.7 3.0 3.1 3.6
1.3 2.3 2.4 2.8 3.0 3.4 4.0
1.5 2.3 2.4 2.8 3.1 3.4 4.1
1.8 2.3 2.6 2.8 3.1 3.4 4.5
1.8 2.3 2.6 2.9 3.1 3.4 4.5

a) Construya una tabla de frecuencia completa, usando la regla de Sturges.
b) Interpretar la marca de clase del tercer intervalo de clase.
c) Interpretar la frecuencia relativa del tercer intervalo de clase.

4. Tomando como base la información tomada en la pregunta 3, se encuestó también
a 35 alumnos de la facultad de Agronomía obteniéndose los siguientes resultados en
horas:

2 2 2.1 2.1 2.2 2.5 2.6
2.6 2.7 2.7 3 3 3.1 3.2
3.3 3.4 3.4 3.5 3.6 3.6 3.6
3.8 4 4 4 4.1 4.3 4.3
4.4 4.5 4.5 4.6 4.7 4.7 4.7

Construya la tabla de frecuencias comparativa entre las dos facultades. Mencionar
tres conclusiones importantes en términos del enunciado.

34
UNA La Molina - Dpto. de Estadística e Informática Estadística General

5. Los siguientes datos corresponden a la longitud de la cabeza del feto a los 45 días de
gestación de un total de 60 ovejas que produjeron un solo feto y de las cuales el día
de apareamiento es conocido. Las medidas están en mm y fueron obtenidas con
imágenes de ultrasonido:

19.4 20.4 21.0 21.6 21.9 21.9 22.0 22.1 22.1 22.2 22.3 22.3
22.6 22.7 22.7 22.7 22.8 22.9 23.0 23.1 23.2 23.2 23.4 23.6
23.6 23.6 23.7 24.0 24.0 24.0 24.0 24.0 24.1 24.1 24.3 24.4
24.5 24.6 24.7 24.7 24.8 24.8 25.0 25.0 25.0 25.2 25.3 25.3
25.5 25.5 25.5 25.6 25.6 25.6 25.8 25.9 26.0 26.4 26.9 27.5

a) Defina variable y unidad elemental.
b) Construya la tabla de frecuencias. Utilice la regla de Sturges para determinar el
número de intervalos. Presente 3 decimales para sus frecuencias relativas.
c) Interprete fr3, Fr5, F5 – F2.
d) Grafique el histograma de frecuencias y el polígono de frecuencias.

6. Una compañía manufacturera tiene a prueba a 48 nuevos trabajadores. Para evaluar
su rendimiento, se les asignó una tarea rutinaria y se midió el tiempo que tardaron
en realizarla. Los tiempos en minutos son los siguientes:

105 105 107 108 108 108 109 109 110 111 111 111
113 114 114 117 118 119 121 121 123 125 126 126
126 126 128 129 130 131 134 134 137 145 145 150
150 152 153 154 157 157 158 164 170 171 179 183

a) Construya la tabla de frecuencias. Use la regla de Sturges para determinar el
número de intervalos. Presente 3 decimales para sus frecuencias relativas.
b) Interprete F5 - F2, 1 - Fr4, fr5+fr6.

7. Se ha llevado a cabo un estudio para evaluar los volúmenes de venta (miles de soles
por día) de los establecimientos comerciales de un distrito de Lima. Para ello se
eligieron al azar 36 establecimientos encontrándose los siguientes resultados:

1.5 2.1 2.5 3.2 3.7 4.4 4.5 4.6 4.6 4.6 4.7 5.2 5.3 5.4 5.7 5.7 5.8 6.1
6.4 6.7 6.7 7.2 7.4 7.4 7.7 7.8 8.4 8.4 8.5 8.7 9.1 9.8 10.1 11.7 12.1 15.4

a) Construya la tabla de frecuencias. Use la regla de Sturges para determinar el
número de intervalos.

b) Interprete f4, F3, p5
c) Graficar el histograma y el polígono de frecuencias.

8. En una fábrica de pernos se desea estimar el número de pernos defectuosos por caja
para verificar si estos valores están dentro de los límites permisibles. Se selecciona
una muestra de 40 cajas y se obtienen los siguientes resultados:

1 1 2 2 2 2 2 3 3 3 3 3 3 3 3 3 4 4 4 4
4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 7 7

a) Construya la tabla de frecuencias. Use la regla de Sturges para determinar el
número de intervalos.
b) Interprete f2, p4
35
UNA La Molina - Dpto. de Estadística e Informática Estadística General

9. Un profesor decide registrar el mes de nacimiento de cada uno de los 40 estudiantes
de su clase.

junio julio noviembre abril enero febrero septiembre
julio agosto septiembre diciembre julio junio noviembre
mayo abril febrero agosto junio mayo octubre
agosto noviembre enero junio abril septiembre diciembre
agosto junio julio marzo diciembre marzo junio
noviembre septiembre junio marzo noviembre
Construya la tabla de frecuencias, elabore e interprete el diagrama de barras.
¿Cuál es el mes que presenta la mayor y cuál la menor frecuencia de nacimientos?

10. Un Ing. Pesquero está realizando un estudio sobre el salmón plateado con la finalidad
de introducirlo al país. Una de las variables de interés es la longitud (en centímetros).
El resultado luego de la evaluación a 45 peces elegidos al azar de esta especie se
presenta a continuación:

93.30 93.36 94.48 94.68 95.76 95.95 96.31 96.37 96.43
96.53 96.58 96.60 96.61 96.80 96.86 96.93 97.29 97.40
97.41 97.45 97.58 97.66 97.66 97.88 97.92 98.22 98.40
98.47 98.49 98.53 98.56 98.63 98.76 98.79 99.21 99.29
99.32 99.44 99.68 100.08 100.22 100.82 101.24 101.31 102.79

a) Construya la tabla de frecuencias usando la regla de Sturges.
b) Presente el polígono de frecuencias.

11. La empresa Nicronics S.A. se dedica a la venta de placas circulares plásticas de
policarbonato, que importa de Alemania, Holanda y Japón. Las cantidades
porcentuales que importa de cada país son 16%, 64% y 20% respectivamente. Las
longitudes de los diámetros de dichas placas se expresan en pulgadas y los pesos de
los mismos varían de 480 a 920 gramos. En los últimos tres meses, los clientes
nacionales, le han devuelto sus productos debido a la baja resistencia encontrada, por
ello, el área de control de calidad ha seleccionado al azar 500 placas circulares (en
cantidades proporcionales a lo que importa de cada país) y analizado en un
laboratorio, la resistencia a las ralladuras y a los impactos (en ambos casos la
resistencia puede ser alta, media o baja). Si la empresa encuentra que efectivamente
las placas no satisfacen las condiciones del cliente, se verán obligados a cambiar de
proveedores.

En base a la variable país de importación elabore un cuadro de frecuencias de la
muestra seleccionada y su respectivo gráfico

36
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Preguntas de Autoevaluación

1. Para graficar un polígono, en el eje de ordenadas se usa _________________ y en
el eje de abscisas _____________________.
2. Si en una tabla de frecuencias las marcas de clases: X’1=25 y X’6=75, entonces el
valor del TIC es ___________________ y el valor del LI1 es _________________.
3. El gráfico asociado a una variable cuantitativa discreta se conoce como
______________________.
4. El valor representativo de un intervalo de clase se conoce como
_________________________
5. Para graficar un polígono, en el eje de ordenadas se usa ________________ y en el
eje de abscisas _____________________.

6. La frecuencia acumulada relativa Fr4 puede ser calculada en términos de la frecuencia
relativa por ____________________ y en términos de la frecuencia acumulada
absoluta por _________________________.
7. Los gráficos que se pueden elaborar para la variable estado civil son llamados
__________________________________
8. Para los siguientes valores del TIC, halle el valor usando el redondeo por exceso para
los casos de un entero, un decimal y dos decimales.

TIC Entero Un decimal Dos decimales

4.051

12.106

35.09

9. El número de decimales del Tamaño de Intervalo de Clase (TIC), debe ser siempre
igual a _________________________________

10. Indique si es Verdadero (V) o Falso (F) cada uno de los siguientes enunciados:

Item Enunciado V/F
a. Para hallar el número de intervalos de clase se aplica el redondeo por
exceso.
b. El número de decimales de la marca de clase es igual a la de las
observaciones.
c. Para una muestra de 55 clientes, la frecuencia absoluta acumulada de
la última clase es mayor a 55.
d. El gráfico circular se elabora usando las frecuencias absolutas relativas
e. Es posible que el límite superior de la última clase sea menor que el
máximo valor.

37
UNA La Molina - Dpto. de Estadística e Informática Estadística General

CAPÍTULO III

MEDIDAS ESTADÍSTICAS

Las medidas estadísticas pueden ser calculadas con los datos provenientes de una
población (N: Tamaño de la población) o muestra (n: Tamaño de la muestra) para evaluar
diferentes variables (cuantitativas y cualitativas), cuya finalidad es resumir y representar
el conjunto de datos.

Muestra (n) : X 1 , X 2 ,..., X n  Valores Estadìsti cos
Poblacion ( N ) : X 1 , X 2 ,..., X N  Parámetros

Observaciones
 Las medidas estadísticas asumen las mismas unidades de medida de la variable en
estudio, con la excepción de ciertas medidas estadísticas relativas.
 Para las variables cuantitativas, se pueden calcular medidas estadísticas como:
media, mediana, moda, rango, rango intercuartílico, varianza, desviación estándar,
coeficiente de variabilidad, y otras. En el caso de las variables cualitativas, sólo es
posible calcular las medidas como la moda y la proporción.

Objetivo. Reconocer las características básicas de una distribución de datos a través de
las principales medidas de tendencia central, de posición y variabilidad.

3.1 Medidas de tendencia central
Son medidas estadísticas que se localizarían en la parte central de la distribución de los
datos. Permiten resumir y representar en un sólo valor el conjunto de datos. Las medidas
de tendencia central revisadas en este texto son las siguientes:

 La media aritmética
 La media ponderada
 La mediana
 La moda

La media aritmética o Promedio
La media aritmética simple o promedio de un conjunto de datos provenientes de una
población (N) o muestra (n), es igual al cociente entre la suma total de sus valores y el
número de observaciones.

N
1 1 n
Media poblacional: 
N
Xj
j 1
Media muestral: X  Xj
n j 1

Ejemplo 1
Suponga que se tiene los datos de las ventas semanales (en dólares) de una muestra de
8 vendedores. Calcule la venta promedio semanal.

150 120 300 280 350 250 160 280

Solución
1 8 150  120  300  280  350  250  160  280 1,890
X 
8 i 1
xi 
8

8
 236.3

La venta promedio semanal por vendedor fue de $ 236.3

38
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 1. Los siguientes datos corresponden a una muestra de 12 auditores sobre los
gastos de viáticos (nuevos soles) realizados en un mes. Halle e interprete la media.

250.5 420.0 345.5 560.4 458.2 268.5 380.1 510.2 630.4 580.3 610.3 720.1

Propiedades:

1. La media está afectada por valores extremos (altos o pequeños). Es una desventaja
de la media.
2. La media aritmética localiza la parte central de un conjunto de observaciones.
3. Para un conjunto de observaciones la media es única.
4. Si la media sustituye a cada observación, la suma total no cambia.
5. La suma de las desviaciones de las observaciones con respecto al promedio es igual

 X 
n n
a cero. j  X  Xj n X  n X  n X  0
j 1 j 1
6. La suma de los cuadrados de las desviaciones de las observaciones con respecto a la

 X    X  c  , donde c  R
n 2 n
2
media es mínima: j X j
j 1 j 1

Ejemplo 2
Los siguientes datos corresponden a los ingresos mensuales de dos grupos de empleados:

Grupo Ingreso x
A 520 525 518 523 545 580 510 500 527.625
B 530 545 520 8000 580 590 560 600 1490.625
1 8 4221
Propiedad 1. Para A : X  
8 i 1
Xi 
8
 527.625

1 8 11925
Para B : X   X i  8  1490.625
8 i 1
En el grupo A el promedio es similar a los 8 valores (promedio representativo), mientras
que en el grupo B eso no ocurre (el valor 8000 es un dato extremo alto).
8 8

Propiedad 5. Para A : (X i 1
i  X )  X i  n X  4221  8 x527.625  0
i 1
8 8
Para B : (X i 1
i  X )  X i  n X  11925  8 x1490.625  0
i 1
8 8

(X  X ) 2  X i2  n X  2231403  8 x527.6252  4297.875
2
Propiedad 6. Para A : i
i 1 i 1
8 8
c  510 : (Xi 1
i  c) 2  X i2  nc 2  2231403  8 x5102  150603
i 1
8 8

(X  X )  X  n X 66206425  8 x1490.6252  48430721.88
2 2 2
Para B : i i
i 1 i 1
8 8
c  510 : (X
i 1
i  c) 2  X i2  nc 2 66206425  8 x5102  64125625.00
i 1

39
UNA La Molina - Dpto. de Estadística e Informática Estadística General

La media aritmética ponderada

La media ponderada de un conjunto de observaciones x1 , x2 , ... , xk con pesos o
ponderaciones w1 , w2 , , wk está dada por:
k

x
j 1
j wj
x1 w1  x2 w2   xk wk
xp  
k
w1  w2   wk
w j 1
j

La media ponderada se usa en aquellos casos donde las observaciones tienen diferente
importancia dentro de una población o muestra.

Casos particulares:

k k
 Cuando los datos se encuentran en una tabla de
frecuencias correspondiente a una variable f
j 1
j xj f
j 1
j xj
cuantitativa discreta. La media se calcula por: xp  k

f
n
j
j 1
 Si x1 , x 2 ,..., x k son las medias de k grupos y cada
k
grupo tiene tamaño n1 , n2 ,..., nk n
j 1
j xj
respectivamente, entonces la media de todos xp  k
los datos n  n1  n2  ...  nk se calcula por:
n
j 1
j

Ejemplo 3
Un empresario que vende ropa para Caballeros, posee dos tiendas, administradas por
Gerentes contratados, los ternos vendidos por estas tiendas son comprados a un
proveedor a un costo de 150 nuevos soles

 La tienda A vendió 95 ternos al precio original de 400 nuevos soles, luego de esto
en una oferta vendió 126 ternos a 280 nuevos soles. y por cierre de temporada
vendió los 79 ternos restantes a 200 nuevos soles.
 La Tienda B, ha vendido el 30% de sus ternos a 400 nuevos soles, el 40% a 300
nuevos soles y el resto al precio de costo.

a. ¿Cuál ha sido el precio promedio por terno vendido en la tienda A?

Media de A: (95*400+126*280+79*200)/(95+126+79)= 296.9333

b. Considerando el precio promedio por terno vendido como indicador de buena
administración, ¿Cuál de ellas ha sido mejor administrada?

Media de B: 0.3*400+0.4*300+0.3*150 = 285. La tienda A pues tiene un precio
promedio mayor que la de B

c. Si la tienda B recibió el doble de cantidad de ternos para vender que la tienda A.
¿Cuál es el precio promedio por terno vendido considerando ambas tiendas?

Media de A y B: (300*296.933+600*285)/(900) = 288.98

40
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 2. En la siguiente tabla se presenta la distribución de número de viajes
realizados en un mes para una muestra de auditores de una entidad financiera.

Número de viajes al mes Número de auditores
Xi fi
0 10
1 15
2 9
3 6
4 5
Total 45
Halle e interprete el número de viajes promedio mensual por cada auditor.

Ejercicio 3. Los tiempos promedios de tardanza (minutos) de muestras de 40, 25 y 15
empleados de los turnos de día, tarde y noche fueron 8.5, 12.0 y 15.5 respectivamente.
Hallar el tiempo promedio de tardanza de los trabajadores para los tres turnos.

41
UNA La Molina - Dpto. de Estadística e Informática Estadística General

La mediana

La mediana es el valor que ocupa la posición central de un conjunto de datos, previamente
ordenados: X , X ,..., X
(1) ( 2) (n)

 n  1 
 100   50  Entero  E   me  x E 
 
Si 
 n  1   50  Decimal  E.d   me  x  0.d  x

 100 
 E  E 1  x E   

La mediana poblacional se representa por Me y la mediana muestral por me

n  impar me  X n 1
 ( )

2
Otra forma:
Si  X n X n
 ( ) ( 1)

 n  par me  2 2

 2

Ejemplo 4
Los siguientes datos corresponden a los pesos (en Kg.) de 10 personas: 50, 77, 53, 76,
63, 64, 75, 54, 52, 80. Calcule la mediana

Datos ordenados: 50, 52, 53, 54, 63, 64, 75, 76, 77, 80

 10  1 
Posición :  50  5.5  me  x5   0.5  x6   x5    63  0.5  64  63  63.5 Kg.
 100 

Interpretación. Un 50% de personas pesan menos de 63.5 Kg. y el otro 50% pesa más
de 63.5 Kg.

Ejercicio 4. En un estudio del medio ambiente para evaluar la calidad de aire, se registró
el número de microgramos de partículas en suspensión por mt2 de aire para muestras
evaluadas en dos zonas.

Zona A 38 32 45 30 24 45 42 18 28
Zona B 25 28 25 32 26 35 54 38

Halle e interprete la mediana del número de microgramos de partículas en suspensión
por mt2 de aire para cada zona.

42
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Propiedades:

1. La mediana divide las n observaciones en dos partes iguales. El 50% con valores
menores a la mediana y el otro 50% con valores mayores a la mediana.
2. La suma de las desviaciones absolutas de las observaciones con respecto a la mediana
n n
es un valor mínimo. j 1
X j  me   X j  c , donde c  R
j 1
3. La mediana no está influenciada por valores extremos.

Ejemplo 5
Los siguientes datos corresponden a los ingresos mensuales de dos grupos de empleados:

Grupo Ingreso me
A 520 525 518 523 545 580 510 523
B 530 545 520 8000 580 590 560 560

Comente las medianas de los dos grupos.

Solución
Se observa que la mediana no está afectada por el valor extremo 8000, como es la media.

La moda

La moda de un conjunto de datos es el valor que ocurre con mayor frecuencia. La moda
poblaciones se representa por Mo y la moda muestral por mo.

Propiedades:
1. La moda puede no existir o puede haber más de una moda en un conjunto de datos.
2. La moda no está afectada por valores extremos.
3. Se aplica tanto para información cualitativa como cuantitativa.

Ejemplo 6
1. Se tiene las longitudes de peces de río (cm) de la zona A: 4.0, 4.1, 4.2, 4.3, 4.5, 4.7,
4.8. No hay moda.
2. Las siguientes longitudes sonde la zona B: 4.0, 4.1, 4.1, 4.1, 4.2, 4.2, 4.5, 4.2.
Se distinguen dos modas mo1 = 4.1 y mo2 = 4.2 (distribución bimodal).

Ejercicio 5. Se tiene una muestra de los niveles de ozono alrededor de una ciudad (220
partes por billón). Halle e interprete la moda.

160 124 156 164 178 163 163 178 164 185 196 164 170 145 164

43
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 6. En una encuesta realizada a una muestra de estudiantes de una universidad,
se les preguntó por el club deportivo de su preferencia. Los datos se muestran en la
siguiente tabla de frecuencias. Halle e interprete la moda.

Club de preferencia Número de estudiantes
Alianza Lima 280
Universitario 240
Sporting Cristal 80
Sport Boys 45

Ejercicio 7. En la siguiente tabla se presenta el número de cursos matriculados en el
presente semestre para una muestra de 300 alumnos.

Número de cursos Número de
matriculados alumnos
2 20
3 40
4 100
5 80
6 60

Halle e interprete la media, mediana y moda.
Sugerencia:
k

X i fi
Use la expresión: X  i
, donde k es el número de clases y n el tamaño de la
n
muestra.

44
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Propiedades de transformación

Para una nueva variable transformada: Yi  a  bX,i donde a y b son constantes reales.
Entonces, sus medidas estadísticas son calculadas:

Medida estadística Yi  a  bX i

Media Y  a  bX
Mediana meY  a  bmeX
Moda moY  a  bmoX

Ejemplo 7
En un parque de atracciones la media de los gastos por visitante un día especial es de
S/.40, sabiendo que los adultos gastaron una media de S/.43 y los niños S/.35.

a. Calcule el número de adultos y niños que visitaron el parque, si en total fueron 400
personas.
n Adultos * x Adultos  nNiños * x Niños n Adultos * 43  nNiños * 35
xp    40
Se tiene: n Adultos  nNiños 400
n Adultos  nNiños  400
Entonces: n Adultos  150 y n Niños  250
b. Si los gastos por asistir al parque de atracciones se incrementaron en un 10% en el
caso de los adultos y en un 5% en el caso de los niños. ¿Cuál será ahora el promedio
de los gastos por visitante?
y Adultos  1.1* x Adultos  1.1* 43  47.3  150 * 47.3  250 * 36.75
 yp   40.76
y Niños  1.05 * x Niños  1.05 * 35  36.75 400

Ejercicio 8. La gerencia de marketing ha decidido aumentar 10% los precios de los
ternos en la sucursal Sur pero restando 90 nuevos soles, mientras que en la sucursal
Norte disminuir en 4.5% los precios de los ternos y en la sucursal Centro aumentar 125
nuevos soles cada terno. A continuación se presenta las medidas estadísticas de los
precios de las sucursales obtenidas con MINITAB. Halle las medidas estadísticas de los
nuevos precios de los ternos para la sucursal Sur, Norte y Centro
.
Estadísticas descriptivas: Sucursal Sur; Sucursal Norte; Sucursal Centro
N para
Variable N N* Media Mínimo Mediana Máximo Moda moda
Sucursal Sur 15 0 450,5 345,0 450,0 650,0 450 3
Sucursal Norte 15 0 582,3 320,0 580,0 910,0 600 2
Sucursal Centro15 0 500,3 310,0 550,0 810,0 550 3

45
UNA La Molina - Dpto. de Estadística e Informática Estadística General

3.2 Percentiles (Pq)

El percentil Pq divide a un conjunto ordenado de observaciones en un q% menores que
Pq y un (100 – q)% mayores que Pq. El percentil Pq es un valor expresado en las mismas
unidades que la variable en estudio.

Cálculo del Percentil
 n 1
Posición   q ,
 100 
 n  1 
 100   q  Entero  E   Pq  x E 
 
Si 
 n  1   q  Decimal  E.d   P  x  0.d  x
 100  q E 
 E 1  x E  

Ejemplo 8
Se cuenta con los datos de los tiempos (en minutos) de tardanza de los trabajadores de
una compañía de seguro. Halle e interprete el percentil 45.

15 12 18 22 24 10 9 13 25 18 6 14

Datos ordenados: 6, 9, 10, 12, 13, 14, 15, 18, 18, 22, 24, 25

 12  1 
Posición     45  5.85  P45  x5   0.85  x6   x5    13  0.85  14  13  13.85 min utos
 100 

Interpretación: El 45% de los trabajadores tienen un tiempo de tardanza menor 13.85
minutos y el otro 55% más de 13.85 minutos.

Ejercicio 9. Suponga que se quiere evaluar el número de insectos encontrados en 40
parcelas, en un cultivo de maíz. Los resultados fueron los siguientes:

1 2 3 5 6 7 9 9 12 18
1 3 5 5 6 7 9 11 12 18
1 3 5 5 6 8 9 11 15 19
2 3 5 6 6 8 9 11 18 23

46
UNA La Molina - Dpto. de Estadística e Informática Estadística General

a. Halle e interprete el percentil 35

b. ¿Cuál debe ser el valor mínimo de insectos para que una parcela sea considerada
dentro del 18% de las parcelas con mayores números de insectos?

c. ¿Cuál debe ser el valor máximo de insectos para que una parcela sea considerada
dentro del 22% de las parcelas con menores números de insectos?

d. ¿Para qué valores del número de insectos se tendrá el 80% central de parcelas?

Ejercicio 10. Se tiene las notas de los promedio ponderados de los estudiantes
graduados en el último ciclo. Halle el promedio ponderado mínimo para que un alumno
sea considerado dentro del quinto superior.

10.5 10.9 11.2 11.3 11.5 11.5 11.7 12.8 12.9 13.6 13.7 13.9 14.0 15.6

47
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Cuartiles

Son percentiles que dividen el conjunto de datos en 4 partes iguales (25% cada una).
Son conocidos también como Q1=P25, Q2=P50 y Q3=P75.

Ejemplo 9
Los siguientes datos corresponden a los pesos, en Kg. de 10 personas: 50, 52, 53, 54,
63, 64, 75, 76, 77, 80.

a. Calcule e interprete el percentil 25
P25  x 101   x2.75  x2   0.75  x3  x2    52  0.75  53  52  52.75 Kg
 25
 100 
Interpretación: El 25% de las personas pesa menos de 52.75 Kg. y el otro 75% pesa
más de 52.75 Kg.

b. Halle el percentil 75
P75  x 101   x8.25  x8   0.25  x9   x8    76  0.25  77  76  76.25 Kg
 75
 100 
Interpretación: Un 75% de personas pesa menos de 76.25 Kg. y el otro 25% pesa
más de 76.25 Kg.

Ejemplo 10
Se ha desarrollado un experimento para evaluar el efecto de alimentos balanceados en
la ganancia de pesos de pollos. Una muestra aleatoria de 30 pollos que recibieron el
alimento balanceado fue seleccionada. Al cabo de 10 días se registraron las ganancias de
pesos (en gr)

93 98 100 102 107 109 110 110 111 111 113 114 115 116 118
118 119 119 120 120 120 124 125 128 129 129 130 135 138 141
a. Halle e interprete las medidas de tendencia central para la ganancia de peso.
b. ¿Cuál es el peso mínimo de un pollo que fue alimentado con el alimento balanceado
para estar en el 10% superior de los que pesan más?
c. ¿Cuál es peso máximo del 60% de pollos que pesan menos con el alimento
balanceado?

Solución:
a)
N Media StDev CoefVar Minimo Q1 Mediana Q3 Maximo
30 117,40 11,57 9,85 93,00 110,00 118,00 125,75 141,00

La ganancia de peso por pollo alimentado con A es de 117.4 gr.
El 50% de los pollos alimentados con A tuvieron ganancias de peso menores de 118
gr. y el restante 50% tuvieron ganancias de peso mayores a 118 gr.
El valor de la ganancia de peso más frecuente es de 120gr.

b) P90  X 27.5  134.5 gr.
c) P60  X 18  119 gr.

48
UNA La Molina - Dpto. de Estadística e Informática Estadística General

3.3 Diagrama de Tallos y Hojas

Un diagrama de tallos y hojas es un ingenioso artificio que ofrece una representación
parecida a un histograma. La ventaja de este diagrama es que no sólo muestran las
frecuencias sino que contienen los valores reales. A diferencia de las tablas de frecuencias
con este procedimiento ningún dato se pierde.

Pasos para elaborar un diagrama de tallos y hojas

Paso 1. Cada dato se divide en dos: la primera se llama tallo y la segunda hoja.
Paso 2. Cada tallo se forma con uno o más dígitos iniciales de cada dato y las hojas se
forman con los dígitos restantes (generalmente de un solo dígito).
Paso 3. Los tallos se presentan en una columna ordenada de menor a mayor
Paso 4. Las hojas se muestran en filas ordenadas y listadas a la derecha de su respectivo
tallo.

Nota.-
 En caso de datos decimales, al construir el diagrama de tallos y hojas el punto decimal
se pierde, por tal razón se acostumbra indicar unidades que los datos del tallo
representan. Por ejemplo para un dato: 4.12 Unidad=0.01
 Es necesario pone todos los tallos consecutivos. Si no existe el dato, se pone el valor
del tallo y en la fila de hoja se deja en blanco.
 Si es necesario se divide en dos hojas cada tallo, según los rango: (0 – 4) y (5 – 9).

Ejemplo 11
Los siguientes datos corresponden a la estatura de una muestra de 30 alumnos
universitarios.

158, 159, 161, 161, 163, 163, 164, 166, 166, 167, 168, 168, 168, 169, 170, 170, 170,
171, 171, 171, 172, 173, 174, 174, 174, 174, 174, 177, 182, 191

Diseño de Tallo y Hoja: Estatura

Tallo y Hoja de Estatura n = 30 Profundidad
Unidad de hoja = 1.0
Tallos

2 15 89
7 16 11334 Hojas
14 16 6678889
(13) 17 0001112344444
3 17 7
2 18 2
1 18
1 19 1
El diagrama de tallos y hojas representa la estatura de 30 alumnos. Existen tres partes
en el gráfico.
 La primera columna representa la profundidad
 La segunda columna representa los tallos
 La última columna representa las hojas.
Cada dígito de las hojas representa una observación.
El diagrama de tallos y hojas muestra 8 tallos con sus respectivas hojas. El primer tallo
es 15 y la primera hoja es 8. La observación correspondiente es 158 que se obtuvo
juntando los dígitos del tallo y de la hoja y se multiplica por la unidad de hoja
(158*1.0=158).

La primera columna (la profundidad) indica cuantas observaciones hay en esa línea o
antes. El número 14 en la tercera línea indica que hay 14 observaciones en esa línea y
en las líneas anteriores (14 observaciones menores o iguales a 169). Hay una línea
49
UNA La Molina - Dpto. de Estadística e Informática Estadística General

especial, la línea que contiene la mediana. El valor que muestra es encerrado entre
paréntesis e indica cuantas observaciones hay en esa línea. A partir de la siguiente línea
que contiene la mediana, la columna de profundidad indica cuantas observaciones hay
en esa línea y en las líneas posteriores. El número 3 en la quinta línea indica que hay 3
observaciones en esa línea y en las líneas posteriores (3 observaciones mayores o iguales
a 177).

La séptima línea muestra al tallo 18 (1 18 ); sin embargo no tiene ninguna hoja,
lo que significa que no hay ninguna observación en ese tallo. (Un error muy frecuente es
considerar el tallo 18 y la hoja 0 y por consiguiente considerar la observación 18.0 con lo
que se tendrían 31 observaciones).

Ejercicio 11. Se tiene una muestra sobre el tiempo (minutos) de concentración de un
medicamento: 105, 126, 120, 119, 133, 145, 123, 108, 136, 156, 142, 130, 112, 123. A
continuación se presenta su respectivo diagrama de tallos y hojas.

Tallo y hoja de Tiempo N = 14
Unidad de hoja = 1.0

2 10 58
3 11 2
4 11 9
7 12 033
7 12 6
6 13 03
4 13 6
3 14 2
2 14 5
1 15
1 15 6

a. Si se desconocen los datos originales, calcule la media, mediana, moda y P28 a partir
del diagrama de tallos y hojas.

50
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 12. Se tienen datos de las concentraciones de lactato en la sangre
(milimoles/litros):

2.1, 2.5, 2.8, 3.5, 3.6, 3.8, 3.8, 4.6, 5.2, 5.4, 5.6, 5.9, 6.2, 6.5, 6.5

A continuación se presenta su respectivo diagrama de tallos y hojas.

Tallo y hoja de Concentracion N = 15
Unidad de hoja = 0.10

1 2 1
3 2 58
3 3
7 3 5688
7 4
(1) 4 6
7 5 24
5 5 69
3 6 2
2 6 55

a. A partir del diagrama de tallos y hojas calcule e interprete la media, mediana y moda.

51
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Práctica Dirigida N° 2

1. Se desea analizar la cantidad de hormona llamada ecdisona que se obtiene a partir
de una conversión química del colesterol que presentan los crustáceos. Esta hormona
es la encargada de llevar a cabo el proceso de muda en los crustáceos. Para el estudio
se utiliza 20 individuos de la especie Cyclograpsus cinereus. Los resultados del nivel
de ecdisoma (en ml) son los siguientes:

Nivel de ecdisona (ml)
31.4 56.7 77.73 89.8 95.8
39.4 58.2 85.5 93.6 97.4
47.6 65.3 68.8 94.7 99.3
50.5 66.5 88.2 95.5 99.5

a) Calcule e interprete la media, mediana y moda del nivel de ecdisona.

b) Se desea clasificar a los individuos tres grupos según sus niveles de ecdisona
(Bajo, Medio y Alto), de tal manera que contengan al 42%, 38% y 20% de
individuos respectivamente. Calcule los niveles de ecdisoma que permitan
identificar los límites de cada grupo.

52
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c) A fin de mejorar el proceso de muda de los crustáceos, se han ensayado dos tipos
de dosis (A y B). Con el tipo A, se espera que el nivel de ecdisoma se incremente
en un 12.5% pero con un reducción de 5.6 ml por cada individuo, mientras que
con la dosis B, los niveles de ecdisoma disminuirán en un 4.5% pero más 8.5 ml
por cada individuo. ¿Cuál de las dos dosis proporcionaría los mayores niveles
promedios de ecdisoma en los crustáceos?. Justifique su respuesta.

2. En un reservorio en la zona agrícola de Huachipa se realiza la crianza de peces Tilapia,
los cuales son vendidas diariamente a los pobladores de alrededor. Se muestra a
continuación en un diagrama de tallos y hojas el peso en Kg. de venta de esta especie
de pez durante un mes.

Sem–and–Leaf Display: peso de tilapias
Sten-and-leaf de peso N = 31
Leaf Unit = 0.10

1 4 2
61 6 7 4
6 5 223344
10 5 5566
(12) 6 112233444444
9 6 8999
4 7 344
1 7 9

Halle e interprete la media, median, moda y el percentil 32.5

53
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. En una empresa, el jefe de Recursos Humanos está interesado en analizar el impacto
en los empleados al suprimir las horas extras de trabajo pagadas. Con este fin se
extrae una muestra aleatoria de 60 empleados tomando los datos de un día al azar.
A continuación se muestran las horas de trabajo por día de cada empleado.

Horas diarias trabajadas
7.6 7.7 8.0 8.0 8.0 8.1 8.1 8.2 8.2 8.2 8.2 8.2 8.2 8.3 8.3
8.3 8.4 8.4 8.4 8.4 8.5 8.5 8.5 8.6 8.6 8.7 8.7 8.7 8.8 8.8
8.9 8.9 8.9 9.0 9.1 9.1 9.3 9.4 9.6 9.7 9.7 9.8 9.9 9.9 10.0
10.0 10.3 10.5 10.5 10.6 10.8 11.0 11.2 11.6 11.7 12.2 12.5 12.9 13.3 14.5

a) Construya el diagrama de tallos y hojas, considere como unidad de hoja 0.10
b) Calcule e interprete la media mediana y moda
c) Calcule el número mínimo de horas trabajadas para que un empleado se encuentre
en el 17% de los empleados que más horas trabajan.

2. El banco “Nuevo Continente” cuenta con sucursales en La Molina y Los Olivos. El
gerente de crédito selecciona al azar algunas solicitudes de préstamo que han sido
aceptadas en cada una de las sucursales y resume de manera independiente la
información correspondiente al monto de préstamo otorgado (en miles de nuevos
soles) en los siguientes diagramas de tallos y hojas:

Tallo y Hojas de La Molina N = 13 Tallo y Hojas de Los Olivos N = 14
Unidad de Hoja = 0.10 Unidad de Hoja = 0.10

1 4 3 1 2 6
4 4 678 3 3 01
(4) 5 2244 3 4
5 5 5 5 5 08
4 6 4 5 6
3 6 99 7 7 14
1 7 4 7 8 5
6 9 069
3 10 1
2 11 45

a) Calcule e interprete las medidas de tendencia centra para la sucursal de La Molina.
b) ¿Entre qué valores se encuentra el 60% central de las observaciones
correspondientes a la sucursal de Los Olivos?
c) El Interés que cobra el banco corresponde al 5% del monto otorgado como
préstamos más 20 nuevos soles por gastos administrativos. Halle el interés medio
que percibirá el banco debido a los préstamos otorgados

3. Si 80 artículos tienen un peso promedio de 2.54 Kg y se sabe que el instrumento de
medición utilizado no estaba calibrado ocasionando que el peso de los artículos tengan
un 25% más de su peso verdadero. Halle el verdadero peso promedio. (aplique
propiedades en la solución)

54
UNA La Molina - Dpto. de Estadística e Informática Estadística General

4. Una fábrica tiene una máquina que trabaja las 24 horas del día en tres turnos de 8
horas (mañana, tarde y noche). Los costos de producción por hora (en soles) y los
tiempos de producción por artículo que dependen del turno. Los datos se presentan a
continuación:

Turno Costo de producción Tiempo por hora de
por hora (S/.) consumo
Mañana 40 0.50
Tarde 50 0.40
Noche 20 0.32

a) Calcule el costo promedio de producción por hora.
b) Calcule el tiempo promedio de producción por artículo al día

5. Del ejercicio anterior. Suponga que un trabajador que labora con la máquina en la
mañana cobra 36 soles, un trabajador que labora en la tarde cobra 40 soles, y un
trabajador que labora en la noche cobra 50 soles diarios. ¿Cuál es el costo promedio
por hora que tiene la fábrica considerando la labor del trabajador y el costo de
producción de energía eléctrica?

6. En una fábrica de camisas se estudió la variable definida como el número de camisas
defectuosas que se produce cada hora. Fue seleccionada una muestra de 80 horas,
encontrándose la siguiente información:

X 0 1 2 3 4
fi 50 12 8 7 3

Si la producción por hora es de 40 camisas y cada camisa buena genera una utilidad
de 120 soles además cada camisa defectuosa da lugar a una pérdida de 40 soles.
Calcule la utilidad neta promedio por día (Considere 6 horas de trabajo efectivo por
día).

7. Una empresa dedicada a la fabricación de electrodomésticos desea evaluar el número
de un determinado componente eléctrico que sus trabajadores pueden ensamblar en
un día. Con tal fin se registra el número de componentes eléctricos ensamblados por
20 trabajadores del turno de la mañana. Los resultados son los siguientes:

6 7 7 7 7 8 8 8 8 8
9 9 9 9 9 9 10 10 10 11

a) Calcule e intérprete las medidas de tendencia central.
b) La empresa le paga al trabajador 4 soles por componente si este ensambló 8 o
menos y 5 soles si ensambló 9 o más. Calcule el ingreso promedio en ese día para
los dos grupos de trabajadores. Calcule el ingreso promedio en ese día para el
total de trabajadores.

8. Suponga que se quiere evaluar el número de insectos encontrados en 40 parcelas,
en un cultivo de frijol. Los resultados fueron los siguientes:

2 19 3 3 19 3 9 3 9 9 3 5 2 5 5 1 5 1 1 5
5 6 6 18 18 6 6 18 6 11 11 11 11 7 7 7 8 12 8 12

a) Halle e intérprete: Media, Mediana y Moda
b) Si se considera que el costo por eliminación de un insecto es de aproximadamente
2 soles además del alquiler del equipo que es una cantidad fija de 50 soles, hallar
el costo promedio para la eliminación de los insectos.
55
UNA La Molina - Dpto. de Estadística e Informática Estadística General

9. La siguiente información corresponde al número de emergencias que atendió el
cuerpo de bomberos en los últimos 30 días:

3 5 3 4 1 2 3 2 4 5 7 1 3 4 2
2 1 5 2 2 4 6 7 4 7 6 4 6 4 3

a) Calcule e intérprete las medidas de tendencia central.
b) El cuerpo de bomberos gasta en combustible 18 soles por emergencia atendida y
recibe un presupuesto de 120 soles diarios. ¿Es este presupuesto suficiente? Si
así fuera, ¿cuánto dinero sobra diariamente en promedio?. En caso contrario,
¿cuánto dinero falta diariamente en promedio?

10. Parra evaluar la efectividad de sus empleados, una empresa dedicada a la venta de
teléfonos celulares ha recopilado la siguiente información sobre el número de
teléfonos vendidos en la última semana por sus 64 empleados:

Número de empleados 13 15 16 8 5 4 3
Número de ventas 5 6 7 8 9 10 11

a) Calcule e intérprete las medidas de tendencia central.
b) La empresa le paga a sus empleados 100 soles semanales más una comisión de
40 soles por celular vendido y sobre estos ingresos los empleados deben aportar
el 15% a su AFP. Calcule el promedio para el ingreso neto promedio semanal por
empleado.

11. Se encuestó a 84 congresistas de cierto país para averiguar el número de viajes
internacionales que realizan por año, obteniéndose los siguientes resultados:

Tallo y Hojas de Viajes N = 84
Unidad de Hoja = 1.0
(46) 0 6666666666666677777777777777788888889999999999
38 1 000000011111112222233344
14 1 55566667789
3 2 034

Calcule las medidas de tendencia central para estos datos. Interpretar: Media,
Mediana y Moda.

12. Se realizó un estudio en la provincia de Tambo Grande (Piura), luego de la aplicación
de un nuevo abono en el cultivo de dos variedades de mango: Kent y Haden. Los
rendimientos en la producción obtenidos luego de la cosecha en Kg/Ha fueron los
siguientes:

Variedades
Variedad Kent Variedad Haden
N° de N° de
Rend. Rend. Tallo y Hoja de Haden N = 22
Ha Ha
1 9.0 12 13.1 Unidad de Hoja = 0.10
2 11.9 13 13.2 8 10 22388999
(6) 11 266888
3 12.6 14 13.5
8 12 2233
4 12.6 15 13.5 4 13 344
5 12.6 16 13.7 1 14
6 12.8 17 13.8 1 15
7 12.8 18 13.8 1 16 5
8 12.8 19 14.1
9 12.9 20 14.1
10 12.9 21 14.3

Calcule e interpretar las medidas de tendencia central para estos datos.

56
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Preguntas de Autoevaluación

1. Las medidas de tendencia central que no están influenciadas por valores atípicos son
_______________________________________.
2. ___________________ es una medida de tendencia central que está afectada por los
valores extremos.
3. __________________ es una medida de tendencia central utilizada para resumir
datos provenientes de un variable tipo cualitativa.
4. En una muestra de 80 estudiantes, el 60% ha perdido un celular, el 20% dos celulares,
el 15% tres celulares y el resto ningún celular en los últimos dos años. Entonces el
percentil 56 es igual a ____________________________.
5. La suma de las desviaciones de las observaciones respecto a la media aritmética, es
igual a _____________________.
6. La suma de las desviaciones absolutas de las observaciones con respecto a la
________________________ es un valor mínimo.
7. Los resultados de una encuesta sobre el porcentaje de satisfacción de sus clientes
para dos empresas de seguro (A y B) se muestran en el siguiente cuadro:

Satisfacción Empresa A Empresa B
Alta 30% 40%
Media 40% 35%
Baja 20% 15%
Muy baja 10% 10%

Para comparar donde hay mayor satisfacción de los clientes en las empresas A y B,
la medida de tendencia central usada es ____________________ y cuyos valores
usados son __________________________ respectivamente.
8. Una empresa aseguradora de autos ofrece a sus clientes cuatro planes de seguros (A,
B, C y D), siendo el costo anual de 650, 520, 450 y 380 (nuevos soles)
respectivamente. Si el 45% de sus clientes tienen el plan de seguro A, el 35% el B,
el 15% el C y el resto el plan D. El costo promedio de los cuatro planes de seguro
para la empresa aseguradora es igual a _____________________________
n

9. Si X  10.5, entonces :  ( X i  10.5) , es un valor _______________________.
2

i 1
10. Indique si es Verdadero (V) o Falso (F) cada uno de los siguientes enunciados:

Item Enunciado V/F
a. Las medidas de tendencia central, asumen como unidad de medida la
misma que la variable en estudio.
b. Los percentiles están afectados por valores extremos
c. La mediana y el percentil 50 no siempre son iguales
d. La media puede tomar un valor negativo
e. Las medidas de tendencia central son calculadas sólo con los datos de
una muestra.

57
UNA La Molina - Dpto. de Estadística e Informática Estadística General

CAPÍTULO IV

MEDIDAS DE VARIABILIDAD O DE DISPERSIÓN

Son medidas estadísticas que permiten conocer el grado de dispersión o variabilidad
(homogeneidad o heterogeneidad) dentro de un conjunto de datos. Se usan para
comparar la variabilidad entre dos o más conjuntos de datos. Cuando los datos presentan
baja variabilidad, se dice que son homogéneos y cuando presentan alta variabilidad se
dice que son heterogéneos.

Objetivos. Calcular e interpretar las principales medidas de variabilidad para describir
las características (variables) cuantitativas de las unidades elementales en términos de
su dispersión.

Las principales medidas de variabilidad son las siguientes:

1. La amplitud o rango
2. El rango intercuartil
3. La variancia y la desviación estándar
4. El coeficiente de variabilidad

Ejemplo 1
Suponga que las notas de la primera práctica de tres grupos del curso de Estadística
General fueron:

Grupo Notas x
A 14 14 14 14 14 14 14 14 14 14 14
B 14 13 15 14 12 15 16 13 12 16 14
C 19 8 19 11 16 18 6 13 10 20 14

Analice las notas promedios de los tres grupos de Estadística general.

Solución
Del cuadro se observa que:
a. Los grupos A, B y C tienen la misma media pero diferente dispersión en torno a la
media.
b. Respecto a la variabilidad o dispersión: A < B < C
c. Respecto a la homogeneidad : A > B > C
d. Respecto a la confiabilidad de la media: A > B > C

4.1 Principales medidas de variabilidad

El rango

El rango o amplitud de un conjunto de observaciones es igual a la diferencia entre el valor
máximo y el valor mínimo.

R = Xmax - Xmin
Desventajas:

a. Queda afectada por valores extremos
b. No mide la variabilidad de los datos intermedios

58
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 2
El rango de la nota para el grupo B es: RB = 16 – 12 = 4 puntos.

Esto indica que la amplitud de la nota de la primera práctica del grupo B fue de 4 puntos.

El rango intercuartil

El rango intercuartil, se define como la diferencia entre el percentil 75 (P 75 = Q3) y el
percentil 25 (P25 = Q1).
RI = P75 - P25
 El RI excluye el 25% más alto y el 25% más bajo, dando un rango dentro del cual se
encuentra el 50% central de los datos.
 Un RI pequeño indica alta homogeneidad o pequeña variabilidad dentro del 50%
central de los datos.

Ejemplo 3
Para el grupo C: P75 = 19 y P25 = 9.5, entonces el rango intercuartil: RI = 19 – 9.5 =
9.5 puntos.

Esto indica que la amplitud del 50% central de las notas de la primera práctica para el
grupo C fue 9.5.

La variancia y la desviación estándar
1 N 2 2
1 N
    X j  N  
2
Variancia poblacional: 2  X j   
N j 1 N  j 1 
1  n 2 2
1 n
    X j n X 
2
Variancia muestral: S2  Xj X 
n  1 j 1 n  1  j 1 
Desviación estándar muestral: S S 2

1 k 1 k
 ( fi X i2  nX )
2
Para una tabla de frecuencias: S2  f ( X  X ) 2

n  1 i 1 n  1 i 1
i i

Se observa que la variancia está dada en las mismas unidades que la variable en estudio
al cuadrado. Por ejemplo si las unidades de las observaciones son Kg. entonces la
variancia se expresa en Kg2.

Ejemplo 4
Halle la variancia y desviación estándar muestral de las notas para cada uno de los
grupos.

10
Grupo Notas x x
i 1
2
i

A 14 14 14 14 14 14 14 14 14 14 14 1960
B 14 13 15 14 12 15 16 13 12 16 14 1980
C 19 8 19 11 16 18 6 13 10 20 14 2192

Solución
1  10 2 2
Grupo A: S A2    xi  n x  
n  1  i1
1


1960  10 x142  0 y SA  0
 10 1
1  10 2 2
Grupo B: S B2    xi  n x  
n  1  i1
1

 
1980  10 x142  2.22 y S B  2.22  1.49
 10 1

59
UNA La Molina - Dpto. de Estadística e Informática Estadística General

1  10 2 2
Grupo C: S 
2
  xi  n x  
n  1  i1
1
 
2192  10 x142  25.78 y SC  25.78  5.08
 10  1
C

Se observa que a mayor variabilidad entre las observaciones, la variancia es mayor. Esta
comparación se cumple siempre cuando los promedios sean similares.
Se observa que la variabilidad promedio de las notas de la primera práctica del grupo B
es 1.49 puntos.

Coeficiente de variabilidad

El coeficiente de variabilidad es una medida de dispersión relativa (no tiene unidades) y
se define como la razón entre la desviación estándar y la media aritmética de un conjunto
de observaciones.

Coeficiente de variabilidad poblacional: CV   100

s
Coeficiente de variabilidad muestral: cv   100
x

Ejemplo 5
Halle el coeficiente de variabilidad de las notas de la primera práctica para cada grupo.
SA 0
Grupo A: cvA 
x100  x100  0
xA 14
S 1.49
Grupo B: cvB  B x100  x100  10.6%
xB 14
S 5.08
Grupo C: cvC  C x100  x100  36.3%
xC 14

Esto indica, que la variabilidad de la nota de la primera práctica del grupo C es 36.3% y
por lo tanto es el más heterogéneo por tener mayor cv en comparación con el grupo A y
B.

Ejemplo 6
Los siguientes datos corresponden al tiempo (en minutos), al cabo del cual se duermen
las ratas después de haber recibido un tipo de tranquilizante (A o B).

Tipo A Tipo B
n 18 ratas 20 ratas
x 9.94 min 15.2 min
s 2.81 min 2.84 min

¿Con qué tranquilizante el tiempo es más homogéneo?
2.81 2.84
cv A   100  28.27 % cvB   18.68 %
9.94 15.2

Se concluye que con el tranquilizante B se obtienen observaciones más homogéneas que
con el tranquilizante A.

60
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 1. Los siguientes datos corresponden a las mediciones de la emisión diaria (en
toneladas) de óxido de azufre de una planta industrial.

15.8 26.4 17.3 11.2 23.9 24.5 13.9 9.4 22.7 18.5
15.2 11.0 7.7 20.0 16.2
Calcule e interprete las medidas de variabilidad (Rango, Rango intercuartil, Varianza,
Desviación estándar y Coeficiente de variación).

Comparación de la variabilidad

Para comparar la variabilidad entre dos o más conjuntos de datos, se debe considerar:

Unidades de medidas Unidades de medidas iguales
diferentes
Medias similares Medias diferentes

cv1 con cv2 S1 con S2 cv1 con cv2

El cuadro indica que cuando se compara la variabilidad de dos conjuntos de datos, si las
variables tienen unidades de medidas diferentes; se debe usar los coeficientes de
variación; mientras si las variables tienen unidades de medida iguales, se debe observar
si las medias son similares para usar la desviación estándar y en caso que las medias
sean diferentes usar el coeficiente de variación.

61
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 2. En el siguiente cuadro se muestra las medidas estadísticas de las ventas
(soles) y tiempo extra (horas) de los vendedores de dos zonas (A y B).

Desviación Coeficiente de
Promedio estándar variabilidad

Zona Ventas Tiempo Ventas Tiempo Ventas Tiempo

A 236.3 3.5 82.6 1.5 35.0 42.9
B 450.5 3.6 98.5 2.8 21.9 77.7

a. Las ventas de la zona A son menos variables que las de la zona B. Justifique.

b. El tiempo extra de la zona B muestra más variabilidad que la zona A. Justifique.

c. Para la zona A, las ventas son más variables que el tiempo extra. Justifique.

Transformación de datos

Sea la variable Y, entonces se cumple: Y  a  bX

SY2  b 2 S X2
SY  bS X
Ejemplo 7
En una empresa industrial desea mejorar la productividad de los obreros, para tal efecto
se escogió uno de los productos de la empresa para hacer el análisis, y se tomó el tiempo
que demoran 20 trabajadores del primer turno en ensamblar el producto, obteniéndose
los tiempos siguientes (en minutos):

Variable Media StDev Varianza CoefVar Q1 Mediana Q3
C1 3.525 1.723 2.967 48.87 1.975 3.250 5.125

a. El Gerente de Producción, considera que la muestra de obreros es muy pequeña, por
lo tanto dispone se incremente con 5 trabajadores más, los cuales demoran 2.5, 2.8,
4.3, 5.1, 5.5 (en minutos) para ensamblar el producto, encuentre e interprete la
media, la mediana y la moda de los tiempos de los 25 trabajadores juntos.

Media con 20 trabajadores : 3.525
Media de 5 trabajadores : (2.5+2.8+4.3+5.1+5.5)/5= 4.04
Media con 25 trabajadores : (20*3.525+5*4.04)/25= 3.628

62
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. Inspeccionando el cronómetro con que se registró los tiempos se encontró que éste
estaba excediendo la medición en 0.1 minutos. ¿Cuáles serían entonces las reales
medidas halladas en a)?

Media = 3.525-0.1=3.425
Mediana = 3.25-0.1=3.15
S= 1.723
CV = 1.723/3.425*100 = 50.3%

Ejercicio 3. Considere los datos del ejercicio 2. Suponga que la empresa decide hacer
un pago adicional por las horas extras. A los vendedores de la zona A, se les pagará S/
10.0 por cada hora extra más S/. 50 por movilidad. A los de la zona B, se les pagará S/
15.0 por cada hora extra.
Calcule la desviación estándar y coeficiente de variabilidad para estos pagos adicionales

Ejercicio 4. Los sueldos de 100 empleados de una empresa tienen una media de $300 y
una desviación estándar de $50. Se proponen dos alternativas de aumento A: $75 a cada
uno B: 15% del sueldo más $20 a cada uno. ¿Cuál alternativa es la más conveniente?.
Justifique su respuesta.

a. Si la empresa dispone solo de $37000 para pagar sueldos

b. Si la empresa quiere homogeneizar los sueldos.

63
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. En el mes de Julio el sueldo promedio de los trabajadores del Sector Educación fue de
$200 dólares. Para el mes de Agosto se considera un aumento del 37% con respecto
al sueldo del mes anterior más un adicional de $35 dólares. Si se obtuvo una
desviación estándar igual a $ 3.15 en el mes de Julio. ¿Se puede afirmar que la
distribución de sueldos en Julio fue más homogénea?

2. En una industria el jornal diario de sus obreros tiene una media de $10 y una
desviación estándar de $2. Si se hace un incremento del 20% en cada jornal y una
bonificación adicional de $3. ¿En qué porcentaje cambio el coeficiente de variación de
los jornales?

3. Los sueldos de 100 empleados de una empresa tienen una media de $300 y una
desviación estándar de $50. Se proponen dos alternativas de aumento i) $75 a cada
uno ii) 15% del sueldo más $20 a cada uno ¿Cuál alternativa es la más conveniente?
a) Si la empresa dispone solo de $37000 para pagar sueldos.
b) S la empresa quiere homogeneizar los sueldos

4. Si 80 artículos tienen un variancia de 4.2 Kg2 y un P40 = 43.4 Kg y se sabe que el
instrumento de medición utilizado no estaba calibrado y pesó a los artículos con un
25% más de su peso. Halle la verdadera variancia y el verdadero P40.

5. En un estudio sobre garbanzo se consideró la variable altura de planta y en una
muestra de 14 plantas se tiene: 55.7, 57.6, 58.5, 58.7, 58.8, 59.3, 59.4, 59.6, 60.0,
59.8, 60.1, 60.2, 60.3, 63.1. Calcule e interprete la variancia muestral y P 75. Si a
cada observación se le multiplica por 1.8 y a cada resultado se le resta 3 halle la
nueva variancia muestral y el nuevo P75.

6. Se tiene una muestra aleatoria de tamaño 20 con media 5 y variancia igual a 0.36,
si a cada observación se le incrementa un 20% de su valor más una cantidad de 4
unidades:

1. Calcule el coeficiente de variación de los datos transformados.
2. De la pregunta anterior, ¿qué conjunto de datos presenta mayor variabilidad, los
datos transformados o los datos iniciales?

7. El sueldo promedio de los empleados de una empresa para el mes de Julio fue de S/.
1500 y un coeficiente de variabilidad de 30%. Si la gerencia decide dar un aumento
del 8% más un monto por viáticos de S/. 200 cada mes. Calcular el coeficiente de
variabilidad para el nuevo sueldo.
8. Para evaluar la efectividad de sus empleados, una empresa dedicada a la venta de
teléfonos celulares ha recopilado la siguiente información sobre el número de
teléfonos vendidos en la última semana por sus 64 empleados:

Número de empleados 13 15 16 8 5 4 3
Número de ventas 5 6 7 8 9 10 11
a. Calcule e intérprete las medidas de variabilidad.
b. La empresa le paga a sus empleados 100 soles semanales más una comisión de
40 soles por celular vendido y sobre estos ingresos los empleados deben aportar
el 15% a su AFP. Calcule el promedio y la desviación estándar para el ingreso neto
promedio semanal por empleado.

64
UNA La Molina - Dpto. de Estadística e Informática Estadística General

9. Los sueldos de 150 trabajadores de una empresa tienen un coeficiente de variación
del 5% en el mes de agosto. Para el mes de septiembre hay un aumento a cada
trabajador del 20% de sus sueldos más una bonificación de $60 y el coeficiente de
variación baja a 4%.
a) Calcule la media y la desviación estándar de los sueldos del mes de agosto.
b) ¿Cuánto dinero adicional necesita la empresa para pagar todos los sueldos del
mes de septiembre?
.
10. El banco “Nuevo Continente” cuenta con sucursales en LA Molina y Los Olivos. El
gerente de crédito selecciona al azar algunas solicitudes de préstamo que han sido
aceptadas en cada una de las sucursales y resume de manera independiente la
información correspondiente al monto de préstamo otorgado (en miles de nuevos
soles) en los siguientes diagramas de tallos y hojas:

Tallo y Hojas de La Molina N = 13 Tallo y Hojas de Los Olivos N = 14
Unidad de la Hoja = 0.10 Unidad de la Hoja = 0.10

1 4 3 1 2 6
4 4 678 3 3 01
(4) 5 2244 3 4
5 5 5 5 5 08
4 6 4 5 6
3 6 99 7 7 14
1 7 4 7 8 5
6 9 069
3 10 1
2 11 45
a) Calcule e interprete las medidas de variabilidad para la sucursal de La Molina.
b) ¿Qué conjunto de datos presenta mayor variabilidad?
c) Para la sucursal de los Olivos el interés que cobra el banco corresponde al 5% del
monto otorgado como préstamos más 20 nuevos soles por gastos administrativos.
Mientras que para la sucursal de la Molina, se cobra 4.5% del monto otorgado. Se
puede decir que el interés que cobra la sucursal La Molina es menos variables que
el que cobra los Olivos.

11. En el mes de Marzo el sueldo promedio de los trabajadores del Sector Educación fue
de $180 dólares. Para el mes de Abril se considera un aumento del 25% con respecto
al sueldo del mes anterior más un adicional de $40 dólares. Si el coeficiente de
variación del mes de Marzo fue de 0.15. ¿Se puede afirmar que la distribución de
sueldos en Marzo fue más homogénea?

12. Los sueldos de 150 trabajadores de una empresa tienen un coeficiente de variación
del 5% en el mes de agosto. Para el mes de septiembre hay un aumento a cada
trabajador del 20% de su sueldo más una bonificación de $60 y el coeficiente de
variación baja a 4%.
a) Calcule la media y la desviación estándar de los sueldos del mes de agosto.
b) ¿Cuánto dinero adicional necesita la empresa para pagar todos los sueldos del
mes de septiembre?

65
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Preguntas de Autoevaluación

1. La medida de variabilidad que mide la amplitud del 50% central de los datos, se
denomina ___________________________________________.

2. La medida de variabilidad para medir el grado de homogeneidad del peso y talla de
una muestra de 100 estudiantes es _____________________________
3. ________________ es una medida de variabilidad que es afectada por valores
extremos.

4. Si el cv=30% y el promedio es 2, entonces para Y=5-2X, su cv es igual a
________________________
5. Se sabe que en una muestra de 50 familias de una zona rural, 25 tienen 6 hijos, 15
tienen 5 hijos, 8 tienen 4 hijos y el resto 3 hijos. Entonces el coeficiente de variación
del número de hijos es igual a ___________________________.
6. Se tiene que el sueldo de los 120 trabajadores de una empresa tiene un coeficiente
de variabilidad del 8% en el mes de julio. Para el mes de agosto hay un aumento para
cada trabajador del 25% de su sueldo más una bonificación de $40, lo cual hace que
el coeficiente de variabilidad sea del 4%. La media y la desviación estándar de los
sueldos del mes de agosto son ____________ y ______________.
7. Si las variables X e Y son independientes y para a y b constantes, entonces la Var(aX
+ bY) es igual a __________________________
8. En una distribución simétrica la mediana es 4 y el coeficiente de variabilidad es 20%.
El valor de la desviación estándar es ______________________.
9. Si se sabe que en una plantación foresta, el 25% de los árboles tienen un diámetro
menor a 0.85 cm y el 25% mayores a 0.92 cm. Entonces, la amplitud del 50% central
de los diámetros es igual a _________________________.
10. Indique si es Verdadero (V) o Falso (F) cada uno de los siguientes enunciados:

Item Enunciado V/F
a. Si a cada valor de una variable se le multiplica por una constante (k),
entonces el coeficiente de variación resulta multiplicado por k.
b. El coeficiente de variabilidad es una medida de dispersión relativa y
siempre es positivo.
c. La desviación estándar es una medida que permite comparar dos
conjuntos de datos que presentan diferentes unidades.
d. La unidad de medida de la variancia siempre está al cuadrado.
e. La desviación estándar está afectada por las unidades de medida.

66
UNA La Molina - Dpto. de Estadística e Informática Estadística General

CAPÍTULO V

MEDIDAS DE ASIMETRÍA

Las medidas de asimetría permiten determinar la forma de una distribución para un
conjunto de datos en lo que se refiere a su simetría o asimetría.

Objetivo. Al finalizar este capítulo el lector debe ser capaz de cuantificar e interpretar la
simetría o asimetría de una distribución.

5.1 Formas de una Distribución

 Distribución simétrica. Un conjunto de datos muestra una distribución simétrica, si
su curva guarda simetría con respecto al centro de los datos. Si la distribución es
simétrica entonces   Me .
 Distribución asimétrica positiva. Si un conjunto de datos muestra una distribución
asimétrica positiva o con cola a la derecha, entonces:   Me .
 Distribución asimétrica negativa. Si un conjunto de datos muestra una
distribución asimétrica negativa o con cola a la izquierda, entonces:   Me .

Ejemplo 1
Los siguientes gráficos corresponden a la distribución de los ingresos mensuales (miles
S/.) de muestras al azar de los clientes de tres sucursales (A,B y C) de una caja rural.

Sucursal A Sucursal B Sucursal C

X  me X  me X  me
Distribución simétrica Distribución asimétrica positiva Distribución asimétrica negativa
o hacía la derecha o hacía la izquierda

 Las relaciones entre la media y la mediana descritas anteriormente, se cumplen con
distribuciones unimodales (una sola moda).

5.2 Coeficiente de asimetría de Pearson

Poblacional: As 
3   Me
Muestral: as 

3 X  me 
 s
Propiedades

1. Si as = 0 entonces la distribución es simétrica.
2. Si as < 0 entonces la distribución es asimétrica negativa o a la izquierda.
3. Si as > 0 entonces la distribución es asimétrica positiva o a la derecha.

Un mayor (menor) valor del coeficiente de asimetría de Pearson indica un mayor (menor)
grado de asimetría de la distribución de los datos.

67
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 2
Recordemos los datos de los ingresos mensuales del Banco Comercial que se trabajaron
en la parte de organización de datos. Con esa información se tienen los siguientes
valores: x  5.350 , me  4.700 , s  2.181 .
3  5.350  4.700 
Por lo tanto as   0.8941  0 , entonces la distribución de los ingresos
2.181
mensuales tiene una asimétrica positiva.

Ejercicio 1. Se desea realizar un estudio sobre la utilización del agua en tres zonas
rurales (A, B y C). Con esta finalidad se ha seleccionado al azar 8 casas de la zona A, 6
de la zona B y 10 de la zona C. Luego se registró el número de litros de agua consumidos
por un día, los cuales se presenta en el siguiente cuadro:

Zonas Número de litros de agua consumidos por día
A 150 135 120 110 160 180 155 165
B 135 110 105 125 750 140
C 100 110 115 280 130 140 175 120 130 145

Cálculo de medidas estadísticas con el MINITAB

Estadísticas Descriptivas

Variable N Media Mediana StDev
Zona A 8 146.88 152.50 23.59
Zona B 6 228 130 256
Zona C 10 144.5 130.0 52.0

Variable Minimo Maximo Q1 Q3
Zona A 110.00 180.00 123.75 163.75
Zona B 105 750 109 293
Zona C 100.0 280.0 113.8 152.5

Calcule e interprete el coeficiente de asimetría de Pearson para el número de litros de
agua consumidas para cada zona

68
UNA La Molina - Dpto. de Estadística e Informática Estadística General

5.3 Diagrama de cajas (Box plot)

El diagrama de cajas (Box plot) es una técnica gráfica que nos permite determinar:
1. Los valores extremos (outliers), valores atípicos o datos discordantes.
2. La asimetría de la distribución que corresponde al 50% central de los datos.
3. La variabilidad del 50% central de dos o más conjuntos de datos.

Valor Outlier
El bigote superior
se extiende al valor
más alto que
* pertenece al
intervalo de
seguridad superior
Tercer
Cuartil (Q3)
Mediana

El bigote inferior se
extiende al valor ás
Primer bajo que pertenece
Cuartil (Q1) al intervalo de
seguridad inferior

 La caja contiene información del 50% de los datos ya que la línea inferior de la caja
es el primer cuartil (Q1 = P25), y la línea superior de la caja es el tercer cuartil (Q3 =
P75).
 La línea que divide a la caja es la mediana y su posición dentro de ella nos brindará
información sobre la asimetría de la distribución del 50% central de datos.
 Los bigotes son las líneas que se extienden de la parte inferior y superior de la caja
hasta la observación más alta o más baja dentro de los intervalos de seguridad.

Interpretación del diagrama de cajas:

1. Respecto a la Simetría o Asimetría. Para evaluar la asimetría en el 50% central
de los datos se observa la posición de Q2 = P50

 Si Q2 está próximo a Q1, entonces la distribución de los datos presentan una
asimetría positiva o hacía la derecha.
 Si Q2 está próximo a Q3, entonces la distribución de los datos presentan una
asimetría negativa o hacía la izquierda.
 Si Q2 está en medio de Q1 y Q3, entonces la distribución de los datos presentan
una simetría.

2. Respecto a la variabilidad. En el punto referido a la variabilidad sólo es aplicable
al caso cuando se comparan dos o más distribuciones a través de la longitud (largo)
de sus respectivas cajas. Presenta mayor variabilidad la distribución que tenga mayor
longitud de caja, sin embargo, se debe advertir que este criterio para evaluar la
variabilidad alcanza únicamente a la distribución del 50% central de datos.

3. Respecto a datos outliers. Son observaciones fuera de los límites inferior y/o
superior y que se representan con asteriscos (*).

Intervalo de seguridad inferior ISI = Q1 – 1.5 (Q3 - Q1) = Q1 – 1.5 RIC
Intervalo de seguridad superior ISS = Q3 + 1.5 (Q3 - Q1) = Q3 + 1.5 RIC

Si Xi < ISI, entonces Xi es un dato atípico pequeño u outliers pequeño.
Si Xi > ISS, entonces Xi es un dato atípico alto u outliers alto.

69
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 3
Se tienen los pesos de 10 personas del aula A: 50, 52, 53, 54, 63, 64, 75, 76, 85, 120.
Con estos datos se obtiene P25 = 52.75, P50 = me = 63.5, P75 = 78.25, RI = Q3-Q1 =
25.5
Luego se calculan los intervalos de seguridad inferior y superior.
ISI = P25 – 1.5 RI = 52.75 – 1.5 (25.5) = 14.5
ISS= P75 + 1.5 RI = 78.25 + 1.5 (25.5) = 116.5

Un valor es extremo si es menor que 14.5 o mayor que 116.5

120

110

100

90
Peso A

80

70

60

50

Se aprecia que hay un outlier o valor extremo superior (120 Kg.  116.5) que se
representa con un asterisco (*). En el caso inferior no existe ningún valor menor al límite
inferior (14.5).

El límite superior es 116.5. El bigote superior llega hasta el valor adyacente más alto
dentro del límite superior (78.25 a 116.5). En nuestro ejemplo el bigote superior llega
hasta 85.

El límite inferior es 14.5. El bigote inferior llega hasta el valor adyacente más bajo dentro
del límite inferior (14.5 a 52.75). En nuestro ejemplo el bigote inferior llega hasta 50.

La asimetría del 50% central de los datos es positiva.

Ejemplo 4
Si se tienen los pesos de 10 personas del aula B: 54, 54, 54, 55, 55, 55, 55, 56, 56, 56.
Entonces P25 = 54, P50 = 55, P75 = 56, RI = 2, ISI = 51, ISS = 59.

120

110

100

90

80

70

60

50

Peso A Peso B

Peso A representa la caja del ejemplo anterior y Peso B la caja del ejemplo que se está
presentando. Se observa que en Peso B no hay valores extremos y que una caja más
grande representa a datos más variables (Peso A es más variable que Peso B). Peso
B es simétrica (se verifica que me  x  55 Kg )

70
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 2. Se sabe que un determinado contaminante industrial vertido sobre un
ecosistema fluvial genera en las truchas anticuerpos. Se cree que el número de
anticuerpos por cada unidad de sangre, puede ser distinta entre truchas hembras y
machos, por lo que se ha seleccionado de un criadero de truchas, ubicado cerca de una
industria que vierte el contaminante, una muestra de 70 truchas de las cuales 40 son
hembras y 30 machos. Los datos obtenidos se resumen a continuación, según el grupo
de hembras o machos.

Gráfico de tallo y hojas para: Estadísticas descriptivas para:
Hembras N = 40 Machos
Unidad de hoja: 10
3 2 223 Mean SE Mean StDev Minimo
6 3 568 673.0 45.2 247.8 290.4
12 4 236899
19 5 0112249 Q1 Median Q3 Maximo N
(10) 6 0034456788 476.6 689.2 833.3 1200 30
11 7 33779
6 8 9
5 9 08
3 10 00
1 11
1 12
1 13 4

a. Complete el siguiente diagrama de cajas.

Cálculos:

71
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. Realice una comparación acerca de la posición, variabilidad, simetría para el 50%
central y outliers de ambos sexos.

Ejercicio 3. Se ha desarrollado un experimento para evaluar el efecto de alimentos
balanceados en la ganancia de pesos de pollos. Una muestra de 30 recibió el alimento A
y otra muestra de 60 pollos el alimento B. Al cabo de 10 días se registraron la ganancia
de pesos (en gr)

Alimento A
93 98 100 102 107 109 110 110 111 111 113 114 115 116 118
118 119 119 120 120 120 124 125 128 129 129 130 135 138 181

Alimento B
Tallo y Hojas de Alimento B N = 60
Unidad de Hoja = 1,0
2 12 34
11 12 566788999
24 13 0000000011133
(12) 13 566678889999
24 14 001123
18 14 5669
14 15 0122
10 15 788899
4 16 0123

Variable N Media StDev CoefVar Minimo Q1 Mediana Q3 Maximo
A 30 117,40 11,57 9,85 93,00 110,00 118,00 125,75 181,00
B 60 139,60 11,46 8,21 123,00 130,00 138,00 148,25 163,00

a. ¿Cuál de los dos tipos de alimentos es menos variable? (Considerando el 100% de
los datos)

72
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. Calcule e interprete el coeficiente de asimetría de Pearson para las ganancias de
peso de los pollos alimentados con A y B.

c. Construya un diagrama de cajas para las ganancias de peso de los pollos alimentados
con A y B. Interprete y compare los diagramas de cajas. (respecto a la simetría en
el 50% central de los datos, la variabilidad en el 50% de los datos y la presencia de
datos outliers).

73
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Práctica Dirigida N° 3

1. El gerente de una empresa financiera desea analizar el comportamiento de la
rentabilidad de las acciones de las empresas mineras y pesqueras. Con esta finalidad
se registra los índices de rentabilidad de una muestra de 12 y 15 empresas minera y
pesquera respectivamente. Los datos se muestran a continuación:

Indice de rentabilidad
Minera Pesquera
6.0 16.8 Stem-and-Leaf Display:
7.2 18.2 Stem-and-leaf of x2 N = 15
7.9 Leaf Unit = 0.10
10.2 5 10 23899
(4) 11 2688
10.8
6 12 233
12.2
3 13 34
12.8
1 14
13.8
1 15
14.0
1 16 5
14.0

a) ¿Cuál debe ser el índice de rentabilidad como máximo para que una empresa
minera este dentro del 35% de las de menor rentabilidad?.

b) ¿Qué tipo de empresa se debe escoger, si se desea tener índices de rentabilidad
más homogéneos?. Justifique su respuesta.

74
UNA La Molina - Dpto. de Estadística e Informática Estadística General

2. La siguiente salida de MINITAB corresponde al tiempo extra semanal (en horas) de
los trabajadores de una empresa agroindustrial de los turnos mañana y noche.

Variable N Mean StDev Minimum Q1 Median Q3 Maximum
Mañana 13 16.24 10.11 4.5 10.2 14.5 19.45 45.6
Noche 13 18.68 9.24 8.9 12.15 16.8 22.35 38,5

a) ¿Cuál es la forma de la distribución de los tiempos extras para cada uno de los
turnos?. Justifique su respuesta.

b) Si la empresa decide hacer un pago (en soles) de 12 a los trabajadores del turno
de mañana por cada hora extra semanal más 50 por movilidad y a los del turno
noche 7.5 por cada hora extra semanal. ¿Cuál de los turnos mostrará mayor
variabilidad respecto a los pagos por horas extras semanal?. Justifique su
respuesta.

75
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c) Considere que los datos del tiempo extra semanal de los trabajadores de los
turnos mañana y noche son los que se muestran en la siguiente tabla:

Mañana 12.5 10.6 9.8 20.5 18.4 8.5 14.6 12.5 22.3 45.6 14.5 16.8 4.5
Noche 8.9 12.3 24.5 35.8 14.6 16.8 12.0 10.3 16.8 20.2 18.7 13.4 38.5

Complete e interprete el siguiente diagrama de cajas (variabilidad, datos atípicos y
asimetría).

ss

ss

76
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. El siguiente gráfico (BoxPlot) muestra la información sobre el nivel de ventas durante
el último mes (en cientos de dólares) del detergente “Blanquito” en 18 tiendas
seleccionadas al azar. Las tiendas fueron clasificadas de acuerdo a los niveles
socioeconómicos Medio-Alto y Medio-Bajo a la cual pertenece.

7000

6000

5000

4000

3000

2000

1000

0

Medio-Alto Medio-Bajo

a) Señale en cuál de los dos estratos socioeconómicos se presenta una mayor
variabilidad.
b) Señale el tipo de asimetría que presentan las tiendas de cada uno de los estratos
socioeconómicos.

2. Una empresa que posee tres fábricas, ha observado el número de piezas diarias
producidas por cada una de ellas durante diez días elegidos al azar, obteniéndose los
siguientes resultados:

10

x
i 1
2
i

Fabrica A 103 106 105 102 108 109 101 110 105 107 111590
Fabrica B 115 112 99 98 107 113 108 114 96 94 112100
Fabrica C 92 97 103 89 106 108 116 87 128 130 113610

a) Calcule e interprete la media y la mediana para el número de piezas diarias
producidas por las fábricas A y C.
b) La empresa recibe un pedido de 2111 piezas que debe ser entregado en un plazo
de 20 días. ¿A cuál de las tres fábricas es más aconsejable encargarle el pedido?
c) ¿Qué se puede afirmar acerca de la simetría de las piezas diarias producidas por
la fábrica B?
d) Elabore e interprete el diagrama de cajas para el número de piezas diarias
producidas por las tres fábricas.

77
UNA La Molina - Dpto. de Estadística e Informática Estadística General

3. En la granja de la UNALM, se realizó un estudio con la finalidad de comparar el peso
en Kg. (a los dos meses de nacido), de dos razas de cuyes: Inti y Andina. Para llevarlo
a cabo, se seleccionaron al azar muestras de cada una de las razas, obteniéndose los
siguientes resultados:

ANDINA INTI
Tallo y Hojas de Andina 0.68 0.94
Unidad de Hoja = 0.010
0.89 0.95
1 8 3 0.89 0.99
3 8 58
7 9 1234 0.89 0.99
(5) 9 56679
3 10 1 0.89 1.04
2 10 5 0.89 1.09
1 11
1 11 5 0.89 1.11
0.90 1.11

a) Halle e interprete la media y la moda para la raza Andina
b) Construya el Diagrama de Cajas para la raza Andina, calcule sus componentes e
indíquelo en el gráfico.
Diagrama de Cajas del Peso
1.2

1.1
Peso (en kg.)

1.0

0.9

0.8

0.7

Andina Inti

c) Utilice el gráfico anterior para comparar la variabilidad y asimetría de las dos razas
en estudio.

4. Para determinar la efectividad de un programa de seguridad industrial se recogieron
los siguientes datos (horas hombres - perdidas por mes) empleando dos programas
distintos (A y B) durante 12 meses tomados al azar.

Tallo y Hojas de Prog A N = 12
Unidad de Hoja = 1.0

2 0 68
(6) 1 022223
4 1 569
1 2
1 2 6

Variable N Media StDev Minimo Q1 Mediana Q3 Maximo
Prog B 12 7.750 2.491 2.000 6.000 9.000 9.750 10.000

a) ¿Cuál es la pérdida mínima de horas–hombres que debe tener el programa A para
estar incluido en el 15% de lo que más horas-hombre pierden?
b) Encontrar el rango intercuartílico del programa A.

78
UNA La Molina - Dpto. de Estadística e Informática Estadística General

5. Se realizó un estudio en la provincia de Tambo Grande (Piura), luego de la aplicación
de un nuevo abono en el cultivo de dos variedades de mango: Kent y Haden. Los
rendimientos en la producción obtenidos luego de la cosecha en Kg/Ha fueron los
siguientes:

Variedades
Variedad Kent Variedad Haden
N° de N° de
Rend. Rend.
Ha Ha Tallo y Hojas de Haden N = 22
1 9.0 12 13.1 Unidad de Hoja = 0.10
2 11.9 13 13.2
8 10 22388999
3 12.6 14 13.5
(6) 11 266888
4 12.6 15 13.5 8 12 2233
5 12.6 16 13.7 4 13 344
6 12.8 17 13.8 1 14
7 12.8 18 13.8 1 15
8 12.8 19 14.1 1 16 5
9 12.9 20 14.1
10 12.9 21 14.3
11 13.1 22 15.1

Variable N Mediana StDev Minimo Maximo
Kent 22 13.100 1.164 9.00 15.10

Variable N Media StDev Minimo Maximo
Haden 22 11.836 1.422 10.20 16.50

Elabore un diagrama de cajas múltiple y presente sus conclusiones.

6. Lidercom es una institución dedicada a otorgar certificaciones de calidad ISO 9001
a empresas de bienes y servicios. La Firme está en proceso de evaluación por esta
institución y una de las tareas es medir la satisfacción del personal de la empresa
mediante una prueba con escala de 0 a 100 puntos.

De una muestra de 40 trabajadores que laboran en la sede principal se obtuvieron
las siguientes puntuaciones:

74 89 82 83 67 81 68 85 81 72
71 74 50 64 72 44 66 84 69 81
69 66 93 53 98 70 95 82 81 80
88 80 85 85 72 81 90 89 80 97

a) Halle el rango intercuartíl (RI) de la distribución de la puntuación de los
trabajadores de la sede principal.

b) Usando el RI hallado en b, calcule el límite inferior y superior e indique si un
valor es atípico (outlier) o no.

79
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Preguntas de Autoevaluación

1. Si el coeficiente de asimetría de Pearson es 0.00001, se dice que los datos presentan
una distribución _______________________________.
2. Si en un conjunto de datos la mediana es mayor que la media, entonces el coeficiente
de asimetría de Pearson es ________________ y el conjunto de datos tiene una
asimetría __________________________.
3. La diferencia de RI y el coeficiente de asimetría de Pearson, es que el RI mide la
asimetría considerando __________________________ mientras que el As
considera el _____________________ de los datos.
4. Si los cuartiles de los pesos (en kgrs.) de una muestra de 50 pollos son 1.9, 2.2 y 3.4
respectivamente, entonces se puede afirmar que la distribución del 50% central de
los pesos tiene ____________________________________.
5. En un diagrama de cajas, para afirmar que la distribución del 50% central de los datos
tiene una distribución asimétrica negativa, entonces se debe de cumplir que
______________________________.
6. Si en un diagrama de cajas no existen datos atípicos, entonces el bigote inferior y
superior son ____________________________________ respectivamente.

7. Si en un conjunto de datos, la mediana es 34.5% mayor que la media y el coeficiente
de variación es 45%, entonces el coeficiente de asimetría de Pearson es igual a
_____________________________
8. Para mejorar los tiempos de atención en un Centro Comercial, sea determinado que
los percentiles 25 y 75 de los tiempos de atención en el área de ropa femenina fue de
14.5 y 18.5 minutos y en área de ropa masculina fue de 6.5 y 12.5 minutos, entonces
se puede decir que hay mayor variabilidad en el tiempo de atención en el área de
ropa ____________________ porque _________________________.
9. En una distribución simétrica, la mediana es igual a 6 y la desviación estándar es 18,
entonces el coeficiente de variación es igual a ________________________.
10. Indique si es Verdadero (V) o Falso (F) cada uno de los siguientes enunciados:

Item Enunciado V/F
a. Los límites de seguridad son dibujados en el diagrama de cajas
b. Si en un diagrama de cajas, Q2 está próximo a Q3, entonces la
distribución de los datos presenta una asimetría negativa.
c. Es similar usar el diagrama de cajas y el coeficiente de Pearson para
medir la asimetría en un conjunto de datos.
d. Cuando un conjunto de datos presenta una asimetría positiva, indica
que los datos están concentrados en la parte izquierda.
e. A partir de un diagrama de tallos y hojas se puede elaborar su
diagrama de cajas.

80
UNA La Molina - Dpto. de Estadística e Informática Estadística General

CAPÍTULO VI

PROBABILIDAD

La probabilidad se refiere al estudio de la aleatoriedad y la incertidumbre. En el mundo
cotidiano las personas continuamente van tomando decisiones desde las más simples
hasta las más complejas, generalmente en condiciones de incertidumbre. La teoría de
probabilidad nos proporciona métodos y técnicas adecuadas para cuantificar la
incertidumbre por lo que es una herramienta importante en la toma de decisiones.

Es común escuchar o leer expresiones como:

a. Es probable que el índice inflacionario se mantenga durante los próximos dos
meses.
b. Hay un 50% de posibilidades de que el alcalde del distrito “X” busque reelegirse.
c. Probablemente el próximo ciclo se ofrecerá por lo menos 7 grupos de ese curso.
d. Se espera que por lo menos se vendan 15000 boletos para el partido de fútbol.

Objetivo. Conocer los conceptos básicos de las probabilidades; las reglas o axiomas que
la sustentan, así como, sus aplicaciones como medida de cuantificación de la
incertidumbre.

6.1 Revisión de técnicas de conteo

La regla del producto para n-uplas

Supóngase que un conjunto está formado por grupos ordenados de n elementos (n-upla)
y que hay n1 posibles opciones para el primer elemento; por cada opción del primer
elemento hay n2 posibles opciones del segundo elemento;...; por cada posible opción de
los primeros n – 1 elementos hay nk opciones del elemento n.

Entonces hay: n1 x n2 x ... x nk posibles n – uplas.

Ejemplo 1
El propietario de una casa desea efectuar algunas remodelaciones y requiere los servicios
de un distribuidor de utensilios de cocina, de un contratista plomero y de un contratista
electricista. Si, en la zona, hay 8 distribuidores de utensilios de cocina, 10 contratistas
plomeros y 5 contratistas electricistas. ¿De cuántas formas se pueden seleccionar estos
tres servicios?

Sea el evento A = {seleccionar los tres servicios}
n(A) = n1 n2 n3 = (8)(10)(5) = 400 3-uplas de la forma (Ui, Pj, Ek), así que hay 400
formas de seleccionar primero un distribuidor de utensilios de cocina, luego un plomero
y, finalmente un electricista.

Ejercicio 1. Un menú consta de tres platos; una entrada, un segundo y un postre. Si en
la lista figuran 2 clases de entrada, 3 clases de segundo y 2 tipos de postre. ¿De cuántas
formas se puede seleccionar los tres platos del menú?

81
UNA La Molina - Dpto. de Estadística e Informática Estadística General

La regla de la adición
Si un experimento 1 ocurre de n1 formas, 2 de n2, ….., k de nk formas; entonces el
experimento  que consiste en realizar 1 ó 2 ó ….. k (los experimentos no pueden
realizarse juntos) ocurre de n1 + n2 + … + nk formas.

Ejercicio 2. Un producto se vende en 3 mercados. En el primer mercado se tienen
disponibles 5 tiendas, en el segundo 4 y en el tercer mercado, 6 tiendas. ¿De cuántas
maneras puede venderse el producto?

Permutaciones

Cualquier secuencia ordenada de n objetos tomados de un conjunto de N objetos distintos
se llama permutación de tamaño n de los objetos. El número de permutaciones de
tamaño n que puede construirse con los N objetos (donde sí importa el orden) se
obtiene por la regla del producto de la siguiente manera:

PnN  N N  1 N  2N  n  2 N  n  1
N!
Utilizando factoriales se obtiene: Pn 
N

N  n  !
Ejemplo 2
En un campeonato de fútbol participan 12 equipos ¿De cuántas maneras se pueden
ocupar los tres primeros puestos?

Sea el evento A = {Número de maneras que puede ocupar los 3 primeros puestos}
Total de equipos : N = 12
Seleccionar 3 equipos: n= 3

N (A) = P3
12
 12  11  10  1320

Ejercicio 3. Un club social está formado por 10 personas. ¿De cuántas maneras se puede
formar una comisión integrada por un presidente, un secretario y un vocal?

Casos especiales:

a) Permutaciones de N en N PNN  N !  N ( N  1)( N  2)...1

Ejemplo 3
Se tiene un grupo de 5 caballos para alquiler. Si llegan 5 personas para alquilar un caballo
cada una de ellas ¿De cuántas maneras se puede hacer el alquiler?

P55  5!  5(5  1)(5  2)...1  120 maneras

82
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b) Permutaciones con repetición. El número de permutaciones de N elementos, de
los cuales son iguales entre si N1, N2, N3,..., Nk y donde N = N1+ N2 + N3 +...+ Nk,
N!
está dado por: PNN1, N2, ... Nk 
N1 ! N 2 !...N k !

Ejemplo 4
En la casa comercial “El Palco” hay 4 sinfonías N° 9 de Beethoven, 5 Sinfonías N° 100 de
Haydn y 6 Sinfonías N° 36 de Mozart. Suponga que se seleccionan con restitución y
considerando el orden de extracción 8 de estas obras maestras.

a. ¿De cuántas maneras serán seleccionadas 5 sinfonías de Beethoven y 3 de Haydn?

8!
n  A  45  53  P5,3
8
 45  53   7168000
5! 3!
b. ¿De cuántas maneras serán seleccionadas 2 sinfonías de Beethoven, 2 de Haydn y 4
de Mozart?
8!
n  A  42  52  64  P2,2,4
8
 42  52  64   217728000
2! 2! 4!

Combinaciones

Dado un conjunto de N objetos distintos, cualquier subconjunto no ordenado de tamaño
n de los objetos se llama combinación y se denota de la siguiente manera:

N N!
  
 n  n ! N  n  !

Cuando haya N objetos distintos, cualquier permutación de tamaño n se obtiene al
ordenar los n objetos no ordenados de una combinación en una de n! formas (donde no
importa el orden), así:

N  N  PnN N!
PnN    n!     
n   n  n! n ! N  n !

Ejemplo 5
Al poco tiempo de ser puestos en servicio, algunos autobuses fabricados por cierta
compañía presentan grietas en la parte inferior del bastidor principal. Suponga que una
ciudad tiene 18 de estos autobuses, y que han aparecido grietas en 5 de ellos.

a. ¿De cuántas formas se puede seleccionar sin restitución y sin considerar el orden una
muestra de 7 autobuses de los 18 para una inspección completa?
18 
n     
18 !
Sea el espacio muestral  entonces  31824
 7  7 ! 11 !

b. ¿En cuántas formas puede una muestra de 7 autobuses contener exactamente 3 con
grietas visibles si la selección es hecha sin restitución y sin considerar el orden de
extracción?
Sea el evento A = {una muestra de 7 autobuses contiene exactamente 3 con grietas}

 5  13
n A        7150
 3  4 

83
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 4. Un club de Karate tiene 10 deportistas de los cuales 4 son cinturones negros

a. ¿De cuántas maneras puede escoger sin restitución y sin considerar el orden de
extracción a cinco karatecas para participar en un torneo?

b. ¿De cuántas maneras puede escoger sin restitución y sin considerar el orden de
extracción a cinco karatecas de tal manera que hayan 2 cinturones negros?

6.2 Conceptos básicos de probabilidad

Experimento aleatorio (E)

Un experimento aleatorio es todo proceso que consiste en la ejecución de un acto (o
prueba) una o más veces (en las mismas condiciones) y cuyo resultado en cada prueba
depende del azar (no se pueden predecir con certeza) pero que sin embargo, se pueden
definir (si se pueden describir).

Ejemplo 6
Suponga los siguientes experimentos aleatorios:
E1 : Observar el número de la cara superior cuando se lanza un dado
E2 : Registrar el sexo del recién nacido
E3 : Observar el número de artículos defectuosos de un lote de 8.
E4 : Anotar el número de clientes que llegan a un supermercado en una semana
E5 : Observar el tiempo de duración de un foco de luz (horas)

Espacio muestral ()
El espacio muestral es el conjunto de todos los posibles resultados (llamados puntos
muestrales) de un experimento aleatorio. Se considera a  es el conjunto universal.
La cardinalidad de  (número de elementos de un conjunto) se denota n().

Ejemplo 7
Los espacios muestrales asociados a los anteriores experimentos aleatorios son:
E1: 1 = {1,2,3,4,5,6} n(1)=6 Finito
E2: 2 = {Hombre, Mujer} n(2)=2 Finito
E3: 3 = {0,1,2,3,4,5,6,7,8} n(3)=9 Finito
E4: 4 = {0,1,2,. . . .} n(4)= ∞ Infinito numerable
E5: 5 = {T/ 0 ≤ t < ∞} n(5)= ∞ Infinito no numerable

84
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 8
Si se observan los sexos de tres niños recién nacidos, el espacio muestral asociado será:
 = {MMM, MMF, MFM, FMM, MFF, FMF, FFM, FFF}

Ejemplo 9
Considere dos fábricas tales que en cada una hay 6 máquinas que fabrican un producto.
Sea el experimento aleatorio que consiste en determinar el número de máquinas que
están en uso en un día particular. Un resultado experimental indica cuántas máquinas
están en uso en la primera fábrica y cuantas están en uso en la segunda (asuma que los
resultados son igualmente posibles). El espacio muestral  será igual a:

Segunda fábrica
0 1 2 3 4 5 6
0 (0, 0) (0, 1) (0, 2) (0, 3) (0, 4) (0, 5) (0, 6)
1 (1, 0) (1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6)
Primera 2 (2, 0) (2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6)
fábrica 3 (3, 0) (3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6)
4 (4, 0) (4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6)
5 (5, 0) (5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6)
6 (6, 0) (6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)

Eventos
Un evento es cualquier subconjunto de un espacio muestral. Se dice que un evento es
simple si está formado exactamente por un resultado y compuesto si consta de más de
un resultado.

Ejemplo 10
Si se observan los sexos de tres niños recién nacidos, el espacio muestral asociado será:
 = {MMM, MMF, MFM, FMM, MFF, FMF, FFM, FFF}. Hay 8 eventos simples.

Posibles eventos simples: A={MMF} y B = {FMF}.
Eventos compuestos pueden ser:

C = {MFF, FMF, FFM} = {exactamente un bebe es de sexo masculino}
D = {MMM, FFF} = {los tres bebes son del mismo sexo}

Ejemplo 11
Con relación al ejemplo 9, hay 49 eventos simples. Ejemplos de eventos compuestos
son:

E = {(0, 0), (1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)} = {el número de máquinas en
uso es el mismo para ambas fábricas}

F = {(0, 3), (3, 0), (1, 2), (2, 1)} = {el número total de máquinas en uso es tres}

G = {(0, 0), (0, 1), (1, 0), (1, 1)} = {a lo sumo una máquina está en uso en cada fábrica}

Eventos mutuamente excluyentes
Los eventos A y B son mutuamente excluyentes (o disjuntos) si no tienen resultados en
común. O sea A  B   . Generalizando: Los eventos A1, A2,..., Ak son mutuamente
excluyentes si: Ai  A j    i  j  1, 2,  , k

Ejemplo 12
En el Ejemplo 11 los eventos E y F son mutuamente excluyentes en cambio los eventos
E y G no son mutuamente excluyentes.
85
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Eventos colectivamente exhaustivos
k
Los eventos A1, A2,..., Ak son colectivamente exhaustivos si A j  A1  A2   Ak  
j 1

Ejemplo 13
En el Ejemplo 10 los eventos C y D no son colectivamente exhaustivos.

Evento complementario
Para un evento A definido sobre un espacio muestral , el evento complemento de A,
denotado por Ac está compuesto por todos los elementos que no pertenecen al evento de
A. Es decir, todo lo que le falta al evento A para ser el espacio muestral . Se cumple:
Ac  A   y Ac  A  

Ejemplo 14
En el ejemplo 5, para el evento C = {MFF, FMF, FFM} su complemento es C c = {MMM,
MMF, MFM, FMM, FFF}

Ejercicio 5. Sea el experimento aleatorio observar el número de la cara superior cuando
se lanza un dado. El espacio muestral:  = {1,2,3,4,5,6}

Sean los siguientes eventos definidos:
El número observado es impar: A1 = {1,3,5}
El número observado es par: A2 = {2,4,6}
El número observado mayor a 4: A3 = {5,6}

a. Defina eventos mutuamente excluyentes y no mutuamente excluyentes

b. Defina eventos colectivamente exhaustivos y no colectivamente exhaustivos

c. Defina eventos complementarios

86
UNA La Molina - Dpto. de Estadística e Informática Estadística General

6.3 Definiciones de probabilidad de un evento

Definición clásica de probabilidad (a priori)

Si un experimento aleatorio tiene n  resultados posibles y si n A de tales resultados
corresponden a un evento A, entonces, siempre que los eventos simples de  sean
mutuamente excluyentes e igualmente posibles, la probabilidad de que ocurra A es:

n A Número de casos favorables
P  A  
n Número de casos posibles

Se dice que es a priori por que antes de realizarse el experimento se puede determinar
cuál es la probabilidad de que ocurra A.

Ejercicio 6. Una urna contiene 6 bolas blancas y 5 bolas negras. Si se extraen al azar y
sin reemplazo 4 bolas de la urna. ¿Cuál es la probabilidad de que una bola sea de color
blanco?

Ejercicio 7. Si se considera igualmente probable el nacimiento de un niño o una niña,
en una familia que tiene tres hijos, ¿Cuál es la probabilidad de que

a. existan dos mujeres y un hombre?

b. existan por lo menos dos mujeres?

c. existan al menos un hombre?

87
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 8. Se tiene un grupo con 6 ingenieros, 4 economistas y 2 matemáticos ¿Cuál
es la probabilidad de que al seleccionar sin restitución 6 personas, existan 3 ingenieros,
2 economistas y 1 matemático?

Definición frecuencial de probabilidades (a posteriori)

Si un experimento aleatorio se repite n veces, bajo las mismas condiciones, y nA
resultados corresponden al evento A, la probabilidad estimada de A está dada por la

P A estimada  frA 
nA
frecuencia relativa del evento; es decir, . Teóricamente la
n
P A  lim frA  lim
nA
probabilidad de A es: .
n  n  n

Se dice que es a posteriori por que la probabilidad estimada se determina después de
realizarse el experimento.

Ejemplo 15
La siguiente tabla de frecuencias corresponde a las temperaturas promedio de 24 horas
(C) registrados en cierto observatorio, en el mes de enero de cierto año:

Temperatura 20.2-20.9 20.9-21.6 21.6-22.3 22.3-23.0 23.0-23.7 23.7-24.4
Número días 1 3 12 13 1 1

La probabilidad estimada que en un día del mes de enero, la temperatura promedio sea
f 2  f3  f 4 3  12  13 28
por lo menos 20.9 C pero menor que 23.0 C es P  A    .
n 31 31
Note que esta probabilidad se obtiene después de realizarse el experimento.

Ejemplo 16
Se tienen 4 cuyes de tipo I, 6 de tipo II y 7 de tipo III. Cinco cuyes son seleccionados al
azar.

1. ¿Cuál es la probabilidad de que 2 de los cuyes seleccionados sean de tipo I y los otros
3 de otro tipo si la selección es sin restitución y sin considerar el orden de extracción?

Solución
4 I
6 II
7 III
N = 17, n = 5

88
UNA La Molina - Dpto. de Estadística e Informática Estadística General

El experimento aleatorio consiste en seleccionar, sin restitución y sin considerar el
orden de extracción, 5 cuyes de un total de 17. El espacio muestral asociado a este
 N  17 
experimento tendrá n        6188 puntos muestrales.
n   5 
Sea el evento R = {obtener 2 de tipo I y 3 de otro tipo}
 4  13 nR  1716
nR         1716 entonces: P R     0.2773
 2  3  n  6188

2. Calcule la probabilidad de seleccionar 2 cuyes de tipo I, 3 de tipo II y 4 de tipo III si
la selección es sin restitución y sin considerar el orden de extracción.

Solución

Sea el evento R = {obtener 2 de tipo I, 3 de tipo II y 4 de tipo III}
 467
n  R   2   3   4 
P  R  
n  17 
 
 9

Definición axiomática

Sea  el espacio muestral asociado a un experimento aleatorio. La probabilidad de
cualquier evento A de , es el número real P(A) que satisface los siguientes axiomas:

1. P A  0 , para todo evento A.
2. P   1
3. Si los eventos A 1, A2,..., Ak son mutuamente excluyentes o sea si:
Ai  Aj    i  j  1, 2,  , k , entonces
k  k
P  Aj    PAj   P( A1 )  P( A2 )  ...  P( Ak )
 j 1  j 1

Propiedades de probabilidad

1. Para cualquier evento A, P(Ac) = 1- P(A) ,

2. La probabilidad del evento imposible es cero. P   0

3. Para dos eventos A y B cualesquiera  
P Ac  B  P  B   P  A  B 

4. Para dos eventos A y B cualesquiera P  A  B   P  A  P  B   P  A  B 

89
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Usando el Diagrama de Venn se tiene:

A B

A  Bc A  B Ac  B

Ac  B c
 P  A  B   P  A  P  B   P  A  B 
  
P A  B c  P  A  P  A  B 
 P A c
 B   P B   P A  B 
 P A c
 B   1  P A  B 
c

 P A c
 B   1  P A  B 
c

Ejemplo 17
Los registros de una planta industrial indican que el 12% de todos los obreros lesionados
ingresan a un hospital para recibir tratamiento, el 16% regresa al trabajo al día siguiente
y el 2% ingresan a un hospital pero vuelven al trabajo al día siguiente. Si un obrero se
lesiona:

a. Halle la probabilidad de que ingrese en un hospital para recibir tratamiento o que
regresará al día siguiente

Sean los eventos: H = {un obrero lesionado ingresa a un hospital para tratarse}
T = {un obrero lesionado regresa al trabajo al día siguiente}

Datos: P(H) = 0.12, P(T) = 0.16, P(HT) = 0.02

Se pide P(HT) y por la propiedad 4:

P(HT) = P(H) + P(T) - P(HT) = 0.12 + 0.16 – 0.02 = 0.26

En un diagrama de Venn también se apreciaría lo anterior.

b. Calcule la probabilidad de que ingrese a un hospital pero no regrese al trabajo al día
siguiente.

Se pide P(HTc) y por la propiedad 3:

P(HTc) = P(H) - P(HT) = 0.12 – 0.02 = 0.1

c. Determine la probabilidad de que no ingrese a un hospital ni regrese al trabajo al día
siguiente.

Se pide P(HcTc) entonces por Morgan y por la propiedad 1:

P(HcTc) = P(HT)c = 1 - P(HT) = 1 – 0.26 = 0.74

90
UNA La Molina - Dpto. de Estadística e Informática Estadística General

d. ¿Cuál es la probabilidad de que ingrese a un hospital o no regrese al trabajo al día
siguiente?

Por las propiedades 3, 2 y 4:

P(HTc) = P(H) + P(Tc) - P(HTc) = P(H) + (1 – P(T)) – ( P(H) – P(HT) ) =
= 1 - P(T) + P(HT) = 1 - 0.16 + 0.02 = 0.86

Ejemplo 18
Se ha realizado una encuesta para determinar la adicción de alguna droga en diferentes
profesionales. La encuesta se aplicó a 900 profesionales a los que se les preguntó si
consumen alguna droga, los resultados se muestran en la siguiente tabla:

Profesional Consume alguna droga Total
Si (S) No (Sc)
Abogado (A) 40 210 250
Contador (C) 60 190 250
Ingeniero (I) 50 200 250
Médico (M) 20 130 150
Total 170 730 900

Si se selecciona al azar a un profesional, halle la probabilidad que el profesional
seleccionado:

a. Sea un contador o un abogado

P A  C   P( A)  P(C )  P( A  C ) 
250 250
  0  0.5556
900 900
b. Sea médico y si consuma droga

PM  S  
20
 0.0222
900
c. No sea ingeniero y si consuma droga
40  60  20
 
P I c  S  PS   PI  S  
170 50

900 900

900
 0.1333
d. No consuma droga o sea abogado

    
P S c  A  P S c  P( A)  P S c  A   730 250 210
 
900 900 900
 0.8556

Ejemplo 19
Se encuestó a 500 alumnos universitarios sobre cultura musical. 474 no identifican el
Concierto para piano y Orquesta de Grieg, 471 no identifican la Sinfonía N° 7 de
Beethoven y 450 no identifican ninguna de estas obras.

a. Calcule la probabilidad de que un estudiante universitario identifique las dos obras
maestras en mención.

Sean los eventos: A = {Un estudiante no identifica la obra de Grieg}
B = { Un estudiante no identifica la obra de Beethoven}

Datos: P(A) = 474/500, P(B) = 471/500, P(AB) = 450/500

P(AB) = P(A) + P(B) - P(AB) = 495/500

P  A  B    P  Ac  B c   1  P  A  B   1 
495
 0.01
c
  500

91
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. ¿Cuál es la probabilidad que un estudiante identifique la obra de Beethoven pero no
la de Grieg?

P  A  B c   P  A  P  A  B  
474 450 24
   0.048
500 500 500

Ejercicio 9. Para un estudio sobre cultura general se encuestó a 500 estudiantes
encontrándose que: 20 habían leído “Ficciones” de Borges; 24 habían leído “El libro
de Arena” de Borges y 464 no habían leído estas dos obras geniales. Si se selecciona un
estudiante al azar:

a. ¿Cuál es la probabilidad que haya leído ambos libros?

b. ¿Cuál es la probabilidad que haya leído “Ficciones” pero no “El Libro de Arena”

Ejercicio 10. En una habitación se encuentran 7 hombres mayores de 18 años, 8
hombres menores de 18 años, 10 mujeres mayores de 18 años y 5 mujeres menores de
18 años. Si se elige al azar una persona:

a. ¿Cuál es la probabilidad de que sea hombre?

b. ¿Cuál es la probabilidad de que sea menor de 18 años o sea hombre?

92
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c. ¿Cuál es la probabilidad de que no sea mayor de 18 años y sea mujer?

Ejercicio 11. La unidad de rentas de un distrito de Lima, afirma que el 60% de los
contribuyentes han pagado el predial, el 20% arbitrios y el 8% ambos impuestos. Si se
selecciona un contribuyente al azar:

a. ¿Cuál es la probabilidad que haya pagado el impuesto predial o el de arbitrios?

b. ¿Cuál es la probabilidad que haya pagado el impuesto predial y el de arbitrios?

c. ¿Cuál es la probabilidad que no haya pagado el impuesto predial y ni el de arbitrios?

d. ¿Cuál es la probabilidad que haya pagado el impuesto predial y no el de arbitrios?

e. ¿Cuál es la probabilidad que no haya pagado el impuesto predial o ni el de arbitrios?

93
UNA La Molina - Dpto. de Estadística e Informática Estadística General

6.4 Probabilidad condicional

Para dos eventos A y B de un espacio muestral, con P(B)  0, la probabilidad condicional
de ocurrencia del evento A dado que el evento B ha ocurrido, está definida por:

P A  B 
P A B  
P B 

Ejemplo 20
¿Qué es más probable? Que una persona cualquiera tenga cáncer pulmonar o que una
persona que fuma tenga cáncer pulmonar. Según los especialistas la probabilidad de que
tenga cáncer pulmonar una persona que fuma es mayor.

Tenemos los eventos: A = {una persona tiene cáncer pulmonar}
B = {una persona fuma}

De acuerdo a los especialistas P  A B   P  A 

Ejemplo 21
La probabilidad que la construcción de un edificio termine a tiempo es 17/20, la
probabilidad que no haya huelga es 3/4 y la probabilidad que la construcción se termine
a tiempo dado que no hubo huelga es 14/15; la probabilidad que haya huelga y no se
termine la construcción a tiempo es 1/10. ¿Cuál es la probabilidad que

a) la construcción se termine a tiempo y no haya huelga?
b) no haya huelga dado que la construcción se terminó a tiempo?
c) la construcción no se termine a tiempo si hubo huelga?
d) la construcción no se termine a tiempo si no hubo huelga?

Solución:
Definimos los eventos:
A = La construcción se termina a tiempo.
B = No haya huelga.

Tenemos:
17 3 14 1
P( A)  P( B)  P( A / B)  P( Ac  B c ) 
20 4 15 10
14 3
a) P( A  B)  P( A / B) * P( B)  *  0.7
15 4
7
P( A  B)
b) P ( B / A)   10  0.8235
P( A) 17
20
1
c P( Ac  B c ) 10  4  0.4
c) P( A c )  c

B P( B ) 3 10
1
4
d)
c P( Ac  B) P( B)  P( A  B) P( A  B) 14
P( A )  1  1  P( A / B)  1   0.0667
B P( B) P( B) P( B) 15

94
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 22
En una universidad el 70% de los estudiantes, son de Ciencias y el 30% de Letras; de
los estudiantes de Ciencias, el 60% son varones y los de Letras son varones el 40%. Si
se elige aleatoriamente un estudiante.

Varones Mujeres Total
Ciencias 42% 28% 70%
Letras 12% 18% 30%
Total 54% 46% 100%

A = El estudiante elegido es de Ciencias.
B = El estudiante elegido es varón.

Calcular la probabilidad que:

a) Sea un estudiante varón. P (B) = 0.54
b) Sea un estudiante varón, si es de Ciencias.
P( A  B) 0.42
P( B / A)    0.6
P( A) 0.70
c) Sea un estudiante de Ciencias, si es varón.

P( A  B) 0.42
P( A / B)    0.778
P( B) 0.54

Propiedades de probabilidad condicional

1. 0  P A / B   1 , para todo evento A y B
2. P  / B   1
3. Si los eventos A1, A2, ... , Ak son mutuamente excluyentes o sea si:
 k  k
Ai  Aj    i  j  1, 2,  , k , entonces P  Aj B    P Aj / B  
 j 1  j 1
4. P(A/B) = 1- P(Ac /B)
5. P / B   0
6.  
P Ac  B / C  PB / C   P A  B  / C 
7. P A  B  / C   P A / C   PB / C   P A  B  / C 

Ejercicio 12. Una empresa de turismo vende tres planes de viajes para la ciudad del
Cusco y para la ciudad de Arequipa. En una encuesta realizada por internet, resultó la
siguiente tabla de los porcentajes de clientes con las preferencias de los planes y las
ciudades.

Ciudad Plan 1 (P1) Plan 2 (P2) Plan 3 (P3) Total

Cusco (C) 0.05 0.10 0.05 0.20
Arequipa (A) 0.15 0.40 0.25 0.80
Total 0.20 0.50 0.30 1.00

Si se selecciona al azar a un cliente que ha sido encuestado por internet:

95
UNA La Molina - Dpto. de Estadística e Informática Estadística General

a. ¿Cuál es la probabilidad de que desee viajar al Cusco y que no tenga preferencia por
el Plan 1?

b. Si el cliente no prefiere el Plan 2, ¿cuál es la probabilidad de que prefiera el Plan 3?

c. Si el cliente no prefiere el Plan 1, ¿cuál es la probabilidad de que desee viajar a la
ciudad de Arequipa?

Ejercicio 13. Durante el mes de diciembre del año pasado, el 50% de los clientes del
centro comercial PLAZUELA compraron el producto “W”, el 40% compraron el producto
“V”, y de los que compraron el producto “V”, el 20 % compraron el producto “W”.
a. Si se elige un cliente al azar, encuentre la probabilidad de que no haya comprado
estos productos.

b. Si del grupo de clientes que no compraron el producto “W” se selecciona al azar un
cliente, hallar la probabilidad de que haya comprado el producto “V”.

96
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 14. En la Facultad de Agronomía se ha determinado que el 10% de estudiantes
son aficionados al tenis y el 20% son aficionados al fútbol. Se sabe que, entre los
aficionados al fútbol el 75% no son aficionados el tenis. Si se selecciona un estudiante al
azar, hallar la probabilidad:

a. No sea aficionado al fútbol, pero le guste el tenis.

b. Que le guste sólo un deporte

c. Le guste el tenis si se sabe que no es aficionado al fútbol.

6.5 La regla de la multiplicación

P A  B  P A  B 
Se sabe que: P A B   y PB A  , de estas expresiones se
P B  P A

P A  B   PB P A B 
establece que:
 P APB A

Generalizando: Sean los eventos A1, A2, ... , Ak entonces:
P A1  A2  A3    Ak   P A1 P A2 A1 P A3 A1  A2  P Ak A1  A2    Ak 1 

97
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 23
Si se eligen al azar 2 artículos de un cargamento de 250, de los cuales, 20 están
defectuosos. Halle la probabilidad de que ambos estén defectuosos si:

a. La selección es sin reemplazo

Sean los eventos: Di = {el artículo seleccionado en el lugar i está defectuoso}
Dic = {el artículo seleccionado en el lugar i no está defectuoso}
 20  19 
PD1  D2   PD1 PD2 D1       0.0061
 250  249 

Otra manera de resolver este problema es con la definición clásica de probabilidad y
utilizando las técnicas de conteo

b. La selección es con reemplazo.(queda como ejercicio)

Ejemplo 24
Si se eligen al azar 3 artículos de un cargamento de 250, de los cuales, 20 están
defectuosos.

1. Halle la probabilidad de que los 3 estén defectuosos si:

a. La selección es hecha sin reemplazo.
 20  19  18 
PD1  D2  D3   PD1 PD2 D1 PD3 D1  D2        0.0004
 250  249  248 
b. La selección es con reemplazo.(queda como ejercicio)

6.6 La ley de probabilidad total

Sean los eventos A1,A2,...,Ak mutuamente excluyentes, esto es:
k
Ai  Aj    i  j  1, 2,  , k , y colectivamente exhaustivos A j  A1  A2   Ak  
j 1

 k  k
entonces: P  Aj    PAj  . Luego, para cualquier otro evento B:
 j 1  j 1

PB   P( A1  B)  P( A2  B)  ...  P( Ak  B)   PA j  B  .
k

j 1

 P( A1 ) P( B / A1 )  P( A2 ) P( B / A2 )  ...  P( Ak ) P( B / Ak )   PA j PB A j 
k

j 1

98
UNA La Molina - Dpto. de Estadística e Informática Estadística General

6.7 Teorema de Bayes

Sean los eventos A1, A2,..., Ak mutuamente excluyentes y colectivamente exhaustivos
 
con P A j  0 para j = 1, 2,..., k. Entonces para cualquier otro evento B para el que P(B)
0:
P Ah  B  P A PB Ah 
P Ah B    k h
P B 
 PAj PB Aj 
j 1

Como puede notarse en la igualdad anterior, se usa en el numerador la regla de la
multiplicación y en el denominador la ley de probabilidad total.

Ejemplo 25
Suponga que una caja C1 contiene 4 esferas blancas y 2 azules y que otra caja C2 contiene
4 esferas blancas y 6 azules. La probabilidad de elegir la caja C1 es el doble de
probabilidad de elegir la caja C2. Si se elige al azar una caja y de ella se elige al azar una
esfera, halle la probabilidad que:

a) se elija una esfera azul si se sabe que esta proviene de la caja C 2.
b) se elija la caja C2 y la esfera es azul.
c) se elija una esfera azul.
d) se haya elegido la caja C2 si la esfera elegida fue azul.

Solución

ul 2/6 = P(A/C1)
Az
1 2/3=P(C1)
ja
Ca Blan 4/6 = P(B/C1)
la ca
ir
eg
El

Ele ul 6/10 = P(A/C2)
gir Az
la
Ca
ja 1/3 =P(C2)
2
Bla
nc 4/10 = P(B/C2)
a

a) Se elija una esfera azul si se sabe que esta proviene de la caja C 2

P(A/C2) =6/10

b) Se elija la caja C2 y la esfera es azul

P(C2  A) = P(C2)*P(A/C2)=1/3 * 6/10 = 6/30

c) Se elija una esfera azul

P(A)=P(C1  A)+P(C2  A)= 2/3 *2/6+1/3*6/10=8/15

d) Se haya elegido la caja C2 si la esfera elegida fue azul

P(C2  A) 6 / 30
P(C2 / A)    3/8
P( A) 8 / 15
99
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 26
Los ingenieros de ventas 1, 2 y 3 estiman los costos de 30%, 20% y 50%,
respectivamente, de todos los trabajos licitados por una compañía. Las probabilidades de
cometer error grave, al estimar el costo, de los ingenieros son 0.01, 0.03 y 0.02
respectivamente.

a. Halle la probabilidad de que se cometa error grave al estimar el costo en una
licitación.

Sean los eventos: Ai = {el ing. “i” estima los costos de una licitación}, i = 1, 2, 3
E = {Se comete error grave al estimar el costo}

Según los datos se tiene:

P A1   0.3 P A2   0.2 P A3   0.5
PE A1   0.01 PE A2   0.03 PE A3   0.02

Aplicando la ley de probabilidad total:

PE   P A1 PE A1   P A2 PE A2   P A3 PE A3   0.003  0.006  0.01  0.019

b. Si en una licitación en particular se incurre en un error grave al estimar los costos
del trabajo. ¿Cuál es la probabilidad de que el ingeniero 2 haya cometido el error?

Aplicando el teorema de Bayes y usando el resultado de la subpregunta a:

P A2 PE A2  0.2  0.03
P A2 E     0.3157
P E  0.019

c. Si en una licitación en particular no se incurre en un error grave al estimar los costos
del trabajo. ¿Cuál es la probabilidad de que el ingeniero 3 haya hecho el trabajo?
(se deja como ejercicio)

Ejercicio 15. Una empresa manufacturera tiene dos máquinas (M1 y M2) para producir
un producto. El área de control de calidad a determinado que la máquina M1 produce el
60% de la producción total y la máquina M2 el restante. El 2% de las unidades producidas
por la máquina M1 son defectuosos, mientras que la máquina M2 tiene una tasa de
defectuosos del 4%. Si se selecciona un producto al azar:

a. ¿Cuál es la probabilidad de que sea defectuoso?

100
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. ¿Cuál es la probabilidad de que haya sido producido por la máquina M1, si se sabe
que es defectuoso?

c. ¿Cuál es la probabilidad de que no sea defectuoso?

Ejercicio 16. En un vivero se tiene plantas de dos variedades (A y B) en un 35% y 65%
respectivamente. Se sabe que cierta plaga ataca al 1% de las plantas de la variedad A y
al 3% de las plantas de la variedad B.

a. ¿Cuál es la probabilidad de seleccionar una planta con plaga?

b. Si se elige al azar una planta y se encuentra afectada por la plaga ¿Cuál es la
probabilidad de que sea de la variedad B?

c. Si se elige al azar una planta y no se encuentra afectada por la plaga ¿Cuál es la
probabilidad de que sea de la variedad B?

101
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 17. El área financiera de una distribuidora de productos agrícolas ha observado
que el 25% de las compras son pagadas en efectivo, el 30% son pagadas al crédito y el
resto son pagadas con cheque. Se sabe que el 20% de las compras pagadas en efectivo,
60% de las compras a crédito y 90% de las compras pagadas con cheque; se hacen por
un monto mínimo de $ 150.

Si el agricultor Juan Pérez acaba de realizar una compra por un monto de $180, ¿cuál es
lo más probable: qué haya pagado la compra, en efectivo, al crédito o con cheque?

6.8 Independencia de eventos

Los eventos A y B son independientes si cuando ocurre uno de ellos esto no afecta la
probabilidad de ocurrencia del otro, o sea:

P  A B   P  A
P  B A  P  B 

En otras palabras, las probabilidades condicionales son iguales a las probabilidades
incondicionales.

Consecuencia: A y B son independientes si P A  B   P APB  . Lo anterior es un
resultado de la definición de independencia y de la regla de la multiplicación.

Teorema Si los eventos A y B son independientes entonces, también lo serán:
1. A y Bc
2. Ac y B
3. Ac y Bc

Entonces se cumple:
P  A  B c   P  A  P ( B c )
P Ac  B   P Ac  P( B)
P Ac  B c   P Ac  P( B c )
P  A  B   P  A  P ( B )  P  A  P ( B )

Nota: Los eventos A1 y A2 son condicionalmente independientes si:
P  A1  A2 B   P  A1 B  P  A2 B 
102
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 18. En cierta ciudad la probabilidad de que llueva en un día cualquiera es 0.3
y de que ocurra un temblor en un día cualquiera es 0.4. Si estos eventos son
independientes. Calcule la probabilidad de que en un día cualquiera:

a. Llueva y haya un temblor

b. Llueva pero no haya un temblor

c. Llueva o haya un temblor

d. No llueva ni haya un temblor.

e. Llueva dado que ocurrió un temblor.

103
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 27
La probabilidad de que se presente determinada enfermedad es 1/500 y un test para
detectarla es 99% confiable (esto quiere decir que si una persona tiene la enfermedad la
probabilidad de que el test de positivo es 0.99 y si una persona no tiene la enfermedad
la probabilidad de que el test de negativo es 0.99).

a. Si a Ud. le resulta el test positivo ¿Cuál es la probabilidad de que Ud. tenga la
enfermedad?
Solución

Sean los eventos:

B  Ud. tiene la enfermedad , A  A Ud. le corresponde un test positivo

 P( A / B)  0.99
Confiable en este contexto significa: 
 P( A / B )  0.99
c c

1
P  B P  A B  0.99
P  B A   500  0.1655
P  B  P  A B   P  Bc  P  A Bc  1
 0.99 
499
 0.01
500 500

b. Si a Ud. le resulta positivo en dos tests independientes ¿Cuál es la probabilidad de que
Ud. tenga la enfermedad?

Solución

B  Ud. tiene la enfermedad , Ai  A Ud. le corresponde un test positivo en el test i
P  B  P  A1  A2 B 
P  B A1  A2   
P  B  P  A1  A2 B   P  B c  P  A1  A2 B c 
1
 0.99  0.99
 500  0.9516
1 499
 0.99  0.99   0.01 0.01
500 500

Note que aquí se ha trabajado la independencia condicional:
P  A1  A2 B   P  A1 B  P  A2 B 

Independencia de k eventos

Utilizando la regla de la multiplicación generalizada y considerando independencia se
obtiene la siguiente definición: los eventos A1, A2, ... , Ak son independientes si:

P A1  A2    Ak   P A1 P A2  P Ak 

Cabe mencionar que el teorema anterior también se cumple con k eventos.

Nota: Los eventos A1 , A2 , ,Ak son condicionalmente independientes si:
P  A1  A2   Ak B   P  A1 B  P  A2 B  P  Ak B 

104
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 19. En la fabricación de cierto artículo se encuentra que se presenta un tipo de
defecto con una probabilidad de 0.05 y defecto de un segundo tipo con probabilidad 0.10.
Si estos defectos ocurren independientemente ¿Cuál es la probabilidad de que un artículo
seleccionado al azar

a. tenga ambos defectos?

b. por lo menos tenga un defecto?

c. Si se sabe que el artículo es defectuoso, halle la probabilidad de que este sólo tenga
un tipo de defecto.

Ejemplo 28
En cierta población la probabilidad de que una chica mida más de 1.75 m es 0.08; de
que tenga el cabello lacio es 0.22 y de que tenga un buen conocimiento de Estadística es
0.18. Si estas cualidades son independientes.

a. Halle la probabilidad de que una chica, que va a ser seleccionada al azar, tenga las
tres cualidades.

Solución
Sean los eventos: M = {la chica mide más de 1.75}
L = {la chica tiene cabello lacio}
E = {la chica tiene un buen conocimiento de estadística}
T = {la chica tiene las tres cualidades}

PT   PM  L  E   PM PL PE   0.08  0.22  0.18  0.003168

b. Halle la probabilidad de que una chica, que va a ser seleccionada al azar, tenga sólo
2 de estas cualidades. (queda como ejercicio)

105
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Práctica Dirigida N° 4

1. Con la finalidad de conocer los hábitos, usos y preferencias de los usuarios de
telefonía móvil, la consultora Comunication Fono encuestó a usuarios de telefonía
móvil en la ciudad de Lima Metropolitana clasificándolos según su rango de edad y
rango del tiempo diario que utilizan el celular para enviar whatsapp. Los resultados
para una muestra de 445 clientes se presentan en el siguiente cuadro

Tiempo diario (minutos)
Rango de edad [21 – 30> [30- 39> [39 – 48> [48 - 57] Total
(años) (T1) (T2) (T3) (T4)
Joven(J) 40 72 8 110 230
Adulto (A) 10 20 15 60 105

Adulto mayor (M) 15 25 30 40 110
Total 65 117 53 210 445

Si se elige al azar a un cliente, ¿cuál es la probabilidad?

a) Que utilice un tiempo de a lo más 39 minutos para enviar whatsapp.

b) Que sea un adulto o utilice un tiempo mayor o igual a 39 pero menor a 48
minutos.

c) Que no sea un adulto mayor y ni utilice un tiempo de al menos de 48 minutos.

d) Si se sabe que un encuestado es un joven ¿Cuál es la probabilidad de que utilice
un tiempo menor a 30 minutos para enviar mensajes de whatsapp?

106
UNA La Molina - Dpto. de Estadística e Informática Estadística General

2. Una compañía de seguro ha observado que el 65% de sus clientes han adquirido una
póliza de vida, el 35% para su casa y el 15% de vida y casa. Si se selecciona a un
cliente al azar.

a) ¿Cuál es la probabilidad que haya adquirido el seguro de vida y no para su casa?

b) ¿Cuál es la probabilidad que no haya adquirido un seguro de vida o ni para su
casa?.

3. Un comerciante adquiere sacos de azúcar de dos azucareras nacionales (A1 y A2). Se
sabe que el 68% de los sacos proviene de A1 y el resto de A2. Además, el 85% de los
sacos que recibe de A1 y el 92% que recibe de A2 son de calidad extra. Si un saco de
arroz se escoge al azar: (defina los respectivos eventos).

a. ¿Cuál es la probabilidad que sea de calidad extra?.

b. Sabiendo que es de calidad extra, ¿cuál es la probabilidad de que provenga de la
azucarera A1?.

107
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c. Sabiendo que no es de calidad extra, ¿cuál es la probabilidad de que provenga de
la azucarera A2?.

4. Las personas sospechosas de incurrir en lavado de activos pueden ser investigadas
por Organismos Gubernamentales responsables. La probabilidad de ser investigada
por el organismo gubernamental A es 0.009 y la probabilidad de ser investigada por
el organismo gubernamental B es 0.018. Si estos eventos son independientes

a) Calcule la probabilidad de que la persona sospechosa sea investigada por el
organismo gubernamental A pero no por el B.

b) Calcule la probabilidad de que un persona sospechosa sea investigada por el
organismo gubernamental A o por el B.

108
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. De un grupo de personas, el 30% practica fútbol y el 40% juega ajedrez. De los
futbolistas, el 50% juega ajedrez. Si se elige aleatoriamente una persona ¿Cuál es la
probabilidad de que:
a) juegue fútbol o ajedrez?
b) practique sólo uno de estos deportes?
c) no practique ni fútbol ni ajedrez?

2. De 20 personas que contrajeron cierta enfermedad al mismo tiempo y que fueron
llevados a una misma sala de un hospital, 15 se recuperan completamente en 3 días;
al cabo del cual, se escogen al azar 5 personas para un chequeo.
a) ¿Cuál es la probabilidad que los 5 sean dados de alta?
b) ¿Cuál es la probabilidad de que exactamente 4 sean dados de alta?
c) ¿Cuál es la probabilidad que ninguno sea dado de alta?

3. De 200 familias, 80 compran el periódico A, 95 el periódico B y 40 no compran A pero
si B. Si se selecciona una familia al azar, calcule la probabilidad de que:
a) Compre A o B.
b) Compre A pero no B.

4. En una ciudad el 60 % son hombres, el 20 % son de raza negra y el 8 % son hombres
negros. Si se selecciona a una persona al azar de esa ciudad, halle la probabilidad de
que sea una mujer de raza negra.

5. En una fábrica se seleccionó 200 artículos producidos durante un día y se encontró
que 9 tienen fallas de tipo I, 10 tienen fallas de tipo II y 2 tienen ambos tipos de
fallas. Si un artículo es seleccionado al azar, halle la probabilidad de no tenga ninguno
de estos tipos de fallas.

6. Una enfermedad X se puede presentar en forma maligna o benigna. Si se presenta
en forma maligna da origen a un tumor cerebral con probabilidad 0.75, mientras que
la forma benigna produce tumor en un 8 % de los casos. Se sabe además que la
forma benigna es 7 veces más probable que la maligna.
a) ¿Cuál es la probabilidad de que a una persona que padece la enfermedad no le
aparezca el tumor cerebral?
b) Si alguien que padece esa enfermedad tiene tumor cerebral ¿Cuál es la
probabilidad de que tenga la forma maligna?

7. La probabilidad de que un turista haga una reservación con más de una semana de
anticipación es del 10% y la probabilidad de que un turista se inscriba en el tour
completo ofrecido por el hotel es de 35%. Si la probabilidad de que se inscriba en el
tour completo ofrecido por el hotel o haga la reservación con más de una semana de
anticipación es del 40%, ¿Cuál es la probabilidad de que se inscriba en el tour
completo ofrecido por el hotel si se sabe que hizo la reservación con más de una
semana de anticipación?

8. En una investigación realizada a los conductores de taxis, se encontraron los
siguientes resultados: el 20% son mujeres, el 10% de las mujeres tienen estudios
universitarios; el 60% de los hombres no tienen estudios universitarios. Si se toma
un conductor de taxi al azar y resulta que tiene estudios universitarios, ¿cuál es la
probabilidad que sea mujer?

9. Sea A el evento de que un cierto libro de Estadística (primero) se encuentre prestado
fuera de la biblioteca de la universidad, sea B el evento de que otro libro (segundo)
sobre el mismo tema también se encuentre prestado. (Nota: los datos de la pregunta
(a.) difieren de la pregunta (b.))
a) Si P(AB)= 0.2 y P(exactamente un libro esté prestado)= 0.5. Calcular P(AB)

109
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b) Si P(Ac  Bc) = 0.3, P(Ac  Bc) = 0.9 y P(sólo el primer libro esté prestado)=0.4.
Calcular P(A) y P(B)

10. Una planta armadora recibe microcircuitos provenientes de tres distintos fabricantes
(A, B y C). El 52% del total de microcircuitos se compra de A, el 28% de B y el 20%
de C. El porcentaje de microcircuitos defectuosos para A, B y C son 4%, 8% y 10%
respectivamente. Si los microcircuitos se almacenan en la planta sin importar quién
fue el proveedor:
a) Diga, ¿cuál es la probabilidad que la planta no reciba microcircuitos del fabricante
B?
b) Si un circuito no está defectuoso, ¿cuál es la probabilidad de que no haya sido
vendido por el proveedor C?

11. Suponga que una empresa dedicada a realizar revisiones técnicas tiene dos talleres A
y B. Cada propietario o conductor elige al azar un taller para pasar por dos exámenes
1 y 2. Un vehículo aprueba la revisión técnicas si aprueba los dos exámenes. Para un
vehículo que pasa por el taller A, la probabilidad que apruebe los dos exámenes es
0.85 mientras que para un vehículo que pasa por el taller B la probabilidad
correspondiente es 0.9. Considerando que la elección del taller A es igual de probable
que la elección del taller B.
a) Halle la probabilidad que un vehículo apruebe la revisión técnica
b) Si se sabe que el vehículo desaprobó la revisión técnica, ¿cuál es la probabilidad
que haya escogido el taller B?

12. Un investigador afirma que, en cierta población, el 60% son hombres; el 70% de los
hombres y el 45% de las mujeres tienen un coeficiente intelectual menor que el
promedio. Si una persona de esa población tiene un coeficiente intelectual de por lo
menos el promedio ¿Cuál es la probabilidad de que sea hombre?

13. Una fábrica confecciona en un día determinado 400 prendas para varones y 600 para
mujeres. La probabilidad de que una prenda de mujer tenga falla es de 0.01 y la
probabilidad de que una prenda de varón tenga falla es 0.02. Se elige de la producción
del día una prenda al azar
a) ¿Cuál es la probabilidad de que la prenda tenga falla?
b) Si la prenda elegida no tiene falla, ¿cuál es la probabilidad de que no sea de mujer?
c) Se eligen cuatro prendas, ¿cuál es la probabilidad de que por lo menos una prenda
tenga fallas?

14. La probabilidad de que la construcción de un edificio se termine a tiempo es 17/20,
la probabilidad de que no haya huelga es ¾, la probabilidad de que la construcción se
termine a tiempo dado que no hubo huelga es 14/15, la probabilidad de que haya
huelga y no se termine la construcción a tiempo es 1/10
a) Hallar la probabilidad de que la construcción se termine a tiempo y no haya huelga
b) Hallar la probabilidad de que la construcción no se termine a tiempo si hubo huelga

15. Un estudio acerca de los trabajadores de dos plantas de una empresa manufacturera
incluye la pregunta: “¿cuán efectiva es la gerencia para responder a las legítimas
quejas de los trabajadores?”. En la planta 1, 48 de 192 trabajadores contestaron
“poco efectiva”, una respuesta desfavorable; en la planta 2, 80 de 248 trabajadores
respondieron “poco efectiva”. Se va a seleccionar aleatoriamente a un empleado de
la empresa manufacturera. Sea A el evento “el trabajador procede de la planta 1” y
B el evento “la respuesta es desfavorable”.
a) Encuentre P(A), P(B) y P(AB)
b) ¿son independientes los eventos A y B?
c) Encuentre P(B/A) y P(B/Ac), ¿son iguales?

16. Un cazador dispara 7 balas a un león enfurecido. Si la probabilidad de que una bala
mate es 0.6. ¿Cuál es la probabilidad de que el cazador esté todavía vivo?

110
UNA La Molina - Dpto. de Estadística e Informática Estadística General

17. En cierta población de perros: el 40% son de raza Bóxer, 57% son machos y 32%
tienen más de dos años. Asuma que estas tres cualidades son independientes. Si un
perro va a ser seleccionado al azar calcule la probabilidad de que tenga sólo una de
estas cualidades.

18. En un club hay 10 hombres y 12 mujeres. 4 de los hombres y 5 de las mujeres tienen
Maestría. Si seleccionan al azar y sin restitución a 3 personas calcule la probabilidad
de que las tres personas sean hombres o que tengan Maestría.

19. Un dispositivo tiene 3 partes que funcionan independientemente. Sus probabilidades
de falla son: 0.2, 0.3 y 0.4 para la primera, segunda y tercera partes respectivamente.
Hallar la probabilidad de que al menos una de la partes falle.

20. Un lote consta de 10 artículos buenos, 4 con pequeños defectos y 2 con defectos
graves. Se elige un artículo al azar. Encontrar la probabilidad de que:
a) No tenga defectos.
b) Tenga un defecto grave.
c) Que sea bueno o que tenga un defecto grave.
Si se escogen 2 artículos en vez de uno, calcule la probabilidad de que:
d) Ambos sean buenos.
e) A lo menos uno sea bueno.
f) A lo más uno sea bueno.
g) Ninguno tenga defectos graves.

21. En una serie de observaciones del tiempo de sobrevivencia de peces de una
determinada especie en aguas contaminadas, un pesquero ha encontrado que el 95%
sobrevive 20 días, el 78% sobrevive 40 días, el 33% sobrevive 80 días, el 6%
sobrevive 100 días y ninguno sobrevive después de 120 días. Estime la probabilidad
de los eventos:
a) Un pez muere dentro de los primeros 20 días.
b) Muere entre 40 y 100 días.
c) Sobrevive a lo más 80 días.

22. En un salón de clases hay 40 personas. 15 son hombres y 26 están en segundo ciclo
de los cuales 18 son mujeres. Si se escoge un estudiante al azar:
a) ¿Cuál es la probabilidad de que sea hombre y no esté en segundo ciclo?
b) Si se selecciona un estudiante y se observa que está en segundo ciclo, ¿cuál es la
probabilidad de que sea mujer?

23. Dos máquinas, A y B, producen el 35% y el 65% de las tuercas de una fábrica. Se
sabe que el 10% y el 15% de las tuercas de cada máquina son defectuosas.
a) Si en el mercado se encontró una tuerca defectuosa ¿Cuál es la probabilidad de
que haya sido producida por la máquina A?
b) Si en el mercado se seleccionaron independientemente dos tuercas y resultaron
defectuosas ¿Cuál es la probabilidad de que hayan sido producidas por la máquina
A?

24. Para evaluar el resultado de una capacitación, un participante está rindiendo un test
de 5 preguntas, donde cada una vale 2 puntos. Ya ha respondido dos correctamente
y decide elegir al azar las tres respuestas que le faltan.
a) Defina el espacio muestral.
b) Si la calificación mínima aprobatoria es 6, ¿Cuál es la probabilidad de que apruebe
el test?

111
UNA La Molina - Dpto. de Estadística e Informática Estadística General

25. En una ciudad se estudia la cantidad de usuarios de Internet de acuerdo a ciertas
variables. En el siguiente cuadro, se muestra la distribución de acuerdo a la Edad y
Velocidad de Internet:

Rango de Edad Total

Velocidad de De 6 a 20 De 21 a De 31 a Más de 40
Internet años 30 años 40 años años
1 Mbps 150 80 50 50 330
2 Mbps 55 30 20 20 125
3 Mbps 25 10 5 5 45
Total 230 120 75 75 500

a) ¿Cuál es la probabilidad que un usuario seleccionado al azar tenga una velocidad
de 2 Mbps y tenga como mínimo 21 años?
b) ¿Cuál es la probabilidad que un usuario seleccionado al azar tenga una velocidad
de 1 Mbps o tenga a lo más 20 años?

26. En la Gerencia de CRM del Supermercado Desco trabajan diez Analistas. Seis de
ellos son informáticos y los otros cuatro son Industriales. Para implementar una
campaña comercial, se debe formar un equipo de cuatro miembros. ¿Cuál es la
probabilidad que hayan dos informáticos en este equipo de cuatro?

27. Una compañía de desarrollo urbano está considerando la posibilidad de construir un
centro comercial en un sector del sur de Lima, Perú. Un elemento vital en esta
consideración es un proyecto de una autopista que una este sector con el centro de
la ciudad. Si el gobierno municipal aprueba esta autopista, hay una probabilidad de
0,90 de que la compañía construya el centro comercial en tanto que si la autopista
no es aprobada, la probabilidad es solo 0,20. Basándose en la información
disponible, el gerente de compañía estima que hay una probabilidad de 0,60 que la
autopista sea aprobada.
a) ¿Cuál es la probabilidad de que compañía construya el centro comercial?
b) Dado que el centro comercial fue construido, ¿cuál es la probabilidad de que
la autopista haya sido aprobada?

28. Un sistema consiste en tres componentes independientes: A, B1 y B2. La
probabilidad de falla es 0,01 para A, 0,02 para B 1 y 0,10 para B2. Si para el
funcionamiento del sistema son necesarios los componentes A y al menos uno de
los B, ¿cuál es la probabilidad de que el sistema funcione?

112
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Preguntas de Autoevaluación

1. Determine el espacio muestral para los siguientes experimento aleatorios:
a) Lanzar una moneda y un dado simultáneamente ________________________
b) Anotar el número de artículos defectuosos de un lote de seis ______________
c) Lanzar dos monedas a la vez _______________________________________
2. Si se define el evento A={Todos los clientes cuyo gasto es menor a $500}, entonces
el evento Ac se define ______________________________________________
3. Si en un grupo de 12 amigos de colegio, 5 desean viajar a la selva, 4 a la sierra y 3 a
la costa por Semana Santa. Si se selecciona a tres personas al azar, la probabilidad
que haya dos personas que deseen ir a la selva es igual a
____________________________________.
4. Sean los eventos A1, A2,...,Ak definidos sobre Ω, las condiciones que se debe cumplir
para aplicar la ley de la probabilidad total es que los eventos sean
_____________________________________________________________.


5. Si A y B son dos eventos independientes de Ω, entonces P ( A  B ) / A
c c c
 es igual a
_________________ siendo P( A )  0 .
c

6. Si los eventos A y B definidos en el espacio muestral Ω son independientes, entonces
P(Ac/B) es igual a _____________________
7. En una encuesta por teléfono aplicada a los egresados de una entidad educativa
superior, se encontró que el 66% de los encuestados prefieren ahorrar para comprar
su carro, el 46% para estudiar una maestría y el 16% para ambas cosas. Si se
seleccionada al azar a un egresado encuestado, la probabilidad de que no ahorre para
comprar su carro ni para estudiar una maestría es igual a
______________________________________ .
8. Si P(T)=0.25 y P(S)=0.75, sabiendo que los eventos T y S son independientes,
entonces P(T ᴜ Sc) es igual a: ______________________.
9. En un programa de asistencia técnica han participado 120 agricultores en la
capacitación de dos técnicas de manejo de cultivo de frijol (A y B). Se sabe que 80
agricultores han usado la técnica A y el resto la B. De los que usaron la técnica A, el
65% han conseguido aumentar el rendimiento del cultivo de frijol y de los que usaron
la técnica B sólo el 35% consiguieron aumentar su rendimiento. Si se selecciona al
azar a un agricultor que participó el programa, la probabilidad que haya aumentado
su rendimiento de frijol es igual a : _______________________.
10. Indique si es Verdadero (V) o Falso (F) cada uno de los siguientes enunciados:

Item Enunciado V/F
a. Para N objetos tomados de n en n, se pude decir que el número de
combinaciones es mayor al número de permutaciones.
b. Se dice que la probabilidad clásica que es a priori, porque se pude
calcular la probabilidad de un evento antes de realizar el experimento.
c. Para dos eventos A y B Ω, los axiomas de la definición clásica
corresponden a: P(A)≥0, P(B)≥0;P(AᴜB)=1 y A∩B=Φ.
d. Sean los eventos A1, A2, y A3 definidos sobre Ω, entonces si se cumple
que A1 ᴜ A2 ᴜ Ak = Ω se puede afirmar que los eventos forman una
partición de Ω.
e. Si los eventos A y B son mutuamente excluyentes, entonces también
se pude decir que son independientes.

113
UNA La Molina - Dpto. de Estadística e Informática Estadística General

CAPÍTULO VII

VARIABLES ALEATORIAS

Se estudia las características y tomando en cuenta los conceptos de probabilidades para
entender la definición de una variable aleatoria y su distribución de probabilidad asociada;
así como hallar su media, la variancia y el coeficiente de variación.

Objetivo. Al finalizar este capítulo el estudiante podrá entender el concepto de una
variable aleatoria y las aplicaciones que tiene en la teoría de probabilidades y en el campo
de la inferencia estadística.

7.1 Definición de variable aleatoria

Una variable aleatoria es cualquier función que tiene como dominio a los elementos que
constituyen el espacio muestral de un experimento aleatorio y como rango a un
subconjunto de los reales.

7. 2 Clases de variable aleatoria

Las variables aleatorias pueden ser:
 Variables aleatorias discretas
 Variables aleatorias continuas

Variable aleatoria discreta. Si su rango es un conjunto finito o infinito numerable.

Ejemplo 1
Sea el experimento aleatorio registrar los sexos de los próximos tres niños que van a
nacer. Si se define la v.a.d. Y como el número de niños de sexo femenino que nacerán.
Halle el dominio y el rango de Y.
Solución:
={ MMM, MMF, MFM, FMM, MFF, FMF, FFM, FFF }
Y(MMM) =0
Y(MMF) = Y(MFM) = Y(FMM) =1
Y(MFF) = Y(FMF) = Y(FFM) =2
Y(FFF) =3

Entonces RY = {0, 1, 2, 3}

114
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Y = número de niños de sexo femenino que nacerán

 MMM 0 RY
MMF
MFM 1
FMM
Y
MFF
FMF 2
FFM
FFF 3

DY = ={ MMM, MMF, MFM, FMM, MFF, FMF, FFM, FFF }
RY = {0, 1, 2, 3}

Ejemplo 2
Se va a registrar la variable aleatoria X definida como el número de autos que llegan por
cada hora a una playa de estacionamiento entonces el dominio de X será el conjunto de
todas las horas en estudio y el rango RX = {0, 1, 2, }

Variable aleatoria continua. Si su rango es un conjunto infinito no numerable.

Ejemplo 3
Se desea determinar el pH de un compuesto químico seleccionado al azar, entonces la
variable aleatoria X definida como el pH del compuesto es una variable aleatoria continua
con rango 0,14

7.3 Función de probabilidad de una variable aleatoria discreta
Sea X una variable aleatoria discreta. Se denomina función (ley, modelo o distribución)
  
de probabilidad de X a la función f x definida por f x  P X  x para todo número 
real x, que satisface las siguientes condiciones:
i) f  x  0 para x  Rx
ii ) f  x   0 para x  Rx
iii )  f x  1
xi RX
i

Ejemplo 4
Con relación al Ejemplo 1, halle la función de probabilidad de la v.a.d Y definida como el
número de niños de sexo femenino que nacerán, asumiendo que los eventos simples son
igualmente probables (o que P(M)=P(F)=1/2 y que M y F son eventos independientes).
Solución:
f 0   P Y  0   P MMM  
1
8
f 1  P Y  1  P MMF , MFM , FMM  
3
8
f 2   P Y  2   P MFF , FMF , FFM  
3
8
f 3  P Y  3  P FFF 
1
8
La función de probabilidad también se puede representar de la siguiente manera:

Y 0 1 2 3
f  y   PY  y  1/8 3/8 3/8 1/8
Ejemplo 5
115
UNA La Molina - Dpto. de Estadística e Informática Estadística General

El número de unidades vendidas por día del artículo Z es una variable aleatoria tiene la
siguiente función de probabilidad:
c, x  1, 2
1
 , x  3, 4
f x   P X  x    8
2c, x  5, 6

0, otros valores de x
Determine el valor de c.

Solución
Por propiedad:

 f x   1  f 1  f 2  f 3  f 4  f 5  f 6  c  c  8  8  2c  2c  1
1 1
xR X

1
resolviendo la ecuación resulta c .
8
Ejemplo 6
Se tienen 6 impresoras, de las cuales 2 están defectuosas. Si se seleccionan 3 de ellas,
sin reemplazo, determine la función de probabilidad de la variable aleatoria definida como
el número de impresoras defectuosas seleccionadas.

Solución
Sean los eventos: D0 = {obtener 0 impresoras defectuosas y 3 no defectuosas}
D1 = {obtener 1 impresora defectuosa y 2 no defectuosas}
D2 = {obtener 2 impresoras defectuosas y 1 no defectuosa}

Sea X = Número de impresoras defectuosas seleccionadas

El rango es: RX = {0, 1, 2}
 2  4
  
nD0   0   3  4
f 0   P X  0  PD0    
n  6 20
 
3
 2  4
  
nD1  1   2  12
f 1  P X  1  PD1    
n  6 20
 
3
 2  4
  
nD2   2  1  4
f 2  P X  2  PD2    
n   6 20
 
3
0.2 x  0, 2

La función de probabilidad queda definida: f  x   P  X  x   0.6 x  1
0 Otro caso

116
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 1. Una muestra aleatoria con reposición de tamaño n=2 se selecciona del
conjunto {1, 2, 3} obteniéndose un espacio muestral:

  1,1 , 1, 2  , 1,3 ,  2,1 ,  2, 2  ,  2,3 ,  3,1 , 3, 2  , 3,3 
Sea X la variable aleatoria la suma de los dos números. Hallar la función de probabilidad
de la variable aleatoria X.

Ejercicio 2. Un dispositivo está compuesto por tres elementos (A, B y C) que trabajan
independientemente. La probabilidad de falla de cada elemento en una prueba es 0.1.

a. Halle la función de probabilidad de la variable aleatoria X: número de elementos que
fallan en una prueba.

b. ¿Cuál es la probabilidad de que falle al menos un elemento en una prueba?.

117
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 3. En un distrito de Lima el número de hijos por familia es una variable aleatoria
con la siguiente función de probabilidad:

0.5k x  0;1
k x  2;3

P  X  x  
2.0k x4
0 otra manera

a. Halle el valor de k para que f(x) sea una función de probabilidad.

b. Si se escoge al azar una familia, ¿cuál es la probabilidad de que tenga por lo menos
dos hijos?

7.4 Función de densidad de una v.a continua X

La función f  x  de la v.a. continua X es su función de densidad si cumple con lo
siguiente:

1. f  x   0 , x  R , f  x  no es una probabilidad por ejemplo f  x  =3.9 es posible.

2.  f  x  dx  1

b
3. Si A   x a  x  b  P  A  P  a  X  b    f  x  dx
a
b
4. P  a  X  b   P  a  X  b   P  a  X  b   P  a  X  b    f  x  dx
a

X n 1 bn 1  a n 1
b b

a X dx  n  1 
n
En general:
a n 1

118
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 7
Suponga que el tiempo, en horas, que necesita un técnico para reparar cierta avería de
un artefacto eléctrico es una variable aleatoria que tiene la siguiente función de densidad:

k  6  x  , 1  x  3
f  x  
0 , para otros valores de x

a. Halle el valor de k para que f(x) sea una función de densidad.

Por propiedad:  f  x  dx  1 , entonces,

 1 3  3
1
 f  x  dx   f  x  dx   f  x  dx   f  x  dx  k   6  x  dx  k 8  k  8
  1 k  6 x  3 1
cero cero

1
 6  x , 1  x  3
Entonces la función de densidad: f  x    8
0 , para otros valores de x
b. Calcule la probabilidad de que un técnico demore por lo menos 1.8 horas pero menos
de 2 horas en reparar esa avería.
2 2
1
A   x 1.8  x  2  P  A  P 1.8  X  2    f  x  dx   8  6  x  dx  0.1025
1.8 1.8

c. ¿Cuál es el tiempo máximo que necesita un técnico para reparar cierta avería de un
artefacto eléctrico para estar dentro del 18% de los que usan menor tiempo?

1 8 6  x dx  0.18
1 k
P( X  k ) 

k  1.26 horas

Ejercicio 4. Sea la V.A. X: Peso de un artículo (Kg), cuya función de densidad está dada
por:

2
 x, 1  x  2
f ( x)   3
0 Otro caso

a. Verifique que f(x) es una función de densidad

119
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. Halle la probabilidad de que un artículo pese entre 1 y 1.5 kg.

c. Halle la probabilidad de que un artículo pese al menos 1.8 kg.

7.5 Valor esperado, esperanza matemática o media de una variable aleatoria X

La media de una v.a X, que tiene como función de probabilidad f  x  , está dada por:

1.  X  EX    x f x  si X es una variable aleatoria discreta.
xRX

2. X  E  X    x f  x  dx si X es una variable aleatoria continua.


Propiedades del valor esperado

1. Si c y d son constantes reales, entonces, E c X  d   c E  X   d
2. Consecuencias de la propiedad 1:
 
a. E d  d
b. E X  d   EX   d
c. E c X   c E  X 
3. Si X e Y son v.a. y c, d son constantes reales, entonces: E c X  d Y   c E  X   d E Y 
Casos particulares: E  X  Y   E  X   E Y 
E  X  Y   E  X   E Y 
 n  n
4. Si X1, , X n son v.a. entonces E   X i    E  X i 
 i 1  i 1

7.6 La variancia de una variable aleatoria X

La variancia de una v.a X está dada por el valor esperado de la función h X    X   X 
2

, es decir:
 
 X2  Var  X   E  X   X 2  E ( X 2 )  ( E ( X )) 2  E ( X 2 )   2

120
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Propiedades de la variancia

La variancia es un número real positivo que cumple con las siguientes propiedades:

1.  
Var  X   E X 2   X2

Demostración
Var  X   E  X   X    E  X 2    X2  2 X E ( X )  E  X 2    X2
2
 

2. Si c y d son constantes reales, entonces, Var c X  d   c Var  X 
2

3. Consecuencias de la propiedad 2:
 
a. Var d  0
b. Var  X  d   Var  X 
c. Var c X   c 2 Var  X 

4. Si X e Y son v.a. independientes y c, d son constantes reales, entonces:
Var c X  d Y   c 2 Var  X   d 2 Var Y  .

Casos particulares: Var  X  Y   Var  X   Var Y 
Var  X  Y   Var  X   Var Y 
 n  n
5. Si X1, , X n son v.a. independientes entonces Var   X i   Var  X i 
 i 1  i 1

Ejemplo 8
Suponga que una librería compra 6 ejemplares de un libro y el número de ejemplares
vendidos en tres meses, tiene la siguiente función de probabilidad:

X 1 2 3 4 5 6
f x  1/8 1/8 1/8 1/8 2/8 2/8

a. Halle el número de ejemplares que se espera vender en tres meses.

 X  EX    x f x   1 8  2  8  3  8  4  8  5  8  6  8  4 unidades
1 1 1 1 2 2
xR X

b. Halle la variancia del número de ejemplares vendidos en tres meses.

Por la propiedad 1 de la variancia:  
Var  X   E X 2   X2

 X  E X 2    x 2 f x   12   22   32   42   52   62   19
1 1 1 1 2 2
2
xR X 8 8 8 8 8 8
entonces:  
Var  X   E X 2   X2 = 19 – 42 = 3 unidades2

c. Calcule el coeficiente de variación del número de ejemplares vendidos en tres meses.

X 3
CVX   100   100  43.3 %
X 4

121
UNA La Molina - Dpto. de Estadística e Informática Estadística General

d. Suponga que la librería compra 6 ejemplares de un libro a $10.00 cada uno, para
venderlos a $20.00 teniendo en cuenta que al terminar el periodo de 3 meses,
cualquier ejemplar no vendido se venderá a $7.00. Calcule la media, la variancia y
el coeficiente de variación de la utilidad neta.

Sean las variables: X = número de ejemplares vendidos
6–X = número de ejemplares no vendidos
U = utilidad neta

U = 20 X + 7 ( 6 – X ) – 60 = 13 X – 18 , aplicando la propiedad 1 del valor esperado
y la propiedad 2 de la variancia se tiene lo siguiente:

E (U) = E (13 X – 18) = 13 E (X) – 18 = 13 (4) – 18 = $34
Var (U) = Var (13 X – 18) = 132 Var (X) = 132 (3) = 507

507
CVU =  100  66.2 %
34

e. Calcule la probabilidad de que la utilidad neta sea mayor que 34.

PU  34  P13 X  18  34  P X  4  P X  5  P X  6 
2 2
  0.5
8 8

Ejercicio 5. Sea la variable aleatoria X, definida como el número de artículos defectuosos
producidos por día, cuya función de probabilidad es:
0.1, x  0
kx, x  1,2

f ( x)  P( X  x)  
k (5  x), x  3,4
0 otro caso

a. Halle el valor de k para que f(x) sea una función de probabilidad.

b. ¿Cuál es la probabilidad de encontrar por lo menos dos artículos defectuosos en un día
cualquiera?

122
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c. Halle el valor esperado y el coeficiente de variabilidad.

d. Si la empresa estima que la perdida por cada artículo defectuoso por día es de $25.0
y un gasto de reenvió de $4.5. Halle la pérdida media y el coeficiente de variabilidad.

Ejemplo 9
La v.a. continua X definida como la proporción de accidentes fatales por mes que ocurren
en determinada ciudad tiene como función de densidad:

2 x , para 0  x  1
f  x  
0 , para otros valores de x

a. Calcule la probabilidad de que la proporción de accidentes por mes sea menor que 0.4

0.4
0.4 0.4
 x2 
P  X  0.4   P  0  X  0.4    f  x  dx   2 x dx   2    x 2   0.16
0.4

 2 0
0
0 0

Nota: Como X es una v.a. continua se cumple que:

0.4
P  0  X  0.4   P  0  X  0.4   P  0  X  0.4   P  0  X  0.4    f  x  dx  0.16
0
b. Encuentre la proporción media de accidentes fatales por mes en esa ciudad.
 1 1
2 3 1 2
X  E  X    x f  x  dx   x  2 x  dx   2 x 2 dx  x  
 0 0
3  0 3

123
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c. Halle la variancia de X.
 1 1
EX    x f  x  dx   x  2x  dx   2x 2 4 1 1
2 2 2 3
dx  x  
 0 0
4  0 2
2
1 2
 X2  E  X 2    E  X       
2 1
2  3  18

d. Si Y=0.8X-0.02, calcule la media y la variancia de Y.

E(Y)=E(0.8X-0.02)=0.8E(X)-0.02= 0.5133
1
Var(Y)=Var(0.8X-0.02)= 0.8
2
Var  X   0.82    0.0356
 18 
e. Halle la P Y  0.3
P Y  0.3 = P  0.8 X  0.02  0.3  P  X  0.4   0.16

Ejercicio 6. Supóngase que la concentración que cierto contaminante se encuentra
distribuida de manera uniforme en el intervalo de 0 a 20 partes de millón (f(x)=1/20). Si
se considera tóxica una concentración de 8 o más.

a. ¿Cuál es la probabilidad de que al tomarse una muestra la concentración de ésta sea
tóxica?

b. Hallar el valor esperado y la varianza de la concentración de cierto contaminante.
e.

c. Calcule la probabilidad de que la concentración de cierto contaminante sea
exactamente 10
d.

124
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. El gerente de una empresa de transporte sabe que la distribución de la demanda de
pasajes que diariamente solicitan a su agencia es la que se presenta a continuación.
Los valores positivos indican que el número de pasajes solicitados exceden la
capacidad del ómnibus, mientras que los negativos indican que la demanda de pasajes
es menor a la capacidad del ómnibus.
0.05 X  15
0.15 X  10

f ( X )   0.55 X 0
 0.1 X  10

 0.15 X  15

a) ¿Cuál es la probabilidad que en un día la demanda de pasaje exceda la capacidad
del ómnibus?
b) ¿Cuál es la probabilidad que de tres días seleccionados aleatoriamente dos de ellos
tengan una demanda de pasajes igual a la capacidad del bus?
c) El gasto (Y, en dólares) que ocasiona a los operadores logísticos cuando la
demanda de pasajes no es igual a la capacidad del bus, puede expresarse como:
Y = 2|X|. Halle el gasto medio esperado.

2. El gerente de la empresa de juguetes plásticos le ha encargado al nuevo asistente
que investigue sobre los registros de ventas de un tipo de camioncitos y como
resultado ha calculado la siguiente distribución de probabilidades para sus ventas
anuales.
Unidades (ventas) 3000 4000 4500 5000
Probabilidad 0.2 0.4 0.2 0.2
¿Cuántos camioncitos se esperaría vender el próximo año?

3. De acuerdo con el ministerio de transporte, se sabe que el número de accidentes por
semana que ocurren en una empresa es una variable aleatoria X con función de
distribución de probabilidades dado por:

X 0 1 2 3 Otros valores
f(x) 0.28 0.35 0.22 0.15 0
a) Hallar la media, la variancia y coeficiente de variación de X.
b) Si en una semana se sabe que ocurrió al menos un accidente, ¿cuál es la
probabilidad de que en dicha semana haya ocurrido exactamente uno?
c) Si la empresa incurre en una pérdida semanal Y (soles) según el número de
accidentes dada por: Y = 10 + 8X. Hallar la pérdida esperada semanal.

4. Cierta variedad de planta es sembrada en parcelas utilizando determinado fertilizante.
Suponga que la producción X, en miles de Kilos por parcela es una variable aleatoria
continua con la siguiente función de densidad:

k  x  1 , para 1  x  3
f  x  
0 , para otros valores de x

a) Halle el valor de k.
b) Calcule la probabilidad de que una parcela tenga una producción de por lo menos
1500 Kilos pero menos de 2000 Kilos.

125
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c) Si se eligen independientemente 10 parcelas, halle la probabilidad de que en 5 de
ellas la producción sea mayor que 1000 kilos pero menor que 2000 Kg.
d) Determine el valor de la media y la variancia de X.
e) Un especialista ha establecido que debido a un nuevo fertilizante, la producción
(en miles de kilos) es una v.a. Z=1.2X-0.08. Calcule la media y la variancia de Z.
f) Halle la probabilidad de que la producción con el nuevo fertilizante sea menor que
1733.4 kilos.

5. Si el peso X, de un artículo en Kg. tiene como función de densidad:

 x  8
, para 8  x  10
f ( x)   2
 0 , de otro modo
a) Calcule E(X) y Var(X).
b) Si el precio de venta es de 2 u.m. y el costo es de 1 u.m, garantizando un reintegro
cuando el peso es menor de 8.25 Kg. Halle la utilidad esperada por artículo.

6. Suponga que el número de accidentes por semana que ocurren en una empresa es
una variable aleatoria X con función de distribución de probabilidades dada por:

X 0 1 2 3 Otros valores
f(x) 0.28 0.35 0.22 0.15 0
a) Hallar la media y la variancia de X.
b) La empresa incurre en una pérdida semanal Y según el número de accidentes dada
por Y = 10 + 8X. Hallar la pérdida esperada semanal.
c) Determinar la función de distribución acumulada.
d) Si en una semana se sabe que ocurrió al menos un accidente, ¿cuál es la
probabilidad de que haya ocurrido exactamente uno?

7. Juan Quispe planea gastar su gratificación en comprar un Blue Ray en Jim´s Video
Service a un precio de US$300. Ahora tiene la opción de comprar una póliza de
servicio extendido que ofrece cinco años de cobertura por US$100. Después de
conversar con sus amigos y leer los informes, Juan cree que puede incurrir en los
siguientes gastos de mantenimiento durante los próximos cinco años:

GASTO 0 50 100 150 200 250 300
PROBABILIDAD 0,35 0,25 0,15 0,10 0,08 0,05 0,02

a. ¿Cuál es el valor esperado de los costos de mantenimiento pronosticados?
b. ¿Debe Juan pagar US$100 por la garantía? Fundamente su respuesta

8. Sea la variable aleatoria X con la siguiente distribución:

xi p(xi)
0 a/9
1 2a/9
2 5a/9
3 a/9
a) Hallar a.
b) Hallar E(x) y V(X).
c) Hallar: E(Y) y V(Y), donde Y= 3X+4.
d) Calcular P(Y>1)

126
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Preguntas de Autoevaluación

1. El dominio de una variable aleatoria es ________________________ y su rango es
________________________
2. La función f(x) de una variable aleatoria discreta es conocida como
_________________________________. Dos de sus condiciones
son:______________________________________________
3. El rango de una variable aleatoria discreta es un conjunto _____________________
y el rango de una variable aleatoria continua es un conjunto __________________.
4. Si X es una variable aleatoria, siendo Var(X)=45 y E(X)=5, entonces E(X 2) es igual a
___________________________
5. En las siguientes funciones f(x) indique si son o no funciones de probabilidades

a) b)
X 2 4 6 8 10 X -1 0 1 2
f(x) 0.2 0.2 0.2 0.2 0.2 f(x) 0.25 0.25 0.25 0.25
c) d)
X 10 20 30 40 X 0 1
f(x) 0.2 0.2 0.2 0.2 f(x) -0.5 0.5

________________________________________________________________.

6. Para los siguientes experimentos aleatorios defina el rango de la variable aleatoria:

a) Lanzamiento de dos monedas, sea X=Número de caras obtenidas ____________
b) Observar un lote de 5 artículos, sea X=Número de artículos defectuosos ______
c) Lanzar dos dados, sea X=La suma de las caras superiores __________________
d) El número de quejas recibidas por una operadora en una semana ____________
7. Si X es una variable aleatoria, tal que P(X<12.5)=0.25 y P(X<18.5)=0.75, entonces
el rango intercuartil será igual a __________________________.

8. Si f (x)=10 ; 1 ≤ x ≤ a, el valor de “a” es igual a _________________________

9. Si f(x)=1/12; 6 ≤ x ≤ 18, verifique que E(X)=(6+18)/2 y Var(X)=(18-6)2/12;
___________________________________________________

10. Indique si es Verdadero (V) o Falso (F) cada uno de los siguientes enunciados:

Item Enunciado V/F
a. El valor esperado de una variable aleatoria es un valor que siempre
es igual a uno de los valores del rango de la variable.
b. f(x) denota la función de probabilidad si X es una V.A. discreta y
función de densidad si es continua.
c. El valor esperado de una variable aleatoria nunca puede tomar valores
negativos
d. Sean X e Y variables aleatorias, entonces Var(X-Y)=Var(X)-Var(Y)
e. Una variable aleatoria discreta y continua nunca puede tomar valores
negativos

127
UNA La Molina - Dpto. de Estadística e Informática Estadística General

CAPÍTULO VIII

PRINCIPALES DISTRIBUCIONES DISCRETAS

Se estudiarán las principales distribuciones que corresponden a las variables aleatorias
discretas que son utilizadas muchas aplicaciones en el mundo real, conociendo su función
de probabilidad.

A continuación se presentan las principales distribuciones discretas:

 La distribución de probabilidad binomial
 La distribución de probabilidad hipergeométrica
 La distribución de probabilidad Poisson

Objetivo. Identificar y aplicar una variable aleatoria discreta, asociada alguna de las
principales distribuciones discretas estudiadas.

8.1 La Distribución Binomial

Experimento Binomial

Hay muchos experimentos que se ajustan ya sea exacta o aproximadamente a las
siguientes propiedades:

1. El experimento consiste en una secuencia de n intentos (experimentos de
Bernoulli), donde n se fija antes del experimento.
2. Los intentos son idénticos, y cada uno de ellos puede dar lugar a dos posibles
resultados, llamados: éxito (E) o fracaso (F).
3. Los intentos son independientes, por lo que el resultado de cualquier intento
particular no afecta el resultado de cualquier otro intento.
4. La probabilidad de éxito es constante de un intento a otro; se denota esta
 
probabilidad por P E   . La probabilidad de fracaso es P  F   1  

Ejemplo 1
En una tienda la llegada de un cliente y determinar si compra o no es un experimento de
Bernoulli donde éxito: E = {un cliente compra} y fracaso: F = {un cliente no compra}.
 
Se sabe que el 75% de los clientes que llegan hacen una compra, entonces P E   =
0.75.
Si a la tienda llegan 20 clientes, este sería un experimento binomial donde n=20 y =
0.75

La Función de Probabilidad Binomial

Dado un experimento binomial entonces la v.a.d. binomial X se define como el número
de éxitos en n intentos, y su función de probabilidad está dada por:

 n  x
   1   
n x
x  0, 1, 2, , n
f x   P X  x    x 

 0 de otro mod o
Notación: X ~ Binomial  n ,  

128
UNA La Molina - Dpto. de Estadística e Informática Estadística General

La Media y la Variancia de X

Si X ~ Binomial  n ,   entonces:   EX   n y  2  Var  X   n  1   

Ejemplo 2
Un examen consta de n = 25 preguntas, cada una de las cuales tiene 5 alternativas de
las cuales sólo una es correcta, si una persona está adivinando al responder y se desea
saber el número de respuestas correctamente respondidas.

Entonces, este es un experimento Binomial con éxito: E={la respuesta es correcta} y

P E    
1
fracaso: F={la respuesta no es correcta} y siendo: .
5
Sea la v.a. X=El número de respuestas correctas en las 25 preguntas,
X  Binomial (25,0.2)

La distribución de probabilidad Binomial será:
 25 
f x     0.2 x  0.825 x x  0,1, 2, ...,2 5
x 
La probabilidad de que la persona acierte por lo menos 3, pero menos de 5 preguntas es:

P(3 ≤ X < 5) = P(X=3)+P(X=4) = 0.1358+0.1867=0.3225

Ejemplo 3
Siguiendo con el Ejemplo 1.
Éxito: E={un cliente compra} y fracaso: F ={un cliente no compra}. Se sabe que el 75%
 
de los clientes que llegan hacen una compra, entonces P E   = 0.75.
Si a la tienda llegan 20 clientes, este sería un experimento Binomial con n=20 y  = 0.75.
Solución.
Sea v.a. X=El número de clientes que hacen una compra. La distribución de
 20 
probabilidades se define: f x     0.75x  0.2520  x x  0,1, 2, ...,2 0
x 
La probabilidad de que el número de clientes que hacen una compra sea mayor que 18
sería:
 20   20 
P( X  18)    0.75190.251    0.75200.250  0.0211  0.0032  0.0243
 19   20 

Ejemplo 4
Una compañía vendedora de equipos electrónicos verifica que de todas las máquinas por
ella instaladas, el 40 % exigen nuevos ajustes después de su instalación. Si 5 máquinas
fueron seleccionadas al azar:

a. ¿Cuál es la probabilidad de que al menos 3 requieran trabajos de ajuste después de
la instalación?

El experimento aleatorio que consiste en determinar el número de máquinas que
requieren ajustes, en un grupo de 5, es un experimento Binomial con éxito: E={una
 
máquina requiere ajustes} y P E    0.4 .

La v.a.d. X definida como el número de máquinas, que requieren ajustes, en un grupo
   
de 5, es una v.a. binomial. X ~ Bin n , ~ Bin 5,0.4 , entonces:

129
UNA La Molina - Dpto. de Estadística e Informática Estadística General

5 
f x     0.4 x  0.65 x x  0,1, 2, 3, 4, 5
 x
5
5 
P X  3  f 3  f 4  f 5     0.4 x  0.65 x  0.2304  0.0768  0.0102  0.3174
x 3  x 

b. La compañía estima que el costo del ajuste después de la instalación es de 100 um
por máquina y que este costo lo debe pagar la compañía ¿Cuál es el costo esperado
para la firma?

Solución.-
Sea la v.a. Y definida como el costo de las máquinas que necesitan ajuste en un
grupo de 5.
Y = 100 X y como:
   
X ~ Bin n , , entonces E X  n   5  0.4  2 por lo tanto:

E Y   E 100 X   100 E  X   100  2  200 um

Ejemplo 5
El gimnasio “El Rápido” ha comprobado que el 20% de sus alumnos se dan de baja
durante el primer mes y el 80% restante permanecen todo el año. Suponga que este año
se inscribieron 20 alumnos.

a. ¿Cuál es la probabilidad de que se den de baja más de dos alumnos?

Sea la v.a. X=número de alumnos que se dan de baja en el gimnasio.
π=0.20 y n=20; entonces: X ~ Binomial (20;0.20)

p(X > 2) =1- p(X ≤ 2) =1-0.20608472 = 0.79391528

b. ¿Cuál es la probabilidad de que permanezcan 12 alumnos todo el año?
Sea la v.a. Y=número de alumnos que permanecen todo el año en el gimnasio.
π=0.80 y n=20; entonces: Y~ Binomial (20;0.80)

P(Y=12) = 0.02216088

c. Al hacer la inscripción se realiza un único pago anual de $ 600. Si cada alumno que
permanece todo el año genera un gasto anual para el gimnasio de $ 150, ¿cuál es el
beneficio anual esperado para el gimnasio?

Ingreso: I = 600*20=12000 Gasto: G= 150*(20-X)
Beneficio: B = 12000 - (3000 – 150X) = 9000+150 X
Se tiene: E(X) = 20*0.2=4
E(B) = 9000+150*4 = 9600

130
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 1. Se conoce por experiencias anteriores que el 20% de las plantas de limonero
son atacadas por cierta plaga. Si se desea llevar a cabo un experimento con 10 plantas.
¿Cuál será la probabilidad de que:

a. 5 plantas sean atacadas?

b. 3 o más plantas sean atacadas?

c. más de 1 pero menos de 5 plantas sean atacadas?

d. ¿Cuál es el número esperado de plantas enfermas en la muestra?. ¿Cuál es la
desviación estándar?

131
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 2. Una institución educativa conmemora sus 100 años de fundación, con tal
motivo la junta directiva ha invitado a sus 25 profesores fundadores a la ceremonia
principal. Se cree que la probabilidad de que un profesor fundador asista a la ceremonia
es de 0.75.
a. ¿Cuál es la probabilidad de que al menos 96% de los profesores fundadores asistan?

b. Si ya confirmaron su asistencia al menos dos profesores fundadores, ¿cuál es la
probabilidad de que confirmen su asistencia más de 23 profesores fundadores?

c. La empresa que da servicios de buffet cobra por persona $35 màs $ 5 por servicio,
halle el costo esperado para la ceremonia.

Ejercicio 3. Cierta clínica cuenta con una población de 20 enfermos, donde el 25%
padece de algún tipo de cáncer. Se selecciona con reemplazo una muestra de 4 enfermos.

a. ¿Cuál es la probabilidad de haber seleccionado por lo menos un enfermo con cáncer?

132
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. Hallar el número esperado de enfermos con cáncer.

Ejercicio 4. Un estudiante se presenta a un examen de selección múltiple contiene 20
preguntas cada una con 5 respuestas opcionales (de las cuales sólo una es la correcta).
El estudiante está adivinando al momento de responder cada pregunta. Si para aprobar
el curso el estudiante debe responder correctamente más de 17 preguntas
correctamente. ¿Cuál es la probabilidad de que desapruebe el curso?

8.2 La Distribución Hipergeométrica

Los supuestos que se consideran para una distribución hipergeométrica son:

1. La población o conjunto donde se hace el muestreo tiene N elementos, individuos u
objetos (una población finita)
2. Cada elemento puede ser caracterizado como un éxito (E) o fracaso (F), y hay A
éxitos en la población entonces son (N-A) fracasos.
3. Se saca una muestra, sin reemplazo, de n elementos de tal forma que sea igualmente
probable obtener cada subconjunto de tamaño n.

La Función de Probabilidad Hipergeométrica
La v.a.d. hipergeométrica X está definida como el número de éxitos en la muestra de
tamaño n.
Notación: X ~ Hiper  N , n, A 
Si X ~ Hiper  N , n, A  entonces su distribución de probabilidad es:

 A  N  A
   

f x   P X  x      
x n x
para x entero t.q máx0, n  A  N   x  min n, A
  N
 
n 

La Media y la Variancia de X
A A N n
  EX   n ,  2  Var X   n 1   
A
Si X ~ Hiper  N , n, A  entonces: 
N N  N   N 1 

133
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 6
Un embarque de sustancias químicas llega en 15 contenedores, 2 de los cuales no
cumplen con los requerimientos de pureza. Se eligen 3 contenedores al azar, sin
reemplazo, para hacer una inspección de la pureza del producto. Calcule la probabilidad
de que al menos uno de los contenedores que no cumplen los requerimientos esté en la
muestra.

La v.a.d. hipergeométrica X se define como el número de contenedores que no cumplen
los requisitos, entonces X ~ Hiper  N , n, A  ~ Hiper 15,3, 2  por lo tanto:
 2   13 
   
 x   3  x 
f x   P X  x   , máx0, 3  15  2   x  min 3, 2 o x  0, 1, 2
15 
 
3 
 2  13   2  13 
       
P X  1  P X  1  P X  2             0.3714
1 2 2 1
15  15 
   
3 3

Ejemplo 7
Una estación experimental se compone de 4 ingenieros agrónomos y 9 técnicos agrícolas.
Si se elige al azar y sin reemplazo a 3 individuos para asignarlos a un trabajo de campo,
¿cuál es la probabilidad que el grupo asignado al trabajo de campo incluya al menos 2
ingenieros agrónomos?

Sea la v.a. x: Número de ingenieros agrónomos incluidos en el trabajo de campo.

x ~ H 13,3, 4  N  13 , n  3 , A  4 , x=0,1,2,3
13  4  4  13  4  4 
     
 
p x  2  p x  2  p x  3        3   0.189  0.014  0.203
3 2 2 3 3
13  13 
   
3 3

Ejemplo 8
Un determinado antibiótico es empacado en cajas de 20 botellas. Suponga que una caja,
la cual es enviada a una farmacia hay 5 botellas mal envasadas. El dueño de la farmacia
sospecha que la cantidad de antibiótico en algunos de frascos es insuficiente por lo
selecciona al azar y sin reemplazo una muestra de tres frascos y decide que si encuentra
la mitad o más de frascos mal envasados en esa muestra cambiará de distribuidor. ¿Cuál
es la probabilidad de que el dueño de la farmacia no cambie de distribuidor?

Solución.-
N  20 n  3 A=5 N-A = 15 x  0,1,2,3
 5 15   5 15 
      
P( x  2)  P( x  0)  P( x  1)        =0.859
0 3 1 2
 20 
 
3 

134
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 5. Un lote contiene 15 semillas de cierto cultivo, de los cuales 8 están dañadas.
Sea X la variable aleatoria el número de semillas dañadas. Del lote se toma una muestra
aleatoria sin reemplazo de 5 semillas.

a. ¿Cuál es la probabilidad de que en la muestra se haya seleccionado por lo menos tres
semillas dañadas?
a.

b. ¿Cuál es la probabilidad de que la muestra no contengan semillas dañadas?

Ejercicio 6. En el almacén de una compañía hay 10 impresoras y 4 de ellas son
defectuosas. Un usuario selecciona al azar y sin reemplazo 5 de ellas para usarlas.

a. ¿Cuál es la probabilidad de que las cinco impresoras seleccionadas no tengan
defectos?

b. El usuario regresa las defectuosas para su reparación. Se sabe que cuesta 50 u.m.
reparar cada impresora. Calcule el promedio y la variancia del costo total de
reparación.

135
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 7. Un ingeniero zootecnista sabe que en cierta región hay 8 individuos de una
especie de mamífero, de los cuales cinco son machos y el resto son hembras. Si selecciona
al azar a cuatro individuos y observa el número de machos seleccionados.
a. ¿Qué valores posibles podría tomar la variable mencionada?

b. ¿Cuál es la probabilidad que haya más de un macho?

c. ¿Cuál es la probabilidad que haya el mismo número de machos y hembras?

d. Halle la media y la varianza

8.3 La Distribución de Poisson

Una v.a.d. X tiene distribución Poisson con parámetro 0 si su función de probabilidad
es:
e   x
f  x   P X  x   x  0,1, 2,
x!
Esta distribución tiene dos aplicaciones:

 Si X ~ Bin  n ,   con n y   0 entonces X ~ Pois  n 
 Proceso de Poisson (ésta es la que se usará en el libro)

136
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Proceso de Poisson

El proceso de Poisson es un experimento aleatorio en el que ocurren sucesos en un
intervalo dado de longitud t.

Propiedades de un Proceso de Poisson

1. Los sucesos son de la misma clase u homogéneos.
2. Los sucesos en un intervalo son independientes de los sucesos en otros intervalos
no superpuestos.
3. El promedio de sucesos por unidad de intervalo (t = 1), es conocido e igual a v.

La v.a.d. X definida como el número de sucesos que ocurren en intervalos de longitud t,
sigue un proceso de Poisson.

Como ejemplos de variables aleatorias Poisson, se tienen las siguientes:

a. El número de accidentes fatales por semana en una ciudad.
b. El número de fallas que hay en cada 2.5 m 2 de tela.
c. El número de renacuajos por cada 4 litros de agua, en cierto estanque.

Función de Probabilidad para un Proceso de Poisson

La v.a.d. X definida como el número de sucesos que ocurren en intervalos de tamaño t.
e v t v t 
x
f  x   P X  x   x  0,1, 2,
x!
donde:v = promedio de sucesos por unidad de intervalo.
t = tamaño del intervalo (ejemplo: t = 2.3, t = 5.8 etc.).
vt = promedio de sucesos por intervalo de tamaño t

Notación: X ~ Pois vt 
e  x
También se puede expresar: f  x   P X  x   x  0,1, 2,
x!
Donde   vt , X ~ Pois  

La Media y la Variancia de X

Si X ~ Pois   entonces:   E  X    y  2  Var  X    con   vt

Ejemplo 9
Los mensajes que llegan a una computadora, utilizada como servidor, lo hacen de acuerdo
con una distribución Poisson con una tasa promedio de 10 mensajes por hora.

a. Calcule la probabilidad de que lleguen 7 mensajes en 2 horas.

Sea la v.a Y = El número de mensajes que llegan al servidor en 2 horas.(t = 2)
Unidad de intervalo = 1 hora
v=promedio de sucesos por unidad de intervalo = 10

t=tamaño del intervalo = 2
vt = promedio de sucesos por intervalo de tamaño t = 10x2

137
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Y ~ Pois (vt) ~ Pois (102) ~ Pois (20) , entonces:

e 20 20 y
f  y   P Y  y   y  0, 1, 2,
y !
e 20 207
P Y  7    0.00052
7 !

b. Encuentre el intervalo de tiempo necesario para que la probabilidad de que no lleguen
mensajes, durante ese lapso, sea 0.9.

Sea la v.a Z = El número de mensajes que llegan al servidor en k horas.(t = k)

Z ~ Pois (vt) ~ Pois (10k) ~ Pois (10k), entonces:

e 10 k 10k 
z

f  z  PZ  z  z  0, 1, 2,
z !
e 10 k 10k 
0

P  Z  0   e10 k  0.9  k  0.0105 horas
0 !
Nota: La ecuación anterior se resolvió tomando logaritmos.

Ejemplo 10
Se cree que el número promedio de individuos por cada 2 km 2 de cierta especie de
mamífero que habita en las alturas de cierta región es de 1.2.

a. En una zona de 2.8 km2, ¿ cuántos individuos esperaríamos en promedio encontrar?.

Sea la v.a. X=Número de individuos en 2 km2
El número de individuos que habitan en promedio será:   2.8(1.2) / 2  1.68

b. Si se observa un área de 3 km2 en dicha región, ¿cuál es la probabilidad que se
encuentren más de 3 individuos de esta especie?

Sea la v.a. X: Número de individuos en 3km21
  3(1.2) / 2  1.8
3
e1.8 (1.8) x
p( x  3)  1  p( x  3)  1    1  0.8912  0.1087
x 0 x!

c. Si se selecciona dos áreas independientemente de 3 km2 cada una. ¿Cuál es la
probabilidad que en cada una de estas áreas haya más de 2 individuos?

Probabilidad que haya en un área de 3 km2 más de 2 individuos:
2
e1.8 (1.8) x
p( x  2)  1  p( x  2)  1    0.269378
x 0 x!
Probabilidad que haya en un área de 3km2 más de dos individuos.

Y: número de áreas con más de dos individuos. Y: 0, 1, 2.
p( y  0)  (1  0.2694) 2  0.5338

138
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 8. A cierta fábrica de laminados de madera llegan por término medio 3 clientes
cada 2 horas. Suponiendo que las llegadas se distribuyen de acuerdo a una distribución
de Poisson, calcule:

a) La probabilidad de que en una mañana de trabajo (de 9:30 a 13:30 horas) lleguen
más de 2 clientes.

b) La probabilidad de que el primer cliente llegue en la primera media hora de trabajo.

c) La probabilidad que en una semana lleguen entre 10 y 14 clientes. (Suponer 6 días
de trabajo a 8 horas diarias).

139
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 9. El número de barcos que llegan a un puerto cada semana es una variable
aleatoria que tiene distribución de Poisson con media igual a 9 barcos.

a. ¿Cuál es la probabilidad que en una semana lleguen exactamente 5 barcos?

b. ¿Cuál es la probabilidad de que en tres días lleguen a lo más 2 barcos?

c. ¿Cuál es la probabilidad de que en una semana lleguen más de 3 barcos si se sabe
que ya llegó al menos un barco en la semana?

d. Un aduanero sabe que el costo de mantenimiento del puerto por semana está en
función del número de barcos que arriban, si no llegan barcos el costo es de 2 mil
soles si llega un barco el costo es de 3 mil soles y si llegan dos o más barcos el costo
es de 5 mil soles. Halle la distribución del costo y el costo esperado por
mantenimiento del puerto por semana.

140
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Práctica Dirigida N° 5

1. Una empresa constructora tiene para ejecutar varios proyectos de inversión
inmobiliarios, los cuales tienen 50% de éxito cada uno. Finalmente, decide invertir
en tres proyectos. Sea X la variable aleatoria definida como el número de proyectos
exitosos menos el número de proyectos fracasados. Determine la función de
distribución de probabilidades de la variable X.

2. El siguiente gráfico muestra la distribución de probabilidades de la variable aleatoria
X, definida como el número de reclamos de los clientes de una compañía de seguros.
Distribución del número de reclamos

f(x) 0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
0 2 4 6 8 10
Número de reclamos

a) Halle la probabilidad que la compañía de seguros tenga al menos 6 reclamos.

141
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b) Si la empresa estima que por cada reclamo el tiempo perdido es de 10 minutos.
Calcule el coeficiente de variación del tiempo perdido por los reclamos.

3. Se sabe que en un embarcadero de un Club de yates, el pago anual (en miles nuevos
soles) por yate que realiza los socios, es una variable aleatoria que tiene la siguiente
función de densidad.
x
 2 x8
f ( x)   30
0 otro caso

a. ¿Qué porcentaje de socios realizan un pago por yate de al menos de 3500?.

b. Halle el pago esperado y su coeficiente de variación

142
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c. Si se extrae una muestra de 5 socios, halle la probabilidad que tres hayan
realizado un pago anual entre 3000 y 6000 nuevos soles.

4. La oficina de inspección de salud de una municipalidad ha iniciado una campaña con
la finalidad de detectar avícolas que no cumplen con las normas de sanidad avícolas.
Con esta finalidad se realiza 8 visitas cada día a las avícolas de Lima Metropolitana.
En campañas pasadas, se ha determinado que el 12% de las avícolas fueron
multadas.

a. Defina la variable aleatoria en estudio y su distribución de probabilidad.

b. Halle la probabilidad que se multe a lo más dos avícolas.

c. Halle la probabilidad de que se multen más de tres pero menos de seis avícolas.

143
UNA La Molina - Dpto. de Estadística e Informática Estadística General

d. Halle la probabilidad que ninguna avícola sea multada.

e. ¿Cuántas avícolas se esperan que sean multadas?.

5. En la oficina de recursos hídricos de una entidad estatal, existen 6 ingenieros
agrícolas y 4 ingenieros civiles. Se sabe que la oficina debe enviar a 5 ingenieros para
un curso de capacitación en Manejo del Agua.

a. Defina la variable aleatoria en estudio y su distribución de probabilidad, para los
ingenieros agrícolas.

b. ¿Cuál es la probabilidad que asista al curso al menos dos ingenieros agrícolas?.

c. ¿Cuál es la probabilidad que asista ningún ingeniero agrícola?

144
UNA La Molina - Dpto. de Estadística e Informática Estadística General

d. ¿Cuál es la probabilidad que asistan al curso tres ingenieros civiles?

e. Si el costo por persona para asistir al curso es $350 más $50 por movilidad. ¿Cuál
es el costo esperado que pagará la entidad estatal para que asistan al curso los
ingenieros agrícolas?.

6. Una empresa que ofrece los servicios de la tecnología de Computación en la Nube
(Cloud Computing), desea analizar la capacidad de sus servidores con la finalidad de
ampliar los servicios a pequeñas empresas del interior del país. Si se sabe que el
número de mensajes que llegan a su servidor central, lo hacen de acuerdo con una
distribución de Poisson con una tasa promedio de 1.5 mensajes por minuto.

a. Calcule la probabilidad de que llegue al menos dos mensaje en media hora.

b. Calcule la probabilidad de que llegue como máximo tres mensaje en una hora.

c. Si se sabe que ya llegaron al menos tres mensajes, calcule la probabilidad que
lleguen a lo más seis mensajes en 10 minutos

145
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. Halle la probabilidad de que exactamente 9 de 10 tubos de vacuna duren como
mínimo 1000 horas. La probabilidad que estos tubos duren como mínimo 1000 horas
es de 0.80.

2. El número de rayos gamma emitidos por segundo, por cierto sustancia radioactiva
es una variable aleatoria que tiene una distribución de Poisson con parámetro igual
a 5.6. Si un instrumento de medida se daña cuando recibe por lo menos 3 radiaciones
por segundo. ¿Cuál es la probabilidad que este instrumento se dañe?

3. La posibilidad de que cada muestra de aire contenga una molécula rara es 10 %. Si
se van a tomar 18 muestras para analizar y asumiendo que las muestras son
independientes con respecto a la presencia de la molécula. Halle la probabilidad de
que exactamente 2 muestras contengan la molécula rara.

4. Juan es un dentista que atiende todos los días a sus clientes de 9:00 am a 4:00pm y
se ha registrado el número de clientes atendidos cada tres días, en una muestra de
tamaño 5 obteniéndose: 18, 21, 19, 20 y 17. Se sabe que el número de clientes que
van a consultar sigue una distribución de Poisson.

a. Si se observa 5 días de atención. ¿Cuál es la probabilidad de que sólo hayan ido
tres personas a consultar al dentista?
b. Encuentre el intervalo de tiempo necesario para que la probabilidad de que no
lleguen clientes sea 0.08.

5. En una población de drosóphila, que ataca a cierta variedad de fruta, se sabe que el
25% ha desarrollado mutación en las alas. Si se escogen aleatoriamente 6 moscas de
esta población:
a. ¿Cuál es la probabilidad de que 2 de estas moscas presenten mutación de alas?
b. ¿Cuál es la probabilidad que más de tres presenten mutación de alas?
c. ¿Cuál es la probabilidad que a lo más una mosca presente mutación de alas?
d. Si se sabe que más de una presenta mutación de alas, ¿Cuál es la probabilidad
que como máximo 4 presenten mutación de alas?

6. La probabilidad que la llanta trasera derecha de un auto tipo “Tico” reviente al entrar
a una curva es de 0.05. Encontrar la probabilidad que de 16 autos tipo “Tico” que
pasan por la curva:
a. Se revienten la llanta trasera derecha de a lo más 3 autos
b. Se revienten la llanta trasera derecha de dos o más autos.

7. En una pecera se encuentra 20 pececillos ornamentales, de los cuales cinco son de
color anaranjado y el resto no. El dueño de esta pecera ha decidido regalar la pecera
a su mejor amigo si al seleccionar una muestra al azar sin reemplazo de tres pececillos
la mitad o menos son de color anaranjado. ¿Cuál es la probabilidad que el dueño de
la pecera regale ésta a su mejor amigo?

8. En un estudio se encontró que el número total de animales muertos cerca de una
carretera de 30 Km. fue de 18. Si el número de animales muertos cerca de la
carretera tiene distribución Poisson, calcule la probabilidad de encontrar al menos 2
animales muertos en 4.5 Km. de carretera. (Sugerencia v = 18/30 = 0.6).

9. Dos cápsulas se seleccionan sin reemplazo de un frasco que contiene tres aspirinas,
dos sedantes y cuatro cápsulas laxantes. ¿Cuál es la probabilidad de no seleccionar
aspirinas?

146
UNA La Molina - Dpto. de Estadística e Informática Estadística General

10. Se sabe que en el centro de Lima ocurre en promedio un asalto cada dos minutos
entre las 6:00 p.m. y las 8:00 p.m. María sale de su trabajo a las 6:30 p.m. y debe
caminar desde la Plaza San Martín hasta la Av. Tacna con dirección hacia el paradero.
Si el trayecto le toma 4 minutos. ¿Cuál es la probabilidad que María llegue a su
paradero sin que haya ocurrido algún asalto?

11. Los pasajeros de las aerolíneas llegan al azar e independientemente a la sección de
documentación de un aeropuerto con una frecuencia promedio de llegadas de 10
pasajeros por minuto. ¿Cuál es la probabilidad de que a lo más un pasajero llegue en
15 segundos?

12. Un determinado antibiótico se envía a las farmacias en cajas de 24 frascos. El
farmacéutico sospecha que la cantidad de antibiótico en algunos de los frascos es
insuficiente y decide analizar el contenido de 5 frascos escogidos al azar sin
reemplazo. Suponga que 14 de los 24 frascos tienen cantidad insuficiente de
antibióticos. ¿Cuál es la probabilidad de que por lo menos 4 frascos tengan cantidad
suficiente de antibióticos?

13. Según una encuesta hecha a un grupo de 10 personas, seis de ellas prefieren la
gaseosa Inca Kola y 4 de ellas Coca Cola. Si se seleccionan a 3 personas de ese grupo.
¿Cuál es la probabilidad de que hayan 2 que les guste Inca Kola?

14. Se sabe, por experiencia, que el 42% de todas las personas que reciben un ejemplar
gratuito de una revista se suscriben a ella, calcule la probabilidad de que, a lo más 3
de las 6 personas seleccionadas al azar que reciben un ejemplar gratuito de una
revista se suscriben a la revista.

15. Si el número de solicitudes de información sobre cruceros que recibe una agencia de
viajes por día es una variable que tiene una distribución de Poisson con variancia 2.4.
Halle la probabilidad de que:

a. Ningún solicitante sea recibido en medio día.
b. Al menos dos solicitantes sean recibidos en dos días.

16. Se cree que el número promedio de individuos por cada 2 km2 de cierta especie de
mamífero que habita en las alturas de cierta región es de 1.2. Además se conoce que
el número de individuos por área de esa región tiene una distribución de Poisson.
a. En una zona de 2.8 km2, cuántos individuos esperaríamos en promedio encontrar.
b. Si se observa un área de 3 km2 en dicha región, ¿cuál es la probabilidad que se
encuentren más de 3 individuos de esta especie?
c. Si se selecciona dos áreas independientemente de 3km 2 cada una. ¿Cuál es la
probabilidad que en cada una de estas áreas no haya más de 2 individuos?

17. La empresa FERTISA se dedica a la producción de fertilizantes y tiene ciertos
problemas en el envasado de sus productos. Un lote de 100 sacos que contienen 8
defectuosamente envasados ha sido remitido a la firma Agrouna.
a. Si dicha firma selecciona 10 sacos aleatoriamente, ¿cuál es la probabilidad de que
encuentre 3 sacos mal envasados?
b. Dicha firma aceptará el lote si al seleccionar 10 sacos no encuentra defecto en
ninguno de ellos. Si se remiten 10 lotes con 8 sacos defectuosos cada uno, ¿cuál
es la probabilidad de que a lo más 1 lote sea rechazado?

147
UNA La Molina - Dpto. de Estadística e Informática Estadística General

18. Un biólogo marino ha determinado que el número de avistamientos promedio de
mamíferos marinos por hora en alta mar es de 3.2.
a) Si decide contar el número de ejemplares durante 4 horas ¿cuál es la probabilidad
de que se observe entre 10 y 12 ejemplares (ambos números incluidos)?
b) Si se establecen jornadas de trabajo de 6 horas, ¿cuál será el número promedio
de avistamientos por jornada?
c) Se sabe también que el 35% de los avistamientos corresponden a delfines. Si en
un día se observaron 10 animales, ¿cuál es la probabilidad de que se hayan
observado por lo menos 2 delfines?

19. Los agricultores de una región están preocupados por la calidad de sus cosechas, ya
que se ha detectado en ciertas áreas la existencia de sustancias contaminantes en el
suelo. Para analizarla, se segmenta la tierra en parcelas de 100 m 2, y se concluye
que hay una probabilidad de 0.6 de encontrar estos contaminantes en una
determinada parcela. Se pide:
a) Si un agricultor posee 15 de estas parcelas. ¿Qué probabilidad hay de que tenga
alguna parcela contaminada?
b) Una comunidad posee 100 parcelas del tipo anterior. ¿Qué probabilidad hay de
que tenga entre 10 y 15 parcelas contaminadas?
c) Si por cada parcela contaminada la cooperativa sufre una pérdida de 1000 nuevos
soles, ¿cuál es la pérdida que la comunidad espera tener?.

20. El gerente de una empresa dedicada realizar copias de CD sabe por información
histórica el 93% de los CD que provee la compañía Lotus international son no
defectuosos. Si selecciona al azar 5 CD, ¿cuál es la probabilidad que 3 sean no
defectuosos, si se sabe que al menos uno es no defectuoso?

21. Por factores internacionales el precio del petróleo ha sufrido ciertas variaciones en
los últimos meses. REPLUSA ha determinado que la probabilidad de que varíe el
precio del petróleo es de 0.60. Si se va a realizar 10 compras de petróleo:
¿Cuál es la probabilidad que el número compras de petróleo donde el precio tiene
variación sea menor que su esperado?

22. Los camiones que reparten el combustible a los diferentes grifos de la capital llegan
a las instalaciones de la refinería a un promedio de tres cada 20 minutos. Si las
instalaciones sólo tienen capacidad para recibir 10 camiones por hora, ¿cuál es la
probabilidad de que una hora los camiones tengan que regresar en otro momento?

148
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Preguntas de Autoevaluación

1. Los parámetros de la distribución Binomial son _______________________, de la
distribución Hipergeométrica son _________________________ y la distribución
Poisson son ________________________

2. La distribución Binomial está asociada al muestreo __________________________
mientras la distribución Hipergeométrica al muestreo _______________________ .

3. Si X  Poisson(4) e Y  Bin(10,0.35), entonces el coeficiente de variabilidad de X e Y
son ______________________________________ respectivamente.

4. Sea la variable aleatoria: X=Número de autos que vende diariamente una
distribuidora, con una media igual a 8.5 y una variancia de 6.25, sabiendo que la
ganancia (en $) de la distribuidora se puede definir por: G=550 X – 200, entonces la
desviación estándar de la ganancia será ______________________________.

5. Si en una poza de crianza hay 200 truchas, de las cuales el 45% son hembras. Si se
toma una muestra aleatoria con reemplazo de 20 truchas, la variable aleatoria número
de truchas hembras tiene una distribución _________________________.

6. Sea la variable aleatoria H~Hip(N=18,n=12,A=8) entonces el rango de H es el
conjunto ________________________.

7. Si la variable aleatoria X=Número de llamadas que a una central telefónica en una
hora tiene una distribución Poisson y P(X=2)=2/3P(X=1), entonces el número
esperado de llamadas que llegan en una hora es igual a ______________________

8. El rango de una variable aleatoria que se distribuye como una Binomial es un conjunto
_____________________, para una Hipergeométrica es un conjunto
_________________________ y para una Poisson ________________________.

9. En un terreno después de rociar con cierto insecticida, se determinó que el número
promedio de insectos vivos es de 4.5 por cada 2 mt2. Asumiendo que el número de
insectos vivos tiene distribución Poisson, la probabilidad de que en 1.5 mt2 de terreno
se encuentren 5 insectos vivos es ________________________________.

10. Indique si es Verdadero (V) o Falso (F) cada uno de los siguientes enunciados:

Item Enunciado V/F
a. En un experimento binomial, la probabilidad de éxito de un intento a
otro puede variar.
b. Si la variable aleatoria X se distribuye como una Binomial con
P(Éxito)=0.5, entonces la probabilidad de k éxitos es igual a la
probabilidad de k fracasos.
c. Si X es una variable aleatoria que se distribuye como una
Hipergeométrica, entonces el número de éxitos nunca puede ser mayor
al de fracasos.
d. Para una variable aleatoria que se distribuye como una Poisson, la
media y desviación estándar son iguales.
e. El rango de una variable aleatoria que se distribuye como una Poisson
es un conjunto finito.

149
UNA La Molina - Dpto. de Estadística e Informática Estadística General

CAPÍTULO IX

DISTRIBUCIONES CONTINUAS

Se estudiarán algunas variables aleatorias continuas particulares cuya distribución de
probabilidades se conoce. También se conocerán las principales distribuciones continuas
y las distribuciones muestrales asociadas a ellas, que se utilizarán posteriormente en
inferencia estadística (intervalos de confianza y para hacer pruebas de hipótesis).

Objetivo. Al finalizar este capítulo el lector conocerá los conceptos y aplicaciones de las
principales distribuciones continuas.

9.1 Distribución Exponencial

La variable aleatoria continua X tiene distribución exponencial con parámetro β con media
igual a E(X)= β y variancia V(X) = β2, si su función de densidad es:

 1 x / 
 e para x  0;  0
f ( x)   
0
 para cualquier otro caso

Su notación: X ~ E(β)

Gráficamente se representa:

Función acumulada (calcular la probabilidad):

1  e x /  para x  0;   0
F ( x)  P( X  x)   <
0 para x < 0

 P( X < k )  p  k    Ln(1  p)
Para hallar percentiles: 
 P( X > k )  p  k    Ln( p)

150
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 1
El tiempo de demora en entregar una pizza tiene distribución exponencial con media igual
a 25 minutos. Si la pizzería ofrece su producto con la promoción “si recibe su pizza
después de 30 minutos usted no paga nada”. Calcule:

a) La probabilidad de que una pizza sea entregada de manera gratuita a un cliente.
b) Si se entregan 12 pizzas, ¿cuál es la probabilidad de que 3 sean gratuitas?
c) ¿Cuál debe será el tiempo como máximo, para considerar un pedido de pizza dentro
del 25% de menor tiempo?

Solución:
a) Sea X: tiempo de demora en entregar una pizza
X~ E(25)
 30  30
P(pizza gratis) = P(X>30) = 1- P(X≤30) = 1  (1  e 25
)e 25
 0.3012

b) Y= Número de pizzas gratuitas entregadas de un total de 12
Y~ B(12,p)
p= P(pizza gratis) = 0.3012
P(Y=3) = 0.2389

c) Se tiene que: P( X  k )  0.25  k  25 xLn (1  0.25)  7.19 min utos

Ejercicio 1. El tiempo para un proceso de congelamiento de hongos comestibles tiene
una distribución exponencial con promedio de 4.5 minutos.
a. ¿Cuál es la probabilidad que un proceso de congelamiento dure a lo más de 5
minutos?

b. Sabe que el proceso de congelamiento no debe durar más de 6 minutos, de lo
contrario el hongo puede malograse. ¿Cuál es la probabilidad que el hongo se
malogre?

151
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c. ¿Cuál debe ser el tiempo como mínimo para ser considerado un proceso de
congelamiento, dentro del 20% de mayores tiempos?

d. ¿Cuál es la desviación estándar del tiempo de congelamiento?

9.2 Distribución Normal

La Distribución Normal fue hallada por primera vez en 1733, por A. De Moivre. Pero el
descubrimiento de De Moivre al parecer pasó inadvertido y fue “redescubierta” por C.F
Gauss en 1809 y P.S Laplace en 1780 hizo trabajos preliminares que profundizó en 1812.

En Estadística una buena cantidad de variables continuas (peso, longitud, ingresos,
temperatura etc.) se consideran que tienen Distribución Normal (se dice que es lo normal
que tenga esa distribución).

La variable aleatoria continua X tiene distribución normal con media  y variancia 2 si su
función de probabilidad es:

2
1  x 
1   
f  x  e 2  
,   x         > 0
2 
Notación: X  N( , 2)

152
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Características de la distribución normal

1. Tiene forma acampanada.
2. Es simétrica respecto a la recta X = 
3. Es asintótica respecto al eje X

En el gráfico anterior se aprecia dos distribuciones normales con igual promedio pero
diferente desviación estándar (a menor desviación estándar los datos están más cerca de
la media)

9.3 Distribución Normal Estándar

Si X  N( , 2), entonces la v.a.c. Z = (X - ) /  se dice tiene distribución normal
estándar; su media es 0, su variancia 1 y su función de probabilidad es:

1  12 z 2
f  z  e ,   z  
2

Prueba

 X    X   EX    
E Z   E    E       0
         
 X    X   Var  X  
2
Var  Z   Var    Var      1
      2 2

Esta prueba es incompleta porque sólo demuestra que la media y la variancia de Z son 0
y 1 respectivamente pero no demuestra que Z tiene distribución normal (esto es tema de
un libro de Estadística Matemática).

153
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Uso de la tabla de la distribución Normal Estándar

Ejemplo 2
La estatura de los estudiantes universitarios de cierto país está normalmente distribuida
con una media de 167.85 cm y desviación estándar 10.37 cm.

a. Si un estudiante es seleccionado al azar ¿Cuál es la probabilidad de que mida menos
de 179 cm?

Sea la v.a.c. X = Estatura de los estudiantes universitarios de ese país (cm).
X  N( , 2)  N(167.85, 10.372)
 X   179  167.85 
P  X  179   P     P  Z  1.07522   P(Z  1.08)  0.8599
  10.37 
Notación: Z  0.8599  1.08
Se puede afirmar que el percentil 85.99 de las estaturas es igual a 179 cm y que el
85.99% de los estudiantes mide menos de 179 cm.

b. Halle la probabilidad de que la estatura de un estudiante que va a ser escogido al azar
mida por lo menos 152 cm.

 X   152  167.85 
P  X  152   P     P  Z  1.53  1  P  Z  1.53  1  0.0630  0.9370
  10.37 

c. Si se está buscando estudiantes universitarios que midan entre 165 y 195 cm para
un casting de TV ¿Qué porcentaje de estudiantes cumplen con esa condición?

P 165  X  195  P  0.28  Z  2.62   P  Z  2.62   P  Z  0.28
P 165  X  195  0.9956  0.3897  0.6059

154
UNA La Molina - Dpto. de Estadística e Informática Estadística General

d. Si se eligen independientemente 9 estudiantes. Encuentre la probabilidad de que siete
de ellos midan menos de 179 cm.

Exito  E   X  179 , P  E     P  X  179   0.8599
Sea la v.a.d. Y = Número de estudiantes con X  179

Y Binomial  n,   Binomial  9, 0.8599 
9
P Y  7      0.8599   0.1401  0.2457
7 2

7

e. ¿Cuál es la altura mínima que debe tener un bus de transporte para que el 97.06% de
los estudiantes viaje de pie sin dificultad?

Según el problema si k es esa altura, entonces:
 X   k  167.85   k  167.85 
P  X  k   0.9706  P     PZ  
  10.37   10.37 
k  167.85
Z 0.9706   1.89  k  187.4493 cm.
10.37

Ejercicio 2. Las notas del examen final del curso de Informática se distribuyen
normalmente con media 12 puntos y variancia 4 puntos2. Si se elige un alumno al azar:

a. ¿Qué porcentaje de alumnos están aprobados (nota mayor a 11)?

b. Si se eligen 8 estudiantes al azar ¿cuál es la probabilidad que 2 de ellos hayan
aprobado el curso?.

155
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 3. El diámetro del punto producido por una impresora tiene una distribución
normal con media igual a 0.002 pulgadas y desviación estándar de 0.0004 pulgadas.
a. ¿Cuál es la probabilidad de que el diámetro del punto sea mayor que 0.0026 pulgadas?

b. ¿Cuál es la probabilidad de que el diámetro del punto esté entre 0.0014 y 0.0026
pulgadas?

9.4 Distribuciones muestrales asociadas a la Distribución Normal

Definición de Estadístico

Un estadístico es cualquier cantidad cuyo valor se puede calcular a partir de datos
muestrales. Antes de obtener datos, hay incertidumbre en cuanto a qué valor resulta de
cualquier estadístico particular. Por lo tanto, un Estadístico es una variable aleatoria y
estará denotada (casi siempre) por una letra mayúscula; una minúscula se emplea para
representar el valor calculado u observado del Estadístico.

Ejemplo 3
La media muestral X , es un estadístico, (variable aleatoria) y x , es el valor calculado
del estadístico. La variancia muestral S2, es un estadístico, (variable aleatoria) y s2 es el
valor calculado del estadístico.

Definición de Muestra Aleatoria
Una muestra aleatoria es un subconjunto de la población obtenida al azar.

Distribución de la Media Muestral ( X )

Sea X1, , X n una muestra de una distribución con media  y desviación estándar 
.Entonces:

156
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Si el muestreo es con reemplazo de una población finita o con o sin reemplazo de una
población infinita:

En este caso la muestra es aleatoria y se cumplen las siguientes igualdades:
 
a. E X   X  

2 
b. Var  X    2
X
 y X 
n n

El caso de una población con distribución normal

Si X1, , X n es una muestra aleatoria de una distribución normal con media  y
desviación estándar . Entonces, para cualquier n, X está normalmente distribuida
 2
con media  y variancia
n

El caso de una población con distribución no normal

El teorema del límite central

Este teorema fundamental de la Estadística fue enunciado por primera vez por P.S Laplace
en 1812 luego en 1901 A. Liapounoff hizo una demostración rigurosa en condiciones
bastante generales.

Si X1, , X n es una muestra aleatoria de una distribución con media  y desviación
estándar . Entonces, para n suficientemente grande, X está distribuida
 2
aproximadamente en forma normal con media  y variancia .
n

Ejemplo 4
El tiempo que demora una rata de cierta subespecie seleccionada al azar, para que se
duerma después de aplicársele un somnífero experimental, es una variable aleatoria
distribuida con   1.5 min y   0.35 min. Suponga que se seleccionan n ratas y denote
por X1, , X n sus tiempos hasta dormirse.

a. Si el tiempo que demora una rata tiene distribución normal y X1, , X 5 es una muestra
aleatoria de tamaño 5 de esa población. Calcule la probabilidad de que la media de
la muestra sea a lo más 2 min.

Solución:

 
E X   X    1.5

 0.35
2
2 
 
Var X    2
X
n

5
 0.0245 y X 
n
 0.1565

 X   X 2  1.5 

P X  2  P 
 

0.1565
  P  Z  3.19   0.9993
 X 

157
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. Si el tiempo que demora una rata tiene distribución desconocida y X1, , X 40 es una
muestra aleatoria de tamaño 40 de esa población. Calcule la probabilidad aproximada
de que el tiempo de demora promedio esté entre 1.35 y 1.60 min.

Solución:
Por el teorema del límite central el tiempo promedio de la muestra tiene,
aproximadamente, distribución normal con
 0.35
2
2
 
E X   X  1.5  
Var X    2
X
n

40
 0.0030625 .

 1.35  1.5 X  X 1.60  1.5 
P 1.35  T  1.60   P      P  2.71  Z  1.81 
 0.0030625 X 0.0030625 

 P  Z  1.81  P  Z  2.71  0.9649  0.0034  0.9615

Ejercicio 4. Sea la variable aleatoria X la cantidad de radiación que puede ser absorbida
por un individuo antes que le sobrevenga la muerte. Suponga que X es normal con media
de 500 roentgen y una desviación estándar de 150 roentgen.

a. ¿Qué porcentaje de individuos podrán absorber entre 350 y 430 roentgen de radiación
antes que le sobrevenga la muerte?

b. Si se extrae una muestra de 20 individuos, ¿cuál es la probabilidad que la cantidad
media de radiación absorbida por un individuo antes de morir se encuentre entre 450
y 550 roentgen?

158
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 5. Sea X una variable aleatoria con función de probabilidad

X -1 0 1 2
f (x) 0.3 0.4 0.2 0.1

de la cual se toma una muestra de tamaño 36.

a) Halle la probabilidad que el promedio muestral sea menor a 0.34.

b) Si se sabe que el promedio muestral es menor que 0.34, ¿cuál es la probabilidad que
el promedio muestral sea mayor o igual a 0.26?

Distribución de una proporción por muestreo (p)

Suponga que X1, … ,Xn es una muestra aleatoria de n alumnas universitarias de Lima y
se estudia si una alumna mide más de 1.75 m. Por lo tanto X i  Binomial(1,) i=1,…,n;
es decir Xi=1 si la alumna mide más de 1.75 y Xi=0 de otro modo. La proporción muestral
n

X i
de alumnas que miden más de 1.75 mt. es p i 1
que como se observa es un
n
promedio muestral pero que se basa en una muestra aleatoria de una distribución
Binomial(1,). Por lo tanto, si n es grande y utilizando el teorema del límite central se
puede asegurar que p tiene una distribución aproximadamente normal con media  =
2  (1   )
 y variancia  y por lo tanto se puede estandarizar de la siguiente manera
n n

159
UNA La Molina - Dpto. de Estadística e Informática Estadística General

p 
Z . La expresión anterior tiene una distribución normal con media cero y
 (1   )
n
variancia uno. A continuación se presentan los casos de la distribución p con muestras
aleatorias y con muestras aleatorias simples.

Uso del teorema del límite central

Si n es suficientemente grande (n  30), por el teorema del límite central se puede
afirmar que:
 p  k    k  
P p  k  P    P  Z  
  p p
 p   

Ejemplo 5
En un proceso de producción el porcentaje de unidades defectuosas producidas es 3%.
Para controlar el proceso, se revisan periódicamente los artículos producidos.
Si el proceso de producción se para al encontrar al menos 5% de unidades defectuosas
producidas al revisar una muestra aleatoria de 200 artículos cada vez. Halle la
probabilidad aproximada de que el proceso continúe.

Solución
La proporción muestral tiene una distribución aproximadamente normal. Esto se puede
afirmar por el Teorema del Límite Central (n grande).
  1    
p Normal     ,  2  
Aprox.  n 
 
 
 p  0.05  0.03 
P  p  0.05   P   P  Z  1.65   0.9505
  1    0.0121 
 
 n 

Ejemplo 6
El contenido de sólidos solubles (en grados Brix °B) en muestras de chirimoya tiene
distribución normal siendo su esperanza matemática es 7.78 °B y su desviación estándar
2.54 °B. Un especialista selecciona una muestra aleatoria de 80 muestras de chirimoya.
Calcule la probabilidad de que la proporción muestral de esas muestras de chirimoya con
un contenido de sólidos solubles menor de 9.88 °B sea menor de 0.72.

Solución
Sea X el contenido de sustancias solubles en °B.
X Normal    7.78,  2  2.542 
La probabilidad de que una muestra de chirimoya tenga un contenido menor de 9.88 °B
es:
 X   9.88  7.78 
  P  X  9.88  P     P  Z  0.83  0.7967
  2.54 

160
UNA La Molina - Dpto. de Estadística e Informática Estadística General

La proporción muestral tiene una distribución aproximadamente normal. Esto se puede
afirmar por el Teorema del Límite Central (n grande).
  1    
p Normal     ,  2  
Aprox.  n 
 
 
p  0.72  0.7967
P  p  0.72   P     P  Z  1.71  0.0436
  1    0.7967  0.2033 
 
 n 80 

Ejercicio 6. De una empresa se escoge una muestra aleatoria de 300 empleados para
una encuesta sobre condiciones laborales. Halle la probabilidad aproximada de que la
proporción muestral a favor de las condiciones laborales esté comprendido en el intervalo
0.76 y 0.84, si se estima en 80% del total de empleados el porcentaje a favor de las
condiciones laborales.

Ejercicio 7. El diez por ciento de las personas de cierta comunidad tiene sangre tipo B.
Si se selecciona una muestra aleatoria de 900 personas de esa comunidad. ¿Cuál es la
probabilidad de que la proporción muestral de personas con sangre tipo B?

a) Sea al menos 7.2%

b) Sea a lo más 10.5%

161
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Distribución de la diferencia de promedios muestrales X 1 X2 
Si de dos poblaciones independientes distribuidas con medias 1 ,  2 y variancias  12 ,
 22 , se extraen muestras de tamaños n1 y n2 , respectivamente; entonces, la variable
aleatoria X 1 
 X 2 (diferencia de promedios muestrales) tendrá una distribución normal
con media y variancia:

Si las muestras son aleatorias (con o sin reemplazo) de poblaciones normales o se cumple
con el teorema del límite central con otro tipo de distribución.
2 2
 X 1X 2 
 1  2 y  2X 1  X 2  1  2
  n
1 n2

Ejemplo 7
El tiempo que lleva efectuar un procedimiento de montaje para el método 1 tiene
distribución con media 35 seg. y variancia 20 seg2 mientras que con un método 2 tiene
distribución con media 31 seg. y variancia 17 seg 2. Si se selecciona una muestra de 40
empleados entrenados con el método 1 y 50 entrenados con el método 2.

Halle la probabilidad de que el promedio muestral con el método 1 exceda al promedio
muestral con el método 2 en por lo menos 5 seg.

  12  22   20 17 
X 1  X 2 N  1  2 ,   N  35  31,   N  4, 0.84 
 n1 n2   40 50 
 X 1  X 2  X X 54 

P X1  X 2  5  P  X1X 2
1 2
   P  Z  1.09   0.1379
0.84 

Ejercicio 8. La estatura promedio de un soldado del ejército del país A es de 172.5 cm
con una desviación estándar de 5 cm. En tanto que para un soldado del ejército del país
B es de 167.5 cm y 2.5 cm respectivamente. Si se selecciona una muestra aleatoria de
90 soldados en cada uno de los ejércitos, ¿cuál es la probabilidad de que la estatura
promedio de la muestra del ejercito B sea inferior al del ejército A en 4.5 cm o menos?

162
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 9. En una inspección de control de calidad de focos se encontraron los
siguientes resultados:
1. En la empresa A, se obtuvo un promedio de vida útil de 30 meses con una desviación
estándar de 4 meses.
2. En la empresa B, se obtuvo un promedio de vida útil de 40 meses con una desviación
estándar de 6 meses.

Al seleccionar una muestra de 100 focos de A y 80 de B, ¿Cuál es la probabilidad que el
promedio de vida útil de los focos fabricados por B supere en más de 8 meses del
promedio de vida útil de los focos fabricados por A?

Distribución de la diferencia de proporciones muestrales ( p1  p2 )
Si p1 y p2 son las proporciones muestrales de dos poblaciones independientes con
proporciones poblacionales  1 y  2 , y de estas poblaciones se extraen muestras de
tamaños n1 y n2 , respectivamente, entonces, la diferencia de proporciones
muestrales p1  p2 tiene una distribución con media  p  p  1   2
1 2
y variancia:

 1 1   1   2 1   2 
 2p  p  
1 2
n1 n2

Uso del teorema del límite central
Si las muestras son suficientemente grandes entonces:
p1  p2 aprox 
N  1   2 ,  2p1  p2 
La forma de la variancia depende de si la muestra es aleatoria o aleatoria simple.

Ejemplo 8
Si para elaborar un artículo se usan, independientemente, las máquinas I y II, y se sabe
que la probabilidad de producir un artículo defectuoso con la máquina I es 0.15 y 0.08
con la máquina II. Si se eligen al azar 80 artículos producidos por I y 100 producidos por
II, halle la probabilidad de que la proporción de defectuosos de la muestra de I supere a
la de II en más de 0.06, si las muestras son aleatorias.

163
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Solución
 0.15  0.85 0.08  0.92 
p1  p2 
aprox N  1   2 ,  2p1  p2  aprox N  0.15  0.08,
 80

100


aprox N  0.07, 0.00233
 0.06  0.07 
P  p1  p2  0.06   P  Z    P  Z   0.21  0.5832
 0.04827 

Ejercicio 10. Se sabe que van a la universidad en movilidad propia el 40% de los
estudiantes de la Universidad L y el 30% de la Universidad S. Si se toman al azar
muestras de 80 y 90 estudiantes respectivamente, halle la probabilidad de que la
proporción de la muestra de la Universidad L supere a la de S en más de 9%.

Ejercicio 11. Dos máquinas A y B producen el mismo artículo. Se sabe que la proporción
de artículos defectuosos producidos por A es de 0.06 y por B es de 0.04. Si se obtiene
una muestra aleatoria de 50 artículos para cada una de las máquinas, halle la probabilidad
que la proporción de defectuosos de la muestra A sea superior a la proporción de
defectuosos de la muestra de la máquina B en más de 0.01.

164
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Práctica Dirigida N° 6

1. El tiempo que tarda un proceso de ensamblaje de un artículo puede modelarse como
una variable aleatoria exponencial con una media de 5.5 minutos.

a. ¿Cuál es la probabilidad que el proceso de ensamblaje de un artículo dure entre
3.8 y 6.8 minutos?

b. ¿Cuánto tiempo como mínimo debe tener un artículo para ser considerado dentro
del 28.5% de los mayor tiempo de ensamblaje?.

c. Halle el RI.

d. Halle el medio del tiempo de ensamblaje y su coeficiente de variación.

165
UNA La Molina - Dpto. de Estadística e Informática Estadística General

2. La escuale de manejo “El Rápido”, estima que el número de horas de práctica
necesarias para la obtención del permiso de conducir para una persona sigue una
distribución normal con media 24 horas y desviación estándar 4 horas.

a. ¿Cuál es la probabilidad de obtener el permiso de conducir con al menos 20 horas
de prácticas de manejo?

b. ¿Cuál debe ser el número de horas como máximo, para que una persona sea
considerada dentro del 22% con menos horas de prácticasde manejo?

c. Si una escuela de manejo cobra S/ 35 por hora de práctica más S/ 45 por
gastos de administrativos. Calcule el ingreso esperado por alumno que tendrá
la escuela.

d. Si se extrae una muestra aleatoria de 35 personas, ¿cuál es la probabilidad
que el número promedio de horas de manejo para obtener la licencia de
conducir sea entre 18 y 26 horas?.

166
UNA La Molina - Dpto. de Estadística e Informática Estadística General

e. Si se sabe que el 18.5% de las personas desaprueban en la primera vez el
examen de manejo, para una muestra de 120 personas halle la probabilidad
que la proporción muestral que desaprueban el examen por primera vez sea a
lo más el 15.5%.

f. La escuela desea hacer una evaluación respecto al género. Se tiene que el
número de horas para obtener la licencia de conducir tiene una distribución
normal, con media de 22 horas y desviación estándar de 5 horas para los
hombres, mientras que para las mujeres su media es de 28 horas y desviación
estándar de 8 horas. Halle la probabilidad que el número de horas promedio
para tener una licencia de las mujeres sea mayor que el de los hombres en
más de 3 horas.

167
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. El tiempo, en horas, de reparación de un automóvil es una variable aleatoria X con
distribución exponencial. En promedio se demora 4.48 horas.
a. Calcular la probabilidad de que un automóvil este más de 3 horas, si lleva al
menos media hora siendo reparado.
b. Hay un 10% de automóviles que son los que requieren de mayor tiempo para
reparación. ¿Cuántas horas se requiere como mínimo para reparar un
automóvil de este tipo?

2. Suponga que la duración en minutos de las llamadas telefónicas que llegan en forma
independiente a una central telefónica es una variable aleatoria con distribución
exponencial, con media de 2 minutos por llamada. ¿Cuál es la probabilidad que una
llamada dure entre 1 y 4 minutos?

3. El tiempo de incapacidad por enfermedad de los empleados de una compañía en un
mes, tiene distribución normal, con media 100 horas y desviación estándar de 20
horas.
a) ¿Cuál es la probabilidad de que el tiempo por incapacidad del siguiente mes se
encuentre entre 50 y 80 horas?
b) ¿Cuánto tiempo de incapacidad deberá planearse para que la probabilidad de
excederlo sea sólo 0.1?

4. Suponga que se estima que el 70% de los jóvenes de Lima y el 63% de los jóvenes
de Arequipa considera que escuchar música clásica es un buen hábito. Si se toman
muestras de tamaño 50 de jóvenes de Lima y 60 de jóvenes de Arequipa, halle la
probabilidad de que la proporción de la muestra de Lima supere a la de Arequipa en
menos de 0.05, si Las muestras son aleatorias simples (sin reemplazo), habiéndose
elegido la primera muestra de 900 jóvenes limeños y la segunda de 1400 jóvenes
arequipeños.

5. El promedio y la desviación estándar de las medidas de los diámetros interiores de
ciertos tubos de desagüe son respectivamente 34.1 cm y 1.5 cm. Si se toma una
muestra de 100 tubos, ¿Cuál es la probabilidad de que la media de esta muestra
aleatoria esté entre 34 cm. y 34.5 cm?

6. En una población, el 20% de las familias están suscritas al diario “El Comercio”, ¿cuál
es la probabilidad de que al seleccionar una muestra de 225 familias, la proporción
de familias suscritas a dicho diario sea menor al 16%?

7. La presión sanguínea sistólica de los hombres de 20 a 24 años se distribuye
normalmente con media 123 y con una desviación típica de 137. Si se selecciona al
azar a uno de estos hombres, ¿cuál es la probabilidad que su presión sanguínea sea
mayor a 139.44?

8. El tiempo que necesita un alumno para terminar el examen final de Química General
se distribuye normalmente con una media de 110 minutos y una desviación estándar
de 8 minutos; mientras que el tiempo que necesita un alumno para terminar el
examen final de Física General se distribuye normalmente con una media de 115
minutos y una variancia de 49 minutos2.
a. Si un alumno termina el examen de Física General en menos de una hora y media
se puede suponer que domina el curso. Si se selecciona un alumno al azar, ¿cuál
es la probabilidad de que domine el curso?
b. Si se seleccionan al azar 5 alumnos de Física General, ¿cuál es la probabilidad de
que al menos dos alumnos dominen el curso?

168
UNA La Molina - Dpto. de Estadística e Informática Estadística General

9. El número de clientes que llegan a una agencia bancaria cada 5 minutos tiene una
distribución Poisson con media 3.2. Se selecciona una muestra aleatoria de tamaño
40 de esta distribución. Calcule la probabilidad de que la media muestral sea mayor
que 2.8.

10. Se sabe que el 52% de adolescentes de cierto distrito fuman. Si se selecciona una
muestra aleatoria de 50 adolescentes de ese distrito, halle la probabilidad de que la
proporción muestral de fumadores sea mayor que 0.40 pero menor que 0.62

11. Una Empresa Arrocera se tienen dos máquinas agrícolas A y B; las cuales presentan
tiempos de duración que cumplen la función de cosechar arroz en forma independiente
tienen una distribución normal con un tiempo de vida medio de 12 y 15 años y con
desviaciones estándar de 1.5 años y 3 años respectivamente.

a) El administrador de la empresa está dispuesto a reemplazar sólo al 3% de las
maquinas con menor tiempo de duración. ¿Cuál es la duración límite para que la
máquina A sea considerada para ser reemplazada?
b) Si se toma una muestra de 50 máquinas agrícolas para cada tipo de máquina (A
y B) ¿Cuál es la probabilidad de que la duración de la media de la muestra de la
máquina B sea como máximo 14 ó como mínimo 16 años?
c) Si se toma una muestra de 50 máquinas agrícolas para cada tipo de máquina (A
y B) ¿Cuál es la probabilidad de que la media de la muestra de la máquina A difiera
de la máquina B en más de 1 año?

12. La vida útil de una batería se distribuye como una exponencial con una media de 10
años. El fabricante ofrece una garantía de un año. Si la batería falla en ese período se
reemplaza por otra, a lo más una vez. ¿Cuál debe ser el tiempo de garantía que el
fabricante debe ofrecer para que solo se devuelva el 2% de las baterías producidas?

13. Una máquina fabrica un determinado producto cuya longitud, en centímetros, tiene
un promedio de 6 cm. y una desviación estándar de 1.2 cm.

a) Si se toma una m.a. de tamaño 25 ¿Cuál será la probabilidad de que se obtenga
un promedio muestral de a lo más 6.25 cm?
b) Se sabe que el costo de fabricación, por unidad, está dado por C = 4.5X + 6.5,
donde C es el costo unitario y está dado en soles. Si se toma una muestra aleatoria
de tamaño 36 ¿Cuál es la probabilidad de que el costo promedio, en esta muestra,
supere los 23.5 soles?

14. Un fabricante de electrodomésticos sabe que la vida útil de éstos sigue una
distribución normal con media de 100 meses y desviación estándar de 20 meses.
Determine el tamaño mínimo muestral que garantiza, con una probabilidad de 0.98
que la vida útil media de los electrodomésticos en dicha muestra se encuentra
entre 90 y 110 meses.

15. Se sabe que la vida de bombillas eléctricas es una variable aleatoria distribuida
normalmente con media desconocida  y  = 200 horas. El precio de un lote de
1
bombillas es  dólares. Un posible comprador propone tomar una muestra aleatoria
5
1
de n bombillas y pagar al productor X dólares por el lote de bombillas. ¿Cuál debe
5
ser el valor de n, para que la probabilidad de que comprador no sobre pague ni
subpague al productor con más de 20 dólares, sea 0.95?

169
UNA La Molina - Dpto. de Estadística e Informática Estadística General

9.5 Distribución Ji – Cuadrado

La distribución Ji-cuadrado fue encontrada por primera vez por F.R Helmert en 1876.
Esta distribución toma el nombre de la letra griega  elevada al cuadrado. Esta letra en
castellano se llama Ji y en inglés Chi.

Una v.a X tiene distribución Ji-cuadrado con m grados de libertad si su función de
probabilidad está dada por:

 1
m
1  x
 m x 2
e 2 si x 0
f x    2 m 2
2


 0 si x0

Se debe aclarar que el operador   m 2  es una integral definida.

Notación: X  2m

Características de una distribución Ji-cuadrado típica

Como se aprecia en el gráfico anterior:

1. Presenta un sesgo o asimetría positiva.
2. Es asintótica con respecto al eje horizontal en el lado positivo.
3. El rango de la variable considera sólo los valores positivos.
4. La distribución tiene menor sesgo conforme los grados de libertad son mayores
(m  30)
5. Si X  2m , entonces  X  m y  X2  2 m .

Teorema Si Z  N(0 , 1) entonces Z
2
 21 .

Ejemplo 9
X   X  
2

Si X N   , 2
 , entonces Z  N  0,1  Z  
2
  21
   

Teorema Si J1 , , J n son v.a. independientes que tienen distribución Ji-cuadrado con
n
m1 , , mn grados de libertad, respectivamente; entonces la v.a V   J i  2 n 
.
i 1 
  mi 
 i 1 

170
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Distribuciones muestrales asociadas a la distribución Ji-cuadrado

Distribución de la v.a.
 n  1 S 2
2
Sea X1, , X n una muestra aleatoria de una distribución normal con media  y
n

 n  1 S 2  
(Xi  X ) 2

desviación estándar  , entonces la v.a i 1
 2n 1 .
 2
 2

Ejemplo 10
Si J  219 , determine el valor de:
a. P  J  11.651

Solución
P  J  11.651 = 0.1 Notación: 11.651   20.1,19
b. P  J  15.352 

Solución
P  J  15.352   1  P  J  15.352   1  0.3  0.7

c. P 15.352  J  30.144 

Solución
P 15.352  J  30.144   P  J  30.144   P  J  15.352   0.95  0.3  0.65

Ejemplo 11
Si L  225 , halle p1 y p2 tales que: P  p1  L  p2   0.7 y P  L  p2   0.1 .
Solución
P  L  p1   0.2  p1   20.2,25  18.940
P  L  p2   0.9  p2   20.9,25  34.382

9.6 Distribución t de Student

La distribución t fue empleada por primera vez en un problema de Estadística importante
por W.S Gosset en 1908 (él escribía bajo el seudónimo de Student).

Una v.a X tiene distribución t con m grados de libertad si su función de probabilidad es:

 m 1
 
f  x   2  ,   x  
m 1

 m  x 
2 2
m    1  
 2  2
Notación: 𝑋~𝑡(𝑚)
171
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Características de la distribución t

1. Cada curva t m  tiene forma acampanada con centro en 0.
2. Cada curva t m  es más dispersa que la curva normal estándar.
m
3. Si X t m , entonces  X  0 y  X2 
m2
4. Conforme aumenta m, la dispersión de la curva t m  disminuye.
5. A medida que m   , la curva t m  se aproxima a la curva normal estándar.

Teorema
Z
Si las v.as Z N  0,1 y V  2m son independientes, entonces la v.a X  t m  .
V
m

Distribuciones muestrales asociadas a la distribución t

Sea X1, , X n una muestra de una distribución normal con media  y desviación
X 
estándar  , entonces la v.a t n 1 , siendo:
SX
S2
S X2  , si el muestreo es con reemplazo (muestra aleatoria)
n
Teorema
Si de dos poblaciones normales independientes distribuidas con medias 1 ,  2 y
variancias   
2
1
2
2
2
, se extraen muestras aleatorias de tamaños n1 y n2 ,

respectivamente; entonces, la variable aleatoria Y
X 1  X 2    1   2 
t n1  n2  2 ,
1 1
S p2   
 n1 n2 

siendo: S 2

 n1  1 S12   n2  1 S22
n1  n2  2
p

172
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 12

Si R t8 , calcule:

a. P  R  2.306 

P  R  2.306   0.025 Notación: 2.306  t 0.025,8

b. P  R  2.896 
P  R  2.896   1  P  R  2.896   1  0.99  0.01

c. P  3.355  R  0.889 
P  3.355  R  0.889   P  R  0.889   P  R  3.355  0.200  0.005  0.195

d. El valor de c si P  R  c   0.3

P  R  c   0.3  c  t 0.3,8  0.546

9.7 Distribución F

Ronald A. Fisher (nació en Inglaterra el 17 de Febrero de 1890 y falleció el 29 de Julio de
1962) fue un gran científico, matemático, estadístico, biólogo evolutivo y genetista. Fisher
aportó mucho a la estadística, siendo una de sus más importantes contribuciones, la
Inferencia Estadística creada por él en 1920 (que se estudiará de manera introductoria
en el capítulo XI de este libro). A la distribución F también se le llama distribución F de
Snedecor o distribución F de Fisher-Snedecor.

Una v.a. X tiene una distribución F con n y m grados de libertad si su función de
probabilidad es:
n
 n  m  n  2 2 1
n
   x
f  x   2  m  , x0
nm
 n   m  n x 2
      1 
 2  2  m 
Notación: X F  n, m 

173
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Características de la distribución F

1. Está definida solamente para valores positivos de la variable.
2. Tiene asimetría positiva.
3. Es asintótica respecto al eje horizontal en su parte positiva.
4. Las distribuciones F  n, m  tienden a ser simétricas cuando n y m son
suficientemente grandes (mayores que 30)

Teorema
Si U  2n  y V  2m , son v.a. independientes, entonces la variable aleatoria
U
U m
X n  F  n, m 
V V n
m

Notación Si X F  n, m  y P  X  k     k  F ,n ,m

1
F ,n ,m 
Propiedad recíproca
F1 ,m,n 

Distribución muestral asociada a la distribución F
Sea X 1 , , X n1 una m.a. de una distribución normal con variancia  12 y Y1 , , Yn2 otra
m.a. (independiente de las Xi) de una distribución normal con variancia  22 , y denotemos
por S1
2
y S 22 las dos variancias muestrales. Entonces la v.a:
S12  12
F  n1  1, n2  1
S22  22
Ejemplo 13

Si W F  8, 21 , halle:
a. P W  2.42 

P W  2.42   0.95  2.42  F 0.95,8,21

b. P W  3.51
P W  3.51  1  P W  3.51  1  0.99  0.01

c. P  2.42  W  3.51
P  2.42  W  3.51  P W  3.51  P W  2.42   0.99  0.95  0.04

d. El valor de k en P  k  W  2.42  =0.94
P  k  W  2.42   0.94  P W  2.42   P W  k   0.94  P W  k   0.01
0.95

1 1
 k  F 0.01,8,21    0.1873
F 0.99,21,8 5.34
Nótese que se utilizó la propiedad recíproca.
174
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. Una muestra aleatoria de 27 observaciones es tomada de una población normal con
 2  16.8 . Hallar la probabilidad de obtener una desviación estándar muestral entre
2.9909 y 5.2045

2. Un fabricante de alambres de acero afirma que la fuerza promedio requerida para
romper los alambres que fabrica es de 500 Kg. Para verificar esta afirmación se toma
una muestra aleatoria de 25 trozos de este alambre y se somete a prueba
encontrándose una desviación estándar de 55 Kg. Suponiendo que las fuerzas de
rompimiento pueden considerarse como valores de una variable aleatoria que se
distribuye normalmente. ¿Cuál es la probabilidad de obtener un promedio de
rompimiento entre 481.179 y 518.821 Kg?

3. Si Y tiene distribución t de Student con 15 grados de libertad. Halle el valor de la
constante K tal que:
P(Y  K )  P(Y  1.753 )  0.95

W ~ 2 Z ~ t ( 20) Y ~ F(8,10)
4. Sea (5)
, , . Usando tablas estadísticas hallar las siguientes
probabilidades:

a) P(W  3)
b)
P(W  11.07 )
c)
P( Z  0.860 )
d)
P( Z  1.325 )

e) P(1.325  Z  1.725)
f) P (Y  3.07)
g) P (Y  5.06)
h) P (3.07  Y  5.06)

175
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Preguntas de Autoevaluación

1. Dos características de la distribución Normal son ___________________________
__________________________________________________________________
2. Dos características de la distribución t de Student son: _______________________
___________________________________________________________________
3. Dos características de la distribución Chi-cuadrado son: ______________________
___________________________________________________________________
4. Dos características de la distribución F de Fisher son: _______________________
___________________________________________________________________
5. Si la variable aleatoria X se distribuye como una exponencial, entonces la probabilidad
que X sea mayor a su media es igual a _____________________ y su coeficiente de
variación es igual a ___________________.
6. Si X tiene una media poblacional igual a 12.5 y una desviación estándar de 2.5,
entonces para un muestra n de tamaño 50, la distribución de la media según el
Teorema del Límite Central es ______________________________
7. Si la variable aleatoria X~ Bin(10,0.85), entonces para una muestra de tamaño 40 la
probabilidad que la media muestral sea mayor a 6 es igual a ________________
8. Si Y ~ Hip(15,8,5), entonces para una muestra de tamaño 35 la media muestral se
aproxima a la distribución _________________ con media y variancia
__________________________.
9. La distribución normal estándar está asociada a la distribución muestral de
_________, la distribución t con la distribución muestral de _________________, la
distribución Chi-cuadrado con la distribución muestral de _____________________
y la distribución F con la distribución muestra de _________________________ .

10. Indique si es Verdadero (V) o Falso (F) cada uno de los siguientes enunciados:

Item Enunciado V/F
a. La mediana en una distribución normal estándar es igual a cero
b. En la distribución t, a medida que aumenta los grados de libertad la
distribución se aproxima a una normal estándar.
c. Las variables aleatorias distribuidas como una Chi-cuadrado y F toman
sólo valores positivos.
d. Las variables aleatorias distribuidas como una Normal y Normal
estándar toman sólo valores negativos.
e. Conforme aumenta los grados de libertad de la Chi-cuadrado, la
distribución tiene mayor sesgo.

176
UNA La Molina - Dpto. de Estadística e Informática Estadística General

CAPÍTULO X

INFERENCIA ESTADÍSTICA

La inferencia estadística se ocupa de la estimación y prueba de hipótesis de los
parámetros de una población, en base de una muestra aleatoria extraída de dicha
población.

Objetivo. Entender el proceso de inferencia estadística para la estimación (estimación
puntual y por intervalos) y de prueba de hipótesis de los parámetros de una población.

La inferencia estadística comprende:

1. La estimación de parámetros (estimación puntual y por intervalos de confianza).
2. Las pruebas de hipótesis de parámetros.

10.1 Estimación puntual de parámetros

Sea X1, , X n una muestra de tamaño n de una población con parámetro  . Se
denomina estimador puntual de  a cualquier estadístico  ˆ  h  X , , X  cuyo valor
1 n

ˆ  h  x , , x  dará una estimación puntual de  . En este caso ̂ es una variable
1 n

aleatoria y ˆ es un número. Los estimadores puntuales para la media, varianza y
proporción serán:
n

X i
Para la media poblacional (): ̂  X  i 1
n
n

(X i  X )2
Para la variancia poblacional (2): ˆ 2  S 2  i 1
n 1

Número de éxitos
Para la proporción poblacional (): ˆ  p 
n

Ejemplo 1
De una población de tallas (mt) en madres adolescentes con media  y varianza , 2se
extrae una muestra aleatoria 8 madres adolescentes, cuyos valores observados son:
1.50, 1.60, 1.58, 1.45, 1.52, 1.68, 1.62, 1.55. Halle un estimador puntual para la media,
la varianza y la desviación estándar poblacionales.
8

X i
12.5
Entonces se tiene: X  i 1
  1.56 mt. , será una estimación puntual de  .
8 8
8
Cálculo de la suma de cuadrados: X
i 1
i
2
 19.569
Para la varianza, el estimador puntual será:
n  n
Xi 
2
n

X i
2
 i 1
n
X i
2
 nX
19.569  (12.5) 2 19.569  8 x1.562
S 
2 i
 i
   0.0053
n 1 n 1 7 7

Para la desviación estándar: S  0.0053  0.073
177
UNA La Molina - Dpto. de Estadística e Informática Estadística General

10.2 Estimación de parámetros por intervalo de confianza

Sea X1, , X n una muestra aleatoria de tamaño n de una población con parámetro  ,
cuyos valores observados o datos respectivos son x1 , , xn . Sea además, la v.a
ˆ  h X ,
 , X n  un valor estadístico, con función de probabilidad conocida, que estima
1

a . Si P  A    B   1   , donde A  h1  X 1 , , X n  y B  h2  X 1 , , X n  son v.a.
halladas a partir de la distribución de ˆ  h X ,
 , X n  , entonces se dice que el intervalo
1

aleatorio  A, B  es el intervalo estimador del parámetro  , o que    A, B  con
probabilidad 1 .

Si a  h1  x1 , , xn  y b  h2  x1 , , xn  , son los valores numéricos que resultan al
reemplazar los valores de la muestra en las v.a. A y B respectivamente, entonces, se dice
que el intervalo numérico  a, b  es el intervalo de confianza del 1     100 % para  ,
o que    a, b  con un nivel o grado de confianza del 1     100 %.

Interpretación

Si con los datos de una muestra aleatoria de tamaño n se construyó el intervalo a    b
con nivel de confianza, por ejemplo, 98% para el parámetro  , esto quiere decir que
existe un 98% de confianza que el intervalo  a, b  contenga al parámetro  .

Intervalo de confianza para una media poblacional 

Intervalo de confianza para una media poblacional  con 2 desconocida

Si X1, , X n es una muestra aleatoria de una población normal con media  y variancia
 2
desconocida. Para cualquier tamaño de muestra se tiene que la variable aleatoria la
X 
v.a. t ~ t n -1 , entonces para definir el intervalo de confianza del 1    100 %
S
n
se cumple:
 
   
P  t1 ; n 1  t1 n   t1 ; n 1   P  t1 ; n 1 
X
 t1 ; n 1   1   .
 2 2   2 S 2

 n 
Entonces despejando la expresión anterior, el intervalo con un nivel de confianza del
1    100 % para la media (  ) será hallado por:

 
 s S 
 X  t 1 ;n 1    X  t 1 ;n 1 

 
2 n  
2 n

 a b 
178
UNA La Molina - Dpto. de Estadística e Informática Estadística General

donde a y b son valores numéricos que representan el Límite inferior y Límite superior
del intervalo.

s
Límite inferior: LI (  )  X  t 1
 2;n 1 n
s
Límite superior: LS (  )  X  t 1 ;n 1
 2  n

Intervalo de confianza para una proporción

p 
Se usa la v.a. ~ N(0,1) y n>30, entonces para determinar el intervalo de
 (1   )
n
confianza del 1     100 % para la proporción se cumple:

 
   
p 
P  Z     Z  Z     P  Z    
   Z     1  
  1   1     1   (1   )  1  
  2  2
  2  2

 n 

Entonces despejando la expresión anterior, el intervalo con un nivel de confianza del
1    100 % para la proporción ( ) será hallado por:

p 1  p  p 1  p 
p  Z     p  Z  
1  n 1  n
 2  2
a b

donde a y b son valores numéricos que representan el Límite inferior y Límite superior
del intervalo.

Intervalo de confianza para la variancia

Sea X1, , X n una muestra aleatoria de una población normal con variancia  2 ,

(n  1) S 2  (X i  X )2
desconocida. Se usa  ~  2n -1 , entonces para determinar el
 2
 2

intervalo de confianza del 1     100 % para la varianza se cumple:

 
P  2 2,n1   2n1   21 2,n1  1  

 2
P    2,n1 
 n  1 S 2


   1
2

  2 1 2,n1

179
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Entonces despejando la expresión anterior, el intervalo con un nivel de confianza del
1    100 % para la varianza (  2 ) será hallado por:

 n  1 s 2   2   n  1 s 2
2
 
2
  
1 , n 1  , n 1
 2  2 
a b

Si se desea obtener los límites de confianza para la desviación estándar se obtiene la raíz
cuadrada en la expresión anterior obteniéndose:

 n  1 s 2  
 n  1 s 2
 2  
 2 
1 , n 1  , n 1
 2   2 
a b

Ejemplo 2
En 2011, se tomó una muestra de 35 casas en la Ciudad 1, y se hizo el estudio de las
siguientes variables: X= Peso total de basura producida en una casa durante un día (Kg),
Y= Peso de residuos orgánicos producidos (Kg) en una casa durante un día y Z= Hábito
de reciclaje, obteniéndose los siguientes resultados:

Peso Peso residuos Hábito de
Casa total de orgánicos reciclaje
basura
1 2.7 1.8 Si
2 3.0 1.5 No
3 1.5 0.8 No
4 1.8 0.8 No
5 3.0 2.1 Si
6 2.5 1.5 No
7 4.0 2.5 No
8 3.0 1.2 No
9 3.5 2.0 Si
10 5.0 3.7 No
11 1.5 0.8 No
12 2.5 1.3 No
13 2.3 1.3 No
14 3.5 2.8 No
15 5.0 3.5 No
16 4.0 2.1 No
17 4.0 2.6 No
18 3.0 1.2 No
19 2.5 1.0 No
20 2.8 2.0 No
21 2.8 1.9 Si
22 3.5 2.6 No
23 4.0 3.3 No
24 3.0 2.0 No
180
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Peso Peso residuos Hábito de
Casa total de orgánicos reciclaje
basura
25 1.9 1.0 No
26 2.7 1.4 No
27 2.8 1.8 No
28 3.7 2.5 No
29 3.2 2.3 No
30 2.9 1.9 No
31 3.5 2.1 Si
32 3.0 1.3 No
33 5.0 3.4 No
34 3.5 2.7 No
35 4.0 3.2 Si
Cálculos:

Peso Peso residual
Total Orgánico

3.160 1.997
x
s 0.884 0.818
n 35 35

Del total de casas, sólo 6 tienen hábitos de reciclaje

a. Halle e interprete un intervalo de confianza del 95% para el peso total promedio de
basura producida en una casa durante un día.

Solución:

1    0.95    0.05  1   0.975 . t 0.975,34   2.032
2
0.884 0.884
3.160  2.032    3.160  2.032  2.856    3.464
35 35

Interpretación: Se tiene un nivel de confianza de 95% que el peso total promedio de
basura producida en una casa durante un día está en el intervalo  2.856,3.464 Kg.

b. Halle un intervalo de confianza de 95% para la verdadera proporción de casas que
tienen el hábito de reciclaje en esa ciudad.

Solución:
 6
1    0.95    0.05  1   0.975 .  Z 0.975  1.96 y p 
 0.1714
2 35
0.1714 x(1  0.1714) 0.1714 x(1  0.1714)
0.1714  1.96    0.1714  1.96
35 35
 0.0465    0.2963

Interpretación: Se tiene una confianza de 95% que la verdadera proporción de casas
que tienen el hábito de reciclaje, está en el intervalo 0.0465 , 0.2963  .

181
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c. Halle e interprete un intervalo de confianza del 95% para la varianza y desviación
estándar del peso de los residuos orgánico.

Solución:

1    0.95    0.05  1   0.975   20.975,34   51.966 y  20.025,34   19.806
2

(n  1) S 2 (n  1) S 2 (35  1)0.8182 (35  1)0.8182
2   2   0.438   2  1.149
 21 ;n 1  2 ;n 1 51.966 19.806
 2   2 

Interpretación: Se tiene una confianza de 95% que la verdadera varianza estándar del
peso de los residuos orgánico se encuentra en el intervalo 0.438, 1.149 Kgs . 2

Para la desviación estándar: 0.438    1.149  0.662    1.072

Interpretación: Se tiene una confianza de 95% que la verdadera desviación estándar
del peso de los residuos orgánico se encuentra en el intervalo 1.615, 2.616  Kg.

Ejemplo 3
Los siguientes datos corresponden a los pesos de destete (X 1) y peso de nacimiento (X2),
en gramos, de una muestra aleatoria de 10 cuyes.

X1 210 174 310 127 174 172 296 362 306 352
X2 140 142 140 90 92 84 156 200 185 180

Asumiendo que ambas variables tienen distribución normal:

a. Halle un intervalo de confianza de 90% para el verdadero peso medio de destete de
los cuyes.
Solución:
Peso de Peso al
Destete Nacer

x 248.3 140.9
s 85.7 41.4
n 10 10


1    0.90    0.10  1   0.95 .  t 0.95;9   1.833
2
s 85.7
x  t1 2,n1  248.3  1.833 , de donde se obtiene: 198.624, 297.976
n 10

Interpretación: Se tiene una confianza de 90% que el peso promedio de destete,
está en el intervalo 198.624, 297.976 gr.

One-Sample T: PDestete

Variable N Media StDev SE Media 90.0% CI
PDestete 10 248.3 85.7 27.1 ( 198.6, 298.0)

182
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. Halle un intervalo de confianza de 98% para la verdadera variancia del peso al nacer
de los cuyes.
Solución:

1    0.95    0.02  1   0.99   20.99,9   21.666 y  20.01,9   2.088
2

(n  1) S 2 (n  1) S 2 (10  1) x 41 .42 (10  1) x 41.42
  2
    2
  711 .975   2  7387 .759
 1 ; n 1
2
  ; n 1
2
21.666 2.088
2 2

Interpretación: Se tiene una confianza de 98% que la verdadera variancia del peso al
nacer está en el intervalo  711.975, 7387.759 gr2.
Para hallar el intervalo de confianza para , se sacará la raíz cuadrada en ambos
límites: obteniéndose:  26.683,85.952 gr.

Ejercicio 1. Un inspector de calidad está evaluando si el contenido de fruta por lata es
el adecuado. Se supone que el contenido de fruta se distribuye como una normal. El
inspector escoge al azar 35 latas y encuentra que el peso promedio es de 29.2 onzas, la
variancia es de 4 onzas2 y que 5 no tienen un peso adecuado.

a. Halle e interprete un intervalo de confianza del 95% para el peso promedio poblacional.

b. Halle e interprete un intervalo de confianza del 95% para la variancia y desviación
estándar poblacional del contenido de fruta en las latas.

183
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c. Halle e interprete un intervalo de confianza del 99% para la proporción poblacional de
latas que presentan un peso adecuado

Ejercicio 2. Un fabricante de fibras sintéticas diseña un experimento para estimar la
tensión de ruptura media de una fibra, observa las tensiones de ruptura, en libras, de 16
hilos seleccionados al azar y se obtiene los siguientes resultados:

Descriptive Statistics: Tensión
Variable N Media StDev Minimo Maximo
Tensión 16 20.381 0.523 19.600 21.100

a. Con una confianza del 95%, halle el intervalo de confianza para la tensión de ruptura
media de las fibras sintéticas. Interprete.

b. Halle e interprete un intervalo del 90% de confianza para la variancia de la tensión de
ruptura media de las fibras sintéticas.

184
UNA La Molina - Dpto. de Estadística e Informática Estadística General

10.3 Determinación del Tamaño de Muestra

A continuación se presenta la manera de hallar el tamaño de muestra cuando se estima
a la media poblacional μ o cuando se estima a la proporción poblacional .

Determinación del tamaño de muestra para estimar a la media poblacional μ
x  t 2s2
Se sabe que: t , despejando se obtiene el tamaño de muestra:
s/ n n 2
e
Donde:
 e es el margen de error que se quiere aceptar.
 El valor de t  t 1
 2  depende del nivel de confianza requerido y se trabaja con gl .
 La variancia s 2 se obtiene de una muestra piloto.

Determinación del tamaño de la muestra para estimar la proporción poblacional

Se sabe que:
p  Z 2 1   
Z
 (1   )
, despejando se obtiene el tamaño de muestra: n
e2
n

Donde:
 e es el margen error permisible.
 El valor de Z  Z 1  depende del nivel de confianza requerido
2

  es el parámetro que se desea estimar y como es desconocido, entonces se puede
tomar una muestra piloto para obtener un valor estimado. Se puede utilizar el valor
conservador igual a 0.5.

Ejemplo 4
Una famosa cadena de hoteles desea desarrollar un intervalo de confianza del 99% para
estimar el número promedio de habitaciones ocupadas cada noche en sus sucursales de
toda la nación. ¿Cuántas noches deben incluirse en la muestra si se puede tolerar un
error de 10 habitaciones y una muestra piloto revela una desviación estándar de 60
habitaciones?

Solución:
t 2s2 2.582 x602
  0.01  t 1 ,  t 0.995,   2.58  n  2   239.63  240 noches
 2  e 102

185
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 5
¿Cuántos estudiantes debe tener una muestra, con el fin de estimar la proporción de
estudiantes que tienen correo electrónico? En un estudio previo, se halló que de 150
estudiantes, 120 tenían correo electrónico. Se desea tener un nivel de confianza del 95%
y un error del 3% en las estimaciones.

Solución:

120 1.962  0.8  0.2
p  0.8 , Z 0.975  1.96 , entonces n0   682.95  683 y por lo tanto:
150 0.032
En el siguiente cuadro se presenta las estimaciones de tamaños de muestra para
diferentes valores de margen de error:

Margen de error n
0,01 6146,560
0,02 1536,640
0,03 682,951
0,04 384,160
0,05 245,862
Se observa un incremento exponencial de tamaño de muestra al disminuir el margen de
error.

Ejercicio 3. ¿Cuál debe ser el tamaño de muestra para estimar el nivel medio del
consumo de proteínas de los adultos de una zona minera, si se desea tener un margen
de error de 0.45 g/dl y un nivel de confianza del 95%?. De una muestra piloto se obtuvo
que el consumo de proteínas tiene una desviación estándar de 2.5 g/dl.

Ejercicio 4. El director comercial de cierta compañía que realiza ventas por correo
electrónico, desea precisar con mucho cuidado su política de crédito. Si el director desea
tener un intervalo de confianza del 99% para la proporción de clientes que están al día
en sus pagos. ¿Qué tamaño de muestra debe usar si se desea tener un margen de error
del 4.5%?. Suponga que en una muestra piloto de 35 clientes se halló que 8 clientes
están al día en sus pagos.

186
UNA La Molina - Dpto. de Estadística e Informática Estadística General

10.4 Prueba de hipótesis

Una hipótesis estadística, es cualquier afirmación o suposición que se hace acerca del tipo
de distribución de probabilidad de la población o al valor o valores de uno o más
parámetros de la población.

Ejemplo 6
Las siguientes son hipótesis estadísticas:

a) El peso promedio de destete de ciertos cuyes es 230 gr.
b) La proporción de casas con hábitos de reciclaje es mayor que 0.15
c) La variancia de los diámetros de ciertos árboles es 0.95 m 2
d) Son iguales los pesos promedios al nacer de dos tipos de cuyes (I, II) que se
distribuyen normalmente con variancias iguales  1   2
2 2

Hipótesis nula y alterna

Hipótesis nula (H0 o Hp). Es la hipótesis que es aceptada provisionalmente como
verdadera y cuya validez será sometida a verificación experimental. Los resultados
experimentales nos permitirán seguir aceptándola como verdadera o si debemos
rechazarla como tal.

Hipótesis alterna (H1 o Ha). Es la hipótesis que se acepta en caso de que la hipótesis
nula sea rechazada. H1 es la suposición contraria a H0.

Prueba de hipótesis estadística es el proceso mediante el cual se toma la decisión de
aceptar o rechazar la hipótesis nula.

La aceptación de una hipótesis nula, significa que los datos de la muestra no proporcionan
evidencia suficiente para rebatirla. El rechazo significa que los datos de la muestra lo
rebaten.

Tipos de pruebas de hipótesis

El tipo de prueba depende de la forma de la hipótesis alterna:

a. Prueba de hipótesis bilateral o de dos colas, si:

H 0 :    0 contra H1 :    0

b. Prueba de hipótesis unilateral o de cola a la derecha, si:

H 0 :    0 contra H1 :    0 , o
H 0 :    0 contra H1 :    0

c. Prueba de hipótesis unilateral o de cola a la izquierda, si:

H 0 :    0 contra H1 :    0 , o
H 0 :    0 contra H1 :    0

Donde  es el parámetro de interés y  o el valor supuesto que puede tomar el parámetro.

187
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Errores tipo I y tipo II

Al tomarse una decisión respecto a una hipótesis nula (H 0), se puede presentar cuatro
posibles casos que determinan si la decisión tomada es correcta o incorrecta, esto se
presenta en la siguiente tabla:

Decisión H0 verdadera H0 falsa
Aceptar H0 Decisión correcta Error tipo II
Probabilidad = 1   Probabilidad = 
Rechazar H0 Error tipo I Decisión correcta
Probabilidad =  Probabilidad = 1  

Error tipo I, es el error que se comete cuando se rechaza una hipótesis nula que es
verdadera en la población.

Error tipo II, es el error que se comete cuando se acepta una hipótesis nula que es falsa
en la población.

Nivel de significación (  ). De una prueba de hipótesis, es la probabilidad de cometer
error tipo I.

La probabilidad de cometer error tipo I se denota por  , entonces:
 = P(error tipo I) = P(rechazar una hipótesis nula verdadera)

La probabilidad de cometer error tipo II se denota por  , entonces:

 = P(error tipo II) = P(aceptar una hipótesis nula falsa)

Potencia de prueba. Es igual a 1 -  , es la probabilidad de rechazar una hipótesis nula
que es falsa.

Región crítica y regla de decisión.

La regla de decisión involucra la división de la distribución muestral del estadístico 
2
(como X , S etc.) de la prueba en dos partes mutuamente excluyentes: a región de
rechazo o región crítica (R.C) de la hipótesis nula, y la región de aceptación (R.A) o no
rechazo de la hipótesis nula. La división depende de la forma de la hipótesis alternativa,
del nivel de significación  y de la distribución muestral del estadístico.

188
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Supuestos para las pruebas de hipótesis.

Para las diferentes pruebas de hipótesis se deben cumplir los siguientes supuestos:

1. Prueba de hipótesis para una media poblacional (  ), para la variancia poblacional

  y para una proporción   .
2

a. La muestra es aleatoria.
b. La muestra proviene de una distribución normal.

2. Prueba de hipótesis para diferencias de medias poblacionales  1  2  , para la razón
  22 
de variancias poblacionales  2  y para la diferencia de proporciones  1   2  .
 1 

a. Las muestras son aleatorias.
b. Las muestras provienen de distribuciones normales.
c. Las poblaciones son independientes.

Procedimiento general de la prueba de hipótesis de un parámetro 

1. Formular la hipótesis nula y la hipótesis alternativa.

2. Elegir el nivel de significación .

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor
estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla de las pruebas de hipótesis.

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de
aceptación de la hipótesis nula (Ho).

5. Decidir el rechazo de la hipótesis nula (Ho), si E c cae en la región crítica de rechazo.
En caso contrario, no rechazar la hipótesis nula.

6. Conclusión

189
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Tabla de las pruebas de hipótesis

Hipótesis Valores tabulares E1 y E2
referida Prueba Estadística (E) =/2 para pruebas bilaterales
a :  = para pruebas unilaterales
2 desconocida y población normal

 tc=
X   0
~ t n 1
t1= - t(1-,n-1)
t2= t(1-,n-1)
s
n


2
 
2n  1 S 2
 2n1  12   2  , n  1
c 2
0
 22   2 1   , n  1
p 0
Zc= ~ N(0,1)
 0 (1   0 ) Z1= Z()
 Z2 = Z(1-)
n

S12  22
 /
2 2 Fc  2 2 F  n1  1, n2  1 F1= F(, n1-1, n2-1)
2 1 S2  1 F1= F(1-, n1-1, n2-1)

a.  12 y  22 desconocidas pero
homogéneas y poblaciones normales. S p2 
 n1  1 S12   n2  1 S22
X 
 X 2   1  2 0
n1  n2  2
t1  t 1   , n1  n2  2 
1
tc  t n1  n2 2
 1 1 
S p2    t2  t 1   , n1  n2  2 
 n1 n2 
1   2
b.  12 y  22 desconocidas pero  s12 s22 
2

heterogéneas y poblaciones   
H   12 2  2
n n
normales.
 s12   s22 
X 1  X 2   1  2 0    
tc  t H   n1    n2 
s12 s22 n1  1 n2  1

n1 n2
t1  t 1   , H 
t2  t 1   , H 
a. Cuando  1   2 =0
n1 p1  n2 p2
p1  p2   1   2 0 p
Zc  N  0,1 n1  n2
1 1
p 1 p    
 n1 n2 
 Z1= Z()
Z2 = Z(1-)
1   2
b. Cuando  1   2  0
p1  p2   1   2 0
Zc  N  0,1 Z1= Z()
p1 1  p1  p2 1  p2  Z2 = Z(1-)

n1 n2

190
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 7
(En este ejemplo se usan los resultados del estudio durante 2011 de la ciudad 1 del
ejemplo 2 y datos ya calculados de la cuidad 2 para ese mismo año). Se estudió el peso
total de basura producida por casa durante un día en dos ciudades, para lo cual se
tomaron dos muestras de tamaños 35 y 40 respectivamente obteniéndose:

Ciudad 1 Ciudad 2

3.1600 3.7575
x
s 0.884 0.3809
n 35 40

¿Hay evidencias estadísticas para afirmar que el peso total promedio en la ciudad 1 es
3.22 Kg? Use =0.05

1. Formular la hipótesis nula y la hipótesis alternativa.
H 0 : 1  3.22
H1 : 1  3.22

2. Elegir el nivel de significación. =0.05

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor
estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:

tc=
X 1  0  n1 ~t(n-1) Cálculo: tc 
 3.16  3.22  35  0.402
s1 0.884

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de aceptación
de la prueba.

La prueba es bilateral por la forma de la
hipótesis alternativa H1 : 1  3.22
Región de rechazo=RR=
t  2.032  t  2.032
Región de aceptación=RA=
2.032  Z  2.032

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso
contrario, no rechazar la hipótesis nula.

tc = -0.402 cae en la RA, entonces no hay evidencias estadísticas para rechazar la H0
, en otras palabras no se rechaza la afirmación de que el peso total promedio es 3.22
en la ciudad 1.

191
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 8
Después de la ejecución en el 2011 del estudio del peso de residuos orgánicos producidos
por casa durante un día en las ciudades 1 y 2; en el 2012 se volvió a recoger datos en
las mismas dos ciudades, para lo cual se tomaron dos muestras de tamaños 17 y 22
casas respectivamente obteniéndose:

Ciudad 1 Ciudad 2

x 1.777 2.115

s 0.718 0.6549
n 17 22

a. ¿Hay evidencias estadísticas para afirmar que el peso promedio de residuos orgánicos
en la ciudad 1 es menor de 2.5 Kg? Use =0.025

1. Formular la hipótesis nula y la hipótesis alterna.
H 0 : 1  2.5
H1 : 1  2.5

2. Elegir el nivel de significación. =0.025

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor
estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:

tc=
X 1  0  n1 ~ t(n-1) Cálculo: tc 
1.777  2.5 * 17   4.1518
s1 0.718

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de aceptación
de la prueba.
La prueba es unilateral a la izquierda por la forma de la hipótesis alterna H1 : 1  2.5
Región de rechazo = RR = {t < -2.120}
Región de aceptación = RA = {t≥-2.120}

Región de
Aceptación

t 

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso
contrario, no rechazar la hipótesis nula.

tc = -2.120 cae en la RR, entonces hay evidencias estadísticas para rechazar la H0 , en
otras palabras se acepta la afirmación de que el peso promedio de residuos orgánicos
es menor que 2.5 Kg en la ciudad 1.

192
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. ¿Hay evidencias muestrales para establecer que el promedio de los residuos orgánicos
de la ciudad 2 excede al de la ciudad 1 en más de 1 Kg? Use  =0.10

Solución

Caso: Prueba de hipótesis para  2  1 con  12 y  22 desconocidas
Primer Paso.
 22
Prueba de hipótesis para  12   22  1
 12
1. Formular la hipótesis nula y la hipótesis alterna.

 22
H 0 :  12   22  1
 12
 22
H1 :  12   22  1
 12
2. Elegir el nivel de significación. =0.10

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor
estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:

S12  22
Fc  ~ F (n1  1, n2  1) ~ F (16,21).
S 22  12
0.7182
Cálculo: Fc  1.2019
0.65492

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de aceptación
de la prueba.
 22
La prueba es bilateral por la forma de la hipótesis alternativa H1 :     2  1
2 2
1
1 2

Región de rechazo = RR = F 16,21; 0.05   0.44  F (16,21; 0.95)  2.16
Región de aceptación = RA = 0.44  F  2.16

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso
contrario, no rechazar la hipótesis nula.
Fc = 1.2019 cae en la RR, entonces no hay evidencias estadísticas para no rechazar la
 22
H0, en otras palabras hay homogeneidad de variancias (  1   22   1 ).
2

 12

193
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Segundo Paso

Caso: Prueba de hipótesis para  2  1 con  12 y  22 desconocidas pero homogéneas.

1. Formular la hipótesis nula y la hipótesis alterna.

H o :  2  1  1
H1 :  2  1  1
2. Elegir el nivel de significación. =0.10

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor
estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:

(17  1) * 0.7182  (22  1) * 0.6549 2
S 2
  0.46636
17  22  2
p

( 2.115  1.777)  1
tc   3.002
1 1
0.46636(  )
22 17

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de aceptación
de la prueba.

La prueba es unilateral hacia la derecha por la forma de la hipótesis alterna
H 1 :  2  1  1

Región de rechazo = RR = { t`c  1.69 }
Región de aceptación = RA = { tc  1.69 }

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso
contrario, no rechazar la hipótesis nula.

tc = 3.002 cae en la RR, entonces hay evidencias estadísticas para rechazar la H 0 y
aceptar la H1, en otras palabras se acepta la afirmación de que el peso de residuos
orgánicos promedio de la ciudad 2 excede al de la ciudad 1 en 1 Kg.

Ejemplo 9
Se hicieron 9 y 8 observaciones de pH en suelo superficial de cada una de dos diferentes
localidades, obteniéndose:

Localidad 1 8.53 8.52 8.01 7.99 7.93 7.89 7.85 7.82 7.80
Localidad 2 7.85 7.73 7.58 7.40 7.35 7.30 7.27 7.27

Suponiendo que en cada localidad el pH tiene distribución normal.

194
UNA La Molina - Dpto. de Estadística e Informática Estadística General

a. ¿Se puede afirmar que la verdadera media de valores de pH del suelo en la localidad
1 es por lo menos 8.08? Use  =0.05.

Solución
Localidad 1 Localidad 2

x 8.04 7.47

s 0.285 0.224
n 9 8

1. Formular la hipótesis nula y la hipótesis alternativa.
H 0 : 1  8.08
H1 : 1  8.08

2. Elegir el nivel de significación. =0.05

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor
estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:

tc=
X 1  0  n1 ~ t n 1 t8 Cálculo: tc 
8.04  8.08 9  0.42
s1 0.285

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de aceptación
de la prueba.

La prueba es unilateral a la izquierda por la forma de la hipótesis alternativa
H1 : 1  8.08
Región de rechazo = RR = t   1.86 8

Región de aceptación = RA = t   1.86 8

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso
contrario, no rechazar la hipótesis nula.

tc = -0.42 cae en la RA, entonces no hay evidencias estadísticas para rechazar la H0,
en otras palabras no se rechaza la afirmación de que la media del pH es por lo menos
8.08 en la localidad 1.

One-Sample T: Local 1
Test of mu = 8.08 vs mu < 8.08

Variable N Mean StDev SE Mean
Local 1 9 8.0378 0.2852 0.0951

Variable 95.0% Upper Bound T P
Local 1 8.2145 -0.44 0.334

b. Si en realidad 1  8 , ¿Se cometió algún error en la pregunta a). Justifique.

No se rechazó una hipótesis falsa, entonces se cometió error tipo II.

195
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c. ¿Con qué valores del estimador se rechazará la hipótesis planteada en la pregunta
a)?

Se rechazará H 0 si
X 1  0  n1  1.86 
X 1  8.08
9  1.86  X 1  7.903
s1 0.285
Se rechazará H 0 si X 1  7.903 .

d. En la localidad 2 la variancia del pH era de 0.022, pero un especialista considera que
ha aumentado ¿Tiene razón el especialista? Use  =0.10.

Solución
Caso Prueba de hipótesis para  22 .

1. Formular la hipótesis nula y la hipótesis alternativa.
H 0 :  22  0.022
H1 :  22  0.022

2. Elegir el nivel de significación. =0.10

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor
estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:

 c2 
 n  1 S22  2  27 . Cálculo:  c2 
8  1 0.2242  15.97
 n 1
2 2 2
0.022

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de aceptación
de la prueba.

La prueba es unilateral a la derecha por la forma de la hipótesis alternativa
H1 :  22  0.022
Región de rechazo = RR =    12.017 2
7

Región de aceptación = RA =      12.017
2
7

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso
contrario, no rechazar la hipótesis nula.

 c2 = 15.97 cae en la RR, entonces hay evidencias estadísticas para rechazar la H 0 ,
en otras palabras la muestra nos permite afirmar que la variancia aumentó.

e. Si en realidad  22  0.022 , ¿Se cometió algún error en la pregunta d). Justifique.

Se rechazó una hipótesis planteada verdadera, entonces se cometió error tipo I.

196
UNA La Molina - Dpto. de Estadística e Informática Estadística General

f. ¿Con qué valores del estimador no se rechazará la hipótesis planteada en la pregunta
d)?

No se rechazará H 0 si:  
2  n  1 S22  8  1 S22
  12.017  S22  0.038
c
22
0.022
No se rechazará H 0 si: S  0.038 .
2
2

g. ¿Hay homogeneidad de variancias? Use  =0.10.

Solución
 22
Caso Prueba de hipótesis para  12   22  1
 12
1. Formular la hipótesis nula y la hipótesis alternativa.
 22
H 0 :  12   22  1
 12
 22
H1 :  12   22  1
 12
2. Elegir el nivel de significación. =0.10

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor
estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:

S12  22 0.2852
Fc  F  n1  1, n2  1 F  8, 7  . Cálculo: Fc   1.62
S22  12 0.2242

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de aceptación
de la prueba.
 22
La prueba es bilateral por la forma de la hipótesis alternativa H1 :  12   22  1
 12
 
 0.29  F  8, 7   3.73
1
Región de rechazo = RR =  F  8, 7  
 3.50 
Región de aceptación = RA = 0.29  F  3.73

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso
contrario, no rechazar la hipótesis nula.

Fc = 1.62 cae en la RA, entonces hay evidencias estadísticas para no rechazar la H 0 ,
 22
en otras palabras hay homogeneidad de variancias (     2  1 )
2 2

1 1 2

197
UNA La Molina - Dpto. de Estadística e Informática Estadística General

h. ¿Sugiere la información que la verdadera media de valores de pH del suelo difiere para
las dos localidades? Use =0.05.

Solución
Caso Prueba de hipótesis para  2  1 con  12 y  22 desconocidas y homogéneas

1. Formular la hipótesis nula y la hipótesis alternativa.
H 0 : 2  1  0
H1 : 2  1  0

2. Elegir el nivel de significación. =0.05

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor
estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:
X 2  X1  k
tc  t n1  n2  2 t15 .
1 1
s 2p (  )
n2 n1

Cálculos: s 2p 
 n1  1 s12   n2  1 s22 
8  0.2852  7  0.2242
 0.067 
n1  n2  2 15

tc 
 7.47  8.04   0  4.53
1 1
0.067    
9 8

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de aceptación
de la prueba.

La prueba es bilateral por la forma de la hipótesis alternativa H1 :  2  1  1


Región de rechazo = RR = t15  2.131  t15  2.131   
Región de aceptación = RA = 2.131  t 15
 2.131 
5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso
contrario, no rechazar la hipótesis nula.

tc = -4.53 cae en la RR, entonces hay evidencias estadísticas para rechazar la H0 , en
otras palabras la información nos permite afirmar que la media de valores de pH del
suelo difiere en ambas localidades.

Two-Sample T-Test and CI: Local 2, Local 1
Two-sample T for Local 2 vs Local 1
N Mean StDev SE Mean
Local 2 8 7.469 0.224 0.079
Local 1 9 8.038 0.285 0.095

Difference = mu Local 2 - mu Local 1
Estimate for difference: -0.569
95% CI for difference: (-0.837, -0.301)
T-Test of difference = 0 (vs not =): T-Value = -4.53 P-Value = 0.000 DF = 15
Both use Pooled StDev = 0.259

198
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 10
La siguiente información es el resultado de un experimento para medir el porcentaje de
aumento de peso para ratones jóvenes de laboratorio a los que se administró una dieta
estándar y ratones a los que se les dio 2000 partes por millón (ppm) de nitrato (fuerte
dosis) en el agua que bebieron.

Nitrato (1) 12.7 19.3 20.5 10.5 14.0 10.8 16.6 14.0 17.2
Control (2) 18.2 32.9 10.0 14.3 16.2 27.6 15.7

Suponiendo que el porcentaje de aumento de peso con nitrato y del control tienen
distribución normal.
a. ¿Son homogéneas las variancias? Use =0.10.

Solución

Nitrato (1) Control (2)

x 15.07 % 19.27 %

s 3.558 % 8.053 %
n 9 7
 22
Caso Prueba de hipótesis para    2 1
2 2
1
12

1. Formular la hipótesis nula y la hipótesis alterna.
 22
H0 :    2  1
2 2
1
1
2

 22
H1 :     2  1
2 2
1
1
2

2. Elegir el nivel de significación. =0.10

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor
estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:
S12  22 3.5582
Fc  2 2 F  n1  1, n2  1 F  8, 6  . Cálculo: Fc   0.195
S2  1 8.0532

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de aceptación
de la prueba.
 22
La prueba es bilateral por la forma de la hipótesis alterna H1 :     2  1
2 2
1
12

 
 0.279  F 8, 6   4.15
1
Región de rechazo = RR =  F  8, 6  
 3.58 
Región de aceptación = RA = 0.279  F  4.15

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso
contrario, no rechazar la hipótesis nula.
Fc = 0.195 cae en la RR, entonces hay evidencias estadísticas para rechazar la H 0 ,
 22
en otras palabras no hay homogeneidad de variancias (  1   22   1)
2

 12

199
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. Determine con =0.01, si una fuerte dosis de nitrato retarda el verdadero promedio
de porcentaje de aumento de peso en ratones.

Solución

Caso Prueba de hipótesis para 1   2 con  12 y  22 desconocidas y heterogéneas

1. Formular la hipótesis nula y la hipótesis alterna.
H 0 : 1  2  0
H1 : 1  2  0

2. Elegir el nivel de significación. =0.01

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor
estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:
X1  X 2  k
tc  t H  t 8  .
s12 s22

n1 n2
2 2
 s12 s22   3.5582 8.0532 
     
Cálculos: H  n1 n2    9 7 
 7.825  8
2 2 2 2
 s12   s22   3.5582   8.0532 
       
 n1    n2   9   7 
n1  1 n2  1 8 6

tc 
15.07  19.27   0  1.29
3.5582 8.0532

9 7

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de aceptación
de la prueba.

La prueba es unilateral a la izquierda por la forma de la hipótesis alternativa
H1 : 1   2  0
Región de rechazo = RR = t8   2.896  
Región de aceptación = RA = t   2.896
8

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso
contrario, no rechazar la hipótesis nula.

tc = -1.29 cae en la RA, entonces hay evidencias estadísticas para no rechazar la H 0 ,
en otras palabras una fuerte dosis de nitrato no retarda el verdadero promedio de
porcentaje de aumento de peso en ratones.

200
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 11
(En este ejemplo se usan los datos de la ciudad 1, del ejemplo 2). ¿Hay evidencias
estadísticas para afirmar que la verdadera proporción de casas que tienen hábito de
reciclaje es a lo más 0.15? Use   0.025 .

Solución
6
p  0.1714
35

Caso Prueba de hipótesis para una proporción .
Procedimiento
1. Formular la hipótesis nula y la hipótesis alternativa.
H 0 :   0.15
H1 :   0.15
2. Elegir el nivel de significación. =0.025

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor
estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:
p 0 0.1714  0.15
Zc= ~ N(0,1). Cálculo: Z c   0.35
 0 (1   0 ) 0.15  0.85
n 35

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de aceptación
de la prueba.

La prueba es unilateral a la derecha por la forma de la hipótesis alternativa
H1 :   0.15

Región de rechazo = RR = Z  1.96
Región de aceptación = RA = Z  1.96

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso
contrario, no rechazar la hipótesis nula.

Zc = 0.35 cae en la RA, entonces no hay evidencias estadísticas para rechazar la H0,
en otras palabras la proporción de casas que tienen hábito de reciclaje es a lo más
0.15.

Test and CI for One Proportion: Hábitos

Test of p = 0.15 vs p > 0.15

Success = Si

Variable X N Sample p 95.0% Lower Bound Z-Value P-Value
Hábitos 6 35 0.171429 0.066643 0.36 0.361

201
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 12
En una biblioteca universitaria se hace un inventario completo de libros en estantes, una
vez al año. El bibliotecario propone seleccionar 800 libros al azar de entre la colección
de la biblioteca e investigarlos de un modo semejante. Si la evidencia muestral indica
que la verdadera proporción de libros mal colocados o extraviados es menor 0.02,
entonces el inventario se pospondrá. Entre 800 libros buscados, 12 estaban mal
colocados o no se pudieron encontrar.

a. Pruebe las hipótesis pertinentes y asesore al bibliotecario sobre qué hacer. Use α =
0.05.

Solución
12
p  0.015
800

Caso Prueba de hipótesis para una proporción .

1. Formular la hipótesis nula y la hipótesis alterna.
H 0 :   0.02
H1 :   0.02

2. Elegir el nivel de significación. =0.05

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor
estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:
p 0 0.015  0.02
Zc= ~ N(0,1). Cálculo: Z c   1.01
 0 (1   0 ) 0.02  0.98
n 800

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de aceptación
de la prueba.

La prueba es unilateral a la izquierda por la forma de la hipótesis alternativa
H1 :   0.02
Región de rechazo = RR = Z  1.65
Región de aceptación = RA = Z   1.65

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso
contrario, no rechazar la hipótesis nula.

Zc = -1.01 cae en la RA, entonces no hay evidencias estadísticas para rechazar la H0,
en otras palabras hay que sugerirle al bibliotecario que haga el inventario.

202
UNA La Molina - Dpto. de Estadística e Informática Estadística General

b. En otra biblioteca universitaria de 850 libros buscados, 19 estaban mal colocados o
no se pudieron encontrar. Con esta información muestral se puede concluir que la
verdadera proporción de libros mal colocados o extraviados es similar en ambas
universidades. Use =0.05.

Solución
12 19
p1   0.015 p2   0.022
800 850

Caso Prueba de hipótesis para una diferencia de proporciones 1   2 = 0.

1. Formular la hipótesis nula y la hipótesis alterna.
H 0 : 1   2  0
H1 :  1   2  0

2. Elegir el nivel de significación. =0.05

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor
estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:
p1  p2   1   2 
Zc  N  0,1 .
1 1

p 1 p    
 n1 n2 
n p  n2 p2 800  0.015  850  0.022
Cálculos: p  1 1   0.019
n1  n2 800  850

Zc 
 0.015  0.022   0  1.04
 1 1 
0.019  0.981   
 800 850 

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de aceptación
de la prueba.
La prueba es bilateral por la forma de la hipótesis alternativa H1 :  1   2  0
Región de rechazo = RR = Z   1.96  Z  1.96
Región de aceptación = RA = 1.96  Z  1.96

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso
contrario, no rechazar la hipótesis nula.

Zc = -1.04 cae en la RA, entonces hay evidencias estadísticas para no rechazar la H 0 ,
en otras palabras la información nos permite afirmar la verdadera proporción de libros
mal colocados o extraviados es similar en ambas universidades.

203
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c. ¿La información nos permite afirmar que la verdadera proporción de libros mal
colocados o extraviados en la universidad 2 es menor que en la universidad 1 en -
0.005. Use =0.05.

Solución

12 19
p1   0.015 p2   0.022
800 850

Caso Prueba de hipótesis para una diferencia de proporciones 1   2  0.

1. Formular la hipótesis nula y la hipótesis alterna.
H 0 :  1   2  0.005
H1 :  1   2   0.005

2. Elegir el nivel de significación. =0.05

3. Seleccionar la prueba estadística apropiada, E, (cuya distribución depende del valor
estadístico utilizado) y hallar el valor calculado (Ec) de la prueba estadística. Ver la
tabla:

p1  p2   1   2 
Zc  N  0,1
p1 1  p1  p2 1  p2 

n1 n2
0.015  0.022   0.005 
Cálculos: Z c   0.30
0.015  0.985 0.022  0.978

800 850

4. Determinar la regla de decisión, estableciendo las regiones de rechazo y de aceptación
de la prueba.

La prueba es bilateral por la forma de la hipótesis alterna H1 :  1   2  0.005

Región de rechazo = RR = Z   1.96  Z  1.96
Región de aceptación = RA = 1.96  Z  1.96

5. Decidir el rechazo de la hipótesis nula si Ec cae en la región de rechazo. En caso
contrario, no rechazar la hipótesis nula.

Zc = -0.30 cae en la RA, entonces hay evidencias estadísticas para no rechazar la H 0,
en otras palabras la información nos permite afirmar la verdadera proporción de libros
mal colocados o extraviados en la universidad 2 es menor que en la universidad 1 en
–0.005.

204
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 6. Se realiza un control a los conductores deteniendo los autos que circulan a
altas horas de la noche, midiendo a sus conductores el grado de alcohol consumido en
decigramos de alcohol por litro de sangre Se muestra a continuación el resultado obtenido
en 12 conductores seleccionados aleatoriamente.

Resultados 0.4 0.7 0.5 0.6 0.7 0.6
obtenidos en el
dosaje etílico 0.4 0.7 0.6 0.7 0.6 0.5

a. Suponiendo que los resultados en el dosaje etílico, se distribuyen normalmente. Pruebe
usted la hipótesis que sostiene que el grado medio de alcohol consumido por los
conductores es mayor a 0.4 decigramos de alcohol por litro de sangre. Use  = 0.05.
2.

b. Probar la hipótesis que sostiene que la variancia del grado de alcohol consumido por
los conductores que circulan a altas horas de la noche es menor a 0.05 decigramos2
de alcohol por litro de sangre. Use  = 0.05.

205
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 7. Un investigador diseñó un experimento en el que pidió a un determinado
número de sujetos que lleven a cabo una tarea específica en un medio controlado y bajo
dos niveles diferentes de ruido de fondo (el nivel 2 es más severo que el nivel 1). El
investigador seleccionó 44 personas que son capaces de realizar la misma tarea y de
manera práctica en el mismo tiempo.
Los siguientes datos representan los tiempos observados (en minutos) que fueron
necesarios para completar la tarea:

Nivel 1 Nivel 2
n 21 23

x 14.4 18.6
s 2.277 2.450
Asuma que los tiempos observados en cada nivel tienen distribución normal.

a. ¿Hay evidencias estadísticas para afirmar que el verdadero tiempo medio en el nivel 1
es menor que 15.5 minutos? Use  = 0.05.

b. ¿Con qué valores del estimador se acepta la hipótesis planteada en la pregunta a?.

c. Si en realidad el verdadero tiempo promedio con el nivel 1 es 17.5 minutos ¿Se cometió
algún error en la pregunta a?

206
UNA La Molina - Dpto. de Estadística e Informática Estadística General

d. Si el investigador afirma que la verdadera desviación estándar del tiempo con el nivel
2 era 2.3, pero un especialista considera que ha aumentado ¿Tiene razón el
especialista? Use =0.10.

e. Si 10 personas a los que se les aplicó el primer nivel de ruido excedieron el tiempo
límite para llevar a cabo la tarea específica. Pruebe a un =0.05 si más del 30% de
personas a los que se les aplica el primer nivel de ruido exceden el tiempo límite para
llevar a cabo la tarea específica.

207
UNA La Molina - Dpto. de Estadística e Informática Estadística General

f. ¿Son similares los tiempos medios con ambos niveles de ruido?. Use =0.10.

g. Si 12 personas a los que se les aplicó el primer nivel de ruido y 15 personas a lo que
se les aplicó el segundo nivel de ruido excedieron el tiempo límite para llevar a cabo
la tarea específica. Pruebe a un =0.05 si la proporción de personas que supera el
tiempo límite en llevar a cabo la tarea específica es mayor al aplicar el primer nivel de
ruido que el segundo nivel de ruido.

208
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejercicio 8. Un agricultor desea probar la eficiencia de dos concentraciones de
plaguicidas en muestras de cultivos de frijol canario. Luego de la cosecha se obtuvo los
siguientes resultados de rendimiento en Kg/parcela.
Plaguicida A B
Tamaño de muestra 17 19
Rendimiento promedio en Kg/parcela 210 180
Variancia muestral 18.50 58.20

Asumiendo normalidad en los rendimientos (Kg/parcela)

a. ¿Se puede afirmar que el rendimiento de frijol canario es mayor a 185 Kg/parcela
utilizando el plaguicida A? Use  = 0.05

b. ¿Se puede afirmar que el rendimiento promedio obtenido utilizando el plaguicida A
supera al plaguicida B en más de 20 kg/parcela? Use  = 0.10

209
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Práctica Dirigida N° 7

1. La siguiente tabla muestra datos sobre aumento de peso corporal (grs) para una
muestra de animales de control y una muestra de animales a los que se dio una dosis
de 1 mg/pastilla de cierto esteroide diluido (los animales de control son aquellos que
no recibieron el esteroide).

Tamaño de Media Desviación
Animales
muestra muestral estándar
Control 10 40.5 4.5
Esteroide diluido 8 52.8 2.6

Suponga que el aumento de peso se distribuye normalmente tanto para animales de
control como para los que recibieron el esteroide.

a) Halle e interprete con un nivel de confianza del 98% el aumento promedio de peso
corporal de los animales que se les dio el esteroide diluido.

b) Halle e interprete un intervalo de confianza del 95% la desviación estándar del
aumento de peso corporal de los animales que no recibieron el esteroide.

c) Se puede concluir que la desviación estándar del aumento de peso corporal de los
animales que tomaron esteroide es superior a 4.0 gr. Use  = 0.05.

210
UNA La Molina - Dpto. de Estadística e Informática Estadística General

d) Con un nivel de significación e 0.05, se puede afirmar que hubo una ganancia de
peso corporal de los animales que recibieron el esteroide con respecto a los que
no la recibieron.

211
UNA La Molina - Dpto. de Estadística e Informática Estadística General

2. La gerencia comercial de la empresa CEREAL S.A que se dedica a la comercialización
de cajas de cereal en supermercados, desea introducir un nuevo producto con la
finalidad de aumentar su posicionamiento en el mercado de cereales. El nuevo
producto “Cheerios” se comercializará también en bodegas, esperando ser un
producto competitivo. Con esta finalidad la gerencia comercial, ha realizado un
estudio de mercado para evaluar la competitividad y productividad de este nuevo
producto. Para el presente estudio la gerencia de comercialización se ha planteado
varios objetivos.

Con la finalidad de analizar las empresas de la competencia, se extrae una muestra
aleatoria de 12 bodegas registrando los precios de venta (en soles) del cereal
Cheerios.

4,8 5,9 6,0 6,5 5,8 5,3
4,7 4,9 4,4 6,2 5,8 5,5
a. Mantener el precio de lanzamiento. El gerente de comercialización decidirá
mantener el precio de lanzamiento del nuevo cereal Cheeris de S/. 5.5, si
comprueba que el precio promedio de venta de la competencia es al menos S/.
6.0. Usando un nivel de significación del 5%, ¿cuál será la decisión del gerente de
comercialización?.

b. El gerente de comercialización también cree que es importante analizar la
variabilidad del precio de venta de la competencia. El sospecha que la variabilidad
del precio de venta es similar a S/. 0.55. Usando un nivel de significación de 0.05,
pruebe afirmación del gerente comercial.

212
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c. Obtener más del 60% de aceptación de Cheeris. Con esta finalidad se aplicó
una encuesta a 120 personas que compraron el cereal Cheerios, de los cuales 36
dijeron que no seguirián comprando el cereal. Con un nivel de significación del
4%, se puede concluir que la gerencia comercial ha cumplido este objetivo.

d. Aumentar las ventas de CEREAL S.A. La gerencia de comercialización desea
determinar si las ventas de la empresa han aumentado significativamente con el
nuevo cereal. La gerencia espera que las ventas promedio con el cereal Cheeris
sean mayores que con el cereal anterior Kereal en más de $ 30,000. A continuación
se presentan las estadísticas descriptivas de muestras aleatorias de semanas de
ventas obtenidas con el cereal Cheeris y Kereal. Con un nivel de significación de
5%, se puede concluir que se la gerencia tienen razón. Suponga que las ventas se
distribuyen normalmente.

Cereal n Media (miles $) Desviación estándar (miles $)
Cheeris 8 120.0 12.0
Kereal 10 70.0 13.0

213
UNA La Molina - Dpto. de Estadística e Informática Estadística General

2. Aumentar el porcentaje de cajas vendidas de Cheeris. La gerencia comercial
afirma que el porcentaje de cajas vendidas en el segundo trimestre del cereal Cheeris
a aumentado con respecto al primer trimestre. En el siguiente cuadro se presentan
los resultados del número de cajas vendidas para el primer y segundio trimestre, y
para los cereales Cheeris y Kereal. Con un nivel de significación de 5%, pruebe la
afirmación de la gerencia comercial.

Trimestre Cheeris Kereal
Primer 5000 3000
Segundo 5850 3150

214
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

1. Se estudió la densidad (en gr/cm3) de tres tipos de roca, obteniéndose:

Tipo de
n x s
roca
I 14 3.06 0.14
II 18 2.85 0.12
III 22 3.02 0.29

a. Para el tipo de roca III, estime la densidad media con un intervalo de confianza
de 95%.
b. ¿Es la densidad media de la roca tipo II igual a 3 gr/cm3? Use =0.0456.
c. ¿Es la densidad media de la roca tipo III menor que la de tipo I? Use =0.0548.

2. Se está desarrollando un estudio para medir el nivel de estrés promedio de
estudiantes. Se sabe que la población de los puntajes de la prueba para medir el
nivel de estrés de un estudiante preuniversitario se distribuye normalmente con
desviación estándar de 11 puntos. Calcule un intervalo de confianza para  con un
nivel de confianza del 90%, si se elige una muestra aleatoria de tamaño 80 ha dado
una media de 72 puntos.

3. Durante una semana, una tienda de grandes almacenes local registró que 8540 de
las 12810 personas que entraron en la tienda hicieron por lo menos una compra.
Tratando esto como una muestra ala azar de todos los clientes potenciales. Hallar un
intervalo de confianza del 90% para la proporción real de personas que entran en la
tienda y que harán por lo menos una compra.

4. Si en una muestra de 600 estudiantes de Estadística tomada en universidades del
país, 360 tienen hermanos en el área informática. ¿Cuál es el intervalo de confianza
del 90% para la proporción de todos los estudiantes de Estadísticas que tienen
hermanos en el área de informática?. Asuma que el número de estudiantes de
Estadística en todo el país se estima en 5000.

5. Una planta industrial desea determinar qué tipo de combustible (gas o eléctrico)
producirá más energía usada al menor costo. Una medida de la producción de
energía económica es la razón cuadrangular calculada tomando la cantidad de
dinero (en dólares) invertido en un uso particular de la planta y dividirla entre la
cantidad liberada de energía (en unidades térmicas). Cuanto más pequeño es esta
razón, menos es lo que la planta industrial paga por la energía liberada. Se tomaron
muestras aleatorias de 12 plantas que usan combustible eléctrico y 15 plantas que
usan combustible a gas, se midió la razón cuadrangular descrita anteriormente
obteniéndose:

Planta Eléctrica Gas
n 12 15
Media 45.8 35.8
Variancia 67.2 64.5

Asuma que la razón cuadrangular eléctrica y a gas tiene distribución normal.
a. Determine e interprete un intervalo de confianza de 98% para la desviación
estándar de la razón cuadrangular de plantas con combustible eléctrico.
b. ¿Hay homogeneidad de variancias? Use   0.10 .
c. ¿Hay evidencias estadísticas para concluir que en promedio con combustible a gas
se ahorra más que con combustible eléctrico? Use   0.10
215
UNA La Molina - Dpto. de Estadística e Informática Estadística General

6. Se estudió la cantidad de D.D.T, en partes por millón (ppm), encontrados en tejidos
cerebrales de pelícanos. Con una muestra aleatoria de 10 pelícanos jóvenes se
obtuvo una media de 0.041 ppm y una desviación estándar de 0.017 ppm mientras
que con una muestra aleatoria de 13 pelícanos polluelos se obtuvo una media de
0.026 ppm y una desviación estándar de 0.006 ppm. Asumiendo que la cantidad de
D.D.T tiene distribución normal.

a. ¿Hay evidencias estadísticas para establecer que las variancias difieren? Use
  0.02 .
b. ¿El contenido promedio de D.D.T en pelícanos jóvenes supera al de pelícanos
polluelos en más de 0.01 ppm? Use   0.02

7. Se sabe que el peso de ciertas bolsas de arroz, embolsadas por una máquina, tiene
distribución normal. Se tomó una muestra aleatoria de 22 bolsas obteniéndose una
media de 1.990 Kg y una variancia de 0.0004 Kg 2 .

a. Determine e interprete un intervalo de confianza de 95% para la verdadera
desviación estándar del peso.
b. La empresa afirma que el verdadero peso promedio de las bolsas es 2 Kg, pero
determinados consumidores dicen que le están dando menos peso en las bolsas.
¿Quién tiene la razón? Use   0.05 .
c. Suponga que en realidad el verdadero peso medio es 2 Kg. ¿Se cometió algún
error en la pregunta b? Justifique su respuesta.

8. Un estudio para comparar la actitud de la gente hacia el feminismo con su grado de
autoritarismo. Dos muestras aleatorias fueron usadas, la primera consiste en 24
sujetos con alto grado de autoritarismo y la segunda consta de 22 sujetos con bajo
grado de autoritarismo. Cada sujeto fue evaluado con una prueba de 18 preguntas
donde se revela su actitud frente al feminismo, con una calificación en una escala de
18 a 90 (Una calificación alta indica pro-feminismo), obteniéndose:

Autoritarismo n x s

Alto 24 68.2 10.4
Bajo 22 54.8 12.5

¿Hay evidencias estadísticas para afirmar que el nivel de autoritarismo difiere en lo
que se refiere al feminismo?. Use   0.10 para las dos pruebas necesarias.

9. Según las estadísticas, a lo más el 35% de los estudiantes universitarios fuman
regularmente. En una muestra aleatoria de 500 estudiantes universitarios se
encontró que 200 fuman regularmente.
a. ¿Tienen razón las estadísticas? Use =0.05.
b. Estime la verdadera proporción de estudiantes que fuman con un coeficiente de
confianza del 90%. Interprete.

10. Un partido político afirma que el 60% de los electores están de acuerdo con él en
cierto problema. En una muestra aleatoria de 800 electores se encontró que 455
están a favor.
a. ¿Puede el partido sostener su afirmación?. Use =0.05.
b. Determine e interprete un intervalo de confianza del 95% para la verdadera
proporción de electores que están de acuerdo con ese partido político.

216
UNA La Molina - Dpto. de Estadística e Informática Estadística General

11. En una evaluación sobre la duración de llantas mediante su recorrido hasta su
desgaste. Se obtuvieron dos muestras aleatorias de las marcas Greeck y Nico de 30
y 35 llantas respectivamente, los cuales se muestran en la siguiente tabla:

Duración promedio de Desviación
Tipo de Tamaño de
la llanta (miles de estándar
llanta muestra
km.) muestral

Greeck 20 86 9.8
Nico 25 81 10.4

a) Calcule e interprete un intervalo del 95% de confianza para la duración promedio
de la marca Greeck.
b) Un primer resultado en este estudio señala que la duración promedio de las llantas
Greeck es mayor a 86.8 mil kilómetros. ¿Que podría afirmar Ud.? Use  = 0.05
c) ¿Se puede afirmar que la variancia de la duración de las llantas de marca Nico es
menor a 100 (mil km)2? Use  = 0.05
d) Se realizó un estudio posterior y se determinó que la variancia del tiempo de
duración de las llantas marca Nico es 89 (mil Km.)2. ¿Se cometió algún error en
la pregunta anterior?
e) De acuerdo a las muestras de llantas tomadas en ambas marcas, ¿Se puede
afirmar que la duración media de ambas marcas de llantas son similares? Use  =
0.10

12. El gerente de una compañía productora de artículos para pintar consulta a un
Ingeniero Estadístico para saber qué tamaño de muestra debe tomar para estimar la
cantidad media de pintura contenida en las 9000 latas de un galón producidas. El
Ingeniero Estadístico le pregunta al gerente que margen de error está dispuesto a
aceptar y este le contesta que 0.005 galones. El Gerente le dice al Ingeniero que
con base a trabajos anteriores se sabe que la desviación estándar es 0.02 galones y
el Ingeniero sugiere un nivel de confianza de 95%. ¿Cuántas latas se debe tomar?

13. ¿Cuál debe ser el tamaño de muestra para estimar la proporción de escolares de
quinto de secundaria, en cierto distrito, que saben nadar (asuma que en ese distrito
hay aproximadamente 5000 estudiantes de quinto de secundaria)?. Considere un
error de 3% en las estimaciones y que en un estudio previo con 100 estudiantes se
encontró que 75 sabían nadar. Además se desea tener un nivel de confianza de 95%.

14. El gerente de producción desea estimar el tiempo promedio que demora cierto
proceso, como el tiempo se mide en minutos, este gerente desea tener un error
máximo de estimación, del tiempo promedio real, de a lo más 4 minutos, sabe, por
experiencias anteriores, que la desviación estándar en los tiempos de procesamiento
es de 10 minutos, qué tamaño de muestra debe tomar, si desea un nivel de confianza
del 95% para sus resultados?

15. El tiempo que tarda un proceso de ensamblaje tiene una distribución normal con una
media de 20 minutos. Para hacer más eficiente el sistema, se le pide a un ingeniero
que haga un análisis y proponga algunas mejoras. Tras implementar los cambios
sugeridos, se toma una muestra de 9 artículos y se registran sus tiempos de
ensamblaje obteniéndose un tiempo medio de 24.3 minutos con una desviación
estándar de 6 minutos.
a) ¿Se puede afirmar que los cambios implementados has disminuido el tiempo
promedio del sistema de ensamblaje? (Utilice un nivel de confianza del 95%)
b) Construya un intervalo del 90% de confianza para el tiempo medio de
ensamblaje

217
UNA La Molina - Dpto. de Estadística e Informática Estadística General

16. Se sabe que en una compañía de taxis el gasto diario promedio en combustible, por
unidad, es una variable con distribución normal, cuyo promedio es de 187.6 galones,
y una desviación estándar de 32.5 galones. El gerente de operaciones decide incluir
un aditivo especial al combustible que le permitirá un ahorro en ese rubro. Después
de incluir el aditivo toma una muestra de 6 unidades y encontró los siguientes gastos
en combustible expresado en galones por día:
180.3 179.6 185.7 170.5 158.3 180.6

El gerente operativo afirma que el gasto promedio diario en combustible disminuyó
en más de 12% ¿En base a la información muestral presentada se puede aceptar lo
afirmado por el gerente operativo?

17. Una compañía telefónica está tratando de determinar si algunas líneas en una
determinada comunidad deben instalarse subterráneas. Debido a que se hará un
pequeño cargo adicional en las cuentas telefónicas para pagar los costos extras de la
instalación, la compañía ha determinado hacer un estudio entre los clientes y proceder
con la instalación subterránea solo si el estudio indica que más del 60% de todos los
clientes están a favor de la instalación.
a) Defina en forma clara el parámetro que utilizará en la prueba de hipótesis
respectiva.
b) Si 118 de 160 clientes entrevistados están a favor de esta instalación a pesar del
cargo adicional, ¿qué debe hacer la compañía? Use un =0.01
c) ¿Cuáles son las conclusiones al respecto?
d) Defina el error tipo I y error tipo II en términos del problema

18. El Dpto. de Marketing de una compañía que produce el detergente ABC encontró en
una muestra de 200 amas de casa que el 20% utiliza esta marca de detergente.
Después de una intensa campaña publicitaria, se tomó otra muestra de 300 amas de
casa la que indicó que el 27% favorece esta marca. Al 5% de significación, ¿puede
el jefe del Dpto. concluir, en base a los resultados de esta muestra, que la campaña
fue exitosa?

19. Al señor Juan Pérez le han propuesto participar en una lista para el congreso, en
representación de su provincia. Para aceptar la propuesta este señor quiere estar
seguro de que al menos el 25% de los votantes en la provincia que reside están a
favor de su candidatura. Para determinar esto toma una muestra aleatoria de tamaño
n = 450 personas encontrando que 90 están a favor de su candidatura. ¿Aceptará el
señor Juan Pérez participar en la lista? Considere  = 5%

218
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Preguntas de Autoevaluación

1. Cuando el tamaño de muestra aumenta, entonces se puede afirmar que la amplitud
del intervalo de confianza para la media _________________________________

2. En la estimación del tamaño de muestra, a mayor margen de error, entonces el
tamaño de muestra es _______________________________________________.

3. Si se desea contrastar la venta media con el valor 100, entonces la hipótesis planteada
para una prueba unilateral con cola a la derecha, es __________________________

4. Cuando el tamaño de muestra aumenta, entonces se puede afirmar que la amplitud
del intervalo de confianza para la proporción _____________________________.

5. Cuando disminuye el nivel de significación, entonces la probabilidad de rechazar la
hipótesis nula __________________________

6. Mencione 2 supuestos de la prueba de hipótesis para la diferencia de medias
____________________________________________________ .

7. En una prueba unilateral para una media con cola a la izquierda, si el estadístico
tc=3.45, entonces la decisión estadística será _____________________________.

8. La probabilidad de rechazar una hipótesis nula que es falsa es ____________ y se
conoce como _____________________________.

9. Para realizar una prueba de diferencia de medias, si las varianzas son desconocidas,
se debe realizar previamente _________________________________________.

10. Indique si es Verdadero (V) o Falso (F) cada uno de los siguientes enunciados:

Item Enunciado V/F
a. El nivel de confianza (1-α)100% para la media, significa que el 95%
de todos los promedios muestrales caen dentro del intervalo estimado
y 5% son errados
b. En la prueba de hipótesis, el área de la zona de aceptación de Ho es
igual a 1-α
c. La probabilidad de cometer error tipo I, se conoce como el nivel de
significación.
d. Cuando el tamaño de muestra aumenta, entonces se puede afirmar
que la amplitud del intervalo de confianza para la proporción disminuye
e. Se puede afirmar en una prueba de hipótesis de la media, que a mayor
variabilidad mayor posibilidad de rechazar la hipótesis planteada.

219
UNA La Molina - Dpto. de Estadística e Informática Estadística General

CAPÍTULO XI

ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

El análisis de regresión lineal simple, es una técnica estadística que permite estudiar la
relación funcional entre dos variables, una de ellas es la variable dependiente Y (por
ejemplo ventas semanales) y la otra la variable independiente X (por ejemplo el gasto
semanal en publicidad).

Objetivo. Al finalizar este capítulo el estudiante debe conocer los supuestos y estimación
de parámetros en el análisis de regresión lineal simple, probar si existe relación lineal
entre dos variables y calcular el coeficiente de determinación y el coeficiente de
correlación.

11.1 Diagrama de dispersión

El diagrama de dispersión (también llamado gráfico de dispersión) muestra la relación de
dos variables de relación de intervalo en un plano de coordenadas. Sólo se muestran los
puntos. Es la primera etapa de análisis de regresión. Es una forma rápida de ver si las
variables están asociadas y la fuerza de la asociación. Un diagrama de dispersión muestra
también la dirección de la relación. Todos los puntos agrupados juntos en una línea recta
sugieren que hay una relación fuerte. Incluso si algunos puntos están fuera de la línea,
todavía puede existir una relación. Si los puntos no están agrupados y se encuentran
dispersos, están al azar y no hay ninguna relación.

220
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 1

Se presentan a continuación la población por departamentos (no se incluye Lima) y el
número de delitos registrados en el 2007, ¿existe entre la población y los números de
delitos?

Distribución del número de delitos por departamento en el 2007
Población
Departamento N° de delitos
(en miles)
Amazonas 376.0 811
Ancash 1,063.5 4 503
Apurímac 404.2 1 125
Arequipa 1,152.3 9 188
Ayacucho 612.5 2 185
Cajamarca 1,387.8 2 292
Cusco 1,171.4 4 065
Huancavelica 454.8 22
Huánuco 762.2 988
Ica 711.9 2 548
Junín 1,225.5 1 710
La Libertad 1,617.1 9 763
Lambayeque 1,112.9 8 474
Loreto 891.7 3 485
Madre de Dios 109.6 1 387
Moquegua 161.5 1 439
Pasco 280.4 331
Piura 1,676.3 5 518
Puno 1,268.4 1 607
San Martín 728.8 1 338
Tacna 288.8 1 080
Tumbes 200.3 1 529
Ucayali 432.2 2 856
Fuente: INEI y Ministerio del Interior

Gráfica de dispersión de Delitos vs. Población
10000

8000

6000
Delitos

4000

2000

0

0 200 400 600 800 1000 1200 1400 1600 1800
Población

Fuente: Elaboración propia

Correlación de Pearson de Población y Delitos = 0.659

221
UNA La Molina - Dpto. de Estadística e Informática Estadística General

11.2 El Modelo de Regresión Lineal Simple

El modelo de regresión lineal simple es definido por:

Yi   0   1 X i   i , i  1,2,3, , n (1)
Donde:

 Y es la variable dependiente o variable respuesta.
 X es la variable independiente, explicativa o de predicción.
  0 es el coeficiente de intersección paramétrico. Es el valor de Y cuando X=0.
 1 es el coeficiente de regresión paramétrico. Es la pendiente del modelo de regresión.
 i es el error o residual.

11.3 Supuestos del análisis de regresión lineal simple

Los supuestos del análisis de regresión lineal simple son los siguientes:

 La variable independiente X es fija (no aleatoria).
 La variable dependiente Y es aleatoria.
 Para cada valor de X existe una distribución normal de Y.
 El i ~N(0, 2 ) para i = 1,2,3,...,n. Además:

εi es independiente de ε j para i¹j
εi es independiente de X

En consecuencia:

 Y . X  E Yi   E   0   1 X i   i    0   1 X i  E  i    0   1 X i
Var Yi   Var   0   1 X i   i   Var  i    2

Notar que 1 mide el cambio en el promedio  Y.X ante el cambio en una unidad de X.

11.4 Estimación por el método de mínimos cuadrados

El método de mínimos cuadrados consiste en minimizar la suma de cuadrados del error.

Del modelo de regresión lineal simple (1) se obtiene:

 i  Yi   0   1 X i , por lo tanto:

n n
Q    i2   Yi   0   1 X i 
2

i 1 i 1

Los estimadores mínimos cuadráticos de los parámetros  0 y 1 , digamos b0 y b1, se
deben obtener, primero derivando Q con respecto a 0 e igualando a cero y luego
derivando Q con respecto a 1 e igualando a cero. Con el procedimiento anterior se
obtienen las siguientes ecuaciones (denominadas ecuaciones normales).

222
UNA La Molina - Dpto. de Estadística e Informática Estadística General

n n
n b0  b1  xi   yi
i 1 i 1
n n n
b0  xi  b1  xi2   xi yi
i 1 i 1 i 1

Resolviendo las ecuaciones normales se obtienen los coeficientes estimados::

SP( XY )
b1  b0  y  b1 x
SC ( X )
( xi ) 2
n
SC ( X )   ( xi  x) 2   xi2 
  xi2  n x
2
Suma de cuadrados de X:
i 1 n
n ( xi )( yi )
Suma de productos X e Y: SP( XY )   ( xi  x)( yi  y )   xi yi    xi yi  n x y
i 1 n

De tal manera que b0 estima a 0 y b1 estima a  1 . Es decir: ˆ0  b0 y ˆ1  b1

Interpretación de los coeficientes de regresión:

ˆ0  b0 Mide el valor promedio de Y, cuando X es igual a cero.

Mide el cambio (aumento, si es positivo o disminución, si es negativo)
ˆ1  b1
promedio de Y, cuando X se incrementa en una unidad.

11.5 Recta de regresión estimada

El modelo estimado o ecuación de regresión estimada es: Yˆi  b0  b1 X i , i  1,2,..., n

La ecuación de la recta Yˆi  b0  b1 X i estima a Y . X  0  1 X i , además:

    
Yi  y  b1 x  b1 X i  y  b1 X i  x  Yi  y  b1 X i  x , es el efecto de la regresión. 
El error estimado es: ei  Yi  Yˆi y estima a  i  Yi  Y . X

550
500

450
400
Precio

350
300
Yˆi
250 ei
200
150 Yi
100
0 5 10
Captura

223
UNA La Molina - Dpto. de Estadística e Informática Estadística General

11.6 El análisis de la variancia en la regresión lineal simple

El Análisis de la variancia (ANVA) consiste en la descomposición de la variación total o
 2
  y
n
    
2
suma de cuadrados total  SC T  SC Y  yi  y 2
i  n y  en sus fuentes de
 i 1 
variación que en este caso son la suma de cuadrados de la regresión y la suma de
cuadrados del error.

Para un valor X i se deduce que:

   
yi  y  Yˆi  y  yi  Yˆi De donde se obtiene:

y  y  Yˆ  y    y  Yˆ 
i i i i

En la segunda igualdad anterior se aprecia que la desviación total ( yi  y ) es igual a la

desviación debido a la regresión Yˆi  y   más el error estimado  y  Yˆ  .
i i Elevando al
cuadrado ambos lados de esta segunda igualdad, aplicando sumatorias y simplificando
se obtiene:

  y  y    Yˆ  y     y  Yˆ 
n 2 n 2 n 2
i i i i
i 1 i 1 i 1

La expresión indica, que la suma de cuadrados total (SCT) se descompone en la suma de
cuadrados debido a la regresión (SCR) más la suma de cuadrados del error (SCE).

Haciendo los reemplazos y las simplificaciones correspondientes se obtienen las
expresiones de las sumas de cuadrado de la regresión, total y error o residual.


SCR   Yˆi  y 
2
 b12  xi  x  2
b1 SP( XY )  b12 SC ( X )

( yi ) 2
SCT  SC (Y )   y    yi2 n y
2 2
i
n
SCE  SCT  SCR
Con la información anterior se construye el siguiente cuadro del ANVA.

Cuadro del ANVA

Fuente de Grados de Suma de Cuadrado F calculado
variación Libertad Cuadrados Medio
(GL) (SC) (CM)
Regresión 1 SCR CMR Fc
Error n-2 SCE CME
Total n-1 SCT

Prueba de hipótesis

H p : 1  0 ( No hay relación lineal entre X e Y )
H a : 1  0 ( Si hay relación lineal entre X e Y )

224
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Prueba Estadística

SC( R) /  2  2 1
CM ( R)
Fc  1  2 1   F 1 , n  2
SCE /  2
  n  2 CME
n2 n2

FTab  F1 ;1, n  2

Decisión estadística

De acuerdo a la hipótesis alternativa la prueba es unilateral a la derecha por lo tanto:

 Si Fc es mayor que Ftab se rechaza la Hp.
 Si Fc es menor o igual que Ftab no se rechaza la Hp.

11.7 Coeficiente de determinación y de no determinación

El coeficiente de determinación (r2) mide la proporción o porcentaje de la variación total
de Y que es explicada por el modelo de regresión y el coeficiente de no determinación (1
- r2) mide la proporción o porcentaje de la variación total de Y que no es explicada por el
modelo de regresión.

SCR ( SP( XY )) 2
r 
2
x100  x100 , 0  r 2  100%
SCT SC ( X ) xSC(Y )

11.8 Coeficiente de Correlación Lineal

El coeficiente de correlación lineal r mide la fuerza de la relación lineal entre valores
cuantitativos de dos variables. También se le conoce como coeficiente de correlación de
Pearson, en honor a Karl Pearson quien lo desarrolló originalmente.

𝑛 ∑ 𝑥𝑦 − (∑ 𝑥)(∑ 𝑦)
𝑟=
√𝑛(∑ 𝑥 2 ) − (∑ 𝑥)2 √𝑛(∑ 𝑦 2 ) − (∑ 𝑦)2

SP  XY 
r , 1  r  1
SC  X  SC Y 

El valor de r siempre está entre -1 y +1, inclusive.

 Si r > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de
la otra). La correlación es tanto más fuerte cuanto más se aproxime a +1. Por
ejemplo: altura y peso: los alumnos más altos suelen pesar más.
 Si r < 0, la correlación lineal es negativa (si sube el valor de una variable disminuye
el de la otra). La correlación negativa es tanto más fuerte cuanto más se aproxime a
-1. Por ejemplo: peso y velocidad: los alumnos con más peso suelen correr menos.
 Si r = 0, no existe correlación lineal entre las variables. Aunque podría existir otro
tipo de correlación (cuadrática, exponencial, etc.)

225
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Ejemplo 1

En cierto país se estudió la captura de anchoas, en millones de toneladas métricas, (X),
y los precios de harina de pescado, en dólares por tonelada, (Y) para los últimos 13 años.

Y 190 160 134 129 172 197 167 239 542 372 245 376 454
X 7.23 8.53 9.82 10.26 8.96 12.27 10.28 4.45 1.78 4.00 3.30 4.30 0.80

600

500

400
Precio

300

200

100
0 2 4 6 8 10 12
Captura

Cálculos previos

13 13 13 13 13

x
i 1
i  85.98,  x  732.2376,  y
i 1
2
i
i 1
i  3377, y
i 1
2
i  1089365 x
i 1
i yi  17357.8

SC  X    x 2

  x   163.5791
i
2

i
n

SC Y    yi2 
 y i  2  212124.3077
n

SP  XY    xi yi 
x y i i
 4977.1585
n

a) Halle la línea de regresión estimada. Interprete el coeficiente estimado de
intersección y el coeficiente estimado de regresión.

SP  XY 
b1   30.4266
SC  X 
 13
13

i y
  xi 
b0  y  b1 x  i 1
  b1   i 1   461.0062
13  13 
 
 

La línea estimada es:
Yˆi  461 .0062  30 .4266 X i
El coeficiente de intersección estimado, b0  461.0062 , representa el precio promedio
de harina de pescado cuando no hay captura de anchoas.

226
UNA La Molina - Dpto. de Estadística e Informática Estadística General

El coeficiente de regresión estimado, b1  30.4266 , indica que el precio promedio de
harina de pescado disminuye en 30.4266 dólares por tonelada, cuando se incrementa
en un millón de toneladas métricas la captura de anchoas.

b) ¿Hay relación lineal entre X e Y? Utilice   0.01

SC ( R)  b12 SC ( X )  b1SP( XY )  151438.075
SC  Error   SC Y   SC  R   60686.2327
Tabla de ANVA
Fuente de variación G. L. S. C. C. M. F calculado
Regresión 1 151438.0750 151438.075 27.45
Error 11 60686.2327 5516.9302
Total 12 212124.3077

Prueba de hipótesis
H p : 1  0 (No hay relación lineal entre X e Y)
H a : 1  0 (Si hay relación lineal entre X e Y)

Como  Fc  27.45   F0.01,1,11  9.65 entonces se rechaza la hipótesis planteada
por lo tanto hay evidencias estadísticas para concluir que existe relación lineal
entre X e Y.

c) Estime el precio promedio de harina de pescado (en dólares por tonelada) para una
captura de 5 millones de toneladas métricas de anchoas.

La línea estimada es: Yˆi  461 .0062  30 .4266 X i

Por la tanto, como Xi=5, se tiene: Yˆ  461 .0062  30 .4266 * 5  308 .8732

El precio promedio de harina de pescado es de $ 308.9 para una captura de 5 millones
de toneladas métricas de anchoas.

d) Calcule e interprete el coeficiente de determinación y el coeficiente de correlación.

Coeficiente de determinación
SC  R   SP  XY    0.7139 71.39%
2

r 
2
  
SC Y  SC  X  SC Y 

Indica que el 71.39% de la variación de los precios es explicada por la regresión.

Coeficiente de correlación
SP  XY 
r  0.84
SC  X  SC Y 

Se puede afirmar que hay una alta asociación negativa entre X e Y en otras palabras
cuando aumenta una de ellas disminuye la otra.

227
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Regression Analysis: Precio versus Captura

The regression equation is
Precio = 461 - 30.4 Captura

Predictor Coef SE Coef T P
Constant 461.01 43.59 10.58 0.000
Captura -30.427 5.807 -5.24 0.000

S = 74.28 R-Sq = 71.4% R-Sq(adj) = 68.8%

Analysis of Variance

Source DF SS MS F P
Regression 1 151438 151438 27.45 0.000
Residual Error 11 60686 5517
Total 12 212124

Predicted Values for New Observations

New Obs Fit SE Fit 95.0% CI 95.0% PI
1 308.9 22.6 ( 259.1; 358.7) ( 138.0; 479.8)

Values of Predictors for New Observations

New Obs Captura
1 5.00

228
UNA La Molina - Dpto. de Estadística e Informática Estadística General

3
Ejercicio 1. Se desea estudiar la tasa de flujo Y (en m / min ) de un dispositivo para
medir la calidad del aire en función de la caída de presión X (en mm de agua) a través
del filtro del dispositivo. Se tomó una muestra de 10 mediciones encontrándose los
siguientes datos:
Y 0.6 0.7 0.8 1.0 1.1 1.2 1.4 1.8 2.2 2.6
X 127 178 229 254 330 381 406 432 457 507

Asumiendo que se cumplen los supuestos respectivos

a) Estime la línea de regresión. Interprete los coeficientes.

b) ¿Hay relación lineal entre estas variables? Use   0.05 .

229
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c) Calcule e interprete el coeficiente de determinación.

d) Estime la tasa de flujo promedio para una caída de presión de 400 mm de agua.

e) Halle e interprete el coeficiente de correlación.

230
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Práctica Dirigida N° 8

1. Una compañía de productos químicos desea analizar si la eficiencia en una operación
de extracción está influenciado por el tiempo de extracción.

Tiempo (minutos x) 27 45 41 19 35 39 19 49 15 31
Eficiencia (% Y) 47 84 80 46 62 72 52 87 37 68

n  10 x i  320 x 2
i 11490 y i  635 y 2
i 43075 x y
i i  22095
a) Determine la ecuación de la regresión entre la eficiencia y el tiempo de extracción.
Interprete el coeficiente de regresión estimado.

b) Pruebe si existe una relación lineal entre las variables. Use un nivel de significación
del 5%.

231
UNA La Molina - Dpto. de Estadística e Informática Estadística General

c) ¿Qué porcentaje de la variabilidad de la eficiencia de la operación de extracción es
explicada por la regresión?

d) Estime la eficiencia de operación de extracción cuando el tiempo de extracción es de
55 minutos.

232
UNA La Molina - Dpto. de Estadística e Informática Estadística General

EJERCICIOS PROPUESTOS

2. Una investigación de la relación entre el flujo de tránsito X (en miles de automóviles
por 24 horas) y el contenido de plomo Y de la corteza de árboles cerca de la autopista
(ug/gr de peso en seco) produjo los datos siguientes:

X 8.3 8.3 12.1 12.1 17.0 17.0 17.0 24.3 24.3 24.3 33.6
Y 227 312 362 521 640 539 728 945 738 759 1263

a) Obtenga la línea de regresión estimada. Interprete el coeficiente estimado de
intersección y el coeficiente estimado de regresión. Tiene interpretación práctica
el coeficiente de intersección estimado.
b) ¿Existe relación lineal entre X e Y? Utilice   0.05 .
c) Calcule e interprete los coeficientes de determinación y de correlación.

3. Se ha realizado un estudio para establecer una ecuación mediante la cual se pueda
utilizar la concentración de estrona en la saliva pg/ml (X), para predecir la
concentración del esteroide en el plasma pg/ml (Y). Para el estudio se extrae una
muestra aleatoria de 12 varones sanos y se obtienen los siguientes cálculos previos

Σ Xi = 173 ΣX2i = 2,728.5 Σ Yi = 578.5 ΣY2i = 29,734.25
ΣXi Yi = 8,959.25
a) Calcule e interprete los coeficientes estimados para la regresión lineal simple
entre X e Y.
b) Pruebe con un nivel de significación de 0.05, si existe relación lineal entre X e Y.
c) Predecir la concentración del esteroide en el plasma, cuando se tiene una
concentración de estrona en la saliva de 18 pg/ml.

3. Se estudia, en un proceso químico, el tiempo de reacción Y (en horas) y la temperatura
X (en °C) de la cámara donde tiene lugar la reacción. Se tomó una muestra de 10
mediciones encontrándose:

X 82 84 86 91 93 94 99 110 115 125
Y 3.10 2.98 3.09 2.92 2.80 2.93 3.10 2.70 2.84 2.83

Asumiendo que se cumplen los supuestos respectivos

a) Estime la línea de regresión. Interprete los coeficientes.
b) ¿Hay relación lineal entre estas variables? Use   0.05
c) Calcule e interprete el coeficiente de determinación.
d) Obtenga e interprete el coeficiente de correlación.
e) Estime el tiempo promedio de reacción para una temperatura de 120 °C.
f) Descomponga el efecto total de la medición 8 en sus efectos respectivos.

4. En un centro de salud se han tomado los datos de las edades y la Presión Sistólica
de 12 pacientes, bajo la sospecha de que la edad y la presión estaban relacionadas
de alguna manera. Los datos que se tomaron son los siguientes.

Edad (X) 56 42 72 36 63 47 55 49 38 42 68 60
Presión sistólica (Y) 147 125 160 118 149 128 150 145 115 140 152 155

a) Obtenga el Diagrama de Dispersión y comente los resultados.
b) Calcule la ecuación de regresión estimada e Interprete el valor de cada uno de los
coeficientes de la recta anterior.
c) Calcule e interprete el valor del coeficiente de determinación.
d) ¿Puede Ud. afirmar que la pendiente de la recta es significativamente distinta de
cero, con  = 0,05?

233
UNA La Molina - Dpto. de Estadística e Informática Estadística General

5. Se hizo un estudio con yeguas de los niveles de progesterona en la sangre (X) y en
heces (Y), estos niveles se expresan en ng/ml donde ng = nanogramos.

X 8.37 6.09 5.81 8.86 6.21 0.38 0.31
Y 10.74 10.75 9.85 10.85 10.00 4.31 1.30

a) Estime la línea de regresión. Interprete los coeficientes.
b) ¿Hay relación lineal entre estas variables? Use   0.05 .
c) Calcule e interprete el coeficiente de determinación.
d) Poner el efecto total 5 en términos del efecto de la regresión y el error.

7. El banco “Préstamo” estudia la relación entre las variables Ingresos (X) y ahorros
(Y) mensuales de sus clientes. Una muestra aleatoria de de sus clientes revelo los
siguientes datos.

X 1200 1380 1550 1725 3278 2932 2415 3105 2070
Y 345 380 450 552 1210 1225 870 1104 450

a) Estime la recta de regresión.
b) Utilice la recta estimada para pronosticar el valor del ahorro cuando el ingreso sea
de 2800 soles.
c) ¿Se puede afirmar que existe una relación lineal significativa entre los ingresos y
el ahorro? A un nivel de significación del 5%
d) ¿Qué porcentaje de la variación muestral se puede atribuir a la relación del
modelo?

8. Una empresa en consultoría contable desea desarrollar un modelo que le permita
predecir el costo de la auditoría en función del número de documentos revisados.
Para este fin extrae una muestra de 12 auditorías, registrando el costo de la auditoría
(miles $) y el número de documentos revisados (miles documentos).

Número de 28 17 32 48 6 14 19 24 34 22 20 46
documentos (miles
documentos)
Costo de la auditoría 50 35 65 98 12 24 38 45 65 45 36 85
(miles $)

a) Analice el diagrama de dispersión. ¿Qué se puede afirmar acerca de la relación
entre el número de documentos revisados y el costo de la auditoría?.
b) Interprete los coeficientes de regresión. Presente la ecuación estimada.
c) Pruebe con un nivel de significación de 5%, si existe relación lineal entre el número
de documentos revisados y el costo.
d) Halle e interprete el coeficiente de determinación
e) Estime el costo promedio de la auditoría cuando se revisen 25,000 documentos.
f) Halle e interprete el coeficiente de determinación.

9. Las materias primas empleadas en la producción de una fibra sintética son
almacenadas en un lugar donde no se tiene control sobre la humedad. Las mediciones
de la humedad relativa en el lugar de almacenamiento (x) y la humedad de una
muestra de las materias primas (y) (ambas en porcentaje) para 12 días se presenta
en la siguiente tabla.

Humedad en el 42 35 50 43 48 62 31 36 44 39 55 48
almacenamiento (%)
Humedad en la 12 8 14 9 11 16 7 9 12 10 13 11
materia prima (%)

234
UNA La Molina - Dpto. de Estadística e Informática Estadística General

a) Analice el diagrama de dispersión. ¿Qué se puede afirmar acerca de la relación
entre la humedad de almacenamiento y la humedad en la materia prima?.
b) Interprete los coeficientes de regresión. Presente la ecuación estimada.
c) Pruebe con un nivel de significación de 5%, si existe relación lineal entre la
humedad de almacenamiento y la humedad en la materia prima.
d) Estime la humedad promedia de la materia prima, cuando se tiene una humedad
de almacenamiento de 45%.
e) Halle e interprete el coeficiente de determinación
f) Pruebe con un nivel de significación de 5%, si existe correlación entre la humedad
de almacenamiento y la humedad de la materia prima.

10. Se cuenta con información de una muestra de 10 fondos de inversión, respecto a su
rentabilidad porcentual para un periodo de doce meses y el activo total (en millones
de $). Los datos se presentan en la siguiente tabla.

Activo total 22 18 14 8 26 10 16 19 20 7
(millones $)
Rentabilidad 29.3 17.6 16.0 9.5 22.6 12.4 18.5 21.4 18.2 12.5
(%)

a) Analice el diagrama de dispersión. ¿Qué se puede afirmar acerca de la relación
entre el activo total y rentabilidad del fondo de inversión?.
b) Interprete los coeficientes de regresión. Presente la ecuación estimada.
c) Pruebe con un nivel de significación de 5%, si existe relación lineal entre el activo
total y la rentabilidad.
d) Estime la rentabilidad promedia, cuando se tiene un activo de 18 millones de
dólares.
e) Halle e interprete el coeficiente de determinación
f) Pruebe si existe correlación entre el activo total y la rentabilidad. Use un nivel de
significación de 5%.

11. El gerente de ventas permite que los agentes vendedores que tiene a su cargo reciban
charlas para motivarlos, dichas charlas se dan en diferentes horarios y los agentes
tienen absoluta libertad para elegir el horario que crean conveniente. El gerente cree
que dichas charlas influyen en la eficiencia de las ventas. Para verificar esto toma una
muestra de 10 vendedores y determinó el tiempo acumulado de horas en las que estuvo
presente en una o más charlas durante el último trimestre y la eficiencia de sus ventas,
los datos encontrados fueron:

Tiempo acumulado (Horas) 27 45 41 19 35 39 19 49 15 31
Eficiencia en las ventas (%) 47 84 80 46 62 72 52 87 37 68

a)¿Es posible afirmar que existe una relación lineal entre el número de horas de charla
y la eficiencia en las ventas?. Use un α=0.05.
b) Interprete adecuadamente el coeficiente de regresión.
c) El Gerente de ventas afirma que cuando un agente vendedor recibe charlas esto
permite un mejor desempeño en sus nivel de ventas y cree además que por cada
hora adicional de charla su rendimiento se incrementa en más de un punto
porcentual. Utilizando un nivel de significación del 5% ¿Qué puede concluir con
respecto a la afirmación que hace el gerente de ventas?.

235
UNA La Molina - Dpto. de Estadística e Informática Estadística General

12. En ocasiones es conveniente comprar la mayor cantidad posible de ciertos artículos. Por
lo general el precio unitario es menor al adquirir grandes cantidades. Para contrastar
esta teoría se obtuvieron los siguientes datos:

Número de Unidades (X) 1 3 5 10 12 15 24
Costo Unitario (Y) $ 55 52 48 36 32 30 25

a) Interprete el coeficiente de regresión estimado.
b) ¿Qué % de la variabilidad en el costo no es explicada por la recta de regresión?
c) ¿Es la pendiente de la recta diferente de cero significativamente?. Use un α=0.05.
d) Estime el costo promedio unitario cuando se compran 40 unidades.
e) Es posible afirmar, en base a la información muestral obtenida y utilizando un nivel
de significación del 5%, que por cada unidad adicional que se compre el precio del
artículo disminuye en más de $1,2. Use un α=0.05.

13. Un banco quiere determinar la relación entre las variables Ingresos mensuales
(variable independiente) y Ahorros mensuales (variable dependiente) de sus
clientes. Para esto, selecciona una muestra aleatoria de seis clientes y obtiene los
siguientes resultados:
Y: Ahorros
X: Ingresos mensuales mensuales
1.0 0,20
1,2 0,22
1,5 0,25
0,8 0,18
1,8 0,30
2.0 0,35

a) Halle la ecuación de regresión e interprete sus coeficientes.
b) Calcule el coeficiente de determinación e interprételo.
c) Utilice el modelo de regresión desarrollado para predecir los ahorros mensuales
si el ingreso mensual de su cliente es de 2500 soles.
d) Plantee las hipótesis respectivas y diga si el modelo hallado es significativo o no.
Utilizar un nivel de significancia del 5%.

236
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Preguntas de Autoevaluación

1. El gráfico que permite visualizar la existencia de una posible relación lineal entre la
variable X e Y, se conoce como _______________________________________ .

2. El método de estimación para estimar los coeficientes de regresión β0 y β1, se conoce
como _____________________________________ .

3. En el análisis de regresión lineal simple, el valor que mide el cambio o variación en la
variable Y, cuando la variable X aumenta en una unidad, se conoce como
____________________________.

4. Uno de los supuestos del análisis de regresión es que la variable X se considera un
valor ______________, en cambio la variable Y se considera ________________.

5. Para probar si existe una relación lineal entre las variables X e Y en un análisis de
regresión, la hipótesis nula formulada es ____________________________ .

6. El rango en que varía el coeficiente de determinación es ______________________

7. Si el coeficiente de correlación estimado se aproxima a 1, indica que existe una
correlación ______________________, si se aproxima a -1, __________________
y se aproxima a cero __________________________ entre las variables X en que
varía el e Y.

8. La ecuación estimada en un análisis de regresión entre la ventas (Y) en miles de $
sobre los años de experiencia de los vendedores (X) en años, resultó: Y = 250 – 1.2X.
Entonces el coeficiente de regresión se interpreta como
_________________________________________________________________.

9. La interpretación del coeficiente de correlación entre el peso y la talla de una muestra
de 12 estudiantes cuyo valor fue igual a – 0.88, es
____________________________________________________________.

10. Indique si es Verdadero (V) o Falso (F) cada uno de los siguientes enunciados:

Item Enunciado V/F
a. El coeficiente de determinación mide el porcentaje de la variabilidad
de X que es explicada por la regresión.
b. Los coeficientes de regresión estimados, asumen como unidad de
medida la de la variable dependiente (Y).
c. El rango del coeficiente de correlación es [-1, 1] .
d. El coeficiente de regresión estimado b1, no puede tomar un valor
negativo.
e. El cuadro del ANVA, muestra la descomposición de la variabilidad de la
variable Y, en dos fuentes (regresión y error).

237
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Bibliografía

1. Anderson, D. y Sweeney, D. y Williams, T. (2008). Estadística para Administración y
Economía (10a. ed.) México: Cengage Learning Editores.
2. Daniel, W. (2004). Bioestadística: base para el análisis de las ciencias de la salud
(4ta. ed.). México: Limusa. Grupo Noriega editores.
3. Johnson, R. y Kuby, P. (2008). Estadística elemental: lo esencial (10ma. ed.). México:
Cengage Learning Editores.
4. Levin, R y Rubi, D.(2004). Estadística para Administración y Economía (7ma. ed.)
México: Pearson Educacion. Prentice Hall.
5. Montgomery, D. y Runger, G. (2002). Probabilidad y Estadística aplicadas a la
ingeniería (2da. ed.). México: Editorial Limusa. Grupo Noriega editores.
6. Newbold, P. y Carlson, W. y Thorne, B. (2008). Estadística para Administración y
Economía (6ta. ed.) Madrid: Pearson Education. Prentice Hall.
7. Miranda, F. & Salinas, J. & Otros. (2012). Estadística General. Lima: Universidad
Nacional Agraria La Molina.
8. Triola, M. (2009). Estadística (10ma. ed.). México: Pearson Educacion. Adisson.

238
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Anexo N° 1

Laboratorio de Cómputo N°1

Estadística Descriptiva con MINITAB

Se trabajará con el conjunto de datos alumnos.mtw que contiene información de los
alumnos de primer ciclo de una Universidad del país. Las variables consideradas son:
 Especialidad del estudiante.
 Sexo del estudiante.
 Edad del estudiante.
 Nota obtenida por el estudiante en un curso general común a todas las carreras.
 Promedio ponderado del primer ciclo del estudiante.

Se mostrará el procedimiento para realizar cada uno de los análisis que se han visto en
el curso y extraer información sobre este conjunto de datos.

I. Estadística Descriptiva

Para poder obtener medidas descriptivas como las medidas de tendencia central o de
dispersión seguiremos la siguiente secuencia en el menú:

Al hacer click en esa opción aparecerá la siguiente ventana:

239
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Desde seleccionaremos la variable o variables con las que queremos trabajar,
posteriormente elegiremos qué estadísticas descriptivas queremos obtener. Por ejemplo
elegiremos la variable Nota (haciendo doble click en ella) y seleccionaremos algunas
medidas estadísticas:

Hemos elegido media, coeficiente de variación, mediana, mínimo y máximo. Solo queda
darle click a Aceptar a esta ventana y a la siguiente y habremos obtenido estas medidas
requeridas.

Estadísticos descriptivos: Nota

Variable Media CoefVar Mínimo Mediana Máximo
Nota 13.048 16.39 9.000 13.000 20.000

Ejercicios:
1. Obtenga el coeficiente de variabilidad de la variable Edad: _________________
2. Obtenga la desviación estándar de la variable Nota: ______________________
3. Obtenga la mediana de la variable Nota de acuerdo al Sexo de los estudiantes:
________________________________________________________________

240
UNA La Molina - Dpto. de Estadística e Informática Estadística General

II. Gráficos

Desde esta opción podemos elegir entre los gráficos más conocidos haciendo click sobre
el que deseemos obtener:

 Gráfico de barras

Elegiremos el gráfico de barras Simple.

Luego elegiremos la variable que queremos graficar, existen otras opciones que se
pueden personalizar, como Escala, Etiquetas, etc.

241
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Finalmente obtenemos el gráfico de barras de estudiantes por Especialidad.

Gráfica de Especialidad
25
23.2
22

20 19.2 19.2

16.4
Porcentaje

15

10

5

0
Contabilidad Derecho Industrial Psicología Sistemas
Especialidad
Porcentaje en todos los datos.

242
UNA La Molina - Dpto. de Estadística e Informática Estadística General

 Gráfico circular

Directamente podemos elegir la variable de interés, también podemos personalizar
algunas opciones.

Este es el gráfico que hemos obtenido y muestra la distribución de estudiantes por la
especialidad.

Gráfica circular de Especialidad
Categoría
Contabilidad
Derecho
19.2% 16.4% Industrial
Psicología
Sistemas

19.2%

22.0%

23.2%

243
UNA La Molina - Dpto. de Estadística e Informática Estadística General

 Histograma

Elegiremos el histograma Simple.

En la siguiente ventana indicamos la variable y podemos personalizar algunas opciones.

Este es el histograma de frecuencias que obtenemos, podemos personalizar algunas otras
opciones (como la marca de clase, pues no es igual al que se ha trabajado en clases)
haciendo click derecho en las barras:

244
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Desde esta opción podemos editar los LI y LS del histograma, para esta variable el
máximo es 18.5 y el mínimo 8.5, el número de intervalos de clase es 9, teniendo así que
el TIC es de 1.2

Con esto hemos editado nuestro histograma de frecuencias y podemos obtener uno como
el que se ha trabajado en clases:

245
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Histograma de Promedio
60

50

40
Frecuencia

30

20

10

0
8.5 1 0.9 1 3.3 1 5.7 1 8.1
Promedio

 Gráfica de cajas

Podemos obtener un gráfico de cajas Simple o Con grupos, elegiremos esta segunda
opción pues resulta interesante comparar variables cuantitativas de acuerdo a
agrupaciones.

En este ejemplo la variable a graficar será Nota y la variable de agrupación será
Especialidad.

246
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Obtenemos el gráfico de cajas de Nota agrupado por Especialidad, podemos identificar
un valor outlier para la especialidad de Contabilidad.

Gráfica de caja de Nota
20

18

16
Nota

14

12

10

Contabilidad Derecho Industrial Psicología Sistemas
Especialidad

247
UNA La Molina - Dpto. de Estadística e Informática Estadística General

 Tallo y hojas

En esta ventana podemos elegir directamente la variable que queremos graficar.

Diseño de tallo y hoja: Promedio

Tallo y hoja de Promedio N = 250
Unidad de hoja = 0.10

3 8 559
5 9 45
22 10 13334444556688889
58 11 000111113334444555555666667778899999
96 12 00000111123333333444555555577788999999
(42) 13 000111111111133344444444555555566789999999
112 14 0000001111233333333333444455555555555566667788889999
60 15 0000000111113334455566666777788888999
23 16 1113556666668999
7 17 01456
2 18 35

Ejercicios:

Obtenga el diagrama de cajas de la variable Nota agrupada por Sexo, responda:
1. ¿Existen valores atípicos? ¿Cuáles son y a qué categoría corresponden?
___________________________________________________________________

___________________________________________________________________

2. Para ambas categorías identifique:
Femenino Masculino
Primer cuartil
Mediana
Tercer cuartil
LCI
LCS
N

248
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Anexo N° 2

Laboratorio de Cómputo N°2

Estadística Inferencial con MINITAB

Nuevamente trabajaremos con el conjunto de datos alumnos.mtw que cuenta con cinco
variables: Especialidad, Sexo, Edad, Nota, Traslado.

Intervalos de confianza y Pruebas de Hipótesis
 Para la media

Siguiendo estas opciones podremos obtener intervalos de confianza y realizar la prueba
de hipótesis para la media de la variable Nota.

Al elegir esta opción de prueba t para una muestra obtendremos la siguiente ventana:

249
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Desde esa ventana podremos elegir la variable con la que queremos trabajar. Podemos
especificar el valor de la media poblacional hipotética que este caso hemos definido con
el valor de 17 años. También debemos marcar la casilla para realizar la prueba de
hipótesis de la media (de lo contrario solo se obtendrá el intervalo de confianza). Hacemos
click en Aceptar y obtendremos el siguiente resultado:

T de una muestra: Edad

Prueba de μ = 17 vs. ≠ 17

Error
estándar
de la
Variable N Media Desv.Est. media IC de 95% T P
Edad 250 18.284 1.668 0.105 (18.076, 18.492) 12.17 0.000

Estos resultados muestran el intervalo de confianza para la media al 95% y el valor de la
T calculada para la prueba de hipótesis.

 Para una proporción

Puede ser de interés realizar pruebas de hipótesis para una proporción. Podríamos querer
probar si el valor de la proporción de estudiantes de Contabilidad es superior al 15%,
teniendo en cuenta que 41 de los 250 son de esa especialidad. Para ello tendríamos que
ingresar a las pruebas de “1 proporción” y definir estos valores:

Haciendo click a Opciones podemos especificar qué tipo de prueba de hipótesis es la
que deseamos:

250
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Habiendo definido estas opciones hacemos click en Aceptar y obtenemos los siguientes
resultados:

Prueba e IC para una proporción

Prueba de p = 0.15 vs. p > 0.15

Límite
inferior
Muestra X N Muestra p de 95% Valor Z Valor p
1 41 250 0.164000 0.125480 0.62 0.268

Uso de la aproximación normal.

De esa manera contamos con los valores de los intervalos de confianza y el Valor Z
calculado.

 Para diferencia de medias

Si se quiere comparar si las medias de las Edad de acuerdo al Sexo son distintas, primero
debemos realizar la prueba de Hipótesis para determinar si las varianzas son o no
homogéneas.

251
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Para ello debemos definir:

En Opciones podemos definir la relación y el nivel de confianza con el que se trabajará,
de la siguiente manera:

Obteniéndose estos resultados:

Prueba e IC para dos varianzas: Edad vs Sexo

Método

Hipótesis nula Varianza(Femenino) / Varianza(Masculino) = 1
Hipótesis alterna Varianza(Femenino) / Varianza(Masculino) ≠ 1
Nivel de significancia α = 0.1

252
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Estadísticas

IC de 90%
para
Sexo N Desv.Est. Varianza varianzas
Femenino 116 1.711 2.926 (2.551, 3.453)
Masculino 134 1.627 2.648 (2.324, 3.094)

Relación de desviaciones estándar = 1.051
Relación de varianzas = 1.105

Intervalos de confianza de 90%

IC para IC para
relación de relación de
Método Desv.Est. varianza
Bonett (0.948, 1.168) (0.899, 1.364)
Levene (0.906, 1.214) (0.821, 1.475)

Pruebas

Estadística
Método GL1 GL2 de prueba Valor p
Bonett — — — 0.422
Levene 1 248 0.28 0.600

Y el siguiente gráfico que resume los resultados:

253
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Para hacer la prueba de comparación de medias:

Y en Opciones también se personaliza lo siguiente, debemos marcar la casilla si es que
en la prueba de Homogeneidad de Varianzas estas resultan iguales:

254
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Teniendo como resultado:

Prueba T e IC de dos muestras: Edad, Sexo

T de dos muestras para Edad

Error
estándar
de la
Sexo N Media Desv.Est. media
Femenino 116 18.15 1.71 0.16
Masculino 134 18.40 1.63 0.14

Diferencia = μ (Femenino) - μ (Masculino)
Estimación de la diferencia: -0.256
IC de 95% para la diferencia: (-0.673, 0.160)
Prueba T de diferencia = 0 (vs. ≠): Valor T = -1.21 Valor p = 0.226 GL =
248
Ambos utilizan Desv.Est. agrupada = 1.6665

Podemos observar los valores de la media y la varianza de las edades para cada uno de
los grupos por Sexo. El cálculo del intervalo de confianza al 95% y el valor T calculado
obtenido.

Ejercicios:

1. Realice la prueba correspondiente que le permita determinar si el valor de la
desviación estándar de las Notas de esta muestra de 250 estudiantes es mayor a 2.

2. Compare si existen diferencias entre los Promedios de acuerdo al Sexo de los
estudiantes.

255
UNA La Molina - Dpto. de Estadística e Informática Estadística General

Anexo N° 3

TABLAS ESTADÍSTICAS

Distribución Normal Estándar
Distribución Chi-Cuadrado
Distribución t
Distribución F

256