You are on page 1of 235

Probabilidad y

Estadstica
Conceptos, Procedimientos y
Aplicaciones




Carlos Garibaldi





2

Prologo

En los ltimos aos ha habido una explosin virtual en el uso de los mtodos estadsticos.
Esto ha sido particularmente cierto con el advenimiento y la accesibilidad de las computadoras,
las cuales tienen la capacidad de procesar grandes cantidades de informacin con gran
velocidad y exactitud.
En la actualidad el uso de la estadstica ha llegado a todas las actividades y profesiones como la
industria, el comercio, la poltica, la psicologa, el transporte, la publicidad, el turismo, la
agricultura, la administracin, la educacin, la salud, y tantas otras.
El objetivo que persigue este texto, es brindar al estudiante, los conocimientos necesarios para
organizar, presentar e interpretar informacin, til para la toma de decisiones, inclusive en
condiciones de incertidumbre, aplicando para ello el mtodo cientfico de investigacin y las
herramientas que provee la estadstica descriptiva y la estadstica inferencial
En el mundo actual, en el que se hace indispensable el manejo de informacin, relacionado con
todos los campos de la actividad humana, es de interes, que el estudiante vaya formando:

o Habilidad para pensar de una manera lgica
o Aptitud para el razonamiento abstracto, la observacin y la concentracin
o Inters por la investigacin.
o Paciencia, constancia y deseos de superarse personal y profesionalmente
o Habilidad para tomar decisiones apropiadas y resolver en forma creativa

Es fundamental que se valore la importancia de la Estadstica en la toma de decisiones. Hace
varios aos atrs H. G. Wells comentaba que El pensamiento estadstico un da ser tan
necesario para una ciudadana eficiente como el saber leer y escribir

A los estudiantes, espero que este texto los ayude en vuestro aprendizaje y formacin;
agradeciendoles por enriquecer mi labor en la docencia.










...con todo mi amor a
Daniela y Enzo,
las luces de mi vida



Carlos Garibaldi









3

Caractersticas

Este texto ha sido escrito con el objetivo de facilitar el aprendizaje de los estudiantes, por tal
motivo no se hacen grandes desarrollos tericos, ni difciles demostraciones matemticas. Se
considera que la estadstica es una potente herramienta para la toma de decisiones, y por lo
tanto se pretende que el estudiante, conozca los conceptos estadsticos mas importantes, los
procedimientos y sus aplicaciones.

El texto consta de :

Prlogo: se fundamenta la importancia de manejar las herramientas estadsticas en la
actualidad y el objetivo del texto

Caractersticas: En sta seccin se explica como est conformado todo el texto

Indice: Indica los temas principales y los respectivos nmeros de pagina en donde se
encuentran esos temas

Contenido: el texto incluye conceptos, figuras, tablas, ejemplos de cada tema y
aplicaciones. Los conceptos mas importantes se encuentran resaltados en negritas

Resumen: los resmenes de los captulos, nos recuerdan, en una breve sntesis, por
donde anduvimos.

Ejercicios: cada capitulo presenta una considerable ejercitacin

Respuestas: luego de la ejercitacin encontrar todas las respuestas de los ejercicios

Preguntas de revisin: se listan una serie de preguntas para revisar conceptos

Trminos claves: en la parte final de cada capitulo se incluyen cierta cantidad de
trminos claves que el estudiante debe conocer

Actividades: se proponen o sugieren algunas actividades a realizar por el estudiante a
manera de ensayo

Bibliografa del texto: se citan libros y autores que se consultaron para desarrollar
este modulo.








4

Indice

Prlogo 2
Caractersticas 3

Capitulo 1 Recoleccin, presentacin y descripcin de datos 8
Metodo estadstico 8
Formulacin del problema 8
Diseo del experimento 8
Recoleccin de datos 9
Procesamiento y anlisis de los datos 11
Generalizacin e inferencia final 12
Organizacin y presentacin de datos 12
Tablas estadsticas 12
Distribuciones de frecuencias 13
Datos agrupados 14
Distribuciones categoricas 16
Presentaciones graficas 16
Medidas descriptivas 20
Medidas de posicin 20
Media aritmtica 20
Mediana 23
Moda 25
Medidas de dispersin 27
Recorrido 27
Varianza 28
Desviacin estndar 30
Coeficiente de variacin 31
Medidas de forma 32
Resumen 34
Ejercicios 35
Respuestas 42
Preguntas de revisin 45
Terminos claves 45
Actividades 46

Capitulo 2 Probabilidad bsica 47
Espacio muestral 47
Eventos 48
Probabilidad de un evento 49
Reglas de la adicin 52
Probabilidad condicional 53
Eventos independientes 53
Reglas de la multiplicacin 54
Regla de Bayes 54
Tabla de contingencia 55
Tcnicas de conteo 56
Resumen 58
Ejercicios 59
Respuestas 62
Preguntas de revisin 63
Terminos claves 63
Actividades 64



5



Capitulo 3 Variables aleatorias y distribuciones de probabilidad 65
Variable aleatoria 65
Distribuciones discretas de probabilidad 65
Esperanza matematica 66
Varianza 67
Distribucin binomial 67
Distribucin hipergeometrica 70
Distribucin poisson 72
Distribuciones continuas de probabilidad 74
Esperanza Matematica 75
Varianza 75
Distribucin normal 75
Aproximacin normal a la binomial 78
Aproximacin normal a poisson 79
Distribucin exponencial 80
Resumen 81
Ejercicios 82
Respuestas 89
Preguntas de revisin 91
Terminos claves 91
Actividades 92

Capitulo 4 Muestras y distribuciones en el muestreo 93
Generalidades 93
Razones para el muestreo 93
Metodos para seleccionar muestras 94
Muestreo irrestricto aleatorio 94
Muestreo aleatorio estratificado 95
Muestreo sistematico 97
Muestreo por conglomerados 98
Distribuciones de muestreo 99
Distribucin de la media muestral 99
Distribucin en MCR 99
Distribucin en MSR 102
Distribucin de la proporcin muestral 105
Distribucin en MCR 106
Distribucin en MSR 109
Resumen 113
Ejercicios 114
Respuestas 119
Preguntas de revisin 123
Terminos claves 123
Actividades 124

Capitulo 5 Estimacin estadstica 125
Estimacin puntual 125
Propiedades de los estimadores 126
Estimacin por intervalo 127
Estimacin de la media poblacional con varianza conocida 127
Estimacin de la media poblacional con varianza desconocida y muestra grande 129
Estimacin de la media poblacional con varianza desconocida y muestra pequea 130
Estimacin de la proporcin poblacional 132
Estimacin de la varianza poblacional 133
Resumen 135
Ejercicios 136
Respuestas 139
6

Preguntas de revisin 140
Terminos claves 140
Actividades 141

Capitulo 6 Pruebas de hiptesis de una y de dos muestras 142
Hipotesis estadsticas 142
Prueba de hiptesis 142
Potencia de una prueba 143
Prueba de una y dos colas 143
Etapas en una prueba de hiptesis 144
Pruebas de hiptesis de una sola muestra 144
Prueba de hiptesis para la media poblacional con varianza conocida 145
Prueba de hiptesis para la media poblacional con varianza desconocida 148
Prueba de hiptesis para la proporcin poblacional 149
Prueba de hiptesis para la varianza poblacional 151
Pruebas de hiptesis de dos muestras 152
Prueba de hiptesis para diferencias de media poblacionales 152
Prueba de hiptesis para diferencias de proporciones poblacionales 157
Prueba Ji-cuadrada 158
Prueba para independencia de variables 158
Resumen 161
Ejercicios 162
Respuestas 166
Preguntas de revisin 168
Terminos claves 168
Actividades 169

Capitulo 7 Analisis de varianza 170
Tecnicas del anlisis de varianza 170
Diseo completamente aleatorizado de un factor 171
Analisis de varianza con dos criterios de clasificacin 174
Diseo completamente aleatorizado de dos factores 176
Resumen 180
Ejercicios 181
Respuestas 183
Preguntas de revisin 184
Terminos claves 184

Capitulo 8 Analisis de relacin entre variables 185
Analisis de regresin 185
Diagrama de dispersin 185
Modelos de regresin 186
Ecuacin de regresin lineal 186
Error estndar de la regresin 189
Analisis de correlacin 191
Resumen 195
Ejercicios 196
Respuestas 200
Preguntas de revisin 202
Terminos claves 202
Actividades 203

Capitulo 9 Control estadstico de calidad 204
Control estadstico de proceso 204
Graficos de control 206
Graficos de control de variables 207
Estudio de capacidad de proceso 211
Graficos de control de atributos 214
7

Implementacin del control estadstico de procesos 220
Planes de muestreo 220
Resumen 223
Ejercicios 224
Respuestas 228
Preguntas de revisin 230
Terminos claves 230
Actividades 231

Funciones de Excel 232

Bibliografa 235






















8

Capitulo 1

Recoleccin, presentacin y
descripcin de datos


La estadstica comprende el conjunto de mtodos y procedimientos para obtener,
representar y organizar datos con el fin de analizarlos, describirlos e interpretarlos,
ayudando de esta manera en la toma de decisiones
El objetivo de la estadstica es facilitar la comprensin, hacer ms sencillo el conocimiento y
lograr un mejor anlisis de los hechos que queremos interpretar. La estadstica elabora
principios y mtodos que ayudan a tomar decisiones frente a la incertidumbre

Mtodo estadstico

El mtodo estadstico, es un proceso para obtener, representar y analizar las caractersticas o
los valores numericos para una mejor toma de decisiones en situaciones de incertidumbre.
Los pasos fundamentales para seguir una metodologa estadstica son los siguientes:

Formulacin del problema
Diseo del experimento o investigacin
Recoleccin de datos
Procesamiento y anlisis de datos
Generalizacin e inferencia final

Formulacin del problema

Se debe tener bien definida la pregunta a la que se quiere responder con la investigacin. De
sta manera el investigador puede decidir cuales datos son relevantes al problema.
La calidad de los resultados va a depender de la precisin de los datos y de la exactitud en la
formulacin del problema.

Ejemplo 1.1 Si se quiere investigar sobre la natalidad en cierta poblacin, podra ser motivo de
investigacin:
Cuntos bebes nacen anualmente?
Cuntos nios de cada sexo nacieron en 2010?
Hay suficientes recursos para atender adecuadamente el nmero de partos?

Diseo del experimento

Una vez definido el qu se va a investigar, es necesario el cmo. Para ello el investigador debe
decidir si va estudiar toda la poblacin o parte de ella, es decir una muestra, cabe
preguntarse:

Qu tipos de datos deben recolectarse?
En qu poblacin se va a realizar la investigacin?
Qu recursos o instrumentos se van a emplear para recoger los datos?

9

A la estadstica no le interesa sacar conclusiones con respecto a las unidades individuales de
observacin, sino sobre grupos, conjuntos o agregados, porque su objetivo es el estudio de la
llamada poblacin o universo, que es la totalidad de las unidades de observacin (personas,
elementos, o cosas) con caractersticas comunes observables y medibles sobre las cuales se
quiere tomar una decisin. La poblacin puede ser finita (el numero de observaciones puede
ser contado y es limitado) o infinita (la cantidad de unidades observables es ilimitada o su
composicin es tal, que las unidades de la poblacin no pueden ser contadas)

Ejemplo 1.2
Alumnos matriculados en las universidades pblicas (poblacin finita)
Los liquidos o los gases existentes, ya que a veces las unidades no pueden contarse
(poblacin infinita)

Si la poblacin es pequea, es razonable observarla toda. El estudio de toda una poblacin se
denomina censo y un parmetro es una medida de resumen que describe una caracterstica
de la poblacin.

Ejemplo 1.3 Si queremos hacer un estudio sobre la alimentacin de los deportistas de la
ciudad, la poblacin la conforman todos los deportistas de la misma, en ese momento.

El problema es que no siempre es viable observar toda una poblacin, en la mayoria de los
casos por escasez de tiempo o de recursos, en otros por tratarse de poblaciones cuyos
elementos se destruyen. Por estos motivos el estudio se realiza con una muestra, que es el
conjunto de unidades seleccionadas de una poblacin.
Para conocer las caractersticas o comportamiento de una poblacin no es necesario estudiar
todos los individuos que conforman la poblacin, basta con tomar un muestra representativa de
estos datos. El estudio de una muestra se denomina muestreo. En la prctica trabajar con toda
la poblacin resulta costoso, lento y a veces imposible, por lo tanto se recurre al muestreo.

El muestreo puede ser: sin reposicin (las unidades se seleccionan una sola vez) o con
reposicin (las unidades se seleccionan ms de una vez)

Un estadstico o una estadstica es una medida de resumen que describe una caracterstica
de la muestra seleccionada.

Ejemplo 1.4 Los exmenes mdicos de sangre sirven para mostrar la diferencia entre muestra
y poblacin. Para poder determinar si existe o no una enfermedad, en el laboratorio clnico no
se estudia toda la sangre, es suficiente con una pequea muestra que es analizada por los
bacterilogos.

Recoleccin de datos

En sta etapa se extraen y recolectan los datos estadsticos necesarios para el estudio.
Los datos estadsticos son nmeros que pueden ser comparados, analizados e interpretados.
Pueden clasificarse en:

o Cuantitativos, se los conoce como variables y son aquellos que arrojan respuestas
numricas. Estas variables, a su vez pueden ser de dos tipos:

Discretas: son respuestas numricas que surgen de un proceso de
conteo, por ejemplo, cantidad de personas, cantidad de piezas, etc.
Continuas: son respuestas numricas que provienen de procesos de
medicin, como pueden ser el peso, la altura, el tiempo, etc.

o Cualitativos, se los conoce como atributos y son aquellos que arrojan respuestas en
categoras, o se describen por palabras. Ejemplo: sexo de una persona, modelo de un
automvil, tipo de una pieza, etc.
10


Ejemplo 1.5 Se realiza una investigacin en un colegio privado de la ciudad para determinar el
nmero de alumnos atrasados en las cuotas, el porcentaje de alumnos que viven en barrios
privados y si las familias de esos alumnos poseen automviles.

Dato discreto: cantidad de alumnos atrasados en las cuotas
Dato continuo: porcentaje de alumnos que viven en barrios privados
Dato cualitativo: si las familias poseen automviles.

Puden usarse cuatro escalas de medidas para caracterizar las unidades de una poblacin,
ellas son: nominal, ordinal, intervalar y proporcional.

En la escala nominal, las caractersticas se clasifican en varias categoras, en las cuales un
valor numrico asociado con la caracterstica no tiene un significado real.
Como ejemplo, la variable sexo tiene las categoras masculino y femenino, las cuales pueden
ser clasificadas numricamente asignndole 1 al sexo femenino y 2 al sexo masculino

Las caractersticas, en la escala ordinal, son ordenadas (de manera creciente o decreciente)
en situaciones en la que la posicin asociada es importante
Al verificarse el comportamiento de un individuo se asocia un numero a cada categora: (5)
optimo, (4) bueno, (3) regular, (2) malo,y (1) psimo. Un 4 indica un mejor desempeo que 3,
pero no implica, necesariamente, que se tenga un desempeo dos veces mejor que quien
obtuvo 2.

En la escala intervalar, a las caractersticas se le atribuyen valores que no solamente permiten
comparar el orden, sino que tambin permiten evaluar la variacin numrica entre las
caractersticas
El ao 2000ser ao 2753 del calendario romano, 1420 en el calendario musulman, 5119 en
el calendario maya difieren segn la base que se tome

En cuanto a la escala proporcional, las caractersticas se ordenan y la variacin entre ellas
puede ser comparada si existe un cero natural para la escala de medicin.
La variacin de 5 kilogramos a 5,1 kilogramos es de 0,1 kilogramos y es la misma variacin que
hay entre 4,2 kilogramos y 4,3 kilogramos y existe un cero natural para la escala, es decir, 0
kilogramos

El intrumento a emplear en la recoleccin de datos, es la forma o el medio a utilizar en la
obtencin de los datos. Este instrumento, puede ser:

Observacin. Con la observacin se pueden adquirir muchos datos, que ms tarde se
organizan de acuerdo a un parmetro estadstico. De la forma en que se organicen los
datos depende la calidad en las conclusiones que se pueden obtener.

Entrevista. Es un instrumento que se utiliza formulando preguntas a un grupo de
personas sobre un determinado tema de estudio. Para realizarla se requiere
Elaborar previamente un cuestionario que contenga las preguntas
concretas y claras, cuyas respuestas sean precisamente los datos que
necesitamos.
Determinar el tipo y la cantidad de personas a los que se le va a hacer
la entrevista. Es decir, escoger la muestra.

Cuestionario escrito. Otra forma de indagar, ciertos datos sobre las personas consiste
en entregarles un cuestionario escrito, con las preguntas convenientes para que cada
persona las conteste. Es indispensable para que sea eficaz que las preguntas sean
claras y precisas, de modo que no dejen pie a equvocos o confusiones. En general, la
mayora de las preguntas deben ser de tipo cerradas, es decir, las respuestas se
categorizan con opciones para que el individuo elija alguna de esas opciones. Pocas
preguntas deberan ser abiertas, donde la persona puede explayarse libremente.
11


A la hora de recolectar los datos se deben tener en cuenta todos los aspectos que se
planearon. Utilizar todos los recursos adecuados y dirigirse a las personas y lugares
adecuados.




Si la observacin tcnica es utilizada es preciso







Si se hace una entrevista es necesario










Si se utiliza un cuestionario escrito se requiere





La unidad estadstica est formada por cada uno de los elementos individuales que en forma
conjunta constituyen la poblacin en estudio. En un censo de personas, la unidad estadstica,
la componen las personas.
La unidad de relevamiento, en general es la fuente del dato, es decir, quien nos provee el
dato. En un censo de agricultura, sera el agricultor.

Ejemplo 1.6 A finalizar el semestre se hace un censo de ganado en la provincia de Crdoba.
En ese caso:

Unidad estadstica: cada una de las cabezas de ganado de la provincia
Unidad de relevamiento: el dueo de la estancia.


Procesamiento y anlisis de los datos

El cmulo de informacin obtenida, por s sola no nos permite responder a la pregunta que se
formul inicialmente.
Es necesario ordenar y examinar los datos de tal modo que nos permitan sacar conclusiones.

Cuando los datos son pocos es posible presentar la informacin en forma de explicacin
escrita, llamada presentacin literal.
Pero, generalmente, los datos son muchos y la presentacin de la informacin se realiza
mediante tablas (distribuciones de frecuencias) y grficos.
Adems de presentar los datos, tambin se los describe mediante las medidas descriptivas,
como promedios, variaciones, etc
Hacer todas las preguntas que
previamente se han preparado

Buscar el momento ms oportuno
para realizar la entrevista

Tener una actitud de inters por las
respuestas de todos y cada uno de los
entrevistados



Preparar la cantidad suficiente de
cuestionarios que se van a entregar

Acondicionar el espacio fsico para la
realizacin de la encuesta o
cuestionario

Ir tomando nota de los datos de
inters.


Estar atento exclusivamente a lo que
se quiere averiguar

Ir tomando nota de los datos de
inters.


12

Es importante destacar que si se ha trabajado con toda la poblacin, las medidas descriptivas
se denominan parametros y si se ha trabajado con una muestra, las medidas descriptivas se
llaman estadisticos

Generalizacin e inferencia final

Si el estudio ha sido realizado con toda la poblacin, sta etapa no es necesaria, basta con la
presentacin de los datos y la descripcin de los mismos. Ahora, si los datos se tomaron de
una muestra, hay que extender las conclusiones a la poblacin, para poder tomar decisiones y
resolver la problemtica. Generalizar para la poblacin lo que se observ en la muestra
caracteriza a la inferencia estadstica. La palabra inferencia tiene en estadstica dos
significados: conclusiones extraidas a partir de valores o evidencias y procesos para llegar a
esas conclusiones.


Organizacin y presentacin
de datos

Como ya se mencion, es necesario la organizacin de los datos, para poder interpretarlos y de
ste modo poder tomar decisiones.
Las dos formas ms usuales de presentacin son: las tablas estadsticas y los grficos
estadsticos.

Tablas estadsticas

Una tabla estadstica est compuesta por las siguientes partes:

Ttulo: indica el contenido de la tabla
Encabezamiento: son los rtulos de la parte superior de las columnas
Conceptos: representan las clasificaciones de los valores incluidos en
el cuerpo
Cuerpo: el contenido de los datos estadsticos
Notas al pie: sirven para clarificar algunos aspectos incluidos en las
tabla
Fuente: indica de donde se obtuvieron los datos

Ejemplo 1.7
Evolucin de la produccin

PRODUCCIN 1998 1999 2000
Agrcola 2500 3000 3500
Ganadera 1500 2000 3000
Industrial 5000 4000 4500
Comercial 3000 2500 3000
Total 12000 11500 14000
Tabla 1.1

Nota: las cifras corresponden a millones de dlares
Fuente: Ministerio de Produccin








13

Distribuciones de frecuencias

Cuando la cantidad de datos recolectados es grande es necesario agrupar los valores a fin de
facilitar el anlisis estadstico.
Esta agrupacin de datos (tabla) se la denomina distribucin de frecuencias. Una distribucin
de frecuencias es una tabla con los diferentes valores que asume la variable en estudio y la
frecuencia con que se repiten esos valores. Existen diferentes tipos de frecuencias

Frecuencia absoluta Es el nmero de veces que se repite el valor de la variable y se lo
simboliza por f
i
, sta frecuencia necesariamente ser menor o a lo sumo igual que n, nmero
total de frecuencias (f
i
s

n ). Adems la suma de todas las frecuencias absolutas es igual al
tamao de la muestra o total de observaciones
(

=
=
m
i
i n f
1

)
Esta frecuencia entrega informacin en forma de cantidades


Frecuencias relativas. Es el cociente que se obtiene al dividir el valor de cada frecuencia
absoluta f
i
por el total de observaciones n.

n
f
h
i
i
=
Se lo simboliza con h
i
, es un valor que no puede ser mayor que 1 y no puede ser menor que 0..
La suma de todas las frecuencias relativas siempre es igual a 1.

=
=
m
i
i h
1
1
sta frecuencia brinda informacin en forma de valor relativo, que si se lo multiplica por 100
representa un porcentaje.


Frecuencia absoluta acumulada. Esta frecuencia va acumulando la frecuencia absoluta hasta
el correspondiente subndice.

Se lo simboliza por F
i
= f
1
+f
2
+ f
3
+.......+ f
i

La ltima frecuencia absoluta acumulada ser igual a n
(F
i
= n)
sta frecuencia entrega informacin en forma de cantidad acumulada.


Frecuencias relativas acumuladas. sta frecuencia va acumulando la frecuencia relativa
hasta el correspondiente subndice.

Se lo simboliza por H
i
= h
1
+h
2
+ h
3
+.......+ h
i

La ltima frecuencia relativa acumulada ser igual a 1 (H
i
= 1)
sta frecuencia brinda informacin en forma de valor relativo acumulado, que como dijimos
anteriormente se puede transformar en porcentaje.

En la tabla 1.2 se presentan todas las frecuencias vistas recientemente








14

Y
i
f
i
h
i
F
i
H
i

Y
1
f
1
h
1
F
1
H
1

Y
2
f
2
h
2
F
2
H
2

Y
3
f
3
h
3
F
3
H
3

. . . . .
. . . . .
Y
m
f
m
H
m
F
m
H
m

=
=
m
i
i n f
1

=
=
m
i
i h
1
1


Tabla 1.2


Ejemplo 1.9 En la tabla 1.3 se presenta informacin acerca de las notas obtenidas por 40
alumnos.
Nota f
i
h
i
F
i
H
i

2 5 0,25 5 0,25
4 4 0,20 9 0,45
5 6 0,30 15 0,75
6 3 0,15 18 0,90.
9 2 0,10 20 1
20 1
Tabla 1.3

Haciendo un anlisis e interpretacin de los datos, se observa que:

Cinco alumnos obtuvieron un dos
El 20 % de los alumnos obtuvieron cuatro
18 alumnos sacaron notas menores o iguales a 6
El 75 % de los alumnos obtuvieron notas no mayores a cinco


Datos agrupados

Cuando el nmero de observaciones es grande y el nmero de valores que puede asumir la
variable tambin es muy grande los datos se suelen resumir en una tabla de datos agrupados
En ste caso la variable ya no presenta el verdadero valor como suceda en la distribucin de
frecuencias, sino que son grupos llamados intervalos de clases o clases
Al trabajar con datos agrupados aparecen una serie de conceptos:

Intervalo de clase: los valores de la variable aparecen en clases o intervalos de clases. Cada
clase se simboliza por
Y
i-1
Y
i
,

donde Y
i-1
representa el lmite inferior de la clase y Y
i
el lmite superior de
clase.

Amplitud de clase es la diferencia entre los dos lmites del intervalo, se simboliza:

a
i
= Y
i-1
Y
i


El tamao del intervalo de clase depende del problema analizado y del inters del investigador
en condensar ms o menos los datos.




15

Marca de clase: es el valor medio de la clase; se simboliza por Y
i
y se calcula
Y
i
=
2
y' y' i 1 i +

Al trabajar con datos agrupados se pierden los verdaderos valores de la variable y se trabaja
con un valor que representa a los datos en esa clase, ese valor, es la marca de clase,.que es
un valor promedio. Aunque es importante destacar que se pierde precisin al trabajar de esta
forma.

Recorrido de la serie: es la diferencia entre el valor ms grande de la serie y el valor ms
pequeo. Indica la amplitud total de la serie.

R = Y
max
- Y
min


A continuacin se muestra en la tabla 1.4 de datos agrupados los nuevos conceptos
desarrollados

Clase Marca de
clase
Frec. abs. Frec. rel. F. abs,
acum..
F. rel. acum
Y
I-1
-Y
i
Y
i
f
i
h
i
F
i
H
i

Y
0
-Y
1
Y
1
f
1
h
1
F
1
H
1

Y
1
-Y
2
Y
2
f
2
h
2
F
2
H
2

Y
2
-Y
3
Y
3
f
3
h
3
F
3
H
3

. . . . . .
. . . . . .
Y
m-1
-Y
m
Y
m
f
m
h
m
F
m
H
m

=
=
m
i
i n f
1

=
=
m
i
i n f
1

=
=
m
i
i h
1
1

Tabla 1.4

En este tipo de agrupamiento, las frecuencias informan lo siguiente:

La frecuencia absoluta indica la cantidad de datos que pertenecen a esa
clase.
La frecuencia relativa nos informa acerca del valor relativo en esa clase
Las frecuencias acumuladas, brindan informacin acumulada hasta el
lmite superior de cada clase.

Ejemplo 1.10 La informacin que se visualiza en la tabla 1.5 pertenece a una muestra 100
personas de una localidad de la provincia con vistas a un estudio de una AFJP.

Edad Marca de
clase
Frec. abs. Frec. rel. F. abs.
acum.
F. rel. acum
Y
I-1
-Y
i
Y
i
fi h
i
F
i
H
i

0-10 5 20 0,20 20 0,20
10-20 15 40 0,40 60 0,60
20-30 25 30 0,30 90 0,90
.30-40 35 5 0,05 95 0,95
40-50 45 5 0,05 100 1
100 1
Tabla 1.5

Si se hace un anlisis e interpretacin de los datos, se visualiza que:

40 personas tienen entre 10 y 20 aos
30 personas tienen en promedio 25 aos
5 % de las personas tienen entre 30 y 40 aos
16

95 personas tienen menos de 40 aos
El 100 % de las personas es menor a 50 aos
La amplitud de cada clase es de 10 aos
El recorrido total de la serie es de 50 aos

En la prctica el investigador debe decidir con cuantos intervalos o clases le conviene trabajar y
cul es la amplitud de cada clase.
Un procedimiento que se suele seguir para encontrar la amplitud de cada clase y formar los
intervalos es:

Calcular el recorrido de la serie Y
max
Y
min

Dividir el recorrido por la cantidad de clases (suele tomarse la raz
cuadrada de la cantidad de datos)
Ese cociente es la amplitud que debe tener cada clase (en caso de ser un
valor fraccionario, se debe redondear al entero siguiente, para no perder
informacin)
El primer intervalo va desde el valor mas chico de la serie Y
min
que ser el
lmite inferior de la clase, a ese valor le sumamos la amplitud, y este nuevo
valor ser el limite superior de la clase
El prximo intervalo comenzar en el lmite superior de la clase anterior, y
para encontrar el lmite superior se le adiciona la amplitud, y as
sucesivamente hasta conformar todas las clases deseadas.
Hay que tener la precaucin de que ningn dato quede fuera de los
intervalos porque estaramos perdiendo informacin.


Distribuciones categricas

Una distribucin de frecuencias categricas muestra el nmero, o la proporcin de
observaciones que corresponden a cada una de las clases cualitativas, mutuamente
exclusivas.
El investigador puede anotar la presencia o ausencia de cierta cualidad o atributo y contar el
nmero de los que poseen y carecen del mismo.

Ejemplo 1.11 La tabla 1.6 muestra informacin sobre la produccin de autos en dos periodos.
Se cuentan los autos que pertenecen a cada tipo de autos. Los tipos de autos (chicos,
medianos, y grandes) son cualidades o atributos mutuamente excluyentes

Autos 2009 2010
Chicos 100000 80000
Medianos 80000 50000
Grandes 20000 10000
200000 140000
Tabla 1.6


Presentaciones grficas

Evidentemente el gran avance de la tecnologa, el uso casi imprescindible de la computadora, y
los programas modernos hacen muy sencillo realizar las presentaciones grficas de los datos.
Los grficos, permiten interpretar y visualizar el fenmeno que se estudia en forma clara. Al
igual que las tablas, tienen que ser lo ms claro posible, esto quiere decir que la persona que
vea el grfico debe entenderlo rpidamente para poder tomar decisiones, por lo tanto deben
llevar, ttulos, leyendas, etc, todo lo que aclare la informacin.




17

Algunos de los grficos ms utilizados son:

Histograma de frecuencias
Polgono de frecuencias
Diagrama de pareto
Grfico acumulativo
Barra porcentual
Circulo radiado


El histograma de frecuencias es un grfico de superficie y es la presentacin clsica que se
utiliza en datos agrupados. En el eje horizontal se ubican los intervalos de clases y en el eje
vertical las frecuencias. stas pueden ser absolutas o relativas y de acuerdo a la frecuencia
graficada se trata de un histograma de frecuencias absolutas o histograma de frecuencias
relativas. No es una presentacin que muestre informacin acumulada.

Ejemplo 1.12 La siguiente es una presentacin por medio de un histograma de frecuencias
absolutas que muestra las notas de alumnos

Histograma de frecuencias absolutas

f
i


30

25

20

15

10

5


0 2 4 6 8 10 Yi-1 Yi

Figura 1.1

Se puede apreciar por ejemplo, que:

20 alumnos obtuvieron notas entre 4 y 6
La mayora de los alumnos obtuvo notas entre 2 y 8
Pocos alumnos sacaron notas superiores a 8
La distribucin es prcticamente simtrica

El polgono de frecuencias, tambin es un grfico de superficie. En el eje horizontal se ubican
los intervalos de clases y en el eje vertical las frecuencias. stas pueden ser absolutas o
relativas, de acuerdo a la frecuencia graficada se trata de un polgono de frecuencias absolutas
o polgono de frecuencias relativas.
Para su construccin, se trabaja con las marcas de clases ya que la poligonal pasa por las
respectivas frecuencias y a la altura de cada marca de clase.
La superficie que queda debajo de la poligonal es equivalente a la del histograma. Tiene ms
uso que el histograma, cuando se quiere comparar diferentes conjuntos de datos en un mismo
grfico, ya que es ms fcil superponer polgonos

Ejemplo 1.13 Suponga que a continuacin se muestra informacin referente a las horas que
dedican al estudio cierto grupo de alumnos


18


Polgono de frecuencias relativas

h
i


0,30

0,25

0,20

0,15

0,10

0,05


0 2 4 6 8 10 Yi-1 Yi

Figura 1.2

Se puede visualizar por ejemplo, que:

El 20 % en promedio estudia 5 horas
Un 10 % le dedica al estudio solo 1 hora
La mayor parte de los alumnos le dedica al estudio entre 2 y 5 horas

El diagrama de pareto se lo utiliza mucho en aplicaciones industriales, por ejemplo en
ocasiones que se quiere informar sobre el nmero de fallas.
Para su construccin, sobre el eje horizontal se ubican las caractersticas y sobre el eje vertical
las frecuencias o cantidades. Tiene la particularidad que para representar cada caracterstica
se van levantando las barras en orden decreciente, es decir que la caracterstica de mayor
frecuencia va primero y luego siguen las restantes en orden decreciente

Ejemplo 1.14 En cierta industria se contabilizaron los accidentes ocurridos y en que parte del
cuerpo ocurrieron. En el siguiente diagrama de pareto se muestra la informacin











Figura 1.3

Se puede observar que

Ocurren muchos accidentes en los dedos
Muy pocos ocurren en las manos
Alrededor de 5 accidentados en los ojos.

El grfico acumulativo de frecuencias se lo usa siempre que se quiere mostrar informacin
acumulada. En el eje horizontal se sita la variable y en el eje vertical las frecuencias
acumuladas, ya sean absolutas o relativas, o bien en porcentajes. Para construirlo, se va
marcando hasta el valor de la variable que se quiere acumular. Se forma una acumulacin de
tipo lineal, conocida con el nombre de ojiva,

0
5
10
15
20
Cant . de
Accident es
Dedos Ojos Brazos Piernas
Diagrama de Pareto
19


Ejemplo 1.15 En la presentacin grafica de la figura 1.4 se muestra informacin acumulada
respecto del tiempo en minutos que demoran los empleados para preparar una maquina

Figura 1.4

Se alcanza a percibir que

12 empleados demoran menos de 13 minutos
27 empleados menos de 17 minutos
Ninguno de los empleados sobrepasa los 19 minutos


La barra porcentual, se la utiliza para presentar la informacin en porcentajes, en donde la
barra total significa el 100 % y cada caracterstica se la representa por una rea de la barra
con su respectivo porcentaje

Ejemplo 1.16 En la barra porcentual de la figura 1.5, se presenta informacin acerca de la
opinin de los propietarios de un edificio a favor de reforzar la seguridad del edificio

Figura 1.5

Las respuestas de los propietarios se la pueden visualizar claramente en la barra porcentual:

El 70 % est de acuerdo
El 19 % no est de acuerdo
El 11 % no contesta


El circulo radiado o grfico de torta, tambin muestra informacin en porcentajes. El crculo
representa el 100 % y se lo va dividiendo en partes que representan las diferentes
caractersticas. Es importante aclarar que si bien el crculo total tiene 360, la informacin se
muestra en porcentaje, los grados se utilizan nicamente para su construccin.

0% 50% 100%
70% 19% 11%
Barra Porentual
Si
No
No contesta
4
12
20
27
30
0
5
10
15
20
25
30
35
11 13 15 17 19
N
r
o
.

d
e

e
m
p
l
e
a
d
o
s
Minutos
Grfico Acum. de Frecuencias
20

Ejemplo 1.17 La misma informacin del ejemplo anterior respecto de la opinin de los
propietarios se puede apreciar en la figura 1.6 que nos muestra un grfico de torta

Figura 1.6

Adems de las presentaciones desarrolladas, los programas de computacin tienen una gran
variedad de grficos con diferentes formatos y estilos muy agradables.



Medidas descriptivas

Las tablas y los grficos, si bien ofrecen bastante informacin, no son suficientes para
caracterizar un conjunto de datos. Las medidas descriptivas permiten completar esa
caracterizacin del conjunto de datos.
Es importante volver a recalcar que cuando una medida se calcula a partir de una poblacin, se
denomina parmetro, y cuando se calcula a partir de datos muestrales, se llama, estadstica
Las medidas descriptivas se categorizan en: medidas de posicin o de tendencia central,
medidas de variacin o dispersin, y medidas de forma

Medidas de posicin

Las medidas de posicin o de tendencia central son promedios que se emplean para
representar todos los valores de una serie y nos dan una idea acerca de la localizacin de los
datos o como se centralizan los datos

Media aritmtica
Se define como el valor que surge de dividir la sumatoria de todos los valores de la
variable en el nmero total de observaciones.
Generalmente es la medida de posicin ms representativa, salvo, cuando en la serie existen
valores extremos, es decir, demasiado alejados del resto
Si trabajamos con la poblacin, este promedio, se denomina Media poblacional y se define:


=
N
X
N
i
i

=1


Como la gran mayora de los estudios son muestrales, a partir de ahora vamos a trabajar con el
promedio muestral que se llama Media muestral y la simbolizamos por
_
X o M(x), donde x
representa la variable en estudio.

70%
19%
11%
Circulo Radiado
Si
No
No contesta
N = tamao de la poblacin
21

Cunado se cuenta con pocos datos y estos, prcticamente no se repiten, para calcular la media
se realiza la sumatoria de todos los valores de X y se lo divide por el total de observaciones
M (x) =
n
X
n
i
i

=1


Ejemplo 1.18 Se recolect informacin acerca de la cantidad de hijos de 5 empleados de la
empresa que sern trasladados a una planta industrial ubicada en la zona sur del pas

X
1
= 2 X
2
= 3 X
3
= 1 X
4
= 0 X
5
= 4

M (x) =
5
10


M (x) = 2 Hay un promedio de 2 hijos por empleado

Ahora bien, cuando los datos son muchos y los valores que asume la variable se repiten, para
calcular la media se hace la sumatoria de los valores de Y por su frecuencia f
i
y luego se lo
divide por el total de observaciones

M (y) =
n
f Y
n
i
i i

=1


Ejemplo 1.19 Se cuenta con la siguiente distribucin de frecuencia referida a la cantidad de
barcos que llegan en un perodo de 30 das al puerto de Quequn. La ltima columna de la
tabla se agrega para clculos

Barcos Das Y
i
f
i

2 5 10
3 10 30
4 6 24
5 4 20
6 5 30
30 114
Tabla 1.7
M (y) =
30
114


M (y) = 3,8 En promedio llegan 3,8 barcos por da


En reiteradas ocasiones los valores que puede asumir la variable son muchos y tambin es
grande la cantidad de observaciones, en ese caso, se trabaja con datos agrupados. Entonces
la variable Y est representada por la marca de clase de cada intervalo

M (y) =
n
f Y
n
i
i i

=1
donde Y es la marca de clase

Ejemplo 1.20 La tabla 1.8 muestra las edades de las 100 personas, del estudio de la AFJP
agrupados en intervalos de clases y representadas por las marcas de clases.

22

Y
I-1
-Y
i
Y
i
fi Y
i
fi
0-10 5 20 100
10-20 15 40 600
20-30 25 30 750
30-40 35 5 175
40-50 45 5 225
100 1850
Tabla 1.8

M (y) =
100
1850


M (y) = 18,50

El promedio de edad de las 100 personas es de 18,5 aos

Propiedades de la media aritmetica

La suma de las desviaciones respecto a la media aritmtica, es igual a cero

=
=
m
i
i i f y
y
1
_
0 )) (

La suma de los cuadrados de las desviaciones es mnima cuando las desviaciones son
obtenidas respecto de la media

=
=
m
i
i i Min f y
y
1
2
_
) (

La media aritmtica de una constante es igual a dicha constante

M(K) = K

La media aritmtica del producto de una constante por una variable es igual a la constante por
la media de la variable

M(YK) = K M(Y)

La media aritmtica de la suma de una variable mas una constante es igual a la media de la
variable ms la constante

M(Y + K) = M(Y) + K


Ejemplo 1.21 Suponga que el sueldo promedio de los empleados es de 500 pesos. La
empresa decide otorgar una aumento para todos los empleados del 10 % Cul sera el nuevo
promedio?
M(YK) = K M(Y)
= 1,10 x 500
= 550 es el nuevo promedio luego del aumento del 10 %


Si la empresa en vez de aumentar el 10 %, decide un aumento de 50 pesos para todos sus
empleados. Se aplica:
(Y + K) = M(Y) + K
= 500 + 80
= 580 es el nuevo promedio luego del aumento de 80 pesos
23


Mediana

Es el valor central de la variable cuando los datos estn ordenados ya sea de menor a mayor
o de mayor a menor. Podemos decir que es el valor de la variable que supera a no ms del 50
% de las observaciones y es superado por no ms del 50 % de las observaciones.

En el caso de trabajar con una pequea serie de datos y prcticamente sus valores no se
repiten, para calcular la mediana, se ordena la serie, y si la serie tiene un nmero de datos
impar, se obtiene la posicin donde se ubica la mediana, de la siguiente manera

(
2
1 + n
) = posicin

donde n = total de observaciones.

Ahora bien, si el conjunto de datos es par, no hay un solo valor que cumpla la condicin para
ser mediana, por lo tanto se calcula como el valor promedio de los dos valores centrales

Ejemplo 1.22 Si tenemos la serie de datos del ejemplo 1.17 con los datos sobre cantidad de
hijos
X
1
= 2 X
2
= 3 X
3
= 1 X
4
= 0 X
5
= 4

Al ordenar la serie: 0,1,2,3,4
(
2
1 5 +
) = 3

El valor mediano est en la tercera posicin, por lo tanto la mediana es 2

Me = 2

Ejemplo 1.23 Si a la serie anterior le agregamos un dato mas, como ser X
6
= 4

Al ordenar la serie queda: 0,1,2,3,4,4
La mediana es el promedio de los dos valores centrales

Me = 2,5

Para calcular la mediana cuando se tienen distribuciones de frecuencias se aplica el
procedimiento que se detalla:

Se divide el total de observaciones n en dos
Se define como F
j
el primer valor de las frecuencias absolutas
acumuladas que supere n/2
Se define como F
j-1
el valor anterior a F
j

Se compara F
j-1
con

n/2 , pudiendo darse dos casos:

Si F
j-1
< n/2 Me = Y
j






Si F
j-1
= n/2 Me =
2
1 + j j Y Y


24


Ejemplo 1.24 Si se trabaja con los datos del ejemplo 1.18 sobre cantidades de barcos que
llegan al puerto de Quequn, la mediana se calcula como sigue

Barcos Das F
i

2 5 5
3 10 15
4 6 21
5 4 25
6 .5 30
30
Tabla 1.9
n/2 = 15

F
j
= 21

F
j-1
= 15 ; F
j-1
= n/2 Me =
2
4 3 +
= 3,5


Si se quiere calcular la mediana por medio de un grfico, se utiliza el grfico acumulativo de
frecuencias:

Se localiza el valor n/2 en el eje vertical
Se traza una recta hasta donde se corte en la acumulacin lineal
Desde ese valor se traza una recta hasta el eje horizontal y en ese
valor de la variable se encuentra la mediana

A continuacin un ejemplo grfico



Figura 1.7


Al trabajar con datos agrupados en clases, el procedimiento es igual al de distribucin de
frecuencias:

Se divide el total de observaciones n en dos
Se define como F
j
el primer valor de las frecuencias absolutas
acumuladas que supere n/2
Se define como F
j-1
el valor anterior a F
j

Se compara F
j-1
con

n/2 pudiendo darse dos casos:


4
12
20
27
30
0
5
10
15
20
25
30
35
11 13 15 17 19
N
r
o
.

d
e

e
m
p
l
e
a
d
o
s
Minutos
Grfico Acum. de Frecuencias
Mediana
F
j

F
j-1

n/2
25

Si F
j-1
< n/2 Me = Yi-1 + a
i
(
j
j
n
F n 1 2 /
)

Si F
j-1
= n/2 Me = Yi-1


Ejemplo 1.25 Si se trabaja con los datos del ejemplo 1.19 sobre las edades de las personas, la
mediana la encontramos con el procedimiento que se detalla a continuacin

Y
I-1
-Y
i
Y
i
fi F
i

0-10 5 20 20
10-20 15 40 60
20-30 25 30 90
.30-40 35 5 95
40-50 45 5 100
100
Tabla 1.10
n/2 = 50

F
j
= 60
F
j-1
= 20 ; F
j-1
< n/2 Me = 10 + 10 (
40
20 50
)

Me = 17,5

El mtodo grfico para datos agrupados, es similar al caso anterior En el caso de que F
j-1
=
n/2 notar que la recta que sale desde el eje vertical a la altura de n/2 se corta en la lnea
acumulativa justo a la altura del lmite inferior del intervalo mediano.


Moda

La moda es el valor de la variable que presenta mayor frecuencia o que ms veces se repite
en el conjunto de datos.
Este valor, tambin conocido como modo, se calcula a partir de distribuciones de frecuencias o
datos agrupados.

Si se cumple que f
j-1
< f
j
> f
j+1


Entonces M
d
= Y
j



Ejemplo 1.26 Si se sigue con los datos del ejemplo 1.18 que hace referencia a barcos que
llegan al puerto de Quequn

Barcos Das
2 5
3 10
4 6
5 4
6 5
30
Tabla 1.11



f
j
M
d
= 3
26

En el caso de trabajar con intervalos de clases o datos agrupados, tenemos varios mtodos
para calcular el valor modal:

Marca de clase, se localiza la frecuencia absoluta ms alta f
j,
en esa posicin se encuentra el
intervalo o la clase modal y por ltimo se toma la marca de clase de ese intervalo como moda

M
d
= Y
j

Formula de interpolacin, es el mtodo ms preciso, para calcular la moda, una vez
localizado el intervalo modal se aplica la siguiente formula
M
d
= Yi-1 + a
i
(
2 1 d d
dj
+
)

Siendo d
1
= n
j
- n
j-1

d
2
= n
j
n
j+1

Interpolacin grfica, se trabaja con el histograma de frecuencias absolutas.
Se localiza la clase modal y se trazan dos lneas diagonales, partiendo de las esquinas
superiores del rectngulo de la clase modal, hacia las esquinas superiores de los rectngulos
adyacentes.
Desde la interseccin de las diagonales se traba una recta hacia el eje horizontal de la variable
y en donde corta el eje se encuentra el valor modal

Histograma de frecuencias

f
i


30

25

20

15

10

5


0 2 4 6 8 10 Yi-1 Yi

Figura 1.8

Ejemplo 1.27 Calcularemos la moda por dos diferentes mtodos con los datos del ejemplo
1.19.sobre las edades de las 100 personas

Y
I-1
-Y
i
Y
i
Fi
0-10 5 20
10-20 15 40
20-30 25 30
.30-40 35 .5
40-50 45 5
100
Tabla 1.12





f
j
Moda
27

Mtodo de la marca de clase

M
d
= 15


Mtodo de la frmula de interpolacin

M
d
= 10 + 10 (
10 20
20
+
) = 16,66


Medidas de dispersin

Las medidas de posicin no son suficientes para caracterizar un conjunto de datos ya que ese
conjunto puede tener mucha o poca variacin.
Por ello es necesario calcular una serie de medidas, las de dispersin o de variacin, que nos
indican el grado de variacin de la serie de datos

Recorrido

Es la medida ms simple y bsica de dispersin se calcula como la diferencia entre el valor
mayor y el valor menor de la serie de datos, se lo simboliza por R

R = X
max
X
min



Ejemplo 1.28 Se trabajar con los datos del ejemplo 1.17 con informacin acerca de la
cantidad de hijos de 5 empleados de la empres

X
1
= 2 X
2
= 3 X
3
= 1 X
4
= 0 X
5
= 4

R = 4 0 = 4


Al contar con una tabla de distribucin de frecuencias, se utiliza la misma formula, excepto que
por una convencin a la variable se la designa como Y

R = Y
max
Y
min



Ejemplo 1.29 Con los datos del ejemplo 1.18 referida a la cantidad de barcos que llegan en
un perodo de 30 das al puerto de Quequn., se calcula el rango o recorrido

Barcos Das
2 5
3 10
4 6
5 4
6 5
30
Tabla 1.13

R = 6 2 = 4



28

Recordemos que al trabajar con intervalos de clases se pierde precisin. Para calcular el
recorrido se trabaja con lmites de clases

R = Y
max
Y
min



donde Y
max
= Lm Sup.del ltimo intervalo

Y
min
= Lm Inf.del primer intervalo


Ejemplo 1.30 La tabla 1.14 sobre las edades de 100 personas se utilizar para calcular el
recorrido
Y
I-1
-Y
i
Y
i
Fi
0-10 5 20
10-20 15 40
20-30 25 30
30-40 35 5
40-50 45 5
100
Tabla 1.14

R = 50 0 = 50


Varianza

Es el promedio de las desviaciones al cuadrado con respecto a la media aritmtica
Como informacin sta medida no nos dice mucho ya que est en un orden superior al de la
variable: Necesitamos los valores al cuadrado para que no se anulen las desviaciones. Esta
medida es necesaria ya que a partir de ell se calcula la desviacin estndar.
La varianza nunca es negativa, ya que surge de una sumatoria de desviaciones al cuadrado
Un desvo es la diferencia entre un valor cualquiera de la variable y la media (x - M (x))

Si se trabaja con una poblacin, la varianza poblacional se la simboliza por:

o
2
= M [(x
i
)
2
]


Si en lugar de trabajar con la poblacin, se lo hace con muestras, la varianza se llama, varianza
muestral y se la simboliza como V(x) o S
2


Como formula definicional o terica:
S
2
= M [(x
i

x
_
)
2
]


Para los clculos se recomienda la formula rpida, que es:

S
2
=
2
_
2
1

n
n x
x



Ejemplo 1.31 Se trabajar con los datos del ejemplo 1.17 con informacin acerca de la
cantidad de hijos de 5 empleados que sern trasladados de ciudad

29

X
1
= 2 X
2
= 3 X
3
= 1 X
4
= 0 X
5
= 4
S
2
=
2
_
2
1

n
n x
x


S
2
=
2
4
2 5 30 x
= 2,5

Cuando los datos son muchos se agrupan en distribuciones de frecuencias, entonces las
varianza se calcula de sta forma
S
2
=
2
_
2
1

n
n f Y
y
i


Ejemplo 1.32 Se cuenta con la distribucin de frecuencia que se visualiza en la tabla 1.7
sobre la cantidad de barcos que llegan en un perodo de 30 das al puerto de Quequn. Las
dos ltimas columnas se agregan para clculos auxiliares

Barcos Das Y
i
f
i
Y
i
2
f
i

2 5 10 20
3 10 30 90
4 6 24 96
5 4 20 100
6 5 30 180
30 114 486
Tabla 1.15

S
2
=
2
29
8 , 3 30 486 x


S
2
= 1,82


Al utilizar datos agrupados en clases, la varianza se obtiene de esta forma
S
2
=
2
_
2
1

n
n f Y
y
i


En datos agrupados, recordar que la variable Y significa o est representado por la marca de
clase

Ejemplo 1.33 La tabla 1.16 muestra las edades de 100 personas, agrupados en intervalos
de clases y representadas por las marcas de clases. Para el clculo de la varianza se utilizarn
algunas columnas auxiliares de clculos intermedios.

Y
I-1
-Y
i
Y
i
fi Y
i
fi Y
i
2
fi
0-10 5 20 100 500
10-20 15 40 600 24000
20-30 25 30 750 22500
30-40 35 5 175 875
40-50 45 5 225 1125
100 1850 49000
Tabla 1.16
30


S
2
=
2
99
5 , 18 100 49000 x


S
2
= 149,24


Propiedades de la varianza

La varianza es siempre una cantidad no negativa
V(x) > 0

La varianza de una constante es cero
V(K) = 0

La varianza del producto de una constante por una variable es igual al cuadrado de la
constante por la varianza de la variable
V(KX) = K
2
V(X)

La varianza de la suna de una variable ms una constante es igual a la varianza de la variable
V(X + K) = V(X)

Ejemplo 1.34 Cmo se modifica la varianza del ejemplo 1.31 si se produce un aumento del 20
% en las llegadas de barcos por un lado, y por otro lado una aumento de 3 barcos?

Aumento del 20 %

V(X) = 1,20
2
x 1,82

V(X) = 2,62


Aumento de 3 barcos


V(X + K) = 1,82



Desviacin estndar

La desviacin estndar se calcula como la raz cuadrada de la varianza. Se interpreta como la
dispersin promedio que hay entre los diferentes valores de la variable respecto de la
media aritmtica.
Es la medida de dispersin ms importante y juntamente con la media aritmtica describen
bastante bien a un conjunto de datos

Si se utiliz toda la poblacin, la desviacin estndar es poblacional y se la simboliza por:


o = M [(x
i
)
2
]



Si el estudio es muestral, la estadstica se denomina desviacin estndar muestral.


31

Se la simboliza por DS(x) o S


S

=
2
_
2
1

n
n x
x



Al trabajar con una distribucin de frecuencias la desviacin estndar es:


S =
2
_
2
1

n
n f Y
y
i


En caso de utilizar datos agrupados en clases, se utiliza la siguiente formula


S =
2
_
2
1

n
n f Y
y
i



Recordar que en datos agrupados Y es la marca de clase

Ejemplo 1.35 En el ejemplo 1.32 se calcul la varianza para una tabla de datos agrupados
respecto de las edades de 100 personas. La desviacin estndar es la raz cuadrada de la
varianza:
S
2
= 149,24

S = 12,21

Significa que la dispersin promedio respecto de la media es de 12, 21
aos


Coeficiente de variacin

Es una medida de variacin importante ya que es un valor relativo que permite comparar la
homogeneidad en dos o ms conjuntos de datos; inclusive es independiente de las unidades.
Se calcula como el cociente entre la desviacin estndar y la media aritmtica.

Mientras ms prximo a cero est el valor del coeficiente, quiere decir que existe muy poca
dispersin en el conjunto de datos, y la media se vuelve mucho ms representativa. Cuando el
coeficiente se aleja de cero, significa que hay bastante dispersin en ese conjunto de datos y la
media se vuelve menos representativa

Ejemplo 1.36 En el ejemplo de las edades de las personas, la media es 18,5 aos y la
desviacin estndar 12,21 aos, entonces:

C.V. =
y
S
_

32

C.V. =
50 , 18
21 , 12


C.V. = 0,66



Medidas de forma

Las medidas de forma caracterizan la forma de la grfica de una distribucin de datos
estadsticos. La mayora de estos parmetros tiene un valor que suele compararse con la
campana de Gauss, esto es, la grfica de la distribucin normal, una de las que con ms
frecuencia se ajusta a fenmenos reales. Entre estas medidas de forma, estn las medidas de
asimetra y las medidas de puntiagudez o curtosis.

Las medidas de asimetra son indicadores que permiten establecer el grado de simetra (o
asimetra) que presenta una distribucin de frecuencias sin tener que hacer su representacin
grfica.
Existen varios coeficientes de asimetra de una distribucin de frecuencias. Una de ellos es el
coeficiente de asimetra de pearson, solo puede usarse en distribuciones campaniformes,
unimodales y moderadamente asimtricas. Se basa en que en distribuciones simetricas la
media de la distribucin es igual a la mediana.
Ap = 3


Si la distribucin es simetrica = mediana y Ap=0. Si la distribucin es asimtrica positiva o
derecha la media se situa por encima de la mediana y Ap>0. Si la distribucin es asimtrica
negativa o izquierda la media se situa por debajo de la mediana y Ap<0.

Otro coeficiente de asimetra, que es mas preciso, es el coeficiente de asimetra de Fisher,
ya que utiliza en su formula el tercer momento y hace que se mantenga el signo de las
desviaciones con respecto a la media. Se define:

Si el el valor de g1 es igual a cero, la distribucin es simetrica, en caso de ser mayor a cero, la
distribucin es asimtrica positiva, y al ser menor a cero, la distribucin es asimtrica negativa.
33

Las medidas de puntiagudez o curtosis miden la mayor o menor cantidad de datos que se
agrupan en torno a la moda.
El coeficiente de curtosis de uso mas extendido es 2 =
4
4
o



Donde 4 es el cuarto momento centrado o con respecto a la media
En ocasiones se utiliza esta otra definicin del coeficiente de curtosis 2 =
4
4
o

- 3 donde al
final se ha sustrado 3 que es la curtosis de la normal.


Se definen 3 tipos de distribuciones segn el grado de curtosis:
- Distribucin mesocrtica, presenta un grado de concentracin medio alrededor de los
valores centrales de la variable (2 =3)
- Distribucin leptocrtica, presenta un elevado grado de concentracin alrededor de
los valores centrales de la variable (2 >3)
- Distribucin platicrtica, presenta un reducido grado de concentracin alrededor de
los valores centrales de la variable. (2 <3)

Las medidas de asimetra, sobre todo el coeficiente de asimetra de Fisher, conjuntamente con
las medias de curtosis se utilizan y son muy utilies para contrastar si se puede aceptar que una
distribucin estadstica sigue la distribucin normal.
Ejemplo 1.37 Se usarn los datos sobre 100 personas, de la tabla 1.16, para anlizar la forma
de la distribucin.
Usando el coeficiente de asimetra de Fisher g1=0.688 indica asimetra positiva
Utilizando coeficiente de curtosis 2 = 0.45 indica distribucin platicrtica




34

Resumen

La estadstica se divide en estadstica descriptiva y estadstica inferencial. Un proceso de
investigacin se compone de la formulacin del problema, diseo del experimento, recoleccin
de los datos, anlisis y procesamiento de datos, e inferencia final.
El estudio puede ser con toda la poblacin o con una parte de ella, llamada muestra. El dato
estadstico puede ser una variable discreta, una variable continua, o bien un atributo. Se cuenta
con diversas escalas de medidas: nominal, ordinal, intervalar, y proporcional
Los datos se pueden presentar por medio de tablas estadsticas y grficos estadsticos. Una
distribucin de frecuencias, es una tabla con los valores de la variable y su respectiva
frecuencia. Estas frecuencias son las absolutas, relativas y acumuladas.
Cuando son muchos los datos y los valores que puede asumir la variable se trabaja con datos
agrupados o intervalos de clases.
Entre las presentaciones grficas ms usuales, se tienen el diagrama de pareto, histograma de
frecuencias, polgono de frecuencias, grficos acumulados, barras de porcentajes y grficos de
torta.
Para completar la descripcin de un conjunto de datos, se calculan las medidas de posicin:
media, mediana y moda, las medidas de dispersin: recorrido, varianza, desviacin estndar y
coeficiente de variacin, las medidas de forma: coeficiente de asimetra y coeficiente de
curtosis





































35

Ejercicios


1.1 Determine en cada uno de los puntos, s se trata de un dato estadstico cualitativo o
cuantitativo. Si es cuantitativo, distinga si el fenmeno de inters es discreto o continuo

a. Peso neto de un cereal seco envasado
b. Duracin til de un foco elctrico
c. Afiliacin de personas en cierto sindicato
d. Nmero de quiebras de empresas
e. Tipo de hierro utilizado
f. Nmero de llegadas a tiempo, en un aeropuerto.

Ejemplo 1.En la tabla 1.17 se muestra el salario quincenal (en pesos) de 200 empleados de
una automotriz perteneciente al Mercosur. En las diferentes columnas de la tabla observamos
las frecuencias absolutas simples (cantidad de empleados) y frecuencias absolutas
acumuladas (cantidad de empleados acumulados).
Debajo de la tabla se observa en la figura 1.1 una presentacin mediante un histograma de
frecuencias absolutas.

SALARIO
QUINCENAL
(EN PESOS)
CANTIDAD DE
EMPLEADOS
CANTIDAD
DE EMPLEADOS
ACUM
350-380 3 3
380-410 8 11
410-440 10 21
440-470 13 34
470-500 33 67
500-530 40 107
530-560
560-590
590-620
620-650
35
30
16
12
142
172
188
200

Tabla 1.17



40

30

20

10


350 380 410 440 470 500 530 560 590 620 650
Figura 1.9

1.2 Para los datos de la tabla 1.17, agregue las marcas de clases y las frecuencias
relativas. Construya un histograma de frecuencias relativas y un polgono de
frecuencias.

1.3 Los accidentes en una planta se categorizan de acuerdo a las partes del cuerpo que
sufrieron el dao
Salarios
Empleados
36


Dedos 17
Ojos 5
Brazos 2
Piernas 1
Realice un diagrama de pareto

1.4 En la tabla 1.18 se muestran los tiempos de ensamble de una pieza de un automvil,
segn diferentes empleados.

Tiempo de ensamble
(en minutos)
Nmero de empleados
9-11 4
11-13 8
13-15 8
15-17 7
17-19 3

Tabla 1.18

Agregue las marcas de clases y las frecuencias relativas simples, para construir un
histograma de frecuencias relativas y un polgono de frecuencias

1.5 Para los tiempos de ensamble de la pieza construya una distribucin de frecuencias
absolutas acumuladas y presente los datos mediante una ojiva menor que.

1.6 Sobre la base del ejercicio anterior, conteste:

a. Qu cantidad de empleados demoran menos de 17 minutos para ensamblar
la pieza?
b. Qu porcentaje de empleados demoran menos de 15 minutos para ensamblar
la pieza?
c. Qu porcentaje de empleados tarda ms de 13 minutos en ensamblar la
pieza? Construya la Ojiva mayor que

1.7 Un peridico muy conocido efectu una encuesta telefnica de las actitudes de los
empleados en la fbrica. Se seleccion un total de 419 personas y los datos reflejan las
respuestas a una pregunta relacionada con la proteccin y seguridad

Si 293
No 80
No contesta 46

Convierta los datos a porcentajes y construya:

a. Una barra porcentual
b. Un diagrama de pastel

1.8 Una firma distribuidora de petrleo combustible deseaba comparar la rapidez con lo cual
le pagaban sus facturas en dos zonas diferentes. Se seleccion una muestra aleatoria
de 50 facturas de la zona A y 100 facturas de la zona B y se registr el nmero de das
entre la entrega y el pago.



37

Nro. de das

Zona A Zona B
0-4 4 6
4-8 14 21
8-12 16 24
12-16 10 30
16-20 5 7
20-24 1 6
24-28 0 6
Tabla 1.19

a. Trace los histogramas de porcentajes
b. En una grfica, trace los polgonos de porcentaje para cada zona
c. Realice una grfica con informacin acumulada para cada zona.

1.9 Mediante un grfico de barras represente los datos que figuran en la tabla 1.20, referidos
al personal ocupado en la industria alimenticia

Ao

Obreros Administ. Tcnicos
2000 30.000 11.800 22.000
2001 35.000 15.600 30.400
2002 70.000 15.600 30.400
2003 85.000 19.875 36.750
2004 98.000 23.790 44.300
Tabla 1.20

1.10 En la tabla 1.21 se presenta la vida media de herramientas de corte en un proceso
industrial

Horas (antes del reemplazo)
Nro. de herramientas
0-25 2
25-50 4
50-75 12
75-100 30
100-125 18
125-150 4
Tabla 1.21

a. Construya el histograma de frecuencias relativas
b. Qu porcentaje de herramientas de corte dur cuando menos 125 horas?
c. Qu porcentaje de herramientas de corte dur cuando menos 100 horas?.

1.11 Los siguientes datos son los nmeros de torsiones requeridas para 12 barras de cierta
aleacin:

33 24 39 48 26 35
38 54 23 34 29 37

Calcule:

a. Media aritmtica
b. Mediana

1.12 Las siguientes cifras corresponden a las compras (en unidades) de materia prima
realizadas por 15 empresas: 1000, 2500, 2500, 1000, 4000, 3500, 2500, 9000,
5300, 12500, 13500, 27500, 24500, 30900, 41000.
38


Determine.

a. La media
b. La mediana
c. La moda

1.13 Una muestra de 20 camiones de una pequea empresa dedicada al transporte tuvieron
los siguientes recorridos, en kilmetros, 240.000, 240.000, 240.000, 240.000, 240.000,
240.000, 240.000, 240.000, 255.000, 255.000, 265.000, 265.000, 280.000, 280.000,
290.000, 300.000, 305.000, 325.000, 330.000, 340.000. Presente los datos en una
distribucin de frecuencias y calcule:

a. El promedio de kilmetros recorridos
b. El valor central en kilmetros
c. Los recorridos ms frecuentes.

1.14 Con los datos agrupados de la tabla 1.17 referida a salarios, deermine

a. La media aritmtica
b. La mediana
c. La moda (utilice la formula de interpolacin)

1.15 Con los mismos datos, pero utilizando presentaciones grficas, calcule:

a. La mediana
b. El modo

1.16 Las siguientes cifras son los importes, en pesos, del consumo de combustible de 15
camiones que trasladan mercadera:

1000 1000 2500 2500 2500
30900 27500 3500 4000 9000
5300 13500 12500 24500 27500

Calcule:
a. El consumo promedio
b. El consumo central
c. El consumo mas frecuente

1.17 Para una muestra de 15 vendedores de maquinas herramientas se determinaron las
siguientes cuentas (en pesos):


1000 1000 2500 2500 2500
3500 4000 5300 5500 6000
7000 4500 3500 4000 1000

Determine:

a. La varianza
b. La desviacin estndar
c. El coeficiente de variacin

1.18 En la tabla 1.22 se reproducen los datos sobre el nmero promedio de lesiones
semanales en una industria especfica.


39


Nro. Promedio de lesiones Nro de empresas
1.5-1.8
1.8-2.1
3
12
2.1-2.4 14
2.4-2.7 9
2.7-3.0
3.0-3.3
7
5
Tabla 1.22

Calcule:

a. La varianza
b. La desviacin estndar
c. El coeficiente de variacin.

1.19 Los siguientes datos corresponden a las tasas de octanaje de combustible de motor de
varias mezclas de gasolina:

88 91 92 87 91 98 83 90 99 86
89 98 87 92 87 91 89 84 88 92
90 93 94 95 92 94 93 89 98 100

a. Agrupe los datos en clases
b. Calcule las medidas de posicin
c. Calcule las medidas de variacin
d. Si las tasas de octanaje de combustible, sufren un incremento del 2 %,
S modificaran la media y la varianza? Calcule los valores.
e. Indique la forma de la distribucin

1.20 Con los datos del ejercicio anterior, realice las siguientes presentaciones grficas:

a. Un grfico que muestre frecuencias absolutas
b. Una presentacin que muestre informacin en porcentajes
c. Un grfico que muestre informacin acumulada

1.21 Los dimetros de determinada pieza, medidas en milmetros, son:

19.5 21.6 22.2 22.3 22.3
21.5 20.4 19.2 19.1 21.5
22.2 23.8 21.9 20.5 19.4
22.3 23.5 21.4 20.7 21.8

Calcule:

a. Medidas de posicin
b. Medidas de variacin
c. Medidas de forma

1.22 Los siguientes datos son mediciones de la resistencia a la ruptura de
una muestra de 60 hilos:

32.5 15.2 35.4 21.3 28.4 26.9 34.6 29.3 24.5 31.0
21.2 28.3 27.1 25.0 32.7 29.5 30.2 23.9 23.0 26.4
27.3 33.7 29.4 21.9 29.3 17.3 29.0 36.8 29.2 23.5
20.6 29.5 21.8 37.5 33.5 29.6 26.8 28.7 34.8 18.6
25.4 34.1 27.5 29.6 22.2 22.7 31.3 33.2 37.0 28.3
36.9 24.6 28.9 24.8 28.1 25.4 34.5 23.6 38.4 24.0
40


Agrupe las mediciones y construya un histograma

1.23 Los siguientes datos son el nmero de minutos que en 15 das
laborales una persona tiene que esperar el autobs que la llevar a
su trabajo:

10 13 9 5 2
9 10 3 8 1
6 17 2 10 15

Encuentre:
a. La varianza
b. La desviacin estndar
c. El coeficiente de variacin

1.24 Una muestra de 20 trabajadores de una empresa obtuvo los siguientes
salarios para un mes determinado:

240 240 240 340 340 240 240 255
255 265 280 280 280 300 300 320
320 320 300 240

Realice una distribucin de frecuencias y calcule

a. Las medidas de posicin
b. Las medidas de variacin

1.25 Los datos de la tabla 1.23 muestran los prestamos solicitados por industrias del sector
alimenticio, para ampliar su planta.

Monto (en miles de pesos)
Nro. de prestamos
300-699 13
700-1.099 11
1.100-1.499 6
1.500-1.899 5
1.900-2.299 3
2.300-2.699 1
2.700-3.099 1
Tabla 1.23

a. Calcule el promedio de los prestamos
b. Calcule el prstamo ms frecuente
c. Calcule la dispersin de los prestamos
d. Describa la forma de la distribucin

1.26 Al realizar auditorias anuales, se lleva un registro del tiempo que se
requiere para auditar 50 cuentas, tal como se seala en la tabla 1.24

Tiempo de auditoria (en minutos)
Nro. de registros
10-20 3
20-30 5
30-40 10
40-50 12
50-60 20
Tabla 1.24


41

Calcule:
a. La media
b. La mediana
c. La moda
d. La varianza
e. La desviacin estndar
f. El Coeficiente de variacin
g. El coeficiente de asimetria


















































42

Respuestas


Para la resolucin de los ejercicios, se utiliz el programa de computacin Microsoft Excel, por
lo tanto puede haber alguna diferencia con mtodos manuales de clculo.

1.1 a) Cuantitativo continuo b) Cuantitativo continuo c) Cuantitativo
discreto d) Cuantitativo discreto e) Cualitativo f) Cuantitativo
discreto

1.2

Marca de clase

Frec. Relativa
365 0,015
395 0,04
425 0,05
455 0,065
485 0,165
515 0,20
545
575
605
635
0,175
0,15
0,08
0,06

1.3


1.4
Marca de
clase
Frec. Relativa
10 0,133
12 0,30
14 0,30
16 0.233
18 0,10











0
5
10
15
20
Dedos Ojos Brazos Piernas
Cant. de
Accidentes
Diagrama de Pareto
43


1.5

1.6 a) 27 b) 66 % c) 60 %

1.7 a)
b)

1.8 a) histograma b) polgonos c) grfico acumulado

1.9



0% 20% 40% 60% 80% 100%
70% 19% 11%
Barra Porentual
Si
No
No contesta
70%
19%
11%
Circulo Radiado
Si
No
No contesta
0
10.000
20.000
30.000
40.000
50.000
60.000
70.000
80.000
90.000
100.000
1984 1985 1986 1987 1988
Diagrama de barras
Obreros
Administrativos
Tecnicos
4
12
20
27
30
0
5
10
15
20
25
30
35
11 13 15 17 19
N
r
o
.
d
e

e
m
p
l e
a
d
o
s
Minutos
Grfico Acum. de Frecuencias
44

1.10 a) histograma b) 5,7 % c) 31,4 %

1.11 a) 35 b) 34,5

1.12 a) 12080 b) 5300 c) 2500

1.13 a) 270.500 b) 260.000 c) 240.000

1.14 a) 523,25 b) 524,25 c) 517,50

1.15 a) Grfico acumulado b) Histograma

1.16 a) 11180,28 b) 4650 c) 2500

1.17 a) 3.759.175,10 b) 1.938,65 c) 0,53

1.18 a) 0,18 b) 0,42 c) 0, 18

1.19 c) Media = 91,33 Mediana = 91 Moda = 92
d) Varianza = 19,05 Desviacin = 4,36 C.V. = 0,04
e) Media = 93,16 Varianza = 19,82

1.20 a) histograma de frecuencias absolutas b) histograma de porcentajes Grficos

1.21 a) Media = 21,35 Mediana = 21,55 Moda = 22,3
b) Varianza = 1,80 Desviacin = 1,34 C.V. = 0,06

1.22 Histograma


1.23 a) 23,42 b) 4,84 c) 0,60

1.24 a) media = 279,75 mediana = 280 moda = 240
b) varianza = 1277,56 desviacin = 35,74 C V = 0,127

1.25 a) 1110 b) 646,66 c) 627,48 d) Asimtrica positiva

1.26 a) 43,2 b) 45,83 c) 52,85 d) 153,84 e) 12,40 e) 0,28




















45

Preguntas de revisin


Cules son las etapas de un proceso de investigacin?
Qu es una poblacin?
Qu es una muestra?
Cul es la diferencia entre unidad de relevamiento y unidad estadstica?
Qu tipos de variables existen?
Qu es un atributo?
Qu es una distribucin de frecuencias?
Por qu se trabaja con datos agrupados?
Qu presentaciones grficas conoce?
Cules son las medidas de posicin?
Qu indican las medidas de posicin?
Cul medida de posicin es la ms representativa?
Cundo es conveniente utilizar la mediana para caracterizar un conjunto de datos?
Para qu sirven las medidas de dispersin?
Cul es la medida de dispersin ms importante?
Qu medida de dispersin utilizara para comparar dos conjuntos de datos?
Qu indican las medidas de forma?
Cules son las medidas de forma?



Trminos claves

Estadstica descriptiva Datos agrupados
Estadstica inferencial Intervalos de clases
Investigacin estadstica Marca de clase
Poblacin Amplitud del intervalo
Parmetro Grfico estadstico
Muestra Diagrama de pareto
Estadstico Histograma de frecuencias
Unidad estadstica Polgono de frecuencias
Unidad de relevamiento Grfico acumulado
Observacin Medidas descriptivas
Encuesta Medidas de posicin
Cuestionario Media aritmtica
Variable discreta Mediana
Variable continua Moda
Atributo Medidas de dispersin
Tablas estadsticas Recorrido
Distribuciones de frecuencias Varianza
Series simples Desviacin estndar
Frecuencia absoluta Coeficiente de variacin
Frecuencia relativa Asimetra
Frecuencia acumulada Puntiagudez







46


Actividades



Los estudiantes pueden realizar alguna de las actividades que se enumeran a manera de
ensayo:

o Plantear problemas de investigacin que sern solucionados mediante mtodos
estadsticos

o Observar de prensa, revistas o estudios especializados los diferentes mtodos en que se
presenta la informacin

o Recolectar las edades de los alumnos del curso, ordenarlas, calcular las medidas
descriptivas e interpretarlas

o Discutir la variabilidad en un conjunto de datos

o Realizar una encuesta en el medio, recopilar los datos, presentarlos en tablas y grficos.

o Analizar las ventajas y desventajas de las distintas formas de presentacin

o Crear una lista de las cualidades personales de los alumnos del grupo y compararlas con
las que se requieren para ser una analista o ingeniero en sistemas

o Utilizar el programa Microsoft Excel para las presentaciones de datos y para calcular las
medidas que describen al conjunto de datos

























47

Capitulo 2

Probabilidad basica


Espacio muestral

Los estadsticos utilizan la palabra experimento para describir cualquier proceso que genere un
conjunto de datos, o bien algn fenmeno que interesa observar; cada realizacin del mismo es
un ensayo. El experimento aleatorio es aquel que genera diferentes resultados, an si se repite
en las mismas condiciones y en cualquier ocasin. En la mayor parte de los casos los resultados
dependern del azar, y por lo tanto no se pueden predecir con certeza.
Un ejemplo simple de experimento puede ser el lanzamiento al aire de una moneda. En este
experimento solo hay dos resultados posibles, cara o cruz.
El conjunto de todos los resultados posibles de un experimento estadstico se llama espacio
muestral, y se representa por el smbolo S.
Cada elemento en un espacio muestral se llama elemento o punto muestral. Si el espacio
muestral tiene un numero finito de elementos, podemos listarlos.

Ejemplo 2.1 Considere el experimento de lanzar un dado. Si nos interesamos en el nmero que
muestra la cara superior, el espacio muestral sera:
S = [1,2,3,4,5,6]

En algunos experimentos es til listar los elementos del espacio muestral de forma sistemtica
mediante un diagrama de rbol.
Es una herramienta de mucha utilidad cuando se quiere visualizar en forma grfica todos los
resultados posibles de un experimento.
Facilita el calculo de las probabilidades de eventos, ya sea intersecciones, uniones y
condicionales (ms adelante veremos su aplicacin al calculo de probabilidades).

Ejemplo 2.2 Suponga el experimento de lanzar la moneda al aire en dos ocasiones La
representacin grfica de dicho experimento con todos sus resultados, la visualizamos en la figura
2.1 por medio del siguiente diagrama de rbol,

Punto muestral


C CC


C

S CS



C SC

S
S SC


Fig.2.1. Diagrama de rbol
48


Ejemplo 2.3 Se seleccionan tres artculos de forma aleatoria de un proceso de fabricacin. Cada
artculo se inspecciona y se clasifica como defectuoso (D) o sin defectos (N), para listar los
elementos del espacio muestral construimos el diagrama de rbol que muestra la fig. 2.2

Punto muestral

D DDD
D
N DDN

D D DND

N
N DNN

D NDD
D
N NDN

N D NND

N
N NNN


Fig. 2.2. Diagrama de rbol

Hay situaciones en las cuales, listar el numero de puntos muestrales, por medio de un diagrama
de rbol, se hace prcticamente imposible, por ser muy grande la cantidad de puntos muestrales
de un experimento. En esas situaciones se recurre a tcnicas de conteo, que desarrollaremos
posteriormente.


Eventos

Para cualquier experimento dado podemos estar interesados en la ocurrencia de ciertos eventos
mas que en el resultado de un elemento especfico en el espacio muestral. Nos podra interesar,
en el ejemplo 2.3, en el evento A de que el nmero de defectuosos sea mayor que uno. Esto
ocurrira si el resultado es un elemento del subconjunto del espacio muestral

A = [DDN, DND, NDD, DDD]

- Un evento es un subconjunto de un espacio muestral.

- El complemento de un evento A con respecto al espacio muestral S es el subconjunto
de todos los elementos de S que no estn en A y se denota mediante el smbolo A.

Ejemplo 2.4 .Considrese el espacio muestral

S = [libro, mquina, ingeniero]

Sea A = [libro, mquina]

Entonces A = [ingeniero]


49

- La interseccin de dos eventos A y B denotados mediante el smbolo A B es el
evento que contiene a todos los elementos que son comunes a A y a B

Ejemplo 2.5. Suponga que P es el evento que una persona seleccionada al azar mientras asiste
a una conferencia sea profesional, y M el evento de que la persona tenga ms de 30 aos edad.
Entonces el l evento P M es el conjunto de todos los profesionales en la conferencia que tienen
ms de 30 aos de edad.

- Dos eventos A y B son mutuamente excluyentes si A B = C es decir si A y B no
tienen elementos en comn, la aparicin de un evento excluye totalmente el otro.

Ejemplo 2.6. Sea E el evento que la carta es de espada y C el evento que la carta es de copar.
Por lo tanto, la interseccin E C = C ya que la carta es de espada o es de copa. Por lo tanto
son eventos mutuamente excluyentes,

- La unin de dos eventos A y B, que se denota mediante el smbolo A B, es el evento
que contiene todos los elementos que pertenecen a A o a B o a ambos

Ejemplo 2.7. Sea B el evento que un empleado beba alguna bebida gaseosa. Sea F el evento
que un empleado fume cigarrillos. Entonces el evento B F es el conjunto de todos los
empleados que beban o fumen o ambas cosas.


Probabilidad de un evento

Seguramente los juegos de azar fue uno de los motivos que condujo al desarrollo temprano de la
teora de la probabilidad. Teora que abarca mucho ms all de los juegos de azar, ya que, en la
actualidad se la utiliza en la poltica, negocios, prediccin del clima y la investigacin cientfica,
entre otras tematicas.

Qu queremos decir cuando hacemos afirmaciones como ....probablemente apruebe el final, o
....tiene un cincuenta por ciento de posibilidades. En cada caso expresamos un resultado del cual
no estamos seguro, pero debido a la informacin del pasado o a partir de una comprensin de la
estructura del experimento, tenemos algn grado de confianza en la validez de la afirmacin.
La probabilidad de la ocurrencia de un evento que resulta de un experimento estadstico se evala
por medio de un conjunto de nmeros reales denominados pesos o probabilidades que van de 0 a
1. Para todo punto en el espacio muestral asignamos una probabilidad tal que la suma de todas
las probabilidades es 1.
Si tenemos razn para creer que es bastante probable que ocurra cierto punto muestral la
probabilidad que se le asigne debe ser cercana a 1. Por otro lado, una probabilidad cercana a 0
indica que ese punto muestral es poco probable que suceda.

Ejemplo 2.8. Se lanza dos veces una moneda cul es la probabilidad que ocurra al menos una
cara?

El espacio muestral para este experimento es:
S = [CC, CS, SC, SS)
50

Si la moneda est balanceada cada uno de estos resultados tendr la misma probabilidad de
ocurrir. Designando como A al evento que se d por lo menos una cara, entonces:
A = [CC, CS, SC] y P(A) = +
4
1
+
4
1
4
1
= 0,75

Aprovecharemos el ejemplo para mostrar el experimento y las probabilidades con un diagrama de
rbol

Punto muestral


C CC
0,5

C
0,5
S CS
0,5


C SC
0,5
0,5
S
0,5
S SS




Fig. 2.3. Diagrama de rbol

Observe que hay 3 puntos muestrales de cuatro posibles en que hay como mnimo una cara. De
all la probabilidad del evento A es:
P(A) =
4
3
= 0,75

Ejemplo 2.9 Si queremos determinar la probabilidad de que la moneda salga cara en ambas
ocasiones
P (C
1
C
2
) = P(C
1
) P(C
2
/C
1
)

P (C
1
C
2
) = 0,5 x 0,5 = 0,25 en el rbol sera el producto de
la rama superior

Ejemplo 2.10 Si pretendemos determinar la probabilidad de que la moneda salga cara en la
segunda ocasin ya que sali cara en la primera, tenemos
P(C
2
/C
1
) =
) (
) (
1
2 1
C P
C C P

P(C
2
/C
1
) =
5 , 0
5 , 0 5 , 0 x
= 0,5

El numerador de la formula se calcula con el producto de la rama superior y el denominador P(C
1
)
se calcula con la cantidad de casos favorables al evento cara en la primera tirada (dos casos en
cuatro posibles)


51

Ejemplo 2.11 Si queremos determinar la probabilidad de que la moneda salga cara en ambas
ocasiones
P (C
1
C
2
) = P(C
1
) P(C
2
/C
1
)
P (C
1
C
2
) = 0,5 x 0,5 = 0,25 en el rbol sera el producto de
la rama superior

Ejemplo 2.12 Si pretendemos determinar la probabilidad de que la moneda salga cara en la
segunda ocasin ya que sali cara en la primera, tenemos
P(C
2
/C
1
) =
) (
) (
1
2 1
C P
C C P

P(C
2
/C
1
) =
5 , 0
5 , 0 5 , 0 x
= 0,5

El numerador de la formula se calcula con el producto de la rama superior y el denominador P(C
1
)
se calcula con la cantidad de casos favorables al evento cara en la primera tirada (dos casos en
cuatro posibles)

La probabilidad de un evento A es la suma de los pesos de todos los puntos muestrales en A. Por
lo tanto
0 s P(A) s 1 ; P(C) = 0 y P(S) = 1

Recuerde que la probabilidad de un evento es un valor numrico que vara entre 0 y 1

Si un experimento puede tener como resultado cualquiera de N resultados igualmente probables, y
s exactamente n de esos resultados corresponden al evento A, entonces, la probabilidad del
evento A es:
P(A) =
N
n


Se conocen tres teoras de probabilidad:

o Teora clsica o principio de la razn insuficiente; en esta teora todos los eventos tiene la
misma probabilidad

Ejemplo 2.13 Se lanza una moneda al aire y se quiere saber Cul es la probabilidad que la
moneda salga cara? Cul es la probabildad de que la moneda salga sello?

P(C) = 0,50 P(S) = 0,50

o Teora de la frecuencia relativa en ciertas ocasiones todos los eventos no tienen la
misma probabilidad de ocurrir, o nos basamos en experimentos anteriores

Ejemplo 2.14 Se conoce por informacin anterior que una moneda se lanz en 100 ocasiones al
aire y resultaron 70 caras, luego se lanza una vez ms y se pretende saber Cul es la
probabilidad que la moneda salga cara? Cul es la probabilidad de que la moneda salga sello



52

Al contar con informacin de experimentos anteriores, utilizamos las frecuencias con que se dieron
ambos resultados. Por lo tanto:
P ( C ) = 0,70 P( S ) = 0,30

o Teora subjetiva : se hace uso de la intuicin, las creencias personales y otra informacin
indirecta para llegar a probabilidades

Ejemplo 2.15 Se conoce que la moneda no es legal y de los dos lados presenta cara. Entonces
por conocimiento:
P ( C ) = 1 P ( S ) = 0

En la mayor parte de este material de estudio nos basaremos en la teora de la frecuencia
relativa. La investigacin cientfica se fundamenta en el experimento estadstico y no en la
subjetividad.

Reglas de la adicin

Se aplica a uniones de eventos

Si A y B son cualesquiera dos eventos, entonces:

P (A B) = P /A) + P (B) P (A B)

En la teora de conjuntos lo representamos de esta forma





A A B B




Fig. 2.4. Regla aditiva de probabilidad

Ejemplo 2.16 La probabilidad de que un alumno apruebe Matemtica es 0,6 y la probabilidad de
que apruebe Ingls es 0.,4 . Si la probabilidad de aprobar ambas disciplinas es 0,20. Cul es la
probabilidad de que apruebe al menos una de las disciplinas?
P (M I ) = P (M) + P (I) P (M I)
P (M I ) = 0,60 + 0,40 0,20 = 0,80

De la formula general de probabilidad planteada arriba se deduce que:

Si A y B son dos eventos, mutuamente excluyentes:

P (A B) = P /A) + P (B)

53

Ejemplo 2.17 En un curso de admisin se encuentran 70 personas que viven en la ciudad y 30
personas que viven en el interior. Queremos saber la probabilidad de que si seleccionamos una
persona, la misma viva en el interior o en la ciudad

P (C I) = P /C) + P (I)
P (C I) = 0,70 + 0,30 = 1

Probabilidad condicional

En ciertas ocasiones se quiere saber la probabilidad de que ocurra cierto evento, pero contamos
con informacin de que ocurri algn otro evento..
La probabilidad de que un evento B ocurra cuando se sabe que ya ocurri algn evento A, se
llama probabilidad condicional y se denota P (B/A).
Por lo general se lee. probabilidad de B dado que ocurri A

La probabilidad condicional de B dado A se define como:
P(B/A) =
) (
) (
A P
B A P
Si P(A) > 0

Ejemplo 2.14 La probabilidad de que un barco salga a tiempo es P(S) = 0,80; la probabilidad de
que llegue a tiempo es P(L) = 0,70 ; y la probabilidad de que salga y llegue a tiempo es P (S L)
= 0,60. Encuentre la probabilidad de que un barco llegue a tiempo, dado que sali a tiempo

P(L/S) =
) (
) (
S P
S L P

P(L/S) =
80 , 0
60 , 0
= 0,75
La probabilidad condicional proporciona la capacidad de reevaluar la idea de probabilidad de un
evento a la luz de informacin adicional, es decir cuando se sabe que ocurri otro evento.

Eventos independietnes

La probabilidad condicional nos permite comprender el concepto de independencia, o en el
contexto actual, el de eventos independientes.
Cuando la ocurrencia de B no tiene impacto en las probabilidades de ocurrencia de A, quiere
decir, que la ocurrencia del evento A es independiente de la ocurrencia del evento B.
El concepto de independencia, juega un papel muy importante en todas las reas de la
estadstica aplicada.

Dos eventos A y B son independientes s y slo s

P(B/A) = P(B) y P(A/B) = P(A)

De otra forma A y B son dependientes


54

Ejemplo 2.18 La probabilidad que una persona sea contadora es P(C) = 0,40 si seleccionamos
una persona, sabemos que la persona seleccionada, fue bachiller (B) y queremos determinar la
probabilidad de que sea contadora. Entonces:

P(C/B) = P (C) = 0,40

En este caso los eventos C y B son independientes, es decir que la persona haya sido bachiller
no tiene impacto en que la persona sea contadora

Reglas de la multiplicacin

La regla multiplicativa es importante ya que nos permite calcular las probabilidades de que se den
dos ms eventos en forma conjunta o simultanea.
Si en un experimento pueden ocurrir los eventos A y B entonces:

P (A B) = P(A) P(B/A)

Es de destacar que (A B) es equivalente a (B A)

Ejemplo 2.19 Suponga que tenemos una caja que contiene 20 transistores de los cuales 5 estn
defectuosos. Si se seleccionan dos transistores al azar, primero se saca uno, no se repone en la
caja y luego se saca el otro, a este procedimiento se lo conoce como muestreo sin reposicin
MSR. Se quiere determinar la probabilidad de que ambos sean defectuosos.

P (D
1
D
2
) = P(D
1
) P(D
2
/D
1
)
(D
1
D
2
) =
20
5
19
4
= 0,05

La formula desarrollada arriba, se aplica para eventos dependientes, ya que al tratarse de MSR
al conocerse un evento afecta o impacta en las probabilidades de los restantes eventos.
En el caso de tratarse de muestre con reposicin MCR los eventos son independientes y
tenemos:
Dos eventos A y B son independientes si y solo si
P (A B) = P(A) P(B)

Ejemplo 2.20 Suponga que tenemos la caja que contiene 20 transistores de los cuales 5 estn
defectuosos. Si se seleccionan dos transistores al azar, primero se saca uno, se lo repone en la
caja y luego se saca otro (este procedimiento se lo conoce como muestreo con reposicin
MCR). Se quiere determinar la probabilidad de que ambos sean defectuosos.
P (D
1
D
2
) = P(D
1
) P(D
2
)
(D
1
D
2
) =
20
5
20
5
= 0,06

Regla de bayes

La probabilidad condicional toma en cuenta la informacin en cuanto a la ocurrencia de un
evento, para predecir la probabilidad de otro evento. Este concepto se puede ampliar para la
55

revisin de las probabilidades basadas en nueva informacin y para determinar la probabilidad de
que un evento particular se debi a una causa especifica.

La regla de Bayes es:
P(Bi/A) = ) / ( ) ( ......... ) / ( ) ( ) / ( ) (
) / ( ) (
2 2 1 1 k k
i i
B A P B P B A P B P B A P B P
B A P B P
+ + +
en donde Bi es el i-esimo evento de k eventos mutuamente exclusivos

Ejemplo 2.21 Tres industrias suministran microprocesadores a una fabrica de automviles. La
automotriz ha probado en el ltimo ao los microprocesadores y registr la informacin que se
muestra en la tabla 2.1
Proveedor % de defectuosos % suministrado
1 2 15
2 1 80
3 3 5
Tabla 2.1. Tabla de contingencia o clasificacin cruzada

El director de produccin de la automotriz selecciona un microprocesador y encuentra que est
defectuoso (D). Se pretende determinar la probabilidad que provenga del proveedor 3- (P
3)

P(P
3
/D) =
) 03 , 0 )( 05 , 0 ( ) 01 , 0 )( 80 , 0 ( ) 02 , 0 )( 15 , 0 (
) 03 , 0 )( 05 . 0 (
+ +


P(P
3
/D) = 0,12

Tabla de contingencia

Una tabla de contingencia o de clasificacin cruzada, es muy til para el clculo de
probabilidades.
Se puede decir que es una matriz de tantas filas y tantas columnas como eventos se identifiquen
en el experimento.


Eventos C D Total
A
B
Total Total





Eventos mutuamente excluyentes del experimento
(C , D) y rtulo de total
Eventos mutuamente excluyentes del experimento
(A , B) y rtulo de total
En las celdas centrales se ubican las intersecciones
de los eventos del experimento (A y C), (A y D),
(B y C), (B y D)
En las celdas de los mrgenes se ubican los totales
de cada evento, con ellos se calculan
probabilidades marginales : P(A), P(B), P(C ) P(D)
56

Tcnicas de conteo

Con frecuencia nos interesamos en un espacio muestral que contiene como elementos a todas las
posibles ordenaciones o arreglos de un grupo de objetos. Estos diferentes arreglos se llaman
permutaciones.

Una permutacin es un arreglo de todo o parte de un conjunto de objetos

El nmero de permutaciones de n objetos distintos es:


n
P
n
= n! Recordemos que n! = n (n-1) (n-2).....(1)

Ejemplo 2.22 Suponga que hemos comprado 5 libros y tenemos que ordenarlos en una pequea
biblioteca que tiene lugar para cinco libros.

El nmero de formas posibles sera:
5
P
5
= 5!

5
P
5
= (5)x(4)x(3)x(2)x(1)

5
P
5
= 120

El nmero de permutaciones de n objetos distintos tomados de r a la vez es:

n
P
r
=
)! (
!
r n
n



Ejemplo 2.23 Suponga que compramos 5 libros, tenemos que ordenarlos en una pequea
biblioteca que slo tiene lugar para tres de ellos.

El nmero de formas posibles sera:

5
P
3
=
)! 3 5 (
! 5


5
P
3
=
2
120


5
P
3
= 60

El nmero de permutaciones distintas de n objetos de las que n1 son de una clase, n2 de una
segunda clase,..,nk de una k-esima clase es:

! !.. !
!
2 1 k
n n n
n


Ejemplo 2.24 En caso de comprar un juego de luces con 9 portalamparas, 3 focos de color rojo, 4
amarillos y 2 azules. El nmero total de arreglos es:

! 2 ! 4 ! 3
! 9
1

= 1260

En muchos problemas nos interesa el nmero de formas de seleccionar r objetos de n objetos sin
importar el orden. Estas selecciones se llaman combinaciones

57


El nmero de combinaciones de n objetos distintos tomados de r a la vez es:

n
C
r
=
)! ( !
!
r n r
n



Ejemplo 2.25 En cierta empresa tenemos 5 personas de alta formacin para ocupar 3 gerencias
diferentes. El nmero de combinaciones posible sera:

6
C
3
=
)! 3 5 ( ! 3
! 5


6
C
3
= 10










































58

Resumen

La probabilidad de un evento se define como los casos favorables al evento sobre los casos
posibles. Los eventos pueden ser mutuamente excluyentes y no mutuamente excluyentes
Estos, tambin pueden ser independientes y dependientes.
Existen tres teoras de probabilidad: clsica, frecuencial, y subjetiva.
Las reglas de la adicin se utilizan para calcular probabilidades de uniones de eventos. Las
reglas de la multiplicacin, para calcular probabilidades conjuntas. Las probabilidades
condicionales son probabilidades de un evento dado que ocurri otro evento.
Los diagramas de rboles y las tablas de contingencias son herramientas para identificar todos
los resultados posibles del experimento. Cuando estos son demasiados, se utilizan tcnicas de
conteo, como las permutaciones y las combinaciones.








































59

Ejercicios

2.1 Durante cierto mes del ao se estima que la probabilidad que el precio de una pieza
especifica para autopartes: aumente (A), permanezca sin cambios (S) o se reduzca (R)
es de 0.30 , 0.20 y 0.50, respectivamente.

a. Cul es la probabilidad que la pieza aumente o permanezca sin cambios?
b. Cul es la probabilidad que la pieza cambie de precio?

2.2 Si A y B son mutuamente excluyentes, P(A) = 0.29 P(B) = 0.43 , Calcule:

a. P(AUB)
b. P(AB)
c. P(A/B).

2.3 Si P(A) = 0.35 P(B) = 0.73 y P(AB) = 0.14 Calcule:

a. P(AUB)
b. P(AB)
c. P(A/B)
d. P(B/A)

2.4 De 500 empleados de una fabrica, 200 participan de un plan de capacitacin de
calidad, 400 en un plan de capacitacin en Informtica, y 200 participan en ambos
programas.

a. 0Cul es la probabilidad de que un empleado elegido al azar participe como
mnimo en uno de los dos programas?
b. Qu no participe en ninguno de los dos programas?

2.5 De 100 personas que presentaron solicitud para un puesto tcnico, 40 tenan alguna
experiencia en el puesto (E) y 30 eran profesionales (P). Sin embargo 20 de los
solicitantes tenan experiencia y eran profesionales.

a. Cul es la probabilidad de que un solicitante sea profesional o tenga experiencia?
b. Cul es la probabilidad de que el solicitante tenga experiencia
o bien sea profesional, pero no ambas situaciones?.

2.6 Para el ejercicio anterior, determine:

a. La probabilidad de que un solicitante sea profesional, dado que
tiene alguna experiencia de trabajo
b. Aplique alguna prueba para determinar si tener experiencia y ser profesional son
eventos independientes.

2.7 En una empresa de la industria textil se encuentran: 5 operarios varones, 4
administrativos varones, 6 mujeres operarias, y 3 mujeres de administracin. Se elige
una persona al azar. Calcule:

a. Probabilidad que la persona sea operario o mujer
b. Probabilidad que la persona sea administrativo varn
c. Probabilidad que la persona sea administrativa y operaria
d. Probabilidad que la persona sea mujer, ya que es administrativa.

2.8 Se elige un proveedor al azar de una lista que contiene 7 proveedores nacionales y 3
proveedores del exterior. Luego se vuelve a repetir la operacin sin el proveedor
60

seleccionado. Cul es la probabilidad que en la segunda seleccin aparezca un
proveedor nacional?
2.9 Una empresa produce autos medianos y grandes. El 80 % de la produccin se exporta
y el 50 % de la produccin que se exporta y el 30 % de la produccin vendida en el
pas, corresponden a vehculos medianos. Si se toma una unidad

a. Cul es la probabilidad de que ese vehculo sea mediano y vaya al exterior?.
b. Cul es la probabilidad de que el vehculo sea grande?

2.10 En una empresa dedicada al diseo industrial el 40 % de las
personas que ocupan cargos jerrquicos son ingenieros y el porcentaje restante son
administradores de empresas. De los ingenieros el 60 % se gradu en universidades
pblicas y de los administradores de empresas el 30 % lo hizo en universidades
privadas. Si se toma a una persona cualquiera:

a. Cul es la probabilidad que sea ingeniero?
b. Cul es la probabilidad que sea administrador de empresa ya que curs en
una universidad privada?
c. Son independientes los eventos ingenieros y universidad pblica?

2.11 Entre 250 personas entrevistadas para un estudio de transporte, el 20 % viven a mas
de 5 km. de la ciudad, el 30 % de estas viene en auto, y tambin usan este medio el 40
% de las que viven en la ciudad. Calcule:

a. Probabilidades marginales
b. Probabilidades condicionales
c. Probabilidades conjuntas

2.12 Una empresa alquila autos para sus ejecutivos de tres agencias:
20 % de la Agencia A , 20 % de la agencia B , y 60 % de la agencia C. Si el 10 % de
los autos de la agencia A, 12 % de la agencia B, y 4 % de los autos de la agencia C
tienen neumticos en mal estado. Cul es la probabilidad de que un auto con
neumtico en mal estado rentado por la empresa provenga de la agencia C.

2.13 Si las probabilidades de que cierto proyectil estalle durante el
despegue o de que sufra una falla su sistema de direccin en
pleno vuelo son 0.0002 y 0.0005 respectivamente, encuntrese
las probabilidades de que el proyectil:

a. No estalle durante el despegue
b. Estalle durante el despegue o su sistema de direccin sufra
una falla en pleno vuelo.
c. No explote durante el despegue ni su sistema de direccin
sufra una falla en pleno vuelo.

2.14 En una cierta universidad el 20 % de los hombres y el 1 % de las mujeres trabajan.
Asimismo, el 40 % de los estudiantes son mujeres. Si se selecciona un estudiante al azar
y se observa que trabaja Cul es la probabilidad de que sea mujer?.

2.15 En un centro de maquinaria hay cuatros maquinas automticas que producen tornillos.
Un anlisis de los registros de inspeccin anterior produce los siguientes datos:

Maquina % de produccin % de defectuosos
1 15 4
2 30 3
3 20 5
4 35 2
Tabla 2.2
61


Las maquinas 2 y 4 son mas nuevas y se les ha asignado ms produccin que a las
mquinas 1 y 3. Suponga que los inventarios reflejan los porcentajes de produccin
indicados.

a. Si se elige un tornillo al azar cul es la probabilidad de que est
defectuoso?
b. Si se elige un tornillo y se encuentra que est defectuoso cul
es la probabilidad de que se haya producido en la maquina 3?

2.16 Van a asignarse asientos contiguos en una conferencia para ejecutivos
a las 7 personas que constituyen la alta administracin de una
empresa textil. Determine:

a. El nmero de arreglos distintos de asientos que son
posibles para las 7 personas.
b. Suponga que solo tres de los siete funcionarios sern invitados
a representar a la compaa en la conferencia cuntos arreglos
distintos son posibles, considerando que pueden asistir tres
cualesquiera de las siete personas?

2.17 Un representante de ventas debe visitar 10 ciudades en un
viaje:

a. Si existen 10 ciudades en el rea geogrfica que va
a visitar,cuntas agrupaciones distintas de seis ciudades
existen que es posible visitar
b. Suponga que existen 10 ciudades en el rea geogrfica que
va a visitar y que, adems, tambin importa la secuencia en
la que tiene programado hacer esas visitas cuntas
secuencias distintas existen de seis ciudades escogidas de
entre el total de 10?.
c. Suponga que se han designado las seis ciudades que se visitarn, pero no se
ha designado la secuencia en la que se harn las visitas cuntas secuencias
son posibles para las seis ciudades designadas?

2.18 De las 10 ciudades del ejercicio 2.17 suponga que en realidad 6 de ellas son mercados
primarios para el producto en cuestin, mientras que las otras cuatro constituyen
mercado secundario. Si el vendedor elige en forma aleatoria las seis ciudades que va a
visitar, cul es la probabilidad de que:

a. Cuatro de ellas resulten ser mercados primarios y dos de
ellas mercados secundarios?.
b. Resulte que las seis son mercado primario?

2.19 Un grupo asignado a un proyecto est formado por dos ingenieros industriales y tres
tcnicos y debe ser conformado a partir de una planta departamental que incluye cinco
ingenieros y nueve tcnicos. Cuntos grupos de proyectos distintos pueden formarse a
partir de las 14 personas disponibles?

2.20 Para la situacin de personal del ejercicio 2.19, suponga que se asigna a las cinco
personas al azar, de entre las 14 personas disponibles en el departamento, sin importar
si es ingeniero o tcnico cul es la probabilidad de que el grupo de proyecto incluya:

a. Exactamente dos ingenieros
b. Ningn ingeniero
c. Ningn tcnico

62

Respuestas

2.1 a) 0,50 b) 0,80

2.2 a) 0,72 b) 0 c) 0

2.3 a) 0,94 b) 0,14 c) 0,19 d) 0,40

2.4 a)0,80 b) 0,20

2.5 a) 0,50 b) 0,30

2.6 a) 0,50 b) dependientes

2.7 a) 0,78 b) 0,22 c) 0 d) 0,428

2.8 a) MCR 0,70 b) MSR 0,77 o 0,66 segn caso

2.9 a) 0,40 b) 0,54

2.10 a) 0,40 b) 0,30 c) dependientes

2.11 a) 0,38 0,62 0,20 0,80 b) 0,15 0,84 0,22 0,77
0,7 0,3 0,4 0,6

c) 0,06 0,32 0,14 0,48

2.12 0,35

2.13 a) 0,9998 b) 0,0007 c) 0,9993

2.14 0,032

2.15 a) 0,14 b) 0,357

2.16 a) 5040 b) 210

2.17 a) 210 b) 151200 c) 720

2.18 a) 0,4285 b) 0,004

2.19 840

2.20 a) 0,4195 b) 0,062 c) 0,0004




63

Preguntas de revisin

Qu es una probabilidad?
Cmo se compone el espacio muestral?
Qu teoras de probabilidad conoce?
Cmo se clasifican los eventos?
Qu se entiende por eventos excluyentes y no excluyentes?
Para que se usa la regla de la adicin?
Qu significa la unin de dos eventos?
Qu es una probabilidad conjunta?
A qu se refiere la regla de la multiplicacin?
Qu se entiende por una probabilidad condicional?
Cundo se consideran independientes dos eventos?
Qu prueba se utiliza para probar la independencia de eventos?
Para qu se usan los diagramas de rbol?
Qu es una tabla de contingencia?
Dnde se ubican las probabilidades marginales en una tabla?
Cmo obtenemos probabilidades conjuntas en una tabla?
Para que se usan las permutaciones?
Qu significan las combinaciones?


Trminos claves


Espacio muestral Tablas de contingencias
Eventos Reglas de adicin
Probabilidad de eventos Probabilidad de unin
Eventos excluyentes Reglas de multiplicacin
Eventos no excluyentes Probabilidad conjunta
Eventos independientes Probabilidad condicional
Eventos dependientes Teorema de bayes
Teoras probabilsticas Probabilidad marginal
Teora clsica Tcnicas de conteo
Teora frecuencial Permutaciones
Teora subjetiva Combinaciones
Diagramas de rbol













64

Actividades


o Discutir en grupos las diferentes teoras de probabilidad

o Realizar el ensayo de lanzar una moneda al aire en varias ocasiones, para armar un rbol
con todos los resultados posibles

o Explorar las posibilidades de acomodar un grupo de alumnos en una cantidad mayor de
ubicaciones.

o Plantear problemas para saber diferenciar combinaciones y permutaciones

o Utilizar el programa Microsoft Excel para calcular probabilidades



































65

Capitulo 3

Variables aleatorias y
distribuciones de probabilidad



Variable aleatoria

La estadstica se ocupa de realizar inferencias acerca de poblaciones y sus caractersticas. Se
llevan a cabo experimentos cuyos resultados se encuentran sujetos al azar. A menudo es
importante asignar una descripcin numrica al resultado.

Una variable aleatoria es una funcin que asocia un nmero real con cada elemento del espacio
muestral, se puede decir que es un evento numrico que asume diferentes valores de acuerdo a
procesos aleatorios

Ejemplo 3.1 En el experimento de lanzar la moneda al aire en dos ocasiones, nos interesar el
nmero de caras de ese experimento. En la tabla 3.1 se muestra una tabla con los resultados
posibles y los valores que asume la variable aleatoria X.

Espacio muestral X
CC 2
CS 1
SC 1
SS 0
Tabla 3.1

Una variable aleatoria se llama variable aleatoria discreta si se puede contar su conjunto de
resultados posibles.
Cuando una variable aleatoria puede tomar valores en una escala continua, se la denomina
variable aleatoria continua, esos valores surgen de medirse como por ejemplo: distancias, peso,
etc.

Distribuciones discretas de probabilidad

Una variable aleatoria discreta toma cada uno de sus valores con cierta probabilidad.
Una distribucin de probabilidad o funcin de probabilidad es una lista con todos los valores
que puede asumir la variable aleatoria asociada con sus respectivas probabilidades. Es decir, que
es un conjunto de pares ordenados (x, f(x))
Se debe tener en cuenta que:


66

F(x) > 0
f(x) = 1
P(X = x
i
) = f(x)
Es importante destacar que a la funcin de probabilidad de una variable aleatoria discreta, tambin
se la conoce como funcin de cuanta

Ejemplo 3.2 Si una persona saca al azar dos productos de dos maquinas diferentes y si
consideramos a los productos como defectuosos (D) y no defectuosos (N). Sea x una variable
aleatoria cuyos valores son los nmeros posibles de productos defectuosos. Entonces la
distribucin de probabilidad de la variable x es la que se muestra en la tabla 3.2:
X f(x)
0 0,25
1 0,50
2 0,25
Tabla 3.2
Hay situaciones donde deseamos calcular la probabilidad de que el valor observado de una
variable aleatoria x sea menor o igual que algn nmero real x, para ello utilizamos la distribucin
acumulada
La distribucin acumulada F(x) de una variable aleatoria discreta x con distribucin de
probabilidad f(x) es:
F(x) = P (X s x) = f(x)

Ejemplo 3.3 Para el experimento del ejemplo anterior, la distribucin acumulada de la variable
aleatoria x es:

X f(x) F(x)
0 0,25 0,25
1 0,50 0,75
2 0,25 1
Tabla 3.3
Podemos observar que por ejemplo la probabilidad de encontrar no ms de un producto
defectuoso es 0,75

Esperanza matemtica

La esperanza matemtica es la media de la variable aleatoria x o la media de la distribucin de
probabilidad de x, Es un valor promedio esperado.

Sea x una variable aleatoria discreta con distribucin de probabilidad f(x). La media o valor
esperado de x es:
E(x) =

) (x xf
Ejemplo 3.4. Suponga que el nmero de autos x que vende cierta concesionaria en 30 das,
tiene la siguiente distribucin de probabilidad:




67

N Autos (x) f(x)
0 0,10
1 0,20
2 0,40
3 0.20
4 0,10
Tabla 3.4

E(x) =

) (x xf
E(x) = 0 x 0,10 + 1 x 0,20 + 2 x 0,40 + 3 x 0,20 + 4 x 0,10
E(x) = 2 , esto significa que son dos los autos que esperamos venda la concesionaria


Varianza

Esta medida nos caracteriza la variabilidad de la distribucin

Sea x una variable aleatoria discreta con distribucin de probabilidad f(x) y media E(x)., la
varianza de x es:
V(x) = x
2
f(x) [ E(x) }
2


Ejemplo 3.5. Para calcular la varianza del ejemplo 3.4 sobre la variable cantidad autos,
aplicamos:

V(x) = x
2
f(x) [ E(x) }
2


Nro. Autos (x) f(x) x f(x) x
2
f(x)
0 0,10 0 0
1 0,20 0,20 0,20
2 0,40 0,80 1,60
3 0.20 0,60 1,80
4 0,10 0,40 1,60
2 5,20
Tabla 3.5

V(x) = 5,20) 4
V(x) = 1,20


Distribucin binomial

Un experimento a menudo consiste en pruebas repetidas cada una con dos posibles resultados
que llamamos xito y fracaso. Como el experimento se repite, los ensayos son independientes y
la probabilidad de xito permanece constante entre cada uno de ellos. Este proceso, se denomina
proceso de Bernouille

68

El proceso de Bernoulli presenta las siguientes propiedades:

El experimento consiste en n pruebas que se repiten
La poblacin es dicotmica, hay dos resultados mutuamente excluyentes
Cada prueba produce un resultado que se puede clasificar como xito o fracaso.
La probabilidad de un xito, que se denota con p, permanece constante en cada prueba.
Las pruebas que se repiten son independientes
La variable aleatoria binomial x, es discreta y puede asumir valores que van desde 0 a n


El nmero x de xitos en n experimentos Bernouille se denomina variable aleatoria binomial. La
distribucin de probabilidad de esta variable aleatoria discreta se llama distribucin binomial.

La funcin de probabilidad es:
f(x) =
n
C
x
P
x
(1-P)
n-x

Ejemplo 3.6 En cierta poblacin la proporcin de personas que veranean en las costas argentinas
es de 0,40. Se seleccionan al azar cinco personas.. La probabilidad de que dos personas
veraneen en las costas argentinas es:

f(x) = P (X=2) =
5
C
2
0,40
2
0,60
3

= 10 x 0,16 x 0,216
= 0,3456

Para encontrar probabilidades de tipo puntual, como la anterior, podemos trabajar con la tabla de
la distribucin binomial, en ella debemos ingresar con los siguientes parmetros (n, p, x)
La distribucin binomial se la utiliza en pequeas muestras, por lo tanto la tabla tiene hasta un
tamao de muestra n=20.

En lo que respeta a P, la proporcin de xitos, en la tabla figura como tope un P=0,50

Aplicacin con tabla:

P(X=2; n=5 ; P = 0,40) = 0,3456
P
n X 0,10 0,20 0,30 0,40 0,50
. . . . . . .
. . . . . . .
5 0
0,5905 0,3277 0,1681 0,0778 0,0313
1
0,3281 0,4096 0,3602 0,2592 0,1563
2
0,0729 0,2048 0,3087 0,3456 0,3125
3
0,0081 0,0512 0,1323 0,2304 0,3125
4
0,0005 0,0064 0,0284 0,0768 0,1563
5
0,0000 0,0003 0,0024 0,0102 0,0313
Tabla 3.6 Tabla distribucin binomial

En la primera columna ubicamos n=5
En la siguiente columna buscamos el valor de x=2

69

Por ltimo ubicamos p = 0,40
En la interseccin de esas entradas, est la probabilidad 0,3456

Ejemplo 3.7 Suponga que con los datos del ejemplo anterior deseamos encontrar la distribucin
de probabilidad de la variable x, cantidad de personas que veranean en la costa Argentina
La distribucin de probabilidad es:
X f(x)
0 0,07776
1 0,2592
2 0,3456
3 0,2304
4 0,0768
5 0,01024
Tabla 3.7
La funcin de acumulacin es:
F(x) =

=
x
i 0
n
C
x
P
x
(1-P)
n-x


Ejemplo 3.8 Para encontrar probabilidades acumuladas, como la probabilidad de encontrar
cuatro o menos personas que veraneen en las costas argentinas, se utiliza la funcin de
acumulacin F(x)
F(x) =

=
4
0 i
n
C
x
P
x
(1-P)
n-x

X f(x) F(x)
0 0,07776 0,07776
1 0,2592 0,33696
2 0,3456 0,68256
3 0,2304 0,91296
4 0,0768 0,98976
5 0,01024 1
Tabla 3.8
F(X) = P(x s 4) = 0,98976


La esperanza matemtica y la varianza de esta distribucin son:

E(x) = n p

V(x) = n p (1-p)

Ejemplo 3.9 Suponga que deseamos saber cual es el valor esperado de personas y la
variabilidad de personas

E(x) = n p
= 5 x 0,40
= 2


70

V(x) = n p (1-p)
= 5 x 0,40 x 0,60
= 1,2

reas de aplicacin

La distribucin binomial encuentra aplicaciones en muchos campos cientficos. Un ingeniero
industrial se preocupa por los defectuosos de un proceso industrial, las mediciones de control de
calidad y los planes de muestreo se basan en esta distribucin. Tambin se la utiliza en
aplicaciones mdicas, farmacuticas y militares.


Distribucin hipergeomtrica

Las aplicaciones de la distribucin hipergeomtrica son muy parecidas a las de la distribucin
binomial, pero se diferencia de sta, fundamentalmente en la forma que se toma la muestra,
En la distribucin hipergeomtrica interesa el nmero de observaciones que pertenecen a una
categora particular, pero no se requiere independencia en los ensayos y se basa en el muestreo
sin reemplazo o sin reposicin
Las aplicaciones de la distribucin hipergeomtrica se encuentran en muchas reas, con mucho
uso en muestreo de aceptacin, pruebas electrnicas y de calidad. En muchas ocasiones el
articulo se destruye, por lo tanto, no se lo puede reemplazar en la muestra. Las caractersticas de
sta distribucin son:

Se selecciona sin reemplazo una muestra aleatoria de tamao n de una poblacin de N
artculos
k de los N artculos se pueden clasificar como xitos y N-k se clasifican como fracasos.
La variable aleatoria hipergeomtrica x puede asumir valores que van desde 0 a n. En
caso de que k sea menor a n, la variable x puede asumir valores hasta k
En el caso que el tamao de la muestra represente mas de un 5 % respecto de la
poblacin en estudio, es aplicable el modelo hipergeomtrico

El nmero x de xitos de un experimento hipergeomtrico se denomina variable aleatoria
hipergeomtrica. La distribucin de probabilidad de la variable hipergeomtrica se llama
distribucin hipergeomtrica.

La distribucin de probabilidad de la variable aleatoria hipergeomtrica x, el nmero de exitos
en una muestra aleatoria de tamao n que se selecciona de una poblacin de N artculos de los
que k se denominan xito y N-k fracaso, es:

P(X=x
i
) =
) (
) )( (
n N
x n k N x k
C
C C


Ejemplo 3.11 Suponga que deseamos conocer la distribucin de probabilidad de la variable
aleatoria hipergeomtrica, nmero de artculos defectuosos.

71

La distribucin de probabilidad de la variable x, es encontrar todos los valores que puede asumir x
con sus respectivas probabilidades, como muestra la tabla 3.9

X f(x)
0 0,5665
1 0,3694
2 0,0615
3 0,0024
Tabla 3.9

Observe que x puede asumir hasta el valor tres, ya que est limitado por el valor k=3

Ejemplo 3.10 Un lote contiene 30 piezas, de las cuales 3 son defectuosas. Se toma una muestra
de 5 piezas y se pretende determinar la probabilidad de encontrar en la muestra exactamente una
pieza defectuosa
P(X=1) =
) (
) )( (
5 30
1 5 3 30 1 3
C
C C


P(X=1) = 0,3694

La funcin de acumulacin es:
F(x) = =
=
n
i 0

) (
) )( (
n N
x n k N x k
C
C C


Ejemplo 3.12 Para conocer probabilidades acumuladas, como la probabilidad de encontrar
menos de tres defectuosos, acudimos a la funcin de acumulacin
F(x) = =
=
2
0 i

) (
) )( (
n N
x n k N x k
C
C C


X f(x) F(x)
0 0,5665 0,5665
1 0,3694 0,9359
2 0,0615 0,9974
3 0,0024 1
Tabla 3.10
P(X<3) = P (Xs2) = 0,9974


La esperanza matemtica y la varianza de esta distribucin son:

E(x) = n P , P =
N
K

V(x) = n P (1-P) (
1

N
n N
)

72



Ejemplo 3.13 Para encontrar la media y la varianza de ejemplo 3.10:
E(x) = 5 x 0,10 , P =
30
3

= 0,5

V(x) = 3 x 0,10 x 0,90 x (
1 30
5 30

)
= 0,2327


Distribucin poisson

Los experimentos que dan valores numricos de una variable aleatoria x, el nmero de resultados
que ocurren durante un intervalo dado se llama experimento de Poisson. Este intervalo puede
ser de cualquier longitud, un minuto, un da, etc.
El proceso de Poisson tiene las siguientes caractersticas:

El nmero de resultados que ocurren en un intervalo es independiente del nmero que
ocurre en cualquier otro intervalo.
La probabilidad de que ocurra un xito es demasiado pequea, genralmente menores a
0,05.

El nmero x de resultados que ocurren durante un experimento de Poisson se denomina variable
aleatoria de Poisson, y su distribucin de probabilidad se llama distribucin de Poisson

La funcin de probabilidad es:
f(x) = ( e
-

x
)
x !

Ejemplo 3.14 El nmero promedio de camiones que llega cada da, a cierto centro de
almacenamiento es 10. El centro puede atender como mximo a 15 camiones por da Cul es la
probabilidad de que el prximo da lleguen 5 camiones?

P(x=5) ; =10

f(x) = ( e
-10
10
5
)
5 !

= 0,0378

Para hallar probabilidades de tipo puntual, como la encontrada, podemos trabajar con la tabla de
la distribucin Poisson, en ella debemos ingresar con el parmetro
La tabla de la distribucin de Poisson suele tener hasta un valor de = 20


73


Aplicacin con tabla:
P(X=5; =10) = 0,0378

X . . .9,8 9,9 10 .
0
. . . .
0,0000
.
1
. . . .
0,0005
.
2 . . . . 0,0023 .
3 . . . . 0,0076 .
4 . . . . 0,0189 .
5 . . . . 0,0378 .
6 . . . . 0,0631 .
. . . . . . .
..
. . . . .
.
Tabla 3.11 Tabla distribucin poisson

En la primera fila ubicamos =10
En la primea columna X=5
En la interseccin de esas entradas, est la probabilidad 0,0378

La funcin de acumulacin es:
F(x) =

=0 i
( e
-

x
)
X !

Ejemplo 3.15 Respecto del ejemplo anterior Cul sera la probabilidad de que en un da dado
los camiones se tengan que regresar?

P(x>15) ; =10

= 1 P(x s 15)

= 1 -

=
15
0 i
( e
-

x
)
X !

= 1 - 09513

= 0,0487

La esperanza matemtica y la varianza de esta distribucin es la misma, ya que tiene un nico
parmetro:
= np
E(x) =

V(x) =

x
74

Ejemplo 3.16 La probabilidad de que una persona muera de cierta enfermedad respiratoria es
0,002., si se selecciona una muestra de 2000 personas, Cul es la cantidad esperada de
personas que mueran de esa enfermedad? Cul la variacin?

E(x) = 2000 x 0,002
= 4
V(x) = 2000 x 0,002
= 4

Distribuciones continuas de probabilidad

Una variable aleatoria continua tiene una probabilidad cero de tomar exactamente cualquiera de
sus valores, en consecuencia no se puede representar su distribucin de probabilidad mediante
una tabla
Al tratar con variables continuas, f(x) por lo general se llama funcin de densidad de
probabilidad o funcin de densidad de x

La funcin f(x) es una funcin de densidad de probabilidad para la variable aleatoria x definida
en el conjunto de nmeros reales R, si:

f(x) > 0 para todo x e R

}


=1 ) ( ) ( x d x f
P(a < x < b) =
}
b
a
x d x f ) ( ) (

Una funcin de densidad se representa grficamente en la figura 3.1









Figura 3.1

La distribucin acumulada F(x) de una variable aleatoria continua x con funcin de densidad f(x)
es:
F(x) = P(X < x) =
}

x
x d x f ) ( ) (





f(x)
a b
b b
75

Esperanza matemtica

Sea x una variable aleatoria continua con distribucin de probabilidad f(x). La media o valor
esperado de x es:
E(x) =
}


) ( ) ( . x d x f x

Varianza

Sea x una variable aleatoria continua con distribucin de probabilidad f(x) y media E(x), la
varianza de x es:
V(x) =
2 2
)] ( [ ) ( ) ( . x E x d x f x
}





Distribucin normal

La distribucin normal es la distribucin continua ms importante en todo el campo de la
estadstica
Muchos fenmenos que ocurren en la industria, en la investigacin, en la naturaleza se describen
mediante sta distribucin que tiene una grfica en forma de campana y se llama curva normal.
La inferencia estadstica se basa en la distribucin normal

Una variable aleatoria continua x que tiene la distribucin en forma de campana como se observa
en la figura 3.2 y se llama variable aleatoria normal.



Figura 3.2

La ecuacin matemtica para la distribucin de probabilidad de la variable normal depende de los
parmetros (media) y o (desviacin)

La funcin de densidad de la variable aleatoria normal x, con media y varianza o
2
, es:


f(x) =

donde t = 3,14159....
e = 2,71828...




o
76

La curva normal tiene las siguientes propiedades:

La moda que es el punto sobre el eje horizontal donde la curva es un mximo ocurre en x
=
La curva es simtrica alrededor del eje vertical a travs de la media
La curva tiene su punto de inflexin en +/- o
La curva normal se aproxima al eje horizontal conforme nos alejamos de la media en
cualquier direccin
El rea total bajo la curva y sobre el eje horizontal es igual a 1

La curva de cualquier distribucin continua de probabilidad o funcin de densidad se construye de
modo que el rea bajo la curva limitada por las dos ordenadas x=x
1
y x=x
2
es igual a la
probabilidad de que la variable aleatoria x tome un valor entre x=x
1
y x=x
2


P
(
x
1
< X< x
2
) =
}
2
1
) ( ) (
x
x
x d x f

La dificultad de trabajar con integrales de las funciones de densidad normal, se resuelve al tabular
las reas debajo de la curva normal. Sin embargo se necesitaran un sinfn de tablas para
diferentes medias y desviaciones. Para solucionar este inconveniente podemos estandarizar la
variable aleatoria x, transformndola en una variable estandarizad Z, con = 0 y o
2
= 1 cuya
grfica se muestra en la figura 3.3 .

Variable normal estandarizada

Z =
o
X



Figura 3.3

La distribucin de una variable aleatoria normal con media cero y varianza 1 se denomina
distribucin normal estndar


Ejemplo 3.17 En una poblacin de personas tenemos que = 60 kg. y
o
2
= 16. Se pretende encontrar la probabilidad de que si se selecciona una persona al azar, esa
persona tenga un peso mayor a 68 kg.

P(x > 68) ; donde = 60 y o
2
= 16

= 0 Z
o= 1
77


Figura 3.4


Aplicando el modelo normal estandarizado
Z =
4
60 68

Z = 2


Figura 3.5

Entonces la P(Z >2) es lo mismo que buscar la P(X>68), con la diferencia que de sta manera
podemos trabajar con la tabla normal estandarizada para resolver el problema

P(Z>2) = 0,50 P(Z<2)
= 0,50 0,,4772
= 0,0228

Ejemplo 3.18 Elegimos una persona al azar y queremos determinar cul es la probabilidad de
que su peso est entre 52 kg. y 68 kg.?

Si queremos encontrar la P(52<x<68), estandarizamos para los dos valores de la variable x

Z
1
=
4
60 68
Z
1
=
4
60 52


Z
1
= 2 Z
1
= -2


X = 60 68
= 0
2
Z
78


Figura 3.6


Entonces ahora buscamos la P(-2<Z<2)

P(-2<Z<2) = P(z<2) x 2
= 0,4772 x 2
= 0,9544

Recuerde que esta distribucin es simtrica, esto significa que el rea debajo de la curva normal,
que hay entre Z=2 y Z=0 (donde se encuentra la media) es idntica al rea ubicada entre Z=2 y
lZ=0, por tal motivo encontramos una sola y al resultado lo multiplicamos por dos


Aproximacin normal a la binomial
Cuando se tiene un experimento con todas las caractersticas de la distribucin binomial, y se
quiere determinar probabilidades, lo lgico es aplicar el modelo binomial. Sin embargo la
distribucin normal a menudo es una muy buena aproximacin a una distribucin binomial,,
cuando est ltima adquiere una forma de campana simtrica, esto es as, cuando n es
suficientemente grande.

Si x es una variable aleatoria binomial con = np y o
2
= npq, entonces la variable
estandariza Z es:


npq
np x
conforme n



Ejemplo 3.19 La probabilidad de que un operario sufra un accidente en la vista es de 0,4 .Se
seleccionan 100 operarios y se quiere determinar la probabilidad de que menos de 30 operarios
sufran ese tipo de accidentes.

Se quiere averiguar la P( x < 30) E(x) = np = 100 x 0,4 = 40
V(x) = npq = 100 x 0,4 x 0,6 = 24

Al ser n suficientemente grande n = 100 se puede utilizar la aproximacin normal a la binomial. Al
estandarizar

Z =
2 -2
Z
79



24
40 30


Z = - 2,04

Entonces, se busca la P(Z<-2,04) mediante la tabla normal estandarizada

P (Z < - 2,,04) = P (Z > 2,04) = 0,50 0,4793
= 0,0206


Figura 3.7


Aproximacin normal a Poisson
Cuando se tiene un experimento que cumple con las propiedades de la distribucin de Poisson,
pero la muestra es grande, se puede utilizar la distribucin normal como aproximacin a la
distribucin de Poisson. Esta ultima tiene un solo parmetro = np `y si n es suficientemente
grande, crece el valor de , no pudiendo en ocasiones utilizar la tabla de la distribucin de Poisson.
Para resolver esta situacin, podemos utilizar la distribucin normal como aproximacin a la
distribucin de Poisson.

Si x es una variable aleatoria con distribucin de Poisson con = y
o
2
= entonces la variable estandarizada Z es:

x
conforme n



Ejemplo 3.20 La probabilidad de que un avin tenga una rotura en su tanque de combustible es
de 0,03 en los prximos 2000 vuelos Cul es la probabilidad de que ms de 50 aviones tengan
ese desperfecto?

Se quiere averiguar la P( x > 50) E(x) = = 2000 x 0,03 = 60
V(x) = = 60

Al ser n suficientemente grande n = 2000 se puede utilizar la aproximacin normal a Poisson. Al
estandarizar


Z =
Z =
-2,04 Z
80



60
60 50


Z = - 1,29

Entonces, se busca la P(Z> -1,29) mediante la tabla normal estandarizada

P (Z > - 1,29) = P (Z < 1,29) = 0,4015 + 0,50
= 0,9015


Figura 3.8


Distribucin exponencial
Si se presentan eventos en el contexto de un proceso Poisson, entonces la longitud del tiempo o el
espacio entre eventos sucesivos tiene una distribucin exponencia de probabilidad. Como el
tiempo o el espacio son continuos, una medicin de este tipo es una variable aleatoria continua.
La distribucin exponencial se aplica, si lo que interesa es el tiempo o espacio hasta la ocurrencia
del primer evento, o el tiempo entre dos eventos sucesivos, o el tiempo que transcurre hasta que
se presenta el primer evento, despus de cualquier punto en el teimpo elegido al azar.

La probabilidad exponencial de que ocurra el primer evento dentro del intervalo designado de
tiempo o espacio es:

P(Tt) = 1 e
-
, donde es el promedio de ocurrencias para el intervalo de interes

De manera similar, la probabilidad exponencia de que el primer evento no ocurra dentro del
intervalo designado de tiempo o espacio es:

P(T>t) = e
-


Ejemplo 3.21 En un departamento de reparacin de maquinarias se reciben 5 solicitudes por hora
en promedio, la probabilidad de que se reciba la primera solicitud de servivio dentro de un lapso de
media hora es
Promedio por hora = 5
= 2.5 promedio por media hora

P = 1 e
-2.5
= 1 0.08208 = 0.91792

Z =
-1,29 Z
81


El valor esperado y la varianza de una distribucin exponencia de probabilidad, son:

E(T) =



V(T) =











































82

Resumen

Una variable aleatoria es un evento numrico que puede asumir diferentes valores de acuerdo a
procesos aleatorios. La distribucin de probabilidad de una variable aleatoria es la lista de los
valores de la variable con sus re4spectivas probabilidades.
La media de una variable aleatoria se llama valor esperado o esperanza matemtica. La funcin
de probabilidad de una variable aleatoria discreta se denomina funcin de cuanta y funcin de
densidad si la variable aleatoria es continua. Para calcular probabilidades puntuales se trabaja con
la funcin de probabilidad y para calcular probabilidades acumuladas con la funcin de
acumulacin
Existen varias distribuciones discretas de probabilidad: distribucin binomial, distribucin
hipergeometrica y distribucin poisson, entre otras.
El modelo continuo ms importante es la distribucin normal, muchas poblaciones presentan esta
distribucin. Para el clculo de probabilidades se utiliza el modelo normal estandarizado.
Cuando una muestra crece cualquier distribucin tiende a normalizarse y se puede aproximar por
normal.
La distribucin exponencial es otra distribucin de variable aleatoria continua


































83

Ejercicios

Ejemplo 1.En la tabla 3.12 se muestra el numero de maquinas que se han solicitado para renta
en una empresa de alquiler, en un periodo de 50 das. En la ltima columna de la tabla se
incluyen las frecuencias observadas en este periodo de 50 das, convertidas en probabilidades.
Al especificar los valores que asume la variable (Demanda posible) y las respectivas
probabilidades se forma la distribucin de probabilidad.

Demanda posible x Nmero de das Probabilidades P(x)
3 3 0.06
4 7 0.14
5 12 0.24
6 14 0.28
7 10 0.20
8 4 0.08
Tabla 3.12

Ejemplo 2.Con base en los datos de la tabla anterior, se presenta otra tabla 3.13 con los
clculos para el Valor Esperado de la variable aleatoria, y para la varianza de la variable
aleatoria.
Demanda
posible
x

P(x)

x P(x)

x
2
P(x)
3 0.06 0.18 0.54
4 0.14 0.56 2.24
5 0.24 1.20 6.00
6 0.28 1.68 10.08
7 0.20 1.40 9.80
8 0.08 0.64 5.12
5.66 33.78
Tabla 3.13

E (X) = E X P(X) = 5.66
V (X) = E X
2
P(X) [E(x)]
2
= 1,74

3.1. Se ha determinado que la llegada de clientes a un restaurante, durante intervalos
elegidos al azar de 10 minutos sigue la distribucin de probabilidad que se presenta en
la tabla 3.14. Calcule el numero esperado de llegadas para intervalos de 10 minutos y
la variacin de las llegadas.

Numero de clientes
X
0 1 2 3 4 5
Probabilidad P(X) 0.15 0.25 0.25 0.20 0.10 0.05
Tabla 3.14

Distribucin binomial

Ejemplo 3.La probabilidad de que un cliente elegido al azar realice una compra es de 0.20. Si
un vendedor visita a seis clientes, la probabilidad de que realce exactamente cuatro ventas se
determina de la siguiente manera:

P (X=x
i
, n , p ) =
n
C
x
P
x
(1-P)
n-x


P(X=4 , n=6 , P=0.20) =
6
C
4
0.20
4
(0.80)
2
= 6 ! 0.20
4
0.80
2

4! 2!
84

= 0.015

3.2 Debido a las altas tasas de inters, una empresa reporta que el 30 % de sus cuentas
por cobrar de otras empresas estn vencidas. Si un contador toma una muestra
aleatoria de cinco de esas cuentas, determine la probabilidad de cada uno de los
siguientes eventos:

a. Ninguna de las cuentas est vencida.
b. Exactamente dos cuentas estn vencidas.
c. La mayor parte de las cuentas estn vencidas.
d. Exactamente el 20 % de las cuentas estn vencidas.

3.3 Una empresa de comercializacin por correo tiene una circular que produce una tasa
de respuesta de 10 %. Suponga que se envan por correo 20 de esas circulares en
calidad de prueba de mercado, en una rea geogrfica nueva. Suponiendo que se
aplica la tasa de respuesta del 10 % en la nueva rea, determine las probabilidades de
los siguientes eventos:

a. Nadie responde
b. Exactamente dos personas responden
c. La mayora de las personas responden
d. Como mnimo el 20 % de las personas responden

3.4 En un ao especifico el 70 % de las acciones que se negociaron en la bolsa de valores
de Buenos Aires, aumentaron de precio, en tanto el 30 % restante permanecieron sin
cambios o experimentaron una reduccin en su precio. Un asesor de inversiones eligi
10 de las acciones y las calific como especialmente recomendables. Si las acciones
de estas 10 empresas representan una seleccin aleatoria Cul es la probabilidad de
que: a) la totalidad de las acciones aumenten de valor. b) No menos de 10 aumenten
de valor.

3.5 Si se lanza una moneda cinco veces, la distribucin de probabilidad con respecto al
nmero de caras que ocurren se basa en la distribucin binomial. Determine: a) el
nmero esperado de caras b) la varianza de la distribucin de probabilidad.

3.6 La probabilidad de que una persona que padece cierto malestar obtenga alivio con un
frmaco especfico es de 0.90. A tres personas con malestares escogidos
aleatoriamente, se les administra el frmaco. Calcular la probabilidad de que el numero
de enfermos que encuentren alivio sea de:

a. Ninguno
b. Mas de uno
c. Dos o tres
d. Exactamente uno
e. Dos o menos
f. Exactamente tres

3.7 En cierta empresa de nuestra ciudad, se encuentra un fichero de cuentas corrientes, la
cuarta parte de las fichas tienen saldo acreedor. Si extraemos 15 fichas al azar. Cul
ser la probabilidad de que: ?

a. Se obtengan 6 fichas con saldo acreedor
b. Se obtengan 8 fichas con saldo deudor
c. Se extraigan menos de 3 fichas con saldo acreedor
d. Se extraigan menos de 7 fichas con saldo acreedor
e. Aparezcan mas de 4 fichas con saldo acreedor
f. Aparezcan ms de 2 pero menos de 8 fichas con saldo acreedor
g. Se obtengan mas de 10 pero menos de 13 fichas con saldo deudor
85


3.8 El 50 % de todos los empleados de una compaa son casados. Sea X el numero de
empleados casados en una muestra aleatoria de 10 empleados.

a. Hallar la distribucin de probabilidad de la proporcin muestral
b. Hallar el valor esperado de la proporcin y su desviacin


Distribucin poisson

Ejemplo 4.Un departamento de reparacin de maquinarias recibe un promedio de cinco
solicitudes de servicio por hora. La probabilidad de que se reciban exactamente tres solicitudes
en una hora seleccionada al azar es:

P(X=3 , =5) =
x
e
-
= 5
3
e
5
= 0.1404
X! 3!

3.9 En promedio, cada hora cinco personas realizan transacciones en el mostrador de
servicios especiales de un banco. Suponiendo que las llegadas de esas personas
tienen una distribucin independiente e igualmente probable en todo el periodo de
inters, Cul es la probabilidad de que ms de 10 personas deseen realizar
transacciones en el mostrador de servicios especiales en una hora especifica?

3.10 En promedio un barco llega a cierto muelle cada dos das Cul es la probabilidad de
que lleguen dos o ms barcos en un da seleccionado al azar?

3.11 Una compaa de seguros est considerando la adicin de cobertura para una
enfermedad relativamente rara en el campo de los seguros mdicos. La probabilidad de
que una persona elegida al azar tenga esa enfermedad es 0.001, y en el grupo
asegurado existen 3000 personas.

a. Cul es el nmero esperado de personas que tenga esa enfermedad?
b. Cul es la probabilidad de que ninguna persona tenga la enfermedad?

3.12 El nmero de clulas de sangre por unidad cuadrada visible bajo el microscopio sigue
una distribucin Poisson con media 4. Encuentre la probabilidad de que ms de 5 de
tales clulas de sangre sean visibles para el observador.

3.13 Si la probabilidad de que un automvil est implicado en un accidente es 0.01 durante
cualquier ao, Cul es la probabilidad de tener dos o ms accidentes durante
cualquier periodo de manejo de 10 aos?

3.14 Suponga que la proporcin de maquinas defectuosas en una operacin de ensamble
es de 0.01, y que se incluye una muestra de 200 de ellas en un embarque especifico.
Cul es la probabilidad de que no ms de 3 maquinas estn defectuosas?

3.15 En promedio seis personas por hora utilizan el servicio de cajero automtico, en cierto
horario nocturno. Cul es la probabilidad de que :

a. Seis personas utilicen el servicio durante una hora seleccionada en ese horario
nocturno?
b. Menos de cuatro utilicen el servicio durante una hora en ese horario nocturno?
c. Nadie utilice el servicio durante diez minutos en ese horario nocturno?.
d. Nadie utilice el servicio durante veinte minutos en ese horario nocturno?.
e. Menos de tres personas utilicen el servicio durante un periodo de veinte
minutos?.


86

Distribucin hipergeometrica

Ejemplo 5.De seis empleados, tres han estado con la compaa durante cinco o ms aos, si
se eligen cuatro empleados al azar de ese grupo la probabilidad de que exactamente dos de
ellos tengan una antigedad de cinco aos o ms es:

(N-K) (K) (6-3) (3) (3) (3)
P(X=2 , N=6 , K=3 , n=4) = ( n-x) (x) = (4-2) (2) = (2) (2)
(N) (6) (6)
(n) (4) (4)

= 0,6
4! 2!
3.16 En una clase en la que hay 20 estudiantes, 15 estn disconformes con el texto que se
utiliza. Si se le preguntara acerca del texto a una muestra aleatoria de cuatro
estudiantes, determine la probabilidad de que: a) exactamente tres estn disconformes
con el texto b) al menos tres estn insatisfechos con el texto.

3.17 En el equipo departamental del ejercicio 2.19 que incluye a cinco ingenieros y a nueve
tcnicos. Si se eligen al azar a cinco personas y se les asigna un proyecto, aplique un
modelo de probabilidad apropiado y responda Cul es la probabilidad de que el
equipo del proyecto incluya exactamente a dos ingenieros?

3.18 Un embarque de 10 maquinas incluye una defectuosa. Si se eligen 7 maquinas al azar
de ese embarque Cul es la probabilidad de que ninguna de las 7 est defectuosa?.

3.19 De los 8 hoteles ubicados en una zona recreativa, puede decirse que tres de ellos son
mediocres en trminos de servicios al cliente. Un agente de viajes elige al azar dos
hoteles para dos clientes que estn planeando vacacionar en esa regin Cul es la
probabilidad de que como mnimo uno de los clientes se hospede en uno de los
hoteles mediocres?

3.20 Se sospecha que entre 15 devoluciones de impuestos por ingresos declarados de mas
de 100.000 pesos, hay 10 que contienen errores. La direccin de rentas decide revisar
5 de esas devoluciones, sin reposicin, Cul es la probabilidad de que las cinco
devoluciones contengan errores? Cul es la probabilidad de que por lo menos tres de
las devoluciones contengan errores?

3.21 Una caja contiene cuatro piezas buenas y 6 piezas defectuosas. Se toma una muestra
de cuatro piezas de la caja, sin reposicin. Sea x el numero de piezas buenas que hay
en la muestra. Calcular:

a. La probabilidad de que haya a lo ms una pieza buena en la muestra
b. La distribucin de probabilidad de x
c. El valor esperado de x


Distribucin normal

Ejemplo 6.Se sabe que el tiempo til de un componente elctrico tiene una distribucin normal
con una media de 2.000 horas y una desviacin de 200 horas. La probabilidad de que un
componente elegido al azar dure entre 2.000 y 2.400 horas se determina de la siguiente
manera:

Z
1
= x - = 2.000 - 2.000 = 0
o 200


87

Z
2
= x - = 2.400 - 2.000 = 2
o 200

P (2.000 < x < 2.400 ) = P ( 0 < Z < 2 ) = 0.4772

3.22 Se ha ajustado el proceso de fabricacin de un tornillo de precisin de manera que la
longitud pr0omedio de los tornillos sea de 13 cm. La desviacin estndar de los tornillos
es de 0.1 cm. y se sabe que la distribucin de las longitudes de los tornillos tiene una
forma normal. Determine la probabilidad de que un tornillo elegido al azar tenga una
longitud de entre 13 y 13.2 cm.

3.23 Se ha determinado que la vida til de cierta marca de llantas radiales tiene una
distribucin normal con media de 38.000 Km y desviacin de 3.000 Km a) Cul es la
probabilidad de que una llanta elegida al azar tenga una vida til de 35.000 Km como
mnimo? b) Cul es la probabilidad que dure ms de 45.000 Km?

3.24 Un distribuidor hace un pedido de 500 de las llantas especificadas en el ejercicio 3.23
Aproximadamente cuantas llantas durarn a) entre 40.000 y 45.000 Km? b) ms de
40.000 Km?

3.25 Supngase que el tiempo promedio de permanencia hospitalaria por enfermedad
crnica para un tipo de paciente es de 60 das, con una desviacin estndar de 15
das., y que la poblacin tiene forma normal, calcular la probabilidad de que un paciente
elegido aleatoriamente de ese grupo, tenga una hospitalizacin:

a. Mayor que 50 das
b. Menor que 30 das
c. Entre 30 y 60 das
d. Ms de 90 das

3.26 El gerente de personal de una gran compaa requiere que los solicitantes a un puesto
efecten cierta prueba y alcancen una calificacin de 500. Si las calificaciones de la
prueba se distribuyen normalmente con media de 485 y desviacin estndar de 30
Qu porcentaje de los solicitantes pasar la prueba?

3.27 El numero de personas ocupadas en establecimientos industriales de la alimentacin
en la provincia que tiene 7200 firmas, se distribuye con media igual a 23 personas y
desviacin de 5 personas. Calcular Cuntos establecimientos se estima que tienen
menos de 15 personas ocupadas?.

3.28 Sea X una variable aleatoria N(60,4) Calcular:

a. La probabilidad de encontrar valores de X menores que 52
b. La probabilidad de X difiera del promedio en no ms de 1.62 veces la
desviacin estndar
c. El valor de la variable que se encuentra 1.27 unidades de desviacin estndar
debajo de la media.

Aproximacin normal a binomial

Ejemplo 7.Se ha observado que para un grupo grande de prospectos de venta, el 20 % de los
que un vendedor visita en forma personal realizan la compra. Si un representante de ventas
visita a 35 prospectos, puede determinarse la probabilidad de 10 o ms de ellos realicen una
compra




88


Z = x - np

Z = 10 - 7 = 1.27
2.36

P (X>10) = P (Z>1.27) = 0.102


3.29 Se ha encontrado que8 el 70 % de las personas que entran a un centro comercial
realizan cuando menos una compra. Para una muestra de 50 personas Cul es la
probabilidad de que como mnimo 40 de ellas realicen una o ms compra

Aproximacin normal a poisson

Ejemplo 8.El nmero promedio de solicitudes de servicio que se reciben en un departamento
de reparacin de maquinarias por cada turno de 8 horas es de 10. Puede determinarse la
probabilidad que se reciban ms de 25 solicitudes
Z = x - np

Z = 25 - 10 = 4.74
3.16

P (X>25) = P (Z>4.74) = 0.0001


3.30 Se sabe que las solicitudes de servicio llegan en forma aleatoria y en fo3rma de
proceso estacionario a un promedio de 5 solicitudes por hora Cul es la probabilidad
de que se reciban ms de 50 solicitudes de servicios durante un turno de 8 horas?


Distribucin exponencial

Ejemplo 9.En promedio cada dos das llega un barco a determinado puerto. La probabilidad de
que.despues de la salida de un barco, pasen cuatro das antes de la llegada del siguiente es:

Promedio por dos das = 1
= 2 promedio por cuatro das

P(T>4) = e
-
= e
-2
= 0.13534

3.31 Cada rollo de 500 metros de manguera plstica tiene dos defectos en promedio. Cul
es la probabilidad de que, al desenrollar la manguera, se encuentre el primer defecto en
el primer tramo de 50 metros?

3.32 Un promedio de 0.5 cliente por minuto llega a una caja en un mercado Despues de que
el cajero inicia las operaciones Cul es la probabilidad de que tenga que esperar al
menos 3 minutos, antes de que que llegue el primer cliente?




npq
np
89

Respuestas


3.1 a) 2 b) 1,9

3.2 a) 0,16807 b) 0,3087 c) 0,16308 d) 0,36015

3.3 a) 0,1215 b) 0,28518 c) 0 d) 0,1329

3.4 a) 0,0282 b) 0,0282

3.5 a) 2,5 b) 1,25

3.6 a) 0.001 b) 0,972 c) 0,972 d) 0,027 e) 0,271 f) 0,729

3.7 a) 0,091 b) 0,039 c) 0,2360 d) 0,9433 e) 0,3135 f) 0,7466
g) 0,3903

3.8 a) b) 0,5 0,025



P P(p)
0 0,0009
0,10 0,0097
0,20 0,0439
0,30 0,1171
0,40 0,2050
0,50 0,2460
0,60 0,2050
0,70 0,1171
0,80 0,0439
0,90 0,0097
1 0,0009




3.9 0,0136

3.10 0,090

3.11 a) 3 b) 0,049

3.12 0,2148

3.13 0,0046

3.14 0,8571

3.15 a) 0,1606 b) 0,1512 c) 0,3678 d) 0,1353 e) 0,6766

3.16 a) 0469 b) 0,7512

3.17 0,419

3.18 0,30
90


3.19 0,6428

3.20 a) 0,083 b) 0,8331

3.21 a) 0,4523 b) c) 1,6

X P(x)
0 0,0714
1 0,3809
2 0,4285
3 0,1142
4 0,0047


3.22 0,4772

3.23 a) 0,8413 b) 0,0098

3.24 a) 122 b) 127

3.25 a) 0,7475 b) 0,0227 c) 0,4772 d) 0,0227

3.26 30,85 %

3.27 395

3.28 a) 0,0227 b) 0,8947 c) 54,92

3.29 0,0617

3.30 0,0007

3.31 0.18127

3.32 0.22313















91

Preguntas de revisin

Qu es una variable aleatoria?
Cmo se clasifican las variables aleatorias?
Qu significa el valor esperado?
A qu se denomina funcin de cuanta?
Qu es una funcin de densidad?
cmo se llama la funcin que permite calcular probabilidades acumuladas?
Cules son las caractersticas del proceso de bernoille?
Qu parmetros debemos conocer para utilizar la tabla binomial?
Cundo se utiliza la distribucin hipergeometrica?
Cul es el nico parmetro en la distribucin de poisson?
Qu modelo continuo de probabilidad conoce?
Cmo es la media y la desviacin en el modelo normal estandarizado?
Qu forma tiene la distribucin normal?
Cundo podemos utilizar la distribucin normal para aproximar modelos discretos.?


Trminos claves


Variable aleatoria Esperanza matemtica
Variable aleatoria discreta Varianza
Variable aleatoria continua Distribucin binomial
Funcin de probabilidad Distribucin hipergeometrica
Distribucin de probabilidad Distribucin poisson
Funcin de acumulacin Distribucin normal
Funcin de cuanta Modelo normal estandarizado
Funcin de densidad Distribucin exponencial





















92

Actividades


o Discutir en grupos las caractersticas de los diferentes modelos de probabilidad

o Realizar el ensayo de lanzar una moneda al aire en varias ocasiones, para armar un rbol
con todos los resultados posibles y calcular las probabilidades de ocurrencias de
eventos, usando las tablas de probabilidad

o Utilizar el programa Microsoft Excel para aplicar los diferentes modelos de probabilidad
































93

Capitulo 4

Muestras y distribuciones en
el muestreo



Generalidades

Como ya se dijo con anterioridad una poblacin es un conjunto de elementos sobre los cuales
se desea alguna informacin.
Por otra parte, una muestra es una porcin de la poblacin que se utiliza para obtener
conclusiones validas para toda la poblacin.
A menudo se carece de informacin de la poblacin bajo estudio, entonces se debe recurrir a
una muestra para obtener la informacin requerida.
La teora del muestreo consiste en un conjunto de procedimientos y tcnicas desarrolladas
para estudiar relaciones entre poblaciones y parte de ellas con el objeto de obtener
conclusiones para toda la poblacin
A esta parte de la estadstica se la conoce como estadstica inferencial, que es conjunto de
mtodos o el proceso de utilizacin de datos muestrales que hacen posible la estimacin o
verificacin de alguna caracterstica de la poblacin


Razones para el muestreo

Hay una serie de razones por las cuales es conveniente trabajar con muestras y no con
poblaciones. Entre ellas podemos nombrar las siguientes:

o Mayor exactitud

El resultado final es ms exacto cuando proviene de una muestra que cuando
proviene de un censo (poblacional), pues son mayores los errores de observacin
en el censo y los errores de muestreo o de estimacin, se pueden reducir o
controlar mediante apropiadas tcnicas.

o Costo

Trabajar con muestras generalmente es menos costoso que trabajar con toda la
poblacin, y la muestra nos puede entregar resultados de mucha calidad y
precisin
.
o Tiempo

Hay situaciones en donde la rapidez con que se requiere la informacin es crucial..
La muestra entrega informacin oportuna.



94

o Pruebas destructivas

Hay casos en los que trabajar con la poblacin significa destruir todos los
elementos, como podra ser medir la duracin de todos los tubos elctricos de una
cierta empresa.


Mtodos para seleccionar muestras

Existen diferentes tcnicas para seleccionar muestras, estas tcnicas se clasifican en tcnicas
no probababilisticas y tcnicas probabilsticas.
En las tcnicas no probabilsticas, las unidades de la poblacin que integrarn la muestra se
eligen segn el criterio del investigador, por lo que permite conocer:
- La probabilidad que tiene la muestra de ser seleccionada
- El error de muestreo
- Precisin del estimador

Entre estas tcnicas se tiene:
o Muestreo de criterio, intencional o por juicio. El criterio o juicio del investigador juega
un papel fundamental en la seleccin de los elementos a incluir en la muestra. Por
ejemplo, para estudiar preferencias por cierto alimento en base a trigo, se elige una
zona en donde el consumo de ese cereal este muy naturalizado.
o Muestreo de la muestra disponible o por conveniencia. Se forma la muestra de
acuerdo a elementos disponibles de la poblacin. Como ejemplo, seleccionar personas
que estn a la espera de una carga de combustible, para conocer la opinin sobre
algn lubricante en particular.

En las tcnicas probabilsticas, se selecionan unidades que integrarn la muestra en base a
principios de la teora de probabilidad, por lo que permite conocer:
- La probabilidad que tiene la muestra de ser seleccionada
- El error de muestreo
- Precisin del estimador
Esto hace que se puedan realizar inferencias sobre la poblacin de la cual se extrajo la
muestra.
Entre estas tcnicas, se encuentran: muestreo irrestricto aleatorio, muestreo aleatorio
estratificado, muestreo sistematico y muestreo por conglomerados. Tecnicas que se desarrollan
a continuacin.


Muestreo irrestricto aleatorio

Si un tamao de muestra n es seleccionado de una poblacin N de manera que cada muestra
posible n tiene la misma probabilidad de ser seleccionada, el procedimiento de muestreo se
denomina muestreo irrestricto aleatorio y a la muestra obtenida se la llama muestra
irrestricta aleatoria

Para obtener muestras aleatorias se hacen uso de tablas de nmeros aleatorios o funciones
que generen nmeros aleatorios. Una tabla de nmeros aleatorios contiene los digitos de 0 a 9
repetidos muchas veces en proporciones aproximadamente iguales. Por lo tanto si un nmero
es elegido de cualquier punto de la tabla, es igualmente probable que sea cualquiera de los
digitos del 0 al 9.

Ejemplo 4.1 Suponga que existe una lista con una poblacin N = 100 pacientes, de los cuales
se necesita una muestra irrestricta aleatoria n = 10.
95

Entonces podemos considerar que existen 100 cuentas con los nmeros 00...,....99. Es decir
que tenemos 100 nmeros de dos dgitos, donde 00 representa el primer registro, 99 el registro
del paciente 100.
Se recurre a la tabla de nmeros aleatorios y de ella se sacan 10 nmeros de dos dgitos de
cualquier lugar de la tabla, si un nmero aleatorio se repite, lo omitimos y sacamos otro. Esos
nmeros aleatorios podran ser:

12, 26, 08, 87, 55, 75, 48, 93 45, 32

Esto significa que los pacientes ubicados en esos registros son los seleccionados para la
muestra irrestricta aleatoria.


Muestreo aleatorio estratificado

Una muestra aleatoria estratificada es la obtenida mediante la separacin de los elementos
de la poblacin, en grupos o estratos, que no presenten traslapes y la posterior seleccin de
una muestra irrestricta aleatoria simple de cada estrato Esos elementos son homogneos
dentro del grupo y heterogneos entre los grupos.
Los motivos principales para utilizar muestreo aleatorio estratificado en lugar de muestreo
irrestricto aleatorio son:
- La estratificacin puede producir un limite mas pequeo para el error de estimacin que
el que se generara por una muestra irrestricta aleatoria del mismo tamao.
- El costo por observacin en la encuesta puede ser reducida mediante la estratificacin
de los elementos de la poblacin, en grupos convenientes.
- Se pueden obtener estimaciones de parmetros poblacionales para subgrupos de la
poblacin

El primer paso en la seleccin de una muestra aleatoria estratificada es especificar claramente
los estratos, asi cada unidad muestral se ubica en el estrato apropiado. Despues de que las
unidades de muestreo han sido divididas en estratos, seleccionamos una muestra irrestricta
aleatoria de cada estrato
El tamao de muestra apropiado de cada estrato se lo puede definir mediante distintas
maneras, estas diferentes formas de asignar los elementos de cada grupo o estrato que van a
participar en la muestra, se lo conoce como afijacin

Afijacin igual: si se requiere una muestra de tamao n, todos los grupos o estratos participan
de igual forma en la conformacin de la muestra, no importando el tamao de cada grupo

Si n = tamao de muestra
r = cantidad de grupos
n
i
= cantidad de elementos del grupo que van a conformar la muestra

n
i
=
r
n



Ejemplo 4.2 Suponga que existe una poblacin N = 600 instituciones educativas de todos los
niveles y se requiere una muestra n = 60 instituciones.
Entonces a la poblacin la podemos dividir en tres grupos o estratos, En un grupo o estrato se
ubicaran todas las instituciones educativas de nivel inferior, en otro grupo las instituciones de
nivel medio y en otro grupo las de nivel superior.
Si aplicamos la afijacin igual para seleccionar las 60 instituciones, la muestra estara
conformada por 20 instituciones de cada nivel. Cada grupo participa de igual forma.

96

n
i
=
3
60


n
i
= 20

Afijacin proporcional: es lgico pensar que la muestra debe estar conformada de acuerdo al
tamao de cada grupo. Entonces cada grupo participa en la muestra proporcionalmente de
acuerdo a su tamao.

n
i
=
N
Ni
. n

donde N
i
= tamao del grupo o subpoblacin en el estrato
N = tamao de la poblacin
N = tamao de muestra requerida

Ejemplo 4.3 Si en el problema del ejemplo anterior sabemos que el grupo de nivel inferior
tiene 300 instituciones, el grupo de nivel medio 20 instituciones y e grupo de nivel superior 100
instituciones.
Al aplicar afijacin proporcional, cada grupo queda representado proporcionalmente en la
muestra de acuerdo a su tamao

n
1
=
600
300
. 60 n
1
= 30

n
2
=
600
200
. 60 n
2
= 20

n
3
=
600
100
. 60 n
3
= 10

Afijacin optma: en sta afijacin, adems del tamao de cada grupo se tiene en cuenta la
variabilidad que hay en cada uno de los estratos. Por lo tanto podemos afirmar que de las tres
afijaciones, es la mejor, siempre y cuando contemos con los datos necesarios.


n
i
=
o
o
i
i
N
N

. n ; o = desviacin


Ejemplo 4.4 Suponga que, siguiendo con el mismo ejemplo, contamos con la desviacin de
cada grupo. La desviacin en el grupo 1 es de 5, en el grupo 2 es de 8, y en el grupo 3 es de
10

En la tabla 4.1 vemos los datos necesarios para luego determinar como se conforma la muestra

Grupo N
i o
i
N
i
o
i

1 300 5 1500
2 200 8 1600
3 100 10 1000
600 4100
Tabla 4.1

97

n
1
=
4100
1500
. 60

n
1
= 21,95 ~ 22


n
1
=
4100
1600
. 60

n
1
= 23,41 ~ 23


n
1
=
4100
1000
. 60

n
1
= 14,63 ~ 15


Observe que si se compara con la afijacin proporcional en el primer grupo se redujo el nmero
de instituciones que conformarn la muestra y en el segundo y tercer grupo, aument el
nmero de instituciones que participarn de la muestra, esto es debido a que en estos grupos
la desviacin es mayor que en la primera.
Se puede concluir que a mayor desvo en un grupo hay que tomar ms elementos en ese
grupo.


Muestreo sistematico

Una muestra obtenida al seleccionar aleatoriamente un elemento de los primeros k elementos
en el marco y despus cada k-esimo elemento se denomina muestras sistemticas de 1 en k
El muestreo sistematico proporciona una opcin til para el muesteo irrestricto aleatorio por las
siguientes razones:
- El muestreo sistematico es ms fcil de llevar a cabo en el campo, y por lo tanto, esta
menos expuesto a los errores de seleccin que comenten los investigadores de campo.
- El muesteo sistematico puede proporcionar mayor informacin que la que puede
proporcionar el muesteo irrestricto aleatorio por unidad de costo.

Para seleccionar una muestra sistematica se procede de la siguiente manera:

o La poblacin debe ordenarse por algn criterio
o Se encuentra una razn de muestreo llamada k, que se obtiene al dividir el tamao de
la poblacin N en el tamao de muestra requerido n.

k =



o Se utilizan una tabla o funcin de nmeros aleatorios para obtener un nmero aleatorio
comprendido entre 1 y k.
o De acuerdo a ese nmero obteneidoo y como la poblacin est ordenada en una lista,
el elemento que figura en la posicin determinada por el nmero aleatorio ser el
primero que conformar la muestra
o Luego a ese nmero se le va adicionando el valor k hasta completar la cantidad de
elementos que integrarn la muestra.


98

Ejemplo 4.5 Un club decide realizar una encuesta y recolectar informacin de sus asociados
para conocer sus opiniones acerca de las obras realizadas y los servicios brindados por el club.
El club posee en la actualidad 20.000 asociados y se tomar una muestra de 2000 socios.
Para aplicar el muestreo sistemtico, el club tiene la lista de todos los socios ordenada por
nmero de socio
Se calcula el factor de muestreo k

k .=
2000
20000


k = 10

Luego se elige de la tabla de nmeros aleatorios un nmero entre 1 y 10.
Suponga que aleatoriamente ese nmero fue el 4, esto significa que el asociado que est en la
cuarta posicin en la lista, ser el primer socio que participar en la muestra.
A ese valor se le va adicionado el valor k=10, o sea que el prximo socio ser el de la posicin
14
0
, luego el 24
o
, 34
o
,...,.1994
o
..hasta completar los 2000 socios que se requieren para la
muestra


Muestreo por conglomerados

Una muestra por conglomerados es una muestra aleatoria en la cual cada unidad de
muestreo es una coleccin o conglomerados de elementos.

En cierto sentido es un muestreo opuesto al estratificado, ya que los conglomerados deben ser
heterogneos internamente y homogneos entre conglomerados.
Es decir, cada conglomerado posee las mismas caractersticas que rene la poblacin, de tal
manera que cualquier conglomerado puede representar a la poblacin.

El muestreo por conglomerados es un diseo efectivo para obtener una cantidad especificada
de informacin, al costo mnimo, bajo las siguientes condiciones:

No se encuentra disponible o es muy costoso obtener un buen marco que
liste los elementos de la poblacin, mientras que se puede lograr
fcilmente un marco que liste los conglomerados.
El costo por obtener observaciones se incrementa con la distancia que
separa los elementos

Para seleccionar una muestra por conglomerados, la primera tarea es especificar los
conglomerados apropiados Una vez que los conglomerados han sido especificados se debe
conformar un marco que liste todos los conglomerados de la poblacin; entonces se selecciona
una muestra irrestrica aleatoria de conglomerados de este marco

Tambien existe el muestreo por conglomerados en dos etapas. Una muestra por
conglomerados en dos etapas se obtiene seleccionando primero una muestra aleatoria de
conglomerados y posteriormente una muestra aleatoria de los elementos de cada
conglomerado muestreado

Ejemplo 4.6 Los diferentes seccionales de una ciudad podran ser usadas como
conglomerados para un estudio sobre la educacin. Ya que es muy fcil obtener la lista de
conglomerados y cada uno de ellos representa a la poblacin.
En cada seccional existe heterogeneidad de instituciones educativas: de nivel inferior, de nivel
medio, privadas, estatales, etc.
Si se selecciona un conglomerado al azar, cualquiera de estos representara a la poblacin.
Posteriormente para seleccionar la muestra definitiva se puede utilizar otro tipo de muestreo.

99

Distribuciones de muestreo
.
Una estadstica es una variable aleatoria que se obtiene de datos provenientes de una
muestra. El proceso de extraer conclusiones en torno a poblaciones, con base a datos de
muestras utiliza en forma considerable las estadsticas.
En general, se llaman distribuciones de muestreo a la distribucin de probabilidad de una
estadstica.

Distribucin de la media muestral

La media de la muestra es una estadstica o una variable aleatoria, como tal, tiene una
distribucin de probabilidad.

Teorema del lmite central Si x es la media de una muestra aleatoria de tamao n tomada
de una poblacin con media y varianza finita o
2
, entonces la forma lmite de la distribucin
de:
Z =
n
x
o



conforme n es la distribucin normal estndar con media 0 y varianza 1

La aproximacin normal para x por lo general ser buena si n > 30

Distribucin de la media muestral
en MCR (muestreo con reposicin)

Si consideramos el muestreo con reposicin, es decir, que el elemento de la poblacin que
participa en la muestra se repone, (puede ser elegido nuevamente), las muestras posibles
que se pueden obtener, est dado por:

N
n

En el caso de contar con una poblacin de tamao N = 5 y se requieran tomar muestras de
tamao n = 2, el espacio muestral o todas las muestras posibles sern 5
2
= 25

Ejemplo 4.7 Se cuenta con una poblacin de N = 4 alumnos (Juan, Francisco,, Ernesto, y
Pedro), y se pretende tomar muestras de tamao n = 2 Cuntas muestras de dos estudiantes
se pueden tener?

En muestreo con reposicin el espacio muestral est formado por 4
2
= 16 muestras, que se
pueden observar en el cuadro


J F E P
J,J J,F J,E J,P
F,J F,F F,E F,P
E,J E,F E,E E,P
P,J P,F P,E P,P




J
F
E
P




100

En el cuadro se puede visualizar que:

La primera muestra, est formada por Juan, Juan (al ser MCR, el elemento puede ser
seleccionado nuevamente)
La segunda muestra est formada por Juan, Francisco, la tercera por Juan,
Ernesto,......,y la ltima por Pedro, Pedro.

Ahora bien, si realmente lo que interesa es analizar las notas de los cuatro estudiantes y se
sabe que sus notas son:

Juan : 1 Francisco: 2 Ernesto : 3 Pedro: 4

Al espacio muestral para facilitar el estudio de la variable, se lo puede representar directamente
con las notas que obtuvieron cada uno de los estudiantes

1 2 3 4
1,1 1,2 1,3 1,4
2,1 2,2 2,3 2,4
3,1 3,2 3,3 3,4
4,1 4,2 4,3 4,4

Con el espacio muestral formado por los valores que asume la variable en estudio, en cada
muestra posible, es sencillo identificar los valores que tiene la media muestral.

Ejemplo 4.8 Con los datos anteriores, se realizar la distribucin de la media muestral, y se
calcular la esperanza matemtica y la varianza

La distribucin de la media de la muestra se refleja en la lista de la tabla 4.2 con los valores
que asume la variable aleatoria media de la muestra (nota promedio de cada muestra) y sus
probabilidades asociadas.
Para conocer los valores de la variable, hay que calcular la media muestral en cada una de las
16 muestras posibles

x P( x )

1,0 1/16
1,5 2/16
2,0 3/16
2,5 4/16
3,0 3/16
3,5 2/16
4.0 1/16
Tabla 4.2

La Esperanza matemtica o valor esperado de la media muestral se define como la
sumatoria de los productos de todos los valores de la variable media muestral por sus
respectivas probabilidades:

E ( x ) = x P( x )

En la tabla 4.3 se observa que se agreg respecto de la tabla anterior, una columna con los
productos ( x ) P( x ) para el clculo del valor esperado




1
2
3
4




101

x P( x )

x P( x )
1,0 1/16 1/16
1,5 2/16 3/16
2,0 3/16 6/16
2,5 4/16 10/16
3,0 3/16 9/16
3,5 2/16 7/16
4.0 1/16 4/16
1 2,5
Tabla 4.3

E ( x ) = 2,5


La Varianza de la media muestral se la define como el promedio de las desviaciones al
cuadrado entre los valores de la media muestral y su esperanza. La formula de calculo
desarrolada es:
V ( x ) = x
2
P( x ) [E( x )]
2

En la tabla 4.4 se agrega una nueva columna que se utiliza para el clculo de la varianza

x
P(
) x

x P( x ) x
2
P( x )
1,0 1/16 1/16 1/16
1,5 2/16 3/16 4,5/16
2,0 3/16 6/16 12/16
2,5 4/16 10/16 25/16
3,0 3/16 9/16 27/16
3,5 2/16 7/16 24,5/16
4.0 1/16 4/16 16/16
1 2,5 110/16
Tabla 4.4
V ( x ) = 6,875 2,5
3
= 0,625


La Desviacin estndar de la media muestral se la define como la raiz cuadrada positiva de
la varianza de la media muestral

DE ( x ) = ) (x v

DE ( x ) = 0,79

En el muestreo con reposicin se verifica que existen las siguientes relaciones entre la
estadstica media muestral y los correspondientes parmetros poblacionales

La esperanza de la media muestral es igual a la media poblacional

E ( x ) =

La varianza de la media muestral es igual al cociente entre la varianza poblacional y el
tamao de la muestra

102

V ( x ) =
n
o
2



La desviacin de la media muestral es igual al cociente entre la desviacin poblacional
y la raz cuadrada del tamao de la muestra
DE ( x ) =
n
o


Para verificar que se cumplen esas relaciones, calculemos los valores poblacionales:

=
N
Xi

=
4
4 3 2 1 + + +
= 2,5
o
2
=
N
X

2
-
2
=
4
16 9 4 1 + + +
-
2
5 , 2

o
2
= 1,25
o = 1,11

Entonces:

E ( x ) = = 2.5 = 2.5
V ( x ) =
n
o
2
0,625 =
2
25 , 1

DE ( x ) =
n
o
0,79 =
2
11 , 1




Distribucin de la media muestral
en MSR (muestreo sin reposicin)

Si consideramos el muestreo sin reposicin, es decir, que el elemento de la poblacin que
participa en la muestra no se repone, (no puede ser elegido nuevamente), las muestras
posibles que se pueden obtener, est dado por:


N

C
n

En el caso de contar con una poblacin de tamao N = 5 y se requieran tomar muestras de
tamao n = 2, el espacio muestral o todas las muestras posibles sern
5

C
2


= 10

Ejemplo 4.9 Se cuenta con la misma poblacin de N = 4 alumnos (Juan, Francisco,, Ernesto,
y Pedro), y se pretende tomar muestras de tamao
n = 2, pero sin reponer elementos Cuntas muestras de dos estudiantes podemos tener?

En muestreo sin reposicin el espacio muestral est formado por
4

C
2


= 6 muestras, que se
pueden observar en el cuadro




103


J F E P
J,F J,E J,P
F,E F,P
E,P


En el cuadro se pueden visualizar las muestras que se podran tomar, observe que:

La muestra formada por Juan,Juan, ..........,Pedro,Pedro, no pueden ocurrir ya que el
elemento seleccionado no se puede repetir.
Tambin observe que si se da la muestra Juan,Francisco no puede existir
Francisco,Juan,........, y si sali Francisco.Pedro no puede ocurrir Pedro,Francisco.
Es indistinto trabajar con las seis muestras que estn por encima de la diagonal
principal de esa matriz o trabajar con las seis muestras que estn por debajo de la
diagonal principal (es decir que se cambia el orden en que aprece el elemento en la
muestra:. Ej: J,F por F,J )

De la misma forma que se hizo en MCR al espacio muestral para facilitar el estudio de la
variable, se lo representa directamente con las notas que obtuvieron cada uno de los
estudiantes
1 2 3 4
1,2 1,3 1,4
2,3 2,4
3,4


Con el espacio muestral formado por los valores que asume la variable en estudio, en cada
muestra posible, es sencillo identificar los valores que tiene la media muestral.

Ejemplo 4.10 Con los datos anteriores, realizaremos la distribucin de la media muestral,
calcularemos la esperanza matemtica y la varianza

La distribucin de la media de la muestra se refleja en la lista de la tabla 4.5 con los valores
que asume la variable aleatoria media de la muestra (nota promedio de cada muestra) y sus
probabilidades asociadas.
Para conocer los valores de la variable, hay que calcular la media muestral en cada una de las
6 muestras posibles

x P( x )

1,5 1/6
2,0 1/6
2,5 2/6
3,0 1/6
3,5 1/6
Tabla 4.5

La Esperanza matemtica o valor esperado de la media muestral es:

E ( x ) = x P( x )

En la tabla 4.6 se observa que se agreg respecto de la tabla anterior, una columna con los
productos x P( x ) para el clculo del valor esperado



J
F
E
P




1
2
3
4




104

x P( x )

x P( x )
1,5 1/6 1,5/6
2,0 1/6 2/6
2,5 2/6 5/6
3,0 1/6 3/6
3,5 1/6 3,5/6
1 2,5
Tabla 4.6
E ( x ) = 2,5

La Varianza de la media muestral es

V ( x ) = x
2
P( x ) [E( x )]
2


En la tabla 4.7 se agrega una nueva columna que se utiliza para el clculo de la varianza

x P( x )

x P( x ) x
2
P( x )
1,5 1/6 1,5/6 2,25/6
2,0 1/6 2/6 4/6
2,5 2/6 5/6 12,5/6
3,0 1/6 3/6 9/6
3,5 1/6 3,5/6 12,25/6
1 2,5 40/6
Tabla 4.7

V ( x ) = 6,66 2,5
2
= 0,41


La Desviacin estndar de la media muestral es

DE ( x ) = ) (x V

DE ( x ) = 0,64

En el muestreo sin reposicin se verifica que existen las siguientes relaciones entre la
estadstica media muestral y los correspondientes parmetros poblacionales

La esperanza de la media muestral es igual a la media poblacional

E ( x ) =

La varianza de la media muestral es igual al cociente entre la varianza poblacional y el
tamao de la muestra, pero multiplicado por un factor de correccin: (
1

N
n N
)
V ( x ) =
n
o
2

1

N
n N


105

La desviacin de la media muestral es igual al cociente entre la desviacin poblacional
y la raz cuadrada del tamao de la muestra, multiplicado por la raz del factor de
correccin
DE ( x ) =
n
o
1

N
n N


Para verificar que se cumplen esas relaciones, utilizamos los valores poblacionales, ya
calculados para el anterior muestreo :

=
N
Xi

= 2,5

o
2
=
N
X

2
-
2
= 1,25

o = 1,11


Entonces:

E ( x ) = 2,5 = 2,5
V ( x ) =
n
o
2
1

N
n N
0,41 =
2
25 , 1

1 4
2 4


DE( x ) =
n
o
1

N
n N
0,64 =
2
11 , 1
1 4
2 4






Distribucin de la proporcin muestral

La proporcin de la muestra es una estadstica o una variable aleatoria, y al igual que la media
muestral, tiene una distribucin de probabilidad.
La proporcin de la muestra significa la proporcin de xitos que hay en la muestra, y se
calcula:
p =
n
x


Cuando el tamao de la muestra es grande, n > 30 se puede aplicar teorema del lmite central y
trabajar con la distribucin normal estandarizada

Z =
n
p p
P p
) 1 (






106

Distribucin de la proprcin muestral
en MCR (muestreo con reposicin)

Suponga que se cuenta con una poblacin de tamao N = 4 mquinas automticas (A,B,C,D)
que producen ruedas para autos y cada mquina producen 1,2,3, y 4 ruedas respectivamente
(estos son los valores de la variable X). Si se requiere muestras de tamao n = 2., ya se sabe
que en MCR las muestras posibles que se pueden obtener est dado por:

N
n

En este caso sern 4
2
= 16 muestras posibles de dos ruedas

En el siguiente cuadro se visualizan las 16 muestras posibles de tamao 2 que se pueden
tomar, es decir, el espacio muestral:


A,A A,B A,C A,D
B,A B,B B,C B,D
C,A C,B C,C C,D
D,A D,B D,C D,D

Si al espacio muestral lo representamos directamente con la variable x (cantidad de ruedas que
produce cada mquina)

1,1 1,2 1,3 1,4
2,1 2,2 2,3 2,4
3,1 3,2 3,3 3,4
4,1 4,2 4,3 4,4

El cuadro indica que la primera muestra est conformada por la maquina que produce 1 rueda
y se repite el elemento, la segunda muestra por la maquina que produce 1 rueda y por la
maquina que produce 2 ruedas., la tercera muestra por las maquinas que producen 1 y 3
ruedas, y as sucesivamente.

La distribucin de la proporcin de la muestra se refleja en la lista de la tabla 4.8 con los
valores que asume la variable aleatoria proporcin de la muestra y sus probabilidades
asociadas.
Los valores de la proporcin de la muestra se deben calcular en cada una de las 16 muestras
posibles:
Cuando trabajamos con proporcin, tenemos que definir a que consideramos xito.
Supongamos que definimos como xito a las mquinas que producen ms de dos ruedas

Ejemplo 4.11 En la poblacin de cuatro mquinas, tenemos dos maquinas (C y D) que
producen 3 y 4 ruedas respectivamente, por lo tanto, tenemos dos maquinas consideradas
xito en un total de cuatro

La proporcin poblacional, es la proporcin de xitos en la poblacin y se calcula:

P =
N
X
P =
4
2
= 0, 50







A B C D
A
B
C
D

107

La distribucin de la proporcin muestral es:

p P( p )

0 4/16
0,5 8/16
1 4/16
Tabla 4.8
Observe en el cuadro de todas las muestras posibles, que en las muestras (A,A) (A,B), (B,A) y
(B,B) nos hay xitos, ya que ninguna de las mquinas produce ms de dos ruedas (recuerde
que se defini como xito, aquellas maquinas que producen mas de dos ruedas)
Entonces si se calcula la proporcin muestral para cada una de esas muestras, tenemos que
en las cuatros muestras hay cero xitos sobre dos posibles
p =
n
x
p =
2
0
= 0

Por lo tanto el valor de proporcin muestral cero, aparece cuatro veces, lo que se ve reflejado
en la tabla 4.8 cuando al valor cero de proporcin le asociamos la probabilidad 4/16

Si analizamos la muestra (A,C), se observa que una de las dos maquinas (C) cumple con la
condicin de xito, ya que produce 3 ruedas, por lo tanto en esa muestra tenemos un xito
sobre dos posible, siendo el valor de p :


p =
2
1
= 0,5

Este valor se repite en ochos muestras:

(1,3)(1,4)(2,3)(2,4)(3,1)(4,1)(3,2)(4,2)

En la tabla 4.8 de la distribucin de probabilidad de p , se lo refleja al asociar la probabilidad
8/16

Por ltimo tenemos que el valor de p = 1 aparece en cuatro ocasiones. En las muestras
(3,3)(3,4)(4,3)(4,4) se observa que en las dos maquinas participantes de la muestras se
producen mas de dos ruedas, por lo tanto suceden dos xitos en dos posibles

p =
2
2
= 1

En la tabla 4.8 asociamos al valor p =1 una probabilidad de 4/16

La Esperanza matemtica o valor esperado de la proporcin muestral se la define como la
sumatoria de los productos de los valores de la variable proporcion muestral y sus respectivas
probabilidades:

E ( p ) = p P( p )

p P( p )

p P( p )
0 4/16 0
0,5 8/16 4/16
1 4/16 4/16
1 0,5
Tabla 4.9
108


En la tabla 4.9 se observa que se agreg respecto de la tabla anterior, una columna con los
productos p P( p ) para el clculo del valor esperado
E ( p ) = 0,5

La Varianza de la proporcin muestral se la define como el promedio de la esviaciones al
cuadrado entre los valores de la prooporcion muestral y su esperanza. La formula de clculo
desarrollada es:

V ( p ) = p
2
P( p ) [E( p )]
2

En la tabla 4.10 se agrega una nueva columna que se utiliza para el clculo de la varianza

p P( p )

p P( p ) p
2
P( p )
0 4/16 0 0
0,5 8/16 4/16 2/16
1 4/16 4/16 4/16
1 0,5 6/16
Tabla 4.10

V ( p ) = 0,375 0,5
2
= 0,125


La Desviacin estndar de la proporcin muestral se la define como la raiz cuadrada
positva de la varianza de la proporcion muestral

DE ( p ) = ) ( p V

DE ( p ) = 0,35

En el muestreo con reposicin se verifica que existen las siguientes relaciones entre la
estadstica proporcin muestral y los correspondientes parmetros poblacionales

La esperanza de la proporcin muestral es igual a la proporcin poblacional

E ( p ) = P

La varianza de la proporcin muestral es igual al cociente entre el producto de la
proporcin poblacional por su complemento y el tamao de la muestra

V ( p ) =
n
P P ) 1 (


La desviacin de la proporcin muestral es igual a la raz cuadrada del cociente entre el
producto de la proporcin poblacional por su complemento y el tamao de la muestra
DE ( p ) =
n
P P ) 1 (

Para verificar que se cumplen esas relaciones, calcularemos los valores poblacionales:

P =
N
X
=
4
2
= 0,5

109

o
2
(P) = P(1-P) = 0,5 (1-05) = 0,25

o (P) = ) 1 ( P P = ) 5 , 0 1 ( 5 , 0 = 0,5

Entonces:

E ( p ) = P 0,5 = 0,5
V ( p ) =
n
P P ) 1 (
0,125 =
2
) 5 , 0 1 ( 5 , 0

DE ( p ) =
n
P P ) 1 (
0,35 =
2
) 5 , 0 1 ( 5 , 0




Distribucin de la proporcin muestral
en MSR (muestreo sin reposicin)

Suponga que se cuenta con la misma poblacin de tamao N = 4 mquinas automticas
(A,B,C,D) que producen ruedas para autos y cada mquina producen 1,2,3, y 4 ruedas
respectivamente (estos son los valores de la variable X). Si se requiere muestras de tamao n
= 2., ya se sabe que en MSR las muestras posibles que se pueden obtener est dado por:

N

C
n



En este caso sern
4

C
2
= 6 muestras posibles de dos ruedas

En el siguiente cuadro se visualizan las 6 muestras posibles de tamao 2 que se pueden tomar,
es decir, el espacio muestral:



A,B A,C A,D
B,C B,D
C,D


En el cuadro se pueden visualizar las muestras que se podran tomar, observe que:

La muestra formada por A,A, ..........,D,D, no pueden ocurrir ya que el elemento
seleccionado no se puede repetir.
Tambin observe que si se da la muestra A,B no puede existir B,A,........, y si sali C,D
no puede ocurrir D,C.
Es indistinto trabajar con las seis muestras que estn por encima de la diagonal
principal de esa matriz o trabajar con las seis muestras que estn por debajo de la
diagonal principal (es decir que se cambia el orden en que aparece el elemento en la
muestra:. Ej: A,C por C,A )

Si al espacio muestral lo representamos directamente con la variable x (cantidad de ruedas que
produce cada mquina)
1,2 1,3 1,4
2,3 2,4
3,4


A B C D
A
B
C
D

110

El cuadro indica que la primera muestra est conformada por la maquinas que produce 1 rueda
y 2 ruedas, la segunda muestra por la maquina que produce 1 rueda y por la maquina que
produce 3 ruedas., la ltima muestra por las maquinas que producen 3 y 4 ruedas.

La distribucin de la proporcin de la muestra se refleja en la lista de la tabla 4.11 con los
valores que asume la variable aleatoria proporcin de la muestra y sus probabilidades
asociadas.
Los valores de la proporcin de la muestra se deben calcular en cada una de las 6 muestras
posibles:

Ejemplo 4.12 Si se tiene la misma poblacin del ejemplo anterior pero considerando que el
muestreo es sin reposicin, entonces:

La distribucin de la proporcin muestral es:

p P( p )

0 1/6
0,5 4/6
1 1/6
Tabla 4.11

Si calcula la proporcin muestral para cada una de las seis muestras, se tiene que en la
muestra (1,2) hay cero xitos sobre dos posibles
p =
n
x
p =
2
0
= 0

Por lo tanto el valor de proporcin muestral cero, aparece una vez, lo que se ve reflejado en la
tabla 4.11 cuando al valor cero de proporcin le asociamos la probabilidad 1/6

Si analizamos la muestra (1,3), (1,4), (2,3) y (2,4) se observa que una de las dos maquinas
cumple con la condicin de xito, ya que produce ms de dos ruedas, por lo tanto en esas
muestras tenemos un xito sobre dos posible, siendo el valor de p :
p =
2
1
= 0,5

En la tabla 4.11 de la distribucin de probabilidad de p , se lo refleja al asociar la probabilidad
4/6

Por ltimo tenemos que el valor de p = 1 aparece en una sola ocasin. En las muestra (3,4)
se observa que en las dos maquinas participantes de la muestras se producen mas de dos
ruedas, por lo tanto suceden dos xitos en dos posibles


p =
2
2
= 1

En la tabla 4.11 asociamos al valor p =1 una probabilidad de 1/6








111

La Esperanza matemtica o valor esperado de la proporcin
muestral es:

E ( p ) = p P( p )

p P( p )

p P( p )
0 1/6 0
0,5 4/6 2/6
1 1/6 1/6
1 0,5
Tabla 4.12

En la tabla 4.12 se observa que se agreg respecto de la tabla anterior, una columna con los
productos p P( p ) para el clculo del valor esperado

E ( p ) = 0,5


La Varianza de la proporcin muestral es

V ( p ) = p
2
P( p ) [E( p )]
2


En la tabla 4.12 se agrega una nueva columna que se utiliza para el clculo de la varianza

p P( p )

p P( p ) p
2
P( p )
0 1/6 0 0
0,5 4/6 2/6 1/6
1 1/6 1/6 1/6
1 0,5 2/6
Tabla 4.12

V ( p ) = 0,33 0,5
2
= 0,008

La Desviacin estndar de la proporcin muestral es

DE ( p ) = ) ( p V


DE ( p ) = 0,288


En el muestreo sin reposicin se verifica que existen las siguientes relaciones entre la
estadstica proporcin muestral y los correspondientes parmetros poblacionales


La esperanza de la proporcin muestral es igual a la proporcin poblacional

E ( p ) = P

112

La varianza de la proporcin muestral es igual al cociente entre el producto de la
proporcin poblacional por su complemento y el tamao de la muestra, multiplicado por
el factor de correccin

V ( p ) =
n
P P ) 1 (
1

N
n N


La desviacin de la proporcin muestral es igual al producto entre la raz cuadrada de:
el cociente entre el producto de la proporcin poblacional por su complemento y el
tamao de la muestra, con la raz cuadrada del factor de correccin

DE ( p ) =
n
P P ) 1 (
1

N
n N


Para verificar que se cumplen esas relaciones, utilizaremos los valores poblaciones ya
calculados

P =
N
X
=
4
2
= 0,5

o
2
(P) = P(1-P) = 0,5 (1-05) = 0,25

o (P) = ) 1 ( P P = ) 5 , 0 1 ( 5 , 0 = 0,5


Entonces:

E ( p ) = P 0,5 = 0,5

V ( p ) =
n
P P ) 1 (

1

N
n N
0,008 =
2
) 5 , 0 1 ( 5 , 0

1 4
2 4



DE ( p ) =
n
P P ) 1 (
1

N
n N

0,28 =
2
) 5 , 0 1 ( 5 , 0
1 4
2 4

















113

Resumen

La teora del muestreo consiste en un conjunto de procedimientos y tcnicas desarrolladas para
estudiar relaciones entre poblaciones y parte de ellas con el objeto de obtener conclusiones
para toda la poblacin
Las razones por las cuales es conveniente trabajar con muestras y no con poblaciones, son:
exactitud, costo, tiempo, y pruebas destructivas.
Para seleccionar muestras existen diferentes tcnicas: Muestreo irrestricto aleatorio, muestreo
sistematico, muestreo estratificado, y muestreo por conglomerados de una y dos etapas.
Se llaman distribuciones de muestreo a la distribucin de probabilidad de una estadstica.
La media muestral y la proporcin muestral tienen distribuciones normales por aplicacin del
teorema del lmite central.












































114

Ejercicios


4.1. Una empresa dispone de cuatro maquinas: A, B, C, D, que producen un gasto de 2, 4,
6, y 8 pesos por hora de trabajo, respectivamente. Para el caso de muestreo con
reposicin, cuantas son las muestras de tamao dos que se pueden tomar.

4.2. Con los datos del ejercicio 4.1, obtenga, respecto del gasto:

a. La distribucin de probabilidad de la media muestral (gasto).
b. La esperanza de la media muestral.
c. La desviacin de la media muestral.
d. Verifique las relaciones que se cumplen entre estadsticos y parmetros

4.3 Se sabe que, el ao anterior el promedio de ventas por tienda de un producto
determinado de consumo popular tuvo una distribucin normal con media $ 3.400.000
con desviacin estndar de
$ 200.000. Si son muy numerosas las tiendas que manejan ese producto, determine el
error estndar de la media, para una muestra de tamao 25.

4.4 Con referencia al problema 4.3 cul es la probabilidad de que las ventas de una
tienda elegida al azar sean:

a. Mayores de $ 3.500.000
b. 0ntre $ 3.350.000 y $ 3.450.000

4.5 Los siguientes concesionarios oficiales: R (Renault). F (Fiat), P (Peugeot) W (VW), y C
(Chevrolet) venden 20, 25, 10, 15, y 5 autos por mes, respectivamente. Para el caso
de muestreo sin reposicin y con tamao de muestra igual a dos. Obtenga:

a. La cantidad de muestras posibles que se pueden tomar
b. La distribucin por muestreo de la media muestral (ventas).
c. El valor esperado de ventas
d. La desviacin de la media muestral

4.6 Sobre la base de los datos del ejercicio 4.1 y considerando exitosas las maquinas que
tienen un gasto por hora de trabajo, menor a 6 pesos. Obtenga:

a. La distribucin de probabilidad de la proporcin muestral
b. El valor esperado de la proporcin
c. La desviacin estndar de la proporcin
d. Verifique las relaciones existentes entre los estadsticos y los
parmetros.

4.7 Con los datos de los concesionarios de automviles del problema 4.5 y considerando
exitosas a las concesionarias que venden ms de 10 autos por mes. Obtenga:

a. La cantidad de muestras posibles de tamao dos
b. La distribucin de probabilidad de la proporcin muestral
c. El valor esperado de la proporcin
d. La desviacin estndar de la proporcin.
e. Verifique las relaciones existentes entre los estadsticos y los
parmetros.


115

4.8 Seleccione utilizando una tabla de nmeros aleatorios, 4 muestras de 4 empleados, de
la siguiente tabla de distribucin de frecuencias de los aos de 100 empleados de la
empresa AcerosCord:

Aos N de empleados
20-25 6
25-30 17
30-35 45
35-40 20
40-45 12

Encuentre:

a. La media poblacional
b. La media de cada una de las muestras obtenidas y comprela con la
media poblacional.
c. Realice un comentario.

4.9 La gerencia de una publicacin para Administradores desea realizar una encuesta
sobre la critica de los lectores respecto de la publicacin. En la actualidad hay 150.000
lectores y se recolectar informacin del 20 % de ellos. Cmo utilizara la tcnica de
muestreo sistemtico?.

4.10 Se va a seleccio3nar una muestra de 1200 empresas, sabiendo que componen un 10
% de la poblacin industrial. Las empresas se encuentran clasificadas de acuerdo al
volumen de produccin:
Grupo Cant. de empresas
1 5000
2 4000
3 3000

Realice los tres casos que conoce de muestreo estratificado.

4.11 Una compaa de lneas area desea saber la opinin de sus clientes respecto del
servicio brindado en viaje. Recolectar informacin de sus clientes que se encuentran
categorizados como muestra la tabla
Categora Clientes
VIP 10000
A 40000
B 50000

Se desea tomar una muestra del 10% de los clientes. Disee un plan de muestreo de
manera que cada categora quede representada proporcionalmente en esa muestra.

4.12 Utilice la tcnica de Muestreo Aleatorio Simple para seleccionar tres muestras de
tamao cuatro de la siguiente distribucin de saldos deudores:

Saldos Clientes
100-150
150-200
200-250
250-300
300-350
350
150
150
100
80
350-400 70
400-450
450-500
50
50

116

Compare las medias de cada una de las muestras con la media poblacional.

4.13 Durante el ao en curso el nmero de mdulos aprobados, en un postgrado para
ejecutivos de una empresa alimenticia, fueron los siguientes:

Ejecutivo Modulo
A 1
B 2
C 2
D 3
E 4
F 5
Se debe:

a. Encontrar la desviacin poblacional y media poblacional.
b. Encontrar cuantas muestras son las posibles de tamao 2 que pueden
extraerse con reposicin de esa poblacin. Construya el espacio
muestral.
c. Asignar la probabilidad de extraccin de cada muestra.
d. Definir la variable aleatoria (media de la muestra) y calcular todos los
valores posibles que puede asumir.
e. Encontrar la funcin de cuanta de esa variable
f. Calcular la esperanza y la desviacin de esa variable.

4.14 Sobre la base de los datos del ejercicio 4.13, considrese exitoso a los ejecutivos que
han aprobado mas de 3 mdulos y teniendo en cuenta el M.C.R.

Se pide:
a. Encontrar la proporcin poblacional y la desviacin de
la proporcin.
b Definir la variable aleatoria (proporcin de la muestra) y
calcular todos los valores posibles que puede asumir.
c Encontrar la funcin de cuanta de esa variable
d Calcular la esperanza y la desviacin de esa variable.
e. Relacionar los estadsticos con los parmetros.

4.15 Sobre la base de los datos del problema 4.13, realice el mismo
estudio para muestreo sin reposicin.

4.16 Suponga que los salarios por hora de cierto tipo de empleados de
una industria tiene distribucin aproximadamente normal, con una
media y desviacin estndar de $4.50 y $ 0.50, respectivamente. Si
se obtiene una muestra aleatoria de tamao 16 a partir de esa
poblacin, calcular la probabilidad que la media del salario por hora
para dicha muestra sea:

a. Mayor que $ 4.25
b. Entre $ 4.25 y $ 4.75
c. Mayor que $ 4.80
d. Menor que $ 4.20

Considrese la distribucin muestral de la media de la muestra para n = 16

e. Qu porcentaje de las medias muestrales son mayores que $ 4.65?

4.17 Se cree que en una ciudad el 20 % de las familias tiene por lo menos un televisor. Una
muestra de 150 familias produjo un valor de proporcin igual 0.27. Si el valor del 20 por
117

ciento es correcto, cul es la probabilidad de obtener una proporcin mayor o igual al
de la muestra?

4.18 Cierta empresa tiene 2000 empleados. Durante un ao reciente, el
gasto medio por empleado debido a servicios mdicos fue de $ 31.50
y la desviacin estndar de $ 6.00. Cul es la probabilidad de que
una muestra aleatoria simple de 36 empleados proporcione una
media entre $ 30.00 y $ 33.00?

4.19 Suponga que una determinada ciudad tiene que seleccionar 10
Instituciones educativas con diversidad de caractersticas. Cmo
hara esa seleccin utilizando el muestreo por conglomerados?

4.20 Para el problema 4.19 cmo aplicara el muestreo estratificado?

4.21 Considrese cinco maquinas de una planta, respecto al nmero de
piezas que producen por minutos:

Maquina Piezas
A 7
B 9
C
D
2
3

Con la informacin recopilada se le pide que:

a. Calcule la media y la desviacin tpica poblacional
b. Calcule la cantidad de muestras posibles que
se pueden tomar de tamao 2, con reposicin.
c. Obtenga la distribucin de probabilidad de la media
muestral
d. Calcule la esperanza y la desviacin de la variable
aleatoria en estudio.
e Verifique los valores calculados, respecto de
las relaciones con los parmetros.

4.22 Respecto del anterior caso se quiere saber lo siguiente :

a. Calcule la proporcin poblacional, si se considera como xito maquinas que
producen mas de 5 piezas por minuto.
b. Calcule la cantidad de muestras posibles que se pueden tomar de tamao 2,
sin reposicin.
c. Obtenga la distribucin de probabilidad de la proporcin muestral
d. Calcule la esperanza y la desviacin de la variable aleatoria en estudio.
e. Verifique los valores calculados, respecto de las relaciones con los parmetros.

4.23 Utilice una tabla de nmeros aleatorios para extraer 4 muestras (con reposicin) de
cinco individuos cada una, de la siguiente distribucin de ingresos (en pesos) de los
empleados de una empresa del parque industrial:

Ingreso en pesos

Cantidad
300-350 1600
350-400 3900
400-450 3400
450-500
500-550
1000
100

118

a. Calcule la media poblacional
b. Calcule la media para cada muestra
c. Cmo interpreta usted los resultados obtenidos?.

4.24 Se desea realizar una encuesta a establecimientos industriales de una
determinada ciudad. Se confeccion el siguiente padrn, que arroja un
total de 300 establecimientos industriales. Los establecimientos han
sido agrupados por rama de actividad principal:

Grupo

Cantidad
1 80
2 120
3 100

Obtener una muestra de 90 establecimientos, aplicando una tcnica que utilice la
proporcin de establecimientos que hay en los grupos.

4.25 Los datos que se muestran en tabla estn referidos a las cantidades
almacenadas, en depsitos de diferentes regiones, de tres productos
fabricados en un mismo pas.

Almacn Productos Desviacin
I 150 10
II 500 5
III 180 2

Se desea obtener una muestra de tamao 96, utilizando los tres tipos de afijacin que
conoce.

4.26 Una empresa necesita encuestar a sus clientes, para saber la calidad de un producto
que est comercializando. La empresa tiene en total 5000 clientes activos y la encuesta
se enviar al 20 % de ellos. Cmo aplicara la tcnica del muestreo sistemtico?





















119

Respuestas

Para la resolucin de los ejercicios, se utiliz el programa de computacin Microsoft Excel, por
lo tanto puede haber alguna diferencia con mtodos manuales de clculo.

4.1 16

4.2 a) b) 5 c) 1,58
x P( x )

2 1/16
3 2/16
4 3/16
5 4/164
6 3/16
7 2/16
8 1/16


d) E ( x ) = = 5 V ( x ) =
n
o
2
= 2.,5
DE( x ) =
n
o
= 1,58

4.3 40.000

4.4 a) 0,006 b) 0,788

4.5 a) 10 b) c) 15 d) 4,33


x P( x )

7,5 1/10
10 1/10
12,5 2/10
15 2/10
17,5 2/10
20 1/10
22,5 1/10


4.6 a) b) 0,5 c) 0,35

p P( p )

0 4/16
0,5 8/16
1 4/16

d) E( p ) = P = 0,50 V( p ) =
n
P P ) 1 (
= 0,125

120

D.E ( p ) =
n
P P ) 1 (
= 0,35


4.7 a) 10 b) c) 0,6 d) 0,30

p P( p )

0 1/10
0,5 6/10
1 3/10

d) E ( p ) = P = 0,60 V ( p ) =
n
P P ) 1 (

1

N
n N
= 0,09

DE ( p ) =
n
P P ) 1 (
1

N
n N
= 0,30


4.8 a) 33.61 b) depende del azar c) la media poblacional es constante,
en cambio la media muestral es
una variable aleatoria

4.9 Factor de muestreo = 5 Se elige un valor aleatorio entre 1 y 5 ,
luego a ese valor le sumamos
sistemticamente el factor de muestre,
hasta completar la muestra

4.10 Igual 400 empresas de cada grupo

Proporcional Grupo 1: 500
Grupo 2: 400
Grupo 3: 300

Optimo Se requiere la desviacin para su clculo



4.11 VIP 1000
A 4000
B 5000

4.12 Media poblacional = 228,5
Las medias muestrales son variables aleatorias

4.13 a) o = 1,34 = 2,83 b) 36 c) 1/36









121

d) y e) f) E( x ) = 2,83 o( x ) = 0,95


x P( x )

1 1/36
1,5 4/36
2 6/36
2,5 6/36
3 7/36
3,5 6/36
4 3/36
4,5 2/36
5 1/36

4.14 a) 0,33 0,47 b) y c) d) 0,33 0,11


p P( p )

0 16/36
0,5 16/36
1 4/36

e) relaciones entre p y P

4.15 a) o = 1,34 = 2,83 b) 15 c) 1/15 d)

x P( x )

1,5 2/15
2 2/15
2,5 3/15
3 3/15
3,5 3/15
4 1/15
4,5 1/15

e) E( x ) = 2,83 o( x ) = 0,84

4.16 a) 0,9772 b) 0,9544 c) 0,008 d) 0,008 e) 11,5 %

4.17 0,016

4.18 0,8663

4.19 Podra utilizar las seccionales o sectores como conglomerados

4.20 Clasificacin de colegios por tipo o nivel

4.21 a) = 5,25 o = 2,86 b) 16 c)






122

x P( x )

2 0,0625
2,5 0,125
3 0,0625
4,5 0,125
5 0,125
5,5 0,125
6 0,125
7 0,625
8 0,125
9 0,625

d) E( x ) = 5,25 o( x ) = 2,02

4.22 a) P = 0,50 b) 6 c)

p P( p )

0 1/6
0,5 4/6
1 1/6

e) E( p ) = 0,50 o( p ) = 0,28

4.23 a) = 395,5
b) las medias muestrales son variables aleatorias

4.24 Grupo 1 24
Grupo 2 36
Grupo 3 30

4.25 Igual : 32
Proporcional: 17, 58, y 21
Optimo 33, 55, y 8

4.26 Factor de muestreo = 5
Se elige un valor aleatorio y sistemticamente se adiciona 5



















123

Preguntas de revisin

Cules son las razones del muestreo?
Qu entiende por pruebas destructivas?
Qu es una distribucin en el muestreo?
Cuntas muestras son posibles en el muestreo con reposicin?
Cuntas muestras son posibles en el muestreo sin reposicin?
Por qu la media muestral es una variable aleatoria?
Cul es el significado de la proporcin de la muestra?
A qu es igual la esperanza de la media de la muestra?
Qu interpreta por esperanza de la media muestral?
Qu relaciones conoce entre la variable aleatoria, media de la muestra y su
parmetro, media poblacional?
Qu relaciones conoce entre la proporcin de la muestra y la proporcin
poblacional?
Cules son los procedimientos para seleccionar muestras?
En qu se basa el muestreo aleatorio simple?
Qu tipo de afijaciones existen en el muestreo estratificado?
Qu desventaja tiene el muestreo sistemtico?
Se puede complementar el muestreo por conglomerado con otro muestreo?




Trminos claves


Muestreo Distribucin de la proporcin
Razones de muestreo Teorema del lmite central
Muestreo aleatorio simple Esperanza de la media
Muestreo sistemtico Varianza de la media
muestral
Muestreo estratificado Esperanza de la proporcin
muestral
Afijacin Varianza de la proporcin
muestral
Muestreo por conglomerado Relaciones entre estadsticos
y parmetros
Distribuciones en el muestreo
Muestreo con reposicin
Muestreo sin reposicin
Distribucin de la media













124

Actividades

Los estudiantes pueden realizar alguna de las actividades que se enumeran a manera de
ensayo:

o Seleccionar una muestra aleatoria simple de cinco estudiantes, utilizando el M.A.S y
comparar la nota promedio de todos los estudiantes del curso, con la nota promedio
obtenida e la muestra
.
o Dividir al curso en grupos o estratos y tomar una muestra de seis estudiantes, utilizando
diferentes afijaciones

o Tomar una muestra de seis estudiantes de manera que queden representados
proporcionalmente la mujeres y los varones

o Definir una poblacin de seis alumnos y tomar muestras de tamao dos, indicando la
cantidad de muestras posibles, calculando la nota promedio de los seis estudiantes y el
valor esperado de la nota promedio de las muestras

o Utilizar el programa Microsoft Excel para seleccionar muestras






























125

Capitulo 5

Estimacin estadistica



La inferencia estadstica es el proceso mediante el cual se utiliza la informacin de los
datos de una muestra para extraer conclusiones acerca de la poblacin de la que se
seleccion la muestra. Las tcnicas de la inferencia estadstica pueden dividirse en dos reas
principales: estimacin de parmetros y pruebas de hiptesis
A lo largo de la unidad se tratarn los mtodos clsicos para estimar los parmetros de la
poblacin desconocidos como la media poblacional, la proporcin poblacional y la desviacin
poblacional, mediante el clculo de estadsticas de muestras.


Estimacin puntual

La estimacin puntual o por puntos de un parmetro de poblacin es solo un valor numrico
de una estadstica que corresponde a ese parmetro. Esto es, una seleccin nica para el
valor de un parmetro desconocido.
Por ejemplo si x es una variable aleatoria con distribucin de probabilidad f(x), el valor de x es
un estimacin puntual del parmetro poblacional . De manera similar p es una estimacin
puntual de la verdadera proporcin P.

No se espera que un estimador realice la estimacin del parmetro poblacional sin error, sino
esperamos que no est muy alejado.

A menudo se necesita estimar:

la media de una poblacin
la varianza o
2
o la desviacin estndar o de una poblacin
la proporcin P de una poblacin

Las estimaciones puntuales razonables de estos parmetros, son respectivamente

o la media de la muestra ( x ),
o la varianza de la muestra (S
2
),o la desviacin estndar de la muestra (S),
o la proporcin de la muestra ( p ),
.
Puede haber varios estimadores puntuales potenciales diferentes para un determinado
parmetro, pero los indicados arriba, son los mejores ya que cumplen con una serie de
propiedades.






126

Propiedades de los estimadores

- Insesgabilidad. Se dice que una estadstica u

es un estimador insesgado del


parmetro u si la E(u

) = u

Es decir que desearamos que la distribucin muestral del u

tuviera una media igual al


parmetro estimado. Si es as, se dice que ese estimador es insesgado.

- Eficiencia. Si se consideran todos los posibles estimadores de un parmetro, aquel
que tiene menor variacin se llama estimador ms eficiente

- Consistencia. Es una propiedad de muestras grandes. El estimador u

se acerca al
parmetro u a medida que crece el tamao de la muestra, en este caso se dice que el
estimador es consistente.

- Suficiencia. Se dice que un estimador u

es suficiente si se obtiene con la mayor


informacin posible de una muestra.


Ejemplo 5.1 Se desea estimar la verdadera nota promedio de una poblacin compuesta por
todos los estudiantes de primer ao de la carrera Ingeniera en Sistemas. Se seleccion una
muestra aleatoria de 30 estudiantes y la nota promedio es de 6.50

Parmetro a estimar

Estimador a utilizar x

Al realizar la estimacin puntual, se puede decir que se estima que la verdadera nota
promedio es 6.50


Ejemplo 5.2 Una empresa de aviacin pretende estimar la verdadera proporcin de
accidentes causados por falla humana. Para ello, toma una muestra de 100 accidentes, de los
cuales 30 fueron por esa causa.

Parmetro a estimar P

Estimador a utilizar p

p =
n
x
=
100
30



Se estima que la verdadera proporcin de accidentes por falla humana es de 0,30

Es improbable que incluso el estimador insesgado mas eficiente estime el parmetro con
exactitud. Es cierto que la precisin aumenta con muestras grandes, pero no debemos esperar
que una estimacin puntual de una muestra sea exactamente igual al parmetro poblacional. En
muchas situaciones es preferible determinar un intervalo de confianza dentro del cual
esperaramos encontrar el valor del parmetro. Tal estimacin se denomina estimacin por
intervalo




127

Estimacin por intervalo

En muchas ocasiones una estimacin puntual no proporciona suficiente informacin acerca del
parmetro de inters. Una estimacin de intervalo de la forma LI < u < LS podra resultar ms til.
Los puntos extremos de este intervalo sern variables aleatorias puesto que son funciones de
datos provenientes de una muestra.
En general para construir un intervalo del parmetro desconocido u, debemos encontrar dos
estadsticas LI y LS tales que:

P (LI < u < LS) = 1 - o

El intervalo LI < u < LS se llama intervalo de confianza de (1 - o) 100%.
La fraccin 1 - o se llama coeficiente de confianza o grado de confianza
Los extremos LI y LS se denominan lmites de confianza inferior y superior

Entonces tenemos una probabilidad de 1 - o de seleccionar una variable aleatoria que produzca
un intervalo que contenga al parmetro u

La longitud de un intervalo de confianza observado es una mediad importante de la calidad de la
informacin obtenida de la muestra. La longitud de medio intervalo u - LI o LS - u se denomina la
precisin del estimador. Cuanto mayor es el intervalo de confianza, tanto mayor confianza
tendremos de que el intervalo contiene el verdadero valor de u. Una situacin ideal sera un
intervalo relativamente corto con una elevada confianza.


Estimacin de la media poblacional (varianza conocida)

Sea x una variable aleatoria con media desconocida y varianza conocida o
2
y supngase que se
toma una muestra aleatoria de tamao n, puede obtenerse un intervalo de confianza de 100 (1-o)
por ciento.
Si la distribucin de muestreo de x es normal y segn el teorema central del lmite la
estadstica Z es:
Z =
n
x
o



Donde
P ( - Z
o/2
< Z < Z
o/2
) = 1-o

que se puede observar en la figura 5.1

Por lo tanto

P (- Z
o/2
<
n
x
o

< Z
o/2
) = 1-o

Como se pretende estimar la media , esto puede reacomodarse


P ( x - Z
o/2
:
n
o
< < x + Z
o/2
:
n
o
) = 1-o

128

De esta manera el intervalo de confianza para la media poblacional con varianza conocida o
2

queda:
x - Z
o/2
:
n
o
< < x + Z
o/2
:
n
o




Fig. 5.1

Si se utiliza x como una estimacin de podemos tener una confianza de (1-o) 100 % de que
el error de estimacin no exceder de Z
o/2
:
n
o

e = Z
o/2
:
n
o


o bien se puede decir que el error de estimacin es la diferencia que hay entre el estimador y el
parmetro ( x -)

Tambin se puede determinar que si se utiliza x como una estimacin de podemos tener una
confianza de (1-o) 100 % de que el error no exceder una magnitud especfica e cuando el
tamao de la muestra es:

n =
2
2
2 /
2
e
Z o o


Ejemplo 5.3 Un ingeniero analiza la resistencia media a la compresin de concreto. Esta se
distribuye aproximadamente normal con una o
2
= 1000. Una muestra aleatoria de 50
especimenes tiene una resistencia media a la compresin de 3250 psi . El intervalo de
confianza del 95 % es:
x - Z
o/2
:
n
o
< < x + Z
o/2
:
n
o


3250 1,96
50
62 , 31
< < 3250 + 1,96
50
62 , 31


[3241,23 ; 3258,76]

Se estima que la resistencia media a la compresin est entre 3241,23 y 3258,76 psi.

Ejemplo 5.4 Para el ejemplo anterior que tan grande debe ser la muestra si se quiere trabajar
con una confianza del 95 % pero el error de estimacin no debe superar 5 psi.

1-o
o/2 o/2
0 -Z
o/2
Z
o/2
Z
129

n =
2
2
2 /
2
e
Z o o


n =
2
2 2
5
62 , 31 96 , 1 x


n = 154


Relaciones entre el tamao de muestra, riesgo,
y nivel de confianza

Muestra Riesgo Confianza
Crece Disminuye Crece
Decrece Crece Decrece


Relaciones entre el error, riesgo,
y nivel de confianza

Error Riesgo Confianza
Crece Disminuye Crece
Decrece Crece Decrece


Relaciones entre la variable Z, riesgo,
y nivel de confianza

Z Riesgo Confianza
Crece Disminuye Crece
Decrece Crece Decrece



Estimacin de la media poblacional
(varianza desconocida y muestra grande)

Con frecuencia se intenta estimar la media de una poblacin cuando se desconoce la varianza.
Sea x una variable aleatoria con media desconocida y varianza desconocida o
2
y supngase
que se toma una muestra aleatoria de tamao n > 30 puede obtenerse un intervalo de confianza
de 100 (1-o) por ciento.
Al no conocerse la desviacin estndar de la poblacin se utiliza la desviacin de la muestra para
estimarla y si la distribucin de muestreo de x es normal y segn el teorema central del lmite la
estadstica Z es:
Z =
n
s
x




Donde
P ( - Z
o/2
< Z < Z
o/2
) = 1-o

130

Como se observa en la figura 5.1

Por lo tanto
P (- Z
o/2
<
n
s
x
< Z
o/2
) = 1-o

Como se pretende estimar la media esto puede reacomodarse
P ( x - Z
o/2
:
n
s
< < x + Z
o/2
:
n
s
) = 1-o

De esta manera el intervalo de confianza para la media poblacional con varianza desconocida
o
2
, y muestras grandes, queda:
x - Z
o/2
:
n
s
< < x + Z
o/2
:
n
s



Ejemplo 5.5 Suponga que en el ejemplo 5.3 el ingeniero no cuenta con la o
2
Pero de la
muestra que toma de 50 especimenes, obtiene la resistencia media a la compresin de 3250
psi y la varianza de 800. El intervalo de confianza del 95 % es:
x - Z
o/2
:
n
s
< < x + Z
o/2
:
n
s


3250 1,96
50
28 , 28
< < 3250 + 1,96
50
28 , 28


[3246,16 ; 3257,84]



Estimacin de la media poblacional
(varianza desconocida y muestra pequea)

En situaciones se intenta estimar la media de una poblacin cuando se desconoce la varianza y la
muestra a tomar es pequea. .
Sea x una variable aleatoria con media desconocida y varianza desconocida o
2
y supngase
que se toma una muestra aleatoria de tamao n < 30 puede obtenerse un intervalo de confianza
de 100 (1-o) por ciento, utilizando una variable aleatoria.

t =
n
s
x


Tiene una distribucin t de Student con n-1 grados de libertad

El procedimiento es el mismo que en el caso anterior, solo que ahora se trabaja con la variable
aleatoria t

donde P ( - t
o/2
< T < t
o/2
) = 1-o

En la figura 5.2, se observa la grafica; esta distribucin T de student, es platicurtica, es decir que
es mas achatada que la normal
131




Fig 5.2

Por lo tanto
P (- t
o/2
<
n
s
x
< t
o/2
) = 1-o

Como se pretende estimar la media , esto puede reacomodarse
P ( x - t
o/2
:
n
s
< < x + t
o/2
:
n
s
) = 1-o

De esta manera el intervalo de confianza para la media poblacional con varianza desconocida
o
2
, y muestra pequea, queda:
x - t
o/2
:
n
s
< < x + t
o/2
:
n
s


Ejemplo 5.6 Suponga que en el ejemplo 5.3 el ingeniero no cuenta con la o
2
Pero toma una
muestra aleatoria de 20 especimenes y obtiene una resistencia media a la compresin de
3250 psi y una varianza de 800. El intervalo de confianza del 95 % es:

x - t
o/2
:
n
s
< < x + t
o/2
:
n
s


3250 2,093
50
28 , 28
< < 3250 + 2,093
50
28 , 28


[3241,63 ; 3258,37]


el valor t
o/2
= 2,093 se encuentra en la tabla de la distribucin t, con 19 grados de libertad (n-1) y
un riesgo a la derecha de t de 0,025, ya que el riesgo total es es 0,05, pero se distribuye en forma
normal

A continuacin se muestra la tabla t, en donde se muestran los valores necesarios para este
ejemplo






1-o
o/2 o/2
0
-t
o/2
t
o/2

t
132

Uso de la tabla de la distribucin t de student

Grados de libertad = n -1
o
GL 0,30 0,20 0,10 0.05 0,025 0,010 0,005
1 . . .
2.
.



.



18



19

2,093

.



30



Tabla 5.1 Tabla distribucin t de student


Estimacin de la proporcin poblacional

A menudo se requiere construir una intervalo de confianza de 100 (1-o) por ciento en una
proporcin
Si el tamao de muestra n es suficientemente grande, se sabe por el teorema del limite central,
que la variable aleatoria p se distribuye aproximadamente normal

Por lo tanto
Z =
n
p p
P p
) 1 (



Donde
P ( - Z
o/2
< Z < Z
o/2
) = 1-o

Entonces
P (- Z
o/2
<
n
p p
P p
) 1 (

< Z
o/2
) = 1-o

Como se pretende estimar la proporcin P, esto puede
reacomodarse

P( p -Z
o/2
n
p p ) 1 (
< P < p +Z
o/2

n
p p ) 1 (
) = 1-o

De esta manera el intervalo de confianza para la proporcin poblacional P

queda:

p -Z
o/2

n
p p ) 1 (
< P < p +Z
o/2

n
p p ) 1 (




133

Si se utiliza p como una estimacin de P se puede tener una confianza de (1-o) 100 % de que
el error de estimacin no exceder de Z
o/2
:
n
p p ) 1 (


e = Z
o/2
:
n
p p ) 1 (


o bien se puede decir que el error de estimacin es la diferencia que hay entre el estimador y el
parmetro ( p -P)

Tambin se puede determinar que si se utiliza p como una estimacin de P podemos tener una
confianza de (1-o) 100 % de que el error no exceder una magnitud especfica e cuando el
tamao de la muestra es:
n =
2
2 /
2
) 1 (
e
P P Z o


En una estimacin de P se presentan las mismas relaciones entre el tamao de muestra n, el
riesgo o, el nivel de confianza 1-o, y la variable Z, vistas al estimar la media poblacional

Ejemplo 5.7 Un complejo hotelero necesita estimar el porcentaje de turistas que requerirn
estada con pensin completa, en las prximas vacaciones invernales. Para ello utiliz
informacin pasada, en la cual de 500 turistas, 100 requirieron ese tipo de pensin. Se
pretende una confianza del 95 % de que la estimacin sea correcta.


p -Z
o/2

n
p p ) 1 (
< P < p +Z
o/2

n
p p ) 1 (


0,20-1,96
500
) 20 , 0 1 ( 20 , 0
< P < 0,20+1,96
500
) 20 , 0 1 ( 20 , 0


[0,16 ; 0,23]

Es decir que se estima que entre el 16 % al 23 % estara el porcentaje de turistas que utilizara
pensin completa.

Ejemplo 5.8 Para el ejemplo anterior que tamao de muestra se necesita si no se quiere
cometer un error mayor a 3 % en la estimacin.

n =
2
2 /
2
) 1 (
e
P P Z o


n =
2
2
03 , 0
) 20 , 0 1 ( 20 , 0 96 , 1


n = 683

Las relaciones que se producen entre el tamao de muestra, riesgo, y error son las misma que
las vista en la estimacin de una media.


134

Estimacin de la varianza poblacional

Cuando se requiere construir un intervalo de confianza de 100 (1-o) por ciento en una varianza,
se utiliza la estadstica:
X
2
=
2
2
) 1 (
o
S n

Donde
P (X
2
1-o/2
< X
2
< X
2
o/2
) = 1-o

Como se visualiza en la figura 5.3 que muestra la grfica de la distribucin X
2
con n-1
grados de libertad (distribucin asimtrica, con valores X
2
positivos)

Entonces
P(X
2
1-o/2
<
2
2
) 1 (
o
S n
< X
2
o/2
) = 1-o

Como se pretende estimar la varianza o
2
, el intervalo de confianza para la varianza queda


2 /
2
2
) 1 (
o X
S n
< o
2
<
2 / 1
2
2
) 1 (
o

X
S n


En la estimacin de la desviacin poblacional, se utiliza el mismo intervalo, pero se aplica raz
cuadrada a todos los valores, quedando;



2 /
2
2
) 1 (
o X
S n
< o <
2 / 1
2
2
) 1 (
o

X
S n




Ejemplo 5.9 Los siguientes son los pesos (en gramos) de 10 alfajores de chocolate de una
empresa alimenticia: 22, 23, 25, 26, 24, 22, 23, 24, 25, y 26. Encuentre un intervalo de
confianza del 95 % para la varianza de todos los alfajores de la empresa. Suponga distribucin
normal.

2 /
2
2
) 1 (
o X
S n
< o
2
<
2 / 1
2
2
) 1 (
o

X
S n



023 , 19
22 , 2 9
2
x
< o
2
<
70 , 2
22 , 2 9x


[2,33 ; 16,42]
Fig. 5.3
X
2
1-o/2
X
2
o/2

o/2
o/2
135

Resumen

La inferencia estadstica es el proceso mediante el cual se utiliza la informacin de los datos de
un muestra para extraer conclusiones acerca de la poblacin de la que se seleccion la
muestra.
La estimacin puntual o por puntos de un parmetro de poblacin es solo un valor numrico de
una estadstica que corresponde a ese parmetro.
Un buen estimador debe ser: insesgado, consistente, eficiente, y suficiente.
En la estimacin por intervalo se trata de encontrar dos estadsticas, en la que se confia va a
estar ubicado el parmetro.
En la estimacin de media poblacional se utiliza distribucin normal, cuando la varianza es
conocida o bien cuando la muestra es suficientemente grande. En el caso de varianzas
desconocidas y muestras pequeas se aplica la distribucin t de student.
Tambin podemos utilizar la distribucin normal para estimaciones de proporciones
poblacionales, y la distribucin chi-cuadrado para estimaciones de varianzas poblacionales






































136

Ejercicios

5.1 Considrese cuatro rollos de alambre especial, con longitudes 3, 6, 9, y 11 metros

a. Listese todas las posibles muestras de tamao 2 que pueden tomarse
con reemplazo.
b. Calclese la media de cada muestra y luego verifique que la media de
estas sea igual a la media poblacional qu propiedad est
verificando?

5.2 El gerente de control de calidad de una fbrica de lmparas elctricas desea estimar la
duracin promedio de un embarque de lmparas. Se selecciona una muestra aleatoria
de 64 focos, que indican una duracin promedio de 540 horas con una desviacin
estndar de 120 horas. Establezca una estimacin con intervalo de confianza de 95 %
de la duracin promedio real de los focos de ste embarque.

5.3 Suponga que se desea estimar el promedio de ventas por tienda para un producto
determinado de consumo popular. Determine el intervalo de confianza del 95 %
considerando que las ventas se distribuyen aproximadamente normal. Se tom una
muestra de 25 con una media muestral de $ 3.425.000. Se conoce que la desviacin de
todas las tiendas es $ 200.000

5.4 Una muestra de seis empresas, arroj la siguiente cantidad de empleados: 40, 50, 30,
100, 50, y 80 empleados respectivamente.

a Realice una estimacin puntual de la cantidad promedio verdadero de todas
las empresas de la provincia.
b Calcule un estimador insuficiente y otro ineficiente de la cantidad promedio
real.

5.5 Un fabricante produce anillos de pistn para un motor de automvil. Se sabe que el
dimetro de los anillos se distribuye aproximadamente normal y con una desviacin
estndar de 0.001 mm. Una muestra aleatoria de 15 anillos tiene un dimetro medio de
74.036 mm.

a. Construya un intervalo de confianza de dos lados del 99 % con
respecto al dimetro medio de los anillos de pistn.
b. Construya un lmite de confianza inferior del 95 % respecto al dimetro
medio de los anillos de pistn.

5.6 Se sabe que la vida en horas de una bombilla elctrica de 75 watts se distribuye normal
con desviacin estndar de 25 horas. Una muestra de 20 bombillas dio un promedio de
vida til de 1.014 horas.

a. Construya un intervalo de dos lados del 95 por ciento respecto a la vida
media
b. Construya un intervalo de dos lados del 99 por ciento.

5.7 Suponga que en el problema 5.6 deseamos tener una confianza del 95 por ciento de
que el error de la estimacin de la vida media fuera menor que cinco horas qu
tamao de muestra debe usarse?.

5.8 Se sabe por registros histricos, que la desviacin estndar del nivel de ventas por
tienda de un producto es $ 200.000 y se supone que la poblacin de la totalidad de
ventas por tienda tiene una distribucin normal. cul es el tamao mnimo de muestra
que se requiere para estimar el promedio de ventas con un margen de error de $
100.000 y con una confianza del 95 %?.
137


5.9 Un analista desea estimar el salario diario promedio de los trabajadores de una
compaa, con un margen de error de $ 250 y una confianza del 90 %. Se estima que
la desviacin estndar de los salarios no es mayor de $ 1.000 cul es el nmero de
expedientes que deben muestrearse, como mnimo para satisfacer este objetivo de
investigacin?

5.10 Sobre la base del problema 5.3, suponga que no se conoce la desviacin de todas las
tiendas sino la desviacin de la muestra, que es de $ 200.000. Realice la misma
estimacin pero con este nuevo dato.

5.11 Para una muestra aleatoria de 100 hogares de un rea metropolitana grande, el
nmero de hogares en los que cuando menos un adulto est desempleado es 12.
Estime el porcentaje de hogares de esa rea en los que cuando menos un adulto est
desempleado, utilizando un intervalo de confianza del 95 %.

5.12 Un pequeo fabricante adquiere un lote de 200 partes electrnicas del exceso de
inventario de una empresa grande. Se encuentra que para una muestra aleatoria de
50 partes 5 de ellas tienen defectos. Estime la proporcin de todas las partes del
embarque que tienen defectos, utilizando un intervalo de confianza del 95 %.

5.13 Un administrador universitario desea estimar la proporcin de estudiantes inscriptos en
programas de postgrado en administracin de empresas, que tambin tienen
licenciaturas en la misma rea, con un margen de error del 5 % y una confianza del 90
%. qu tamao de muestra debe utilizarse, como mnimo, si no existe ninguna base
para estimar el valor apropiado de la proporcin antes de tomar la muestra?

5.14 Con respecto al problema 5.13 cul es el tamao mnimo de muestra que se requiere
si la informacin seala que la proporcin no es mayor de 0.30?


5.15 Como supervisor del proceso de empacado de caf en sobres, suponga que se toma
una muestra aleatoria de 12 de los sobres en la planta empacadora. El peso neto de
los sobres de caf es el que se reporta en la tabla 5.1. Determine:

Gramos por sobre 15.7 15.8 15.9 16.0 16.1 16.2
Nro. de sobres 1 2 2 3 3 1
Tabla 5.1

a. El peso neto promedio por sobre
b. La desviacin estndar muestral
c. Suponiendo que el peso del caf empacado tiene distribucin
aproximadamente normal, estime el peso promedio por sobre de caf,
utilizando un intervalo de confianza del 95 %.

5.16 Con los datos de la muestra aleatoria del problema 5.15. Estime la varianza para todos
los sobres de caf que se empacan en la planta, utilizando intervalo de confianza del
90 %.

5.17 Para un determinado producto de consumo masivo, el promedio de ventas por
expendio, el ao pasado, de acuerdo con una muestra de n = 10 tiendas fue de $
3.425.000 con una desviacin de $ 200.000. Se supone que las ventas por expendio
tienen una distribucin normal. Estime la varianza y la desviacin de las ventas de
todas las tiendas, utilizando intervalo de confianza del 90 %.

5.18 En un estudio de costos del seguro de automviles, una muestra aleatoria de 80 costos
de reparacin de carroceras para una clase particular de daos tiene una media de $
472.36 y una desviacin estndar de $ 62.35. Si ese valor promedio se utiliza como
138

estimacin puntual del costo de reparacin medio real de esta clase de daos, con
qu confianza podemos afirmar que el error no exceder de $ 10?.

5.19 Si queremos determinar la aptitud mecnica media de un gran grupo de trabajadores,
qu tamao de be tener una muestra aleatoria para asegurar con una probabilidad de
0.95 que la media muestral no difiera de la real por ms de 3.0 puntos?. Supngase
que sabemos por experiencia que la desviacin poblacional es de 20.0.

5.20 El director administrativo de un colegio desea usar la media de una muestra aleatoria
para estimar la cantidad promedio de tiempo que tardan los alumnos en ir de una clase
a la siguiente, y adems quiere poder asegurar con una confianza del 99 % que el error
es a lo ms 0.25 minutos. Si puede suponerse por experiencia que la desviacin real es
de 1.40 minutos qu tamao debe tener la muestra?.

5.21 Una muestra aleatoria de 100 profesores en una gran ciudad revela un salario semanal
promedio de $ 487, con una desviacin estndar de $ 48, con qu nivel de confianza
podemos afirmar que el salario medio semanal de todos los profesores de esa ciudad
est entre $ 472 y $ 502?.

5.22 Un distribuidor de combustible mantiene registros sobre las operaciones con sus
clientes. Si una muestra de n = 18 de estos registros indica ventas promedio de 63.84
galones de diesel, con una desviacin estndar de 2.75 galones y si utilizamos ese
promedio como estimacin de las ventas medias por cliente, qu podemos decir, con
una confianza del 99 %, acerca del error mximo?

5.23 Una maquina produce barras metlicas que se usan en el sistema de suspensin de un
automvil. Se selecciona una muestra aleatoria de 15 barras y se mide el dimetro (en
mm). Los datos resultantes se muestran a continuacin:

8.24 8.23 8.20 8.21 8.20
8.23 8.26 8.24 8.25 8.19
8.28 8.26 8.23 8.24 8.25

Construya un intervalo de confianza de dos lados de 95 por ciento respecto al dimetro
medio barra.

5.24 Un fabricante de calculadoras est interesado en saber la fraccin de unidades
defectuosas que se producen Una muestra aleatoria de 800 calculadoras incluye 18
defectuosas. Calcule un intervalo de confianza del 99 por ciento respecto de la fraccin
de unidades defectuosas.

5.25 Se lleva a cabo un estudio para determinar el porcentaje de propietarios de casa que
poseen al menos dos aparatos de televisin qu tan grande debe ser la muestra si se
desea tener una confianza del 99 por ciento de que el error al estimar esta cantidad
sea menor que 0.01?.











139

Respuestas

Para la resolucin de los ejercicios, se utiliz el programa de computacin Microsoft Excel, por
lo tanto puede haber alguna diferencia con mtodos manuales de clculo.

5.1 a) 16 b) = 7,25 ; insesgabilidad

5.2 [510 ; 569]

5.3 [3.346.601 ; 3.503.398]

5.4 a) 58,33 b) M
d
= 50 M
e
= 50

5.5 a) [74,0353 ; 74,0366] b) [74,0354 ; 74,0365]

5.6 a) [1003,04 ; 1024,95] b) [999,60 ; 1028,39}

5.7 97

5.8 16

5.9 44

5.10 [3.342.440 ; 3.507.560}

5.11 [0,05 ; 0,18]

5.12 [0,096 ; 0,103]

5.13 271

5.14 228

5.15 a) 15,96 b) 0,14 c) [15,87 ; 16,04]

5.16 [0,012 ; 0,053)

5.17 Desviacin (329.292 ; 145.908]

5.18 0,8472

5.19 171

5.20 209

5.21 0,9982

5.22 1,87

5.23 [8,219 ; 8,248]

5.24 [0,008 ; 0,038]

5.25 16.590



140

Preguntas de revisin

Qu entiende por inferencia estadstica?
Qu es la estimacin puntual?
Cules son las propiedades que deben cumplir los estimadores?
Qu significa que un estimador sea consistente?
Cundo un estimador es eficiente?
De qu se trata la estimacin por intervalo?
Cuntos casos de estimacin de media conoce?
Qu distribucin utiliza para estimar media con varianza conocida?
Cundo utiliza distribucin t de student?
Para estimar que parmetro se usa la distribucin X
2
?
Qu entiende por nivel de confianza?
Qu es el error de estimacin?
A qu se refiere el riesgo?
Qu relaciones se producen entre el tamao de la muestra, el error de estimacin y el riesgo?



Trminos claves


Inferencia estadstica Estimacin por intervalo
Estimacin de la media
poblacional
Estimacin de la proporcin
poblacional
Estimacin puntual Estimacin de la varianza
poblacional
Estimadores Lmites del intervalo de
confianza
Propiedades de estimadores Nivel de confianza
Insesgabilidad Riesgo
Consistencia Eficiencia
Suficiencia


















141

Actividades


Los estudiantes pueden realizar alguna de las actividades que se enumeran a manera de
ensayo:


o Seleccionar una muestra aleatoria de 15 estudiantes y realizar una estimacin puntual de
la edad promedio del curso
.
o Realizar una estimacin por intervalo de la nota promedio del segundo parcial, en base a
una muestra con las notas promedios del primer parcial.

o Utilizar el programa Microsoft Excel para calcular los intervalos de confianza































142

Capitulo 6

Pruebas de hiptesis de una y
dos muestras



Hiptesis estadsticas

Muchas veces, el problema al que se enfrenta un cientfico, ingeniero, o profesional, no es
tanto la estimacin de un parmetro poblacional, sino ms bien la formacin de un
procedimiento de decisin que se base en la informacin proporcionada por la muestra. El
profesional o ingeniero postula o conjetura algo acerca del valor que puede asumir cierto
parmetro

Una hiptesis estadstica es una aseveracin o conjetura con respecto a una o ms
poblaciones

La verdad o falsedad de una hiptesis estadstica, nunca se sabe con certeza, a menos que se
examine toda la poblacin. En su lugar, se toma una muestra aleatoria de esa poblacin de
inters y se utiliza la informacin de la muestra para proporcionar evidencias que apoyen o no
la hiptesis.
La evidencia de la muestra que es consistente con la hiptesis conduce al no rechazo de
la hiptesis, mientras que si es inconsistente con la hiptesis conduce al rechazo de la
misma.
Debe quedar claro que la aceptacin de una hiptesis implica que los datos de la muestra no
dan la suficiente evidencia para rechazarla
Generalmente el cientfico se interesa en apoyar con fuerza una opinin, por lo tanto desea
llegar a la opinin en forma de rechazo

Ejemplo 6.1 Si un investigador en medicina desea mostrar fuertes evidencias a favor de que el
fumar aumenta el riesgo de contraer cncer, la hiptesis a probar debe ser de la forma no
hay aumento en el riesgo de contraer cncer como producto de fumar Como resultado,
seguramente la opinin se alcanza por medio de un rechazo.

La estructura de la prueba de hiptesis se formula con el uso de una hiptesis nula, que se
denota con H
o
y es la hiptesis a probar. El rechazo de H
o
conduce a la aceptacin de la
hiptesis alternativa H
1

Una hiptesis nula siempre se establece de modo que el parmetro asuma un valor exacto,
mientras que la hiptesis alternativa permite la posibilidad de uno o varios valores.


Prueba de hiptesis

El procedimiento de una prueba de hiptesis se realiza para tomar alguna decisin respecto de
las hiptesis. La decisin se fundamenta en la informacin recogida de la muestra y por lo tanto
no tendremos la certeza de que la decisin es la correcta.

143

Por lo tanto, al tomar la decisin, se podran cometer errores:

El rechazo de la hiptesis nula cuando es verdadera, se llama error tipo I
La aceptacin de la hiptesis nula cuando es falsa, se llama error tipo II

Al probar hiptesis estadsticas, se pueden producir diferentes situaciones que se visualizan en
la tabla 6.1

H
0
es verdadera H
0
es falsa
Aceptar H
0
Decisin correcta Error tipo II
Rechazar H
0
Error tipo I Decisin correcta
Tabla 6.1

La probabilidad de cometer el error tipo I, tambin se llama nivel de significacin, se denota
con o, e indica la probabilidad de rechazar la hiptesis nula cuando es verdadera.
Esta probabilidad la fija el investigador, comnmente a valores bajos, por ejemplo 5 % o 1 %

o = P (Error tipo I) = P (R H
0
/ H
0
es verdadera)

Tambin se le conoce como tamao de la regin crtica, es muy pequea y por lo tanto es poco
probable que se cometa el error tipo I

La probabilidad de cometer el error tipo II, se denota por |, es imposible de calcularla, a menos
que tengamos una hiptesis alternativa especifica. Indica la probabilidad de aceptar la hiptesis
nula cuando es falsa.
Esta es una probabilidad ms bien alta

| = P (Error tipo II) = P (A H
0
/ H
0
es falsa)

Por supuesto, es preferible que las probabilidades de cometer los errores tipo I y tipo II sean lo
ms baja posible-
Para un tamao de muestra fijo, una disminucin en la probabilidad de un error, por lo general
tiene como resultado un aumento en la probabilidad del otro error. Para reducir ambas
probabilidades se debe aumentar el tamao de la muestra.

Hay una serie de propiedades a tener en cuenta:

o Los errores tipo I y tipo II estn relacionados. Cuando uno disminuye por lo general el
otro aumenta.
o El tamao de la regin crtica, probabilidad de cometer el error tipo I, siempre se puede
reducir al ajustar el o los valores crticos.
o Entre ms grande sea la distancia entre el valor real y el valor hipottico, ser menor
|.
o Un aumento en el tamao de la muestra reducir o y | en forma simultanea


Potencia de una prueba

La potencia de una prueba es la probabilidad de rechazar H
0
, dado que una alternativa
especfica es verdadera.
Se denota como 1-|, para poder calcular esta probabilidad debemos tener una valor especfico
de la hiptesis alternativa.
Para producir una potencia alta, se debe aumentar o o aumentar el tamao de la muestra.
Tambin se har mas grande 1-| cuando sean grandes las diferencias entre el valor de la
hiptesis nula y el valor de la hiptesis alternativa.
El complemento de la potencia de una prueba, se denota por | y es la probabilidad de
cometer el error tipo II
144


Pruebas de una y dos colas

La hiptesis alternativa es la que determina si la prueba es de una cola o de dos colas
(una regin de rechazo o doble regin de rechazo)

Una prueba es de una cola lateral derecha (zona de rechazo a la derecha), cuando la
hiptesis alternativa, plantea un valor del parmetro o una serie de valores mayores al
valor del parmetro propuesto en la hiptesis nula.
Una prueba es de una cola lateral izquierda, (zona de rechazo a la izquierda) cuando la
hiptesis alternativa, plantea un valor del parmetro o una serie de valores menores al
valor del parmetro propuesto en la hiptesis nula.
Una prueba es dos colas o bilateral (dos zonas de rechazo, una a la izquierda y la otra
a la derecha) , cuando la hiptesis alternativa, no indica un valor especfico del
parmetro y hay que asumir que es distinto, ya sea superando o estando debajo del
valor propuesto en la hiptesis nula


Ejemplo 6.2 Un ingeniero asevera que el dimetro promedio de todas las piezas de un lote, es
de 20 mm. Se toma una muestra de 200 piezas con el objetivo de verificar esa aseveracin.

H
0
; = 20 mm.
H
1
; = 20 mm. (Prueba de dos colas)


Etapas en una prueba de hiptesis

Formular la hiptesis nula
Expresar la hiptesis alternativa
Especificar el nivel de significacin (o)
Determinar el tamao de la muestra
Determinar la prueba estadstica
Establecer los valores crticos que dividen las regiones de rechazo y de no rechazo
Recolectar los datos de la muestra y calcular el valor del estadstico apropiado
Determinar si el estadstico ha cado en la regin de rechazo o en la regin de no
rechazo
Tomar la decisin estadstica
Expresar la decisin estadstica en trminos del problema



Pruebas de hiptesis de una sola muestra

Las pruebas de hiptesis, se realizan para aceptar o rechazar el valor que puede adoptar
cierto parmetro en la poblacin.
A continuacin se examinarn una serie de pruebas de hiptesis para la media, proporcin y
varianza de una sola muestra. Para ejemplificar se trabajar con pruebas de dos colas o dos
regiones de rechazo






145

Prueba de hiptesis para la media poblacional
(varianza conocida)

Ejemplo 6.3 Suponga que un ingeniero de fabrica asevera que la duracin promedio de una
correa de distribucin es de 40.000 kilmetros. Se conoce que la desviacin estndar es de
5.000 kilmetros. Se desea determinar si es correcta la aseveracin del ingeniero, para ello se
toma una muestra de 100 vehculos, dando una duracin promedio de las correas de 42.000
kilmetros. El investigador fija en un 5% el nivel de significacin.

H
0
; = 40.000
H
1
; = 40.000

Cuando no hay un valor alternativo de la media, se asume en la H
1
que la media
es diferente del valor propuesto en la H
0

La hiptesis alternativa determina si la prueba es de una cola o de dos colas (una
regin de rechazo o doble regin de rechazo)
En este caso como la H
1
dice que la media es diferente de 40.000 kilmetros, se
tiene una prueba de dos colas

El nivel de significacin se fija en 0,05. sta es la probabilidad de cometer el
error tipo I (Rechazar la H
0
, cuando es cierta)

Al conocer la desviacin poblacin, se utiliza la distribucin normal y la
estadstica de prueba es:

Z =
n
X
o



Como la prueba es de dos colas, la regin de rechazo est dividida en dos partes, es decir que
habr dos regiones crticas





Los valores crticos (
*
X ) surgen de despejar del estadstico de prueba

*
X =
n
Z
o
+


*
X =
100
5000
96 , 1 40000 +

*
X = 40980
Regin de
no rechazo
Regin de
Rechazo

o/2
Regin de
Rechazo

o/2
Valor 39020 = 40.000 Valor 40980
Critico Crtico
146


*
X =
n
Z
o


*
X =
100
5000
96 , 1 40000

*
X = 39020


Por lo tanto, la regla de decisin sera:

Rechazar si 39020 < X
Rechazar si 40980 > X
No rechazar si 40980 39020 s s X

Como de la muestra se obtuvo una 42000 = X kilmetros. El estadstico cae en zona
rechazo.


Entonces la decisin estadstica es rechazar la hiptesis nula

No es correcta la aseveracin del ingeniero, se rechaza que la duracin promedio de
las correas es de 40.000 kilmetros



Otro mtodo alternativo para resolver una prueba de hiptesis, sera trabajar con los valores
crticos Z* de la tabla de la distribucin normal estandarizada y luego calcular la estadstica
Z, para observar en que regin cae y tomar la decisin







Z =
n
X
o

Z =
100
5000
40000 42000
Z = 4



Regla de decisin: si Z < Z* = -1,96 Rechazo H
0

si Z > Z* = 1,96 Rechazo H
0

Regin de
no rechazo
Regin de
Rechazo

o/2
Regin de
Rechazo

o/2
Valor -1,96 Valor 1,96
Critico Crtico
147


si 1,96 <Z< 1,96 No rechazo H
0


Como Z = 4 entonces se rechaza la H
0



Ejemplo 6.4 Se quiere determinar la potencia de la prueba y la probabilidad de cometer el error
tipo II, es decir | y 1-|. Para ello se plantea un valor especfico de hiptesis alternativa, H
1
;
= 40.700 kilmetros.

Para calcular | y 1-|. Trabajamos con el grfico anterior, trasladando la lnea de los puntos
crticos 39020 y 40980 hasta la grfica siguiente. sta ltima grfica muestra la distribucin
considerando como cierta la media de la hiptesis alternativa
















Encontramos los puntos crticos Z, estandarizando, con el valor de la media segn
la hiptesis alternativa:

Z =
n
X
o
1
*



Z =
100
5000
40700 39020
Z = -3,36
Regin de
no rechazo
1-o
Regin de
Rechazo

o/2
Regin de
Rechazo

o/2
Valor 39020 = 40.000 Valor 40980
Critico Crtico
Regin de
no rechazo
|
Regin de
Rechazo
1-|
Regin de
Rechazo

1-|
Hiptesis alternativa
Cierta
Hiptesis nula cierta
Z= -3,36 =40700 Z= 0,56
148


Z =
100
5000
40700 40980
Z = 0,56

Entonces:

1-| = P (Z< -3,36) + P (Z>0,56) = 0,2881

| = P(-3,36<Z<0,56) = 0,7119

Observe que las probabilidades encontradas son equivalentes al rea debajo de la
curva segn el grfico


Prueba de hiptesis para la media poblacional
(varianza desconocida)

Ejemplo 6.5 Suponga que en el problema del ejemplo 6.3 referido a la media de la duracin de
las correas, se desconoce la desviacin estndar de la poblacin, pero si se conoce la
desviacin de la muestra, que es de 8000 kilmetros.

En este caso, a pesar que la desviacin estndar de la poblacin se desconoce se sigue
utilizando la distribucin normal por ser la muestra superior a 30.




Z =
n
s
X
Z =
100
8000
40000 42000
Z = 2,5


Regla de decisin: si Z < Z* = -1,96 Rechazo H
0

si Z > Z* = 1,96 Rechazo H
0


si 1,96 <Z< 1,96 No rechazo H
0


Como Z = 2.5 se rechaza la H
0


Ejemplo 6.6 Ahora presuma que en el problema del ejemplo 6.3 referido a la media de la
duracin de las correas, se desconoce la desviacin estndar de la poblacin, pero si se
conoce la desviacin de la muestra, que es de 8000 kilmetros; y en vez de tomar una muestra
de 100, se recolecta informacin de una muestra de tamao 25.

Regin de
no rechazo
Regin de
Rechazo

o/2
Regin de
Rechazo

o/2
Valor -1,96 Valor 1,96
Critico Crtico
149

Al ser la desviacin poblacional desconocida y la muestra pequea, se trabaja con la
distribucin t
n-1
de student, para pequeas muestras.





T =
n
s
X
T =
25
8000
40000 42000
= 1,25

Regla de decisin: si T < T* = -2,064 Rechazo H
0

si T > T* = 2,064 Rechazo H
0


si 2,064 <T< 2,064 No rechazo H
0


Como T = 1,25 No se rechaza la H
0



Relacin con la estimacin por intervalo

El enfoque de prueba de hiptesis est muy relacionado con el enfoque de estimacin por
intervalo.
La prueba de H
0
; =
0
contra la alternativa H
1
; =
0
a un nivel de significancia o es
equivalente a un intervalo de confianza de 100(1-o)% sobre y rechazar H
0
si
0
no est dentro
del intervalo de confianza. Si
0
est dentro del intervalo de confianza, la hiptesis no se
rechaza.


Prueba de hiptesis para la proporcin poblacional

La prueba de hiptesis, tambin se la puede utilizar para probar hiptesis referidas a datos
cualitativos. Se puede formular la hiptesis que la proporcin de aplazados es de 0,30, contra
la alternativa que la proporcin de aplazados es diferente de 0,30.

H
0
; P = 0,30
H
1
; P = 0,30

En trminos generales el procedimiento a seguir es similar al que se utiliza para medias

Ejemplo 6.7 Segn su experiencia el ingeniero de fabrica afirma que la proporcin de correas
que se rompen antes de los 40.000 kilmetros es de 0,20 . Se toma una muestra de 200
vehculos y se encuentra que en 30 de ellos la correa se rompi antes de los 40.000 kilmetros.
Trabaje con o = 0.05.

H
0
; P = 0,20
H
1
; P = 0,20

Regin de
no rechazo
Regin de
Rechazo

o/2
Regin de
Rechazo

o/2
Valor -2,064 Valor 2,064
Critico Crtico
150

Cuando no hay un valor alternativo de la proporcin, se asume en la H
1
que la proporcin es
diferente del valor propuesto en la H
0 .
En este caso como la H
1
dice que la proporcin es
diferente de 0,20 kilmetros, se tiene una prueba de dos colas

El nivel de significacin se fija en 0,05. sta es la probabilidad de cometer el error tipo I
(Rechazar la H
0
, cuando es cierta)

Como la muestra es grande se trabaja con distribucin normal


Z =
n
P p
P p
) 1 (




La regin de rechazo est dividida en dos partes, es decir que habr dos regiones crticas




Los valores crticos (
*
p ) surgen de despejar del estadstico de prueba

*
p = P
0
+ Z
n
P P ) 1 ( 0 0



*
p = 0,20 + 1,96
200
) 20 , 0 1 ( 20 , 0


*
p = 0,255

*
p = P
0
- Z
n
P P ) 1 ( 0 0




*
p = 0,20 - 1,96
200
) 20 , 0 1 ( 20 , 0


*
p = 0,145

Por lo tanto, la regla de decisin sera:

Rechazar si p < 0,145
Regin de
no rechazo
Regin de
Rechazo

o/2
Regin de
Rechazo

o/2
Valor 0,145 Valor 0,255
Critico Crtico
151

Rechazar si p > 0,255
No rechazar si 0,145 < p < 0,255

Como de la muestra se obtuvo una p = 0,15. El estadstico cae en zona de no rechazo.
Entonces la decisin estadstica es no rechazar la hiptesis nula

Es correcta la aseveracin del ingeniero, se acepta que la proporcin de correas que se
rompen antes de los 40.000 kilmetros es de 0,20



Prueba de hiptesis para la varianza poblacional

Muchas veces se requiere controlar que las mediciones de productos o procesos caen dentro
de las especificaciones. Estas especificaciones se cumplen si la varianza del proceso es
suficientemente pequea.

Para probar hiptesis referidas a varianzas poblaciones se utiliza la distribucin _
2
con n-1
grados de libertad.



El estadstico a utilizar est dado por:

_
2
=
2
0
2
) 1 (
o
s n



Ejemplo 6.8 Un fabricante de pilas para relojes afirma que la duracin de sus pilas se
distribuyen en forma aproximadamente normal, con una desviacin estndar igual 1,1 aos. Si
una muestra aleatoria de 10 de tales pilas tiene una desviacin estndar de 1.3 aos. Utilice un
nivel de significancia de 0,05 para probar la afirmacin del fabricante.

H
0
; o
2
= 1,21

H
1
; o
2
= 1,21

El nivel de significacin se fija en 0,05

Se trabaja con distribucin _
2
con n-1 grados de libertad.

o
_
2
n-1
0

152

La prueba es bilateral, ya que al no haber un valor de hiptesis alternativo,
suponemos, diferente del propuesto en hiptesis nula. Es decir que habr
dos regiones crticas o dos zonas de rechazo.
Los valores crticos (
* 2
X ) los obtenemos de la distribucin _
2
10-1






Por lo tanto, la regla de decisin sera:

Rechazar si _
2
< 2,70
Rechazar si _
2
> 19,023
No rechazar si 2,70 s _
2
s 19,023

Como el estadstico es _
2
=
21 , 1
69 , 1 ) 9 ( x

_
2
= 12,57 cae en regin de no rechazo

Entonces la decisin estadstica es no rechazar la hiptesis nula

Es correcta la afirmacin del fabricante de pilas, la varianza es 1,21





Pruebas de hiptesis de dos muestras


Prueba de hiptesis para diferencias
de medias poblacionales

Los conceptos sobre pruebas de hiptesis de una muestra desarrollados hasta aqu, tambin
se pueden extender a pruebas con dos muestras.
El experimento consiste en obtener dos muestras aleatorias independientes de tamao
n
1
y n
2
, respectivamente de dos poblaciones con medias
1
y
2
y varianzas conocidas
2
1
o y
2
2
o
La variable aleatoria Z, tiene distribucin normal:


0,025
ZR
2,70
19,023
ZA

0,025
ZR
153

Z =
) ( ) (
) ( ) (
2
2
2
1
2
1
0 2 1 2 1
n n
X X
o o

+




Las hiptesis de una prueba bilateral sobre dos medias se pueden plantear de cualquiera de
estas dos formas:
H
0
; ) (
2 1
= 0 ; ) (
2 1
=

H
1
; ) (
2 1
0 = ; ) (
2 1
=

Para el caso de una prueba lateral derecha, sera:

H
0
; ) (
2 1
s 0 ; ) (
2 1
s

H
1
; ) (
2 1
> 0 ; ) (
2 1
>

En una prueba lateral izquierda, se tendra:

H
0
; ) (
2 1
> 0 ; ) (
2 1
>

H
1
; ) (
2 1
< 0 ; ) (
2 1
<

En caso de ser varianza supuestamente iguales (
2
1
o =
2
2
o ) es frecuente que se estime la
varianza supuestamente comn, combinando las dos varianzas muestrales y obteniendo la
estimacin combinada o ponderada de la varianza:


2
p
S =
2
) 1 ( ) 1 (
2 1
2
2 2
2
1 1
+
+
n n
S n S n

El error estndar estimado de la diferencia (el denominador en la estadstica Z), con base en la
suposicin de que las desviaciones estndar de las poblaciones son iguales es:

=



En situaciones en las que no se supone que las desviaciones estndar de las dos poblaciones
sean iguales, el error estndar estimado de la diferencia es:

=

, donde




Ejemplo 6.9 Se lleva a cabo un experimento en que se comparan dos tipos de motores A y B.
Se mide el rendimiento en millas por galn de gasolina. Se realizan 50 experimentos con el
motor tipo A y 75 con el motor tipo B. El rendimiento promedio de gasolina para el motor tipo A
es de 36 millas por galn y para el motor tipo B de 42 millas por galn. Suponga que las
desviaciones estandar poblacionales son 6 y 8 para los motores A y B respectivamente

H
0
; ) (
B A
= 0
H
1
; ) (
B A
0 =
154


El nivel de significacin es 0,05

Los valores crticos Z* son 1,96 y 1,96

Regla de decisin :

si Z < -1,96 Rechazo H
0

si Z > 1,96 Rechazo H
0


si 1,96 sZs 1,96 No rechazo H
0
Regla de decisin

La estadstica de prueba Z es

Z =
)
75
48
( )
50
36
(
) 42 36 (
+

= - 5,14


Como la estadistica Z es -5,14 cae en regin de rechazo

Entonces la decisin estadstica es rechazar la hiptesis nula

Esto quiere decir que hay diferencias significativas en los
rendimientos promedio de gasolina delos dos tipos de motores

Cuando se prueba la diferencia entre dos medias utilizando la distribucin t, se requiere la
suposicin de que las varianzas de las dos poblaciones son iguales

La estadstica de prueba est dada por el siguiente procedimiento:

t =
) ( ) (
) ( ) (
2
2
1
2
2 1 2 1
n
S
n
S
X X
p p
+




Donde las varianzas de las dos muestras se pueden combinar para formar una estimacin de
la varianza poblacional, que se llama varianza combinada o unida.
2
p
S


2
p
S =
2
) 1 ( ) 1 (
2 1
2
2 2
2
1 1
+
+
n n
S n S n


Ejemplo 6.10 Se lleva a cabo un experimento para comparar el desgaste de dos diferentes
materiales. Se prueban de manera similar 12 piezas del material 1 y 10 piezas del material 2.
La primera muestra da un degaste promedio de 85 unidades con una desviacin
estandarmuestral de 4, mientras que las muestras del segundo material dan un promedio de 81
y una desviacin estandar muestral de 5 se puede concluir con un nivel de significancia del
0,05 que el desgaste del material 1 excede el del material 2 en ms de dos unidades. Suponga
que las poblaciones son aproximadamente normales con varianzas iguales.

H
0
; ) (
2 1
= 2
H
1
; ) (
2 1
> 2
155


El nivel de significacin es 0,05

El valor crtico t* es 1,725 con 20 grados de libertad

Regla de decisin :

si t < 1,725 No Rechazo H
0

si t > 1,725 Rechazo H
0


La varianza unida o combinada es


2
p
S =
2 10 12
) 25 )( 9 ( ) 16 )( 11 (
+
+
= 4,478


La estadstica de prueba t es

t =
)
10
478 , 4
( )
12
478 , 4
(
2 ) 81 85 (
+

= 1,04


Como la estadistica t es 1,04 cae en regin de no rechazo

Entonces la decisin estadstica es no rechazar la hiptesis nula

Esto quiere decir que no se puede concluir que el desgaste
promedio del material 1 excede el del material 2 en ms de dos
unidades.


A menudo las muestras se extraen como pares de valores, por ejemplo cuando se determina
el nivel de productividad de trabajadores antes y despus de un programa de capacitacin. A
esta clase de datos se los denomina observaciones apareadas y las muestras, a diferencia de
anteriores pruebas, son dependientes.
El mtodo apropiado para probar la diferencia entre las medias de dos muestras, para
observaciones apareadas, consiste primero en determinar la diferencia d enter cada par de
valores y despus probar la hiptesis nula de que la diferencia poblacional promedio es 0.

La diferencia promedio para el conjunto de observaciones apareadas es:


Se puede trabajar con la formula abreviada para la desviacin y las diferencias entre
observaciones apareadas:




Entonces la variable t es: t =



Los grados de libertad son el nmero de pares de valores observados menos uno (n-1)

156

Asi la estadstica de prueba es:




Ejemplo 6.11 En un estudio se investiga el rendimiento de gasolina con y sin aditivo en 10
automoviles. Se prueba la hiptesis que no existen diferencias en el kilometraje promedio que
se obtiene usando o no el aditivo, utilizando un nivel de significancia de 0.05


Automvil Km. Con
aditivo
Km. Sin
aditivo
d d
2
1 9.41 9.28 0.13 0.0169
2 9.18 9.15 0.03 0.0009
3 8.18 8.28 -0.10 0.01
4 7.51 7.59 -0.08 0.0064
5 7.28 7.21 0.07 0.0049
6 6.59 6.62 -0.03 0.0009
7 6.21 6.13 0.08 0.0064
8 5.79 5.64 0.15 0.0225
9 5.62 5.51 0.11 0.0121
10 5.21 5.13 0.08 0.0064
Total 70.98 70.54 0.44 0.0874

- H
0
: ) (
2 1
= 0
- H
1
; ) (
2 1
0 =
- = 0.05 nivel de significancia
- t critico ( gl=9) = +/- 2.262
- distancia promedio con aditivo = 7.098 km
distancia promedio sin aditivo = 7.054 km.


n
d
d

= =
10
44 . 0
= 0.044

s
d
=
1
2 2

n
nd d
=
1 10
) 044 . 0 ( 10 0874 . 0
2



s
d
= 0.0869

= 0.0275


t =

= 1.60

El valor calculado de t = 1.60 se encuentra en la regin de aceptacin de la hiptesis nula. Por
ello se acepta la hiptesis nula de que no existe diferencia en el rendimiento que se obtiene por
litro de gasolina con y sin el aditivo.


157

Prueba de hiptesis para diferencias
de proporciones poblacionales

En ocasiones puede interesar probar las diferencias de alguna caracterstica cualitativa La
prueba de la diferencia entre dos proporciones basadas en muestras independientes y
suficientemente grandes, se puede aproximar con la distribucin normal.

El estadstico de la prueba es:
Z =
2 1
2 1 2 1
) 1 ( ) 1 (
) ( ) (
n
p p
n
p p
P P p p




Donde p es una estimacin combinada de la proporcin que se calcula como:
p =



Las hiptesis de una prueba bilateral o de dos colas sobre diferencias de proporciones puede
plantearse de cualquiera de estas dos formas:

H
0
; ) (
2 1
P P = 0 ; ) (
2 1
P P =
H
1
; ) (
2 1
P P 0 = ; ) (
2 1
P P =

Para el caso de una prueba lateral derecha, sera:

H
0
; ) (
2 1
P P s 0 ; ) (
2 1
P P s
H
1
; ) (
2 1
P P > 0 ; ) (
2 1
P P >

En una prueba lateral izquierda, tendramos:

H
0
; ) (
2 1
P P > 0 ; ) (
2 1
P P >
H
1
; ) (
2 1
P P < 0 ; ) (
2 1
P P <

Las regiones crticas se hallan con el uso de la distribucin normal.

Ejemplo 6.12 Se piensa que el porcentaje de afiliados a una administradora de fondos de
jubilacin privada en una ciudad del norte de la provincia no es diferente al porcentaje de
afiliados en una ciudad del sur de la provincia, que es del 60 %.
Para verificar esta afirmacin, se toma una muestra n
1
= 50 en la ciudad nortea arrojando que
35 estn afiliados a esa administradora y otra muestra n
2
= 45 en la ciudad surea, en donde
30 estn afiliados a esa administradora. Se trabajar con un nivel de significacin 5 %.

H
0
; ) (
2 1
P P = 0 ; ) (
2 1
P P =
H
1
; ) (
2 1
P P 0 = ; ) (
2 1
P P =

Prueba de dos colas
Z crticos (o=0,05) = +/- 1,645
158






El estadstico es:
Z =
45
) 68 , 0 1 ( 68 , 0
50
) 68 , 0 1 ( 68 , 0
) 66 , 0 70 , 0 (




Z =
0048 , 0 0043 , 0
) 04 , 0 (
+



Z = 0,42

La estimacin de la proporcin combinada es:
p =
45 50
30 35
+
+


p = 0,68

Como el estadstico Z se encuentra en regin de aceptacin, ya que 1,645< 0,42
< 1,645, no se puede rechazar la hiptesis nula, por lo tanto las proporciones de
afiliados en ambas ciudades no difiere.



Prueba Ji cuadrada

La distribucin Ji-cuadrada se puede utilizar, entre otras, para probar hiptesis referidos a
independencias de variables categricas.

Prueba para independencia de variables

Con el uso de una tabla de contingencia o de clasificacin cruzada y la prueba Ji cuadrada se
puede probar la independencia de dos variables cualitativas
Las pruebas de independencia implican dos variables categricas y lo que se prueba es la
suposicin de que las dos variables son estadsticamente independientes. Esto implica que el
saber la categora en la que se clasifica una observacin con respecto a una variable, no tiene
ningn efecto sobre la probabilidad de caer tambin en algunas de las categoras de las otras
variables.



Regin de
no rechazo
Regin de
Rechazo

o/2
Regin de
Rechazo

o/2
Valor -1,645 Valor 1,645
Critico Crtico
159

Las hiptesis nula y alternativa se expresan:

H
0
; Hay independencia entre las variables (ninguna relacin)
H
1
; Hay dependencia entre las variables (alguna relacin)

Se anotan las frecuencias observadas (f
o
) en una tabla de
contingencias. Mediante r se designa la cantidad de renglones o filas de la
tabla y mediante c la cantidad de columnas de la tabla

Dada la hiptesis de independencia, la frecuencia esperada (f
e
)
correspondiente a cada celda de la taba de contingencia debe ser
proporcional al total de frecuencias observadas de columnas y de
renglones.

La frecuencia esperada (f
e
) se determina como:
f
e
=
n
xf f
c r


Los grados de libertad correspondiente a una prueba de independencia
es:
gl = (r-1)(c-1)

Con el nivel de significacin (o) y los grados de libertad (gl) se obtiene el
valor _
2
crtico

La estadstica de prueba es :

X
2
=
e
e o
f
f f
2
) (


Si la estadstica de prueba X
2
excede el valor crtico _
2
se debe rechazar
la hiptesis nula de independencia de las variables.


Ejemplo 6.13 En la tabla 6.2 se presentan las reacciones de los simpatizantes de un
determinado club ante un proyecto presentado por sus directivos, segn su situacin ante el
club. Con estos datos pruebe la independencia de esas variables con un nivel de significacin
del 1%.


Reaccin

Situacin

Socio No socio

Total
A favor 55 5 60
En contra 10 30 40
Total 65 35 100
Tabla 6.2 frecuencias observadas

H
0
; La situacin ante el club y la reaccin son independientes
H
1
; La situacin ante el club y la reaccin no son independientes

gl = (2-1)(2-1) = 1
valor crtico _
2
(gl=1 ; o=0,01) = 6,63



160

Se calculan las frecuencias esperadas para cada celda, los resultados se muestran en la tabla
6.3

f
e
=
100
60 65x
= 39 f
e
=
100
60 35x
= 21

f
e
=
100
40 65x
= 26 f
e
=
100
40 35x
= 14


Reaccin

Situacin

Socio No socio

Total
A favor 39 21 60
En contra 26 14 40
Total 65 35 100
Tabla 6.3 Frecuencias esperadas

La estadstica de prueba es:
X
2
=
e
e o
f
f f
2
) (

X
2
=
39
) 39 55 (
2

+
21
) 21 5 (
2

+
26
) 26 10 (
2

+
14
) 14 30 (
2



X
2
= 46,88

La estadstica de prueba X
2
= 46,88 excede el valor crtico _
2
= 6,63.

Por lo tanto se rechaza la hiptesis de independencia de las variables. La reaccin de los
simpatizantes tiene relacin con su situacin ante el club.


























161

Resumen

La prueba de hiptesis es una tcnica que consiste en rechazar o no rechazar una hiptesis,
llamada nula, a partir de evidencias proporcionadas por las muestras. Al tomar una decisin en
base a la informacin proporcionada por la muestra se pueden cometer errores llamados, error
tipo I y error tipo II.
El rechazo de una hiptesis, siendo sta cierta, es el error tipo I y el no rechazo de una
hiptesis, siendo sta falsa, es el error tipo II.
La forma de disminuir las probabilidades de cometer estos errores (o y |) es aumentando el
tamao de la muestra.
Existen pruebas de hiptesis de una muestra y dos muestras. Los tipos de prueba quedan
definidos por la hiptesis alternativa, pudiendo ser: prueba de una cola (una zona de rechazo) y
pruebas de dos colas (dos zonas de rechazo).
La potencia de una prueba, es la probabilidad de rechazar una hiptesis, siendo sta falsa (1-|)
Para probar una media de una sola muestra con varianza poblacional conocida se utiliza la
distribucin normal. En caso de no conocer la varianza, si la muestra es grande se sigue
utilizando la distribucin normal, pero si la muestra es pequea, se usa la distribucin t de
student.
En pruebas de proporciones si la muestra es grande se trabaja con distribucin normal. La
distribucin Ji-cuadrada la utilizamos para probar varianzas.
En las pruebas de diferencias de medias, de dos muestras, se suele trabajar con una
estimacin de la varianza combinada o nica.
Tambin se utiliza una estimacin de la proporcin al probar diferencias de proporciones,
prueba de dos muestras.
La prueba ji-cuadrada, se utiliza para probar la independencia de dos variables categricas.





























162

Ejercicios


6.1 El gerente de crdito de una cadena de tiendas, afirma que el saldo mensual promedio
de los clientes con cuenta es de 30 $. Para probar su afirmacin, un auditor selecciona
una muestra aleatoria de 100 cuentas y encuentra que el saldo promedio es de 35 $
con una desviacin estndar de 12,50 $. Con un nivel de significacin de 0,01, a qu
conclusiones llegara el auditor ?

6.2 Aceros Pimiango. S.A., fabrica barras de acero. El proceso de produccin hace barras
con una longitud promedio de, cuando menos, 2,8 pies cuando el proceso funciona
correctamente. Se selecciona una muestra de 25 barras en la lnea de produccin. La
muestra indica una longitud promedio de 2,43 pies y una desviacin estndar de 0,20
pies. La compania desea determinar si la maquina necesita algn ajuste.

a) Indique las hiptesis nula y alternativa
b) Si la compania desea probar la hiptesis al nivel de significacin de 0,05 qu
decisin tomara?

6.3 El gerente de personal de una empresa querra determinar la cantidad de tiempo que
necesitan los empleados para llegar a su trabajo. Se selecciona una muestra aleatoria
de 12 empleados y se registra el tiempo en minutos para llegar al trabajo, con los
siguientes resultados:

15 30 50 60 25 65 45 90 75 50 50 20

a) Con nivel de significacin de 0,01 hay pruebas de que el tiempo de
promedio de viaje de los empleados es de menos de 60 minutos ?

6.4 Una maquina vendedora de refrescos est proyectada para despachar, cuando funciona
correctamente cuando menos 7 onzas de refresco por vaso con una desviacin estndar
de 0,2 onza. Si el estadstico selecciona una muestra aleatoria de 16 vasos para un
estudio especial y el estadstico est dispuesto a tener un riesgo (o) de tipo I de 5 %,
calcule la potencia de la prueba y la probabilidad de un error tipo II (|) si la cantidad
promedio de poblacin despachada es:

a) 6,9 onzas por vaso
b) 6,8 onzas por vaso

6.5 En el problema anterior. Si el estadstico seleccion una muestra aleatoria de 25 vasos y
utiliz un riesgo (o) de 5 %, calcule la potencia de la prueba y la probabilidad de un error
tipo II (|) si la poblacin promedio despachada es:

a) 6,9 onzas
b) 6,8 onzas
c) Compare los resultados de ambos problemas

6.6 Una maquina que llena cajas de cereales pone en promedio 368 gramos de cereal en
cada caja, cuando funciona correctamente. La cantidad colocada en la caja tiene
distribucin normal, con una desviacin estndar de 30 gramos. El gerente de
produccin dejar de llenar las cajas solo si hay pruebas de que la cantidad promedio
de cereal puesta en cada caja es menor de 368 gramos. Si selecciona una muestra
aleatoria de 25 cajas y el gerente de produccin est dispuesto a correr un riego de
cometer el error tipo I de 5 %, calcule la potencia de la prueba y la probabilidad de un
error tipo II si
la cantidad promedio de la poblacin puesta en la caja es:

163

a) 360 gramos
b) 365 gramos

6.7 De acuerdo con las normas establecidas para un examen de aptitud mecnica, las
personas de 18 aos deberan promediar 73,2 con una desviacin estndar de 8,6. Si
45 personas de esa edad elegidas aleatoriamente promediaron 76,7 prubese la
hiptesis nula de que
= 73,2 contra la hiptesis alternativa de que > 73,2 con
un nivel de significacin de 0,01.

6.8 Si una muestra aleatoria de tamao n = 8 se usa para probar la hiptesis de que la
media de una poblacin es 200 con una desviacin estndar de 20, contra la hiptesis
alternativa que la media es diferente a 200 y o = 0,05. Determine la probabilidad de
cometer el error tipo II cuando

a) = 190
b) = 185
c) = 180
d) = 175
e) = 170

6.9 Una investigacin de dos tipos de equipo de fotocopiado revel que 75 fallas del primer
tipo de equipo fueron reparadas en un tiempo promedio de 83,2 minutos con un
desviacin estndar de 19,3 minutos, mientras que 75 fallas del equipo del segundo tipo
fueron reparadas en un tiempo promedio de 90,8 minutos, con una desviacin estndar
de 21,4 minutos.

a) Pruebe la hiptesis nula
1
-
2
= 0 (es decir que en promedio se tarda el
mismo tiempo para reparar cualquier tipo de equipo) contra la hiptesis
alternativa de que
1
-
2
= 0 con un nivel de significancia de
o = 0,05.

6.10 Supngase que deseamos investigar si en promedio el sueldo del hombre excede en
ms de 20 $ por semana, al de la mujer en cierta industria. Si los datos revelan que 60
hombres ganan en promedio 292,50 pesos a la semana con una desviacin estndar de
15,60 pesos, mientras que 60 mujeres perciben en promedio 266,10 pesos por semana
con una desviacin estndar de 18,20 pesos, qu puede concluirse con un nivel de
significancia de 0,01 ?.

6.11 En un programa de capacitacin industrial, algunos aprendices son instruidos con el
mtodo A, el cual consiste en instruccin mecanizada, y algunos son capacitados con el
mtodo B, que entraa tambin la atencin personal de un instructor. Si muestras
aleatorias de tamao 10 son tomadas de grandes grupos de aprendices capacitados por
cada uno de estos mtodos, y las calificaciones que obtuvieron en una prueba de
aprovechamiento son:

Mtodo A: 71 75 65 69 73 66 68 71 74 68
Mtodo B: 72 77 84 78 69 70 77 73 65 75

sese un nivel de significancia de 0,05 para probar la afirmacin de que el mtodo B es
mas eficaz. Supngase que las poblaciones muestreadas pueden aproximarse con
distribuciones normales que tienen la misma variancia.

6.12 Un constructor est considerando dos lugares alternativos para un centro comercial
regional. Como los ingresos de los hogares de la comunidad son una consideracin
importante en esa seleccin, desea probar la hiptesis nula que no existe diferencia
entre el ingreso promedio por hogar en dos comunidades. Consistente con estas
hiptesis supone que la desviacin estndar del ingreso por hogar es tambin igual en
164

las dos comunidades. Para una muestra n
1
= 30 hogares de la primera comunidad,
encuentra que el ingreso diario promedio es 35,50 pesos con una desviacin estndar
de 1,80 pesos. Para una muestra n
2
= 40 hogares de la segunda comunidad, el promedio
es de 34,60 pesos y la desviacin de 2,40 pesos. Probar la hiptesis nula en un nivel de
significancia del 5 %.

6.13 Respecto al ejercicio anterior, antes de recolectar los datos, el constructor consider que
el ingreso promedio diario de la primera comunidad excede al promedio de la segunda
comunidad en cuando menos 1.50 $ diarios. En este caso, concediendo a esta
evaluacin el beneficio de la duda, pruebe esa suposicin como hiptesis nula utilizando
un nivel de significancia del 5 %. No se supone que las desviaciones estndar de las
poblaciones son iguales.

6.14 Se plantea la hiptesis de que no ms del 5% de las refacciones que se fabrican en un
proceso de manufactura tiene defectos. Para una muestra aleatoria de n = 100
refacciones, se encuentra que 10 estn defectuosas. Pruebe la hiptesis nula al 5 % del
nivel de significancia.


6.15 El rendimiento de una computadora se observa en un periodo de 2 aos para verificar la
afirmacin de que la probabilidad es 0,20 de que el tiempo perdido por fallas exceda a 5
horas en una semana cualquiera. Al probar la hiptesis nula de que p = 0,20 contra la
hiptesis alternativa p = 0,20 , qu se puede concluir con un nivel de significancia de
o = 0,05 , si hubo solo 11 semanas en las cuales el tiempo perdido de la computadora
excedi las 5 horas ?.

6.16 Una aerolnea afirma que solo el 6 % de todos los equipos perdidos nunca se encuentra.
Si en una muestra aleatoria, 17 de 200 artculos de equipaje nunca son encontrados,
prubese la hiptesis nula de que p = 0,06 contra la hiptesis alternativa de que p > 0,06
con un nivel de significancia del 0,05.

6.17 Una muestra de 50 hogares de cierta comunidad arroja que 10 de ellos se encuentran
viendo un programa especial de televisin. En una segunda comunidad, 15 hogares de
una muestra aleatoria de 50 se encuentran observando el programa especial. Pruebe la
hiptesis de que la proporcin global de televidentes en las dos comunidades no difiere,
utilizando el nivel de significancia del 1 %.

6.18 Un fabricante est evaluando dos tipos de equipo para fabricar un artculo. Se obtiene
una muestra aleatoria de n
1
= 50 para la primera marca de equipo y se encuentra que 5
de ellos tienen defectos. Se obtiene una muestra aleatoria de n
2
= 80 para la
segunda marca y se encuentra que 6 de ellos tienen defectos. La tasa de fabricacin es
la misma para las dos marcas. Sin embargo, como la primera cuesta
bastante menos, el fabricante le otorga a esa marca el beneficio de la duda y plantea la
hiptesis H
o
: P
1
< P
2
. Pruebe la hiptesis en el nivel de significancia del 5 %.

6.19 La vida til promedio de una muestra aleatoria de n = 10 focos, es de 4000 horas, con
una desviacin estndar de 200 horas. En general, se asume que la vida til de los focos
tiene una distribucin normal. Suponga que, antes de obtener la muestra, se plantea la
hiptesis de que la desviacin estndar de la poblacin no es superior a 150. Trabaje
con un nivel de significancia del 1 % para probar dicha hiptesis.

6.20 Suponga que se plantea la hiptesis de que la desviacin estndar del salario por hora
de los trabajadores a destajo en una determinada industria es 3000 $. Para una muestra
de 15 trabajadores elegidos al azar, se encuentra que la desviacin estndar es de 2000
$. Se supone que las cifras de ingresos de los trabajadores de la poblacin tienen
distribucin normal. puede rechazarse la hiptesis nula utilizando un nivel de
significancia del 5 % ?.

165

6.21 Con base en las especificaciones dadas por un ingeniero de proceso, se plantea la
hiptesis de que la desviacin estndar de los dimetros de ciertas piezas no es mayor
de 3 mm. Para una muestra de n = 12 piezas, se encuentra una desviacin estndar de
4,2 mm. Se supone que la distribucin de los dimetros es aproximadamente norma.
puede rechazarse la hiptesis nula que la desviacin estndar verdadera no es mayor
de 3 mm. a un nivel de significancia del
a) 5 % y b) del 1% ?

6.22 Emplese el nivel de significancia 0,01 para probar la hiptesis nula de que la desviacin
es 0,015 pulgadas para los dimetros de ciertos pernos contra la hiptesis alternativa de
que la desviacin difiere de ese valor, suponiendo que una muestra de tamao 15
produjo
s
2
= 0,00011.

6.23 Se presentan los datos relacionados con la reaccin de los estudiantes ante la
ampliacin de un programa cultural colegial de acuerdo con la clase a la que pertenecen,
en donde divisin menor indica que se trata de un alumno de nuevo ingreso o que se
encuentra en el segundo ao, y la divisin superior seala que los alumnos se
encuentran en el tercero o cuarto ao. Pruebe la hiptesis nula de que la posicin de
clase y la reaccin ante el programa cultural son variables independientes, utilizando el
nivel de significancia del 5 %


Reaccin

Clase

Div. men. Div. Sup.

Total
A favor 20 19 39
En contra 10 16 26
Total 30 35 65

6.24 Para determinar si en realidad existe una relacin entre el aprovechamiento de un
empleado en el programa de capacitacin y su rendimiento real en el trabajo,
consideramos una muestra de 400 casos de sus archivos que son muy detallados y
obtenemos los resultados que se advierten en la siguiente tabla:


xito en el
trabajo

Aprovechamiento en el programa de
entrenamiento

Debajo del Promedio Sobre el
promedio promedio

Total
Deficiente 23 60 29 112
Regular 28 79 60 167
Bueno 9 49 63 121
Total 60 188 152 400

Con el nivel de significancia de 0,01 prubese la hiptesis nula de que el
aprovechamiento en el programa de capacitacin y el xito en el trabajo son
independientes.









166

Respuestas

Para la resolucin de los ejercicios, se utiliz el programa de computacin Microsoft Excel, por
lo tanto puede haber alguna diferencia con mtodos manuales de clculo.

6.1 Z= 4 Rechazo H
0
.

6.2 a) H
0
; > 2,8 H
1
; < 2,8
b) Rechazo H
0
.

6.3 T = -1,84 No se rechaza la H
0


6.4 a) 1-| = 0.516 | = 0,484
b) 1-| = 0.979 | = 0,021

6.5 a) 1-| = 0.705 | = 0,295
b) 1-| = 0.998 | = 0,002
c) Si n crece, | disminuye

6.6 a) 1-| = 0.378 | = 0,622
b) 1-| = 0.126 | = 0,874

6.7 Z = 2.73 Rechazo H
0


6.8 a) 1-| = 0.293 | = 0,707
b) 1-| = 0.564 | = 0,436
c) 1-| = 0.807 | = 0,193
d) 1-| = 0.942 | = 0,058
e) 1-| = 0.989 | = 0,011

6.9 Z = -2,28 Rechazo H
0


6.10 Z = 2.06 No se rechaza H
0


6.11 T = -1.98 No se rechaza H
0


6.12 Z = 0.88 No se rechaza H
0


6.13 Z = -0.59 No se rechaza H
0


6.14 Z = 2.29 Rechazo H
0


6.15 Z = -2.43 Rechazo H
0

6.16 Z = 1.48 No se rechaza H
0


6.17 Z = -1.15 No se rechaza H
0


6.18 Z = 0.44 No se rechaza H
0


6.19 _
2
= 16 No se rechaza H
0


6.20 _
2
= 6.22 No se rechaza H
0


6.21 a) _
2
= 21.56 Se rechaza H
0
b) _
2
= 21.56 No se rechaza H
0


167

6.22 _
2
= 6.84 No se rechaza H
0


6.23 _
2
= 1.03 No se rechaza H
0


6.24 _
2
= 1.83 No se rechaza H
0





















































168

Preguntas de revisin

En qu consiste una prueba de hiptesis?
Qu es una hiptesis nula?
Qu define una hiptesis alternativa?
Cules son los tipos de pruebas que existen, segn las zonas de rechazo?
Cul es el error tipo I?
Qu es la probabilidad de no rechazar una hiptesis nula, siendo sta falsa?
Qu significado tiene la potencia de una prueba?
Qu relacin hay entre la prueba de hiptesis y la estimacin por intervalo?
Qu estadstica de prueba utiliza para probar media con varianza conocida?
Cul distribucin se utiliza para probar media con muestra pequea, siendo desconocida la
varianza?
En que pruebas se usa la distribucin ji-cuadrada?
En una prueba de independencia de variables cmo se encuentran los grados de libertad?
Cundo se rechaza la hiptesis de independencia de variables?
Son complementarias las probabilidades o y |?
Cmo se hace para disminuir ambas probabilidades?




Trminos claves



Tipos de pruebas Prueba de una sola muestra
Pruebas de una cola Prueba de dos muestras
Pruebas de dos colas Pruebas de medias
Zonas crticas
Hiptesis nula
Pruebas de proporciones
Prueba de varianza
Hiptesis alternativa
Prueba de hiptesis
Prueba de independencia de
variables
Nivel de significacin
Error tipo I
Error tipo II
Decisin estadstica
Estadistica de prueba
Prueba de diferencia de medias
Prueba de diferencias de
proporciones
Grados de libertad
Frecuencias observadas
Frecuencias esperadas














169

Actividades


Los estudiantes pueden realizar alguna de las actividades que se enumeran a manera de
ensayo:


o Pruebe la hiptesis de que la proporcin de familias que tienen cable en su barrio no
difiere de la proporcin de familias que cuentan con cable en un barrio de similares
caractersticas

o Realice una prueba para saber si existe relacin entre las variables cantidad de hijos y
cantidad de horas trabajadas diarias

o Realice una prueba para probar que el promedio final de todos los alumnos de estadstica
del cuatrimestre anterior fue de 6. Utilice la distribucin t de student y defina el nivel de
significacin.

o Cree una lista de las cualidades personales de alumnos de su grupo y comprelas con
las que se requieren para ser una analista en sistemas































170

Capitulo 7

Analisis de varianza



Tcnica del anlisis de varianza

El anlisis de varianza (ANOVA) se lo utiliza para probar las diferencias entre diferentes medias.
Una suposicin fundamental en la que se basa este anlisis, consiste en que las diversas medias
muestrales se obtienen a partir de poblaciones con distribucin normal y con la misma varianza o
2
.
Como la hiptesis nula consiste en que las medias poblacionales son iguales, tambin se supone
igualdad de varianzas.
Los fundamentos en los que se basa el anlisis de varianza fueron desarrollados por Ronald
Fisher y la distribucin F se denomina en su honor

El razonamiento y procedimiento consiste en:

1. Calculese la media para cada grupo muestral y determinies el error estandar de la media
D.E ( x

).
2. El error estandar de la media puede utilizarse para estimar una varianza comun de la
poblacin. A esta estimacin de la varianza se la conoce como cuadro medio entre
tratamientos (CMET).
3. Calculese la varianza de cada grupo muestral y luego se combinan ponderndolas con
el n-1 correspondiente a cada muestra. La estimacin resultante de la varianza
poblacional se deomina cuadrado medio del error (CME) y se basa solo en las
diferencias intergrupales.
4. Si la hiptesis nula de que
1
=
2
=
3
.....
k
es cierta, entonces cada uno de los dos
cuadrados medios que se obtienen en (2) y (3) son un estimador insesgado de la
misma varianza poblacional o
2
. Si la hiptesis nula es falsa, entonces el valor del
CMET es mayor que el CME,, ya que las diferencias enter las medias poblacionales
incrementaran el CMET y no tendran efecto sobre el CME.
5. Se puede utilizar la distribucin F para probar la diferencia entre las dos varianzas. Se
trata de una prueba de un estremo y la forma general es:
F =
CME
CMET


Si el cociente F se encuentra en la regin de rechazo para el nivel de significancia fijado,
entonces se rechaza la hiptesis de igualdad.


El procedimiento de analisis de varianza separa la variabilidad total en dos componenetes:

Variabilidad entre mezclas, mediante lamedicin de la variacin sistemtica y la
aleatoria
Variabilidad dentro de las mezclas, mediante la medicin solo de la variacin
aleatoria

171

Las variables experimentales se conocen como factores, y existen dos tipos de factores, el
cuantitativo y el cualitativo. Todos los factores varin a lo largo de un conjunto de niveles
especificados.
Se dice que un factor es cuantitativo si su valor vara continuamente. Las variables como la
temperatura y la presin son ejemplos de factores cuantitativos.
Un factor es cualitativo si sus valores varan en forma discreta, por ejemplo un vendedor o
una maquina. Los niveles de un factor cualitativo son los nombres de maquinas, de
vendedores, de proveedores, etc.


Diseo completamente aleatorizado de un factor
(ANOVA con un criterio de clasificacin)

El procedimiento de anlisis de varianza con un criterio de clasificacin se ocupa de probar la
diferencia entre k medias muestrales cuando se asignan los elemntos en forma aleatoria a cada
uno de los diversos grupos de tratamiento.

La tabla 7.1 es una tabla resumen para el diseo completamente aleatorizado de un factor
de analisis de varianza..

Fuente de
variacin
Grados de
libertad (GL)
Suma de
cuadrados (SC)
Cuadrado
medio (CM)
Cociente
F
Entre grupos de
tratamiento (A)

K-1


SCA

CMA=
1 K
SCA


F=
CME
CMA


Error de
muestreo (E)

N-K


SCE= SCT-SCA

CME=
K N
SCE




Ttotal (T)


N-1


SCT

Tabla 7.1

Ejemplo 7.1 Se asignan en forma aleatoria 15 participantes de un programa tcnico a tres
distintos mtodos de instruccin. En la tabla 7.2 se presentan las calificaciones del avance al
termino de la unidad de instruccin y se presentan las calificaciones promedios. Para probar la
hiptesis nula de que las tres medias muestrales se obtienen de la misma poblacin con una
significancia del 5 % se utilizar el procedmiento visto anteriormente.

Mtodo de
instruccin
Calificaciones de las pruebas Calificaciones
totales
Calificaciones
promedios
A1 86 79 81 70 84 400 80
A2 90 76 88 82 89 425 85
A3 82 68 73 71 81 375 75
Tabla 7.2

H
0
;
1
=
2
=
3
o de manera equivalente H
0
; o
k
= 0 para todos los trataminetos
H
1
; no todas
1
=
2
=
3
H
1
; o
k 0 =
para algunao tratamientos

Donde o
k
efecto del tratamiento de un grupo particular K

(1) La media global de las 15 calificaciones es
_
X
T
=
n
X

=
15
1200
= 80
172


El error estandar de la media es D.E ( x ).
1
) x - x ( t

medias


=
1 3
) 80 75 ( ) 80 85 ( ) 80 80 (
2 2 2

+ +
= 5
(2) CMET = n (V(
_
X )
2
) = 5(25) = 125

(3) La varianza para cada una de las tres muestras es:


2
1
S = 38.5


2
2
S = 35


2
3
S = 38.5

Entonces la varianza combinada es

2
o =
3
) 1 ( ) 1 ( ) 1 (
3 2 1
23 3
2
2 2 1 1
+ +
+ +
n n n
s n s n s n


=
3 5 5 5
) 5 . 38 )( 4 ( ) 35 )( 4 ( ) 5 . 38 )( 4 (
+ +
+ +
=
12
448
= 37.3

Entonces el CME = 37.3
(4) Como el CMET > CME
125 > 37.3
resulta apropiada la prueba de hiptesis nula

F critico (gl= k-1,kn-k,o=0.05) = F(2,12, ,o=0.05) = 3.88

(5) F = CMET/CME = 125/37.3 = 3.35

como la estadstica calculada F=3.35 no es mayor que el valor critico 3.88, no es posible
rechazar a un nivel de significancia de 0.05, la hiptesi de que las calificaciones promedios
para los tres mtodos de instruccin de la poblacin son iguales entre s

A continuacin se repetir el analisis de varianza utilizando, utilizando el procedimiento general
con la tabla 7.1. Las diversas cantidades que se requieren para sustituir en dicha tabla son:

n
1
=5 n
2
=5 n
3
=5 N=15
T
1
=400 T
2
=425 T
3
=375 T=1200
000 . 160
2
1
= T 625 . 180
2
2
= T 625 . 140
2
3
= T 000 . 440 . 1
2
= T

T
2
/N = 1.440.000/15 = 96.000


2
x = 86
2
+ 79
2
+.+71
2
+ 81
2
= 96.698

SCT =
2
x - T
2
/N = 96.698 96.000 = 698

173

SCA =
N
T
n
T
k
k
2 2
= 000 . 96
5
625 . 140
5
625 . 180
5
000 . 160
+ + = 250

SCE = SCT SCA = 698 -250 = 448

En la tabla 7.3 se presenta el analisis de varianza para los datos de la tabla 7.2


Fuente de
variacin
Grados de
libertad
(GL)
Suma de
cuadrados
(SC)
Cuadrado medio
(CM)
Cociente
F
Entre grupos
de tratamiento
(A)

3-1=2


SCA=250

CMA= 125
2
250
=

F= 35 . 3
33 . 37
125
=

Error de
muestreo (E)

15-3=12


SCE= 448

CME= 33 . 37
12
448
=


Ttotal (T)


15-1=14


SCT=698

Tabla 7.3

El cociente F es identico al calculado anteriormente, 3.35 y como el valor F critico es 3.88, se
concluye que no existe efecto entre los niveles de tratamientos (metodos de instruccin), es
decir que las diferencias entre las medias no son significativas, a un nivel de significancia del
5%.

Ejemplo 7.2 Hay ocasiones en que los grupos no son de igual tamao para los distintos
niveles de tratamiento. En la tabla 7.4 se reportan las cantidades de fotocopias por minuto de
tres marcas diferentes de fotocopiadoras. Pruebe la hiptesis nula de que el promedio de
fotocopias por minuto para las tres marcas de equipo no difiere, con una nivel de significancia
del 5%

Fotocopiadora Cantidad de fotocopias por minuto Cantidades
totales
Cantidades
promedios
Richo 79 83 62 51 77 352 70.4
Tosiva 74 85 72 - - 231 77
Ceroc 81 65 79 55 - 280 70
Tabla 7.4

H
0
;
1
=
2
=
3

H
1
; no todas
1
=
2
=
3


n
1
=5 n
2
=3 n
3
=4 N=12
T
1
=352 T
2
=231 T
3
=280 T=863
904 . 123
2
1
= T 361 . 53
2
2
= T 400 . 78
2
3
= T 769 . 744
2
= T

T
2
/N = 744.769/12 = 62.064,1

2
x = 63.441

SCT =
2
x - T
2
/N = 63.441 62.064,1 = 1.376,9
174


SCA =
N
T
n
T
k
k
2 2
= 103,7

SCE = SCT SCA = 1.376,9 103,7 = 1.273,2


En la tabla 7.5 se presenta el analisis de varianza paralos datos de la tabla 7.4

Fuente de
variacin
Grados
de
libertad
(GL)
Suma de
cuadrados
(SC)
Cuadrado medio (CM) Cociente
F
Entre grupos
de
tratamiento
(A)

3-1=2


SCA=103,7

CMA= 8 , 51
2
7 , 103
=

F= 37 , 0
5 , 3141
8 , 51
=

Error de
muestreo (E)

12-3=9


SCE=
1273,2

CME= 5 , 141
9
2 , 1273
=


Ttotal (T)


12-
1=11


SCT=1376,9

Tabla 7.5


El cociente F calculado es 0,37 y el valor F (gl=2,9, 0.05) crtico es 4,26, por lo tanto el
cociente F se encuentra en regin de aceptacin, y se concluye que no existen diferencias en
las cantidades de fotocopias promedio de los tres equipos.



Analisis de varianza con dos criterios de clasificacin

Este analisis se basa en dos dimensiones de tratamiento o de claificacin. Por ejemplo, en el
caso de la investigacin sobre las calificaciones segn el metodo de instruccin, tamben
podra considerarse el efecto de estudios anteriores.
La interaccin de lso tratamientos significa que no son independientes.
A los grupos asociados, se los denomina bloques, por este motivo al estudio se lo conoce como
diseo aleatorizado en bloques con dos criterios de clasificacin.

Ejemplo 7.3 A la tabla 7.2 sobre las calificacionessegun los metodos de instruccin, se le
asocia nivel de habilidad (bloque). Los datos se muestran a continuacin en la tabla 7.6










175

Nivel de
habilidad
(bloque)
Mtodo de
instruccin
A
1
A
2
A
3


Total (T
j
)
Promedio
(
j
X )
B
1
86 90 82 258 86
B
2
84 89 81 254 84.7
B
3
81 88 73 242 80.7
B
4
79 76 68 223 74.3
B
5
70 82 71 223 74.3

Total (T
k
)


400

425

375

Gran total
T=1200


Promedio
(
k
X )

80

85

75
Gran
media
t
X
=80
Tabla 7.6

Los contenidos que se necesitan para la tabla ANOVA son:

Valores totales para j

T
1
=258 T
2
=254 T
3
=242 T
4
=223 T
5
=223
564 . 66
2
1
= T 516 . 64
2
2
= T 564 . 58
2
3
= T 729 . 49
2
4
= T 729 . 49
2
5
= T

Valores totales para k

T
1
=400 T
2
=425 T
3
=375
000 . 160
2
1
= T 625 . 180
2
2
= T 625 . 180
2
3
= T

n
1
=5 n
2
=5 n
3
=5

Global

T=1.200 T
2
=1.440.000 N=15

000 . 96
15
000 . 440 . 1
2
= =
N
T


698 . 96
2
= X

SCT= 96.698-96.000=698

SCA= 250 000 . 96
5
625 . 140
5
625 . 180
5
000 . 160
= + +

SCB=
N
T
T
K
j
2
1


= 3 , 367 000 . 96 ) 729 . 49 729 . 49 564 . 58 516 . 64 564 . 66 (
3
1
= + + + +

SCE = SCT-SCA-SCB = 698-250-367,3 = 80,7


176

En la tabla 7.7 se presenta el analisis de varianza, para las siguientes hiptesis:

H
0
; o
k
= 0 para todas las columnas H
0
; |
j
= 0 para todos las renglones

H
1
; o
k 0 =
para algunas columnas H
1
; |
j 0 =
para algunos renglones


Fuente de
variacin
Grados de
libertad (GL)
Suma de
cuadrados
(SC)
Cuadrado medio (CM) Cociente
F
Entre grupos
de
tratamiento
(A) Mtodos

3-1=2


250

125
2
250
=

4 , 12
1 , 10
125
=

Entre
bloques (B)
Nivel de
habilidad

5-1=4

367,3

8 , 91
4
3 , 367
=

1 , 9
1 , 10
8 , 91
=
Error de
muestreo (E)

(5-1)(3-1)=8


80,7

1 , 10
8
7 , 80
=


Ttotal (T)


15-1=14


698

Tabla 7.7

La primera hipotesis se refiere a la prueba de la diferencia entre las medias por columna, que
es el proposito basico del analisis. La segunda hipotesis nula se refiere a la prueba de la
diferencia entre las medias por renglon, la disposicin en bloques de acuerdso al nivel de
habilidad.

Al usar el nivel de significancia del 5%, el cociente F que se requiere para la primera hipotesis
nula (gl=2,8) es 4.46, en tanto que la F que se requiere para la segunda hipotesis nula (gl=4,8)
es 3.84. Por ello los dos cocientes F calculados en la tabla 7.7 se encuentran en la regin de
rechazo de la hipotesis nula. Se concluye que existe una diferencia significativa en las
calificaciones para los diferentes metodos de instruccin y que tambien existe una diferencia
significativa en las calificaciones para los diferentes niveles de habilidad.


Diseo completamente aleatorizado de dos factores
(ANOVA con dos criterios de clasificacin)

Cuando se utiliza este tipo de diseo pueden probarse tres hipotesis nula distintas, que no
existen efectos por columnas (los promedios por columna no difieren en forma significativa);
que no existen efectos por rengln (las medias por rengln no difieren en forma significativa); y
que no existe interaccin entre los dos factores (los dos factores son independientes).
Suponga que un ingeniero desea investigar el efecto que dos variables (tiempo en el horno y
temperatura) tienen sobre la dureza del material con diferentes combinaciones detiempo y de
temperatura.

Un efecto de interaccin significativo indica que el efecto de los tratamientos de un factor varia
de acuerdo con los niveles del otro factor

Ejemplo 7.4 Se est capacitando a nueve personas en cuatro materia distintas y se les
asigna, en forma aleatoria, a tres metodos diferentes de instruccin. A cada metodo de
177

instruccin se le asignaron tres estudiantes. En la tabla 7.8 se muestran las calificaciones de
las personas segn los metodos de instruccin y las areas de estudio.


Materia
Metodo de instruccin
A
1
A
2
A
3

Total
(T
j
)
Promedio
j
X

B
1

70 83 81
717

79,7 79 89 86
72 78 79

B
2

77 77 74
709

78,8 81 87 69
79 88 77

B
3

82 94 72
722


80,2 78 83 79
80 79 75

B
4

85 84 68
732

81,3 90 90 71
87 88 69

Total( T
k
)

960

1.020

900
Gran total
T=2880

Promedio
k
X

80

85

75
Gran media
T
X = 80
Tabla 7.8

Los contenidos que se necesitan para la tabla ANOVA son:

Valores totales para j

T
1
=717 T
2
=709 T
3
=722 T
4
=732

089 . 514
2
1
= T 681 . 502
2
2
= T 284 . 521
2
3
= T 824 . 535
2
4
= T

Valores totales para k

T
1
=960 T
2
=1.020 T
3
=900

600 . 921
2
1
= T 400 . 040 . 1
2
2
= T 000 . 810
2
3
= T

Global

T=2.880 T
2
=8.294.400 N=36
400 . 230
36
. 400 . 294 . 8
2
= =
N
T


694 . 694 ) 69 71 68 ( ...... ) 72 79 70 ( ) (
2 2 2
= + + + + + + = X

000 . 232 69 71 ......... 79 70
2 2 2 2 2
= + + + + = X

SCT= 232.000 230.400 = 1.600

SCA =
N
T
nj
T
k
2 2


178

SCA= 600 400 . 230
) 4 )( 3 (
000 . 710
) 4 )( 3 (
400 . 040 . 1
) 4 )( 3 (
600 . 921
= + +
SCB=
N
T
nK
T
j
2


= 9 . 30 400 . 230
) 3 )( 3 (
824 . 535
) 3 )( 3 (
284 . 521
) 3 )( 3 (
681 . 502
) 3 )( 3 (
089 . 514
= + + +

SCI=
N
T
SCB SCA X
n
2
2
) (
1


= 8 , 533 400 . 230 9 , 30 600 ) 694 . 694 (
3
1
=

SCE = SCT-SCA-SCB- SCI = 1.600-600-30,9-533,8=435,3

En la tabla 7.9 se presenta el analisis de varianza, para las siguientes hiptesis:
H
0
; o
k
= 0 para todas las columnas H
1
; o
k 0 =
para algunas columnas
H
0
; |
j
= 0 para todos las renglones H
1
; |
j 0 =
para algunos renglones
H
0
; i
jk
= 0 para todas las celdas H
1
; i
jk 0 =
para todas las celdas

donde sta ltima hipotesis se refiere a la interaccin de los factores

Fuente de
variacin
Grados de
libertad (GL)
Suma de
cuadrados
(SC)
Cuadrado medio
(CM)
Cociente
F
Entre grupos
de
tratamiento
(A) Mtodos

3-1=2


600

300
2
600
=

57 , 16
1 , 18
300
=

Entre grupos
de
tratamineto
(B) Materia

4-1=3

30,9

3 , 10
3
9 , 30
=

57 , 0
1 , 18
3 , 10
=
Interaccin
entre el
Metodo y la
Materia (i)

(4-1)(3-1)=6

533,8

89
6
8 , 533
=

92 , 4
1 , 18
89
=
Error de
muestreo (E)

(4)(3)(3-1)=24


435,3

1 , 18
24
3 , 435
=


Ttotal (T)


36-1=35


1600

Tabla 7.9

Al usar el nivel de significancia del 5%, el cociente F que se requiere para la primera hipotesis
nula (gl=2,24) es 3.40, en tanto que la F que se requiere para la segunda hipotesis nula
(gl=3,24) es 3.01; y para la tercera, la F que se requiere (gl=6,25) es 2,51. Por ello se concluye
que existe una diferencia significativa en las calificaciones para los diferentes metodos de
instruccin, que no existe diferencia significativa entre las diversas materias y que existe una
179

interaccin significativa entre los dos factores, Esta ltima conclusin indica que la efectividad
de los tres metodos de instruccin vara para las diferentes materias.


















































180

Resumen

ANOVA es el nombre que recibe la tecnica de analisis de varianza que se usa para probar las
diferencias entre diferentes medias. La suposicin en que se basa este anlisis, es que las
diversas medias muestrales se obtienen de poblaciones con distribucin normal y con la misma
varianza o
2
. Como la hiptesis nula consiste en que las medias poblacionales son iguales, tambin
se supone igualdad de varianzas.
El procedimiento de analisis de varianza separa la variabilidad total en dos componenetes::
variabilidad entre mezclas y variabilidad dentro de las mezclas
Las variables experimentales se conocen como factores: el cuantitativo y el cualitativo. El
primero es cuando su valor vara contiuamente. El segundo cuando sus valores varan en
forma discreta
El procedimiento de anlisis de varianza con un criterio de clasificacin se ocupa de probar la
diferencia entre k medias muestrales cuando se asignan los elemntos en forma aleatoria a cada
uno de los diversos grupos de tratamiento.
El procedimento con dos criterios se basa en dos dimensiones de tratamiento o de claificacin.
La interaccin de lso tratamientos significa que no son independientes.
A los grupos asociados, se los denomina bloques, por este motivo al estudio se lo conoce como
diseo aleatorizado en bloques con dos criterios de clasificacin.
Cuando se utilizan diseos con dos factores pueden probarse tres hipotesis nula distintas, que
no existen efectos por columnas (los promedios por columna no difieren en forma significativa);
que no existen efectos por rengln (las medias por rengln no difieren en forma significativa); y
que no existe interaccin entre los dos factores (los dos factores son independientes).
Un efecto de interaccin significativo indica que el efecto de los tratamientos de un factor vara
de acuerdo con los niveles del otro factor




























181

Ejercicios


7.1 Se colocaron cuatro tipos de publicidades en doce negocios y se asignaron tres de estos
negocios al azar a cada tipo de publicidad, con el objetivo de estudiar el impacto de los
carteles de publicidad en las ventas. Los datos se muestran en la tabla 7.10
.
Tipo de
publicidad
Ventas Ventas
totales
Ventas
promedios
P1 40 44 43
P2 53 54 59
P3 48 38 46
P4 48 61 47
Tabla 7.10

Pruebe la hiptesis que no existen diferencias entre los valores promediosde ventas para
los cuatro tipos de publicidades, utilizando un 5 % de nivel de significancia.

7.2 Tres gerentes de producto evaluaron los diseos de cuatro diseadores de maquinas
segn muestra la tabla 7.11. Pruebe la hiptesis de que las calificaciones promedios de los
diseadores no difieren, considerando dos criterios de clasificacin. Utilice un nivel de
significancia del 1 %.

Evaluador Diseador
B D F H
Mayor 87 79 83 92
Intermedio 83 73 85 89
Menor 91 85 90 92
Tabla 7.11

7.3 En la tabla 7.12 se presentan los datos de ventas (en millones) para cierto producto en
ocho regiones asignadas al azar. Pruenbe el efecto de los dos factores y de la interaccin
entre ellos, utilizando un nivel de significancia del 1 %.

Descuento en precio Con publicidad Sin publicidad
Con descuento 9.8 6
10.6 5.3
Sin descuento 6.2 4.3
7.1 3.9
Tabla 7.12

7.4 Se consideran seis maquinas que fabrican gomas. Las maquinas se comparan deacuerdo
a la resistencia a la traccin. Se utiliza una muestra de cuatro gomas de cada una de las
maquinas para saber si la resistencia media vara segn la maquina. En la tabla 7.13 se
indican las mediaciones de la resistencia en kilogramos por cm
2
.


Mquina
1 2 3 4 5 6
17.5 16.4 20.3 14.6 17.5 18.3
16.9 19.2 15.7 16.7 19.2 16.2
15.8 17.7 17.8 20.8 16.5 17.5
18.6 15.4 18.9 18.9 20.5 20.1
Tabla 7.13

182

7.5 Los datos de la tabla 7.14 representan las calificaciones finales en Matemtica Ingls,
Informtica, y Fisica que obtienen 5 jovenes ingenieros, ante una prueba de una
consultora.

Ingeniero Materia
Mat. Ing. Inf. Fis.
1 68 57 73 61
2 83 94 91 86
3 72 81 63 59
4 55 73 77 66
5 92 68 75 87
Tabla 7.14

Utilice un nivel de significancia de 0.05 para probar la hiptesis de que los promedios de
las calificaciones por materia no difieren.

7.5 Con los mismos datos del ejercicio anterior, realice la prueba de que los promedios en las
calificaciones no difieren, utilizando dos criterios de clasificacin.

7.6 Con referencia del ejercicio 7.5 realice un diseo para probar las hiptesis que los
promedios de calificaciones por materia no difieren en forma significativa, que los
promedios por ingeniero no difieren en forma significativa y que no existe interaccin entre
los dos factores.

7.7 Se determin el tiempo de respuesta en milisegundos para tres tipos diferentes de circuitos
utilizados en una calculadora electronica. Los resultados se presentan a continuacin

Ingeniero Tiempo de respuesta
1 19 22 20 18 25
2 20 21 33 27 40
3 16 15 18 26 17
Tabla 7.15

Pruebe la hiptesis de que los tres tipos de circuitos tienen el mismo tiempo de
respuesta, a un nivel de significancia de 0.01.

7.8 Una empresa emplea a dos ingenieros para estudios de tiempos. Se desea determinar si
los estandares fijados son efectuados por alguna interaccin entre los ingenieros y los
operadores. Un supervisor selecciona tres operadores al azar y efectua un experimento en
el que los ingenieros fijan los tiempos paraa un mismo trabajo. Analice los datos y extraiga
conclusiones.Utilice una significancia de 0.05.


Ingeniero Operador
1 2 3
1 2.59
2.78
2.38
2.49
2.40
2.72
2

2.15
2.86
2.85
2.72
2.66
2.67
. Tabla 7.16







183

Respuestas


7.1 F critica = 4,07 F calculada = 4,53 Rechazo H
0
para todos los niveles de
tratamientos.

7.2 F critica = 9,78 F calculada = 12,29 Rechazo H
0
; o
k
= 0 para todas los efectos de
tratamiento (columnas)

7.3 Los F criticos a los efectos de columna, rengln e interaccin son 21,20 . Los F
calculados en ese orden son : 96 ; 49,52 y 7,66
Por lo tanto existen efectos significativos, por columna y por rengln, pero no existen
efectos significativos de interaccin







































184

Preguntas de revisin

Con qu nombre se conoce el analisis de varainza?
Para qu se utiliza el analisis de varianza?
Qu nombre reciben las varaibles experimentales?
Cules son los dos componentes de las variaciones?
Cundo un factor es cuantitativo y cuando es cualitativo?
Qu significa la interaccin entre tratamientoss?
Cuales son las hipotesis en un analisis con un factor?
Cules son las hipotesis en un analisis con dos factores?





Trminos claves


Analisis de varianza CMET
ANOVA CME
Factores Criterios de clasificacin
Tratamientos Interaccin de factores
Variabilidad aleatoria

Variabilidad sistematica




























185

Capitulo 8

Analisis de relacin entre
variables


Anlisis de regresin

En muchos problemas hay dos o ms variables relacionadas, y es necesario explorar la naturaleza
de esta relacin. El principal objetivo de mltiples investigaciones es efectuar predicciones,
basndose en ecuaciones matemticas.
El anlisis de regresin es una tcnica estadstica para modelar e investigar la relacin entre dos
o ms variables.
La relacin entre estas variables se caracteriza por medio de un modelo matemtico, llamado
ecuacin de regresin y permite predecir o estimar el valor de una variable, llamada
dependiente, a partir de otras variables, llamadas independientes.
El anlisis de correlacin, se utiliza para medir la fuerza o el grado de asociacin entre las
variables.

Es muy comn que en la vida diaria al pesarnos en una balanza, se encuentre a disposicin
una tabla en donde figura el peso de la persona de acuerdo a su talla. Este es un claro ejemplo
de relacin entre dos variables: peso y altura. Teniendo en cuetna el sexo de la persona, se
puede asegurar que en promedio, las personas ms altas, tienen mayor peso.

Diagrama de dispersin

El diagrama de dispersin, es una grfica bidimensional, en donde se trazan los valores
observados o individuales de cada una de las variables. Cada valor se traza en sus coordenadas
X y Y.
Los diagramas de dispersin, que se muestran a continuacin, sirven para observar y tener una
idea aproximada del tipo de relacin existente entre las variables. La naturaleza de la relacin
puede adoptar muchas formas que van desde funciones matemticas muy sencillas hasta las
muy complicadas.


Relacin lineal positiva Relacin lineal negativa Relacin curvilinea negativa

0
2
4
6
8
10
12
14
16
18
0 5 10 15
Y
X
0
5
10
15
20
25
0 5 10 15
Y
X
0
2
4
6
8
10
12
14
16
18
20
0 5 10 15
Y
X
186



Relacin curvilnea positiva No hay relacin


Modelos de regresin

La distribucin de los valores X y Y en el diagrama de dispersin influye en la seleccin del modelo
matemtico adecuado. Esto se puede ver con facilidad si examinamos las graficas anteriores. Es
claro, que en la primera grfica, generalmente los valores de Y se incrementan linealmente
conforme X crece.
( Ej: Peso Altura )
En la segunda grfica la relacin es lineal pero inversa, es decir, se nota que cuando X crece Y
decrece. ( Ej: Precio Ventas)
En la tercera grfica se observa una relacin curvilnea positiva, los valores de Y crecen a medida
que aumenta X, pero ese crecimiento va disminuyendo. (Ej: Ventas - Publicidad )
En la cuarta grfica la relacin es parecida pero negativa, a medida que X crece Y va decreciendo
con rapidez, pero luego se hace ms lento. (Ejemplo de sta ltima situacin podra ser: aos de
uso de un auto - valor de reventa)

Hay una gran variedad de modelos que se podran utilizar para representar la relacin entre dos o
ms variables. En adelante, centraremos nuestro estudio al anlisis de relaciones lineales entre
variables


Ecuacin de regresin lineal

En los diagramas de dispersin, que muestran cierta relacin lineal entre las variables, existen
mltiples rectas que podran representar o ajustar esos datos.
El mtodo de los mimos cuadrados permite obtener la ecuacin de regresin lineal que mejor
ajusta esos datos

Y

= b X
i
+ a donde Y

= valor predicho de Y para la


observacin i

La ecuacin incluye dos coeficientes: a (la intercepcin con el eje Y) y b ( la pendiente). Una vez
obtenidos a y b se conoce la lnea recta que mejor ajusta a los datos, esto quiere decir, que de
todas las rectas posibles es la que asegura, menores desviaciones entre el valor Y y el valor
estimado Y


Cuando se utiliza el anlisis de regresin para predicciones, es importante considerar slo el rango
de valores de la variable independiente; este rango abarca desde el valor mnimo hasta el mximo
utilizado para desarrollar la ecuacin de regresin. Por ello se puede interpolar para predecir,
dentro de este rango, pero no se puede extrapolar ms all del rango de los valores de X.

Los coeficientes b y a se pueden obtener con las siguientes formulas

b =
2 2
) (
) )( (
X X n
Y X XY n




0
2
4
6
8
10
12
14
0 5 10 15
Y
X
0
1
2
3
4
5
6
7
8
9
10
0 5 10 15
Y
X
187

donde: el numerador es la covarianza de X, el denominador es la varianza de la variable
independiente

a = X b Y

donde: Y es la media de los valores conocidos de Y, X es la media de los valores
conocidos de X

Se debe tener en cuenta que la ecuacin y los coeficientes obtenidos son para la regresin de Y
en X, esto significa que se estima Y a partir de X, o en otras palabras, que X es la variable
independiente y Y, la variable dependiente.

Si Y es la variable independiente y X la variable dependiente, la regresin sera de X en Y, lo que
se estima es X a partir de valores conocidos de Y. En este caso la ecuacin de regresin lineal y
los coeficientes se obtienen de la siguiente manera:

X

= b Y + a donde X

= valor predicho de X para la


observacin i

b =
2 2
) (
) )( (
Y Y n
Y X XY n




donde: el numerador es la covarianza de XY
el denominador es la varianza de la variable independiente

a = Y b X

donde: X es la media de los valores conocidos de X
Y es la media de los valores conocidos de Y


Ejemplo 8.1 En la tabla 8.1 se cuenta con datos referidos a la altura y el peso de una muestra
de 12 individuos

Observacin Altura
x
Peso
y
1 1,60 60
2 1,65 62
3 1,68 65
4 1,80 75
5 1,70 70
6 1,78 74
7 1,75 75
8 1,85 78
9 1,90 85
10 1,92 87
11 1,98 90
12 1,95 88
Tabla 8.1

Si marcamos estos valores en un diagrama de dispersin, se vera de la siguiente manera.


188


Fig. 8.2


En la figura 8.2 se observa claramente que hay una cierta relacin lineal entre la altura y el peso.
Por lo tanto, se podra aplicar un modelo lineal.

A continuacin, en la tabla 8.2 se agregan columnas para calcular los coeficientes a y b, con el fin
de obtener la ecuacin de regresin lineal, que mejor representa a estos datos. Luego se podr
utilizar esta ecuacin para realizar estimaciones.

Observacin Altura X Peso Y XY X
2

1 1,6 60
96 2,56
2 1,65 62
102,3 2,7225
3 1,68 65
109,2 2,8224
4 1,8 75
135 3,24
5 1,7 70
119 2,89
6 1,78 74
131,72 3,1684
7 1,75 75
131,25 3,0625
8 1,85 78
144,3 3,4225
9 1,9 85
161,5 3,61
10 1,92 87
167,04 3,6864
11 1,98 90
178,2 3,9204
12 1,95 88
171,6 3,8025
21,56 909 1647,11 38,9076
Tabla 8.2

b =
2 2
) (
) )( (
X X n
Y X XY n




b =
8336 , 464 9076 , 38 12
909 56 , 21 11 , 1647 12

x
x x


b = 81,2986


0
10
20
30
40
50
60
70
80
90
100
0 0,5 1 1,5 2 2,5
Y
X
189

a = X b Y

a = 7966 , 1 2936 , 81 75 , 75 x

a = - 70,3164

Por lo tanto la ecuacin de regresin lineal es:

Y

= 81,2986 X 70,3164

Esta ecuacin se la podra utilizar, por ejemplo para estimar el peso de un individuo que mide 1,91
mts.

Y

= 81,2986 x 1,91 70,3164


Y

= 84,9639



Error estandar de la estimacin

Si bien el mtodo de los mnimos cuadrados da por resultado una lnea recta que ajusta los
datos, la ecuacin de regresin no es perfecta para las predicciones. Por lo tanto, la lnea de
regresin sirve para prediccin aproximada de un valor Y, para un valor dado X.
En la figura 8.3 se puede observar que la lnea de regresin cae cerca de muchos de los
valores de Y, hay otros valores que estan por encima y por debajo de la lnea.
La medida de la variabilidad en torno a la lnea de regresin se llama error estndar de la
estimacin.


Fig. 8.3

El error estndar de la estimacin, dado por el smbolo S
yx
se define:

S
yx
=
2
)

(
2


n
Y Yi


Donde: Y
i
= valor real de Y para un X
i
dado
Y

= valor predicho de Y para un X


i
dado
0
10
20
30
40
50
60
70
80
90
100
0 0,5 1 1,5 2 2,5
Y
X
190

Esta forma de clculo requiere el clculo del valor predicho de Y para cada valor de X, pero
tambin se puede obtener el error estndar con la siguiente formula:

S
yx
=
2
2


n
XY b Y a Y


Como se puede visualizar, este mtodo de calculo, trabaja con los valores de X y los valores
de Y conocidos, no requiriendo del valor predicho de Y

En la tabla 8.3 se presentan los datos conocidos de X y Y, agregando nuevas columnas para
calcular una serie de variaciones que se vern a continuacin


XY X
2












X Y
1 1,6 60
96 2,56 59,7612753 0,0569895 248,0625 255,639318
2 1,65 62
102,3 2,7225 63,8262053 3,33502575 189,0625 142,17688
3 1,68 65
109,2 2,8224 66,2651633 1,60063817 115,5625 89,9621273
4 1,8 75
135 3,24 76,0209953 1,04243147 0,5625 0,07343847
5 1,7 70
119 2,89 67,8911353 4,44731031 33,0625 61,7617543
6 1,78 74
131,72 3,1684 74,3950233 0,15604343 3,0625 1,83596178
7 1,75 75
131,25 3,0625 71,9560653 9,26553834 0,5625 14,3939404
8 1,85 78
144,3 3,4225 80,0859253 4,35108457 5,0625 18,8002486
9 1,9 85
161,5 3,61 84,1508554 0,72104661 85,5625 70,5743709
10 1,92 87
167,04 3,6864 85,7768274 1,49615128 126,5625 100,537267
11 1,98 90
178,2 3,9204 90,6547434 0,42868891 203,0625 222,151376
12 1,95 88
171,6 3,8025 88,2157854 0,04656333 150,0625 155,395805
21,56 909 1647,11 38,9076 26,9475117 1160,25 1133,30249
Tabla 8.3

El error estandar de la regresin es:
S
yx
=
10
9475 , 26


S
yx
= 1,64

Usando la frmula alternativa

S
yx
=
2
2


n
XY b Y a Y


S
yx
=
10
11 , 1647 2986 , 81 909 3164 , 70 70017 x x


S
yx
= 1,64


VNE VT VE
Y

2
)

( Y Y
2
) ( Y Y
2
)

( Y Y
191

Vale decir que 1, 64 kg es la dispersin promedio en la estimacin.
El error estndar de la regresin mide la variabilidad en torno a la recta ajustada de
regresin.


Anlisis de correlacin

A fin de poder determinar que tan bien predice la variable independiente a la variable
dependiente se necesitan desarrollar algunas medidas de variacin.
La variacin total, es una medida de la variacin de los valores de Y en torno a su media
Esta variacin se la puede dividir en dos partes: variacin explicada (debido a la relacin
entre X y Y) y la variacin no explicada (debido a otros factores que no sean de la relacin
entre X y Y)

Variacin Total = Variacin Explicada + Variacin No Explicada

Variacin Total =
2
) ( Y Y
Variacin No Explicada =
2
)

( Y Y
Variacin Explicada =
2
)

( Y Y

En la siguiente grfica se observan las diferentes variaciones (Fig.8.4)



-
VNE

VT

VE








Fig. 8.4



El coeficiente de determinacin r
2
, se puede definir como:

r
2
=
VT
VE


Este coeficiente mide la proporcin de variacin que se explica con la variable
independiente para el modelo de regresin. Esto es, la proporcin de la variacin total que
explica el modelo de regresin.
El rango de variacin de este coeficiente va desde 0 hasta 1, no pudiendo ser negativo.

Para el ejemplo desarrollado de las variables peso y altura:

Y
X
Y
Y


Yi
192

r
2
=
VT
VE


r
2
= 0,97


Esto significa que el 97 % de la variacin total se explica por la variacin de la altura

Como ya dijimos anteriormente, la correlacin mide el grado de asociacin entre las dos
variables. La fuerza de relacin entre dos variables se suele medir con el coeficiente r de
correlacin, cuyos valores pueden ir desde 1 hasta 1.

o Cuando este coeficiente se acerca a 1, significa que entre las variables hay mucha
relacin y es positiva o creciente.
o Cuando el coeficiente se aproxima a 1, quiere decir que entre las variables hay mucha
relacin pero en forma inversa. Seguramente el coeficiente b de la regresin o
pendiente de la recta es negativa.
o Cuando el coeficiente se aproxima a cero, se interpreta que entre las variables hay muy
poca relacin


El coeficiente r de correlacin lineal, se lo puede obtener con la frmula de momento
producto, tambin conocido como o de Pearson

r =
2 2 2 2
) ( ) (
) )( (
Y Y n X X n
Y X XY n





Para nuestro ejemplo de pesos y alturas

r =
4902380289 70017 12 8336 , 464 ( 9076 , 38 12
909 56 , 21 11 , 1647 12


x x
x x


r = 0,98

Se interpreta que hay una muy fuerte relacin entre la altura de una persona y su peso,
adems esa relacin es positiva o creciente, es decir que en general a mayor altura de una
persona, mayor ser su peso.

Tambin se puede obtener el coeficiente r sacando la raz cuadrada del coeficiente de
determinacin r
2
, y para saber si r es positivo o negativo, hay que fijarse en la pendiente de la
recta o el coeficiente b de la regresin. Si este coeficiente b es positivo, el coeficiente r tambin
lo ser.

Las suposiciones necesarias para anlisis de regresin y de correlacin son:

Normalidad: que el valor de Y tenga distribucin normal para cada valor de X.
Homoscedasticidad, requiere que la variacin en torno a la recta de regresin sea
constante para todos los valores de X, es decir que Y vara la misma cantidad cuando
X es un valor alto o un valor bajo.
Independencia del error., requiere que el error entre un valor de Y predicho y uno
observado sea independiente para cada valor de X.


193

El coeficiente de correlacin de rango o de Spearman, se denota por r
g
se lo usa cuando
queremos una medicin no paramtrica de la asociacin entre dos variables X y Y
r
g
= 1 -
) 1 (
6
2
2

n n
d


donde d es la diferencia entre los rangos asignados x
i
y y
i

siendo n el tamao de muestra

El valor de r
g
tiene el mismo rango de variacin que r , es decir de 1 a 1, y tambin la misma
interpretacin, cuando r
g
se acerca a 1, hay una alta asociacin en forma positiva, cuando r
g

se aproxima a 1 , una elevada asociacin en forma inversa, y cuando r
g
est cerca de 0, hay
poca o ninguna asociacin entre las variables.

Ejemplo 8.2 La tablas 8.4 presenta informacin de la cantidad de azcar y de jarabe de 8
marcas de gaseosas. Se pretende saber si existe asociacin entre el jarabe y la azcar.

Gaseosa Azcar (x) Jarabe (y)
A 14 9
B 17 11
C 28 16
D 17 13
E 16 10
F 13 8
G 24 15
H 25 14
Tabla 8.4

Para calcular el coeficiente r
g
realizamos el procedimiento que se detalla a continuacin, cuyos
resultados se visualizan en la tabla 8.5

Si los datos no estn ordenados por algn criterio, es necesario clasificar u ordenar las
dos variables en el mismo sentido
En el caso de valores repetidos para la misma variable se obtiene un orden promedio
Se calculan los valores d, como las diferencias de ordenes( d =X
i
y Y
i
)
Se obtienen los valores d
2

Se realiza la sumatoria de los valores d
2



Gaseosa Azcar
(x)
Jarabe
(y)
Xi Yi d d
2

A 14 9 2 2 0 0
B 17 11 4.5 4 0.5 0.25
C 28 16 8 8 0 0
D 17 13 4.5 5 -0.5 0.25
E 16 10 3 3 0 0
F 13 8 1 1 0 0
G 24 15 6 7 -1 1
H 25 14 7 6 1 1
Tabla 8.5


Se aplica la frmula para obtener el coeficiente de correlacin de rango

194

r
g
= 1 -
) 1 8 ( 8
50 , 2 6
2

x


r
g
= 0,9702


El valor 0,9702 est indicando una muy fuerte asociacin entre el contenido de azcar y el
contenido de jarabe en las gaseosas.












































195

Resumen

Existen dos tipos de anlisis: el anlisis de regresin y el anlisis de correlacin. El primero se
lo utiliza para predecir el valor de una variable dependiente a partir de otra variable
independiente. El segundo, mide la asociacin existente entre las variables.
Los diagramas de dispersin dan una idea de la relacin entre las variables. La ecuacin de
regresin lineal, es la recta que mejor representa o ajusta a los datos y se la puede utilizar para
hacer estimaciones o predicciones.
Para obtener la recta, primero se calculan los coeficientes a y b, ste ltimo indica la pendiente
de la recta.
Si bien la ecuacin de regresin es la mejor recta de todas, no es perfecta, el error estndar de
la regresin significa la dispersin promedio de la regresin
La variacin total se la puede dividir en dos variaciones: la variacin explicada y la variacin no
explicada.
El coeficiente de determinacin r2 indica la proporcin de la variacin total que se explica por el
modelo de regresin lineal.
El grado de asociacin existente entre las variables se mide por el coeficiente de correlacin
lineal, cuyo rango de variacin va de 1 a 1. Cuando este coeficiente se acerca a 1 en ambos
sentidos, significa que hay mucha relacin entre las variables, segn el signo del coeficiente,
esa relacin ser positiva (creciente) o negativa (decreciente). En caso de que el coeficiente
est prximo a 0 representa que hay poca o ninguna relacin.
El coeficiente de correlacin de Spearman o de rango, se lo utiliza para medir la asociacin
entre dos variables, no siempre numricas, sino que pueden representar categorizaciones o
clasificaciones.




























196

Ejercicios

8.1 Suponga que un analista toma una muestra aleatoria de 10 embarques recientemente
enviados por camin de una compaa y registra la distancia en kilmetros y el tiempo
de entrega, al medioda ms cercano, y a partir del momento en que el embarque
estuvo listo para su transportacin. Construya la grfica de dispersin para los datos de
la tabla y determine la ecuacin de regresin lineal.

Distancia
en Km
(X)
Tiempo de entrega
en das
(Y)
825
215
1070
550
480
920
1350
325
670
1215
3.5
1
4
2
1
3
4.5
1.5
3
5

8.2 Estime el tiempo de entrega, desde el momento en que el embarque est disponible
para un viaje de 1000 kilmetros. podra utilizarse esta ecuacin de regresin para
estimar el tiempo de entrega para un embarque de 2500 kilmetros?.

8.3 Calcule el error estndar para el problema 8.1 en referencia al anlisis del tiempo de
entrega.

8.4 Una compaa de productos qumicos desea estudiar los efectos que el tiempo de
extraccin tiene en la eficiencia de una operacin de extraccin, obteniendo los datos
que aparecen en la siguiente tabla:

Eficiencia
de
extraccin
Tiempo de extraccin
(minutos)
27
45
41
19
35
39
19
49
15
31
57
64
80
46
62
72
52
77
57
68

a. Dibjese un diagrama de dispersin para verificar que una recta se
ajustar bien a los datos, bosqujese una lnea recta a ojo, y con ella
predgase la eficiencia en la extraccin que puede esperarse cuando el
tiempo de extraccin es de 35 minutos.

b. Ajstese una recta a los datos con el mtodo de mnimos cuadrados y
utilcese para predecir la eficiencia de extraccin que puede esperarse
cuando el tiempo de extraccin es de 35 minutos.

197

8.5 A continuacin presentamos los datos del nmero de trabajos por da y el tiempo
necesario para procesarlos en una unidad central de procesamiento (CPU).

Numero de
trabajos
(X)
Tiempo
De CPU
(Y)
1 2
2 5
3 4
4 9
5 10

a. Obtenga la ecuacin de regresin lineal
b. Estime el tiempo promedio de C.P.U para 3.5 trabajos.

8.6 Para los datos del ejercicio 8.1 sobre distancias y tiempos de entrega, aplquese el
anlisis de correlacin. Calcule el coeficiente de determinacin y a partir de este el
coeficiente de correlacin.

8.7 En referencia al mismo problema determine el coeficiente de correlacin, utilizando la
formula alternativa de Pearson

8.8 Dada la tabla de, horas invertidas en estudio (X) y calificaciones del examen (Y), en un
curso de estadstica.

Estudiante 1 2 3 4 5 6 7 8
Horas de estudio (X) 20 16 34 23 27 32 18 22
Calificaciones en el examen (Y) 64 61 84 70 88 92 72 77

Calcule los coeficientes de determinacin y de correlacin.
Interprete los mismos.

8.9 Se obtiene la siguiente informacin, sobre la cantidad de fertilizante (X) y la produccin
de trigo (Y)

Fertilizante
en Kg
Produccin de trigo
En Tn.
2 8
4 9
5 11
7 11
10 12
11 14
12 15
15 16

a. Represente los datos en un diagrama de dispersin.
b. Halle la recta de regresin de Y con respecto a X
c. Estime la produccin de trigo, cuando se utilicen 13 Kg
de fertilizante
d. Calcule la desviacin tpica de la regresin.
e. Obtenga el coeficiente de correlacin

8.10 Se desea determinar si las calificaciones obtenidas por los empleados de una empresa
industrial, en un cierto test, se relacionan con su rendimiento en el trabajo (expresado

198

por nmero de unidades producidas en cierto periodo). Utilice el coeficiente de
correlacin por rangos.

Empleado 1 2 3 4 5 6 7 8 9 10
Calificacin en el test 65 70 76 75 80 78 83 84 85 90
Rendimiento 30 25 35 40 38 42 48 50 55 45

8.11 Las siguientes siete jurisdicciones estn ordenadas segn el nivel de desarrollo
econmico y transferencias recibidas de parte del gobierno nacional


Grado de desarrollo
orden decreciente).
Transferencias recibidas
(orden decreciente).
Capital Federal La Rioja
Buenos Aires Capital Federal
Crdoba Santiago del Estero
Mendoza Mendoza
Entre Ros Entre Ros
Santiago del Estero Crdoba
La Rioja Buenos Aires

Se pide analizar el criterio utilizado en la poltica de transferencias de fondos
nacionales.

8.12 Se piensa que el porcentaje de impurezas en gas oxigeno producido
en un proceso de destilacin depende del porcentaje de
hidrocarburo en el condensador principal del procesador. Se
disponen los datos de operacin de un mes, los cuales se presentan a
continuacin:


Impureza (%) 86.9 89.8 90.2 86.3 92.5 87.3 86.2 91.8 95.6 89.8
idrocarburo (%) 1.0 1.1 1.4 1.1 1.0 0.9 1.1 0.8 1.4 1.0
Impureza (%) 96.7 99.4 98.6 96.0 93.6 87.3 95.0 96.8 85.2 99.5
Hidrocarburo (%) 1.4 1.5 1.5 1.5 1.4 1.1 1.0 0.9 0.9 0.9

a. Ajuste un modelo de regresin lineal a los datos
b. Calcule R
2
para este modelo.

8.13 En la tabla siguiente, X es la fuerza de tensin aplicada a una probeta
de acero en miles de libra, e Y es la elongacin resultante en
milsimas de pulgada:

X 1 2 3 4 5 6
Y 14 33 40 63 76 85

a. Grafquese los datos para comprobar si es razonable suponer que la
regresin de Y sobre X es lineal.
b. Encuntrese la recta de mnimos cuadrados.

8.14 El costo de fabricar un lote de cierto producto depende del tamao del lote, como se
aprecia en el siguiente conjunto de datos muestrales:





199

Costos (dlares) Tamao del lote
30 1
70 5
140 10
270 25
530 50
1010 100
2500 250
5020 500

a. Dibjese un diagrama de dispersin para comprobar la afirmacin de
relacin lineal.
b. Ajstese una recta a estos datos por el mtodo de los mnimos
cuadrados.
c. Calclese la desviacin estndar de la estimacin







































200

Respuestas

8.1
a)


b) 1181 , 0 0035 , 0

+ = X Y

8.2 a) para 1000 km - tiempo estimado =3.6 das
b) para 2500 km. No es confiable la ecuacin por estar
fuera del rango de valores conocidos de x
8.3 0,48 das

8.4 a)



b) ) 98 , 24 ( 35 8959 , 0

= x Y
= 55,70

8.5 a) X Y 2

= b) 7

8.6 r
2
= 0,9090 r = 0,9534

8.7 0,9489

8.8 r
2
= 07432 r = 0,8621





8.9 a)
0
1
2
3
4
5
6
0 500 1000 1500
D

a
s
Km
Tiempo de entrega segn distancia
0
20
40
60
80
100
0 20 40 60
E
f
i
c
i
e
n
c
i
a
minutos
Eficiencia segn tiempo
201




b) 036 , 7 6054 , 0

+ = X Y c) 14,90 tn d) 0,76 tn e) 0,9601



8.10 r
g
= 0,85

8.11 r
g
= -0,42

8.12 a) 10 , 81 58 , 9

+ = X Y b) 0,19

8.13 a) Si es razonable



b) 13 , 1 48 , 14

+ = X Y

8.14 a)


b) 89 , 22 97 , 9

+ = X Y c) 12,03
0
2
4
6
8
10
12
14
16
18
0 5 10 15 20
T
n
Kg
Produccin segn fertilizante
0
10
20
30
40
50
60
70
80
90
0 2 4 6 8
Y
X
0
1000
2000
3000
4000
5000
6000
0 200 400 600
Costos segn tamao
202

Preguntas de revisin

Para qu se utiliza un diagrama de dispersin?
Qu estudia el anlisis de regresin?
Qu tipos de relaciones existen?
Qu mtodo se utiliza para obtener la ecuacin de regresin lineal?
Qu significan los coeficientes en la ecuacin de regresin lineal?
Qu representa el numerador del coeficiente b?
La varianza de que variable se usa en el denominador del coeficiente b?
Para que valores de la variable independiente es conveniente utilizar la ecuacin de regresin
lineal?
Para que sirve el error estndar de la regresin?
Cules son los tipos de variacin que componen la variacin total?
Cul es el significado del coeficiente de determinacin?
Qu mide el coeficiente de correlacin lineal?
Cul es el rango de variacin del coeficiente de determinacin?
Entre qu valores se puede encontrar el coeficiente de correlacin lineal?
Qu mide el coeficiente de Spearman?






Trminos claves

Anlisis de regresin Varianza total
Anlisis de correlacin Varianza explicada
Diagrama de dispersin Varianza no explicada
Ecuacin de regresin lineal Error estndar de la regresin
Coeficientes de regresin Mtodo de los mnimos
cuadrados
Pendiente de la recta Coeficiente de determinacin
Variable independiente Coeficiente de correlacin
lineal
Variable dependiente Coeficiente de correlacin de
rangos
Covarianza
















203

Actividades

Los estudiantes pueden realizar las siguientes actividades a manera de ensayo:

Recolecte los datos de 12 alumnos y analicen si existe relacin entre el peso y la
altura. Adems investigue el grado de asociacin entere las variables
Averigue la relacin que hay entre los Kwatt consumidos de energa y los costos de la
energa. Para ello tome como informacin, las ltimas 10 facturas.


















204

Capitulo 9

Control estadstico de calidad


Desde el punto de vista industrial, la calidad implica la valorizacin de las necesidades del
cliente desde el estudio del mercado y su traduccin en un diseo y en un producto que de
satisfaccin a esas necesidades en cuanto a su funcionalidad, precio, vida y servicio.
Se puede decir que la calidad es un concepto universal de vida, conducta y creatividad, es
el atributo que permite que un producto o servivio brinde al ser humano el beneficio para el cual
fue concebido.

El control de calidad recibe una creciente atencin como herramienta de administracin en la que
importantes caractersticas de un producto se observan, evalan y comparan con algn tipo de
estndar. Los usuarios principales del control de calidad son las empresas industriales.
Est claro que un buen programa de control de calidad aumenta la calidad del producto que se
produce y sus utilidades.

El campo del control estadstico de la calidad puede definirse en forma amplia y se compone de
mtodos estadsticos y de ingeniera tiles en la medicin, supervisin, control y mejoramiento de
la calidad


Control estadstico de proceso

Un proceso de manufactura debe ser estable o repetible y capaz de operar con poca variabilidad
en torno a una dimensin nominal del producto. Los controles estadsticos de proceso en lnea son
herramientas poderosas para lograr la estabilidad del proceso y el mejoramiento en la calidad
mediante la reduccin de la variabilidad
Cuando algo no funciona bien, puede suceder que un producto no tenga las especificaciones
requeridas, se sufra un rechazo del producto, se pierden ventas, se pierden clientes y mercado, es
el precio del incumplimiento
Entonces hay que estudiar los procesos y ciertos conceptos bsicos.

En todo proceso intervienen mltiples factores
Estos factores producen variaciones
Debemos hacer un enfoque racional para predecir la variacin, diferenciar sus causas y
tomar las decisiones a tiempo para mejorar la calidad

El pensamiento estadstico es una postura mental que ayuda a comprender la variacin de
los procesos y la posibilidad o no de predecir esa variacin

Como ya habr notado se viene haciendo referencia a dos conceptos bsicos: proceso y variacin

Un proceso es una serie sistemtica de acciones dirigidas al logro de un objetivo






205











La mano de obra puede estar compuesta por: gerentes, jefes, supervisores, administrativos,
operarios, etc
Las maquinas pueden ser: envasadoras, hornos, computadoras, telfonos, etc

Un proceso eficiente es la combinacin armnica de todos los recursos (materiales, mquinas,
mano de obra, mtodos y medio ambiente), para obtener un producto o servicio que cumpla con
los requerimientos del cliente.

Como ya se dijo en un proceso intervienen muchos factores y por mejor diseado que se
encuentre cualquier proceso, siempre ocurrir algn tipo de variacin.
La apreciacin de la variacin depender del instrumento de medida utilizado. La longitud de dos
tornillos aparentemente iguales a simple vista se diferencian si utilizamos un calibre para medirlos.
Esta diferencia se llama variacin y existe en todos los procesos. Si nada altera el proceso, las
variaciones estarn dentro de ciertos lmites, calculados matemticamente, por lo que podemos
decir que las variaciones no pueden eliminarse totalmente, pero pueden controlarse utilizando
herramientas estadsticas.

Las variaciones pueden ser grandes o pequeas, pero:



El pensamiento estadstico permite predecir la variacin, diferenciar sus causas y as mejorar la
calidad. Esto significa:

Todo vara
Los resultados de la fabricacin de un producto individual no son predecibles.
Los resultados de la fabricacin de un grupo de productos provenientes de un mismo
proceso, tienden a ser predecibles.

Ejemplo 9.1

Todos los alfajores de chocolate no pesan lo mismo
No es posible predecir cual ser el peso de un alfajor de chocolate
Si se puede predecir que todos los alfajores de chocolate provenientes de una misma lnea
de produccin, tendrn valores comprendidos dentro de ciertos parmetros.

Las posibles causas de variacin se pueden clasificar en dos categoras:

Causas aleatorias o normales: producen variaciones pequeas,
provenientes de factores que intervienen en el proceso, como puede ser: el
desgaste de bujes, cambio de material, vibracin de una maquina, etc..
Causas asignables o anormales: producen grandes variaciones no
usuales, pudiendo ser: mal puesta apunto, material de mala calidad, error del
operario, etc

El control estadstico de procesos (C.E.P.) es un conjunto de herramientas de solucin de
problemas que puede aplicarse en cualquier proceso.


OBJETIVO
Materiales Medio ambiente
Maquinas Materiales Mano de obra
LA VARIACIN SIEMPRE EXISTE
206

Las principales herramientas son:

El histograma
El diagrama de pareto
El diagrama de causa-efecto
El diagrama de concentracin de defectos
El diagrama de control
El diagrama de dispersin
La hoja de verificacin

Pero ms all de usar estas herramientas, el control estadstico de proceso, debe ser un deseo de
todos los integrantes de una organizacin de mejorar la calidad en forma continua.
De todas las herramientas nombradas, indudablemente los diagramas de control, son las
herramientas ms poderosas del control estadstico de procesos.

Grficos de control

El objetivo de los grficos de control es determinar si el comportamiento de un proceso se
mantiene en un nivel aceptable de calidad.
Un proceso que experimenta solo variaciones aleatorias, se dice que est en control estadstico.
Cuando la variabilidad surge de causas asignables, no aleatorias, entonces el proceso est fuera
de control estadstico. La fuerza del diagrama de control radica en su capacidad para detectar
causas asignables. Es la bor de los individuos que emplean el diagrama de control identificar la
causa que origin la condicin fuera de control, desarrollar e implantar una serie de acciones
correctivas apropiadas y asegurar que la causa asignable sea eliminada del proceso.

Los grficos de control tambin pueden servir:

Para definir el estndar de un proceso que la gerencia desee alcanzar
Como instrumento para alcanzar dicha meta
Para decidir cual es el momento adecuado para hacer los ajustes.

Las caractersticas de calidad, de los grficos de control, son de dos categoras: variables y
atributos. En los grficos de variables, tambin llamados de mediciones, la caracterstica es una
medicin, como el dimetro, el peso, la longitud, etc. Para los grficos de atributo, la caracterstica
refleja si el producto individual cumple o no cumple las especificaciones.
En el caso de la grafica de variables, se debe ejercer control sobre la tendencia central y la
variabilidad. Para tratar estos dos conceptos son esenciales graficas de control separadas; la
tendencia central se controla con el grafico de la media y la variabilidad se controla por el rango o
la desviacin estndar
En el grafico de atributos se controlan, principalmente, la proporcin o la cantidad de defectuosos,

Un diagrama de control (fig. 9.1), consta de una lnea central que corresponde a la calidad
promedio que el proceso debe comportarse cuando se presenta el control estadstico, y dos
lmites de control, llamados: limite superior de control y limite inferior de control. Estos lmites se
eligen de modo que los valores que caen entre ellos puedan ser atribuidos a variaciones
probabilsticas, en tanto los que caen ms all de los lmites pueden tomarse para indicar una falta
de control estadstico.

207


Fig. 9.1


El procedimiento consiste en la toma peridica de una muestra aleatoria del proceso, del computo
de alguna cantidad apropiada y de la graficacin de sta, en el diagrama de control. Cuando un
valor de muestra cae fuera de los lmites de control, buscamos alguna causa asignable de
variacin. Incluso si un valor de muestra cae entre los lmites de control, una tendencia o algn
patrn sistemtico puede indicar que es necesaria cierta accin para evitar problemas ms serios.
La capacidad de interpretar en forma precisa los diagramas de control suele adquirirse con la
experiencia. Es necesario que el usuario est familiarizado con los fundamentos estadsticos de
los diagramas de control y con la naturaleza del proceso de produccin.


Grficos de control de variables

Cuando la caracterstica de calidad se expresa como una medicin, se ejerce control sobre el valor
promedio de la caracterstica de calidad, y sobre su variabilidad. El control sobre la calidad
promedio se realiza mediante el grfico de control para medias, que suele llamarse, diagrama
X. La variabilidad del proceso, puede controlarse con un diagrama de rango o diagrama R.

Para realizar un grfico de control para medias, se recomienda el uso de por lo menos 20
muestras El tamao de la muestra por lo general ser de 4, 5, o 6.
Los limites de control surgen de
n
o
3 . Cuando y o se desconocen, hay que estimarlos con
base en las muestras. Entonces la media de la poblacin la estimamos por medio de la gran
media
m
X
X
i

= donde m es el numero de muestras


De esta manera podemos usar esta gran media X como la lnea central del diagrama de control
X
A la desviacin estndar o la podemos estimar de sta forma
2

d
R
= o
Donde R es el rango promedio de todas las muestras
m
R
R
i

= ; y d
2
es la media de los
rangos relativos, que se obtiene de la tabla de factores para grficos de control, ingresando a esa
tabla con el tamao de muestra.

Entonces los lmites de control quedaran:

0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10 12
C
a
r
a
c
t
e
r

s
t
i
c
a

d
e

c
a
l
i
d
a
d
Nmero de muestra
Lmite de control inferior (LIC)
Lmite de control superior (LSC)
Lnea central
208

LSC = R
n d
X
2
3
+

LIC = R
n d
X
2
3


Pero la cantidad A
2
=
n d2
3
es una constante segn el tamao de muestra es posible definir los
lmites de control como:

LSC = R A X 2 +

LIC = R A X 2


La constante A
2
se tabula en la tabla de factores para grficos de control. Tambin se ingresa a la
tabla segn tamao de muestra.

Un grfico de medias se observa en la figura 9.2


Fig. 9.2


Recordar que cuando un valor de media se encuentre dentro de ambos lmites se dice que el
proceso se encuentra bajo control. En caso de que alguna media supere algn lmite, el proceso
est fuera de control, ante esta situacin se deben eliminar las muestras cuyas medias
sobrepasaron los lmites y se recalculan los lmites de control, adems de buscar las causas
asignables.


Los parmetros del grfico R de rangos pueden determinarse con facilidad. Por supuesto que la
lnea central ser R . Para definir los lmites se necesita una estimacin de la desviacin estndar
de R. Utilizando alguna relacin y usando la tabla de factores de grficos de control, llegamos a
que los lmites para el diagrama R son:

LSC = D
4
R

LIC = D
3
R

Donde D
4
y D
3
son dos valores que se tabulan en la tabla de factores para grficos de control,
ingresando segn tamao de muestra.
0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10 12
M
e
d
i
a
s
Nmero de muestra
LSC X
Lnea central X

LIC X
209


Un grfico R de rangos se observa en la figura 9.3




Fig. 9.3


Ejemplo 9.2 La tabla 9.1 presenta 20 muestras de cinco alfajores cada una, indicando los pesos
de las mismas (en gramos). Al final se han agregado dos columnas con los valores ya calculados
de la media y el rango de cada muestra

N de muestra X
1
X
2
X
3
X
4
X
5
Media R
1 20 21 22 26 27 23,20 7,00
2 23 24 25 26 27 25,00 4,00
3 19 22 21 24 24 22,00 5,00
4 20 22 23 24 25 22,80 5,00
5 22 25 25 26 29 25,40 7,00
6 20 28 25 24 23 24,00 8,00
7 27 21 25 27 28 25,60 7,00
8 24 23 22 23 22 22,80 2,00
9 25 21 28 22 18 22,80 10,00
10 22 23 27 24 17 22,60 10,00
11 25 25 20 26 20 23,20 6,00
12 26 27 19 27 28 25,40 9,00
13 21 22 18 19 25 21,00 7,00
14 20 25 15 20 26 21,20 11,00
15 19 26 28 25 24 24,40 9,00
16 18 28 29 26 25 25,20 11,00
17 27 29 25 24 28 26,60 5,00
18 28 24 24 21 29 25,20 8,00
19 25 22 26 23 21 23,40 5,00
20 24 20 21 29 25 23,80 9,00

Tabla 9.1



m
X
X
i

= = 23,78
m
R
R
i

= = 7,25

LSC = R A X 2 + LSC = 25 , 7 577 , 0 78 , 23 x + LSC = 27,96
LIC = R A X 2 LIC = 25 , 7 577 , 0 78 , 23 x

LIC= 19,59
0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10 12
R
a
n
g
o
s
Nmero de muestra
LSC R
Lnea central R

LIC R
210

Como ningn valor de media muestral cae fuera de los lmites de control, se dice que el proceso
se encuentra bajo control estadstico. Esto se visualiza claramente en el grfico de control de la
figura 7.4


Fig. 7.4


Ahora se calculan los lmites de control para rangos

LSC
R
= R D4 LSC
R
= 25 , 7 115 , 2 x LSC
R
= 15,33

LIC
R
= R D3 LIC
R
= 25 , 7 0x LIC
R
= 0


Como ningn valor de rango de cada muestra cae fuera de los lmites de control, se dice que el
proceso se encuentra bajo control estadstico. Esto se visualiza claramente en el grfico de
control de la figura 7.5

















0,00
5,00
10,00
15,00
20,00
25,00
30,00
0 5 10 15 20 25
M
e
d
i
a
s
Muestras
Grfico de control para medias

LSC = 27,96


X = 23,78

LIC = 19,56
211

Grfico de control para rangos


Fig. 7.5


Estudio de capacidad del proceso

Un proceso puede parecer que est bajo control, y de hecho puede permanecer en ese estado por
un largo periodo. Esto significa que la media y la variabilidad del proceso son estables. De manera,
que aparentemente no ocurren cambios serios.
Para determinar si el proceso es apto para fabricar lo especificado, se debe comparar su
variabilidad con el campo de tolerancias definidos en el plano.
Se entiende por estudio de la capacidad de precisin (CAP), al procedimiento estadstico por el
cual se detemina el valor de dispersin del mismo para luego compararlo con las tolerancias
especificadas y obtener el ndice de precisin que muestre, claramente, si el proceso es capaz
de fabricar productos dentro de la variabilidad maxima admitida por el diseo.

Para realizar el estudio de capacidad de proceso se deben seguir una serie de pasos lgicos:

- Implementar en el proceso los graficos de control. El estudio de capacidad de proceso
consiste en relacionar valores obtenidos en el proceso con los valores especificados.
- Analizar la estabilidad del proceso. Puede suceder que el proceso se encuentre fuera de
control (inestable) o bajo control (estable).
- Si el proceso est fuera de control, investigar y eliminar las causas asignables que
distorsionan y volver a analizar la estabilidad del proceso. Si el proceso est bajo
control, puede realizar el estudio de capacidad de proceso


En las grficas de control, la variabilidad natural del proceso gobierna la amplitud de los lmites
de control. Las especificaciones son lmites que establece el consumidor. Si la variabilidad natural
del proceso es superior a la variabilidad especificada, el proceso no producir productos que
cumplan con las especificaciones, aunque el proceso sea estable y est bajo control.
Entonces, se tiene que si:


0,00
2,00
4,00
6,00
8,00
10,00
12,00
0 10 20 30
R
a
n
g
o
s
Muestras
LSCR = 15,33
R = 7,25
LICR = 0
212

Variabilidad natural > Variabilidad especificada Hay unidades defectuosas

Variabilidad natural = Variabilidad especificada 100% dentro de lo especificado

Variabilidad natural < Variabilidad especificada No hay unidades defectuosas


Tenga en cuenta, que tambin se suele utilizar un ndice que resulta del cociente de estas
variaciones

< 1 Hay unidades defectuosas



= 1 100% dentro de lo especificado



> 1 No hay unidades defectuosas




Observe que la segunda situacin (VN=VE), seria lo ideal, ya que significara que la variabilidad
del proceso permite obtener el 100% de las unidades dentro del campo de tolerancias
especificando el mejor costo. Esto implica que la variabilidad del proceso debe mantenerse
constante a lo largo del tiempo, lo cual es casi imposible.
Cuando este ndice es mayor a 1 y sigue creciendo, se debe tener cuidado, ya que seguramente,
aumentan los costos del proceso, pues se obtienen piezas de una precisin mayor a la
especificada.


La variabilidad natural (VN) se puede obtener como seis veces la desviacin estndar.

VN = 6 o


Ya se dijo que muchas veces la desviacin estndar no la conocemos, pero la podemos estimar

2

d
R
= o
Entonces la variacin natural quedara VN = 6
2 d
R


Tambin se puede encontrar la variabilidad natural del proceso usando los lmites de control del
diagrama de medias.

VN = (LSC X - LIC X ) n

La variabilidad especificada queda determinada por la especificacin del producto y la variacin
que se tolera.

VE = LST - LIT

Siendo LST = limite superior tolerado
LIT = lmite inferior tolerado

LST = Dimensin nominal + Variacin tolerada
LIT = Dimensin nominal Variacin tolerada




213

Ejemplo 7.3 Suponga que la dimensin nominal o la especificacin sea que las alfajores deben
pesar 24 grs. y se tolera una variacin de 2,5 grs.

VE = 26,5 21,5 = 5

Tambin podemos decir que es 2 veces la variacin tolerada
VE = 2 x 2,5 = 5

La variacin natural la obtenemos
VN = (27,96 19,56) 5 = 18,78
o bien
VN = 6
326 , 2
25 , 7
= 18,7

Como la VN > VE quiere decir que hay defectuosos; a pesar del que el proceso est bajo control
no est en capacidad de cumplir con las especificaciones.

Con el uso de la distribucin normal se puede estimar el porcentaje de defectuosos (fig. 7.6). Hay
que estandarizar los dos lmites tolerados, de la siguiente manera:

Z
1
=
o
X LIT
Z
2
=
o
X LST


Z
1
=
11 , 3
78 , 23 5 , 21
Z
2
=
11 , 3
78 , 23 5 , 26


Z
1
= -0,73 Z
2
= 0,87




Fig. 9.6

Por lo tanto estimamos un 42,4% de alfajores que no cumplen con las especificaciones y un 57,6
% de alfajores que si cumplen las especificaciones. Habr que revisar el proceso y determinar las
causas.








-0,73 0,87 Z
% de
aceptables
% de
defectuosos

% de
defectuosos

214

Grficos de control de atributos

En muchas aplicaciones se requiere que la caracterstica de calidad indique si el producto la
cumple o no la cumple No hay una medicin en forma continua, sino que se quiere determinar si
el producto es bueno o es defectuoso.
Entre las grficos de atributos ms utilizados, se encuentran: grfico p (proporcin de
defectuosos), grfico np (cantidad de defectuosos) y grfico c (cantidad de defectos)

El diagrama p (fraccin de defectuoso) Se usa para clasificar un producto como defectuoso o
no defectuosos, en base a la comparacin con un estndar. Los diagramas de atributos requieren
tamaos de muestras bastante ms elevados que en el caso de diagramas de mediciones.

Como P (Proporcin de defectuosos) generalmente no se conoce, podemos usar su estimador,
que la fraccin o proporcin de defectuosos de la muestra
Suponga que D es el nmero de unidades defectuosas en una muestra de tamao n.

n
D
p =

La lnea central p pueden obtenerse


m
p
p

=

donde m es el nmero de muestras



o bien
nxm
D
p
i

= donde n es el tamao de muestra




Los lmites de control de un grfico p seran:

LSC p =
n
p p
p
) 1 (
3

+

LIC p =
n
p p
p
) 1 (
3




Tenga en cuenta que si p es pequeo, puede suceder que tenga un LIC p negativo, en ese caso,
se acostumbra a poner el valor cero como lmite inferior.

En la figura 9.7 se visualiza una grfica p (fraccin de defectuosos)

215


Fig. 9.7
Cuando no hay valores de proporcin de defectuosos de cada muestra fuera de los lmites, el
proceso se encuentra bajo control. En caso de que algn valor de proporcin de defectuoso de
muestra sobrepase los lmites, se dice que el proceso est fuera de control, y se deben buscar
causas asignables.

Ejemplo 9.3 La tabla 9.2 presenta informacin de la cantidad de chocolates defectuosos que se
encontraron en 20 muestras de 500 chocolates cada una.

N de muestra D

N de
muestra
D
1 30 11 18
2 25 12 17
3 20 13 25
4 28 14 26
5 31 15 24
6 10 16 29
7 15 17 12
8 22 18 15
9 30 19 25
10 25 20 22
Tabla 9.2

nxm
D
p
i

= =
20 500
449
x
= 0,045

LSC p =
500
045 , 0 1 ( 045 , 0
3 045 , 0

+ = 0,0545
LIC p =
500
) 045 , 0 1 ( 045 , 0
3 045 , 0

= 0,0355

El proceso se encuentra fuera de control ya que hay varios valores de proporcin de defectuosos
de muestra que sobrepasan los limites (fig. 9.8). Hay que revisar el proceso y buscar causas
asignables.



0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0 5 10 15 20 25
P
r
o
p
o
r
c
i

n

d
e

d
e
c
t
u
s
o
s

d
e

l
a

m
u
e
s
t
r
a
Muestras
Grfico p (proporcin de defectuosos)
LSC
p


p



LIC
p
216


Fig. 9.8

El diagrama np (cantidad de defectuoso) En vez de controlar la fraccin de defectuosos se
puede querer controlar la cantidad de productos defectuosos. Al igual que la grfica p requiere
tamaos de muestras grandes

La lnea central sera n p

Siendo
m
p
p

=

donde m es el nmero de muestras



o bien
nxm
D
p
i

= donde n es el tamao de muestra



Usando la distribucin binomial, los lmites de control de un grfico np son:

LSC
np
= ) 1 ( 3 p p n p n +


LIC
np
= ) 1 ( 3 p p n p n


Tenga en cuenta que si p es pequeo, puede suceder que tenga un LIC
np
negativo, en ese caso,
se acostumbra a poner el valor cero como lmite inferior.

En la figura 9.9 se visualiza una grfica np (cantidad de defectuosos)

0
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,00 5,00 10,00 15,00 20,00 25,00
F
r
a
c
c
i

n

d
e

d
e
f
e
c
t
u
s
o
s

d
e

m
u
e
s
t
r
a
Muestras
Grfico p (proporcin de defectuosos)
LSC = 0,0545


045 , 0 = p

LIC = 0,0355
217


Fig. 9.9

Cuando no hay valores de cantidades de defectuosos de cada muestra fuera de los lmites, el
proceso se encuentra bajo control. En caso de que algn valor de cantidades de defectuoso de
muestra sobrepase los lmites, se dice que el proceso est fuera de control, y se deben buscar
causas asignables.

Ejemplo 9.4 Para realizar la grafica np, trabajaremos con los datos de la tabla 7..2 que presenta
informacin de la cantidad de chocolates defectuosos que se encontraron en 20 muestras de 200
chocolates cada una.
Recordemos que
nxm
D
p
i

= =
20 500
449
x
= 0,045

Por lo tanto la lnea central es n p = 500 x 0,045 = 22,50

Los limites de control son :

LSC
np
= ) 045 , 0 1 ( 045 , 0 500 3 045 , 0 500 + x x = 36,40

LIC
np
= ) 045 , 0 1 ( 045 , 0 500 3 045 , 0 500 x x = 8,59

En la figura 9.10 se visualiza que el proceso se encuentra bajo control para la cantidad de
defectuoso


0,00
5,00
10,00
15,00
20,00
25,00
30,00
35,00
0,00 5,00 10,00 15,00 20,00 25,00
C
a
n
t
i
d
a
d

d
e

d
e
f
e
c
t
u
s
o
s

d
e

m
u
e
s
t
r
a
Muestras
Grfico np (cantidad de defectuosos)
LSCnp




n p



LIC

218


Fig. 9.10

Diagrama c (cantidad de defectos) En ocasiones es necesario controlar el nmero de defectos
en una unidad de producto. En estas situaciones es posible utilizar la distribucin de poisson con
parmetro . Si llamamos c el nmero de defectos en una unidad, donde c es una variable
aleatoria de poisson, entonces:

La lnea central sera c

Siendo
m
c
c

= donde m es el nmero de muestras

Los lmites de control de un grfico c son:

LSC
c
= c c 3 +


LIC
c
= c c 3




En caso de que c sea un valor bajo, puede suceder que el lmite inferior de control se haga
negativo, en ese caso, se pone a cero.


En la figura 9.11 se visualiza una grfica c (cantidad de defectos)

0
5
10
15
20
25
30
35
0 5 10 15 20 25
C
a
n
t
i
d
a
d

d
e

d
e
f
e
c
t
u
o
s
o
s
Muestras
Grfico np (cantidad de defectuosos)
36,40



22,50




8,59

219


Fig. 9.11


Ejemplo 9.5 La tabla 9.3 presenta la informacin de 20 muestras con el nmero de defectos de
cajas de cartn

N de
muestra
N de
Defectos

N de
muestra
N de
Defectos
1 8 11 4
2 7 12 3
3 4 13 5
4 5 14 6
5 3 15 7
6 4 16 2
7 2 17 5
8 6 18 3
9 5 19 4
10 4 20 2
Tabla 9.3

20
89
= c = 4,45

LSC
c
= 45 , 4 3 45 , 4 + = 10,77


LIC
c
= 45 , 4 3 45 , 4 = -1,87

como es un valor negativo se hace cero el lmite inferior de control


0
1
2
3
4
5
6
7
8
9
10
0 5 10 15 20 25
C
a
n
t
i
d
a
d

d
e

d
e
f
e
c
t
o
s
Muestras
Grfico c (cantidad de defectos)
LSC
c




c




LIC
c
220



Fig. 9.12

El proceso se encuentra bajo control para la cantidad de defectos.



Implementacin del control estadstico
de procesos

El diagrama de control es una herramienta importante en el mejoramiento de los procesos. Los
procesos normalmente no operan en un estado bajo control, el empleo de los diagramas es un
avance importante para eliminar causas asignables, reducir la variabilidad del proceso y
estabilizarlo.
Al implantar un programa de Control Estadstico de Procesos (CEP) en cualquier organizacin,
son fundamentales los siguientes elementos:

o Liderazgo gerencial
o Trabajo en equipo
o Educacin de los empleados de todos los niveles
o nfasis en el mejoramiento continuo
o Mecanismo para comunicar el xito.

Planes de muestreo

El procedimiento en el cual, los productos, agrupados en lotes, se muestrean y los resultados se
utilizan para extraer conclusiones acerca de la calidad del lote, recibe el nombre de muestreo de
aceptacin.
Estos planes se pueden aplicar a productos de proveedores, previo a la introduccin a un proceso
de produccin o a la salida del propio proceso de produccin de la empresa..
El propsito fundamental es estimar la calidad de los productos e indicar si un lote debe aceptarse
o rechazarse.
Evidentemente sta tcnica no tiene un control directo sobre la calidad de proceso. Muchas veces
los lotes rechazados no se regresan al proveedor.
El mejoramiento de la calidad est orientado al CEP y en el futuro los muestreos de aceptacin
deberan desaparecer.


0
1
2
3
4
5
6
7
8
9
0 5 10 15 20 25
C
a
n
t
i
d
a
d

d
e

d
e
f
e
c
t
o
s
Muestras
Grfico c (cantidad de defectos)

10,77






4,45




0

221

Bsicamente el procedimiento consiste en extraer una muestra aleatoria de tamao n de un
lote compuesto por N artculos. Sea d el nmero de artculos defectuosos en esta muestra
aleatoria. Si d es menor o igual a cierto nmero de aceptacin c, se acepta el lote. Si d es
mayor que c, el lote se rechaza y existen varias alternativas, se podra devolver el lote al
fabricante, se podra inspeccionar el 100 por ciento los lotes rechazados y reemplazar los
artculos defectuosos.

Al tomar decisiones basadas en informacin de la muestra, tenemos dos tipos de riesgo:

Riesgo del productor. Probabilidad de rechazar un lote por defectuoso cuando en
realidad no lo es y cuya probabilidad se denota por o.
Riesgo del consumidor. Probabilidad de aceptar un lote cuando ese lote es de mala
calidad y cuya probabilidad se denota por |

Se fija un nivel aceptable de calidad (NAC), que representa el nivel de calidad que se considera
bueno. El nivel de calidad que se considera malo, se denomina porcentaje defectuoso tolerable
del lote (PDTL).
Entonces la probabilidad de que un plan de muestreo rechace lotes de NCA, es el riesgo del
productor y la probabilidad de que un plan de muestreo acepte lotes de PDTL es el riesgo del
consumidor

La curva caracterstica de operacin (CO) puede definirse eligiendo los puntos NCA y PDTL .
En la figura 9.13 se observa que se fij un NCA del 3 % y un PDTL del 7 %. La curva proporciona
las probabilidades de los errores tipo I y tipo II asociados con el plan de muestreo. Las
probabilidades se calculan a menudo, utilizando la distribucin de poisson..




Fig. 7.13

Ejemplo 9.6 Se someten a control 500 lotes de una materia prima. Cada lote contiene 1000
artculos. Se fija un nivel aceptable de calidad (NAC) del 1 % y un porcentaje de defectuosos
tolerado en el lote (PDTL) del 8%. Se determin que el mejor plan de muestreo que satisface los
requerimientos es;
n = 60 c = 2

A continuacin se presenta la tabla 9.4 con las probabilidades de aceptacin y de rechazo para
fraccin de defectuosos que va desde el 0 a 0,09. Con las probabilidades de aceptacin y la
proporcin de defectuosos se traza la curva C:O caracterstica de operacin, en la figura 7.12.

0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08
NCA PDTL Fraccin defectuosa del
lote
Prob. de
Aceptacin
1
1-o
|
222

Proporcin
de
defectuosos

np
Prob de
Aceptacin
c < 3
Prob de
rechazo
C > 2
0,00 0,00 1 0
0,01 0,60 0,9769 0,0231
0,02 1,20 0,8795 0,1205
0,03 1,80 0,7306 0,2694
0,04 2,40 0,5697 0,4303
0,05 3,00 0,4232 0,5768
0,06 3,60 0,3027 0,6973
0,07 4,20 0,2102 0,7898
0,08 4,80 0,1425 0,8575
0,09 5,40 0,0948 0,9052
Tabla 9.4

El riesgo del productor es o = 0,0231 ya que el N.A.C. = 1 %
El riesgo del consumidor es | = 0,1425 por ser PDTL = 8 %


Fig. 7.12

















1
0,9769
0,8795
0,7306
0,5697
0,4232
0,3027
0,2102
0,1425
0,0948
0
0,2
0,4
0,6
0,8
1
1,2
0 2 4 6 8 10
P
(
A
)
Porcentaje de defectuosos
Curva Caracterstica de Operacin
NAC PDTL
223

Resumen

El campo del control estadstico de la calidad se compone de mtodos estadsticos y de ingeniera
tiles en la medicin, supervisin, control y mejoramiento de la calidad
Los controles estadsticos de proceso en lnea son herramientas poderosas para lograr la
estabilidad del proceso y el mejoramiento en la calidad mediante la reduccin de la variabilidad
Las posibles causas de variacin se pueden clasificar en dos categoras: causas aleatorias y
causas asignables
El control estadstico de procesos (C.E.P.) es un conjunto de herramientas de solucin de
problemas que puede aplicarse en cualquier proceso.
Las principales herramientas son: histograma, diagrama de pareto, diagrama de causa-efecto,
diagrama de control, diagrama de dispersin.
El objetivo de los grficos de control es determinar si el comportamiento de un proceso se
mantiene en un nivel aceptable de calidad.
Las caractersticas de calidad, de los grficos de control, son de dos categoras: variables y
atributos. En los grficos de variables (medias, rangos), la caracterstica es una medicin. Para los
grficos de atributo (proporcin de defectuosos, cantidad de defectuosos y cantidad de defectos),
la caracterstica refleja si el producto individual cumple o no cumple las especificaciones. Los
graficos de control cusum se basan en la acumulacin de las desviaciones.
Un diagrama de control, consta de una lnea central y dos lmites de control, cuando los valores
muestrales superan los lmites el proceso se encuentra fuera de control.
Al implantar un programa de Control Estadstico de Procesos (CEP) en cualquier organizacin,
son fundamentales los siguientes elementos: liderazgo gerencial, trabajo en equipo, educacin de
los empleados de todos los niveles, nfasis en el mejoramiento continuo, mecanismo para
comunicar el xito.
El procedimiento en el cual, los productos, agrupados en lotes, se muestrean y los resultados se
utilizan para extraer conclusiones acerca de la calidad del lote, recibe el nombre de muestreo de
aceptacin.


























224

Ejercicios


9.1 La longitud de las barras de hierro es una caracterstica de calidad crtica. A continuacin
se muestran los valores de las medias y los recorridos para 20 muestras de 5 barras cada
una. Las especificaciones en las barras son 35 +/- 8 cm.

Muestra Media Recorrido Muestra Media Recorrido
1 34.2 3 11 35.4 8
2 31.6 4 12 34.0 6
3 31.8 4 13 36.0 4
4 33.4 5 14 37.2 7
5 35.0 4 15 35.2 3
6 32.1 2 16 33.4 10
7 32.6 7 17 35.0 4
8 33.6 9 18 34.4 7
9 34.8 10 19 33.9 8
10 38.6 4 20 34.0 4

Establezca los diagramas X y R revisando los lmites de control si es necesario
suponiendo que pueden encontrarse causas asignables.
Qu porcentaje de defectuosos est produciendo el proceso?

9.2 Veinticinco muestras de tamao 5 se extraen de un proceso a intervalos regulares, y se
obtienen los siguientes datos:

E X = 362,75 E R = 8,60

a. Calcule los lmites de control para los diagramas X y R..
b Suponiendo que el proceso est bajo control y los lmites de especificacin son
14.50 +/- 0.50, Qu conclusiones puede usted extraer acerca de la capacidad del
proceso para operar dentro de estos lmites?. Estime el porcentaje de artculos
defectuosos que se producirn.

9.3 La longitud total del cuerpo de un encendedor de cigarrillos de un automvil s controla
empleando diagrama para mediciones. La siguiente tabla brinda la longitud (en mm.) para
20 muestras de tamao 4

Muestra Obs.
1
Obs.
2
Obs.
3
Obs.
4
Muestra Obs.
1
Obs.
2
Obs.
3
Obs.
4
1 5.15 5.10 5.08 5.09 11 5.13 5.08 5.00 5.09
2 5.14 5.14 5.10 5.06 12 5.10 5.15 5.10 5.08
3 5.09 5.10 5.09 5.11 13 5.08 5.12 5.09 5.14
4 5.08 5.06 5.09 5.13 14 5.15 5.12 5.06 5.14
5 5.14 5.08 5.09 5.12 15 5.13 5.16 5.00 5.09
6 5.09 5.10 5.07 5.13 16 5.14 5.08 5.12 5.08
7 5.15 5.10 5.12 5.12 17 5.08 5.10 5.09 5.16
8 5.14 5.16 5.11 5.10 18 5.08 5.14 5.09 5.10
9 5.11 5.17 5.16 5.10 19 5.13 5.15 5.08 5.10
10 5.11 5.14 5.11 5.12 20 5.09 5.07 5.08 5.15
Haga los diagramas X y R, est el proceso en control estadstico?
Las especificaciones son 5 mm +/- 0.10 mm. Qu puede decir usted acerca de la
capacidad de proceso?

225

9.4 Los siguientes son los nmeros de uniones de soldaduras defectuosas en muestras
sucesivas de 500 uniones soldadas.
Da Nro. de defectuosos Da Nro. de defectuosos
1 106 11 42
2 116 12 37
3 164 13 25
4 89 14 88
5 99 15 101
6 40 16 64
7 112 17 51
8 36 18 74
9 69 19 71
10 74 20 43
21 80

Construya un diagrama de control de la fraccin de defectuosos. Est el proceso bajo
control?

9.5 Suponga que las siguientes fracciones de defectuosas se han encontrado en muestras
sucesivas de tamao 100.

Fracciones de defectuosos
0.09 0.06 0.13 0.08 0.10
0.13 0.08 0.14 0.15 0.12
0.14 0.12 0.09 0.12 0.11
0.10 0.06 0.10 0.13 0.09
0.13 0.14 0.11 0.14 0.08
0.03 0.16 0.13 0.09 0.12

Est el proceso bajo control con respecto a su fraccin de defectuosas?

9.6 Lo siguiente representa el nmero de defectos de soldadura observados en 24 muestras de
cinco tarjetas de circuito impreso: 7, 6, 8, 10, 24, 6, 5, 4, 8, 11, 15, 8, 4, 16, 11, 12, 8, 6, 5,
9, 7, 14, 8, 21, podemos concluir que el proceso est bajo control utilizando un diagrama
C? Si no, suponga causas asignables que pueden encontrarse y revise los lmites de
control.

9.7 Un fabricante de plstico moldea en forma de discos y estos son utilizados en la fabricacin
de anteojos graduados. Las especificaciones requieren que el espesor de los discos tengan
una dimensin de 0.15 +/- 0.002 pulgadas.

a. Grafquese las siguientes medias y rangos obtenidos en 20 muestras
aleatorias sucesivas de tamao 5
b. Analcese el proceso.

Muestra Media Recorrido Muestra Media Recorrido
1 0.152 0.004 11 0.149 0.003
2 0.147 0.006 12 0.153 0.004
3 0.153 0.004 13 0.150 0.005
4 0.153 0.002 14 0.152 0.001
5 0.151 0.003 15 0.149 0.003
6 0.148 0.002 16 0.146 0.002
7 0.149 0.006 17 0.154 0.004
8 0.144 0.001 18 0.152 0.005
9 0.149 0.003 19 0.151 0.002
10 0.152 0.005 20 0.149 0.004

226

9.8 Treinta y cinco muestras sucesivas de 100 vaciados cada una, que se extraen de una lnea
de produccin, contuvieron respectivamente, 3, 3, 5, 3, 5, 0, 3, 2, 3, 5, 6, 5, 9, 1, 2, 4, 5, 2,
0, 10, 3, 6, 3, 2, 5, 6, 3, 3, 2, 5, 1, 0, 7, 4, y 3 unidades defectuosas. Constryase un
diagrama p para estos datos

9.9 La norma para un proceso de produccin de hojalata e una lnea continua es de cinco
defectos en forma de agujeros o de imperfecciones visuales por cada cien pies. Con base
en el conjunto de 25 observaciones, que da el nmero de defectos por cada 100 pies
Puede concluirse que el proceso est bajo control para la norma fijada?.

Nmero de inspeccin 1 2 3 4 5 6 7 8 9 10 11 12 13
Nmero de defectos 3 2 2 4 4 4 6 4 1 7 5 5 4

Nmero de
inspeccin
14 15 16 17 18 19 20 21 22 23 24 25
Nmero de
defectos
6 6 9 5 2 6 5 11 6 6 8 2

9.10 Sea un artculo que debe cumplir las siguientes especificaciones:

Valor nominal = 5
Limite superior de tolerancia = 6
Lmite inferior de tolerancia = 4

y sea nuestro proceso que produce, en muestras de tamao 3, un recorrido promedio
de 1.18. Se pide:

En cul de los siguientes valores es conveniente centrar el proceso:
X = 4 X = 5 X = 5.22

suponiendo una produccin total de N = 10.000 artculos, y un costo de reprocesado
de $ 100 si el producto estuvo sobre tolerancia y $ 1 si el producto estuvo por debajo
de tolerancia?


9.11 Se ha comenzado un control del nivel de calidad en la fabricacin de calzado deportivo
de una determinada empresa. Los datos recopilados durante el primer mes de control,
para muestras de tamao 200, fueron los siguientes:

Muestra

Cantidad de
defectuosos
Muestra Cantidad de
defectuosos
1 72 13 47
2 53 14 38
3 133 15 38
4 19 16 40
5 136 17 61
6 82 18 16
7 132 19 42
8 55 20 28
9 64 21 53
10 129 22 34
11 79 23 27
12 72

227

a. Calcule los lmites de control para un grfico np (cantidad de
defectuosos).
b. Grafique los valores obtenidos en las muestras.
c. Se encuentra el proceso bajo control?

9.12 Se someten a control 500 lotes de una determinada materia prima, formados por 1000
artculos cada uno. Se fij un N.A.C. = 2 %, un PDTL = 9 % y se encontr que el mejor
plan de muestreo que satisface nuestras necesidades es:

n = 80
c = 3

Se pide que:

a. Construya la curva CO correspondiente al plan adoptado para p = 0.00
; p = 0.01 ;........; p = 0.09.

b. Indique los valores de o y | e interprete su significado.

9.13 Un proceso productivo debe fabricar una determinada pieza de ensamble, y el dpto. de
Ingeniera y Diseo ha definido las siguientes especificaciones:

D.N. = 8 cm.
Tol. = +/- 1 cm.

Se toman muestras de tamao 3 que arrojan los siguientes resultados:

Observacin Muestra
1 2 3 4 5
X
1
7.5 8.0 7.1 7.5 7.7
X
2
7.6 8.3 8.0 8.3 8.0
X
3
9.0 8.9 8.6 8.7 7.9


Se pide que:

a. Determine los lmites de control para las grficas de mediciones
b. Se encuentra el proceso bajo control?
c. Calcule la VN y la VE. Puede el proceso cumplir con las
especificaciones?. Indique porcentaje de defectuosos.

9.14 Una empresa dedicada a la venta de artculos de tocador decidi controlar, mediante un
plan de muestreo, 500 lotes de 1000 jabones cada uno provenientes de un determinado
proveedor. Se fij un N.A.C.= 2 %, un PDTL = 6 % y se adopt el siguiente plan:

n = 90
c = 4

Se pide que:

a. Construya la curva CO correspondiente al plan adoptado para p = 0.00 ; p
= 0.01 ;........; p = 0.09.
b. Indique los valores de o y | e interprete su significado.




228

Respuestas


9.1 LIC x =31,04 LSC x =37,57 Proceso fuera de control

LICR =0 LSCR =11,94 Proceso bajo control

No hay defectuosos

9.2 a) LIC x =14,31 LSC x =14,70

LICR =0 LSCR =0,72
b) No hay defectuosos

9.3 a) LIC x =5,055397 LSC x =5,156728
LICR =0 LSCR =0,15
Hay defectuosos

9.4 LICP = 0,10 LSCP =0,19
Proceso fuera de control

9.5 LICP = 0,015 LSCP =0,202
Proceso bajo control

9.6 LICc = 0,36 LSCc =19,05
Proceso fuera de control

9.7 a) LIC x =0,148 LSC x =0,152 Proceso fuera de control

LICR =0 LSCR =0,007 Proceso bajo control
b) No hay defectuosos

9.8 LICP = 0 LSCP =0,093
Proceso fuera de control

9.9 LICc = 0 LSCc =11,57
Proceso bajo de control

9.10 X = 4

9.11 LICnp = 43,33 LSCnp =82,75
Proceso fuera de control


















229

9.12 a)


b) o = 0,0788 | = 0,0719

9.13 a) LIC x =6,96 LSC x =9,17 Proceso bajo control

LICR =0 LSCR =2,781 Proceso bajo control
b) Proceso bajo control
c) VN = 3,82 VT= 2
11,9 % defectuosos

9.14 a)


b) o = 0,036 | = 0,3733






1
0,990920142
0,921186513
0,778722911
0,602519724
0,43347012
0,294229916
0,190622409
0,118918762
0,071917118
0
0,2
0,4
0,6
0,8
1
1,2
0 0,02 0,04 0,06 0,08 0,1
P
r
o
b
.

d
e

A
c
e
p
t
a
c
i

n
Proporcin de defectuosos
Curva Caracterstica de Operacin
1 0,997655877
0,963593339
0,862907863
0,70643845
0,532103576
0,373310771
0,246903733
0,155515616
0,094048517
0
0,2
0,4
0,6
0,8
1
1,2
0 0,02 0,04 0,06 0,08 0,1
P
r
o
b
.

d
e

A
c
e
p
t
a
c
i

n
Proporcin de defectuosos
Curva Caracterstica de Operacin
230

Preguntas de revisin

En qu consiste el control estadstico de la calidad?
Qu es el control estadstico de procesos?
Qu son los grficos de control?
Cmo se definen los lmites de control?
Cmo se clasifican los grficos de control?
Qu grficos para mediciones existen?
Cules son los grficos para atributos?
Qu causas de variacin existen?
Qu es la variacin natural del proceso?
Cundo un proceso produce defectuosos?
Qu significa que un proceso est fuera de control?
Qu es el muestreo de aceptacin?
Qu es el riesgo del consumidor?
Qu es el riesgo del productor?
Qu entiende por nivel aceptable de calidad?
Con que probabilidades se traza la curva caracterstica de operacin?



Trminos claves


Control estadstico de la
calidad
Grfico de atributos
Grfico de proporcin de
defectuosos
Control estadstico de
procesos
Grfico de cantidad de
defectuosos
Variacin natural Grfico de cantidad de
defectos
Variacin especificada
Causas asignables
Muestreo de Aceptacin
Grficos de control
Lmites de control
Nivel aceptable de calidad
Porcentaje defectuso tolerado
en el lote
Grficos de mediciones Riesgo del fabricante
Riesgo del consumidor














231


Actividades


Los estudiantes pueden realizar la siguiente actividad a manera de ensayo:

Tome 10 muestras de tres das cada una, midiendo el tiempo de viaje hasta llegar a la
institucin educativa, y controle mediante los grficos de media y de rango, si el
proceso est o no bajo control



































232

Funciones de Excel

Se listan una serie de funciones del programa de computacin Microsoft Excel, que se pueden
utilizar para resolver problematicas de probabilidad y estadstica. La gran mayora de estas
funciones pertenecen a la categora de funciones estadsticas, unas pocas, a la categora de
funciones matematicas.


Aleatorio Devuelve un nmero aleatorio entre 0 y 1

Aleatorio.Entre Devuelve un numero aleatorio entre los nmeros que especifique

Coef.Correl Devuelve el coeficiente de correlacin de dos conjuntos de datos

Coeficiente.Asimetria Caracteriza el grado de asimetra

Coeficiente.R2 Devuelve el cuadrado del coeficiente de correlacin Pearson

Combinat Devuelve el numero de combinaciones para un numero determinado
de elementos

Contar Cuenta el nmero de celdas que contienen nmeros

Contar.Blanco Cuenta el nmero de celdas en blanco

Contar.Si Cuenta las celdas segn la condicin dada

Contara Cuenta el nmero de celdas no vacia

Covar Devuelve la covarianza de dos conjuntos de datos

Cuartil Devuelve el cuartil de un conjunto de datos

Curtosis Indica la curtosis de un conjunto de datos

Desvest Calcula la desviacin estndar de la muestra

Desvestp Calcula la desviacin estndar de la poblacin

Distr.Binom Devuelve la probabilidad de una variable aleatoria binomial

Distr.Chi Indica la probabilidad de una variable aleatoria continua con
distribucin chi cuadrado

Distr.Exp Devuelve la distribucin exponencial

Distr.F Devuelve la probabilidad de una variable aleatoria siguiendo
distribucin F

Distr.Hipergeom Devuelve la probabilidad de una variable aleatoria discreta siguiendo
una distribucin hipergeometrica

Distr.Normal Devuelve la distribucin acumulativa normal para la media y
desviacin especificada

233

Distr.Norm.Estand Devuelve la distribucin normal estndar acumulativa con media 0 y
desviacin 1

Distr.Norm.Estand.Inv Devuelve el inverso de la distribucin normal estndar acumulativa

Distr.Norm.Inv Devuelve el inverso de la distribucin acumulativa normal

Distr.T Devuelve la distribucin de t de student

Distr.T.Inv Devuelve el inverso de una distribucin de t de student

Error.Tipico.XY Devuelve el error en la regresin

Estimacion.Lineal Devuelve estadsticas que describen una tendencia lnea, usando el
mtodo de minimos cuadrados

Frecuencia Calcula la frecuencia de un valor dentro de un rango

Interseccion.Eje Calcula el punto en el cual una lnea intersectar al eje Y

Intervalo.Confianza Devuelve el intervalo de confianza para la media poblacional

Max Indica el valor mximo de una serie de valores

Mediana Calcula la mediana de un conjunto de numeros

Min Indica el valor minimo de una lista de valores

Moda Devuelve el valor ms frecuente de un conjunto de nmeros

Pearson Devuelve el coeficiente de correlacin producto o momento r de
Pearson

Pendiente Devuelve la pendiente de una lnea de regresin lineal de los puntos
dados

Percentil Devuelve el percentil k-simo de los valores de un rango

Permutaciones Devuelve el numero de permutaciones para un numero de objetos

Poisson Devuelve la distribucinde Poisson

Promedio Calcula la media aritmtica de un cinjunto de nmeros

Promedio.Si Busca el promedio de las celdas que cumplen cierto criterio

Pronostico Predice un valor futuro en una tendencia lnea usando valores
existentes

Prueba.Chi Devuelve la prueba de independencia, para la estadstica y grados de
libertad apropiados

Prueba.Chi.Inv Devuelve el inverso de una probabilidad dada, de una sola cola, en
una distribucin chi cuadrado

Prueba.F Devuelve el resultado de una prueba F, la probabilidad de dos colas,
de que las varianza no sean significativamente diferentes

234

Prueba.T Devuelve la probabilidad asociada con la prueba t de student


Var Calcula la varianza de una muestra

Varp Calcula la varianza de la poblacin




















































235

Bibliografa

Para la confeccin de ste texto se han consultado importantes obras, entre otras:

o R.Walpole-R. Myers- S. Myers. Probabilidad y Estadstica para Ingenieros.PRENTICE
HALL

o W. Hines D. Montgomery. Probabilidad y Estadstica para Ingeniera y
Administracin. CECSA

o M. Berenson D. Levine. Estadstica para Administracin y Economa.
INTERAMERICANA

o Paulo Alfonso Lopes. Probabilidad & Estadistica. PRENTICE HALL

o Kazmier/Diaz Mata. Estadistica Aplicada. MC GRAW HILL

o Microsoft Excel. Programa de computacin. MICROSOFT

You might also like