You are on page 1of 149

Apuntes de Estadstica para LCEA

M.C.M.A. Gladys del Carmen Vel azquez Lopez


UPGM
Versi on 1
10 de enero de 2011
2
.

Indice general
Introduccion 5
1. Introduccion a la Estadstica 6
1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2. Denicion de estadstica . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3. Para que estudiamos estadstica? . . . . . . . . . . . . . . . . . . . . 9
1.4. Terminologa estadstica . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5. Notacion de suma con sigma . . . . . . . . . . . . . . . . . . . . . . . 15
1.6. Notas Sobre redondeo . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2. Estadstica descriptiva 23
2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2. Datos estadsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.1. Tipos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.2. Organizacion de datos mediante tablas . . . . . . . . . . . . . 24
2.3. Distribuciones de frecuencias . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.1. Obtencion de los intervalos y lmites de clases . . . . . . . . . 26
2.4. Presentaci on graca de datos . . . . . . . . . . . . . . . . . . . . . . 32
2.5. Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . . 36
2.5.1. Datos no agrupados . . . . . . . . . . . . . . . . . . . . . . . . 36
2.6. Medidas de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4

INDICE GENERAL
2.6.1. Datos no agrupados . . . . . . . . . . . . . . . . . . . . . . . . 40
2.7. Medidas de tendencia central y de dispersion para datos agrupados . 44
2.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3. Muestreo 64
3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.2. Muestra y censo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.2.1. Ventajas y desventajas del censo . . . . . . . . . . . . . . . . . 66
3.2.2. Ventajas y desventajas del muestreo . . . . . . . . . . . . . . . 67
3.3. Tabla de n umeros aleatorios . . . . . . . . . . . . . . . . . . . . . . . 70
3.4. Estimacion basada en una muestra aleatoria simple . . . . . . . . . . 75
3.5. Muestreo aleatorio estraticado . . . . . . . . . . . . . . . . . . . . . 81
3.6. Muestreo por conglomerados . . . . . . . . . . . . . . . . . . . . . . . 92
3.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4. Regresion lineal y multilineal 106
4.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.2. Estimacion de los coecientes del modelo por mnimos cuadrados . . 110
4.3. Supuestos adicionales para los estimadores de mnimos cuadrados . . 115
4.4. Inferencias relativas a la pendiente
1
de una recta . . . . . . . . . . 116
4.5. Correlacion lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
4.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
4.7. Regresion lineal multiple . . . . . . . . . . . . . . . . . . . . . . . . . 138
5. Habilidades basicas 143
Bibliografa 149
Introduccion
Llegara un da en el que el razonamiento estadstico sera tan necesario
para el ciudadano como ahora lo es la habilidad de leer y escribir
H.G. Wells (1866-1946)
La creciente complejidad de la sociedad moderna ha provocado incertidumbre en las
mentes de muchas personas en posiciones de mando. A un as, deben de tomar deci-
siones relativas a sus funciones diarias y planes para el futuro, ya sea que esten en
negocios, gobierno o en cualquier otra institucion. La Estadstica es una herramienta
intelectual con la cual pueden tomarse decisiones racionales; y en realidad ha habido
un enfasis creciente en los enfoques cuantitativos a los problemas administrativos du-
rante las ultimas decadas. La estadstica ha respondido a las necesidades de nuestro
tiempo y se ha desarrollado como una disciplina practica para auxiliar a los adminis-
tradores en el proceso de toma de decisiones.
El objeto fundamental de la edicion de este documento es facilitar a los alumnos de
licenciatura en comercio exterior y aduanas de la universidad politecnica del golfo de
mexico el desarrollo de los contenidos teoricos de la asignatura Estadstica. Desde un
punto de vista menos local, espero que sea util, en alguna medida, a todo aquel que
necesite conocimientos basicos de las tecnicas estadsticas mas usuales en el ambiente
cientco-tecnol ogico.
Captulo 1
Introduccion a la Estadstica
1.1. Introduccion
Para la gente com un y corriente la estadstica signica n umeros. En el periodico de la
ma nana se pueden encontrar las estadsticas mas recientes sobre los delitos de la ciu-
dad: n umero de asesinatos, robos de automoviles, asaltos y demas delitos que hayan
sido denunciados en determinado periodo de tiempo; o las mas recientes estadsticas
acerca de la mano de obra en el pas: por ejemplo, el n umero de desempleados; o
las ultimas estadsticas sobre el n umero de nacimientos y muertes que han ocurrido
durante cierto periodo de tiempo.
Los ejemplos anteriores forman parte del concepto total de Estadstica, pero dicha
palabra tiene un concepto mas amplio para las personas que tienen conocimiento de
los aspectos tecnicos. Para estas personas, la estadstica tiene relacion con aquellos
conceptos y tecnicas que se emplean en la recopilacion, organizacion, resumen, anali-
sis, interpretaci on y comunicaci on de informacion numerica.
Generalmente se dise na una serie de trabajos para alcanzar uno de los siguientes
objetivos, o ambos.
1. Describir cuantitativamente una serie de personas lugares o cosas. (Estadstica
descriptiva).
1.2 Denicion de estadstica 7
2. Dar informacion de la que se puedan sacar conclusiones acerca de un gran n umero
de personas, lugares o cosas mediante la observacion de una peque na parte del
conjunto total. (Estadstica Inferencial: Predecir y decidir).
El captulo incluye una introduccion del termino Estadstica y presenta los conceptos
mas basicos relativos a poblaciones y muestras.
1.2. Denicion de estadstica
Que es la estadstica?. La estadstica es un conjunto de procedimientos que sirven
para organizar y resumir datos, hacer inferencias a partir de ellos y transmitir los
resultados de una manera clara concisa y signicativa. Tambien podemos entender la
estadstica como la ciencia que permite responder a ciertas preguntas basandose en
datos empricos, es decir, en datos que se originan de la observaci on o de la experiencia.
As, diremos que es la ciencia que tiene que ver con los metodos que dan respuesta a
determinadas cuestiones mediante la recoleccion, analisis e interpretacion apropiada
de datos empricos, as como del proceso de toma de desiciones acerca del sistema del
cual fueron obtenidos los datos.
Denicion 1.2.1. La Estadstica es la ciencia que se ocupa de los metodos cient-
cos para recolectar, organizar, resumir, presentar y analizar datos, as como sacar
conclusiones validas y tomar desiciones con base en este analisis.
Para su estudio la estadstica se divide en tres ramas que son:
Estadstica descriptiva: Es un conjunto de procedimientos que sirven para
organizar, describir y sintetizar datos sin que las conclusiones que se extraigan
de estas rebasen su ambito especco, es decir, se busca unicamente describir y
analizar un grupo determinado, sin sacar conclusiones o inferencias acerca de
un grupo mas grande. Generalmente los datos en una muestra pueden escribirse
de tres maneras:
8 Introduccion a la Estadstica
Descripcion tabular: Elaboracion de tablas para distribuciones de frecuen-
cia;
Descripcion graca: Construccion de esquemas, histogramas, ojivas, polgonos
de frecuencia, etc. La graca describe de una manera mas objetiva la na-
turaleza de los rasgos;
Descripcion aritmetica: Calculo del n umero, rango, media, moda, mediana,
etc.
El ndice de desempleo, el costo de la vida, la precipitacion pluvial, el rendimien-
to medio de un auto en kilometros por litro y los promedios de calicacion,
quedan todos en esta categora.
Estadstica inferencial: Es un conjunto de procedimientos que se emplean
para hacer inferencias y generalizaciones respecto a una totalidad partiendo
del estudio de un n umero limitado de casos tomados de esta ultima. Es decir,
consiste en el analisis e interpretacion de una muestra de datos. El muestreo
es un ejemplo vivo del dicho no tienes que comerte todo el pastel para saber
si te gusta. Por lo tanto, la idea basica en el muestreo es medir una porcion
peque na, pero tpica, de alguna poblacion , y posteriormente utilizar dicha
informacion para inferir que caractersticas tiene la poblacion total.
En la industria y los negocios hay muchas formas de aplicar este concepto. Por
ejemplo, un estudio cinematograco somete a diversas pruebas a algunos actores
y actrices antes de decidir quien interpretar a cada papel, las fabricas suelen
producir un peque no n umero de piezas (produccion piloto) antes de pasar a la
produccion a gran escala. Muchas compa nas almacenan cientos de artculos en
inventario y, mediante tecnicas de muestreo, pueden estimar su valor en unidades
monetarias sin tener que contar por completo todos sus artculos. Algunas veces
se llevan a a cabo estudios de mercado de los nuevos productos en ciudades
claves, para establecer el grado de aceptacion por el consumidor. Las empresas
privadas y las dependencias gubernamentales realizan muestreos por m ultiples
1.3 Para que estudiamos estadstica? 9
razones. El costo suele ser el factor principal. Como cualquier otra cosa, recopilar
datos y analizar los resultados cuesta dinero y, generalmente, cuantos mas datos
se reunan, mayor es el costo. El muestreo reduce la cantidad de datos que se
deben reunir y analizar, por lo tanto, dicha operacion reduce el costo. Otra
razon para realizar el muestreo es el hecho de que la informacion pierde su
valor en poco tiempo. Para que esta sea util, se debe obtener y aprovechar con
bastante rapidez. A menudo el muestreo es el unico medio posible de lograr lo
anterior. Algunas veces, el examen de los artculos, causa destruccion. Al probar
los cinturones de seguridad para conocer su punto de ruptura, evidentemente se
destruye el producto. Si todos se probaran de esa manera, no quedara ninguno
para vender. Esas y otras razones para el muestreo, se consideraran con mayor
detalle en captulos posteriores.
Probabilidad: La probabilidad estudia situaciones en las que interviene el azar.
Sus primeras aplicaciones se relacionaban basicamente con los juegos de azar,
como la lotera, casinos, carreras de caballos, etc. (en este curso no se considera-
ra esta parte de la estadstica).
Como mas tarde observaremos, las ramas de la estadstica no son indepen-
dientes y distintas por completo, tienden a superponerse considerablemente.
En resumen, existen tres areas muy relacionadas de interes en estadstica: la
descripcion y resumen de datos, la teora de la probabilidad y el analisis e in-
terpretacion de los datos de muestra.
El objetivo de la Estadstica es: Hacer inferencias (predecir, decidir) sobre algunas
caractersticas de una poblacion con base en la informacion contenida en una muestra.
1.3. Para que estudiamos estadstica?
1.-Los conceptos y tecnicas se usan en un gran n umero de ocupaciones,
2.-Las ideas constituyen una parte integral de las investigaciones, de las encuestas
para recopilar datos y del analisis de los datos que se originan en las actividades que
10 Introduccion a la Estadstica
desarrollan las instituciones y organizaciones.
Ejemplo 1.3.1. Un trabajador que no necesariamente conoce conceptos y tecnicas
estadsticas muy bien, por lo menos debe tener la facultad de reconocer cuando
necesita la ayuda de un experto y poder comunicarse cuando trabajen juntos en la
planeacion, direccion e interpretaci on de los resultados de una actividad que requiera
la metodologa de esta ciencia.
Si comprendes los conceptos y metodologa sacaras provecho de ello. Si lo entiendes
bien podras leer con mayor inteligencia toda la literatura !.
En la vida cotidiana hay muchos ejemplos de como la estadstica esta presente. Las
aplicaciones estadsticas se presentan en muchos campos incluyendo la ingeniera,
ciencias fsicas, negocios, ciencias biologicas y de salud, ciencias sociales y educacion,
comercio, qumica, comunicaci on, economa, ciencias polticas, psicologa, etc. A con-
tinuacion se describen algunas aplicaciones.
a) Se dise nan encuestas con el n de recoger las primeras cifras de las elecciones y
predecir los resultados (o pronosticar).
b) Se realizan entrevistas con los consumidores para obtener mas informacion acerca
de los productos que preeren.
c) Se toman muestras de fusibles recien fabricados, con el n de decidir si se embarcan
o se retiran ciertos lotes de ese producto (Control de calidad en las industrias).
d) Los Economistas observan los ndices para saber que tan saludable es la economa
durante un periodo y utilizan la informacion para predecir como se compar-
tira en el futuro.
e) En Agricultura se realizan experimentos sobre la reproduccion de plantas y anima-
les, se estudia la bondad de fertilizantes, insecticidas, etc., y se estudian metodos
para aumentar el rendimiento de las cosechas.
1.4 Terminologa estadstica 11
f) En Biologa se emplean los metodos estadsticos para estudiar las reacciones de
las plantas y animales ante diferentes presiones ambientales.
g) En Negocios se usa para predecir vol umenes de ventas, medir las reacciones de los
consumidores ante un nuevo producto, tomar desiciones en cuanto a la forma
de invertir presupuesto en publicidad, etc.
h) En Salud y medicina los medicos investigadores se ayudan de la estadstica para
evaluar la efectividad de diversos tratamientos.
i) En Psicologa se ayudan de la estadstica para medir y comparar la conducta, las
actitudes, la inteligencia y las aptitudes del hombre.
1.4. Terminologa estadstica
Es este apartado deniremos algunos terminos fundamentales que se utilizaran en el
curso, los demas terminos se deniran a medida que se vayan presentando.
Poblaci on: Tambien llamada universo, es todo conjunto de personas, cosas u
objetos con ciertas caractersticas com unes. Cada uno de los elementos de la
poblacion recibe el nombre de elemento o unidad. Denimos Poblacion como
el conjunto mas grande de valores (de una variable), por el cual existe alg un
interes.
Una poblacion puede ser nita o innita. Por ejemplo, la poblacion que com-
prende todas las piezas producidas en un da determinado en una fabrica, los
productos de un supermercado, los libros de una biblioteca, son ejemplos de una
poblacion nita, mientras que la poblacion que consta de todos los resultados
posibles (cara o cruz) en lanzamientos sucesivos de una moneda, la produccion
futura de una maquina y el nacimiento de insectos son ejemplos de poblaciones
innitas.
Nota 1. Los elementos que forman una poblacion pueden ser personas, empresas,
12 Introduccion a la Estadstica
productos manufacturados, inventarios, escuelas, ciudades, calicaciones esco-
lares, precios, o cualquier otra cosa que se pueda medir, contar o jerarquizar.
Muestra: Se llama muestra a toda porcion de elementos sacada de una poblacion.
Sirve para estimar los resultados que se obtendran con el estudio completo de
la poblacion. Para que los resultados de la muestra puedan generalizarse a la
poblacion, es necesario que la muestra se elija adecuadamente, es decir, que sea
representativa de la poblacion.
Muestra aleatoria: Es aquella que se obtiene cuando todos los elementos de
la poblacion tienen igual posibilidad de ser elegidos, es decir, es la muestra que
se trae de una poblacion al azar.
De las deniciones anteriores podemos concluir que el objetivo de una muestra,
es que los elementos de la muestra representen al conjunto de todos los ele-
mentos de la poblacion. Esta cuestion, la construccion de muestras adecuadas,
representativas, es uno de los aspectos mas delicados de la Estadstica. Nosotros
vamos a considerar en esta asignatura solo un tipo de muestras, denominadas
muestras aleatorias simples. En una muestra aleatoria simple, todos los elemen-
tos de la poblacion deben tener las mismas posibilidades de salir en la muestra
y, ademas, los elementos de la muestra deben ser independientes: el que salga
un resultado en la muestra no debe afectar a que ning un otro resultado salga
en la muestra.
Entidad: Conjunto de personas, lugares o cosas.
Un biologo puede estar interesado en las ardillas que habitan determinada
region.
Un medico puede mostrar interes por los pacientes que muestren determinada
serie de sntomas.
A un agrcola le llamara la atencion cierta variedad de trigo.
1.4 Terminologa estadstica 13
Variable: Es toda propiedad o conjunto de caractersticas de las entidades que
admiten variaciones dentro de un conjunto de objetos y que interesan en una
investigaci on cientca. Por ejemplo, el biologo puede tener interes especial en
el tama no de las ardillas, el medico puede querer investigar el nivel de colesterol
de ciertos pacientes; al educador le puede llamar la atencion el rendimiento de
lectura de los estudiantes que han aprendido a leer con un metodo determinado;
el investigador agrcola puede estar interesado en conocer la resistencia de una
variedad de trigo a cierta enfermedad, al educador le puede llamar la atencion
el rendimiento en la lectura de los estudiantes que han aprendido a leer con
un metodo determinado, al meteorologo le puede llamar la atencion de la nieve
como una proporcion de la precipitacion total, etc. En virtud de que cualquiera
de estas caractersticas presenta un valor diferente cuando se observa desde
diferentes ambitos, recibe el nombre de variable. Hay tres tipos de variables las
cuales son: nominales, ordinales y cardinales.
Variables nominales. Son las mas simples y abundantes y su unica fun-
cion es clasicar. Su variable operacional correspondiente es una escala
nominal que sirve para clasicar las observaciones en un conjunto de ca-
tegoras mutuamente excluyentes cuyo orden de colocacion es indistinto.
A esto se les puede asignar cifras u otros smbolos arbitrarios con el n de
distinguirlas. Si son cifras, no tienen ning un valor ni propiedades numericas
como en aritmetica, es decir, no se puede hacer ninguna medida numerica
solo clasicacion.
Ejemplo 1.4.1. Variable nominal { Estado civil
_

_
soltero,
casado,
viudo,
divorciado,
union libre.
14 Introduccion a la Estadstica
Ejemplo 1.4.2. Entre los datos numericos que son nominales (datos cuan-
titativos) se incluyen los n umeros de las camisetas deportivas, los n umeros
de codigo de las zonas postales, los n umeros telefonicos, etc.
Ejemplo 1.4.3. Los datos nominales que son cualitativos incluyen el genero,
la raza, el tipo de sangre y la religion. Ver ejemplo 1.4.1.
Los datos nominales se obtienen cuando se denen las categoras y se cuen-
ta el n umero de observaciones que queda en cada una.
Variables ordinales o jerarquizados. Clasican las observaciones en
categoras mutuamente excluyentes que exigen ordenacion, ya que guardan
entre s relaciones de mayor que. Su variable operacional es una escala
ordinal que va desde la categora mas baja hasta la mas alta o biceversa, de
modo que las observaciones queden en el orden apropiado. Estas categoras
tampoco tienen propiedades numericas, aunque se les represente por cifras.
Ejemplo 1.4.4. Variable ordinal { Alcoholismo
_

_
1.-Abstemio,
2.-Bebedor ocasional,
3.-Bebedor regular,
4.-Bebedor consuetudinario.
Ejemplo 1.4.5. Variable ordinal { La evaluaci on de un maestro
_

_
1.-Pobre,
2.-Razonable,
3.-Buena,
4.-Superior.
Las variables nominales y ordinales son variables cuyos valores consisten
en categoras de clasicacion y se denominan Variables Cualitativas.
Variables cardinales o cuantitativas. Se dice que una variable es cuan-
titativa siempre que los valores que puede asumir sean los resultados de
medidas numericas. Ejemplos de variable cuantitativa son la estatura, el
peso, la temperatura, el cociente de inteligencia, la presion sangunea, el
1.5 Notacion de suma con sigma 15
n umero de estudiantes de primer a no, etc. Las variables cardinales, se di-
viden en continuas y discretas.
Continuas: Son las que pueden tomar cualquier valor dentro de un inter-
valo de valores, por ejemplo, la edad, los salarios, la estatura, la masa, la
distancia en kilometros, etc. En general, las mediciones dan origen a los
datos continuos.
Discretas: Son las que toman solo algunos valores dentro de un intervalo,
es decir, adquieren solo valores enteros. Por ejemplo, el n umero de alumnos
en un aula, el n umero de enfermos que ingresan a un hospital, el n umero
de ni nos en una familia, la cantidad de coches en un estacionamiento, el
conjunto de personas en una la, etc. En general, las enumeraciones o los
conteos dan origen a los datos discretos.
1.5. Notacion de suma con sigma
En muchos de los procedimientos estadsticos que estudiaremos en el curso, se requiere
de obtener la suma de un conjunto de n umeros. La letra griega

se utiliza para
denotar una suma. De ah que, si alguna variable x tiene los valores 1, 5, 6 y 9, entonces

x = 21. De manera similar, si los gastos en comestibles durante una semana fueron
$8.82, $12.01, entonces

y = $22.93.
Ejemplo 1.5.1. Si los valores de x son 2, 4, 5 y 9, encuentre

x,

x
2
y (

x)
2
.
Solucion:

x = 2 + 4 + 5 + 9 = 20

x
2
= 2
2
+ 4
2
+ 5
2
+ 9
2
= 4 + 16 + 25 + 81 = 126
(

x)
2
= 20
2
= 400
Si solo se van a sumar algunos de los valores, se utilizan subndices para indicar dichos
valores de este modo:
5

i=1
x
i
16 Introduccion a la Estadstica
indica la suma de los valores de la variable x, empezando con i = 1 y terminando con
i = 5:
5

i=1
x
i
= x
1
+ x
2
+x
3
+ x
4
+x
5
n

i=1
x
i
signica que hay que sumar n observaciones. A menudo
n

i=1
x
i
se abrevia con
los smbolos

x
i
o

x.
Ejemplo 1.5.2. Usando los datos que se indiquen, calcule
2

i=1
x
i
,
4

i=1
x
i
,
11

i=7
x
i
y

x
i
i 1 2 3 4 5 6 7 8 9 10 11
x
i
8 2 3 6 7 8 9 4 5 4 1
Solucion:
2

i=1
x
i
= x
1
+x
2
= 8 + 2 = 10,
4

i=1
x
i
= x
2
+x
3
+ x
4
= 2 + 3 + 6 = 11,
11

i=7
x
i
= x
7
+x
8
+ x
9
+x
10
+ x
11
= 9 + 4 + 5 + 4 + 1 = 23,

x
i
= x
1
+x
2
+ . . . + x
11
= 8 + 2 + . . . + 1 = 57.
Cuando cada valor de una variable va a ser multiplicada por una constante, o dividida
entre ella, dicha constante se puede aplicar despues de que los valores se hayan sumado

cx = c

x
As,
4

i=1
2x
i
= 2x
1
+ 2x
2
+ 2x
3
+ 2x
4
= 2(x
1
+ x
2
+x
3
+ x
4
) = 2
4

i=1
x
i
Por ejemplo,
3(2) + 3(8) + 3(4) = 3(2 + 4 + 8) = 3(14) = 42
1.5 Notacion de suma con sigma 17
La operacion de suma o sumatoria de una constante es igual al producto de la cons-
tante y el n umero de veces que se presenta.
n

i=1
c
i
= nc
Por ejemplo,
6

i=1
5
i
= 5 + 5 + 5 + 5 + 5 + 5 = 30
o bien, 6(5) = 30.
La adicion de una suma (o diferencia) de dos variables es igual a la suma (o diferencia)
de sumatorias individuales de las dos variables.
n

i=1
(x
2
i
+ y
i
) =
n

i=1
x
2
i
+
n

i=1
y
i
n

i=1
(x
i
y
i
) =
n

i=1
x
i

i=1
y
i
.
Ejemplo 1.5.3. Se tienen dos conjuntos de n umeros, tales como salarios por hora para
diversos empleados y el n umero de horas que cada uno trabajo.
i: Individuos f
i
: Horas trabajadas x
i
: Salarios por hora
1 1 $2
2 5 3
3 7 2
4 3 4
5 3 3
Supongase que han de evaluarse las sumas que siguen:

f
i
,

x
i
,

x
2
i
,

f
i
x
i
,

f
i
x
2
i
y

(f
i
x
i
)
2
.
Solucion:
18 Introduccion a la Estadstica
i f
i
x
i
x
2
i
f
i
x
i
f
i
x
2
i
1 1 $2 4 2 4
2 5 3 9 15 45
3 7 2 4 14 28
4 3 4 16 12 48
5 3 3 9 9 27

f
i
= 19

x
i
= 14

x
2
i
= 42

f
i
x
i
= 52

f
i
x
2
i
= 152
y (

f
i
x
i
)
2
= 2704
1.6. Notas Sobre redondeo
Durante el curso cuando se registren datos nales o intermedios, se tendra en cuenta
la siguiente regla:
Si el dgito que queda a la derecha de la posicion del ultimo dgito que se va a
retener (y registrar) es menor que 5 se registrara el dgito que ocupa la posicion
que hay que retener (y registrar). Ejemplo que ilustra esta regla
Resultado nal o intermedio Resultado registrado
175.783 175.78
164.78432 164.78
Si el dgito que queda a la derecha de la posicion del ultimo dgito que se va a
retener es mayor que 5 se aumentar a en 1 el dgito que ocupa la posicion del
ultimo dgito que se va a retener y se registrara este resultado. Ejemplo que
ilustra esta regla
Resultado nal o intermedio Resultado registrado
175.787 175.79
164.796 164.8
Si el dgito que queda a la derecha de la posicion del ultimo dgito que se va a
retener es igual a 5. Entonces, se registrara el dgito que ocupa la posicion del
1.6 Notas Sobre redondeo 19
ultimo dgito que se va a retener tal como aparece si es par, y aumentando en
1, si es impar. Ejemplo que ilustra esta regla
Resultado nal o intermedio Resultado registrado
Par 175.785 175.78
Impar 175.775 175.8
20 Introduccion a la Estadstica
1.7. Ejercicios
1. Desarrolle cada uno de los siguientes:
a)
5

i=1
x
i
b)
5

i=1
x
i
y
i
c)
6

i=1
(x
i
y
i
)
2
d)
n

i=1
x
i
n
para n = 8.
2. Calcule las siguientes cantidades seg un los datos que se indican.

x
i
,

f
i
,

f
i
x
i
y

f
i
x
2
i
.
i 1 2 3 4 5 6
f
i
3 5 9 10 2 1
x
i
10 11 15 19 21 26
3. De acuerdo a las reglas de redondeo establecidas, redondee las siguientes cifras
hasta dos lugares decimales:
a) 5.781 b) 46.7385 c) 125.9995 d) 43.87500 e) 148.475
4. Clasique los siguientes datos como discretos o continuos:
Puntajes de matematicas en la prueba de aptitud academica de 30 alumnos
del ultimo a no de preparatoria.
El n umero de defectos en cada unidad de un lote de 50 coches nuevos.
El n umero de carreras anotadas en cada juego por los Piratas en la tem-
porada de 1990.
1.7 Ejercicios 21
Distancia en yardas recorrida por un mediocampista en cada juego durante
la ultima temporada.
Peso perdido en libras por 20 personas debido a una dieta.
El n umero de acciones vendidas por da de la bolsa de valores.
Las temperaturas registradas cada media hora en un observatorio.
El tiempo de vida de los bulbos de television producidos por una empresa.
El ingreso anual de los profesores universitarios.
La longitud de 1000 tornillos producidos en una fabrica.
El tiempo de vuelo de un misil.
El n umero de billetes de $20 que circulan en Mexico en un momento de-
terminado.
La suma S de los puntos obtenidos al lanzar un par de dados.
El pas C en Europa.
El estado civil de una persona.
El n umero N de individuos en una familia.
5. Clasique los datos siguientes en cuantitativos y cualitativos:
Estaturas en pulgadas de cinco jugadores de basquetbol.
Peso en onzas de doce pollitos.
Clasicacion etnica de 20 empleados
N umeros telefonicos de amigos
6. Identique lo siguiente en terminos del tipo de datos:
17 gramos.
25 segundos.
3 canastas.
22 Introduccion a la Estadstica
Mas lento.
Talla de camisas.
El mas encantador.
Estatura de un hombre.
Color de piel de los perros.
La vida de las llantas de un automovil.
Captulo 2
Estadstica descriptiva
2.1. Introduccion
Los metodos estadsticos comprenden el analisis e interpretacion de n umeros, ventas
mensuales, calicaciones de examenes, n umeros de partes defectuosas, porcentaje de
respuestas correctas a un cuestionario, etc. A tales n umeros se les conoce como datos.
Los datos no procesados pueden carecer de signicado, por lo cual para interpretarlos
correctamente es necesario primero organizar y resumir los n umeros. En este captu-
lo aprenderemos metodos para resumir y describir conjuntos de datos a traves de
distintos tipos de tablas, gracos y medidas estadsticas.
2.2. Datos estadsticos
Obtenidos a traves de encuestas, experimentos o cualquier otro conjunto de medidas,
los datos estadsticos suelen ser tan numerosos que resultan practicamente in utiles
si no son resumidos de forma adecuada. Para ello la Estadstica utiliza tanto tecni-
cas gracas como numericas, algunas de las cuales describiremos en este captulo.
Ahora bien, los datos estadsticos se obtienen mediante un proceso que comprende
la observaci on o medicion de conceptos como ingresos anuales de una comunidad,
24 Estadstica descriptiva
calicaciones de examenes, porcentaje de az ucar en cereales, etc., los cuales se cono-
cen como variables, ya que producen valores que tienden a mostrar cierto grado de
variabilidad, al efectuarse mediciones sucesivas.
2.2.1. Tipos de datos
Como se describio en la seccion 1.4, los datos pueden ser de dos tipos: cuantitativos y
cualitativos. Los datos cuantitativos son los que representan una cantidad reejada en
una escala numerica. A su vez, pueden clasicarse como datos cuantitativos discretos
si se reeren al conteo de alguna caracterstica, o datos cuantitativos continuos si se
reeren a una medida. Los datos cualitativos o categoricos se reeren a caractersticas
de la poblacion que no pueden asociarse a cantidades con signicado numerico, sino
a caractersticas que solo pueden clasicarse.
Ejemplo 2.2.1. Veamos algunos ejemplos de cada uno de estos tipos de variables:
Si estamos interesados en un asfalto, la variable tension de fractura es cuanti-
tativa continua.
En un ejemplo de unos cojinetes, el diametro de los cojinetes es una variable
cuantitativa continua.
En un ejemplo de los niveles de plomo, se esta analizando si una muestra con-
tiene niveles detectables o no. Se trata, por tanto, de una variable cualitativa con
dos categoras: s contiene niveles detectables o no contiene niveles detectables.
En el ejemplo de accidentes laborales, la variable n umero de accidentes labo-
rales es cuantitativa discreta, mientras que las franjas horarias constituyen una
variable cualitativa.
2.2.2. Organizacion de datos mediante tablas
El objetivo de la organizacion de datos es acomodar un conjunto de datos en forma
util para revelar las caractersticas esenciales y simplicar ciertos analisis. Los datos
2.3 Distribuciones de frecuencias 25
que no estan organizados se llaman datos no agrupados. Una manera de acomodarlos
es construir un arreglo ordenado, acomodando los datos de abajo hacia arriba o al
reves; si el n umero de datos es muy grande, el arreglo puede ser difcil de manejar
o de comprender; por eso a menudo se usan tablas como aproximacion general a la
organizacion de datos no agrupados. Un ejemplo es el conjunto de las estaturas de
100 estudiantes hombres, obtenidas del registro universitario, que esta ordenado en
forma alfabetica.
Los metodos principales para organizar datos estadsticos comprenden el ordenamien-
to de elementos en subconjuntos que presenten cualidades semejantes (por ejemplo,
misma edad, misma nalidad, misma escuela, misma ciudad, etc.). Los datos agru-
pados se pueden resumir gracamente, o en tablas, y mediante el uso de medidas
numericas, como la media, amplitud, la desviacion estandar, y otras mas. El nom-
bre que reciben los datos ordenados en grupos o categoras es el de distribucion de
frecuencia.
2.3. Distribuciones de frecuencias
Una distribucion de frecuencia es un metodo estadstico de clasicacion de datos en
clases o intervalos, de manera tal que se pueda establecer el n umero o porcentaje
(es decir, la frecuencia de los datos) de cada clase. Esto proporciona una forma de
observar un conjunto de n umeros sin que se tenga que considerar cada n umero, y
puede ser extremadamente util al manejar grandes cantidades de datos. El n umero o
porcentaje en una clase se denomina frecuencia de clase.
Denicion 2.3.1. Una distribucion de frecuencia es un agrupamiento de datos en
clases, que muestra el n umero o porcentaje de observaciones de cada una de ellas.
Una distribucion de frecuencias se puede representar en forma tabular o graca.
Ejemplo 2.3.1. Construya una tabla de frecuencias para los datos siguientes, corres-
pondientes al n umero de faltas a clases durante el periodo de oto no de 2010 para
26 Estadstica descriptiva
estudiantes inscritos en la materia de Estadstica.
9 8 7 8 4 3 2 1 0 3 2
5 3 2 1 1 7 3 2 8 1 4
7 6 6 4 3 2 2 0 9 4 2
4 6 9 6 9 4 3 5 7
Solucion:
Denicion 2.3.2. Frecuencia absoluta (F). Es el n umero de veces que un n umero
aparece en el conjunto inicial de datos. La frecuencia de un intervalo de clase es igual
a la suma de las frecuencias de los datos que aparecen en el.
Denicion 2.3.3. Frecuencia acumulada (F
a
): La frecuencia acumulada de un
dato o de un intervalo es igual a la suma de su frecuencia mas la frecuencia de los
datos anteriores a el.
Denicion 2.3.4. Frecuencia Relativa (F
r
). Indica los porcentajes de la totalidad
de los datos que corresponden a cada clase. Se obtiene dividiendo la frecuencia de cada
clase entre el n umero total de datos y se multiplica por 100, se expresa en porcentaje
y su formula es
F
r
=
F
N
100 (2.1)
donde F
r
: frecuencia relativa, F : frecuencia absoluta y N : n umero total de datos.
2.3.1. Obtencion de los intervalos y lmites de clases
N umero del intervalo de clase: No hay formas denidas respecto al n umero de
clase que deben utilizarse en una distribucion de frecuencia, si los intervalos de clase
son muy pocos se pierden detalles y si son muchos aparte de ser laborioso se mani-
estan irregularidades que no permiten apreciar con claridad un patron de compor-
tamiento. En otro caso, la mayora de los analistas recomiendan no menos de 5 ni
mas de 15 intervalos de clase.
2.3 Distribuciones de frecuencias 27
Denicion 2.3.5. Clase. Se le llama Clase a cada uno de los intervalos que forman
una distribucion de frecuencia. Una aproximaci on razonable para calcular el n umero
de clases nos la da la regla de Sturges
n
0
= 1 + 3.3 log N, (2.2)
donde n
0
: n umero de clases o interv alos y N : n umero total de datos.
Nota 2. n
0
se redondea siempre al n umero inmediato superior (entero su-
perior mas cercano).
Ejemplo 2.3.2. Si N = 30, = n
0
= 1 + 3.3 log 30 = 5.87 n
0
= 6.
Ejemplo 2.3.3. Si n
0
= 5.12 = n
0
= 6.
Denicion 2.3.6. Anchura o tama no del intervalo de clase. Es la diferencia
entre los lmites reales de un intervalo de clase. Todas las clases deben tener la misma
amplitud, se simboliza con la letra C may uscula y su formula es:
C =
V
max
V
min
n
0
, (2.3)
donde C : Amplitud del intervalo de clase, V
max
: Valor maximo, V
min
: Valor mnimo
y n
0
: n umero de clases.
Nota 3. Siempre se redondea a C seg un las caractersticas del problema.
Nota 4. Si con el ancho de intervalo de clase encontrado, no contienen a
todos los datos, hay que tomar el mnimo entero mayor que la C encon-
trada.
Ejemplo 2.3.4. Encuentra el tama no de los intervalos de clase
Datos 3 5 4 3 8 5 4 1 C = 1.75 C = 2.
Denicion 2.3.7. Lmite normal de clase: Las clases o intervalos de clase estan
limitados por sus valores extremos que se denominan lmite inferior y lmite superior.
Sus smbolos son: L.N.I. y L.N.S.
28 Estadstica descriptiva
Denicion 2.3.8. Lmites reales de clase: Corresponde al punto medio entre el
lmite normal superior de una clase y el lmite normal inferior de la clase siguiente.
Se denotan por: L.R.I. y L.R.S.
Denicion 2.3.9. Marca de Clase: Es el valor correspondiente al punto medio de
un intervalo de clase y su valor es igual a la mitad de la suma de los lmites normales
inferior y superior de un intervalo de clase. Denotamos la marca de clase como
x =
LNI + LNS
2
, (2.4)
donde x : marca de clase y LNI y LNS : lmites normales.
Reglas generales para formar una distribucion de frecuencia.
1. Seleccione el n umero de intervalos de clase, la cantidad de intervalos de clase
no debe de ser menor de 5 ni mayor de 15, entre mas datos se tengan, mas
intervalos de clases deben considerarse. Si el n umero de intervalos es demasiado
peque no pueden estarse ocultando caractersticas importantes de los datos en
esta agrupacion. Si se tienen demasiados intervalos de clase se pueden tener
muchos intervalos vacos que resten signicado a la distribucion.
2. Calcule la amplitud o tama no del intervalo de clase C,
3. Forme los intervalos de clase iniciando por el lmite inferior del rango o por el
dato menor. El lmite inferior de la clase siguiente sera el valor consecutivo al
maximo de la clase anterior y as sucesivamente,
4. Fige los lmites reales de cada clase,
5. Determine la frecuencia de clase contando el n umero de observaciones que caen
dentro de cada intervalo de clase.
Ejemplo 2.3.5. En una universidad de E.U., se saco una muestra aleatoria de 25
profesores suministrando informacion de los salarios anuales en millones de dolares.
2.3 Distribuciones de frecuencias 29
Construya una distribucion de frecuencia con la muestra siguiente:
12 21 14 22 12 14 18 11 11
20 19 9 26 17 11 12 24 9
21 17 22 13 19 15 11
Solucion:
1.- Ordenar del n umero menor al n umero mayor para saber la frecuencia de cada
n umero,
= 9-2, 11-4| 12-3, 13-1, 14-2| 15-1, 17-2| 18-1, 19-2, 20-1| 21-2, 22-2| 24-1, 26-1.
2.- Sacar el n umero y amplitud de clases
= n
0
= 1 + 3.3 log N = 1 + 3.3 log 25 = 5.6 = el n umero de clases es n
0
= 6.
Ahora C =
V
max
V
min
n
0
=
26 9
6
= 2.83, as la amplitud del intervalo de clase es
C = 3.
3.-
Clase LNI LNS LRI LRS F F
a
F
r
F
ra

X
1 9 11 8.5 11.5 6 6 24 % 24 % 10
2 12 14 11.5 14.5 6 12 24 % 48 % 13
3 15 17 14.5 17.5 3 15 12 % 60 % 16
4 18 20 17.5 20.5 4 19 16 % 76 % 19
5 21 23 20.5 23.5 4 23 16 % 92 % 22
6 24 26 23.5 26.5 2 25 8 % 100 % 25
25
Tabla 2.1: Distribucion de frecuencia de la muestra.
donde
F
r
=
F
N
100 = para la primera clase F
r
=
6
25
100 = 24 % y as sucesivamente
para las demas.
F
ra
=
F
a
N
100 = para la primera clase F
ra
=
6
25
100 = 24 %, para la segunda
F
ra
=
12
25
100 = 48 % y as sucesivamente.
30 Estadstica descriptiva
x =
LNI + LNS
2
= para la primera marca x =
9 + 11
2
= 10, para la segunda
x =
12 + 14
2
= 13 y as en sucesivamente. Continuando con todos los calculos se
obtiene la tabla 2.1.
Los datos son de unidad
1
2
= 0.5 (lo que se resta y suma a los lmites normales
para obtener los lmites reales).
Ejemplo 2.3.6. Elabore una distribucion de frecuencia para los siguientes datos toma-
dos de una encuesta de la edad de 70 personas.
32 20 20 24 24 18 18 18 25 26 28 40 20 28
41 37 37 37 26 26 26 27 27 32 44 20 22 35
32 32 29 40 40 44 44 18 18 45 35 26 28 26
34 34 30 30 30 28 28 28 35 28 45 32 35 26
42 42 30 22 30 24 30 22 24 20 26 28 22 32
Clase LNI LNS LRI LRS F F
a
F
r
F
ra

X
1 1821 .5 .5
2 2225 .5 .5
3 2629 .5 .5
4 3033 .5 .5
5 3437 .5 .5
6 3841 .5 .5
7 4255 .5 .5
8 5659 .5 .5
Tabla 2.2: Distribucion de frecuencia de la muestra.
Solucion:
n
0
= 1 + 3.3 log 70 = 7.08 = n
0
= 8. Ahora C =
45 18
8
= 3.375 = C = 4.
(Completa la tabla 2.2.)
2.3 Distribuciones de frecuencias 31
Ejercicios
Resuelve los siguientes:
1. Los datos siguientes representan el n umero de clientes que visitan una tienda en
un periodo de 22 das. Construya la distribucion de frecuencias para los datos
28 42 52 50 29 31 34 45 48 38 28
33 33 49 32 37 41 43 46 49 34 39
2. Los siguientes datos representan las edades de los empleados de un supermer-
cado. Construye una distribucion de frecuencia
20 21 25 28 24 22 38 54 28
23 26 32 20 30 28 42 59 32
25 25 25 26 19 23 46 40 37
21 23 25 36 21 27 46 26 36
24 25 24 24 21 22 29 26 37
22 18 27 30 25 26 30 35 52
29 19 23 21 19 21 35 60 44
3. Los datos siguientes representan los das de Zafra en cada uno de los ingenios
azucareros de la republica mexicana. Construye una distribucion de frecuencia.
151 177 146 150 177 208 166 136 101 152 141
142 142 139 148 149 171 152 137 136 170 141
136 156 163 138 138 155 149 172 161 180 141
116 158 170 147 146 182 150 157 155 122 172
124 177 147 168 136 173 124 153 112 192 178
164 204 135 144 178 160 140 156
4. En la siguiente lista aparecen las calicaciones de 50 alumnos que presentaron
32 Estadstica descriptiva
un examen de matematicas. Elabore una tabla de distribucion de frecuencia.
57 60 33 85 52 65 77 84 65 74
68 71 81 35 50 35 64 74 47 62
45 80 41 61 100 55 73 59 53 37
76 41 78 55 48 65 85 67 100 60
88 94 69 98 65 73 42 65 92 88
5. El conjunto de datos siguiente representa los totales de efectivo (en dolares)
gastados en un cierto n de semana por 25 estudiantes graduados. Construya
una tabla de frecuencias agrupadas
39.78 28.30 28.31 17.95 44.47
46.65 31.47 33.45 29.17 48.39
82.71 43.63 41.17 47.32 52.16
25.94 50.32 35.25 35.70 17.89
60.20 48.14 22.78 38.22 23.25
2.4. Presentacion graca de datos
Con frecuencia, el signicado de los datos se puede comunicar mas efectivamente por
medio de gracos que por medio de tablas. Existe una gran variedad de formas para
presentar los datos gracamente. En la presente seccion se describiran algunos tipos
de gracos que seran utilizados en el presente curso.
Graco estadstico
Es la representaci on de datos estadsticos por medio de guras geometricas (puntos,
lneas, rectangulos, etc.) cuyas dimensiones son proporcionales de valor numerico de
los datos. Su n principal es permitir de un solo vistazo, la captacion rapida del con-
junto de caractersticas presentadas y evidenciar sus variaciones en intensidad.
2.4 Presentacion graca de datos 33
Un graco es util para dar una rapida idea de la situacion general que se esta ana-
lizando, permite determinar por simple examen, el maximo y mnimo de las varia-
ciones de un fenomeno.
Gracas circulares
Se llama tambien graca de pastel, es bastante util para representar proporciones o
porcentajes. Para construir el diagrama se puede usar el compas y el transportador:
el primero para trazar el circulo y el segundo para medir los sectores correspondientes
al pastel. Dado que el circulo tiene 360
o
(equivalente al 100 %), se puede utilizar el
transportador para dividir el pastel con base en las rebanadasdeseadas de porcenta-
je. Esta graca se construye generalmente cuando en la distribucion de frecuencia las
clases no se representan de manera cuantitativa. Para representar una graca de sec-
tores circulares se lleva a cabo el siguiente procedimiento:
1.- Calcular F
r
,
2.- Calcular los porcentajes obtenidos de 360
o
para determinar los grados que debe
tener cada sector aplicando la formula
(F
ra
)(360)
100
3.- Marcar en un circulo los sectores con angulos iguales a los obtenidos en el paso 2.
Cuente los grados del primer sector en el sentido conforme a las agujas del reloj y a
partir del radio vertical superior del circulo.
Ejemplo 2.4.1. La tabla 2.3 muestra el area de los cinco Grandes Lagos bajo jurisdic-
cion de E.U. Graque los datos:
34 Estadstica descriptiva
Gran Lago

Area (en millas cuadradas)
Michigan 22342
Superior 20557
Huron 8800
Erie 5033
Ontario 3446
Total 60178
Tabla 2.3:

Areas de los cinco Grandes Lagos bajo la jurisdiccion de E.U.
Se hace corresponder el area total, 60178 millas cuadradas a los 360

del crculo. As,


una milla cuadrada corresponde a
360

60178
. Se deduce que el lago Superior, con 20557
millas cuadradas ocupa un arco de 20557
_
360

60178
_
= 123

y del mismo modo se


deducen los arcos de los otros lagos. Las lneas divisorias se pueden trazar usando un
transportador.
Histograma
El histograma es una representaci on graca hecha en un plano cartesiano que consiste
en una serie de rectangulos que se caracterizan por que la variable aleatoria o el
fenomeno de interes se representa a lo largo del eje horizontal (estando referidos a las
marcas de clase como sus centros); el eje vertical representa el n umero, proporcion o
porcentaje de observaciones por intervalos de clase, dependiendo de que el histograma
particular sea o no, un histograma de porcentaje (de frecuencia relativa).
Caractersticas de un histograma:
1. Los posibles valores de la variable que se esta considerando se disponen en el
eje horizontal. Las frecuencias con que ocurren los valores de la variable se
representan en el eje vertical.
2. Cada intervalo de clase de la distribucion de frecuencia se representa por una
barra del histograma.
2.4 Presentacion graca de datos 35
3. Las barras tienen la misma amplitud de los intervalos de clase correspondientes.
4. La altura de una barra dada correspondiente a la frecuencia con que ocurren los
valores en el correspondiente intervalo de clase. Es decir, para un conjunto dado
de datos, los intervalos de clase con frecuencias grandes, se representar an en el
histograma con barras altas y los intervalos de clases con frecuencias peque nas
con barras cortas.
5. Las barras de dibujan adyacentes entre s. Esto tiene por objeto dar a entender
gracamente la naturaleza continua de los datos que se estan considerando.
6. Respecto del area total que aparece en el histograma, la proporcion encerrada
por una barra determinada es igual a la proporcion que la frecuencia del intervalo
de clase correspondiente tiene del n umero total de observaciones.
Ejemplo 2.4.2. x: N umero de ni nos en edad escolar, y: Frecuencia.
Polgono de frecuencias
Aunque de menor uso, los polgonos de frecuencia son otro medio de representar
gracamente las distribuciones de frecuencia simple como la frecuencia relativa. Para
construir un polgono de frecuencias marcamos estas sobre el eje vertical y los valores
de la variable que vamos a medir, las marcamos sobre el eje horizontal. El siguiente
paso consiste en gracar cada frecuencia de clase dibujando un punto sobre su marca
de clase, o punto medio, y en unir por un trazo continuo a todas las marcas de clase.
Se puede obtener uniendo los puntos medios de las partes superiores de los rectangulos
del histograma.
Ejemplo 2.4.3. x: Marca de clase, y: Frecuencia.
Ojivas
Representacion graca de frecuencias acumuladas. La representaci on graca de
la informacion contenida en los cuadros de frecuencia acumulada son curvas llamadas
36 Estadstica descriptiva
ojivas. Una ojiva es una curva equivalente a un polgono de frecuencia acumulada
suavizado. Para representar una ojiva se deben seguir los siguientes pasos:
1.- Localizar en el eje x los lmites reales superiores de clase,
2.- Localizar en el eje y las frecuencias acumuladas de cada clase,
3.- Unir por trazos continuos los puntos anteriores.
Ejemplo 2.4.4. x: LRS, y: Frecuencia acumulada.
2.5. Medidas de tendencia central
En una tabla de distribucion de frecuencias hay una zona en donde los valores son
mas altos, es decir, hay valores de las variables que son mas frecuentes, en cambio,
existen zonas en donde los valores de las variables son menos frecuentes. Surge as, el
concepto de medida de tendencia central, tambien conocida como variable de centra-
lizacion, de posicion o parametros poblacionales que indican alrededor de que valor
se agrupa el mayor n umero de casos en estudio. Las medidas de tendencia central
son representativas de toda la poblacion. Se les llama de tendencia central porque
en torno a ellas parecen agruparse los datos. Sirven para resumir todo un conjunto
de valores, por ello bien, se les puede considerar como sintetizadores. En general,
cualquier medida de tendencia central es un valor medio, ya que este por denicion
es todo valor que se haya entre dos extremos. Las medidas de tendencia central son
principalmente la media aritmetica, la mediana y la moda.
2.5.1. Datos no agrupados
El analisis de datos suele realizarse de diversas maneras, dependiendo de si existe una
cantidad peque na o grande de datos que se deba analizar. Cuando existen, digamos,
30 o menos puntos de datos, se utilizan los metodos que se presentan a continuacion.
Para mayores cantidades de datos, son mas practicas las computadoras o tecnicas en
las que es necesario llevar a cabo, en primer lugar el agrupamiento de los datos antes
del analisis. Tales tecnicas se explicaran con mas detalle mas adelante.
2.5 Medidas de tendencia central 37
Dos caractersticas importantes de los datos que las medidas pueden poner de mani-
esto son: 1) el valor central o tpico del conjunto y 2) la dispersion de los n umeros.
La media aritmetica
Se dene como la suma de un conjunto cantidades dividida entre el n umero total de
ellas. Esta medida es la mas com un dentro de las de tendencia central y corresponde
al centro de gravedad de los datos. Por ejemplo, cuando nos preguntamos sobre el
promedio que obtuvimos en un ciclo escolar, estamos hablando de media aritmetica
o valor medio o simplemente media, se denota por x y su formula es
x =

N
i=1
x
i
N
(2.5)
para datos no agrupados.
Ejemplo 2.5.1. Los diez puntajes siguientes representan el n umero de puntos anotados
en diez juegos de basquetbol por el jugador A: 6,10,3,7,6,6,8,5,9 y 10. La media es:
6 + 10 + 3 + 7 + 6 + 6 + 8 + 5 + 9 + 10
10
=
70
10
= 7
El valor 7 representa, en alg un sentido, el n umero central o medio de los puntos
anotados en diez juegos por el jugador A.
Ejemplo 2.5.2. Los totales anuales, en miles de millones de dolares, para las exporta-
ciones agrcolas de Mexico de 2000 a 2010 son:
21.9 21.9 23.0 23.6 29.4 34.7 41.2 43.3 39.1 33.7
Determine la media si los datos constituyen una poblacion.
Nota 5. La media tiene una seria desventaja. Se ve afectada por los valores extremos
del nal de una distribucion. Como depende de cada medida, los valores extremos
pueden llevarla a representar defectuosamente los datos.
Ejemplo 2.5.3. Suponga que un corredor de maraton ha corrido en seis maratones
mas grandes del pas, quedando en las posiciones siguientes (el orden es el de los
maratones):
3 5 4 6 2 85
38 Estadstica descriptiva
En la ultima carrera, en la que el ocupo el 85

lugar, fue todo el tiempo tratando


de ganar la carrera. Corrio en primer lugar las primeras 22 millas, pero le dieron
calambres y tuvo que caminar parte de las ultimas cuatro millas. Si la media se usa
para describir la habilidad del corredor, entonces debe usarse el valor 17.5, pero como
termino a lo mas en sexto lugar en las cinco primeras carreras, no parece razonable
usar la media para medir su capacidad de correr. Quiza la mediana proporcione una
medida mejor, pues en este ejemplo la media se afecta mucho por el valor extremo
85.
La mediana
La mediana es el punto dentro del recorrido de una variable que supera a no mas
de la mitad de los datos y es superado por no mas de la otra mitad. Dicho de otro
manera es un punto dentro de una distribucion de datos que tiene la caracterstica
de dividirla en dos partes iguales. La identicaremos con el smbolo M
e
.
Cuando se trata de datos no ordenados no es necesario utilizar formulas, unicamente
tenemos que ordenar los datos de menor a mayor, el concepto de termino medio es
correcto si el n umero de datos ordenados es impar, si el n umero de datos es par la
mediana es la semisuma de los dos valores intermedios que satisfacen su denicion.
Ejemplo 2.5.4. En cada uno de los siguientes la mediana esta dada por el n umero
subrayado.
3 5 7 9 10
1 2 5 8 9 10
aqu M
e
=
5+8
2
= 6.5.
Nota 6. El uso de la mediana para datos de intervalo posee tanto ventajas como
desventajas. Una ventaja es que la mediana no se ve afectada por puntajes extremos
al nal de la distribucion. La desventaja del uso de la mediana reside en que no
es facilmente determinable si el conjunto de datos es grande, puesto que las medidas
deben ordenarse primero, ponerse en orden numerico de menor a mayor o al contrario.
2.6 Medidas de dispersion 39
Para conjuntos grandes de datos que han sido organizados la mediana se encuentra
as:
a) Si N es impar, la mediana es la medida que esta en el lugar
N + 1
2
,
b) Si N es par, la mediana es el promedio de las medidas que estan en los lugares
N
2
y
N
2
+ 1.
La moda
Es el dato que aparece mas veces en una distribucion de frecuencia. Es facil deter-
minarla por simple inspeccion, para una distribucion de frecuencia es la marca de
clase que se presenta con mayor frecuencia. Cuando en una distribucion de frecuencia
existe una sola moda, se dice que es unimodal, con dos modas es bimodal con tres es
trimodal, con mas de tres es multimodal.
Ejemplo 2.5.5.
3 5 8 3 7 4 3 2
2.6. Medidas de dispersion
Al grado en que los datos numericos tienden a extenderse alrededor de un valor medio
se le llama dispersion o variaci on de los datos. Una medida de tendencia central por
si sola, no describe ni resume adecuadamente una distribucion de datos, es necesario
acompa narla de un indicador que de cuenta del grado de dispersion con que se dis-
tribuyen los datos de la variable. Una medida de dispersion dice cuanto se desvan los
datos respecto a las tendencias centrales. Las medidas de dispersion mas importantes
son: el rango, la desviacion media, la varianza, la desviacion estandar y los
porcentajes.
40 Estadstica descriptiva
2.6.1. Datos no agrupados
Rango
Se trata de la mas simple de las medidas de dispersion, representa la distancia entre el
mayor y el menor de los datos de una distribucion, por lo que puede ser interpretado
como la dispersion total de todos ellos. Se obtiene restando el dato menor del mayor,
consecuentemente, es calculable unicamente en variable cardinal.
Desviacion media
Mide la desviacion promedio de valores con respecto a la media del grupo, sin tomar
en cuenta el signo de la desviacion. Se obtiene al restar la media de cada valor del
grupo, eliminando el signo (+ o ) de la desviacion, hallando despues el promedio.
Al calcular la desviacion media es necesario considerar el hecho de que la suma de
las desviaciones positiva y negativa de la media siempre sera (por denicion) igual a
cero. De convertirse las diferencias a valores absolutos (todos los valores se consideran
desviaciones positivas) antes de sumar, se soluciona dicho problema. La desviacion
absoluta media se calcula con la formula siguiente
D.M. =

| x
i
x |
N
(2.6)
donde N es el n umero de observaciones del conjunto.
Varianza
Se obtiene restando a cada uno de los valores el valor de la media de todos los valores,
elevando al cuadrado cada una de las diferencias resultantes, sumando las diferencias
al cuadrado y dividiendo este total por el n umero de valores menos 1. La varianza
muestral se puede calcular mediante la formula
S
2
=

(x
i
x)
2
N 1
(2.7)
2.6 Medidas de dispersion 41
Una formula alternativa para calcular la varianza muestral es
S
2
=

x
2
i

(

x
i
)
2
N
N 1
(2.8)
Tanto mayor sea la varianza de unos datos, mas dispersos, heterogeneos o variables
son esos datos. Cuanto mas peque na sea una varianza de unos datos, mas agrupados
u homogeneos son dichos datos.
Ejemplo 2.6.1. La tabla 2.4 muestra los costos por litro, en centavos de dolar, de la
gasolina de alto octanaje en 19 ciudades del mundo. Determine la varianza muestral.
Ciudad Costo por litro Ciudad Costo por litro
Amsterdam 57 Nairobi 57
Bruselas 53 Nueva York 40
Buenos Aires 38 Oslo 65
Hong Kong 57 Pars 58
Johannesburgo 48 Ro de Janeiro 42
Londres 56 Roma 76
Madrid 59 Singapur 59
Manila 46 Sidney 43
Mexico 25 Tokio 79
Montreal 47
Tabla 2.4:
Solucion:
Al usar la formula 2.8 se obtiene que S
2
= 167.32. Entonces, la varianza muestral de
los 19 precios de gasolina es 167.32 centavos cuadrados.
Observacion 1. Para los datos de los precios por litro de la gasolina, el conocimiento
de que S
2
= 167.32 centavos cuadrados tiene muy poco signicado por s mismo,
si es que tiene alguno. Sabemos que si el valor de la varianza es grande, entonces
las medidas estan muy dispersas, mientras que si el valor es peque no hay muy poca
variabilidad en las medidas.
42 Estadstica descriptiva
Ejemplo 2.6.2. Los datos de la tabla 2.5 indican los precios, en dolares, por libra, de
asado de cerdo y queso cheddar en 15 capitales del mundo.
Capital Cerdo asado Queso cheddar
Berna $6.61 $4.00
Bonn 2.38 2.74
Brasilia 1.27 1.08
Buenos Aires 1.36 2.03
Camberra 2.06 2.60
Londres 1.56 1.81
Madrid 2.33 3.15
Mexico 1.08 2.29
Ottawa 1.99 3.98
Pars 2.47 2.37
Pretoria 1.95 1.76
Roma 2.46 2.96
Estocolmo 5.35 2.54
Tokio 4.19 2.38
Washington 3.29 2.69
Tabla 2.5:
Para cual alimento, el asado de cerdo o el queso cheddar, son menos variables y mas
estables los precios?
Solucion:
Ejemplo 2.6.3. Los datos adjuntos representan el promedio de millas por galon diario
por cinco das para los coches A y B, en condiciones similares.
A 20 25 30 15 35
B 15 27 25 23 35
a) Encuentre la media y el rango de millas por galon para cada coche.
2.6 Medidas de dispersion 43
b) Cual coche parece haber logrado un rendimiento mas consistente si la consisten-
cia se determina examinando las varianzas? Explique.
Solucion:
Desviacion estandar
La desviacion estandar es simplemente la raz cuadrada positiva de la varianza. Para
muchos nes es una medida de la variabilidad mas util que la varianza. Por un lado,
la desviacion tpica se expresa en las mismas unidades que las observaciones originales
y la media, mientras que la varianza se expresa en unidades cuadradas. Las siguientes
formulas dan la desviacion tpica de la muestra
S =

x
2
i

(

x
i
)
2
N
N 1
(2.9)
Coeciente de variacion
Las medidas de dispersion son valores absolutos y no resultan adecuados cuando se
lleva a cabo una comparacion entre dos distribuciones. As, una desviacion de unos
cuantos gramos al medir el peso de un caballo no es importante, pero es de mucha
importancia al medir la dosis de una medicina. Obtenemos una medida relativa de
dispersion cuando dividimos la desviacion estandar entre la media aritmetica, a esta
se le llama coeciente de variaci on.
Es la razon de la desviacion estandar a la media de una distribucion dada. El coe-
ciente de variabilidad se acostumbra a expresarlo en porcentajes
C.V. =
S
x
(2.10)
La principal ventaja del coeciente de variaci on es que no tiene unidades de medida,
lo que hace mas facil su interpretaci on. En general, valores de C.V. menores a 0.1
indican una alta concentraci on, entre 0.1 y 0.5 una concentracion media y valores
superiores a 0.5 una alta dispersion y una media poco o nada representativa.
44 Estadstica descriptiva
Ejemplo 2.6.4. En caso de que C.V. =
S
x
=
0.6831
11.48
= 0.0595. El bajo valor del
coeciente de variacion indica que los valores estan muy concentrados y que la media
representa aceptablemente al conjunto de la distribucion.
Ejemplo 2.6.5. En caso de que C.V. =
S
x
=
9.06
15
= 0.6. Lo que implica que la media
no representa en modo alguno al conjunto de la distribucion.
Ejemplo 2.6.6. Supongamos que para los datos de tiempo de procesado en una CPU
de 25 tareas, la varianza es 1.42, luego su desviacion estandar es 1.19, y el coeciente
de variaci on
1.19
1.63
= 0.73. Por tanto, la desviacion estandar es algo mas del 70 % de
la media. Esto indica que los datos no estan muy concentrados en torno a la media,
probablemente debido a la presencia de los valores altos que hemos comentado antes.
2.7. Medidas de tendencia central y de dispersion
para datos agrupados
Las medidas de resumen fundamentales en lo que a datos agrupados se reere, son
las mismas que para los peque nos conjuntos de datos, principalmente la media, la
mediana y moda como medidas de tendencia central y la desviacion estandar, varianza
y el rango como medidas de dispersion.
La media aritmetica
Para datos agrupados se utiliza
x =
N

i=1
xF
N
(2.11)
donde F es la frecuencia, x es la marca de la clase, N es el total de frecuencias y x
i
son los datos.
Ejemplo 2.7.1. Los datos siguientes representan el n umero de discos vendidos cada
da durante un periodo de 25 das en una tienda de m usica localizada en un centro
2.7 Medidas de tendencia central y de dispersion para datos agrupados 45
comercial:
60 36 61 56 19 35 51 42 21 28 33 67 30
49 57 54 59 28 63 38 15 24 35 46 53
Ahora, por conveniencia los datos se presentan en la siguiente tabla 2.6 de frecuencia
agrupada
N umero de discos vendidos N umero de das
15-25 4
26-36 7
37-47 3
48-58 6
59-69 5
Tabla 2.6:
Encuentre:
a) El n umero promedio de discos vendidos por da, x.
b) El n umero promedio aproximado de discos vendidos por da, x
a
.
Solucion:
a) Con la ayuda de una calculadora, determinamos que la suma de las 25 medidas
es

x = 1060. En consecuencia, la media muestral es: x =


x
N
=
1060
25
= 42.4.
As, el n umero de discos vendidos por da es 42.4.
b) Encontramos primero las marcas de clase x. Recuerde que las marcas de clase son
el punto medio de cada intervalo de clase. Cada marca de clase se multiplica
entonces por su frecuencia correspondiente, como lo muestra la tabla siguiente
2.7:
46 Estadstica descriptiva
Clase F x xF
15-25 4 20 80
26-36 7 31 217
37-47 3 42 126
48-58 6 53 318
59-69 5 64 320
Tabla 2.7:
Usando la formula (2.11), la media aproximada es x
a
=
1061
25
= 42.44.
Note que x
a
= 42.44 es solo un valor aproximado para la media de las 25 medidas
muestrales originales; la aproximacion se considera buena comparada con el valor
exacto x = 42.40 obtenido en la parte a).
Mediana
Para datos agrupados la formula a usar es
M
e
= LRI +
_
N
2
F
a1
F
m
_
C (2.12)
donde LRI de la clase mediana, N total de datos, F
a1
es la F
a
anterior a la F
a
de la
clase mediana, F
m
es F de la clase mediana y C es el tama no del intervalo de clase.
Ejemplo 2.7.2. La tabla 2.8 representa las velocidades, en millas por hora, para una
muestra de 37 coches que recorren una zona escolar donde se permite circular hasta
25 millas por hora. Encuentre la mediana aproximada de la velocidad.
Velocidad N umero de coches: F F
a
1-5 3 3
6-10 2 5
11-15 5 10
16-20 10 20
21-25 7 27
26-30 10 37
2.7 Medidas de tendencia central y de dispersion para datos agrupados 47
Solucion:
Como N = 37, queremos localizar el
N
2
=
37
2
= 18.5esimo valor. Al observar la
tabla 2.8 notamos que tal valor cae en la clase 1620, porque las tres primeras clases
contienen un total de 10 valores y la cuarta 10 valores; por lo tanto, debemos contar
(18.5 10) = 8.5 valores en la clase 16 20, bajo la hipotesis de que los 10 valores
que caen en esta clase estan distribuidos homogeneamente a lo largo de ella; en otras
palabras, estamos buscando la medida en la clase 16 20 localizada en los
8.5
10
de la
clase. Como el ancho de cada clase es C = 5, para encontrar el valor aproximado de
la mediana M
e
solo necesitamos sumar
8.5
10
del ancho C = 5 a la frontera inferior de
la cuarta clase. As el valor aproximado de la mediana es:
M
e
= 15.5 +
_
8.5
10
_
5 = 15.5 + 4.25 = 19.75
Moda
La formula es
M
o
= LRI +
_

1

1
+
2
_
C (2.13)
donde
1
exceso de F antes de la clase modal (Frecuencia modal menos la frecuencia
antes de la frecuencia modal),
2
exceso de F despues de la clase modal (Frecuencia
modal menos la frecuencia despues de la frecuencia modal).
La clase modal es el intervalo de clase que contiene al mayor n umero de observa-
ciones.
Desviacion media
Se dene como la desviacion promedio de los valores absolutos de las desviaciones de
los datos de una variable con respecto a su media, su formula es la siguiente:
D.M. =

| x x | F
N 1
(2.14)
Tabla 2.8:
48 Estadstica descriptiva
donde x es la marca de la clase, x es la media aritmetica, F es la frecuencia y N es
el total de datos.
La varianza
Se dene como la suma de los cuadrados de las desviaciones de las observaciones con
respecto a la media, dividida entre el total de datos N 1
S
2
=

| x x |
2
F
N 1
(2.15)
Desviacion estandar
Es la desviacion promedio de los datos de una distribucion respecto a su media. La
desviacion estandar es simplemente la raz cuadrada de la varianza.
S =
_

| x x |
2
F
N 1
(2.16)
Ejemplo 2.7.3. Calcule las medidas descriptivas a partir de los datos agrupados de la
siguiente tabla.
Intervalo de Clase Frecuencia
85 89 9
90 94 11
95 99 14
100 104 20
105 109 27
110 114 22
115 119 19
120 124 16
125 129 12
N = 150
2.8 Ejercicios 49
2.8. Ejercicios
1. Los datos anotados en seguida representan los totales, en dolares, gastados en
golosinas por una muestra de 25 estudiantes durante un periodo de examenes.
57 28 63 38 29 89 77 72 39
47 64 84 88 42 36 72 69
68 41 52 39 72 45 52 84
Construya una tabla de frecuencia agrupada.
2. Los datos siguientes indican los pesos en libras rebajados por grupo de mujeres
en las dos primeras semanas de un programa de ejercicios diarios:
1 2 12 3 15 5 12 11 3 4
3 5 0 7 17 6 17 13 2 5
5 7 1 11 3 9 9 8 18 9
10 9 4 12 1 8 8 7 11 9
15 11 8 4 5 11 3 14 12 10
Use el conjunto de datos para cubrir los siguientes:
Construya una tabla de frecuencia agrupada con 5 clases.
Trace una ojiva usando frecuencias relativas y la tabla construida en el
punto anterior.
Graque un histograma de frecuencia con cinco barras usando la tabla ya
realizada.
Encuentre el ancho de la clase 10 20, donde los 10 y 20 son los lmites
de clase.
Si V
max
= 89.7 y V
min
= 32.1, n
0
= 5 y la unidad de medida es 0.1,
determine el lmite superior de la primera clase.
3. Se proponen 3 calicaciones para los salarios por hora de un artesano. Critique
usted cada una de las clasicaciones dadas a continuaci on:
50 Estadstica descriptiva
Clasicacion I Clasicacion II Clasicacion III
$ 0-3.00 $ 0-3.50 $ 0-menos de 3.00
3.00-6.00 3.51-7.00 4.00-menos de 7.00
6.00-9.00 7.01-10.00 8.00-menos de 11.00
9.00-12.00 10.01-15.00 12.00-menos de 15.00
12.00-15.00 mas de 15.00 mas de 15.00
4. La tabla 2.9 muestra una distribucion de frecuencias de los salarios semanales
de 65 empleados de la empresa P&R. De acuerdo con esta tabla, determine:
El lmite inferior de la sexta clase.
El lmite superior de la cuarta clase.
La marca de clase de la tercera clase.
Los lmites reales del quinto intervalo.
El tama no del quinto intervalo de clase.
La frecuencia de la tercera clase.
La frecuencia relativa de la tercera clase.
El intervalo de clase con mayor frecuencia.
El porcentaje de empleados que ganan menos de $280.00 a la semana.
El porcentaje de empleados que reciben por semana mas de $260.00, pero
menos de $300.00.
2.8 Ejercicios 51
Salarios N umero de empleados
$ 250.00-259.99 8
260.00-269.99 10
270.00-279.99 16
280.00-289.99 14
290.00-299.99 10
300.00-309.99 5
310.00-319.99 2
Total 65
Tabla 2.9: Distribucion de frecuencia de salarios semanales.
5. Como control de la etica publicitaria se requiere que el rendimiento, en mi-
llas por galon de gasolina, que los fabricantes de automoviles usan con nes
publicitarios, este basado en un buen n umero de pruebas efectuadas en diver-
sas condiciones. Al tomar una muestra de n = 50 automoviles se registran las
siguientes observaciones en millas por galon:
27.9 29.3 31.8 22.5 34.2 33.5 30.5 30.6 35.1 28.6
34.2 32.7 26.5 26.4 31.6 30.1 30.3 29.6 31.4 32.4
35.6 31.0 28.0 33.7 32.0 28.7 30.4 31.3 32.7 30.3
28.5 27.5 29.8 31.2 28.7 30.5 31.3 24.9 26.8 29.9
30.0 28.7 33.2 30.5 27.9 31.2 29.5 28.7 23.0 30.1
Construya un histograma de frecuencias relativas usando 5 intervalos de
clase de la misma longitud.
Los fabricantes arman que su automovil esta dise nado para rendir al
menos 30 millas por galon. Que porcentaje de autos en la muestra produce
este rendimiento?.
52 Estadstica descriptiva
6. Las calicaciones nales en matematicas de 80 estudiantes universitarios son las
siguientes:
68 84 75 82 68 90 62 88 76 93
73 79 88 73 60 93 71 59 85 75
61 65 75 87 74 62 95 78 63 72
66 78 82 75 94 77 69 74 68 60
96 78 89 61 75 95 60 79 83 71
79 62 67 97 78 85 76 65 71 75
65 80 73 57 88 78 62 76 53 74
86 67 73 81 72 63 76 75 85 77
Encuentre:
La calicacion mas alta.
La calicacion mas baja.
El rango.
Las cinco calicaciones mas altas.
Las cinco calicaciones mas bajas.
La calicacion del alumno que obtuvo el decimo lugar mas alto.
El n umero de estudiantes con calicaciones de 75 o mas.
El n umero de estudiantes con calicaciones menores que 85.
El porcentaje de estudiantes con calicaciones mayores que 65, pero menores
a 85.
7. La tabla 2.10 muestra la distribucion de frecuencias del n umero semanal de mi-
nutos que pasan viendo la television 400 estudiantes de secundaria. Determine:
El lmite superior de la quinta clase.
El lmite inferior de la octava clase.
La marca de la septima clase.
2.8 Ejercicios 53
Los lmites reales de la ultima clase.
El tama no de los intervalos de clase.
La frecuencia de la cuarta clase.
La frecuencia relativa de la sexta clase.
El porcentaje de estudiantes cuyo tiempo semanal de ver la television no
excede de 600 minutos.
El porcentaje de estudiantes cuyo tiempo semanal de ver la television es
mayor o igual de 900 minutos.
El porcentaje de estudiantes cuyo tiempo de ver la television es mayor de
500 minutos, pero menor que 1000 minutos.
Construir un histograma de frecuencias correpondiente a la distribucion de
la tabla 2.10.
Tiempo de ver TV (min.) N um. de estudiantes
300-399 14
400-499 46
500-599 58
600-699 76
700-799 68
800-899 62
900-999 48
1000-1099 22
1100-1199 6
Tabla 2.10: Distribucion de frecuencia.
8. Con la siguiente lista de n umeros realiza la tabla de distribucion de frecuencias,
54 Estadstica descriptiva
calcula las medidas de tendencia central y las medidas de dispersion.
3.32 3.98 3.23 3.07 3.04 3.85 3.59
3.42 3.89 3.40 3.15 3.49 3.61 3.41
3.05 3.81 3.39 3.54 3.28 3.84 3.34
3.49 3.74 3.00 3.10 3.76 3.71 3.29
9. Con la siguiente lista de n umeros realiza la tabla de distribucion de frecuencias,
calcula las medidas de tendencia central y las medidas de dispersion.
4.32 3.26 4.18 5.21 4.26 8.25
5.16 5.20 4.98 4.48 3.58 4.32
4.96 5.27 4.16 4.29 4.56 5.36
6.28 3.96 5.44 5.36 4.84 5.36
4.72 4.12 5.13 5.65 4.16 5.17
10. Con la siguiente lista de n umeros realiza la tabla de distribucion de frecuencias,
calcula las medidas de tendencia central y las medidas de dispersion.
52 63 92 92 83 74 66
98 68 81 88 77 41 60
46 77 81 82 84 70 76
79 98 82 81 87 70 78
79 88 77 84 70 61 80
78 76 66 77 78 67
11. Calcule la media, la mediana y la moda para cada una de las muestras siguientes:
a) 3, 9, 12, 7, 16, 20, 33, 3
b) 5, 7, 22, 17, 5, 7, 20
c) 8, 6, 0, 17, 12, 7, 5
d) 4, 0, 13, 9, 4, 14, 20, 15
2.8 Ejercicios 55
12. Calcule la media, la mediana y la moda para cada una de las muestras siguientes:
a) 0, 0, 1, 1, 1, 0, 0, 0
b) 3, 3, 3, 2, 2, 2, 4, 5, 3
c) 0, 1, 1, 2, 2, 3, 3, 4, 4
d) 1, 0, 0, 0, 1, 2, 2, 3
13. Un instructor borra accidentalmente la calicacion de uno de sus 6 estudiantes;
las 5 calicaciones restantes son 76, 85, 43, 89 y 65, y la media de las seis es 70.
Encuentre la calicacion que se borro.
14. En un esfuerzo por reducir su consumo de cafe, un trabajador de ocina registra
los n umeros siguientes de tazas de cafe consumidas durante un periodo de 20
das:
4 5 3 6 7 1 2 3 0 5
6 5 8 4 0 2 3 7 5 6
Que medida de tendencia central le servira mejor a su proposito?Cu al es el
valor numerico?.
15. A continuaci on hay una coleccion de calicaciones del examen de Estadstica
de 25 estudiantes, en un examen de 50 preguntas
38 39 33 37 34 31 38 36 35 5
Cual medida de tendencia central es mas util para describir el valor cen-
tral?Cual es su valor numerico?.
16. En una investigaci on realizada por la secretaria de un medico para averiguar los
tiempos de espera en minutos de los pacientes que acuden con el doctor, una
muestra de pacientes de un da arrojo los resultados:
35 25 35 50 25 55 30 50 35 35
5 5 60 35 30 30 25 55 30 20
60 25 25 40 80 20 20 5 5 10
56 Estadstica descriptiva
a) Describa un tiempo tpico de espera usando la media.
b) Describa un tiempo tpico de espera usando la mediana.
c) Cual medida, media o mediana, considera usted que es mas representativa
del conjunto de datos? Explique.
17. La tabla siguiente contiene los salarios en cientos de dolares de 25 trabajadores.
Salario anual Frecuencia
55 7
60 5
70 6
80 4
300 3
a) Cual es la moda?
b) Cual es la media?
c) Cual es la mediana?
18. Se escogio una muestra de 705 conductores de autob us y se registro en la tabla
siguiente el n umero de accidentes de transito que tuvieron durante 4 a nos.
N umero de accidentes Frecuencia N umero de accidentes Frecuencia
0 114 6 21
1 157 7 7
2 158 8 6
3 115 9 1
4 78 10 3
5 44 11 1
2.8 Ejercicios 57
a) Cual es la moda?
b) Se nale la media, la mediana.
c) Cual es el rango?
19. La tabla siguiente da una muestra de los tiempos de recorrido, en minutos, de
un camino de 2.5 millas para dos coches, A y B.
A 1.0 0.9 1.0 0.8 0.9 1.0 0.9 1.0
B 1.3 1.3 1.0 0.9 1.1 0.9 1.4 1.3
a) Encuentre el promedio de los tiempos de recorrido para cada uno de los
coches, A y B.
b) Calcule la varianza de los tiempos de recorrido para A y B, respectivamente.
c) Cual coche tuvo un tiempo promedio menor de recorrido?
d) Que coche tuvo un desempe no mas consistente, si la consistencia se mide
por la varianza?
20. La tabla adjunta indica los salarios anuales, en dolares, para una muestra de 25
trabajadores.
Salario anual Frecuencia
$5,500 7
6,000 5
7,000 6
8,000 4
30,000 3
Encuentre el rango, la media, la desviacion estandar.
58 Estadstica descriptiva
21. Una gran lechera vigila continuamente el nivel de contenido graso en su produc-
to; el porcentaje de grasa no debe desviarse mucho del 2 % de la leche, siendo
aceptable una desviacion estandar del 10 %; se obtuvo una muestra de 20 car-
tones de leche y se registro el porcentaje de grasa en cada uno. Los resultados
se anotan a continuaci on.
1.85 2.25 2.01 1.90 1.97
1.80 2.05 2.23 1.65 1.86
2.02 2.09 2.04 2.07 2.14
1.93 2.08 2.17 1.91 1.93
Calcule la media y la desviacion estandar para la muestra de contenidos de grasa.
Hay evidencia de que el contenido de grasa es demasiado alto? Explique.
22. La tabla de frecuencias agrupadas exhibe las edades de una muestra de 36
personas asistentes a una pelcula para adultos.
Clase F
8-13 2
14-19 7
20-25 13
26-31 5
32-37 9
Encuentre la media, mediana, moda, varianza y desviacion estandar.
23. La tabla de frecuencia agrupada adjunta indica las edades de compradores de
coches nuevos en una gran distribuidora.
2.8 Ejercicios 59
Clase de edades F
28-32 20
33-37 23
38-42 71
43-47 45
48-52 26
Encuentre la edad media, mediana, moda, varianza y desviacion estandar.
60 Estadstica descriptiva
Autoevaluacion
Nombre:
1. Dene Estadstica.
2. Cual es la diferencia entre una poblacion y una muestra?.
3. Cual es la diferencia entre las variables discretas y continuas?. De un ejemplo
de cada una.
4. Que es la estadstica y para que la estudiamos?
5. Cual es la diferencia entre una variable cualitativa y una cuantitativa?. De dos
ejemplos de cada una.
En los siguientes elige la respuesta correcta y subraya.
6. Es una ciencia que analiza series de datos y trata de extraer conclusiones sobre
el comportamiento de estas variables.
a) La estadstica descriptiva b) La estadstica inferencial c) El muestreo
7. Es la representacion estructurada, en forma de tabla, de toda la informacion
que se ha recogido sobre la variable que se estudia.
a) La distribucion de frecuencia b) La muestra c) La estadstica descriptiva
8. Son las medidas que nos informan sobre los valores medios de la serie de datos.
a) Las MTC b) Las MD c) Las variables.
9. Son las medidas que estudian la distribucion de los valores de la serie, analizando
si estos se encuentran mas o menos concentrados, o mas o menos dispersos.
a) Las MTC b) Las MD c) Las variables.
10. Es el valor medio ponderado de la serie de datos.
a) La media b) La mediana c) La moda
2.8 Ejercicios 61
11. Es el valor de la serie de datos que se sit ua justamente en el centro de la muestra.
a) La media b) La mediana c) La moda
12. Mide la distancia existente entre los valores de la serie y la media. Se calcula
como sumatoria de las diferencias al cuadrado de cada valor y la media, mul-
tiplicadas por el n umero de veces que se ha repetido cada valor. La sumatoria
obtenida se divide por el tama no de la muestra.
a) La varianza b) La desviacion media c) La desviacion estandar
13. Calcule la media, mediana y moda para cada uno de los siguientes:
a) 12 15 23 7 12 40 22 16
14. La tabla siguiente contiene los salarios en cientos de pesos, de 25 trabajadores.
Salario anual 55 60 70 80 300
Frecuencia 7 5 6 4 3
a)Cual es la media?, b)Cual es la moda?, c)Cual es la mediana?, d)Que
medida de tendencia central usara para determinar el valor central?. Explique.
15. Se inspeccionaron 15 radios antes de enviarlos para su venta. El n umero de
defectos por radio es: 1, 0, 3, 4, 2, 1, 0, 3, 1, 2, 0, 1, 1, 0, 1. Obtenga: x, M
e
y M
o
para el n umero de defectos.
16. La generacion de energa resulta costosa para el gobierno federal. Con el n de
ahorrar por ese concepto, se han propuesto diferentes estrategias, entre ellas
destacan los mensages a la poblacion para que economicen energa apagando
los focos que no esten utilizando o cambiando los focos convencionales por aho-
rradores. Entre las medidas adoptadas por los gobiernos esta el uso del horario
de verano. Para contar con una idea mas clara sobre el consumo de energa en
los hogares, se requiere de la informacion correspondiente. Para obtenerla, se
pidio a un grupo de 40 alumnos que cada uno de ellos llevara a la clase su ultimo
62 Estadstica descriptiva
recibo de luz. En la facturacion aparece el consumo en KWh. A continuaci on
se muestran los 40 consumos:
299 308 335 330 317 330 327 346 315 320 301 312 320 334
319 314 309 326 314 311 322 325 300 322 312 307 311
322 298 308 312 336 314 312 328 305 315 301 327 324
a) Hacer una tabla de distribucion de frecuencias usando 8 clases.
b) Trazar un histograma de F
r
, un polgono de frecuencias y de acuerdo a
estos dos ultimos, diga en cuantos hogares se consumen menos de 310
KWh y a que porcentaje corresponde. Se nale estos datos en las gracas
correspondientes.
17. Considere la tabla de frecuencia agrupada siguiente:
Clases F
4.5-9.4 2
9.5-14.4 3
14.5-19.4 4
19.5-24.4 1
24.5-29.4 8
a) Encuentre la amplitud C de cada clase.
b) Las 5 marcas de clase.
c) Localice las fronteras reales para la primera clase.
d) Que porcentaje hay de datos mayores que 19.45?.
e) Y de los datos menores de 24.5?.
f) Que tanto por ciento cae en la clase 14.5 19.4?.
2.8 Ejercicios 63
18. Se realizo un experimento para determinar el efecto de un cierto
farmaco en los niveles de colesterol en la sangre, en
mg
100 ml
, en hom-
bres de 30 a nos. Se obtuvieron las siguientes medidas:
245 185 230 225 265 210 235 145 195 215
245 165 195 170 205 225 190 220 210 195
160 240 285 175 260 225 120 185 140
a) Hacer una distribucion de frecuencias con 10 clases
b) Trazar un histograma de F
r
.
19. Los datos que a continuacion se exhiben representan las razones de
costo benecio para 25 distintos tipos de acciones de mercado de
valores.
20.5 15.4 16.9 13.4 8.8 19.5 12.7 7.8 14.3 22.1 15.6 5.4 23.3
19.2 20.8 24.1 17.0 11.8 9.2 12.6 9.9 28.6 18.4 16.8 15.9
a) Construya un histograma de frecuencias relativas para describir estos datos.
b) Que proporcion de las acciones tienen tasas de costo-benecio de 17.0 o
mayores?.
Captulo 3
Muestreo
3.1. Introduccion
En multitud de ambitos de la vida real es evidente que la mejor forma de aprender
algo es a partir de la experiencia. Eso quiere decir que solemos utilizar aquello que
vemos para aprender pautas y conductas que luego generalizamos. En Estadstica
pasa algo muy similar: necesitamos basarnos en muestras de una variable para poder
aprender de ellas y generalizar, inferir, aspectos referentes a las muestras a toda la
poblacion. Sin embargo, como en la vida real, en Estadstica tambien debemos ser muy
cuidadosos con los datos sobre los que basamos nuestro aprendizaje. Que pasara si
basamos nuestro aprendizaje en experiencias incorrectas o poco signicativas? Para
que esto no ocurra debemos basarnos en muestras donde todos los individuos de la
poblacion puedan verse representados. Por otra parte, es evidente que cuanto mayores
sean las muestras mas ables deberan ser nuestras inferencias.
Ahora bien, el principal objetivo de la estadstica es hacer inferencias acerca de una
poblacion con base en la informacion contenida en una parte o muestra de ello. El ob-
jetivo principal de un dise no de muestreo es proporcionar indicaciones para la seleccion
de una muestra que sea representativa de la poblacion bajo estudio, proporcionando
as una cantidad especicada de informacion a un costo mnimo.
Los terminos usados frecuentemente en inferencia son:
3.1 Introduccion 65
1) Par ametros de una poblacion: Un parametro es una medida usada para describir
algunas caractersticas de una poblacion de estudio o variable especca de una
poblacion de estudio. Por ejemplo,
El ingreso promedio de las familias que habitan en Tabasco.
El porcentaje de mujeres que hay en una ciudad.
El n umero de familias con vehculos.
El porcentaje de personas diabeticas.
2) Estadsticos: Son las medidas usadas para describir algunas caractersticas de la
muestra tal como la media, mediana o desviacion estandar de una muestra.
3) Poblaci on de estudio: Es el conjunto universal de elementos que tienen en com un
la variable de interes (parametro) para el estudio. Dependiendo del parametro
que se quiere investigar se determina la poblacion de estudio. Si la poblacion
de estudio es uniforme en las caractersticas que seran medidas, entonces casi
cualquier muestra produce resultados aceptables.
Por ejemplo, una agencia para la proteccion del medio ambiente basa su diag-
nostico de la calidad del agua de una ciudad en el analisis de algunos litros de
agua. Esto es posible debido a que se supone que una gota de agua contiene
aproximadamente la misma cantidad de impurezas que otra.
Las poblaciones de estudio se clasican en homogenea y heterogenea.
PEHo: Los datos numericos de los elementos de la poblacion no estan muy
dispersos, es decir, los datos son parecidos.
PEHe: Es el conjunto universal de elementos cuyos datos con respecto a una
variable auxiliar numerica estan muy dispersos. Por ejemplo:
La poblacion de predios agrcolas.
El ingreso economico de las familias de la ciudad.
66 Muestreo
El n umero de empleados de un centro de trabajo.
Hay dos formas de generar informacion estadstica
1) Censo: Es un inventario (o registro) de todos y cada uno de las unidades (elemen-
tos) que constituyen una poblacion.
2) Muestreo: Es un metodo probabilstico que consiste en investigar una porcion de
la poblacion de estudio.
Se podra pensar que la unica forma de garantizar que un conjunto de datos represente
a la poblacion es a traves del censo pues se registra a cada elemento de la poblacion.
Entonces porque llevar a cabo investigaciones muestrales en lugar de censos comple-
tos?.
3.2. Muestra y censo
3.2.1. Ventajas y desventajas del censo
Ventajas
Se obtiene informacion completa de todos los parametros posibles que se deseen
conocer, es decir, los parametros son ilimitados.
Muy util cuando se tiene poblaciones peque nas
Si existe mucha variabilidad entre los elementos de la poblacion, puede ser
necesario considerar una muestra muy grande para obtener una que sea repre-
sentativa. Si la poblacion no es mas grande que la muestra, entonces es mejor
un censo.
Si se requiere exactitud completa.
Ejemplo 3.2.1. Un gerente bancario no tomara una muestra al azar del dinero
en las cajas para saber de cuanto efectivo dispone el banco, sino que contara
3.2 Muestra y censo 67
todo el dinero depositado en ellas. Esto no hace que no se cometan errores
y fallas aritmeticas al sumar las cantidades, pero evita los problemas que se
presentaran si se tomara alguna caja como representativas de todas las demas.
Desventajas
Es muy costoso.
Los resultados nales se tienen a largo plazo. Por esta razon la informacion
estadstica ya no es oportuna para la toma de desiciones adecuada.
No se puede contar con un equipo de trabajo altamente capacitado porque en
el participan miles de personas.
No se puede conocer la dimension del error que se comete en los registros de los
datos.
Es imposible hacer una supervision a un alto porcentaje de las unidades o
elementos censados.
La poblacion es innita. En este caso es imposible efectuar un censo ya que
es un proceso que no termina y sera evidentemente imposible examinar cada
elemento de la poblacion.
3.2.2. Ventajas y desventajas del muestreo
Ventajas
Resultados a corto plazo lo cual es oportuno para la toma de desiciones.
Ejemplo 3.2.2. En el tiempo que se necesita para examinar cada caja de un
cargamento de fresas frescas, la fruta se podra deteriorar hasta el punto que no
pudiera venderse.
Ejemplo 3.2.3. Encuestar personas de una gran comunidad para descubrir el
porcentaje de individuos que contrajeron cierta enfermedad contagiosa puede
68 Muestreo
tardarse tanto que, cuando se obtengan los resultados y se tomen las medidas de
sanidad convenientes, el padecimiento puede haberse extendido en tal grado que
sera necesario tomar otras disposiciones. De hecho, los encuestadores pueden
ser un factor que contribuya a la propagacion de la enfermedad. As, el estudio
puede indicar que localmente se dispone de suciente vacuna para hacer frente
a la enfermedad pero, para ese momento, esta se encontrar a fuera de control y
requerira dosis masivas de la vacuna.
Investigaci on practica y a bajo costo
Como el n umero de los participantes es peque no se puede contar con un equipo
altamente capacitado.
Se puede controlar el error que se comete en el registro de datos.
Alto porcentaje de investigacion.
Si el tama no de la muestra es mas peque no que la poblacion, entonces se pueden
extraer dos muestras o mas.
Pueden intervenir ensayos destructivos.
Ejemplo 3.2.4. Cuando los datos se obtienen de la destruccion de los elementos
de la muestra, el muestreo es mas eciente que un censo.
En control de calidad por ejemplo, la prueba de bombillas para ash es de tipo
destructivo. En este caso es indispensable el muestreo porque un censo destruira
todos los elementos de la poblacion y no habra artculos para la venta.
Exactitud cuando la poblacion es grande. El muestreo comprende menos obser-
vaciones, y por lo tanto, menos recopiladores de datos, lo que puede dar lugar
a mayor uniformidad en los metodos de recopilacion.
Desventajas
Solo se puede conocer un n umero limitado de parametros.
3.2 Muestra y censo 69
En ocasiones no se cuenta con una poblacion completa de los elementos de
estudio.
Si se requiere de exactitud completa no es muy util.
Para que las conclusiones de la teora del muestreo sean validas es necesario que las
muestras sean representativas y que se satisfaga:
El tama no de la muestra sea sucientemente grande.
La muestra debe ser seleccionada aleatoriamente. Es decir, cada miembro de la
poblacion debe tener la misma posibilidad de ser elegido.
Una muestra aleatoria se selecciona de forma que toda combinaci on de n mediciones
de la poblacion tenga la misma posibilidad de ser seleccionada.
Una tecnica de obtencion de una muestra aleatoria es la asignacion de n umeros a tro-
zos de papel, colocarlos en una urna y despues sacar n umeros de dicha urna teniendo
cuidado de mezclar bien antes de cada extraccion.
Tipo de seleccion de los elementos de una muestra
1) Con reemplazo: Consiste en que una vez que se ha seleccionado de manera aleatoria
un elemento, esta se regresa a la poblacion. Se observa que un elemento en com un
puede ser seleccionado mas de una vez para la muestra y es posible que un solo
elemento contribuya a la muestra.
Ejemplo 3.2.5. Un n umero en una urna, existe la opcion de reponer o no el
n umero en la urna antes de la segunda extraccion. En esta caso el n umero
puede salir una y otra vez.
Poblaci on de estudio de tama no N.
1ra 2da 3ra 4ta (n 1) n
1
N
1
N
1
N
1
N

1
N
1
N
70 Muestreo
Entonces, la posibilidad de seleccionar aleatoriamente n elementos con reem-
plazo de una poblacion de estudio de tama no N es
_
1
N
_
n
=
1
N
n
.
2) Sin reemplazo: Los elementos que se seleccionan sin reemplazo de una poblacion
de estudio consiste en que una vez que se mide un elemento esta ya no se regresa
al conjunto.
Ejemplo 3.2.6. En el caso de la urna, el n umero solo sale una vez.
1ra 2da 3ra 4ta (n 1)
1
N
1
N 1
1
N 2
1
N 3

1
N (n 1)
Las poblaciones son nitas o innitas. Si el muestreo es sin reemplazo entonces es
de poblacion nita, pues el conjunto disminuye y la probabilidad de seleccion del
siguiente elemento aumenta. Si es con reemplazo teoricamente puede considerarse
como muestreo de poblacion innita ya que es posible extraer cualquier n umero de
muestras sin extinguir la poblacion.
Ejemplos de poblacion innita son: la produccion futura de una maquina, tiradas
de una moneda y dados no cargados. Ejemplos de procesos aleatorios son: llegadas
de autos a una caseta de cobro, llamadas telefonicas que se reciben en un enorme
conmutador, los clientes en las cajas de los supermercados.
Otra forma de seleccionar una muestra aleatoria es mediante una tabla de n umeros
aleatorios.
3.3. Tabla de n umeros aleatorios
En esta seccion se describira la forma de llevar a cabo una encuesta por muestreo con
base en una muestra aleatoria simple.
Denicion 3.3.1. Al seleccionar una muestra de n mediciones de una poblacion
nita de N mediciones, si el muestreo se lleva a cabo de forma que todas las muestras
3.3 Tabla de n umeros aleatorios 71
posibles de tama no n tengan la misma probabilidad de ser seleccionadas, el muestreo
se llama aleatorio y el resultado es una muestra aleatoria simple.
En la practica es muy difcil lograr un muestreo aleatorio perfecto. Si la poblacion no
es muy grande, cada una de las N mediciones se puede anotar en un pedazo de papel
que se coloca en una urna. Posteriormente se extrae de la urna una muestra aleatoria
de n mediciones.
La mejor manera de estar seguros de efectuar un muestreo aleatorio es usar una
tabla de n umeros aleatorios. Las tablas de n umeros aleatorios contienen los 10 dgi-
tos 0, 1, 2, . . . , 7, 8, 9. Tales dgitos se pueden leer individualmente o en grupos y en
cualquier orden, en columnas hacia abajo, columnas hacia arriba, en la, diagonal-
mente, etc., y es posible considerarlos como aleatorios. Las tablas se caracterizan por
dos cosas que las hacen particularmente utiles para el muestreo al azar. Una carac-
terstica es que los dgitos estan ordenados de tal manera que la probabilidad de que
aparezca cualquiera en un punto dado de una secuencia es igual a la probabilidad
de que ocurra cualquier otro. La otra es que las combinaciones de dgitos tienen la
misma probabilidad de ocurrir que las otras combinaciones de un n umero igual de
dgitos.
En el siguiente ejemplo se ilustra el uso de una tabla de n umeros aleatorios.
Ejemplo 3.3.1. Para las empresas es sumamente inportante tener una administracion
adecuada de los ujos de efectivo para presupuestar y controlar en forma eciente
sus recursos presentes y futuros. Cuando los ujos de efectivos son altos, la empresa
puede adquirir inventarios y bienes de capital en forma inmediata, aprovechando las
rebajas de precio que ofrecen los proveedores. Cuando hay escasez de efectivo, no es
posible comprar al contado y es necesario pagar mas por bienes y servicios.
Una de las mejores maneras de medir la situacion de una compa na de ventas al
menudeo, en lo que se reere a efectivo, es a traves de las cuentas por cobrar a corto
plazo que tiene la empresa. Al analizar la situacion de una tienda, una rma de con-
tadores decide seleccionar una muestra aleatoria simple de n = 15 cuentas mensuales
72 Muestreo
por cobrar de la N = 1000 cuentas de la tienda, para estimar la cantidad total venci-
da en todas las cuentas por cobrar. Se sabe que para obtener una muestra aleatoria
simple se requiere que todas las muestras posibles de n = 15 cuentas tengan la misma
probabilidad de ser seleccionadas. Usando la tabla 3.1, se determinara cuales son las
cuentas que seran incluidas en la muestra de tama no n = 15.
Solucion:
Se puede pensar que las N = 1000 cuentas por cobrar estan numeradas como sigue:
001, 002, . . . , 999, 000. Es decir, se tienen 1000 n umeros de tres dgitos, donde 001
representa la primera cuenta, 999 la cuenta n umero 999 y 000 la cuenta n umero mil.
En la tabla 3.1 se elige un punto de partida arbitrario. Si el punto de partida es el
primer n umero de la quinta columna y se eliminan el ultimos dgito de cada n umero
de cuatro, se vera que el primer n umero de tres dgitos que se obtiene es el 700, el
segundo 110, en tercero el 40, etc. Si un n umero aleatorio ocurre dos veces, se omite
la segunda ocurrencia y se selecciona otro n umero aleatorio para reemplazarlo. Al
tomar una muestra aleatoria que consista en los primeros 15 n umeros de tres dgitos
no repetidos de la columna 5, se obtienen los siguientes n umeros:
700 078 761
110 795 545
040 513 506
995 250 034
915 957 624
Si las cuentas por cobrar estan numeradas, simplemente se escogen aquellas cuyos
n umeros corresponden a los de la lista anterior y se forma la muestra de n = 15 de
las N = 1000 cuentas por cobrar. Si las cuentas por cobrar no estan numeradas, se
toma una lista de ellas y se seleccionan aquellas cuyo orden coincide con los n umeros
obtenidos anteriormente.
En el ejemplo 3.3.1, el tama no de la poblacion N = 1000 hizo posible el asociar en
forma unica cada elemento de la poblacion con un n umero diferente de tres dgitos.
3.3 Tabla de n umeros aleatorios 73
Que se puede hacer si N = 964? Esta claro que se pueden asociar los n umeros de
tres dgitos 001, 002, . . . , 964 con los elementos de la poblacion. Los n umeros de tres
dgitos que restan, 965, 966, . . . , 999, 000. Deben ignorarse al seleccionar la muestra
de n n umeros de tres dgitos de la tabla de n umeros al azar.
en ocasiones el experimentador usa su propio criterio para seleccionar una muestra
representativa o emplea procedimientos intuitivos para seleccionar la muestra en for-
ma aleatoria. Ambos procedimientos estan sujetos al sesgo del experimentador y
deben evitarse cuando se desea obtener una muestra aleatoria simple.
74 Muestreo
9869 8728 0368 4431 7002 5030 2227 0479 6343
6339 6518 5946 3213 1109 1313 3450 8522 0293
7643 4939 0996 4039 0400 4453 4430 3263 4107
3661 6244 3738 8889 9959 4514 1236 6241 2889
3802 6424 2819 2820 9158 1249 5365 9601 5421
7456 8278 4622 1342 0784 4285 1249 0238 8195
9015 9975 5045 7059 7958 9806 9754 5941 4796
9891 0292 2203 2661 5130 3766 4364 9713 2171
5943 4287 6682 0697 2509 6664 0303 1635 5072
0515 6671 9202 6750 9579 8805 9213 5242 9971
8222 6702 7366 2906 7615 8908 8480 0654 5960
5000 7560 0966 8264 5457 4426 4762 3986 0510
2590 8247 8506 5768 5069 2032 5654 7557 5502
0473 8236 0827 0574 0349 8170 1543 9000 7482
6937 2597 8681 2096 6247 1383 3437 2588 5284
5158 7530 5320 3511 7314 5708 2709 2387 6091
2310 0964 4722 7120 6271 5957 0280 4955 6849
1786 0971 5708 4059 9337 5967 3091 9742 1162
4308 6633 6767 9898 4654 8966 0897 8079 4353
6171 7594 6443 2396 4173 7014 8416 5544 6123
3868 6313 4085 4719 0566 7105 9903 7031 5643
9874 3122 7417 8464 7114 8828 8576 4743 9959
3173 8599 5281 6337 4298 8768 3089 8776 6610
7808 9715 0093 9837 0300 4042 5759 7071 5572
0131 2852 0015 2708 8486 0070 3609 9647 3977
4950 7115 2338 0984 0321 9763 8976 2102 7253
6071 5446 7233 4295 4168 0254 0279 1792 5917
Tabla 3.1: Tabla de n umeros aleatorios.
3.4 Estimacion basada en una muestra aleatoria simple 75
3.4. Estimacion basada en una muestra aleatoria
simple
La seleccion de una muestra aleatoria simple, es el mas simple de los dise nos de
encuestas, fue presentada en la seccion 3.3. Una vez recolectadas las observaciones
muestrales, el siguiente objetivo consiste en la estimacion de ciertos parametros pobla-
cionales de interes. Frecuentemente se tiene interes es estimar la media poblacional
o el total poblacional (letra griega tau). Por ejemplo, la rma de contabilidad del
ejemplo 3.3.1 podra estar interesada en el valor promedio de las cuentas por cobrar
y tambien en el valor total de las cuentas.
Las formulas de calculo para estimar la media poblacional y el total poblacional ,
basados en un muestreo aleatorio simple, se presentan mas adelante. Es importante
aclarar que una estimacion puntual, como y , no proporcionan informacion acerca
de la bondad de la estimacion. Por lo tanto, se dan las formulas de la varianza con el
proposito de establecer cotas para el error de estimacion de y .
Al usar muestreo aleatorio simple para estimar la media poblacional , se obtiene el
siguiente estimador:
Estimacion de la media poblacional para un muestreo aleatorio simple
Estimador
= y =
n

i=1
y
i
n
(3.1)
Varianza estimada del estimador

2
y
=
_
s
2
n
__
N n
N
_
con s
2
=
n

i=1
(y
i
y)
2
n 1
(3.2)
Cotas para el error de estimacion
y 2
y
(3.3)
Notese que la cantidad 2
y
es una cota aproximada del error de estimacion y solo
implica que al menos el 75 %, y muy posiblemente el 95 %, de las estimaciones se
76 Muestreo
desviaran de la media en menos de 2
y
. En el presente captulo se usara la cota de
dos desviaciones estandar para describir un intervalo de estimacion para y al usar
cada uno de los diferentes dise nos de muestreo.
Al usar muestreo aleatorio simple para estimar el total poblacional , se obtiene el
siguiente estimador:
Estimacion del total poblacional para una muestra aleatoria simple
Estimador
= N y (3.4)
Varianza estimada del estimador

2

= N
2

2
y
(3.5)
Cota para el error de estimacion
N y 2

(3.6)
Ejemplo 3.4.1. En la tabla 3.2 aparecen los saldos correspondientes a las cuentas de
una muestra de tama no n = 15 de la poblacion de cuentas por cobrar del ejemplo
3.3.1
$14.50 $23.40 $42.00
30.20 15.50 13.30
17.80 27.50 23.70
10.00 6.90 18.40
8.50 19.50 12.10
Tabla 3.2: Saldos de cuentas para el ejemplo 3.5.1
a) Estime el saldo promedio para las N = 1000 cuentas por cobrar de la tienda y
establezca una cota para el error de estimacion.
b) Estime el total de los saldos de todas las cuentas y establezca una cota para el
error de estimacion.
3.4 Estimacion basada en una muestra aleatoria simple 77
Solucion:
Para facilitar los calculos es conveniente escribir los datos como se muestran en la
siguiente tabla 3.3
y
i
y
2
i
$14.50 210.25
30.20 912.04
17.80 316.84
10.00 100.00
8.50 72.25
23.40 547.56
15.50 240.25
27.50 756.25
6.90 47.61
19.50 380.25
42.00 1764.00
13.30 176.89
23.70 561.69
18.40 338.56
12.10 146.41
15

i=1
y
i
= 283.30
15

i=1
y
2
i
= 6570.85
Tabla 3.3: Saldos de cuentas para el ejemplo 3.5.1
a) La estimacion del saldo promedio es
y =
15

i=1
y
i
15
=
283.30
15
= $18.89
78 Muestreo
Para encontrar una cota para el error de estimacion de , es necesario calcular
s
2
=
15

i=1
(y
i
y)
2
14
=
15

i=1
y
2
i

_
15

i=1
y
i
_
2
15
14
=
1
14
_
6570.85
(283.30)
2
15
_
=
1
14
[6570.85 5350.59] = 87.16
Por lo tanto, la varianza estimada de y es

2
y
=
_
s
2
n
__
N n
N
_
=
_
87.16
15
__
1000 15
1000
_
= 5.72
Una estimacion del saldo promedio , con una cota para el error de estimacion,
es
y 2
y
= $18.89 $4.78
b) Una estimacion del total de los saldos corresponde a
= N y = 1, 000($18.89) = $18, 890
Dado que la varianza estimada de es
2

= N
2

2
y
, una estimacion del total de
los saldos de las N = 1000 cuentas, con una cota para el error de estimacion,
corresponde a
2

= N y 2N
y
= $18, 890 2(1, 000)

5.72
= $18, 890 $4, 783
En algunas investigaciones experimentales puede ser de interes estimar la propor-
cion de la poblacion que posee determinada caracterstica. Un auditor podra estar
interesado en la proporcion de cuentas por cobrar atrasadas; un investigador de mer-
cados podra estar interesado en la proporcion del mercado que controla la empresa;
un ejecutivo corporativo puede estar interesado en la proporcion de accionistas que
esta a favor de una decision particular.
3.4 Estimacion basada en una muestra aleatoria simple 79
Estimacion de la proporcion poblacional para una muestra aleatoria simple
Estimador
p =
y
n
Varianza estimada del estimador

2
p
=
_
p q
n 1
__
N n
N
_
con q = 1 p
Cotas para el error de estimacion
p 2
p
En este caso y es el n umero total de los elementos de la muestra que tienen determi-
nada caracterstica por la cual se tiene interes.
Ejemplo 3.4.2. Es com un que las empresas manufactureras establezcan descuentos
durante periodos cortos de tiempo para convencer a sus clientes de que incrementen
y anticipen sus compras, mejorando as la situacion de la empresa en lo que se reere
a efectivo. Siguiendo la poltica anterior un fabricante y distribuidor de alimentos
congelados pretende establecer un descuento del 20 % en el precio de sus productos
para aquellos compradores que dupliquen sus pedidos mensuales.
Dado que el almacenaje de los alimentos congelados es muy costoso, no se tiene
la seguridad de que los compradores esten interesados en la oferta de descuento.
Se tomo una muestra de n = 50 de los N = 430 clientes de la empresa y 15 de
los 50 clientes manifestaron que aceptaran la oferta de descuento y duplicaran sus
pedidos mensuales. Estime la proporcion p de los N = 430 clientes de la compa na
que aceptaron la oferta, y determine una cota para el error de estimacion.
Solucion:
Una estimacion de la proporcion p de los clientes de la empresa que aceptaron la
oferta de descuento es
p =
y
n
=
15
50
= 0.30
80 Muestreo
Para establecer cota para el error de estimacion, es necesario calcular la varianza
2
p

2
p
=
_
p q
n 1
__
N n
N
_
=
_
(0.30)(0.70)
49
_ _
430 50
430
_
=
_
0.21
49
_
(0.88) = 0.003771
Una estimacion de p, con una cota para el error de estimacion, corresponde a
p 2
p
= 0.30 2

0.003771 0.30 0.12


Es decir, se estima que la proporcion de los clientes de la empresa que aceptaran la
oferta de descuento es 0.30, con una cota para el error de estimacion de 0.12.
Ejercicios
1. En vista de la crisis energetica y del n umero creciente de accidentes de carretera,
el Congreso de los Estados Unidos en 1974 aprobo una ley que establece un lmite
de velocidad de 55 mph en todas las carreteras del pas. Desde entonces, se han
producido gran cantidad de discusiones sobre la aceptacion de esta medida por
parte del p ublico. Para estudiar este problema, la polica de caminos del estado
de California decidio seleccionar aleatoriamente n = 25 vehculos que viajaban
en un determinado tramo de una carretera interestatal y medir sus velocidades.
Se encontr o que la velocidad promedio de los 25 vehculos fue de 57.5 mph con
una desviacion estandar de 9.4 mph. Estime la velocidad promedio de los
vehculos que viajan en esa carretera, y establezca una cota para el error de
estimacion.
2. Una agencia gubernamental ha propuesto que se esteblezca una reglamentaci on
para permitir a las farmacias que hagan publicidad sobre los precios al menudeo
de las medicinas. Esta reglamentaci on permitira la competencia de los medica-
mentos, permitiendo as a los comunicadores obtener los mejores precios posi-
bles. Para establecer el grado de disparidad de los precios que diferentes far-
macias de determinada zona cobran por un medicamento de uso com un, se
3.5 Muestreo aleatorio estraticado 81
selecciono una muestra aleatoria de n = 20 farmacias de las N = 152 de la
zona. El precio de 100 tabletas del medicamento en las farmacias seleccionadas
aparece en la lista adjunta
$3.75 $4.10 $10.40 $7.50 $2.95
5.75 7.50 8.90 4.75 11.75
5.85 7.65 8.10 6.50 7.50
5.50 8.00 4.50 10.25 4.95
Estime el precio promedio que las 152 farmacias cobran por 100 tabletas del
medicamento, y establezca una cota para el error de estimacion.
3. Suponga que una organizacion de trabajadores textiles esta interesada en deter-
minar la proporcion de los N = 352 trabajadores de una fabrica textil que estan
satisfechos con las prestaciones que reciben en lo que se reere a benecios de
jubilacion y seguro. Usando una tabla de n umeros aleatorios, un representante
de la organizacion selecciono n = 40 de los trabajadores y encontro que 23 de
ellos estan satisfechos con las prestaciones de seguro y jubilacion que la empresa
ofrece actualmente. Estime la proporcion p de los empleados de la empresa tex-
til que estan de acuerdo con las prestaciones que la empresa ofrece. Establezca
una cota para el error de estimacion.
3.5. Muestreo aleatorio estraticado
Un segundo tipo de dise no de muestreo, que frecuentemente proporciona una cantidad
especicada de informacion a menor costo que el muestreo aleatorio simple, es el
llamado muestreo aleatorio estraticado. Este dise no se recomienda cuando la
poblacion consiste en un conjunto de grupos heterogeneos (distintos).
Denicion 3.5.1. Una muestra aleatoria estraticada es una muestra aleatoria
que se obtiene separando los elementos de la poblacion en grupos disjuntos, llamados
estratos, y seleccionando una muestra aleatoria simple de cada estrato.
82 Muestreo
El muestreo aleatorio estraticado tiene tres ventajas importantes sobre el muestreo
aleatorio simple. Primera, frecuentemente el costo de recoleccion y el analisis de los
datos se reduce al estraticar en grupos cuyos elementos tienen caractersticas simila-
res pero que dieren de un grupo a otro. Por ejemplo, en una encuesta de compradores
industriales es mas costoso obtener informacion de aquellos que estan en el extranjero
que de los nacionales. Se debe, por lo tanto, tomar muestras peque nas de los estratos
con altos costos de muestreo para satisfacer el objetivo de minimizar el costo total de
muestreo.
La segunda ventaja esta relacionada con la varianza del estimador de la media pobla-
cional. Usualmente esta varianza se reduce usando muestreo aleatorio estraticado,
debido a que la varianza dentro de los estratos es generalmente menor que la variabili-
dad de la poblacion. Por ejemplo, el consumo de energa electrica es mas variable en el
caso de los consumidores industriales que en el de los consumidores residenciales. Por
lo tanto, si se desea estimar el consumo promedio de los usuarios de energa electrica,
deben seleccionarse muestras mayores de los sectores industriales menos homogeneos
para obtener mejores estimadores de los parametros poblacionales.
La tercera ventaja es que se obtienen estimadores separados para los parametros de
cada estrato, sin necesidad de seleccionar otra muestra e incurrir en mayores gastos.
Por ejemplo, podra ser de mayor utilidad el conocer el consumo promedio de energa
electrica de los usuarios industriales y de los usuarios residenciales de una ciudad,
que conocer unicamente el consumo promedio de todos los usuarios de esta ciudad.
El muestreo aleatorio estraticado permite analizar las diferencias entre estratos, de
manera que se pueden identicar mas facilmente aquellos grupos que requieren de
una mayor atencion.
En esta seccion se usara el procedimiento de ajacion proporcional, que parti-
ciona el tama no de la muestra en forma proporcional al tama no de los estratos. La
principal ventaja del uso de la ajacion proporcional es que se obtiene una muestra
auto-ponderada , dado que la fraccion de muestreo es la misma en cada estrato.
Cuando es necesario obtener muchos estimadores se producen ahorros en los costos de
3.5 Muestreo aleatorio estraticado 83
muestreo. En los casos en los que el costo de muestreo y las varianzas dieren mucho
entre estratos, es preferible utilizar una ajacion optima que particione la muestra de
acuerdo con el costo, la variabilidad y el tama no de los estratos.
El primer paso en la seleccion de una muestra aleatoria estraticada consiste en la
especicacion clara y detallada de cada estrato, asociando a cada elemento de la
poblacion con uno y solo un estrato. En algunos casos esto no es tan sencillo. En una
encuesta de opinion, en la que la poblacion se divide en urbana y rural, como deben
clasicarse las personas que viven en una unidad de 1000 habitantes?. En el ejemplo
sobre el consumo de energa, como debe clasicarse la residencia de un contador
cuya ocina esta en su propia casa?. La resolucion que se tome no afecta los resul-
tados siempre y cuando se tenga una poltica consistente al respecto. Por ejemplo,
podra establecerse que las poblaciones de menos de 2500 habitantes se consideran
siempre como rurales, y las de mas de 2500 como urbanas; las unidades comerciales-
residenciales pueden clasicarse seg un la actividad para la cual se ocupa una mayor
cantidad de espacio.
Una vez especicados los estratos, se puede usar el metodo de la seccion 3.3 para
seleccionar una muestra aleatoria en cada estrato. El tama no total de la muestra n
dependera del presupuesto disponible para el muestreo y de la presicion y exactitud
que se requieran del estimador. Usando ajacion proporcional, el tama no de muestra
n se particiona en un tama no de muestra para cada uno de los L estratos de forma que
n = n
1
+n
2
+ +n
L
, con cada n
i
dado por la formula que aparece a continuaci on.
Ajacion de la muestra para los estratos
n
i
= n
_
N
i
N
_
i = 1, 2, . . . , L
donde N
i
es el n umero de elementos del estrato i y
N =
L

i=1
N
i
84 Muestreo
es el tama no de la poblacion.
De la informacion obtenida de los elementos muestrales, se puede calcular la media
estimada y
i
y la varianza s
2
i
para las observaciones de cada estrato, usando las formulas
que aparecen a continacion.
Estimacion de la media y la varianza de cada estrato
y
i
=
n
i

j=1
y
ij
n
i
s
2
i
=
n
i

j=1
(y
ij
y
i
)
2
n
i
1
i = 1, 2, . . . , L
donde y
ij
es la j-esima observacion del estrato i.
La varianza s
2
i
es un estimador de la correspondiente varianza del estrato
2
i
.
A continuacion se dene el estimador y
est
de la media poblacional , basado en un
muestreo aleatorio estraticado.
Estimacion de la media poblacional para una muestra aleatoria estrati-
cada
Estimador
y
est
=
1
N
L

i=1
N
i
y
i
Varianza estimada del estimador

2
y
est
=
1
N
2
L

i=1
N
2
i
_
N
i
n
i
N
i
__
s
2
i
n
i
_
Cotas para el error de estimacion
y
est
2
y
est
3.5 Muestreo aleatorio estraticado 85
Ejemplo 3.5.1. En el periodo de 1973 a 1975 hubo una rapida disminucion en el
n umero de nuevas construcciones de viviendas en los Estados Unidos. La causa prin-
cipal de esta disminucion fue la escasez de fondos, en los bancos y otras instituciones
de ahorro, para prestamos hipotecarios. Para aumentar la disponibilidad de fondos
para prestamos hipotecarios, una gran compa na manufacturera instituyo polticas
para convencer a sus empleados que inviertan regularmente parte de sus ingresos en
las instituciones locales de ahorro. Posteriormente, la compa na decidio llevar a cabo
un estudio de los habitos de ahorro de sus empleados para juzgar la efectividad de la
campa na de ahorro de la empresa. Se desea estimar la cantidad promedio invertida
en ahorro por los empleados durante el ultimo mes. Proponga un dise no de encuesta
para este problema.
Solucion:
Los empleados de la empresa pueden clasicarse en tres grupos: ocinistas y obreros,
supervisores y gerentes, y ejecutivos de alto nivel. Una muestra aleatoria estratica-
da, con L = 3 estratos, parece ser el dise no mas apropiado en este caso. Se espera
que en cada uno de los estratos, los habitos de consumo e inversion de los empleados
sean razonablemente homogeneos. En cada uno de los estratos se debe seleccionar
una muestra aleatoria simple para preguntar a los empleados acerca de la cantidad
invertida en ahorros durante el ultimo mes.
La compa na manufacturera emplea un total de 5000 personas, de las cuales 3500 son
ocinistas y obreros, 1000 son supervisores o gerentes, y 500 son ejecutivos. El depar-
tamento de investigaci on tiene suciente tiempo y dinero para entrevistar unicamente
n = 50 empleados. Usando una ajacion proporcional, se particiona la muestra como
sigue:
n
1
= n
_
N
1
N
_
= 50
_
3500
5000
_
= 35
n
2
= n
_
N
2
N
_
= 50
_
1000
5000
_
= 10 y n
3
= n
_
N
3
N
_
= 50
_
500
5000
_
= 5
El marco muestral esta constituido por una lista alfabetica de los empleados de ca-
da categora, disponible en la ocina de nominas. Empezando arbitrariamente en
86 Muestreo
la columna 4 de la tabla de n umeros aleatorios 3.1, se seleccionan los primeros 35
n umeros no repetidos de cuatro dgitos entre 0000 y 3499 para identicar los ocinis-
tas y obreros que seran incluidos en la muestra. Por lo tanto, el primer elemento de la
muestra debe ser el ocinista u obrero que ocupa el lugar 3213 en el orden alfabetico,
el siguiente sera el que ocupa el lugar 2820, etc. En forma similar, se usan n umeros
de tres dgitos entre 000 y 999 para seleccionar la muestra de n
2
= 10 capataces y
gerentes y n umeros de tres dgitos entre 001 y 500 para seleccionar n
3
= 5 ejecutivos.
Una vez seleccionados los elementos muestrales (empleados), se procede con la entre-
vista. De las respuestas de los empleados, se calcula la media y
i
y la varianza s
2
i
de
las observaciones de cada estrato. Los valores obtenidos aparecen en la tabla 3.4
Estrato 1 Estrato 2 Estrato 3
n
1
= 35 n
2
= 10 n
3
= 5
y
1
= $10.16 y
2
= $25.50 y
3
= $21.80
s
2
1
= 16.81 s
2
2
= 22.09 s
2
3
= 125.44
N
1
= 3500 N
2
= 1000 N
3
= 500
Tabla 3.4:
A partir de los datos de la tabla 3.4 se estima la inversion promedio en ahorros y
est
como
y
est
=
1
N
L

i=1
N
i
y
i
=
1
5000
[(3500)(10.16) + (1000)(25.50) + (500)(21.80)]
=
1
5000
(71, 960) = $14.39
Por lo tanto, la cantidad promedio estimada que los empleados invirtieron en ahorros
es $14.39.
3.5 Muestreo aleatorio estraticado 87
La varianza estimada es

2
y
est
=
1
N
2
3

i=1
N
2
i
_
N
i
n
i
N
i
__
s
2
i
n
i
_
=
1
(5000)
2
_
(3500)
2
(0.99)(16.81)
35
+
(1000)
2
(0.99)(22.09)
10
+
(500)
2
(0.99)(125.44)
5
_
= 0.5688
La estimacion de los ahorros promedio, con una cota para el error de estimacion,
esta dada por
y
est
2
y
est
= $14.39 2

0.5688 = $14.39 2(0.75) = $14.39 $1.50


Si el objetivo de la encuesta es usar el muestreo aleatorio estraticado para estimar
el total poblacional , entonces el estimador es el siguiente.
Estimador del total poblacional para una muestra aleatoria estraticada
Estimador
= N y
est
Varianza estimada del estimador

2

= N
2

2
y
est
Cotas para el error de estimacion
2

Ejemplo 3.5.2. En el ejercicio 3.5.1, estime el total invertido en ahorros, el ultimo
mes, por los empleados de la compa na manufacturera. Establezca una cota para el
error de estimacion.
Solucion:
De los calculos anteriores y
est
= $14.39. Por lo tanto, un estimador del total de ahorros
es
= N y
est
= (5000)($14.39) = $71, 950
88 Muestreo
Para encontrar cotas para el error de estimacion de , se debe calcular la varianza
estimada
2


2

= N
2

2
y
est
= (5000)
2
(0.5688) = 14, 220, 000
La estimacion del total de ahorros, con una cota para el error de estimacion, esta dada
por
2

= $71, 950 2
_
14, 220, 000 = $71, 950 2(3, 771)
= $71, 950 $7, 542
Po lo tanto, hay una certeza del 95 % de que la inversi on total en ahorros de los
empleados esta contenida en el intervalo de $64, 410 a $79, 490.
Supongase que la empresa manufacturera esta interesada en estimar la proporcion
de empleados que invirtieron parte de los ingresos del ultimo mes en una cuenta de
ahorros. Usando los mismos estratos denidos anteriormente, el investigador puede
seleccionar una muestra aleatoria de cada estrato y encontrar la proporcion p
i
de
empleados en el estrato i que invirtieron parte de sus ingresos del ultimo mes en
cuentas de ahorros. Las proporciones muestrales de los estratos pueden combinarse
para producir un estimador de la proporcion poblacional.
Estimacion de la proporcion poblacional para una muestra aleatoria es-
traticada
Estimador
p
est
=
1
N
L

i=1
N
i
p
i
Varianza estimada del estimador

2
p
est
=
1
N
2
L

i=1
N
2
i
_
N
i
n
i
N
i
__
p
i
q
i
n
i
1
_
con q
i
= 1 p
i
Cotas para el error de estimacion
p
est
2
p
est
3.5 Muestreo aleatorio estraticado 89
Ejemplo 3.5.3. De los n = 50 empleados entrevistados en el estudio sobre inversi on
en ahorros, el n umero de los que indicaron que haban participado aparecen en la
siguiente tabla. Estime la proporcion de empleados que participaron en el programa
de ahorro, y establezca una cota para el error de estimacion.
Estrato Tama no de muestra N umero de participantes p
i
1 n
1
= 35 21
21
35
= 0.60
2 n
2
= 10 7
7
10
= 0.70
3 n
3
= 5 4
4
5
= 0.80
Solucion:
La estimacion deseada esta dada por p
est
, de donde
p
est
=
1
5000
[(3500)(0.60) + (1000)(0.70) + (500)(0.80)] = 0.64
Para obtener la cota para el error de estimacion, es necesario calcular la varianza
estimada

2
p
est
=
1
(5000)2
_
(3500)
2
_
3500 35
3500
__
(0.6)(0.4)
34
__
+
1
(1000)2
_
(1000)
2
_
1000 10
1000
__
(0.7)(0.3)
9
__
+
1
(500)2
_
(500)
2
_
500 5
500
__
(0.8)(0.2)
4
__
= 0.004744
La estimacion de la proporcion de empleados que participaron en el programa de
ahorros de la compa na manufacturera, con una cota para el error de estimacion,
esta dada por
p
est
2
p
est
= 0.64 2

0.004744 = 0.64 2(0.069) = 0.64 0.14


Ejercicios
1. Las compa nas manufactureras gastan enormes cantidades de dinero en el de-
sarrollo, promocion y mercadotecnia de nuevos productos. Sin embargo, la tasa
de exitos de los nuevos productos es mnima. La experiencia indica que menos
90 Muestreo
de uno de cada diez nuevos productos satisface los criterios de exito de las em-
presas. Uno de los procedimientos mas utiles para medir la aceptacion de un
nuevo producto consiste en su introduccion al mercado en una zona de ventas
representativa. Como un ejemplo, se considera el caso de una compa na fabri-
cante de implementos agrcolas que esta interesada en introducir al mercado
un nuevo equipo para riego en tres zonas agrcolas diferentes. Para probar la
aceptacion de los equipos de riego, se selecciono una muestra de 30 tiendas dis-
tribuidoras, localizadas en las tres zonas agrcolas y se observo el n umero de
equipos vendidos durante un periodo de 12 meses. Las 30 tiendas fueron selec-
cionadas usando un muestreo aleatorio estraticado con ajacion proporcional.
Los resultados aparecen en la siguiente tabla:
Zona 1 Zona 2 Zona 3
n
i
9 6 15
y
i
26 23 39
s
2
i
31.2 19.3 38.5
a) Estime el n umero promedio de ventas para las 250 tiendas de las tres zonas
agrcolas, y establezca una cota para el error de estimacion.
b) Estime el total de ventas que habra en las tres zonas agrcolas, si el nuevo
equipo estuviera a la venta en las 250 tiendas. Establezca una cota para el
error de estimacion.
2. La insatisfaccion de los empleados en su trabajo puede causar un aumento de
costos a la empresa, debido a la baja calidad de la mano de obra y el aumento en
el ausentismo. En un estudio sobre el ausentismo, un gerente de personal estaba
interesado en determinar el n umero de das laborales perdidos por ausencias de
los trabajadores de la empresa. Por razones de tipo administrativo, se uso un
muestreo aleatorio estraticado con ajacion proporcional para seleccionar una
muestra de n = 27 de los 2700 trabajadores de la empresa. Los estratos estaban
representados por obreros, tecnicos, y administradores empleados en la empresa.
3.5 Muestreo aleatorio estraticado 91
Los datos obtenidos del muestreo de 15 obreros, 10 tecnicos y 2 administradores
aparecen en la siguiente tabla:
Obreros Tecnicos Administradores
8 24 0 4 5 1
0 16 32 0 24 8
6 0 16 8 12
7 4 4 3 2
9 5 8 1 8
a) Estime el n umero promedio de das perdidos por ausencias de los 2700
empleados de la empresa. Establezca una cota para el error de estimacion.
b) Estime el n umero total de das perdidos por los empleados de la empresa.
Establezca una cota para el error de estimacion.
3. Generalmente, las cadenas de bancos procesan sus cuentas en una ocina cen-
tral regional, en lugar de hacerlo independientemente en cada sucursal. De
esta manera se logra un control mas eciente de las actividades administra-
tivas de las sucursales. El gerente de credito de una cadena esta interesado
en conocer el volumen de cuentas atrasadas que tiene la organizacion. Para
reducir el costo de muestreo, se uso un muestreo estraticado en el que los es-
tratos estan constituidos por cada uno de los cuatro bancos. De los registros
que hay en su ocina, el gerente de credito decidio usar ajacion proporcional
para seleccionar la muestra aleatoria estraticada de n = 50 cuentas de un
total de N = 200. Los resultados obtenidos se muestran en la siguiente tabla:
Bancos
1 2 3 4
N umero total de cuentas por cobrar N
1
= 56 N
2
= 68 N
3
= 40 N
4
= 36
Tama no de muestra n
1
= 14 n
2
= 17 n
3
= 10 n
4
= 9
N umero de cuestas atrasadas y
1
= 5 y
2
= 7 y
3
= 5 y
4
= 1
92 Muestreo
a) Estime la proporcion p de cuentas atrasadas y establezca una cota para el
error de estimacion.
b) Hay alguna razon para pensar que el gerente del banco 3 es demasiado
descuidado al autorizar prestamos a sus clientes?. Estime la proporcion p
3
de cuentas atrasadas del banco 3 y establezca una cota para el error de
estimacion.
3.6. Muestreo por conglomerados
Frecuentemente es mas facil obtener muestras de conglomerados de elementos que
muestras de los elementos mismos.
Denicion 3.6.1. Una muestra por conglomerados se obtiene seleccionando
aleatoriamente un conjunto de m colecciones de elementos muestrales, llamados con-
glomerados, de la poblacion y posteriormente llevando a cabo un censo completo en
cada uno de los conglomerados.
El muestreo por conglomerados proporciona una cantidad especicada de informacion
a un costo mnimo cuando:
1. No existe una lista de todos los elementos de la poblacion o sera muy costoso
obtenerla, o
2. la poblacion es grande y esta dispersa en una region muy extensa.
Como ilustracion, supongase que un economista desea estimar la cantidad promedio
empleada en comida por vivienda en una ciudad. Para usar muestreo aleatorio simple
o muestreo aleatorio estraticado, el economista debe tener una lista de todas las
viviendas para poder seleccionar la muestra. Sin embargo, obtener una lista de todas
las viviendas de una ciudad puede ser muy costoso y en algunos casos imposible. Aun
en el caso de tener la lista completa, los costos pueden ser sumamente altos porque,
al usar muestreo aleatorio simple o estraticado, las viviendas escogidas pueden estar
3.6 Muestreo por conglomerados 93
muy alejadas unas de otras. Como resultado de lo anterior, el costo de la encuesta
aumenta debido al tiempo de traslado de los entrevistadores y a otros gastos.
En lugar de seleccionar una muestra distribuida en toda la ciudad, el economista
podra usar el muestreo por conglomerados dividiendo la ciudad en conglomerados y
obteniendo despues una muestra aleatoria de estos. Esto debe poder efectuarse mas
facilmente pues es posible que exista una lista de los diferentes conglomerados. Debe
encuestarse cada una de las viviendas que esten en cada uno de los conglomerados es-
cogidos. El costo total de la encuesta disminuye dado que se ha eliminado la necesidad
de elaborar una lista de todas las viviendas y, dado que las viviendas que pertenecen
a un conglomerado pueden estar geogracamente cercanas, se reducen los gastos de
los entrevistadores.
El uso del muestreo por conglomerados produce normalmente una disminucion de
los costos, pero algunas veces es necesario pagar un precio. En ocasiones el error de
muestreo aumenta debido a que los elementos de un conglomerado tienden a tener
caractersticas com unes. Por ejemplo, en encuestas de poblaciones humanas, los con-
glomerados son frecuentemente vecindarios, que son semejantes en lo que se reere a
edad, ingreso, antecedentes etnicos y clase ocupacional. Por lo tanto, al seleccionar
aleatoriamente los conglomerados para la encuesta, se corre el riesgo de que algunas
clases socioeconomicas no esten representadas si no se incluyen sus vecindarios. Por
otra parte, otras clases pueden estar representadas en exceso.
Se puede reducir el error de muestreo seleccionando un mayor n umero de conglome-
rados peque nos en lugar de unos cuantos conglomerados grandes. Entre mas peque no
es el tama no de los conglomerados, menor es el riesgo de excluir ciertas clases de
elementos de la muestra. Por lo tanto, seleccionando un mayor n umero de conglome-
rados de menor tama no se obtiene mayor informacion acerca de la poblacion.
Una vez especicados los conglomerados, es necesario contar con una lista de todos
ellos. Para seleccionar una muestra aleatoria de m conglomerados de los M de la
poblacion, se usa el muestreo aleatorio simple.
Al usar muestreo por conglomerados, la media poblacional se estima utilizando las
94 Muestreo
formulas que a continuacion se describiran.
Estimacion de la media poblacional en un muestreo por conglomerados
Estimador
= y
c
=
m

i=1
t
i
m

i=1
n
i
donde n
i
es el n umero de elementos del i-esimo conglomerado y t
i
es el total de las
mediciones del conglomerado i.
Varianza estimada del estimador

2
y
c
=
_
M m
Mm n
2
_
_
_
_
_
_
_
m

i=1
(t
i
y
c
n
i
)
2
m1
_
_
_
_
_
_
donde
n =
1
m
m

i=1
n
i
y

t =
1
m
m

i=1
t
i
Cotas para el error de estimacion
y
c
2
y
c
M es el n umero de conglomerados en la poblacion y m es el n umero de conglomerados
en la muestra.
Estimacion del total poblacional en un muestreo por conglomerados
Estimador
=
M
m
m

i=1
t
i
3.6 Muestreo por conglomerados 95
Varianza estimada del estimador

2

= M
2
_
M m
Mm
_
_
_
_
_
_
_
m

i=1
(t
i

t)
2
m1
_
_
_
_
_
_
Cotas para el error de estimacion
2

Como se dijo anteriormente, n
i
es el n umero de elementos de i-esimo conglomerado,
mientras que t
i
es el total de las mediciones que estan en el conglomerado i. Por lo
tanto
t
i
=
n
i

j=1
y
ij
donde y
ij
es la j-esima observacion del conglomerado i. Los terminos n y

t representan,
respectivamente, el tama no promedio y el total promedio de los conglomerados.
Ejemplo 3.6.1. El objetivo de la publicidad es aumentar las ventas o crear interes en
los productos de determinada compa na. Por lo tanto, en publicidad es esencial que los
anuncios aparezcan en los medios adecuados para que lleguen al p ublico consumidor.
Un agente de publicidad de una empresa que vende artculos para el hogar, desea
estimar la cantidad mensual que gastan en revistas y periodicos las amas de casa de
una ciudad, para determinar si estas son sucientes para garantizar el uso de estos
medios en la publicidad. Dado que no existe una lista de amas de casa, y para controlar
los costos directos de las entrevistas, se usara el muestreo por conglomerados. De los
50 distritos electorales se selecciona una muestra aleatoria de 10. Los entrevistadores
encuestan a cada una de las amas de casa de los 10 distritos, y se registraran la
cantidad total que gastaron en revistas y perodicos durante el ultimo mes.
96 Muestreo
Distrito N um. de amas Gastos tot. Distrito N um. de amas Gastos tot.
i de casa n
i
t
i
i de casa n
i
t
i
1 62 $380 6 69 $403
2 55 517 7 58 555
3 49 480 8 74 486
4 71 613 9 57 450
5 70 540 10 54 395
Sumas
10

i=1
n
i
= 630
10

i=1
t
i
= $4819
a) Estime la cantidad promedio mensual que las amas de casa gastan en revistas y
periodicos, y establezca una cota para el error de estimacion.
b) Estime la cantidad total mensual que las amas de casa gastan en revistas y perio-
dicos, y establezca una cota para el error de estimacion.
Solucion:
a) La media poblacional se estima por
y
c
=
10

i=1
t
i
10

i=1
n
i
=
$4819
630
= $7.65
Para calcular
2
y
c
se eval ua primero el termino correspondiente a la suma de
cuadrados
m

i=1
(t
i
y
c
n
i
)
2
Se puede probar que
m

i=1
(t
i
y
c
n
i
)
2
=
m

i=1
t
2
i
2 y
c
m

i=1
t
i
n
i
+ y
2
c
m

i=1
n
2
i
3.6 Muestreo por conglomerados 97
Tomando cada termino por separado, se tiene
10

i=1
t
2
i
= (380)
2
+ (517)
2
+ + (395)
2
= 2, 374, 613
10

i=1
t
i
n
i
= (380)(62) + (517)(55) + + (395)(65) = 304, 124
10

i=1
n
2
i
= (62)
2
+ (55)
2
+ + (65)
2
= 40, 286
Sustituyendo estos valores en la ecuacion de la suma de cuadrados, se tiene que
m

i=1
(t
i
y
c
n
i
)
2
= 2, 374, 613 2(7.65)(304, 124) + (7.65)
2
(40, 286) = 79, 153.235
El tama no promedio del conglomerado es
n =
1
m
m

i=1
n
i
=
1
10
(630) = 63
Dado que el n umero total de conglomerados en la poblacion es M = 50,

2
y
c
=
_
M m
Mm n
2
_
_
_
_
_
_
_
m

i=1
(t
i
y
c
n
i
)
2
m1
_
_
_
_
_
_
=
_
50 10
(50)(10)(63)
2
__
79, 153.235
9
_
= 0.1773
Por lo tanto, una estimacion de , con una cota para el error de estimacion es
y
c

y
c
= $7.65 2

0.1773 = $7.65 $0.84


b) Una estimacion de los gastos totales mensuales en revistas y periodicos es
=
M
m
m

i=1
t
i
=
50
10
($4, 819) = $24, 095
98 Muestreo
que no depende del tama no de la poblacion N.
Para establecer una cota superior para el error de estimacion, es necesario cal-
cular la expresion
m

i=1
(t
i

t)
2
=
m

i=1
t
2
i

1
m
_
m

i=1
t
i
_
2
= 2, 374, 613
1
10
(4, 819)
2
= 52, 336.90
La varianza estimada es

2

=M
2
_
M m
Mm
_
_
_
_
_
_
_
m

i=1
(t
i

t)
2
m1
_
_
_
_
_
_
=(50)
2
_
50 10
(50)(10)
__
52, 336.90
9
_
= 1, 163, 042.222
La estimacion de los gastos totales en revistas y periodicos de las amas de casa,
de la ciudad, con una cota para el error de estimacion es
2

= $24, 095 2
_
1, 163, 042.222
= $24, 095 $2, 157
Frecuentemente, un experimentador desea usar el muestreo por conglomerados para
estimar una proporcion poblacional p. Por ejemplo, en una encuesta pre-electoral
puede ser deseable estimar la proporcion de habitantes de una comunidad que estan
a favor de determinadas medidas; o podra ser importante estimar la proporcion de
automoviles en una ciudad que satisfacen los requisitos en lo referente al control de
contaminacion, o la proporcion de miembros de una organizacion laboral que estan de
acuerdo con un nuevo ajuste salarial. Para estimar p cuando se usa el muestreo por
conglomerados, es necesario encontrar a
i
, el n umero de elementos de conglomerado i
que tienen la caracterstica de interes, para cada conglomerado i = 1, 2, . . . , m. Las
siguientes formulas proporcionan un estimador de la proporcion de la poblacion que
tiene la caracterstica de interes a
i
.
3.6 Muestreo por conglomerados 99
Estimacion de la proporcion poblacional en un muestreo por conglomera-
dos
Estimador
p
c
=
m

i=1
a
i
m

i=1
n
i
Varianza estimada del estimador

2
p
c
=
_
M m
Mm n
2
_
_
_
_
_
_
_
m

i=1
(a
i
p
c
n
i
)
2
m1
_
_
_
_
_
_
Cotas para el error de estimacion
p
c
2
p
c
Ejercicios
1. El inspector de una cadena de ferreterias desea estimar la proporcion de bom-
billas defectuosas enviadas a su almacen por determinado fabricante. Las bom-
billas se envan en paquetes de 12 cajas, cada una delas cuales contiene 6 bom-
billas. Suponga que el inspector opta por usar las cajas de bombillas como
conglomerados y selecciona aleatoriamente m = 20 cajas de entre los 100 pa-
quetes recibidos en un envo. Los n umeros de bombillas defectuosas encontradas
en cada una de las 20 cajas son los siguientes:
0 2 0 0 1 1 0 1 2 1 0 0 0 1 0 0 3 0 2 1
Estime la proporcion p de bombillas defectuosas en el envo, y establezca una
cota para el error de estimacion.
100 Muestreo
2. En un artculo que aparecio recientemente en la prensa se arma que la tasa de
incremento de las contribuciones para obras de beneciencia es mucho menor
que la tasa de inacion, durante los periodos de recesion. Un director regional de
la Sociedad Contra el Cancer esta interesado en estimar la contribuci on prome-
dio por familia y la contribuci on total de todas las familias de su ciudad. Un
grupo de voluntarios selecciono una muestra de 12 de los 47 distritos electorales
de la ciudad y obtuvo los datos que aparecen en la tabla.
Distrito de viviendas Donacion total Distrito de viviendas Donacion total
1 36 $117 7 29 $165
2 42 105 8 52 105
3 40 210 9 44 121
4 47 142 10 40 103
5 39 235 11 45 136
6 50 96 12 36 190
a) Estime la contribucion promedio por familia en la ciudad, y establezca una
cota para el error de estimacion.
b) Estime la contribucion total de todas las familias de la ciudad, y establezca
una cota para el error de estimacion.
3.7. Ejercicios
1. Dene que es una muestra aleatoria.
2. Escribe las deniciones de cada uno de los siguientes tipos de muestreo.
a) MAS b) MAE c) MAC
3. Diga cuales de los siguientes ejemplos constituyen aplicaciones del muestreo
aleatorio, y cuales de un muestreo no aleatorio. Explique porque
3.7 Ejercicios 101
a) Las manzanas incluidas en una bolsa de 5 kilos adquiridas en un supermer-
cado local.
b) Una bolsa de 5 kilos de manzanas seleccionadas por una ama de casa de un
deposito de manzanas de un supermercado local.
c) Preguntas que una tienda de departamentos hace a cada decimo cliente que
tiene cuenta de credito, acerca de nuevos horarios.
d) Tarjetas de garanta, que proporcionan informacion demograca y personal,
recibidas por un fabricante, de personas que compraron recientemente alguno
de los artculos de cocina que fabrican.
4. Discuta las ventajas de efectuar un muestreo en lugar de un censo en cada uno
de los siguientes casos:
a) Un representante de mercadotecnia de una fabrica de alimentos esta intere-
sado en determinar el total de ventas del primer a no, de un nuevo producto que
fabrica la compa na.
b) Un ejecutivo de una compa na petrolera esta interesado en determinar el
precio promedio por galon de gasolina sin plomo, que las estaciones de servicio
cobran en determinado estado. De una lista de estaciones de servicio, el ejecuti-
vo selecciona aleatoriamente 20 de un total de 249, y obtiene su precio de venta
por telefono.
c) Un candidato a la gubernatura de un estado desea conocer la proporcion de
votantes que esta a su favor, un semana antes de la eleccion.
d) Un diario local ha adoptado una poltica editorial mas liberal. Para captar la
reaccion de los lectores al cambio, un agente del diario selecciona aleatoriamente
10 suscriptores locales de una lista de suscripciones, los contacta por telefono,
y les pide su opinion sobre el cambio de poltica editorial.
5. Explique porque es preferible el uso del muestreo a un censo de poblacion.
6. Menciona 3 ventajas y 3 desventajas de un muestreo.
7. Menciona 3 ventajas y 3 desventajas de un censo.
102 Muestreo
8. Describe brevemente la diferencia entre muestreo con reemplazo y muestreo sin
reemplazo.
9. Describe explcitamente que es una tabla de n umeros aleatorios.
10. Para cada una de las siguientes encuestas por muestreo, proponga las unidades
muestrales y el marco muestral apropiados (Un marco muestral es una lista
de unidades muestrales. Las unidades muestrales son colecciones disjuntas de
elementos (objeto del cual se toma una medicion) de la poblacion).
a) Un economista desea efectuar una encuesta para estimar la cantidad promedio
mensual por familia empleada en la compra de comestibles en determinada
ciudad.
b) El asistente administrativo del gobernador de un estado desea estimar la
proporcion de votantes en el estado que estara a favor de la aprobacion de una
ley.
c) Una cadena de supermercados desea conocer la opinion de sus empleados
acerca del plan de seguro medico patrocinado por la compa na.
d) Un ejecutivo de mercadotecnia de una compa na desea hacer una encuesta
entre los compradores para determinar su actitud hacia una nueva lnea de
productos.
11. Explique porque cada uno de los siguientes ejemplos no se puede considerar
como muestra aleatoria:
a) Para conocer la opinion de la comunidad sobre los planes de estudio de una
escuela, se le da al alumno un breve cuestionario para que lo llenen sus padres.
b) Para determinar el sentimiento p ublico respecto al ultimo decreto presiden-
cial, un reportero entrevista a medioda a 25 personas en la esquina de una
centrica calle.
c) Se seleccionan al azar 10 nombres de la lista de representantes de la Camara
de Diputados en un intento por predecir la opinion de varios Estados con res-
pecto al aumento de la deuda p ublica por tercera vez en una semana.
3.7 Ejercicios 103
12. Proponga una ejemplo donde sea preferible un muestreo a un censo.
13. Una tienda de descuento de una ciudad de 745 familias ha adoptado un nuevo
tema publicitario dise nado para mejorar la imagen de la tienda en lo que se re-
ere a la calidad de sus productos. De un directorio residencial se selecciono una
muestra aleatoria simple de n = 50 familias. Un mes despues de iniciada la cam-
pa na publicitaria, se entrevist o a los jefes de familia y 13 de ellos armaron que
la calidad de la mercancia de la tienda de descuento es aparentemente de infe-
rior calidad a la de las tiendas competidoras. Estime la proporcion de familias
que piensan que la calidad de la mercancia de la tienda de descuento es inferior
a la de las demas tiendas. Establezca una cota para el error de estimacion.
14. Un ejecutivo de seguros, preocupado porque la alta tasa de inacion puede
dejar a sus clientes con una cobertura insuciente en los seguros de incendio
de sus viviendas, ha propuesto una cla usula que establece el incremento de la
cobertura (y de las primas anuales) de acuerdo con la tasa de inacion anual.
Para conocer la opinion de los clientes sobre la poltica propuesta, el ejecutivo de
seguros decidio seleccionar una muestra aleatoria estraticada de los clientes de
su compa na en los tres municipios de su jurisdiccion. Los resultados aparececen
en la tabla. Estime la proporcion p de clientes de los tres municipios que estan a
favor de la poltica propuesta, y establezca una cota para el error de estimacion.
Municipio
A B C
Total de clientes 231 407 187
Clientes encuestados 21 37 17
N umero de los que aprueban la nueva poltica 8 20 9
15. El gerente de ventas de una fabrica de maquinas de escribir desea saber si existe
la demanda suciente en determinada ciudad, que justique agregar un nuevo
104 Muestreo
tipo de maquina de escribir portatil a sus existencias. Actualmente la fabrica
surte de mercanca a cuatro cadenas de tiendas que consisten de 25, 20, 30 y 25
tiendas. Por motivos de tipo administrativo se decidio usar el muestreo aleatorio
estraticado, con las cadenas de tiendas como estratos.
E1 16 12 10 13 9
E2 10 17 12 6
E3 5 18 13 15 20 12
E4 17 11 12 15 18
El gerente de ventas dispone de tiempo y dinero sucientes para obtener datos
de ventas en 20 tiendas solamente. Usando ajacion proporcional, selecciono en
forma aleatoria 5 tiendas de la primera cadena, 4 de la segunda, 6 de la tercera,
y 5 de la cuarta. Las ventas efectuadas al cabo de un mes aparecen en la tabla.
Estime las ventas mensuales promedio por tienda, y establezca una cota para
el error de estimacion.
16. a)Un fabricante de sierras de cadena ha recibido quejas de los compradores en
relacion con los costos de reparacion excesivos. Para estudiar el problema, el
fabricante desea estimar el costo de reparacion promedio por sierra y por mes,
para las sierras que se han vendido a las campa nas madereras. No es posible
obtener los costos de reparacion para cada sierra, pero se pueden determinar
los costos totales de reparacion y el n umero de sierras que tienen las diferentes
compa nas. El fabricante decidio usar un muestreo por conglomerados, usando
las compa nas como conglomerados. De las M = 87 compa nas madereras que
compran sierras de este fabricante, se selecciono una muestra aleatoria simple
de m = 12. Los datos de la tabla representan los costos de reparacion durante
el ultimo mes para cada compa na.
3.7 Ejercicios 105
Cia. de sierras C. de Reparacion Cia. . de sierras C. de reparacion
1 4 $55 7 11 $103
2 7 83 8 1 15
3 5 47 9 8 110
4 11 210 10 11 164
5 15 235 11 7 80
6 6 88 12 10 146
b)Para el ejercicio anterior, tambien estime la cantidad total que las compa nas
madereras gastaron en reparaciones de las sierras de cadena durante el ultimo
mes, y establezca una cota de error de estimacion.
c)Al consultar los registros de ventas, el fabricante mencionado encontro que ha
vendido 703 sierras de cada cadena a las 87 compa nas madereras. Usando esta
informacion adicional, estime la cantidad total que las 87 compa nas madereras
gastaron en reparaciones, y establezca una cota para el error de estimacion.
(Sugerencia: Si y
c
es la media obtenida en el muestreo por conglomerados y
N el n umero de elementos de la poblacion, entonces = Ny
c
y
2

= N
2

2
y
c
).
Compare estos resultados con los obtenidos en el inciso b).
17. El punto de partida, para lograr un mejor entendimiento del comportamiento de
los consumidores, es la demografa del consumidor; las medidas descriptivas que
caracterizan al p ublico comprador. De los registros de la compa na, la gerente de
una empresa distribuidora de automoviles obtuvo una muestra aleatoria simple
de 25 expedientes de los 582 correspondientes a clientes que compraron un
automovil de tipo economico durante el ultimo a no. La media y la varianza
de las edades de los 25 clientes fueron y = 27.5 y s
2
= 16.81. Estime la edad
promedio de los compradores del automovil economico, y establezca una cota
para el error de estimacion.
Captulo 4
Regresion lineal y multilineal
4.1. Introduccion
En este captulo se describe el modelo de regresion lineal simple, que asume que en-
tre dos variables dadas existe una relacion de tipo lineal contaminada por un error
aleatorio. Aprenderemos a estimar dicho modelo y, a partir de estas estimaciones y
bajo determinadas hipotesis, podremos extraer predicciones del modelo e inferir la
fortaleza de dicha relacion lineal.
En la practica es com un encontrar relacion entre dos o mas variables. Por ejemplo,
1. El peso de un hombre adulto depende de su estatura
2. Las circunferencias de los circulos dependen de su radio
3. La presion de una masa de gas depende de su temperatura y volumen
4. La distancia media de frenado de un automovil depende de la velocidad a la que
este viaja
5. La efectividad media de un antibi otico depende del tiempo que este lleve almace-
nado.
4.1 Introduccion 107
Uno de los aspectos mas relevantes que aborda la Estadstica se reere al analisis
de las relaciones que se dan entre dos variables aleatorias. El analisis de estas rela-
ciones esta muy frecuentemente ligado al analisis de una variable, llamada variable
dependiente Y , y del efecto que sobre ella tiene otra (u otras) variable(s), llamada(s)
variable(s) independiente(s) X, y permite responder a dos cuestiones basicas:
Es signicativa la inuencia que tiene la variable independiente sobre la vari-
able dependiente?
Si, en efecto, esa relacion es signicativa, como es? y podemos aprovechar
esa relacion para predecir valores de la variable dependiente a partir de valores
observados de la variable independiente?.
La regresion lineal simple comprende el intento de desarrollar una lnea recta o
ecuacion matematica que describe la relacion entre dos variables, con la nalidad
de estimar los valores de una variable con base en los valores conocidos de la otra.
Para determinar dicha ecuacion primero hay que recolectar datos que muestren los
valores de las variables en consideracion.
Ejemplo 4.1.1. Supongase que se han reunido datos locales de vendedores de au-
tomoviles con respecto al kilometraje y precios de los modelos 1975 de cierta marca,
y que tienen determinado equipo (aire acondicionado, direccion hidraulica, etc.).Los
datos muestrales que pueden provenir de una muestra aleatoria de vendedores de la
region seran los mostrados en la tabla
Observaci on Recorrido Precio de Observaci on Recorrido Precio de
i (en miles) x
i
venta y
i
i (en miles) x
i
venta y
i
1 40 $1000 6 60 1000
2 30 1500 7 65 500
3 30 1200 8 10 3000
4 25 1800 9 15 2500
5 50 800 10 20 2000
108 Regresion lineal y multilineal
Si dibujamos los datos de x
i
e y
i
en unos ejes cartesianos ya intuimos que, en efecto,
hay una relacion latente entre las variables, que parece ser de tipo lineal. A esta
representacion en los ejes cartesianos se le denomina diagrama de dispersion.
Un modelo de regresion lineal simple para una variable, Y (variable dependiente),
dada otra variable, X (variable independiente), es un modelo matematico que permite
obtener una formula capaz de relacionar Y con X basada solo en relaciones lineales,
del tipo
Y =
0
+
1
X + .
donde
Y representa a la variable dependiente, es decir, a aquella variable que deseamos
estudiar en relacion con otras.
X representa a la variable independiente, es decir, aquella que creemos que
puede afectar en alguna medida a la variable dependiente. La estamos denotan-
do en may uscula, indicando que podra ser una variable aleatoria, pero habi-
tualmente se considera que es una constante que el investigador puede jar a
su antojo en distintos valores.
representa el error aleatorio, es decir, aquella cantidad (aleatoria) que provoca
que la relacion entre la variable dependiente y la variable independiente no sea
perfecta, sino que este sujeta a incertidumbre.
Hay que tener en cuenta que el valor de sera siempre desconocido hasta que se
observen los valores de X e Y , de manera que el modelo de prediccion sera realmente

Y =
0
+
1
X. Lo que en primer lugar resultara deseable de un modelo de regresion es
que estos errores aleatorios ocurran en la misma medida por exceso que por defecto,
sea cual sea el valor de X, de manera que E[/X = x] = E[] = 0 y, por tanto,
E[Y/X = x] =
0
+
1
x +E[/X = x] =
0
+
1
x. Es decir, las medias de los valores
de Y para un valor de X dado son una recta. La interpretacion de los coecientes del
modelo es:
4.1 Introduccion 109

0
es la ordenada al origen del modelo, es decir, el punto donde la recta inter-
cepta o corta al eje y.

1
representa la pendiente de la lnea y, por tanto, puede interpretarse como el
incremento de la variable dependiente por cada incremento en una unidad de
la variable independiente.
Nota 7. Es evidente que la utilidad de un modelo de regresion lineal tiene sentido
siempre que la relacion hipotetica entre X e Y sea de tipo lineal, pero que ocurre si
en vez de ser de este tipo es de otro tipo (exponencial, logartmico, hiperbolico...)?.
En primer lugar, es absolutamente conveniente dibujar el diagrama de dispersion
antes de comenzar a tratar de obtener un modelo de regresion lineal, ya que si la
forma de este diagrama sugiere un perl distinto al de una recta quiza deberamos
plantearnos otro tipo de modelo. Y, por otra parte, si se observa que el diagrama de
dispersion es de otro tipo conocido, puede optarse por realizar un cambio de variable
para considerar un modelo lineal. Existen tecnicas muy sencillas para esta cuestion,
pero no las veremos todas aqu.
Algunas curvas de aproximaci on y sus ecuaciones
Varios tipos de curvas de aproximacion y sus ecuaciones se presentan ahora.
Sean x y y variables independiente y dependiente respectivamente, a
0
, a
1
, . . . , a
n
y
b, p, q, g y h constantes.
y = a
0
+ a
1
x Lnea recta
y = a
0
+ a
1
x +a
2
x
2
Parabola o curva cuadratica
y = a
0
+ a
1
x +a
2
x
2
+a
3
x
3
Curva c ubica
y = a
0
+ a
1
x +a
2
x
2
+a
3
x
3
+ a
4
x
4
Curva cuartica
y = a
0
+ a
1
x +. . . +a
n
x
n
Curva de grado n
Las ecuaciones anteriores se denominan polinomios de: primero, segundo, tercer, cuar-
to y n-esimo grados respectivamente.
110 Regresion lineal y multilineal
Otras ecuaciones usadas con frecuencia en la practica son:
y =
1
a
0
+a
1
x
o
1
y
= a
0
+ a
1
x Hiperbola
y = ab
x
o log y = log a + x log b = a
0
+ a
1
x Curva exponencial
y = ax
b
o log y = log a + b log x Curva geometrica
y = ab
x
+ g Curva exponencial modicada
y =
1
ab
x
+ g
o
1
y
= ab
x
+ g Curva logstica.
Para decidir cual es la que debe usarse, antes se debe hacer un diagrama de dispersion.
El tipo mas simple de curva de aproximaci on es una lnea recta, pero no en todos lo
casos se puede obtener una aproximaci on mediante una ecuacion lineal. Para ver si
un modelo lineal sera adecuado entonces el procedimiento es:
1. Gracar los datos
2. Determinar por examen si parece existir una relacion lineal
Cuando las gracas no siguen un alineamiento entonces hay que buscar en un modelo
no lineal. El modelo lineal y =
0
+
1
x se dice ser un modelo determinista porque
no permite error en la prediccion de y como funcion de x (no interviene el azar o
la incertidumbre). En fsica, qumica, economa, etc., describen fenomenos (explican
y predicen) en los cuales el error de prediccion es despreciable en la practica. Por
ejemplo 0.1cm de error en la construccion de una viga de un puente es peque no, pero
0.1 cm en una pieza de relojeria es absurdamente grande.
4.2. Estimacion de los coecientes del modelo por
mnimos cuadrados
Si queremos obtener el modelo de regresion lineal que mejor se ajuste a los datos
de la muestra, deberemos estimar los coecientes
0
y
1
del modelo. Para obtener
estimadores de estos coecientes vamos a considerar un nuevo metodo de estimacion,
4.2 Estimacion de los coecientes del modelo por mnimos cuadrados 111
conocido como metodo de mnimos cuadrados. Hay que decir que bajo determinados
supuestos que veremos en breve, los estimadores de mnimos cuadrados coinciden con
los estimadores maximo-verosimiles de
0
y
1
.
El razonamiento que motiva el metodo de mnimos cuadrados es el siguiente: si tene-
mos una muestra de valores de las variables independiente y dependiente, (x
1
, y
1
), . . . ,
(x
n
, y
n
), buscaremos valores estimados de
0
y
1
, que notaremos por

0
y

1
, de ma-
nera que en el modelo ajustado, y =

0
+

1
x minimice la suma de los cuadrados de
los errores observados. Es decir, usando mnimos cuadrados para ajustar una recta
al conjunto de datos queremos que las desviaciones entre los valores observados y los
puntos correspondientes sean peque nos .
Entonces si y
i
=

0
+

1
x
i
es el valor de y (cuando x = x
i
) entonces la desviacion del
valor observado y, a partir de la recta y es y
i
y
i
(desviacion del i-esimo punto).
Ahora debemos escoger como la recta de mejor ajuste, a la que minimice la suma de
los cuadrados de las desviaciones entre los valores observados y los pronosticados.
SSE =
n

i=1
(y
i
y
i
)
2
=
n

i=1
_
y
i
[

0
+

1
x
i
]
_
2
(Suma de los cuadrados de los errores)
Es decir, buscamos (

0
,

1
) = arg [min

0
,
1
SSE].
Se llama recta de regresion por mnimos cuadrados (o simplemente recta de regresion)
de Y dada X a la lnea que tiene la SSE mas peque na de entre todos los modelos
lineales. La solucion de ese problema de mnimo se obtiene por el mecanismo habitual:
se deriva SSE respecto de

0
y

1
, se iguala a cero y se despejan estos. Entonces
112 Regresion lineal y multilineal
SSE

0
=

0
_
n

i=1
_
y
i
[

0
+

1
x
i
]
_
2
_
=

_
2(y
i
(

0
+

1
x
i
))(1)
_
=

2(y
i

1
x
i
)
= 2
_

y
i

x
i
_
= 2
_

y
i
n

x
i
_
= 0
=2

y
i
+ 2n

0
+ 2

x
i
= 0
=

0
=

y
i

x
i
n

0
= y

1
x
SSE

1
=

1
_
n

i=1
_
y
i
[

0
+

1
x
i
]
_
2
_
=

_
2(y
i
(

0
+

1
x
i
))(x
i
)
_
=

2(x
i
y
i

0
x
i

1
x
2
i
)
= 2
_

x
i
y
i

x
i

x
2
i
_
= 0
=

x
i
y
i
+

x
i
+

x
2
i
= 0
=

1
=

x
i
y
i

x
i

x
2
i
4.2 Estimacion de los coecientes del modelo por mnimos cuadrados 113
Sustituyendo

0
= y

1
x en la ecuacion anterior se obtiene

1
=

x
i
y
i
( y

1
x)

x
i

x
2
i
=

x
i
y
i

_
y
i
n

1
x
i
n
_

x
i

x
2
i
=

x
i
y
i

1
n

y
i

x
i
+

1
n
(

x
i
)
2

x
2
i
=

x
2
i

1
n
_

x
i
_
2
=

x
i
y
i

1
n

y
i

x
i
=

1
=

x
i
y
i

1
n

y
i

x
i

x
2
i

1
n
(

x
i
)
2
=
n

i=1
(x
i
x)(y
i
y)
n

i=1
(x
i
x)
2
Por lo tanto los estimadores de mnimos cuadrados de
0
y
1
son:

1
=
SS
xy
SS
xx
donde SS
xy
=
n

i=1
(x
i
x)(y
i
y) y SS
xx
=
n

i=1
(x
i
x)
2

0
= y

1
Ejemplo 4.2.1. En la siguiente tabla se muestran los gastos publicitarios y vol umenes
de ventas de una compana durante 10 meses elegidos al azar.
y
i
x
i
y
i
x
i
101 1.2 82 0.8
92 0.8 93 1.0
110 1.0 75 0.6
120 1.3 91 0.9
90 0.7 105 1.1
114 Regresion lineal y multilineal
a) Cual es la lnea recta de mejor ajuste que relaciona los gastos en publicidad con
volumen de ventas?
b) Si se tienen $10, 000 para publicidad este mes Cual es el volumen de ventas
pronosticado?
Solucion:
Para los datos del ejemplo, vamos a calcular e interpretar la recta de regresion.
SS
xy
= 23.34, SS
xx
= 0.444, y = 95.9 y x = 0.94
luego

1
=
SS
xy
SS
xx
=
23.34
0.444
= 52.57

0
= y

1
x = 95.9 (52.57)(0.94) = 46.49
as que la recta de regresion ajustada es
y = 46.49 + 52.57x
Se puede predecir un y para un x dado. Por ejemplo, si se usan x = $10, 000 para
publicidad este mes, el volumen de ventas pronosticados para este mes es
y = 46.49 + 52.57(1.0) = 99.06
o bien $990600.
Ahora, debemos encontrar las cotas para el error de estimacion. Para eso estimamos

2
, la varianza de y dado un valor de x. Entonces

2
= s
2
=
SCE
n 2
donde SCE =
n

i=1
(y
i
y
i
)
2
y n2 son los grados de libertad (n umero de parametros
estimados en el modelo).
4.3 Supuestos adicionales para los estimadores de mnimos cuadrados 115
Una forma mas facil para calcular SCE es:
SCE = SC
yy

1
SC
xy
donde
SC
yy
=
n

i=1
y
2
i

1
n
_
n

i=1
y
i
_
2
SC
xy
=
n

i=1
x
i
y
i

1
n
n

i=1
x
i
n

i=1
y
i
Ejercicio 4.2.1. Calcule
2
para el ejemplo anterior 4.2.1.
4.3. Supuestos adicionales para los estimadores de
mnimos cuadrados
Hasta ahora lo unico que le hemos exigido a la recta de regresion es:
1. Que las medias de Y para cada valor de X se ajusten mas o menos a una lnea
recta, algo facilmente comprobable con un diagrama de puntos. Si el aspecto
de este diagrama no recuerda a una lnea recta sino a otro tipo de funcion,
logicamente no haremos regresion lineal.
2. Que los errores tengan media cero, independientemente del valor de X, lo que,
por otra parte, no es una hipotesis sino mas bien un requerimiento logico al
modelo.
Lo que ahora vamos a hacer es a nadir algunos supuestos al modelo de manera que
cuando estos se cumplan, las propiedades de los estimadores de los coecientes del
modelo sean muy buenas. Esto nos va a permitir hacer inferencia sobre estos coecien-
tes y sobre las estimaciones que pueden darse de los valores de la variable dependiente.
116 Regresion lineal y multilineal
4.4. Inferencias relativas a la pendiente
1
de una
recta
La primera inferencia que debe hacerse cuando se estudia la relacion entre x e y
concierne a la existencia misma de dicha relacion. Entonces surgen dos preguntas:
1) Muestran los datos suciente evidencia como que para pensar que el conocimiento
de x contribuye para predecir y en alguna region de observacion?
2) Podemos pensar que a un no habiendo relacion entre x y y los puntos observados
forman un diagrama como el de la gura?
Las cuestiones anteriores se reeren al valor de
1
, el cambio medio que se experimenta
en y por unidad de cambio en x (la pendiente).
Si x no proporciona informacion para predecir y, entonces
1
= 0. Que
1
= 0 signica
que y siempre es el mismo para cualquier valor de x.
Ejemplo 4.4.1. Suponga que un ingeniero ajusto el modelo y =
0
+
1
x + , donde:
y =resistencia del concreto despues de 28 das
x =proporcion agua/cemento que se uso para producir el concreto
Si la resistencia del concreto y, no cambia con la proporcion agua/cemento x, entonces

1
= 0 (la pendiente es cero). Por lo tanto, el ingeniero intentar a realizar una prueba
H
0
:
1
= 0 contra H
a
:
1
= 0 para vericar si la variable independiente inuye sobre
la variable dependiente. O bien, estimar la razon media de cambio
1
en E[y] para
un cambio de una unidad en la proporcion de agua/cemento, x.
Al hacer inferencia lo que se quiere probar es la hipotesis de que:
H
0
:
i
= 0 contra H
a
:
i
= 0

i
es un estimador insesgado de
i
con una distribucion normal que tiene el valor
esperado E[

i
].
4.4 Inferencias relativas a la pendiente
1
de una recta 117
Para cada uno de los parametros
0
y
1
se tiene:
E[

0
] =
0
y
2

0
=
2
C
00
E[

1
] =
1
y
2

1
=
2
C
11
donde : C
00
=
n

i=1
x
2
i
nSC
xx
y C
11
=
1
SC
xx
Podemos construir una prueba de hipotesis H
0
:
i
=
i0
(
i0
es un valor especco
para
i
). Usando el estadstico de prueba:
Z =

i0

C
ii
Distribucion normal estandar
La region de rechazo para una prueba de dos colas
1
esta dado por:
| z | z
/2
Como
2
es desconocido, entonces se puede obtener un estimador de el
S

i
= S
_
C
ii
Entonces
t =

i0
S

C
ii
,
estadstico que se distribuye con una t de Student con n 2 grados de libertad
(varianza desconocida y n peque na).
Prueba de hipotesis para
i
H
0
:
i
=
i0
H
a
:
_

i
>
i0
region de rechazo de cola superior,

i
<
i0
region de rechazo de cola inferior,

i
=
i0
region de rechazo de dos colas.
1
Prueba estadstica en la cual la region de rechazo esta separada por la region de aceptacion y
se localiza en ambos extremos de la distribucion de la estadstica de prueba
118 Regresion lineal y multilineal
Estadstico de prueba:
t =

i0
S

C
ii
Region de rechazo:
t > t

alternativa de cola superior


t > t

alternativa de cola inferior


| t | > t
/2
alternativa de dos colas
donde:
C
00
=

x
2
i
nSC
xx
y C
11
=
1
SC
xx
Nota 8. t

se basa en n 2 grados de libertad


2
.
Ejemplo 4.4.2. Use los datos del ejemplo 4.2.1 para determinar si existe evidencia que
indique que
1
diere de cero al usar una relacion lineal entre el gasto publicitario x
y el volumen mensual medio, y, de ventas.
Solucion:
Se quiere probar
H
0
:
1
= 0 contra H
a
:
1
= 0
Entonces t =

1
0
S

C
11
. Usando = 0.05 se rechaza H
0
si t > 2.306 o t < 2.306
con n 2 = 8 grados de libertad. Entonces t =
52.87
6.84

2.25
= 5.15. Como 5.15 >
2.306, entonces se rechaza H
0
. Hay evidencia que indica que los gastos publicitarios
proporcionan informacion para la prediccion de los vol umenes mensuales de ventas.
Ahora si x aumenta una unidad Cual sera el cambio estimado para y?,que conanza
se puede tener en dicha estimacion?.
Debemos investigar la amplitud de un intervalo de conanza para
1
y vericar si
es lo bastante peque no para detectar una desviacion de cero que sea de signicancia
practica.
2
N umero de observaciones linealmente independientes de un conjunto de n observaciones
4.4 Inferencias relativas a la pendiente
1
de una recta 119
Intervalo de conanza de (1 )100 % para
i

i
t
/2
S
_
C
ii
Ejemplo 4.4.3. Encuentre el intervalo de conanza del 95 % para
1
usando los datos
del ejercicio 4.2.1.
Solucion:
1 =95 % = 1 = 0.95
despejando = 1 0.95 = /2 = 0.025
asi, 52.57 23.67
Por lo tanto, si se aumenta en una unidad x, por ejemplo, $10, 000 en gasto publici-
tario, se estima que los vol umenes de ventas mensuales correspondientes sera 28.90 y
76.24.
Ejercicio 4.4.1. Ajuste una recta a los 5 datos siguientes. Obtenga las estimaciones de

0
y
1
. Trace una graca de los puntos y represente la recta ajustada para vericar
los calculos. Presentan los datos suciente evidencia para indicar que la pendiente

1
diere de cero? (Haga la prueba con un nivel de signicancia de 5 %). Encuentre
un intervalo de conanza de 95 % para
1
.
y x
3 -2
2 -1
1 0
1 1
0.5 2
120 Regresion lineal y multilineal
Estimacion de E[y/x].
Ejemplo 4.4.4. El encargado se seguridad industrial en una empresa puede estar
interesado en estimar el n umero medio de alg un tipo de accidentes dado el
n umero de horas que cada empleado ha estado sujeto a entrenamiento especial
para seguridad.
Si en una empresa, la ganacia y, se encuentra linealmente relacionada a los
gastos publicitarios x, el gerente de ventas querra estimar la ganancia media
para un cierto nivel de publicidad x. entonces si la compa na invierte $10, 000 en
publicidad, Cuanto debe esperar que sea E[y/x]?. Entonces, debemos encontrar
un intervalo de conanza para E[y/x].
Prueba de hipotesis relativa al valor esperado
Hipotesis nula H
0
:E[y/x = x
p
] = E
0
Hipotesis alternativa H
a
:La da el experimentador y depende de los valores de E[y/x]
que desea detectar
Estadstico de prueba:
t =
y E
0
S
_
1
n
+
(x
p
x)
2
SC
xx
Region de rechazo:
t > t

alternativa de cola superior


t > t

alternativa de cola inferior


| t | > t
/2
alternativa de dos colas
4.4 Inferencias relativas a la pendiente
1
de una recta 121
Intervalo de conanza del (1 )100 % para E[y/x]
y t
/2
S

1
n
+
(x
p
x)
2
SC
xx
(4.1)
Prediccion de y dado un valor particular de x
y t
/2,n2
S

1 +
1
n
+
(x
p
x)
2
SC
xx
(4.2)
Ejemplo 4.4.5. Considere los datos del ejercicio 4.2.1 para
a) Encontrar un intervalo de conanza del 99 % para el volumen mensual esperado
de ventas cuando los gastos en publicidad son x
p
= 1.0 ($10, 000)
b) Calcular S
2
c) Probar la hipotesis nula contra la alternativa usando un nivel se signicancia de
= 0.01
Solucion:
x
p
= 1.0, entonces y =

0
+

1
x = 46.49 + (52.57)(1.0) = 99.06, entonces, multipli-
camos por $10, 000 y se obtiene $990, 600.
El intervalo de conanza de 95 % para el volumen mensual medio asociado al gasto
de publicidad es
y t
0.025
S

1
n
+
(x
p
x)
2
SC
xx
99.06 (2.306)(6.84)
_
1
10
+
(1.0 0.94)
2
0.444
99.06 5.19, es decir, (93.87,104.25)
Como cada unidad representa $10, 000 en unidades monetarias, se estima que las
ventas mensuales esperadas sobre la poblacion de los meses en los que la compa na
gasta $10, 000 estan entre $938, 700 y $1042, 500.
122 Regresion lineal y multilineal
Ejemplo 4.4.6. Un equipo de investigadores de un hospital psiquiatrico realizo un
experimento para estudiar la relacion que existe en pacientes esquizofrenicos, entre
el tiempo de reaccion a un estmulo particular y el nivel de la dosis de una dro-
ga. Especcamente los investigadores deseaban hacer el experimento con dosis de
0.5, 1.0, 1.5, 2.0, 2.5 y 3.0 mg. Seleccionaron una muestra aleatoria de 18 pacientes
en una poblacion hospitalaria de esquizofrenicos y asignaron al azar a cada paciente
una de las dosis. As pues cada dosis fue administrada a un total de tres pacientes.
Tiempo de Tiempo de
Paciente Dosicacion x reaccion y Paciente Dosicacion x reaccion y
(mg) (mseg) (mg) (mseg)
1 0.5 12 10 2.0 40
2 0.5 22 11 2.0 44
3 0.5 30 12 2.0 50
4 1.0 18 13 2.5 44
5 1.0 32 14 2.5 60
6 1.0 36 15 2.5 64
7 1.5 30 16 3.0 64
8 1.5 34 17 3.0 68
9 1.5 46 18 3.0 76
Solucion:
El modelo de prediccion obtenido hal hacer los calculos es:
y =

0
+

1
x = 9.77 + 18.85x
Observacion 2. La suma de los valores ajustados es igual a la suma de los valores
observados,

y
i
=

y
i
.
Ahora bien, usaremos la prueba de hipotesis para probar si uno de los coecientes de
regresion toma valor particular o si puede ser excluido del modelo.
Si el que se quiere escluir es
1
entonces la prueba es:
H
0
:
1
= 0 vs H
a
:
1
= 0
4.4 Inferencias relativas a la pendiente
1
de una recta 123
As, el estadstico es
t =
18.85 0
(7.51)(0.28)
= 8.96
de acuerdo a la tabla de la t de Student, la hipotesis H
0
se rechaza con un nivel de
signicancia de 0.05 ya que
t
0.05/2,16
= t
0.025,16
= 2.120
y como
| t | > t
/2,n2
es decir, 8.96 > 2.120
entonces rechazamos H
0
. Esto indica que la variable independiente es signicativa o
ayuda a predecir el comportamiento de y. Por cada incremento de una unidad en la
variable independiente x, habra un incremento de
1
unidades en la variable depen-
diente y.
Para saber la cantidad en que vara en promedio la variable dependiente cuando la
variable independiente vara una unidad, calculamos el intervalo de conanza para

1
.
En nuestro ejemplo

1
nos dara la informacion acerca de la cantidad en que vara
en promedio, el tiempo de reaccion cuando se produce un aumento en una unidad la
dosis de la droga. Entonces

1
t
/2,n2
S
_
C
11
18.86 (2.120)(7.51)(0.28)
18.86 4.46
14.4

1
23.42
As, tenemos en 95 % de conanza al armar que la cantidad promedio de aumento
en el tiempo de reaccion para cada aumento de 1 mg vara entre 14.4 y 23.42 mseg.
Teniendo un sujeto nuevo cuyo valor x es un puntaje determinado x
p
que valor
asumira y?.
124 Regresion lineal y multilineal
Prediccion de y dado un valor de x en particular
Supongamos que a un esquizofrenico recientemente admitido en el hospital se le ad-
ministran 2 mg de la droga cual sera el tiempo de reaccion de esta persona?.
Estimando puntualmente en un valor x = x
p
= 2 se tiene
y = 9.77 + 18.86(2) = 47.49
Cuando
2
es desconocida podemos obtener el intervalo de prediccion del (1)100 %
mediante la ecuacion (4.2). Entonces:
47.49 (2.120)(7.51)
_
1 +
1
18
+
(2 1.75)
2
13.13
47.49 16.39
31.1 y 63.88
As, podemos armar con un 95 % de conanza que el tiempo de reaccion de una
persona esquizofrenica que recibe 2 mg de la dosis esta entre 31 y 64 mseg.
En lo anterior estamos prediciendo el tiempo de reaccion de la persona antes de ad-
ministrarle la droga. Para descubrir con certeza el tiempo de reaccion de una persona,
en relacion a una determinada dosis de droga, tenemos que darle al paciente la droga
y luego medir su tiempo de reaccion.
Ahora bien, dada una poblacion de sujetos y dado un puntaje determinado de x di-
gamos x
p
Cual es el valor promedio de la variable dependiente y mas probable para
esta poblacion?.
Supongamos entonces que tenemos una poblacion de personas esquizofrenicas y a to-
das se les han administrado 2mg de la dosis Cual sera el tiempo de reaccion promedio
de esta poblacion?.
Un intervalo de conanza para el (1 )100 % es el dado por la ecuacion (4.1).
4.4 Inferencias relativas a la pendiente
1
de una recta 125
Entonces, como y = 47.49 para x = 2 mg se tiene que
47.49 (2.120)(7.51)
_
1
18
+
(2 1.75)
2
13.13
47.49 3.9101
43.58 y 51.40
Por lo tanto, podemos armar con un 95 % de conanza que el tiempo de reaccion
promedio de una poblacion de esquizofrenicos que recibio la dosis de 2mg estara entre
44 y 51 mg.
Si el experimento se repite muchas veces, aproximadamente el 95 % de los intervalos
de conanza calculados en la forma anterior incluiran a E[y/x] y el otro 5 % no.
Ejemplo 4.4.7. En su tesis para obtener el doctorado, H. Behbahani estudio el efecto
de la variaci on agua/cemento en la resistencia del concreto despues de 28 das. Para
el concreto que contiene 200 libras por yarda c ubica de cemento obtuvo los datos que
se presentan en la tabla 4.1. Sea y la resistencia y x la razon de agua/cemento.
Razon agua/cemento Resistencia (100 pies/libra)
1.21 1.302
1.29 1.231
1.37 1.061
1.46 1.040
1.62 0.803
1.79 0.711
Tabla 4.1: Datos.
a) Ajuste el modelo.
b) Pruebe H
0
:
1
= 0 vs H
a
:
1
< 0 con = 0.05 (si rechazamos H
0
entonces
concluimos
1
< 0, y que la resistencia tiende a disminuir con un incremento
en la razon agua/cemento).
126 Regresion lineal y multilineal
c) Encuentre un intervalo de conanza de 90 % de la resistencia esperada del concreto
cuando la razon agua/cemento es de 1.5. Que pasara con el intervalo de con-
anza si tratamos de estimar la resistencia media para razones de agua/cemento
de 0.3 o 2.7?.
Solucion:
a)

1
=
SC
xy
SC
xx
=
0.247
0.234
= 1.056

0
=2.563
= y =2.563 1.056x
b)
H
0
:
1
= 0 vs H
a
:
1
< 0 con = 0.05
t =
1.056 0
0.045
_
1
0.234
= 11.355 (En este caso debemos probar si t < t

)
t
,n2
=t
0.05,4
= 2.132
=11.355 < 2.132.
Se rechaza H
0
, hay evidencia para indicar que la resistencia disminuye con un incre-
mento en la razon agua/cemento en la region donde se hizo el experimento.
En la practica, la razon agua/cemento debe ser lo sucientemente para humedecer el
cemento, la arena y los otros elementos que forman el concreto; pero si la razon es
muy grande no servira.
c)
y = 2.563 1.056(1.5) = 0.979
0.979 (2.132)(0.045)
_
1
6
+
(1.5 1.457)
2
0.234
=(0.938, 1.020)
4.5 Correlacion lineal 127
La resistencia media de la razon agua/cemento de 1.5 esta entre 0.938 y 1.020.
x

= 0.3 y x

= 2.7 son valores lejanos a los experimentados, quizas produciran


concreto completamente inservible.
4.5. Correlacion lineal
En la seccion anterior se establecio que la regresion lineal estudia la natutaleza de la
relacion entre dos (o mas variables si no es lineal). En esta seccion vamos a denir
el llamado coeciente de correlacion lineal, que ofrece una medida cuantitativa de
la fortaleza de la relacion lineal entre x e y en la muestra, pero que a diferencia de

1
, es adimensional, ya que sus valores siempre estan entre -1 y 1, sean cuales sean
las unidades de medida de las variables. En otras palabras, la correlacion mide la
fuerza de la relacion entre variables. Si estan relacionadas las variables dependiente e
independiente, entonces hay que averiguar que tan fuerte es la relacion.
Dada una muestra de valores de dos variables (x
1
, y
1
), . . . , (x
n
, y
n
), el coeciente de
correlacion lineal muestral r se dene como
r =
SC
xy
_
SC
xx
SC
yy
Como digimos antes, la interpretaci on del valor de r es la siguiente:
r cercano o igual a 0 implica poca o ninguna relacion lineal entre x e y.
Cuanto mas se acerque a 1 o 1, mas fuerte sera la relacion lineal entre x e y.
Si r = 1, todos los puntos caeran exactamente en la recta de regresion.
Un valor positivo de r implica que y tiende a aumentar cuando x aumenta, y
esa tendencia es mas acusada cuanto mas cercano esta r de 1.
Un valor negativo de r implica que y disminuye cuando x aumenta, y esa ten-
dencia es mas acusada cuanto mas cercano esta r de 1.
Si r = 0, no hay relacion.
128 Regresion lineal y multilineal
Como determinar que tan bueno es el modelo ajustado?
El coeciente de determinacion lineal r
2
proporciona una medida de la bondad de
ajuste del modelo de regresion
r
2
= 1
SCE
SC
yy
0 r
2
1
Si el modelo es correcto, entonces SCE = 0 y r
2
= 1. Si r
2
esta cerca de cero (Cuando
SCE puede ir a SC
yy
), el ajuste no es el adecuado.
Notese que la notacion es r al cuadrado, ya que, en efecto, en una regresion lineal
simple coincide con el coeciente de correlacion lineal al cuadrado. Por lo tanto, la
interpretacion de r
2
es la medida en que x contribuye a la prediccion de y en una
escala de 0 a 1, donde el 0 indica que el error es el total de la variacion de los valores
de y y el 1 es la precision total, el error 0. La medida suele darse en porcentaje.
Intervalo de conanza para r
Se quiere probar la hipotesis de que el coeciente de correlacion es cero, es decir,
H
0
: r = 0 vs H
a
: r = 0
lo anterior es equivalente a probar
H
0
:
1
= 0 vs H
a
:
1
= 0
con su estadstico t =

1
0
S

C
11
.
Dejando el estadstico anterior en terminos de r se obtiene
t =
r

n 2

1 r
2
Para probar la hipotesis nula H
0
= r = r
0
r
0
= 0 contra H
a
= r = r
0
se utiliza el
estadstico
1
2
ln
_
1 + r
1 r
_
4.5 Correlacion lineal 129
que sigue una distribucion normal con media
1
2
ln
_
1 + r
1 r
_
y varianza
1
n 3
. En-
tonces, usaremos
z =
1
2
ln
_
1 + r
1 r
_

1
2
ln
_
1 + r
0
1 r
0
_
_
1
n 3
lo anterior es equivalente a
z =

n 3
2
ln
_
(1 + r)(1 r
0
)
(1 r)(1 + r
0
)
_
H
0
se rechaza si | z | > z
/2
, donde es el nivel de signicancia.
H
a
:
_

_
r > r
0
region de rechazo:z > z

,
r < r
0
region de rechazo:z < z

,
r = r
0
region de rechazo:| z | > z
/2
,
Ejercicio 4.5.1. Los siguientes datos representan las calicaciones de qumica para
una muestra aleatoria de 12 estudiantes de primer a no de determinada institucion de
ense nanza superior, junto con sus calicaciones en un examen de inteligencia aplicado
cuando a un cursaban el ultimo a no de secundaria.
Calif. Examen Calif. Qumica Calif. Examen Calif. Qumica
65 85 65 94
50 74 70 98
55 76 55 81
65 90 70 91
55 85 50 76
70 87 55 74
a) Calcule e interprete el coeciente de correlacion muestral,
b) Pruebe la hipotesis de que r = 0.5 contra r > 0.5.
130 Regresion lineal y multilineal
Solucion:
a) r =

1
_
SC
xx
SC
yy
, entonces
SC
xx
=

x
2
i

1
n
_

x
i
_
2
= 44475
1
12
(725)
2
= 672.92
SC
yy
=

y
2
i

1
n
_

y
i
_
2
= 85905
1
12
(1011)
2
= 728.25

1
=
SC
xy
SC
xx
=SC
xy
=

x
i
y
i

1
n

x
i

y
i
= 61685
1
12
(725)(1011) = 603.75
=

1
=
603.75
672.92
= 0.897 o 0.9
As, el coeciente de correlacion es
r = 0.897
_
672.92
728.25
= 0.862.
Note que, el coeciente esta cerca de 1, entonces hay una fuerte asociacion entre x e
y, como se podra esperar.
b)
H
0
: r = 0.5 vs H
a
: r > 0.5
z =

n 3
2
ln
_
(1 + 0.862)(1 0.5)
(1 0.862)(1 + 0.5)
_
=
3
2
ln
_
0.931
0.207
_
= 2.255
Ahora veamos si se cumple que z > z

, para esto usamos = 0.05. Entonces, z


0.05
=
1.645 (buscamos = 0.05 en la tabla de la distribucion normal y cae en
1.64 + 1.65
2
=
1.645).
As, 2.255 > 1.645, por lo cual se rechaza la hipotesis nula H
0
.
Ejercicio 4.5.2. En un estudio acerca de la cantidad de precipitacion pluvial y la
cantidad de contaminaci on de aire eliminada, se obtuvieron los siguientes datos:
4.6 Ejercicios 131
Lluvia diaria (0.01 cm) x Partculas eliminadas (mg por metro c ubico) y
4.3 126
4.5 121
5.9 116
5.6 118
6.1 114
5.2 118
3.8 132
2.1 141
7.5 108
a) Calcule r,
b) Prueba H
0
: r = 0.5 vs H
a
: r < 0.5 con un nivel de signicancia de 0.025,
c) Determine el porcentaje de variacion en que la cantidad de partculas eliminadas
que se deben a los cambios en la cantidad diaria de precipitacion pluvial.
Solucion:
4.6. Ejercicios
1. Los auditores a menudo necesitan comparar el valor revisado (o actual de un
artculo) del catalogo de inventario con el valor en los libros (o nominal). Si una
compa na tiene su inventario y sus libros al da, debe existir una relacion lineal
muy estrecha entre los valores revisados y los nominales. Una muestra de 10
artculos del catalogo de cierta compa na dio los datos que contiene la tabla 4.2
acerca de los valores revisados y los nominales. Ajuste el modelo y =
0
+
1
x+
a esos datos. Cual es su estimacion para el cambio que se espera en el valor
revisado para un cambio de una unidad en el valor nominal? Si el valor nominal
es x = 100, que utilizara para estimar el valor revisado?
132 Regresion lineal y multilineal
Artculo Valor revisado (y
i
) Valor nominal (x
i
)
1 9 10
2 14 12
3 7 9
4 29 27
5 45 47
6 109 112
7 40 36
8 238 241
9 60 59
10 170 167
Tabla 4.2: Datos.
2. En la tabla 4.3 se muestra la clasicacion combinada del n umero de millas y
el volumen del motor establecidos por la EPA en estados de la Union Ameri-
cana en 1980 (todos menos California) de nueve automoviles subcompactos con
transmision estandar, de cuatro cilindros, que utilizan gasolina. El tama no del
motor se da en pulgadas c ubicas totales del cilindraje.
Automovil Cilindraje (x) mpg combinado (y)
VW Rabitt 97 24
Datsun 210 85 29
Chevrolet Chevette 98 26
Dodge Omni 105 24
Mazda 626 120 24
Oldsmobile Starre 151 22
Mercury Capri 140 23
Toyota Celica 134 23
Datsun 810 146 21
4.6 Ejercicios 133
a) Localice los datos en una graca.
b) Encuentra la recta de mnimos cuadrados para los datos.
c) Trace una graca de la recta de mnimos cuadrados para ver cuanto se ajusta
a los datos.
d) Utilice la recta de mnimos cuadrados para estimar el promedio de millas por
galon (mpg) para un automovil subcompacto con un volumen de motor de 125
pulgadas c ubicas.
3. En un estudio de distintos fondos para inversion se desarrollo un procedimien-
to consistente en construir la llamada recta caractersticapara cada posible
fondo. Dicha recta no es otra cosa mas que la recta de regresion de la re-
dituabilidad del fondo considerado sobre la redituabilidad promedio del mer-
cado bursatil. Si para un fondo de inversi on la pendiente de su recta carac-
terstica es signicativamente distinta de cero, se dice que ese fondo es muy
sensible a las uctuaciones de la bolsa de valores y por ende es una inver-
sion riesgosa. Si el fondo tiene una recta caracterstica con pendiente cercana
a cero se dice que es una inversion estable y de poco riesgo. La redituabili-
dad tanto del fondo Penn Square Mutualcomo la promedio en el mercado
bursatil se observo en el periodo 1964 a 1973 y se dan en la tabla siguiente.
A no 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973
P. Square 18.4 29.7 -12.3 10.8 23.6 -16.2 5.8 7.2 7.7 -8.8
p. en m. 12.9 9.1 -13.1 20.1 7.7 -11.4 .1 10.8 15.6 -17.4
a) Encuentre la recta caractersticadel fondo Penn Square Mutual(esto es,
la recta de regresion de la redituabilidad del fondo sobre la redituabilidad prome-
dio).
b) Graque los puntos y la recta de regresion para vericar sus calculos.
c) Describa el tipo de riesgo asociado a invertir en el Penn Square Mutual(esto
es, pruebe la hipotesis
1
= 0; use = 0.05).
Tabla 4.3: Datos.
134 Regresion lineal y multilineal
d) Encuentre un intervalo condencial del 95 % para la pendiente de la recta
caracterstica del fondo Penn Square Mutual.
4. Un experimento de mercados se realizo para estudiar la relacion entre el tiempo
que requiere un comprador para decidirse en su compra y el n umero de pre-
sentaciones distintas del producto exhibidas. Las marcas se eliminaron de los
productos para reducir el efecto de las preferencias a determinadas marcas. Los
compradores seleccionaron los artculos basados exclusivamente en las descrip-
ciones y dise nos de las presentaciones de cada producto. El tiempo utilizado
hasta llegar a una seleccion fue registrado para los 15 participantes en el estu-
dio.
Tiempo requerido (en seg.) 5,8,8,7,9 7,9,8,9,10 10,11,10,12,9
Numero de laternativas (presentaciones) 2 3 4
a) Encuentre la recta de mnimos cuadrados para esos datos.
b) Graque los puntos y la recta para vericar sus calculos.
c) Calcule s
2
.
d)Presentan los datos suciente evidencia evidencia que indique que el tiem-
po requerido para decidir esta linealmente relacionado al n umero de presenta-
ciones? (Pruebe al nivel = 0.05).
5. La siguiente tabla contiene la lista del n umero de casos de tuberculosis (por
cada 100000 habitantes) en el estado de Florida durante la decada que va de
1967 a 1976. Hay suciente evidencia para armar que la tasa de tuberculosis
decrece en tal periodo? Utilice = 0.05. (Se pueden codicar los a nos de la
manera que se considere conveniente.)
6. Las medianas de los precios de ventas de casas nuevas para una sola familia
durante un periodo de 8 a nos se indican en la tabla siguiente. Sea y la mediana
de los precios de venta y x el a no (representado con n umeros enteros, 1,2,...,8),
4.6 Ejercicios 135
ajuste el modelo y =
0
+
1
x + . Que se puede concluir con los resultados?.
A no Mediana del precio de venta (x 1000)
1972 (1) $27.6
1973 (2) 32.6
1974 (3) 35.9
1975 (4) 39.3
1976 (5) 44.2
1977 (6) 48.8
1978 (7) 55.7
1979 (8) 62.9
Conteste lo siguiente:
a) Hay suciente evidencia que permita armar que la mediana de los precios
de venta de casas nuevas para una sola familia se ha incrementado durante el
periodo de 1972 a 1979, con un nivel de signicancia de 0.01?
b) Estime el incremento anual esperado en la mediana de los precios de venta
al construir un intervalo de conanza de 99 %.
7. Se llevo a cabo un estudio de la cantidad de az ucar renada mediante un cierto
proceso a varias temperaturas diferentes. Los datos se codicaron y registraron
136 Regresion lineal y multilineal
en el siguiente cuadro:
Temperatura Az ucar renada
1.0 8.1
1.1 7.8
1.2 8.5
1.3 9.8
1.4 9.5
1.5 8.9
1.6 8.6
1.7 10.2
1.8 9.3
1.9 9.2
2.0 10.5
a) Determine el modelo de regresion lineal simple.
b) Calcule la cantidad promedio de az ucar renada que se produce cuando la
temperatura codicada es 1.75.
c) Determine un intervalo de conanza del 95 % para el parametro

1
.
d) Prueba H
0
:

1
= 0 vs H
a
:

1
= 0.
e) Encuentre un intervalo de prediccion del 95 % para un valor particular de
az ucar renada cuando la temperatura es 1.75.
8. Los siguientes datos presentan el n umero promedio de bacterias que sobreviven
4.6 Ejercicios 137
en un producto alimenticio enlatado y los minutos de exposicion a una tempe-
ratura de 300

F.
N umero de bacterias Minutos de exposicion
175 1
108 2
95 3
82 4
71 5
50 6
49 7
31 8
28 9
17 10
16 11
11 12
a) Dibuje el diagrama de dispersion de los datos.
b) Identique el modelo apropiado para estos datos (es lineal o exponencial) y
estime los parametros de dicho modelo.
9. La empresa Bradford Electric Illuminating Co., estudia las relaciones entre los
consumos de energa (en miles de kilowatts-hora, kwh) y el n umero de habita-
ciones en una residencia privada unifamiliar. Una muestra aleatoria de 10 casas
produjo lo siguiente:
138 Regresion lineal y multilineal
Num.de habitaciones Consumo
12 9
9 7
14 10
6 5
10 8
8 6
10 8
10 10
5 4
7 7
a) Dibuje el diagrama de dispersion. Explique,
b) Ajuste un modelo de regresion lineal simple a estos datos,
c) Estime el consumo promedio para una casa con 11 habitaciones,
d) Pruebe la signicancia del modelo con = 0.05,
c) Determine un intervalo de conanza del 95 % para el consumo promedio
cuando una casa tiene 11 habitaciones.
4.7. Regresion lineal multiple
Un modelo de regresion que involucre mas de una variable independiente se llama
modelo de regresion multiple.
El modelo de regresion lineal m ultiple con k variables esta dado por:
y =
0
+
1
x
1
+
2
x
2
+ . . . +
k
x
k
+ (4.3)
Los
i
i = 0, . . . , k se llaman coecientes de regresion.
Ajuste del modelo de regresion lineal mediante matrices.
4.7 Regresion lineal multiple 139
Supongamos que tenemos el modelo de regresion lineal (4.3) y hacemos n observa-
ciones y
1
, y
2
, . . . , y
n
. Entonces, cada observacion y
i
se escribe como
y
i
=
0
+
1
x
i1
+
2
x
i2
+ . . . +
k
x
ik
+
i
x
ij
es la j-esima variable independiente para la i-esima observaci on (i = 1, . . . , n).
Ahora, denimos las matrices
Y =
_
_
_
_
_
_
_
y
1
y
2
.
.
.
y
n
_
_
_
_
_
_
_
y X =
_
_
_
_
_
_
_
_
_
_
x
0
x
11
x
12
x
1k
x
0
x
21
x
23
x
2k
x
0
x
31
x
33
x
3k
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x
0
x
n1
x
n2
x
nk
_
_
_
_
_
_
_
_
_
_
con x
0
= 1
=
_
_
_
_
_
_
_

1
.
.
.

k
_
_
_
_
_
_
_
y =
_
_
_
_
_
_
_

2
.
.
.

k
_
_
_
_
_
_
_
Las n ecuaciones que representan a las n observaciones y
i
se pueden escribir como:
Y = X +
Ahora, las ecuaciones de mnimos cuadrados ordinarios estan dadas por
X
t
X

= X
t
Y
donde

=
_
_
_
_
_
_
_

1
.
.
.

k
_
_
_
_
_
_
_
Entonces

= (X
t
X)
1
X
t
Y .
Por lo tanto, el modelo ajustado es
y = X

= X(X
t
X)
1
X
t
Y
140 Regresion lineal y multilineal
Ejercicio 4.7.1. Dados los siguientes datos
x 0 1 2 3 4 5 6
y 1 4 5 3 2 3 4
a) Ajuste el modelo cuadratico
E(y/x) =
0
+
1
x +
2
x
2
b) Estime y cuando x = 2
Solucion:
a) Sea x
1
= x y x
2
= x
2
, entonces y =
0
+
1
x
1
+
2
x
2
. Ahora,
X =
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1 0 0
1 1 1
1 2 4
1 3 9
1 4 16
1 5 25
1 6 36
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
y X
t
=
_
_
_
_
1 1 1 1 1 1 1
0 1 2 3 4 5 6
0 1 4 9 16 25 36
_
_
_
_
entonces
X
t
X =
_
_
_
_
1 1 1 1 1 1 1
0 1 2 3 4 5 6
0 1 4 9 16 25 36
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1 0 0
1 1 1
1 2 4
1 3 9
1 4 16
1 5 25
1 6 36
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
=
_
_
_
_
7 21 91
21 91 441
91 441 2275
_
_
_
_
4.7 Regresion lineal multiple 141
Calculando la inversa de X
t
X
(X
t
X)
1
=
_
_
_
_
7 21 91 | 1 0 0
21 91 441 | 0 1 0
91 441 2275 | 0 0 1
_
_
_
_
_
_
_
Pant = 1
Pact = 7

_
_
_
_
7 21 91 | 1 0 0
0 196 1176 | 21 7 0
0 1176 7644 | 91 0 7
_
_
_
_
_
_
_
Pant = 7
Pact = 196

_
_
_
_
196 0 980 | 91 21 0
0 196 1176 | 21 7 0
0 0 16464 | 980 1176 196
_
_
_
_
_
_
_
Pant = 196
Pact = 16464

_
_
_
_
16464 0 0 | 12544 7644 980
0 16464 0 | 7644 7644 1176
0 0 16464 | 980 1176 196
_
_
_
_
dividiendo todo el arreglo anterior entre el ultimo Pact
_
_
_
_
1 0 0 | 16/21 13/28 5/84
0 1 0 | 13/28 13/28 1/14
0 0 1 | 5/84 1/14 1/84
_
_
_
_
Por lo tanto,
(X
t
X)
1
=
_
_
_
_
16/21 13/28 5/84
13/28 13/28 1/14
5/84 1/14 1/84
_
_
_
_
142 Regresion lineal y multilineal
Ahora bien,

= (X
t
X)
1
X
t
Y =
_
_
_
_
16/21 13/28 5/84
13/28 13/28 1/14
5/84 1/14 1/84
_
_
_
_
_
_
_
_
1 1 1 1 1 1 1
0 1 2 3 4 5 6
0 1 4 9 16 25 36
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1
4
5
3
2
3
4
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
=
_
_
_
_
2.4062
0.7143
0.09524
_
_
_
_
Por lo tanto,

0
= 2.4062,

1
= 0.7143 y

3
= 0.09524. Entonces, el modelo de
prediccion es
y = 2.4062 + 0.7143x 0.09524x
2
.
b) E(y/x = 2) = 2.4062 + 0.7143(2) 0.09524(2)
2
= 3.4538.
Ejercicio 4.7.2. Se llevo a cabo un experimento para determinar la distancia de fre-
nado a diferentes velocidades de un modelo nuevo de automovil. Se registraron los
siguientes datos:
Velocidad 35 50 65 80 95 110
Distancia de frenado 16 26 41 62 88 119
a) Ajuste una curva de regresion m ultiple de la forma E(y/x) =
0
+
1
x +
2
x
2
b) Estime la distancia de frenado cuando el vehculo viaja a la velocidad de 70 kmh
Solucion:
Captulo 5
Habilidades basicas
I.- Complete los siguientes:
1. Comprende las tecnicas que se emplean para resumir y describir datos numeri-
cos, de tipo graco, o que requieren analisis computacional.
2. En base a que, en una muestra sometida a observaci on sirven para tomar deci-
siones.
3. Si cuento como observaciones el n umero de alumnos del grupo, se reere a
variable:
4. Si tomo el promedio de peso de los integrantes del grupo, hablo de una variable:
5. Los metodos de muestreo aleatorio son:
6. Cuando aplico muestreo de juicio?
7. Cuando aplico muestreo por conveniencia?
8. Cuando aplico muestreo por subgrupos racionales?
9. Cuando aplico muestreo sistematico?
144 Habilidades basicas
10. Cuando aplico muestreo estraticado?
II.- Instrucciones: Realiza los siguientes ejercicios
11. Con los siguientes datos Datos:
1, 4, 5, 6, 6, 8, 9, 10, 10, 10, 11, 12, 13, 14, 15, 16, 24, 28, 29, 49, 58, 67, 77, 94
a) Construye una tabla de distribucion de frecuencias.
b) Encuentra las medidas de tendencia central y de dispersion.
c) Realiza las gracas de: histograma (o graca de barras seg un convenga),
pastel, polgono de frecuencias.
12. Con los siguientes datos
10, 20, 30, 30, 20, 20, 2040, 60, 60, 60, 60, 70, 90, 80, 100
a) Construye una tabla de distribucion de frecuencias.
b) Encuentra las medidas de tendencia central y de dispersion.
c) Realiza las gracas de: histograma (o graca de barras seg un convenga),
pastel, polgono de frecuencias.
13. Con los siguientes datos
50, 44, 47, 47, 47, 32, 33, 34, 45, 28, 10, 12, 14, 15, 27, 50, 33, 22, 22, 11
a) Construye una tabla de distribucion de frecuencias.
b) Encuentra las medidas de tendencia central y de dispersion.
c) Realiza las gracas de: histograma (o graca de barras seg un convenga),
pastel, polgono de frecuencias.
III.- Instrucciones: Conteste el siguiente cuestionario de acuerdo a los
conocimientos adquiridos en estadistica descriptiva
145
14. Se ocupa una vez hecha la recopilacion de los datos, ordenarlos y clasicarlos
para extraer conclusiones:
15. Estudia las tecnicas de ordenacion, clasicacion, recuento y presentacion de
datos en tablas y gracas, y de obtener valores que resuman la informacion:
16. Es el conjunto de elementos que poseen una determinada caracterstica que
deseamos medir o estudiar:
17. Es la seleccion de un subconjunto de la poblacion:
18. Al n
0
de elementos de una muestra se le denomina:
19. Es la caracterstica que se va a estudiar en la poblacion:
20. Son aquellas que se pueden cuanticar, como la edad, peso, n
0
de hijos, etc.
Ademas es una de las divisiones de caracter:
21. Es el conjunto de valores que toma un caracter estadstico:
22. Son las representaciones que se hacen cuando la variable es continua:
23. Es la representacion que se usa cuando la variable es cualitativa, por ejemplo
color del coche, aunque tambien se puede usar en variable discreta:
IV.- Instrucciones: Conteste el siguiente cuestionario de acuerdo a los
conocimientos adquiridos en Regresion.
24. Que es una lnea de regresion?
25. Como se utilizan las lneas de regresion?
26. Compare los terminos variable dependientey variable independiente.
27. Que mide r
2
?
146 Habilidades basicas
28. Que ventaja tiene la regresion m ultiple con respecto a la regresion lineal?Que desven-
tajas?
29. Como determinara cual de las dos tecnicas: la de regresion lineal o la m ultiple
sera la mas apropiada para una situacion determinada?
30. Compare la nalidad del analisis de regresion con la del analisis de correlacion.
31. Porque es importante trazar un diagrama de dispersion para tecnicas de regre-
sion o correlacion de dos variables?
32. Que signica un signo antes de r?Antes de
1
?
33. En la mayora de las aplicaciones en negocios, que tecnica es mas util la de
correlacion o la de regresion?Por que?
V.- Usando las tecnicas de Regresion Lineal, resuelve los siguientes:
34. Dada la siguiente distribucion:
X 2 2 2 4 7 7 10 10
Y 3 4 5 5 4 5 3 5
Determina la recta de regresion de Y sobre X.
35. En el servicio central de turismo del pas se ha observado que el n umero de plazas
hoteleras ocupadas es diferente seg un sea el precio de la habitacion. Sobre el
total de plazas ocupadas en un a no se tiene:
Precio (US$/noche) 250 650 1000 1400 2100 2500 2700 3300 4000
N
0
hab. ocup. 4725 2610 1872 943 750 700 700 580 500
a) Representa los datos gracamente, para comprobar que existe cierta depen-
dencia lineal entre las variables.
147
b) Halla la ecuacion de la recta de regresion del n umero de habitaciones sobre
el precio. Halla la ecuacion de la recta de regresion del precio sobre el
n umero de habitaciones.
c) Cuantas habitaciones se llenaran a 1500 US$?
36. El volumen de ahorro y la renta del sector familiar en billones de pesos, para el
periodo 77 86 fueron:
A no 77 78 79 80 81 82 83 84 85 86
Ahorro 1.9 1.8 2.0 2.1 1.9 2.0 2.2 2.3 2.7 3.0
Renta 20.5 20.8 21.2 21.7 22.1 22.3 22.2 22.6 23.1 23.5
a) Recta de regresion considerando el ahorro como variable independiente.
b) Recta de regresion considerando la renta como variable independiente
c) Para el a no 87 se supone una renta de 24.1 billones de pesos. Cual sera el
ahorro esperado para el a no 87?
37. Los datos de la tabla adjunta muestran el tiempo en horas de impresion de tra-
bajos que se han imprimido en una impresora laser de la marca HP. Se esta in-
teresado en estudiar la relacion existente entre la variable de interes tiempo
de impresion de un trabajo y la variable explicativa n umero de paginas del
trabajo .
Tiempo 1 2 3 4 5 6 7 8
N
0
Paginas 600 900 1400 1800 2500 3200 3400 4500
a) Encuentre la recta de regresion considerando el tiempo como variable inde-
pendiente.
b) Encuentre la recta de regresion considerando el n umero de paginas como
variable independiente
c) Estime cuantas paginas se imprimiran en 12 horas.
148 Habilidades basicas
VI.- Usando las tecnicas de Regresion M ultiple, resuelve los sigu-
ientes:
[?]
Bibliografa

You might also like