You are on page 1of 94

Contenido

1 Estadstica descriptiva
1.1 Introducci
on . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.1 Que significa estadstica? . . . . . . . . . . . . . . . .
1.1.2 Por que usted necesita conocer estadstica? . . . . . . .
1.1.3 Algunas aplicaciones de la estadstica . . . . . . . . . .
1.1.4 Los computadores, la calculadora y la estadstica . . . .
1.1.5 Terminos com
unmente usados en estadstica . . . . . . .
1.1.6 Estadsticas descriptiva e inferencial . . . . . . . . . . .
1.2 Organizaci
on de datos . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Organizaci
on de datos de acuerdo al tipo . . . . . . . .
1.2.2 Organizaci
on de datos de acuerdo a escalas de medidas .
1.2.3 Organizaci
on de datos mediante tablas . . . . . . . . . .
1.2.4 Organizaci
on de datos mediante representaciones graficas
1.3 Analisis de datos en tablas de frecuencias no agrupadas . . . . .
1.3.1 Medidas de tendencia central o de centralizaci
on . . . .
1.3.2 Medidas de colocaci
on o de posici
on relativa . . . . . . .
1.3.3 Medidas de dispersi
on o de variabilidad . . . . . . . . .
1.3.4 Medidas de formas . . . . . . . . . . . . . . . . . . . .
1.4 Analisis de datos en tablas de frecuencias agrupadas . . . . . . .
1.5 Analisis exploratorio de datos . . . . . . . . . . . . . . . . . . .
1.5.1 Resumen de cinco n
umeros . . . . . . . . . . . . . . . .
1.5.2 Diagrama de caja y bigotes . . . . . . . . . . . . . . . .
1.6 Uso de Statgraphics en la estadstica descriptiva . . . . . . . . .
1.6.1 Analisis de un solo conjunto de datos . . . . . . . . . .
1.6.2 Analisis simultaneo de dos o mas conjuntos de datos . .
1.7 Uso de la calculadora en la estadstica . . . . . . . . . . . . . .
Ejercicios complementarios . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

3
4
4
5
5
7
8
9
11
11
12
13
22
32
33
40
42
53
61
67
67
69
73
73
79
83
85

Contenido

Respuestas a ejercicios impares seleccionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

CAPITULO

Estadstica descriptiva

Contenido
1.1

Introducci
on . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.1 Que significa estadstica? . . . . . . . . . . . . . . . . . .
1.1.2 Por que usted necesita conocer estadstica? . . . . . . . .
1.1.3 Algunas aplicaciones de la estadstica . . . . . . . . . . .
1.1.4 Los computadores, la calculadora y la estadstica . . . . .
1.1.5 Terminos com
unmente usados en estadstica . . . . . . .
1.1.6 Estadsticas descriptiva e inferencial . . . . . . . . . . . .
1.2 Organizaci
on de datos . . . . . . . . . . . . . . . . . . . . .
1.2.1 Organizaci
on de datos de acuerdo al tipo . . . . . . . . .
1.2.2 Organizaci
on de datos de acuerdo a escalas de medidas .
1.2.3 Organizaci
on de datos mediante tablas . . . . . . . . . . .
1.2.4 Organizaci
on de datos mediante representaciones graficas
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
1.3.1 Medidas de tendencia central o de centralizacion . . . . .
1.3.2 Medidas de colocacion o de posici
on relativa . . . . . . . .
1.3.3 Medidas de dispersion o de variabilidad . . . . . . . . . .
1.3.4 Medidas de formas . . . . . . . . . . . . . . . . . . . . . .
1.4 An
alisis de datos en tablas de frecuencias agrupadas . .
1.5 An
alisis exploratorio de datos . . . . . . . . . . . . . . . .
1.5.1 Resumen de cinco n
umeros . . . . . . . . . . . . . . . . .
1.5.2 Diagrama de caja y bigotes . . . . . . . . . . . . . . . . .
1.6 Uso de Statgraphics en la estadstica descriptiva . . . .
1.6.1 Analisis de un solo conjunto de datos . . . . . . . . . . . .
1.6.2 Analisis simultaneo de dos o m
as conjuntos de datos . . .
1.7 Uso de la calculadora en la estadstica . . . . . . . . . . .
Ejercicios complementarios . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

4
4
5
5
7
8
9
11
11
12
13
22
32
33
40
42
53
61
67
67
69
73
73
79
83
85

1.1 Introducci
on

Objetivos del captulo


1. Presentar una vision amplia sobre el campo de estudio de la estadstica y sus aplicaciones.
2. Distinguir entre estadstica descriptiva e inferencial.
3. Estudiar los tipos de datos.
4. Mostrar c
omo organizar datos.
5. Construir tablas y graficas para datos numericos y categoricos.
6. Describir las medidas de tendencia central, de posici
on relativa, de variaci
on y de
forma de los datos numericos.
7. Describir las tecnicas para realizar un analisis exploratorio de datos.
8. Presentar aplicaciones del uso de Statgraphics y de la calculadora en la estadstica.

Empleo de la estadstica
La directora de producci
on de una empresa debe informar a su superior sobre

el n
umero de das promedio que los empleados de la empresa se ausentan del trabajo. Sin embargo, la planta emplea m
as de dos mil trabajadores, y la directora de
producci
on no tiene tiempo de revisar los registros personales de cada empleado.
Como asistente usted debe decidir c
omo puede ella obtener la informaci
on necesaria. Que consejo podra darle?

1.1
1.1.1

Introducci
on
Qu
e significa estadstica?

En la vida diaria los diversos fen


omenos de orden econ
omico, social, poltico, educacional, e incluso biol
ogico, aparecen, se transforman y finalmente desaparecen. Para
tan abundante y complejo material es preciso tener un registro ordenado y continuo a
fin de conseguir en un momento dado los datos necesarios para un estudio de lo que
ha sucedido, sucede o puede suceder. Para ello se requiere contar con un metodo, con
un conjunto de reglas o principios, que nos permita la observaci
on, el ordenamiento, la
cuantificaci
on y el analisis de dichos fen
omenos.
En general, el termino estadstica tiene tres acepciones gramaticales perfectamente
definidas:
1. Estadstica, en su acepci
on mas com
un, no es mas que una colecci
on de datos
numericos ordenados y clasificados seg
un un determinado criterio. Nos referimos
a este significado cuando hablamos de estadsticas de producci
on, estadsticas de
cotizaciones bursatiles, estadsticas demograficas, etc.
2. Estadstica, en una segunda acepci
on, es la ciencia que, utilizando como instrumento a las matematicas y al calculo de probabilidades, estudia las leyes de
comportamiento de aquellos fen
omenos que, no estando sometidos a las leyes
fsicas y basandose en ellas predice e infiere resultados. El termino estadstica
matematica viene a ser el nombre propio de esta acepci
on.

1.1 Introducci
on

3. Finalmente, estadstica, significa en su u


ltima acepci
on, la tecnica o metodo
cientfico usado para recolectar, organizar, resumir, presentar, analizar, interpretar,
generalizar y contrastar los resultados de las observaciones de los fen
omenos reales.
Se considera fundador de la estadstica a Godofredo Achenwall (1719-1772;53),
profesor y econ
omista aleman quien, siendo profesor de la universidad de Leipzig (Alemania), escribi
o sobre el descubrimiento de una nueva ciencia que llam
o estadstica (palabra derivada del termino aleman Staat que significa estado) y que defini
o como
el conocimiento profundo de la situaci
on respectiva y comparativa de cada estado.
Achenwall y sus seguidores estructuraron los metodos estadsticos que se orientaron
a investigar, medir y comparar las riquezas de las naciones. Lo anterior no significa que,
antes de los estudios de G. Achenwall, los estados no hubiesen efectuado inventarios
de sus riquezas. Estos inventarios se efectuaron desde la antig
uedad. Se sabe que 2.000
a 2.500 a
nos antes de Cristo, los inventarios que efectuaron los chinos y los egipcios
eran muy elementales.

1.1.2

Por qu
e usted necesita conocer estadstica?

En general, el problema que enfrentan las compa


nas e industrias no es la escasez de
informaci
on, sino c
omo utilizar la informaci
on disponible para tomar las decisiones mas
adecuadas. Por esta raz
on, desde la perspectiva de una toma de decisiones informada,
cabe preguntarse por que un ingeniero, un administrador y un economista necesita saber
estadstica. Para dar respuesta a esta inquietud podemos decir que estos deben comprender la estadstica, basicamente, por tres razones fundamentales:
1. Presentar y describir la informaci
on en forma adecuada.
2. Inferir conclusiones sobre poblaciones grandes basandose solamente en la informaci
on obtenida de subconjuntos de ellas.
3. Utilizar modelos para obtener pron
osticos confiables.
En el diagrama de la figura 1.1 se presenta un esquema general de las rutas que sugerimos tomar desde la perspectiva de estas tres razones para aprender estadstica. En este
esquema se observa que para tener en cuenta la primera raz
on, se abordan los metodos
referentes a la recopilaci
on, descripci
on y presentaci
on de la informaci
on (que corresponde al captulo 1 de nuestro texto). Para la segunda raz
on, necesitaremos desarrollar
los conceptos de distribuciones muestrales, estimaci
on y pruebas de hip
otesis. Debido
a que estos temas no hacen parte de los objetivos de este texto, s
olo se desarrollaran
los conceptos basicos de probabilidad (captulo 2) y algunas distribuciones (captulos 3,
4 y 5), temas que sirven como base para desarrollar lo expresado en la segunda raz
on.
Para la tercera raz
on, sugerimos realizar el enfoque al analisis de regresi
on, modelado
y analisis de series de tiempo que proporcionan metodos para hacer pron
osticos (temas
que tampoco tratamos en este texto).

1.1.3

Algunas aplicaciones de la estadstica

En esta secci
on presentaremos ejemplos que ilustran algunas de las aplicaciones de la
estadstica en la ingeniera, en la administraci
on y en la economa.

1.1 Introducci
on

Fig. 1.1: Mapa de rutas del texto


Ingeniera
La importancia de la estadstica en la ingeniera ha sido subrayada por la participaci
on
de la industria en el aumento de la calidad. Muchas empresas se han dado cuenta de
que la baja calidad de un producto (ya sea en la forma de defectos de fabricaci
on, en
una baja confiabilidad en su rendimiento, o en ambos), tiene un efecto muy pronunciado
en la productividad global de la compa
na, en el mercado y la posici
on competitiva y,
finalmente, en la rentabilidad de la empresa. Mejorar estos aspectos de la calidad puede
eliminar el desperdicio; disminuir la cantidad de material de desecho, la necesidad de
volver a maquilar las piezas, los requerimientos para inspecci
on y prueba y las perdidas
por garanta. Ademas de mejorar la satisfacci
on del consumidor y permitir que la empresa
se convierta en un productor de alta calidad y bajo costo en el mercado. En este sentido,
la estadstica es un elemento decisivo en el incremento de la calidad, ya que las tecnicas
estadsticas pueden emplearse para describir y comprender la variabilidad.1
Contabilidad
Las empresas de contadura p
ublica emplean procedimientos estadsticos de muestreo
para llevar a cabo auditoras a sus clientes. Por ejemplo, supongamos que una empresa
de contadores desea determinar si la cantidad que aparece en las cuentas por cobrar, en el
balance de un cliente, representa fielmente la cantidad real de ese rubro. Normalmente,
la cantidad de cuentas individuales por cobrar es tan grande que sera demasiado lento y
costoso revisar y validar cada cuenta. En casos como este, regularmente se acostumbra
que el personal del auditor seleccione un subconjunto de las cuentas (llamado muestra).
1

La variabilidad es el resultado de cambios en las condiciones bajo las que se hacen la observaciones.

1.1 Introducci
on

Despues de revisar la exactitud de las cuentas muestreadas, los auditores llegan a una
conclusi
on acerca de si la cantidad que aparece en cuentas por cobrar, en los estados
financieros de sus cliente, es aceptable.
Finanzas
Los asesores financieros recurren a una gama de informaci
on estadstica para guiarse
en sus recomendaciones de inversi
on. En el caso de las acciones, revisan una variedad
de datos financieros, que incluyen relaciones de precio a rendimiento y los dividendos.
Al comparar la informaci
on de determinadas acciones con la correspondiente acerca
de promedios del mercado accionario, un asesor financiero puede comenzar a sacar
conclusiones sobre si esas acciones estan sobre o subevaluadas.
Mercadotecnia
Los escaners en las cajas de los almacenes al detalle se emplean para reunir datos que
tienen muchas aplicaciones de investigaci
on de mercados.
Producci
on
Con el enfasis actual hacia la calidad, el control de calidad es una aplicaci
on importante
de la estadstica en la producci
on. Para vigilar el resultado de un proceso de producci
on
se emplean diversas graficas de control estadstico de calidad, en especial, se usa una
grafica para vigilar el promedio de un producto. Por ejemplo, supongamos que una
maquina llena envases con 12 onzas de una bebida muy conocida. Peri
odicamente
se selecciona una muestra de envases y se le determina su contenido promedio. Este
promedio, o valor x, se anota en una grafica, a partir de la cual se observa si es necesario
ajustar o corregir el proceso de producci
on.
Economa
Con frecuencia se pide a los economistas su pron
ostico acerca del futuro de la economa
o de alguno de sus aspectos. Recurren a diversas informaciones estadsticas para elaborarlo. As, para pronosticar las tasas de inflaci
on usan indicadores como el ndice de
precios al productor, la tasa de desempleo y la ocupaci
on de la capacidad de producci
on.
Muchas veces, esos indicadores estadsticos se introducen en modelos computarizados
de pron
ostico, cuyo resultado son predicciones sobre las tasas de inflaci
on.

1.1.4

Los computadores, la calculadora y la estadstica

El computador se ha convertido en una herramienta importante en la presentaci


on y el
analisis de datos. Si bien muchas tecnicas estadsticas s
olo necesitan una calculadora de
mano, cuyo empleo consume mucho tiempo y esfuerzo, el computador realiza las tareas
con mucha eficiencia.
La mayor parte del analisis estadstico se realiza utilizando una biblioteca de programas estadsticos. El usuario introduce los datos y luego selecciona los tipos de analisis
y la presentaci
on de los resultados que le interesan. Los paquetes estadsticos estan

1.1 Introducci
on

disponibles para grandes sistemas de c


omputo y para computadores personales. Entre
los paquetes mas utilizados estan SAS (Statistical Analysis System), SPSS (Statistical Package for Social Sciencies), Statgraphics e, inclusive, Excel. En la secci
on 1.6
explicaremos c
omo utilizar Statgraphics en la estadstica y en la 1.7, c
omo emplear la
calculadora para hacer calculos estadsticos.

1.1.5

T
erminos com
unmente usados en estadstica

n es el conjunto total de objetos que son de inDefinici


on 1.1.1 Una poblacio
teres para un problema dado. Los objetos pueden ser personas, animales, producto
fabricados, etc. Cada uno de ellos recibe el nombre de elemento o individuo de
la poblaci
on

Ejemplo 1.1.2 Todos los ni


nos nacidos en determinado a
no pueden constituir una poblacion.
Si el director de una gran empresa manufacturera desea estudiar la producci
on de todas
las plantas de propiedad de la firma, entonces, la producci
on de todas estas plantas es la
poblacion.

Definici
on 1.1.3 Una muestra es un subconjunto de la poblaci
on.

Ejemplo 1.1.4 Si todos los ni


nos nacidos en determinado a
no constituyen una poblacion,
entonces, los ni
nos nacidos en el mes de febrero pueden constituir una muestra.

Definici
on 1.1.5 Los datos u observaciones son n
umeros o denominaciones
que podemos asignar a un individuo o elemento de la poblaci
on.

Ejemplo 1.1.6 Son ejemplos de datos: la edad de una persona, la respuesta a la pregunta
Usted fuma?, el tipo de sangre, el salario mensual de una trabajador, etc.

metro es cualquier caracterstica medible de una


Definici
on 1.1.7 Un para
poblaci
on.

Ejemplo 1.1.8 El ingreso promedio de todos los trabajadores de una determinada empresa
es un ejemplo de par
ametro, si todos los trabajadores se consideran como una poblacion.

Definici
on 1.1.9 Un estadstico es cualquier caracterstica medible de una muestra.
Ejemplo 1.1.10 El ingreso promedio de todos los asalariados de una determinada secci
on
de la empresa (viendo a los trabajadores de esta como una muestra de todos los trabajadores
de esta empresa) es un ejemplo de estadstico.

1.1 Introducci
on

Definici
on 1.1.11 Un censo (palabra derivada del latn censere que significa
valuar o tasar) es una enumeraci
on completa de la poblaci
on.

Ejemplo 1.1.12 Seg


un el censo llevado a cabo por el DANE (Departamento Administrativo Nacional de Estadstica), en 1.993 Colombia tena 33.109.840 habitantes, de los cuales
16.296.539 eran hombres y 16.813.301, mujeres.

1.1.6

Estadsticas descriptiva e inferencial

Los procedimientos y analisis que aparecen en estadstica caen en dos categoras generales, estadstica descriptiva (o deductiva) y estadstica inferencial (o inductiva), dependiendo del prop
osito del estudio.
Definici
on 1.1.13 La estadstica descriptiva comprende aquellos metodos que
incluyen tecnicas para recolectar, presentar, analizar e interpretar datos.
En general, la estadstica descriptiva tiene como funci
on el manejo de los datos recopilados en cuanto se refiere a su ordenaci
on y presentaci
on, para poner en evidencia ciertas
caractersticas en la forma que sea mas objetiva y u
til. En este sentido, investiga los
metodos y procedimientos y establece reglas para que el manejo de los datos sea mas
eficiente y para que la informaci
on entregada resulte confiable, y exprese correctamente
ciertos contenidos en un lenguaje que permita que cualquier persona los comprenda y
pueda establecer comparaciones.
Ejemplo 1.1.14 Las siguientes situaciones utilizan estadstica descriptiva:
(a) A un empresario le interesa determinar el promedio semanal total de sus gastos en
algunos productos durante un tiempo determinado.
(b) Una entidad quiere calcular la proporci
on de colombianos encuestados que estan a
favor de determinado candidato poltico.

Definici
on 1.1.15 La estadstica inferencial abarca aquellos metodos y conjuntos de tecnicas que se utilizan para obtener conclusiones sobre las leyes de comportamiento de una poblaci
on bas
andose en los datos de muestras tomadas de esa
poblaci
on.

Ejemplo 1.1.16 Las situaciones siguientes, que son paralelas a las situaciones descriptivas
dadas anteriormente, requieren estadstica inferencial:
(a) Con base en una muestra de estudiantes, cierta universidad desea determinar el porcentaje de estudiantes que fuman.
(b) Con base en una encuesta de opinion, al poltico le gustara calcular la oportunidad
de reelegirse en las proximas elecciones.

1.1 Introducci
on

10

Definici
on 1.1.17 Las tecnicas y metodos utilizados por la ciencia estadstica,
todos
tanto en su parte descriptiva como en la parte inferencial son los llamados me
estadsticos.

Ejercicios de la secci
on 1.1
1. Describa una posible muestra de tama
no 5 de cada una de las siguientes poblaciones:
(a) Todos los periodicos publicados en Colombia.
(b) Todas las empresas importantes de Colombia.
(c) Todos los estudiantes de su curso.
(d) Todos los promedios de calificaciones de los alumnos de su universidad.
2. Una revista publica datos sobre la clasificacion de las 300 corporaciones industriales mas
grandes de un pais, en terminos de ventas y utilidades. En la tabla 1.1 vemos datos acerca
de una muestra de estas 300 compa
nas.
(a) Cuantos elementos hay en este conjunto de datos?
(b) Cual es la poblacion?
(c) Calcule las ventas anuales en la muestra.
(d) Con el resultado del inciso (c), cual es la estimaci
on de las ventas promedio para la
poblacion?

Compa
na
Todo Confort
Alles klar
Ramos del Caribe
Sofort
Express
El u
nico
Integer
Good
Pueblo City
Report Info

Ventas
($ millones)
38.420
20.847
8.071
3.075
8.092
10.272
8.588
6.371
9.844
6.454

Utilidades
($ millones)
2.586,0
5.157,0
234,0
212,2
168,7
1.427,0
213,3
49,7
580,0
87,0

C
odigo del ramo
industrial
12
15
2
22
48
8
11
10
19
19

Tabla 1.1: Muestra de 10 empresas que publica una revista


3. Una empresa desea probar la eficacia de un nuevo comercial de television. Como parte
de la prueba, el comercial se pasa a las 8:30 p.m. en un programa de noticias locales
en cierta ciudad. Tres das despues, una empresa de investigaci
on de mercado lleva a
cabo una encuesta telef
onica para obtener informacion sobre la frecuencia de recuerdos
(procentaje de los telespectadores que recuerdan haber visto el comercial) y las impresiones
del comercial.
(a) Cual son la poblacion y la muestra para este estudio?

1.2 Organizaci
on de datos

11

(b) Por que se necesita usar una muestra en este caso? Explique su respuesta.
4. El se
nor Marim
on, candidato a alcalde de un pueblo peque
no, quiere determinar si debe
hacer una campa
na mas fuerte contra su oponente. Para ello entrevistara a 300 de los
1, 700 votantes registrados. Si los resultados indican que tiene 35% mas votos que su
oponente, no intensificar sus esfuerzos de campa
na contra su rival.
(a) Identifique la poblacion, la muestra, un estadstico y un parametro.
(b) Que hara el se
nor Marim
on si tuviera el 75% de los votos de la muestra?
5. Se estableci
o que el costo promedio de los textos escolares en un colegio peque
no durante
el ultimo a
no fue de $ 354.400, con base en una inscripci
on de 1.500 estudiantes. Como
un trabajo de clase en el colegio, un grupo de estadstica encuesto a 30 estudiantes para
determinar el promedio del costo de un libro de texto en el u
ltimo a
no y se concluy
o que
fue de $ 399.700.
(a) Identifique la poblacion, la muestra, los parametros y dos estadsticos.
(b) Que podra concluir el grupo de estadstica si el costo promedio de un libro para la
muestra de 30 estudiantes fuera de $ 1.050.000?

1.2

Organizaci
on de datos

Nosotros estudiaremos cuatro formas de organizar los datos, a saber, por el tipo de dato,
de acuerdo a escalas de medidas, mediante tablas y mediante representaciones graficas.

1.2.1

Organizaci
on de datos de acuerdo al tipo

Como se ilustra en la figura 1.2, existen dos tipos de datos: categ


oricos (o cualitativos)
y numericos (cuantitativos).

Fig. 1.2: Tipos de datos


ricos o cualitativos representan categoras o atributos
1. Los datos catego
(como, por ejemplo, s o no) que pueden clasificarse como un criterio o cualidad.
ricos o cuantitativos producen respuestas numericas como
2. Los datos nume
el peso en kilogramos o el n
umero de universidades que hay en la Costa Atlantica.
Estos datos son de dos tipos: dicretos y continuos.

1.2 Organizaci
on de datos

12

Los datos discretos producen respuestas numericas que surgen de un


conteo. Ejemplos de datos discretos son la cantidad de universidades que hay
en la Costa Atlantica, el n
umero de estudiantes en la Universidad del Norte
en 2.003, la cantidad de hermanos que tiene un determinado estudiante de
administraci
on, el n
umero de personas en una fila, etc.
Los datos continuos producen respuestas numericas que surgen de un
proceso de medici
on, donde la caracterstica de que se mide puede tomar
cualquier valor numerico en un intervalo. Ejemplos datos continuos son el
peso (en kilogramos) de una persona, su estatura (en metros), el tiempo que
usted tarda en llegar a la Universidad del Norte, etc.

1.2.2

Organizaci
on de datos de acuerdo a escalas de medidas

Los datos tambien se pueden clasificar seg


un la escala de medici
on o el procedimiento
que los gener
o. Cuatro tipos de escalas de medici
on usados en estadstica son las escalas
nominal, ordinal, de intervalo y de raz
on.

Datos de nivel nominal


Un dato nominal se crea cuando se utilizan nombres para establecer categoras con la
condici
on de que cada dato pertenezca u
nica y exclusivamente a una de estas categoras.
Existen escalas nominales tanto para los datos numericos como categ
oricos. Una escala
nominal para datos numericos asigna n
umeros a las categoras. Por ejemplo, entre los
datos numericos que son nominales se incluyen los n
umeros en las camisetas deportivas,
los n
umeros telef
onicos, etc.
Una escala nominal para datos categ
oricos es un agrupamiento no ordenado de los
datos en categoras discretas, donde cada dato puede incluirse solamente en uno de los
grupos. Por ejemplo, los datos nominales que son cualitativos incluyen el genero, la
raza, el tipo de sangre y la religi
on.

Datos de nivel ordinal


Los datos medidos en una escala nominal ordenada de alguna manera se denominan
datos ordinales. Una escala ordinal coloca las medidas en categoras, cada una de
las cuales indica un nivel distinto respecto a un atributo que se esta midiendo. La lista
de datos ordinales comprende:
1. Clasificaciones por letra: A, B, C y D; estos grados indican categoras de perfeccionamiento, as como los niveles alcanzados.
2. Rangos academicos: Doctor, magister, especialista y licenciado.
3. La evaluaci
on de un maestro: insuficiente, aceptable, bueno y excelente.
4. Los grados de la escuela: primero, segundo, tercero, etc.
No es posible determinar la diferencia o distancia entre los valores medidos en una escala
ordinal. Aun cuando codifiquemos las letras A como 4, B como 3, C como 2 y D como

1.2 Organizaci
on de datos

13

1, esto no quiere decir que con A, el estudiante sabe el doble que un estudiante con C.
Todo lo que podemos decir es que la calificaci
on A es mejor o de un grado superior a la
de C, ya que una escala ordinal no admite unidad de distancia.

Datos de nivel de intervalo


Los datos medidos en una escala ordinal para los cuales pueden clasificarse las distancias
entre valores, se llaman datos de intervalos. La distancia entre dos valores es
importante y los datos de intervalo son numericos por necesidad; una escala de intervalo
no siempre tiene un punto cero (es decir, un punto que indique la ausencia de lo que se
quiere medir). La lista de datos de intervalo comprenden:
1. Puntajes en las pruebas de inteligencia. Un puntaje de inteligencia de 110 es cinco
puntos superior a uno de 105 (datos ordinales). En este caso, no s
olo podemos
decir que un puntaje de 110 es superior a uno de 105, sino que tambien podemos
decir que es cinco puntos mas alto; pero no podemos decir que una persona con
un puntaje de inteligencia de 180 es doblemente inteligente que una persona que
tiene uno de 90.
2. Temperaturas Celsius. Una temperatura Celsius de 80 es 40 mas caliente que
una de 40, pero no es correcto decir que 80 es el doble de caliente que 40 .
N
otese tambien que una temperatura de 0 no representa la ausencia de calor. El
punto cero en la escala de temperatura Celsius fue escogido arbitrariamente como
el punto de congelamiento e indica que esta presente algo de calor.
3. Fechas. Brian LLinas naci
o en Mainz (Alemania) en el a
no 2000, 31 a
nos despues
de su padre, el Dr. rer. nat Humberto LLinas (1969). Podemos especificar la
distancia entre estos dos sucesos ordenados, 31 a
nos, pero si existiera el a
no cero,
no representara la ausencia de tiempo.

Datos de nivel de raz


on
Los datos medidos en una escala de intervalo con un punto cero que significa ninguno,
n. Con datos medidos en una escala de raz
se llaman datos de razo
on, podemos determinar cuantas veces es mayor una medida que otra. Las escalas de raz
on incluyen
salarios, unidades de producci
on, peso, altura, etc. El dinero nos da una buena ilustraci
on. Si usted tiene cero pesos, entonces, no tiene dinero. El peso es otro ejemplo.
Si la aguja marca cero en la escala, entonces, hay una completa ausencia de peso (sin
importar si se utiliza distintas escalas de raz
on como kilogramos, gramos o libras). Las
escalas de raz
on tambien incluyen escalas usadas com
unmente para medir unidades como
pies, libras, centmetros, etc. Los resultados de contar objetos tambien son datos de
raz
on como, por ejemplo, diez peras es el doble que cinco.

1.2.3

Organizaci
on de datos mediante tablas

En esta forma de organizaci


on de datos es importante el concepto de frecuencia de un
dato.

1.2 Organizaci
on de datos

14

Definici
on 1.2.1 La frecuencia (absoluta) de un dato, simbolizado con la letra
f, es el n
umero de veces que aparece ese dato en una colecci
on de datos.

Ejemplo 1.2.2 En el conjunto de datos 4 5 5 3 2 6 7 7 7 2, el cuatro solo aparece una vez


(por lo tanto, tiene frecuencia f = 1), el cinco aparece dos veces (o sea, frecuencia f = 2), el
7 tiene frecuencia f = 3, etc.

Existen dos tipos generales de tablas para reportar datos usando frecuencias, estas son:
tablas de frecuencias no agrupadas y tablas de frecuencias agrupadas. Ambas tablas se
mencionan simplemente como tablas de frecuencia.2

Tabla de frecuencias no agrupadas


Son aquellas en donde cada dato tiene la frecuencia correspondiente. Los datos que
organizados en tablas de frecuencias no agrupadas se denominan usualmente datos no
agrupados.
Ejemplo 1.2.3 La tabla de frecuencias (no agrupada) para el conjunto de datos 3 5 7 6 4
3 7 6 6 7 5 7 es
Dato
Frecuencia

3
2

4
1

5
2

6
3

7
4

Tabla de frecuencias agrupadas


Otra posibilidad de organizar datos es agruparlos en intervalos (llamados intervalos
de clase o, simplemente, clases) y determinar la llamada frecuencia de clase
de cada clase, es decir, el total de datos que hay en cada clase. Posteriormente, las
clases y las frecuencias de clase se ubican en una tabla que llamaremos tabla de frecuencias agrupadas . Los datos que organizados en tablas de frecuencias agrupadas
se denominan generalmente datos agrupados.
Ejemplo 1.2.4 La tabla 1.2 es un ejemplo de una tabla de frecuencias agrupada y 10-14 y
15-19 son ejemplos de clases. En ella se presentan las distribuciones de frecuencia para los
datos de tiempo de auditoras de fin de a
no.

Tiempo de auditora (das)


10 - 14
15 - 19
20 - 24
25 - 29
30 - 34

Frecuencia
4
8
5
2
1

Tabla 1.2: Distribuci


on de frecuencias para los datos de tiempo de auditora

En vez del termino tablas de frecuencia se utiliza a menudo distribuci


on de frecuencias.

1.2 Organizaci
on de datos

15

Las clases de frecuencias agrupadas poseen lo que se llama lmites de clase. Consideremos la tabla 1.2. En la clase 10-14, a 10 se le llama lmite inferior de clase y
a 14, lmite superior de clase. La distancia entre cualquiera de dos lmites superiores consecutivos o entre cualquiera de dos lmites inferiores consecutivos es llamada
amplitud de clase. La amplitud de cada clase en la tabla 1.2 es 5.
Cada clase en una tabla de frecuencia tiene lmites de clases te
oricos llamados lmites
reales de clase o frontera de clase (termino que utilizaremos en el texto). Al
lmite superior te
orico se le llama frontera superior de clase (o lmite real
superior de clase) y al lmite inferior te
orico de clase se le llama frontera inferior de clase (o lmite real inferior de clase). En general, para una clase
dada, cualquier frontera se calcula de la siguiente manera:
lmite inf. de la clase dada + lmite sup. de la clase anterior
.
2
Observemos que la frontera inferior de una clase siempre conincide con la frontera superior de la clase superior. Por ejemplo, para los datos de la tabla 1.2, la frontera inferior
para la tercera clase es 19,5 (que es la misma frontera superior de la segunda clase) y la
frontera superior para esa misma clase es 24,5 (que es la misma frontera inferior de la
quinta clase). Todas estas fronteras aparecen ya calculadas en la segunda columna de
la tabla 1.3.
Frontera inferior =

Tiempo de auditora (das)


10 - 14
15 - 19
20 - 24
25 - 29
30 - 34

Fronteras inferior - superior


9,5 - 14,5
14,5 - 19,5
19,5 - 24,5
24,5 - 29,5
29,5 - 34,5

Frecuencia
4
8
5
2
1

Tabla 1.3: Distribuci


on de frecuencias para los datos de tiempo de auditora

El punto medio de cada clase se denomina marca de clase. Es decir, para una clase
dada, la marca de clase se encuentra usando la f
ormula
Marca de clase =

frontera inferior de clase + frontera superior de clase


.
2

Sugerencias para construir una tabla de frecuencias agrupadas


Para construir cualquier tabla de frecuencias agrupadas debe tenerse en cuenta los siguientes comentarios:
1. En la realidad, se acostumbra siempre a agrupar los datos en clases en donde los
extremos de la clase son las respectivas fronteras, en vez de los lmites de clase.
De ahora en adelante, nosotros lo haremos siempre as.
2. Para mayor comodidad en el proceso de construcci
on de las clases, acordaremos
que la primera clase debe contener por lo menos el dato menor (en la realidad,
esto no siempre es as).

1.2 Organizaci
on de datos

16

3. Las clases deben ser mutuamente excluyentes, es decir, cada dato debe quedar
exactamente en una sola clase, no en dos al mismo tiempo.
4. Para mayor comodidad en el proceso de construcci
on de las clases, acordaremos
que todas las clases deben tener la misma amplitud (en la realidad, esto no siempre
es as).
Determinaci
on de la amplitud de clase. Para determinar la amplitud de clase en
cualquier tabla de frecuencias agrupadas, restense dos lmites superiores de clases
consecutivos o dos lmites inferiores de clases consecutivos, o dos fronteras inferiores consecutivas, o dos fronteras superiores consecutivas, o restese la frontera
inferior de una clase de la frontera inferior superior de dicha clase.
5. Mientras menos clases escojamos sera mas facil el trabajo, pero se perdera mas
informaci
on. Debido a que no hay un acuerdo general entre los estadsticos acerca
del n
umero de clases que debe usarse y dado que la elecci
on es arbitraria, para
nuestros fines, escogeremos entre 5 y 20. Una sugerencia u
til para el n
umero de
clases esta dado por la regla de Sturges.
Regla de Sturges. La regla de Sturges establece como n
umero de clases
necesario, aproximadamente
c = 3, 3(log n) + 1,
donde n es el n
umero de medidas y log n es el logaritmo de n en base 10. El
valor de c es com
un redondearlo al entero mas cercano.
Otra regla razonable para el n
umero de clases es

c = n.

6. Luego, determinar el rango R, que es la diferencia entre las medidas mayor y


menor.
7. Posteriormente la amplitud de clase w se encuentra como se muestra en el siguiente recuadro.
Amplitud de clase. La amplitud de clase w se determina calculando el cociente
entre el rango R y el n
umero de clases c. Es decir,
Amplitud de clase w =

R
.
c

El valor de w es com
un redondearlo al entero siguiente.

8. El dato menor debe caer en la primera clase. Por esta raz


on, el lmite inferior de la
primera clase debe estar en, o un poco antes de, el dato menor. As que podemos
establecer un acuerdo general sobre las clases de nuestras tablas de frecuencias

1.2 Organizaci
on de datos

17

agrupadas, empezando siempre la primera clase con la frontera inferior teniendo


en cuenta que el lmite inferior coincide con el dato menor. Cuando hacemos esto,
el valor mnimo que puede tomar la amplitud de clase se determina redondeando
a w al siguiente valor entero.
Ejemplo 1.2.5 (Primer modelo: Los datos son enteros) Construya una tabla de frecuencias agrupadas considerando los siguientes datos.
14
16
20

21
19
19

23
18
24

21
19
28

16
21
15

19
12
22

22
16
24

25
17
20

16
18
22

16
23
24

24
25
22

24
20
20

25
23

19
16

SOLUCION:
Paso 1. Primero determinamos el rango R. Como la medida mayor es 28 y la menor es 12,
entonces, el rango es
R = 28 12 = 16.
Paso 2. El ejemplo no nos dice con cuantas clases debemos construir la tabla de frecuencias
agrupadas. Podemos seleccionar esta cantidad arbitrariamente (entre 5 y 20) o aplicar
la regla de Sturges (que es la que utilizaremos). Como tenemos n = 40 datos, la regla
de Sturges sugiere usar c = 6 clases, porque el n
umero de clase es
c = (3, 3) log 40 + 1 = (3, 3)(1, 60) + 1 = 6, 2867 6.
donde significa aproximadamente igual
que. Observemos que con la otra regla se
obtiene el mismo resultado porque c = 40 = 6, 324 6.
Paso 3. Ahora, determinamos w, la amplitud de cada clase. En este caso,
w =

16
R
=
= 2, 666.
c
6

Como la unidad de precision para los datos es 1, escogemos el mnimo entero mayor
que 2,666 como el valor de la amplitud. En este caso, el mnimo entero mayor que
2,666 es 3. Por lo tanto, w = 3.
Paso 4. A continuacion se construye la primera clase con un ancho de w = 3. Para ello,
primero, tenemos que encontrar las fronteras inferior y superior de esta clase. Como
la unidad de medida es 1 (porque todos los datos son enteros) y como el punto medio
de cada unidad de medida es

Punto medio de cada unidad de medida =

Unidad de medida
1
=
= 0, 5,
2
2

entonces, en este caso, la frontera inferior de la primera clase la hallaremos as:


Front. inf. de primera clase = dato menor punto medio de unidad de medida
= 12 0, 5 = 11, 5.
Es decir, la frontera superior de la primera clase es 11,5. Como la amplitud es w = 3,
entonces, la frontera superior sera
Frontera superior = frontera inferior + amplitud = 11, 5 + 3 = 14, 5.
En consecuencia, la primera clase resulta ser el intervalo 11,5 - 14,5.

1.2 Organizaci
on de datos

18

Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta que
la frontera inferior de la clase precedente coincide con la frontera superior de la clase
anterior y que la amplitud del intervalo es w = 3. De esta forma, las seis clases
resultan ser las siguientes:
Clase
Clase
Clase
Clase
Clase
Clase

1:
2:
3:
4:
5:
6:

11,5
14,5
17,5
20,5
23,5
26,5

14,5
17,5
20,5
23,5
26,5
29,5

(Observe:
(Observe:
(Observe:
(Observe:
(Observe:

17, 5 = 14, 5 + 3)
20, 5 = 17, 5 + 3)
23, 5 = 20, 5 + 3)
26, 5 = 23, 5 + 3)
29, 5 = 26, 5 + 3)

Paso 6. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta.
Si uno de los datos cae en una clase, anotamos una marca (|) en la columna correspondiente a esa clase. La tabla 1.4 contiene la tabla de frecuencias agrupadas para
los 40 datos dados.

Clase
11,5 - 14,5
14,5 - 17,5
17,5 - 20,5
20,5 - 23,5
23,5 - 26,5
26,5 - 29,5

Cuenta
||
||||| |||
||||| ||||| |
||||| |||||
||||| |||
|

Frecuencia
2
8
11
10
8
1

Tabla 1.4: Tabla de frecuencia agrupada con 6 clases para 40 datos


Ejemplo 1.2.6 (Segundo modelo: Datos con un solo lugar decimal) Forme una distribucion de frecuencias considerando los siguientes datos:
8,9
6,8

10,2
9,5

11,5
11,5

7,8
11,2

10,0
14,9

12,2
7,5

13,5
10,0

14,1
6,0

10,0
15,8

12,2
11,5

SOLUCION:
Paso 1. Como la medida mayor es 15,8 y la menor es 6,0, entonces, el rango es
R = 15, 8 6, 0 = 9, 8.
Paso 2. Ya que tenemos n = 20 datos, entonces, por la regla de Sturges debemos usar c = 5
clases, porque el n
umero de clase es
c = (3, 3) log 20 + 1 = (3, 3)(1, 30) + 1 = 5, 2933 5.
donde significa aproximadamente igual que.
Paso 3. Ahora, determinamos w, la amplitud de cada clase. En este caso,
w =

9, 8
R
=
= 1, 96.
c
5

El mnimo entero mayor que 1,96 es 2. Por lo tanto, w = 2.

1.2 Organizaci
on de datos

19

Paso 4. Como la unidad de medida es 0,1 (por tener los datos un solo lugar decimal) y como
el punto medio de cada unidad de medida es

Punto medio de cada unidad de medida =

0, 1
Unidad de medida
=
= 0, 05,
2
2

entonces, la frontera inferior de la primera clase es


Frontera inferior = dato menor 0, 05 = 6, 0 0, 05 = 5, 95
y la frontera superior sera
Frontera superior = frontera inferior + amplitud = 5, 95 + 2 = 7, 95.
En consecuencia, la primera clase es 5,95 - 7,95.
Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta que
la frontera inferior de la clase precedente coincide con la frontera superior de la clase
anterior y que la amplitud del intervalo es w = 2. De esta forma, las seis clases
resultan ser las siguientes:
Clase
Clase
Clase
Clase
Clase

1:
2:
3:
4:
5:

5,95 - 7,95
7,95 - 9,95
9,95 - 11,95
11,95 - 13,95
13,95 - 15,95

(Observe: 9, 95 = 7, 95 + 2)
(Observe: 11, 95 = 9, 95 + 2)

Paso 6. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta.
Si uno de los datos cae en una clase, anotamos una marca (|) en la columna correspondiente a esa clase. La tabla 1.5 contiene la tabla de frecuencias agrupadas para los 20
datos dados. Ademas, all tambien aparecen las marcas de clase X correspondientes
a cada clase. Por ejemplo, la primera marca de clase se calcula as:
X=

6, 0 + 7, 9
= 6, 95.
2

Cada marca de clase sucesiva se encuentra sumando w = 2 a la marca anterior.

Clase
5,95 - 7,95
7,95 - 9,95
9,95 - 11,95
11,95 - 13,95
13,95 - 15,95

Cuenta
||||
||
||||| |||
|||
|||

Frecuencia
4
2
8
3
3

Marcas de clase X
6,95
8,95
10,95
12,95
14,95

Tabla 1.5: Tabla de frecuencia agrupada con 5 clases para 20 datos


Ejemplo 1.2.7 (Tercer modelo: Datos con dos lugares decimales) Forme una distribucion de frecuencias considerando los siguientes datos:
39,78
48,39
35,70

28,30
82,71
17,89

28,31
43,63
60,20

17,95
41,17
48,14

44,47
47,32
22,78

46,65
52,16
38,22

31,47
25,94
23,25

33,45
50,32

29,17
35,25

1.2 Organizaci
on de datos

20

SOLUCION:
Paso 1. El rango es R = 82, 71 17, 89 = 64, 82.
Paso 2. Aplicando la regla de Sturges, obtenemos que el n
umero de clase es
c = (3, 3) log 25 + 1 = (3, 3)(1, 3979) + 1 = 5, 613 6.

Observemos que con la otra regla se obtiene c = 25 = 5. Es decir, podemos construir


la tabla con 5 o con 6 clases. Escogeremos c = 6.
Paso 3. Como c = 6 y R = 64, 82, entonces, w =
10,803 es 11. Por lo tanto, w = 11.

R
c

= 10, 803. El mnimo entero mayor que

Paso 4. Como la unidad de medida es 0,01 (por tener los datos dos lugares decimales) y como
como el punto medio de cada unidad de medida es

Punto medio de cada unidad de medida =

0, 01
Unidad de medida
=
= 0, 005,
2
2

entonces, la frontera inferior de la primera clase es


Frontera inferior = dato menor 0, 005 = 17, 89 0, 005 = 17, 885
y la frontera superior
Frontera superior = frontera inferior + amplitud = 17, 885 + 11 = 28, 885.
En consecuencia, la primera clase es 17,885 - 28,885.
Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta
que la frontera inferior de la clase precedente coincide con la frontera superior de la
clase anterior y que la amplitud del intervalo es w = 11. De esta forma, las seis
clases son como se muestran en la tabla 1.6. All, tabien aparecen las marcas de clase
correspondientes a cada clase.

Clase
17,885 - 28,885
28,885 - 39,885
39,885 - 50,885
50,885 - 61,885
61,885 - 72,885
72,885 - 83,885

Cuenta
||||| ||
||||| ||
||||| |||
||
|

Frecuencia
7
7
8
2
0
1

Marcas de clase X
23,385
34,385
45,385
56,385
67,385
78,385

Tabla 1.6: Tabla de frecuencia agrupada con 6 clases para 25 datos

Tabla de frecuencia relativas, de frecuencias acumuladas y de frecuencias


relativas acumuladas
Son tablas de frecuencias agrupadas o no agrupadas en donde adicionalmente aparecen
las frecuencias relativas, las frecuencias acumuladas y/o las frecuencias acumuladas
relativas.

1.2 Organizaci
on de datos

21

Definici
on 1.2.8 (a) La frecuencia relativa de un dato o de una clase se encuentra dividiendo la frecuencia de dicho dato (o de la clase) entre el total de
datos. Entonces, a la tabla se le llama tabla de frecuencias relativas.
(b) La frecuencia acumulada de cualquier dato o clase, es la suma de la frecuencia de ese mismo dato o clase con las frecuencias de todos los dem
as datos o
clases anteriores. A la tabla se le llama tabla de frecuencias acumuladas.
(c) La frecuencia relativa acumulada de un dato o de una clase se obtiene
dividiendo la frecuencia acumulada del dato o de la clase por el n
umero total de
datos. A la tabla que contiene a estas frecuencias se les denomina tabla de
frecuencias relativas acumuladas.
Ejemplo 1.2.9 En la tabla 1.7 se muestra la tabla de frecuencias relativas, de frecuencias
acumuladas y de frecuencias acumuladas relativas para los 40 datos del ejemplo 1.2.5.

Clase
11,5 - 12,5
12,5 - 15,5
15,5 - 18,5
18,5 - 21,5
21,5 - 24,5
24,5 - 27,5

Frec.
2
8
11
10
8
1

Frec. rel.
2/40 = 0,05
8/40 = 0,20
11/40 = 0,275
10/40 = 0,25
8/40 = 0,32
1/40 = 0,025

5%
20%
27,5%
25%
32%
2,5%

Frec. acum.
2
10 (= 8+2)
21 (= 11+10)
31 (= 21+10)
39 (= 8+31)
40 (= 1+39)

Frec. rel. acum.


2/40 = 0,05
10/40 = 0,25
21/40 = 0,525
31/40 = 0,775
39/40 = 0,975
40/ 40 = 1,0

Tabla 1.7: Tabla de frecuencias relativas, de frecuencias acumuladas y de frecuencias


relativas acumuladas con 6 clases para las datos del ejemplo 1.2.5.

Tablas bivariadas
Una tabla de frecuencias bivariadas es un arreglo de datos clasificados en dos
categoras con sus respectivas frecuencias. Las categoras pueden ser n
umeros discretos,
intervalos numericos o valores cualitativos como genero, color de cabello o religi
on.
Ejemplo 1.2.10 Una encuesta sobre el deporte preferido tuvo los resultados en hombres y
mujeres que se muestran en la siguiente tabla bivariada.

Hombres
Mujeres
Total

Beisbol
19
16
35

Deporte preferido
B
asquetbol
15
18
33

F
utbol
24
16
40

Total
58
50
108

La informaci
on que sigue, entre otras, puede leerse facilmente de la tabla:
(a) Se han encuestado en total a 108 personas.

1.2 Organizaci
on de datos

22

(b) Hay 19 hombres que juegan beisbol.


(c) Hay 40 personas que juegan f
utbol.
(d) Hubo 50 mujeres entrevistadas.

1.2.4

Organizaci
on de datos mediante representaciones gr
aficas

Hay graficas de varios tipos, entre los cuales se encuentran los siguientes: el diagrama
circular o de pastel, el pictograma, el diagrama de barras, el diagrama de caja y bigote,
el histograma, el polgono (de frecuencia o de frecuencias relativas), la ojiva (o polgono
de frecuencias acumuladas o polgono de frecuencias relativas acumuladas) y el diagrama
de tallo y hojas. Discuteremos cada uno de ellos con excepci
on del diagrama de caja y
bigotes, que se introducira en la secci
on 1.5.2.
Diagramas circulares (o de pastel)
Estos diagramas se utilizan para hacer representaciones porcentuales y se utilizan generalmente para datos categ
oricos.
Ejemplo 1.2.11 La siguiente tabla presenta los datos sobre la cantidad de refrescos de
marca A, B, C, D y E que se vendieron en una tienda.
Refresco
A
B
C
D
E

Frecuencia
19
8
5
13
5

Frecuencia relativa
0,38
0,16
0,10
0,26
0,10

Esta informaci
on se puede presentar a traves de un diagrama circular como el que se muestra
en la figura 1.3.

Fig. 1.3: Diagrama de pastel sobre compras de refresco


Para trazarlo se dibuja primero un crculo. A continuacion, con las frecuencias relativas, se
divide el crculo en sectores o partes que corresponden a la frecuencia relativa de cada clase.
Por ejemplo, como hay 360 grados en un crculo, y como el refresco A tiene 0,38 de frecuencia
relativa, el sector del diagrama circular que le corresponde debe tener (0,38)(360)=136,8

1.2 Organizaci
on de datos

23

grados. Se efect
uan c
alculos semejantes para las demas clases, obteniendose el diagrama
de la figura 1.3. Los valores numericos que se ven para cada sector pueden ser frecuencias,
frecuencias relativas o porcentajes.

Pictogramas o pict
ografos
Un pictograma es la representaci
on de datos estadsticos por medio de smbolos que
por su forma sugieren la naturaleza del dato.
Ejemplo 1.2.12 El siguiente pictograma representa una informaci
on sobre las casas construidas en algunos a
nos por una firma constructora. En el se hacen las siguientes convenciones: significa 1.000 casas construidas y significa 500 casas construidas.
A
nos
2.000
2.001
2.002
2.003

Casas construidas

Facilmente se puede interpretar del diagrama que en el a


no 2.000, la firma construyo 5.000
casas y, el 2.002, construyo 5.500 casas.

Diagrama de barras
Es una representaci
on grafica en la que cada una de las modalidades del aspecto de
interes se representa mediante una barra. En este grafico se suelen disponer los datos
en el primer cuadrante de unos ejes coordenados, levantando sobre el eje de las abscisas
una barra para cada modalidad del dato observado. La altura de la barra ha de ser
proporcional a la frecuencia absoluta o relativa, que se representara en el eje de las
ordenadas. Estos diagramas se utilizan tanto para datos categ
oricos como numericos.
Ejemplo 1.2.13 La figura 1.4 muestra un diagrama de barras sobre los datos del ejemplo
1.2.11.

Fig. 1.4: Diagrama de barras para la compra de refrescos

1.2 Organizaci
on de datos

24

Histogramas
Los histogramas son una forma de representaci
on grafica de una distribuci
on de frecuencia que consiste en representar las frecuencias (absolutas, relativas, acumuladas o
relativas acumuladas) por medio de areas de rectangulos (barras). Cuando utilizamos frecuencias absolutas, hablamos de histograma de frecuencias; cuando usamos frecuencias
relativas, histogramas de frecuencias relativas, etc. Los histogramas pueden construirse
para distribuciones de frecuencias agrupadas y no agrupadas.
Histogramas para frecuencias agrupadas
La idea de construir un histograma para frecuencia no agrupada de los datos, es representar cada frecuencia por una barra cuya area sea proporcional a ella. Tpicamente, el
ancho de cada barra se escoge como 1 y as el area de la barra es igual a la frecuencia
(absoluta, relativa, acumulada o relativa acumulada) del dato.
Es importante se
nalar que aqu los datos pueden ser categ
oricos o n
umericos y que
estos se colocan en el horizontal y sus correspondientes frecuencias (absolutas, relativas,
acumuladas o relativas acumuladas) en el eje vertical del diagrama.
Ejemplo 1.2.14 El diagrama que se muestra en la figura 1.4 es un ejemplo de un histograma
para la frecuencia de los datos de compra de refrescos.

Histogramas para frecuencias no agrupadas


Para construir un histograma para datos medidos en una escala de intervalo o en una
escala de raz
on, se acostumbra seguir dos pasos:
Se organizan los datos en una tabla de frecuencias (absolutas, relativas, acumuladas o relativas acumuladas) agrupadas.
Se construye una grafica de barras usando las fronteras de clase para colocar
barras, y las frecuencias (absolutas, relativas, acumuladas o relativas acumuladas)
para indicar las alturas de las barras.
Ejemplo 1.2.15 La tabla de frecuencias (absolutas, acumuladas y relativas) correspondiente a los datos del ejemplo 1.2.6 se muestra en la tabla 1.8.

Clase
5,95 - 7,95
7,95 - 9,95
9,95 - 11,95
11,95 - 13,95
13,95 - 15,95

Frecuencia
4
2
8
3
3

Frecuencia acumulada
4
6
14
17
20

Frecuencia relativa
0,2
0,1
0,4
0,15
0,15

Tabla 1.8: Tabla de frecuencia agrupada para los datos del ejemplo 1.2.6
Los histogramas de frecuencias relativas y de frecuencias acumuladas para estos datos son
como se ve en las figuras 1.5 y 1.6, respectivamente.

1.2 Organizaci
on de datos

25

Fig. 1.5: Histograma de frecuencias relativas para los datos del ejemplo 1.2.6

Fig. 1.6: Histograma de frecuencias acumuladas para los datos del ejemplo 1.2.6
Polgonos
Estos graficos se utilizan para representar series cronol
ogicas y se construye usando una
tabla de frecuencias (absoluta o relativa) agrupadas con marcas de clase. Si se usan
frecuencias absolutas, se denomina polgono de frecuencias y si se utilizan frecuencias
relativas, polgono de frecuencias relativas.
Ejemplo 1.2.16 Construir un polgono de frecuencia para los datos del ejemplo 1.2.6.
SOLUCION:
Consideremos la tabla 1.5 corresponde a la tabla de frecuencias agrupadas para los 20 datos
del ejemplo 1.2.6, con sus correspondientes marcas de clase. Ahora, construimos el polgono
con frecuencias absolutas mostrada en la figura 1.7. Las marcas de clase se colocan en el eje
horizontal y las frecuencias en el eje vertical. Notemos que el polgono se baja en ambos
extremos, colocando el primer y el u
ltimo puntos en puntos del eje horizontal que distan
w = 2 de las marcas de clase m
as cercanas.

1.2 Organizaci
on de datos

26

Fig. 1.7: Polgono de frecuencias para los datos del ejemplo 1.2.6
Ojivas
La ojiva, llamada tambien polgono de frecuencias acumuladas (o polgono de frecuencias relativas acumuladas), se construye a partir de tablas de frecuencias (acumuladas o
relativas acumuladas). Las ojivas ofrecen un medio grafico para interpolar o aproximar
el n
umero o porcentaje de observaciones menores o iguales que un valor especfico.
Ejemplo 1.2.17 La figura 1.8 representa una ojiva con frecuencias acumuladas para los
datos del ejemplo 1.2.6. Para su construcci
on consideramos la tabla 1.8.

Fig. 1.8: Ojiva para los datos del ejemplo 1.2.6


Para localizar los puntos de la ojiva usamos las fronteras superiores de cada clase (ubicadas

1.2 Organizaci
on de datos

27

siempre sobre el eje horizontal) y sus correspondientes frecuencias acumuladas (ubicadas


siempre sobre el eje vertical). Despues unimos los puntos consecutivos por segmentos de
recta (observe que la frecuencia acumulada para la frontera inferior de la primera clase es
0).

Diagrama de tallo y hojas


El uso de una tabla de frecuencia agrupada tiene una desventaja bastante obvia: los datos
originales se pierden en el proceso de agrupamiento. Para salvar esta limitaci
on puede
usarse el llamado diagrama de tallo y hojas. Estos diagramas fueron creados por el
estadstico John Tukey y ofrecen una forma novedosa y rapida de exhibir informaci
on
numerica: si un numeral tiene dos o mas digitos, entonces, se puede descomponer en
una rama y una hoja. Un tallo es el primer dgito o parte del numeral, mientra que
una hoja esta formada por el o los dgitos restantes. Por ejemplo, el numeral 534 se
puede descomponer en dos formas:
5

tallo

34

hoja

53

tallo

hoja

La exhibici
on grafica de datos es muy facil de realizar usando tallos y hojas; cada dato
aporta una hoja de alg
un tallo.
Ejemplo 1.2.18 Los datos de abajo muestran el n
umero de anuncios radiofonicos de 30
segundos pagados el a
no pasado por cada uno de los 45 miembros de una empresa. Organice
los datos en un diagrama de tallo y hojas y determine la forma que toma este diagrama.
Alrededor de que valores tiende a acumularse el n
umero de anuncios? Cu
al es el menor
n
umero de anuncios pagados por un comerciante? El mayor n
umero pagado?
96
107
106

93
125
139

88
155
134

117
155
119

127
103
97

95
112
89

113
127
118

96
117
136

108
120
125

94
112
143

148
135
120

156
132
103

139
111
113

142
125
124

94
104
138

SOLUCION:
En el conjunto de datos se observa que el menor n
umero de anuncios pagados es 88. As es
que el valor del primer tallo sera 8. El n
umero m
as grande es 156. Entonces, los valores de
los tallos empezar
an en 8 e ir
an hasta 15. El primer n
umero en los datos es 96, que tendr
a
como tallo 9 y como hoja 6. Moviendose por el rengl
on superior el segundo valor es 93 y el
tercero 88. Despues de tomar los tres primeros valores del conjunto de datos, su diagrama
es
8
9
10
11
12
13
14
15

8
6

Despuees de organizar todos los datos, el diagrama de tallo y hojas se ve as:

1.2 Organizaci
on de datos

28

8
9
10
11
12
13
14
15

8
6
8
7
7
9
8
6

9
3
7
3
5
5
2
5

5
3
2
7
2
3
5

6
4
7
0
9

4
6
2
5
4

4
3
1
5
6

7
9
0
8

8
4

Lo que suele hacerse es ordenar los valores de las hojas de menor a mayor y, en este caso, el
diagrama final se ver
a as:
8
9
10
11
12
13
14
15

8
3
3
1
0
2
2
5

9
4
3
2
0
4
3
5

4
4
2
4
5
8
6

5
6
3
5
6

6
7
3
5
8

6
8
7
5
9

7
7
7
9

8
7

Del diagrama de tallos y hojas se pueden sacar varias conclusiones como, entre otras, las
siguientes:
Primero, el menor n
umero de anuncios comprados es 88 y el mayor es 156.
Dos comerciantes compraron menos de 90 anuncios y tres, m
as de 150.
Puede observarse, por ejemplo, que los tres comenrciantes que compraron m
as de 150,
compraron 155, 155 y 156 comerciales.
La mayor concentraci
on del n
umero de comerciales esta entre 110 y 130.
Hubo 9 comerciantes que compraron entre 110 y 119 anuncios y que 8 compraron
entre 120 y 129.
Tambien podemos decir que dentro del grupo de 120 a 129 el n
umero de anuncios
comprados se repartio uniformemente.
Dos comerciantes compraron 120, un comenrciante compr
o 124, tres compraron 125
y dos, 127.
Para concentrarnos en la forma que toma el diagrama de tallos y hojas, coloquemos un
rectangulo para representar la cantidad de hojas de cada tallo. Al hacerlo obtenemos la
siguiente representacion:
8
9
10
11
12
13
14
15

8
3
3
1
0
2
2
5

9
4
3
2
0
4
3
5

4
4
2
4
5
8
6

5
6
3
5
6

6
7
3
5
8

6
8
7
5
9

7
7
7
9

8
7

Si giramos la pagina 90 grados en el sentido de las manecillas del reloj, obtenemos una
imagen de los datos que se parece mucho a la de un histograma con clases de 80 a 90,
90 a 100, 100 a 110, etc. Aunque el diagrama de tallos y hojas parece ofrecer la misma
informaci
on que un histograma, tiene dos ventajas principales:

1.2 Organizaci
on de datos

29

1. Es m
as facil de construir.
2. Dentro de un intervalo de clase, el diagrama de tallo y hojas da m
as informaci
on que
un histograma porque muestra los valores reales.

Ejercicios de la secci
on 1.2
6. Clasifique los datos siguientes en cuantitativos (numericos) y cualitativos (categoricos).
En caso de ser numerico, como discretos o continuos:
(a) Estaturas en centmetros de cuatro jugadores de f
utbol.
(b) El n
umero de goles anotados por Pele en toda su carrera deportiva.
(c) Los sueldos ganados por unos profesores universitarios.
(d) Las temperaturas promedios diarias en el u
ltimo mes.
(e) Clasificacion etnica de 30 empleados.
(f) N
umeros telef
onicos ciertas personas.
(g) Calificaciones del primer parcial de Estadstica de unos estudiantes un universitarios.
(h) Distancia (en metros) recorrido por un atleta en una temporada.
(i) Peso perdido (en kilogramos) por 10 personas debido a una dieta.
(j) Fecha de cumplea
nos de determinadas personas.
(k) Calificaciones (E, S, A, D, I) de unos estudiantes de bachillerato.
(l) Rango militar.
7. Diga la clase de graficas que son apropiadas para datos (a) cualitativos, (b) cuantitativos
y (c) nominales.
8. La tabla siguiente contiene la distribuci
on de vehculos que hay en un aparqueadero.
Clase
1
2
3
4

Tipo de vehculo
Taxi
Camioneta
Motocicleta
Bicicleta

Cifra registrada
30
20
35
40

(a) Identifique los datos de cada una de las tres columnas como cuantitativos o cualitativos.
(b) Identifique los datos de la tercera columna como discretos o continuos.
(c) Determine los datos de cada una de las tres columnas como nominales, ordinales, de
intervalo o de raz
on.
9. A continuacion, se presenta una escala numerica para medir la efectividad de la tecnologa
en la ense
nanza de una determinada asignatura: 1, si necesita mejorarse; 3, si es efectiva
y competente; y 5, si es verdaderamente extraordinaria.
(a) Identifique el tipo de escala de medicion.
(b) Suponga que 20 estudiantes usan esta escala para evaluar a su maestro de estadstica.
Sera mas facil interpretar esos resultados que los que se obtendran si los 20 estudiantes evaluaran a su maestro mediante una opinion escrita de respuesta libre?
Explique.

1.2 Organizaci
on de datos

30

10. Los datos anotados representan los totales, en miles de pesos, gastados en fotocopias por
una muestra de 25 estudiantes durante un semestre.
29
42

89
36

77
72

72
69

39
68

47
41

64
52

84
39

88
84

57
45

28
52

63
72

38

Construya una tabla de frecuencias agrupadas usando la regla de Sturges.


11. Los datos adjuntos representan una muestra del aumento de precios (en pesos) de la
gasolina extra en una cierta ciudad a lo largo de un a
no en particular.
123,9
121,9
126,9

127,9
126,9
119,9

130,9
122,8
118,9

121,9
126,9
119,8

132,9
137,9
116,9

120,8
115,9
129,9

115,9
115,9
122,8

117,9
121,9
119,9

131,9

Mediante cinco clases construya una tabla de frecuencias relativas acumuladas agrupadas.
12. Se clasific
o a los estudiantes de un programa universitario de acuerdo a con el semestre
que cursa y su preferencia deportiva. Los resultados estan registrados en la siguiente tabla.
Primero
15
12
5
26
7

F
utbol
Beisbol
Voleivol
Basquetbol
Natacion

Segundo
14
22
5
7
8

Tercero
5
6
9
6
4

Cuarto
9
6
5
7
2

(a) Que porcentaje de los estudiantes de primer semestre prefieren el f


utbol?
(b) Que porcentaje de los aficionados a la natacion son de segundo semestre?
(c) Que porcentaje del total de los estudiantes prefieren el basquetbol?
(d) Que porcentaje de los estudiantes son de cuarto semestre?
(e) Que porcentaje del total de estudiantes son de tercer o cuarto semestre?
(f) Que porcentaje prefiere la natacion, el voleibol o el beisbol?
13. Los siguientes datos representan las cuentas telef
onicas mensuales, en miles de pesos, de
25 residentes de un peque
no pueblo:
21,48
20,35
26,83

21,15
30,22
30,96

25,12
25,49
33,38

23,47
20,80
20,77

27,81
23,83
19,98

19,80
25,35
35,87

36,05
23,48
22,02

28,50
25,81

26,66
21,07

(a) Que porcentaje del grupo pago mas de 21.000 pesos?


(b) Que porcentaje pago mas de 22.000 pesos pero menos de 27.000 pesos?
14. Considere la distribuci
on de frecuencias:
Clase
Frecuencia

20-40
14

40-60
23

60-80
15

80-100
20

100-120
28

Trace un histograma de frecuencias relativas, un histograma de frecuencias relativas acumuladas, un polgono de frecuencias absolutas y una ojiva de frecuencias acumuladas para
estos datos.
15. Los datos que se indican a continuacion representan el costo (en miles de pesos) de la
energa electrica durante un determinado mes del a
no para una muestra aleatoria de 50
apartamentos en cierta ciudad importante:

1.2 Organizaci
on de datos
128
153
135
111
143

31

144
197
191
148
187

168
127
137
213
166

109
82
129
130
139

167
96
158
165
149

141
171
108
157
95

149
202
119
185
163

206
178
183
90
150

175
147
151
116
154

123
102
114
172
130

(a) Obtenga una tabla de frecuencias con 7 intervalos de clase.


(b) Grafique el correspondiente histograma de frecuencias, el polgono de frecuencias
relativas y la ojiva con frecuencias acumuladas relativas.
(c) Alrededor de que cantidad parece concentrarse el costo mensual de energa electrica?
(d) Seg
un su opinion, cual de las graficas representa mejor la distribuci
on de los costos
de energa electrica?
16. Se les pidio a 20 personas que identificaran su preferencia religiosa. Los resultados son:
C

donde C denota catolico; P, protestante; J, judo y A, ateo. Construya una tabla de


frecuencias (absolutas, relativas, acumuladas y acumuladas relativas), un diagrama de
barras, uno circular y un pictograma.
17. Los siguientes datos que aparecen a continuacion presentan los porcentajes de rentabilidad
de las acciones de 25 empresas.
30,8
30,8
30,7

20,3
32,9
20,3

24,0
30,3
24,7

29,6
39,5
18,7

19,4
13,3
36,8

38,0
28,0
31,2

24,5
19,9
50,9

21,5
24,6

25,6
32,3

Construir un diagrama de tallo y hojas, una tabla de frecuencias y con ayuda de esta tabla
responda las preguntas que se formulan en los siguientes incisos:
(a) Que porcentaje de empresas tienen el porcentaje de rentabilidad de las acciones
mayor que 34,25%?
(b) Cuantas empresas tienen el porcentaje de rentabilidad de las acciones entre 20,25%
y 48,25%?
(c) Que porcentaje de empresas tienen el porcentaje de rentabilidad de las acciones
entre 34,25% y 41,25%?
(d) Cuantas empresas tienen el porcentaje de rentabilidad de las acciones menor que
27,25% o mayor que 41,25%?
18. Seg
un un estudio reciente, en cierto pas mueren cada a
no 40.000 mujeres a causa del
cancer de mama y 85.000 a causa de diabetes. Dibujar un diagrama de barras y un
pictograma que represente esta informacion.
19. En 1.986 se produjeron 50,2 nacimientos por cada mil mujeres con una edad entre 15 y 19
a
nos. En 1.991, el n
umero de nacimiento fue de 62,1 por cada mil mujeres de la misma
edad. Dibujar un diagrama de barras que represente esta informacion.
20. De las pelculas que estan en cartelera en una gran ciudad, el 30% son dramas, el 35%
comedias, un 15% son pelculas de accion, otro 6% de ciencia ficci
on, el 10% son policiacas,
y el 4% son de terror. Construir un diagrama circular que represente esta informaci
on.
21. La siguiente tabla se refiere a los usos mas comunes citados en una encuesta realizada
a usuarios de computadores de peque
nas y medianas empresas. Construir un diagrama
circular para representar esta informacion.

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

Area
Contabilidad
Procesadores de texto
Hojas de calculo
Bases de datos
Puntos de venta
Telecomunicaciones
Otros

32

Respuestas (%)
22
12
16
13
1
4
32

22. Un reporte sobre galletas reporto las siguientes calificaciones para varias marcas:
Integral:
No integral:

32
30
47
75

53
40
40
80

50
50
34
47

65
56
62
56

45
30
52
62

40
22
62
50

56
56
53
34

44
68
75
42

62
41
42
36

32

Construya una presentaci


on comparativa de tallo y hoja, ponga en una lista los tallos (en
el centro de la pagina), las hojas integrales a la derecha y las hojas no integrales a la
izquierda. Describa las similitudes y diferencias para los dos tipos.

1.3

An
alisis de datos en tablas de frecuencias no agrupadas

A continuaci
on, estudiaremos las medidas que describen el comportamiento de un conjunto de datos. Estas medidas son: las de tendencia central (o de centralizaci
on), las de
colocaci
on (o de posici
on relativa), las de dispersi
on (o de variabilidad) y las de forma.
Estas se pueden visualizar intuitivamente en las siguientes graficas (que corresponden a
las graficas de los llamados histogramas suavizados):

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

1.3.1

33

Medidas de tendencia central o de centralizaci


on

Al estudiar la informaci
on estadstica mediante su representaci
on grafica, se puso en
evidencia un significativo comportamiento de los datos en cuanto a la frecuencia con
que se presentan los valores: algunos de estos valores son mas frecuentes que otros.
Ademas, se observ
o una clara tendencia de agrupaci
on en el vecindario de los valores
mas frecuentes, haciendo que las graficas representativas adquieran formas especiales.
Por lo general, la mayor densidad de frecuencia esta en la parte central de las graficas,
de aqu deriva el nombre de medidas de tendencia central que se da a la media,
la mediana, la moda, el rango medio, la media geometrica, la media arm
onica y la media
cuadratica. En esta secci
on estudiaremos estas medidas de tendencia central.
Media
tica de cierto conjunto de n
Definici
on 1.3.1 La media aritme
umeros se encuentra sumando los n
umeros y dividiendo despues entre la cantidad de datos. En otras
palabras, si x1, . . . , xn son n
umeros, entonces, la media aritmetica de este conjunto
de n
umeros est
a dada por
Media aritmetica =

x1 + + x n
.
n

tica poblacional, y se simboliza por , cuando el conEn estadstica se habla de media aritme
tica muestral, y se simboliza
junto de datos corresponden a los de la poblaci
on; y de media aritme
por x, cuando se tienen en cuentan los datos de una muestra.

Ejemplo 1.3.2 Supongamos que tenemos la muestra siguiente de edades en a


no de principiantes de una universidad: 18, 18, 18, 18, 19, 19, 19, 20, 20, 21. Entonces, la media
aritmetica de estos datos es
18 + 18 + 18 + 18 + 19 + 19 + 19 + 20 + 20 + 21
x =
= 19.

10

Generalmente, para calcular la media de un conjunto de datos, es mas c


omodo utilizar la
llamada media aritmetica ponderada, la cual es un caso especial de la media aritmetica.
Esta se puede utilizar cuando se tienen varias observaciones con un mismo valor, lo que
puede ocurrir si se han organizado los datos en una tabla de frecuencias.
Definici
on 1.3.3 Sea dada siguiente tabla de frecuencias no agrupadas:
Dato
Frecuencia

x1
f1

x2
f2

...
...

xn
fn

tica pondeen donde fi es la frecuencia del dato xi. Entonces, la media aritme
tica, de los datos x1, . . . , xn se define como
rada o, simplemente, media artime
Media aritmetica =

x1f1 + + xnfn
.
f1 + + fn

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

34

Ejemplo 1.3.4 La media aritmetica de los datos del ejemplo 1.3.2 se pueden calcular con
ayuda de la llamada media aritmetica ponderada. Para ello, organizamos estos datos en una
tabla de frecuencias no agrupadas, tal como
Dato
Frecuencia

18
4

19
3

20
2

21
1

Luego, aplicamos la definicion 1.3.3 y hallamos la media de los datos de la siguiente manera:
x =

(18)(4) + (19)(3) + (20)(2) + (21)(1)


= 19.
4+3+2+1

Desventaja de la media
La media tiene una seria desventaja: se ve afectada por los valores extremos del final de
una distribuci
on. Como depende del valor de cada medida, los valores extremos pueden
llevarla a representar defectuosamente los datos.
Mediana y moda
La mediana y la moda son medidas de tendencia central que no tienen propiedades que
les permitan intervenir en desarrollos algebraicos como la media aritmetica, por eso son
de menor importancia te
orica que ella. Sin embargo, poseen propiedades que ponen en
evidencia ciertas cualidades de un colectivo, cosa que no ocurre con la media aritmetica
que promedia todos los valores igualando en un justo reparto todas las observaciones,
es decir, suprimiendo sus individualidades. En cambio, la mediana y la moda destacan
los valores individuales, de lo que se desprende su utilidad e importancia en cierto tipo
de analisis.
Mediana
Definici
on 1.3.5 Para datos medidos en al menos una escala de intervalo, la
mediana es el puntaje medio ordenado.
Para determinar la mediana de un conjunto de n datos, hay que realizar los siguientes
pasos:
Ordene los datos de menor a mayor con ayuda con ayuda de un diagrama de tallo y hojas
ordenado.
El valor de la mediana depender
a del hecho de que n sea par o impar:
Si n es impar, entonces, la mediana ser
a el dato en el centro, es decir, la mediana es
el dato que se encuentra en el lugar n+1
;
2
si n es par, entonces, la mediana es la media de los dos datos que ocupan posiciones
centrales, es decir, la mediana es el promedio de las datos que se encuentran en los
lugares n2 y n2 + 1.
N
otese que, por ejemplo, n+1
no representa uno de los datos, sino el n
umero de valores que
2
deben contarse para llegar a la mediana.

Ejemplo 1.3.6 El conjunto de n


umeros 3, 4, 4, 5, 6, 8, 8, 8 y 10 tiene mediana 6, puesto
que ya los datos estan ordenados, el n
umero de datos es 9 (impar) y, en este caso, el 6 esta
ubicado en el centro (en el cuarto lugar).

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

35

Ejemplo 1.3.7 El conjunto de n


umeros 5, 5, 7, 9, 11, 12, 15 y 18 tiene mediana 21 (9+11) =
10, puesto que ya los datos estan ordenados, el n
umero de datos es 8 (par), el 9 y el 11 son
los dos datos que ocupan posiciones centrales y 10 es el promedio de estos dos datos.

Ejemplo 1.3.8 Encuentre la mediana para los datos organizados en la siguiente tabla de
frecuencias.
Dato
Frecuencia

0
10

1
10

2
8

3
4

4
8

SOLUCION:
Como los datos se presentan en una tabla de frecuencias no agrupadas, para calcular la mediana es conveniente determinar las frecuencias acumuladas de los datos. Estas se encuentran
en la tabla 1.9.

Dato
0
1
2
3
4

Frecuencia
10
10
8
4
8

Frecuencia acumulada
10
20
28
22
40

Tabla 1.9: Tabla de frecuencia acumulada para los datos del ejemplo 1.3.8
Como el total de datos es n = 40 (par), entonces, la mediana es el promedio de las medidas
n
que estan en las posicones n
2 = 20 y 2 + 1 = 21. Para encontrar la mediana recomendamos
contar los datos en direccion de la medida menor a la mayor. De la tabla es facil ver que el
dato en lugar 20 es 1 y que el dato en la posici
on 21 es 2. Por tanto, la mediana es
Mediana =

1+2
dato en la posici
on 20 + dato en la posici
on 21
=
= 1, 5.
2
2

Ventajas y desventajas de la mediana


El uso de la mediana para datos de intervalo posee tanto ventajas como desventajas.
Una ventaja es que la mediana no se ve afectada por valores extremos al final de la
distribuci
on. La desventaja del uso de la mediana reside en que no es facilmente determinable si el conjunto de datos es grande, puesto que las medidas deben ordenarse
primero y ponerse en orden numerico de menor a mayor o al contrario.
Moda
Definici
on 1.3.9 La moda, si se da, es el dato con mayor frecuencia.

Ejemplo 1.3.10 El conjunto 2, 2, 5, 7, 9, 9, 9, 11 tiene moda 9 porque este valor es el dato


con mayor frecuencia.

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

36

Ventajas y desventajas de la moda


Tiene dos ventajas: Para ciertas muestras peque
nas, se le determina facilmente
y, en general, no se ve afectada por los valores extremos al final de un conjunto
de datos ordenados. Cuando se analizan datos categ
oricos, la moda es el u
nico
dato de tendencia central que puede utilizarse. Finalmente, la moda puede usarse
como una medida de tendencia central para datos numericos empleados en sentido
categ
orico. Una moda para datos en una tabla de frecuencia, se encuentra localizando el valor de frecuencia maxima, si no todas las frecuencias son iguales. El
dato que corresponde al valor de frecuencia maxima se toma como la moda.
Ejemplo 1.3.11 Para los datos del ejemplo 1.2.11, el refresco m
as popular es el A
(es decir, la moda es el refresco A), puesto que es el que m
as se compra.

La moda tiene varias desventajas como medida de tendencia central: una de ellas
es que para un cierto conjunto de datos no puede haber moda. Esta situaci
on
surge cuando todos los datos tienen la misma frecuencia. Otra desventaja es que
la moda puede existir pero no ser u
nica.
Ejemplo 1.3.12

(a) El conjunto 3, 3, 5, 5, 7 y 7 no tiene moda.

(b) El conjunto 3, 3, 5, 5, 5, 7, 7, 7, y 9 tiene dos modas: el 5 y el 7.

Rango medio
Definici
on 1.3.13 El rango medio de un conjunto de datos es el promedio de las
medidas mayor y menor.

Ejemplo 1.3.14 El rango medio del conjunto de datos 32, 38, 45, 44, 27, 36, 40 y 38 esta
dado por
27 + 45
= 36,
Rango medio =
2
ya que 45 y 27 son los datos mayor y menor, respectivamente.

Ventajas y desventajas del rango medio


Con cierta frecuencia el rango medio se utiliza como una medida de resumen tanto para
analisis financiero como para reportes metereol
ogicos, porque puede proporcionar una
medida adecuada, rapida y sencilla que caracteriza a todo el conjunto de datos. No
obstante, a pesar de estas ventajas y de su sencillez, el rango medio se debe utilizar con
cuidado. Como s
olo incluye la observaci
on mas peque
na y la mas grande en un conjunto
de datos, el rango medio es una medida modificada de tendencia central si esta presente
un valor extremo. En estas situaciones, el rango medio no es apropiado.
Media geom
etrica
trica es u
La media geome
til para encontrar los cambios procentuales en una serie
de n
umeros positivos, inclusive, para encontrar el promedio de proporciones, ndices, o

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

37

tasas de crecimiento. Tiene mucha aplicaci


on en el comercio y en la economa porque
nos interesa encontrar el cambio porcentual en las ventas, salarios o datos econ
omicos,
tales como el producto nacional bruto.
trica de un conjunto de n n
Definici
on 1.3.15 La media geome
umeros enteros
positivos se define como la n-esima raz del producto de los n valores. Es decir,
la media geometrica de los n n
umeros positivos x1, . . . , xn se calcula a traves de la
f
ormula
Media geometrica = (x1 xn)1/n.
Si estos n
umeros positivos x1, . . . , xn tienen frecuencias (ponderaciones o pesos)
trica (ponderada) de esf1, . . . , fn, respectivamente, entonces, la media geome
tos n
umeros viene dada por la (f1 + + fn)-esima raz del producto de los valores,
elevando cada uno a su respectiva frecuencia, es decir,
Media geometrica =

xf11 xfnn

1/(f1 ++fn )

La media geometrica siempre ser


a menor que la media aritmetica salvo en el extra
no caso en el que
todos los incrementos porcentuales sean iguales. Si esto u
ltimo sucede, las dos medias ser
an iguales.

Ejemplo 1.3.16 El director ejecutivo de una empresa desea determinar la tasa de crecimiento promedio en los ingresos con base en las cifras dadas en la tabla 1.10. Si la tasa de
creciemiento promedio es menor que el promedio industrial del 10%, se asumira una nueva
campa
na publicitaria.

A
no
1.992
1.993
1.994
1.995
1.996

Ingreso (en d
olares)
50.000
55.000
66.000
60.000
78.000

Porcentaje del a
no anterior

55/50 = 1, 10
66/55 = 1, 20
60/66 = 0, 91
78/60 = 1, 30

Tabla 1.10: Ingresos para una empresa


SOLUCION:
Primero es necesario determinar el porcentaje que los ingresos de cada a
no representan
respecto de los obtenidos el a
no anterior. En otras palabras, que porcentaje del ingreso de
1.992 es el ingreso en 1.993? Esto se encuentra dividiendo los ingresos de 1.992 entre los
de 1.993. El resultado, 1,10 revela que los ingresos de 1.993 son 110% de los ingresos de
1.992. Tambien se calculan los porcentajes para los tres a
nos restantes. Tomando la media
geometrica de estos porcentajes da
Media geometrica = [(1, 10)(1, 2)(0, 91)(1, 3)]1/4 = 1, 1179.
Restando 1 para convertirlo a un incremento anual promedio da 0,1179, o un incremento
promedio de 11,79% para el promedio de cinco a
nos. Por otro lado, la media aritmetica es
x =

1, 1 + 1, 2 + 0, 91 + 1, 3
= 1, 1275
4

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

38

o un cambio promedio de 12,75%. Se divide por 4 ya que se presentaron cuatro cambios


durante el periodo de cinco a
nos. Sin embargo, si un incremento promedio de 12,75%, basado
en la media aritmetica, se aplica a la serie que comienza con 50.000 dolares, los resultados
son
50.000 dolares 1, 1275 =
56.375 d
olares 1, 1275 =

63.563 d
olares 1, 1275 =
71.667 dolares 1, 1275 =

56.375 dolares
63.563 dolares
71.667 dolares
80.805 dolares

Ya que 80.805 dolares excede los 78.000 que la empresa en realidad gan
o, el incremento del
12,75% es obviamente muy alto. Si se utiliza la tasa de crecimiento de la media geometrica
del 11,79%, se obtiene
50.000 dolares 1, 1179 =

55.895 dolares 1, 1179 =


62.485 dolares 1, 1179 =

69.852 dolares 1, 1179 =

55.895 dolares
62.485 dolares
69.852 dolares
78.088 78.000 dolares

Esto da un valor de 78.088 dolares, lo que esta mucho m


as cerca al ingreso real de 78.000
dolares.
Como interpretacion final podemos decir lo siguiente. La media geometrica representa el
cambio promedio con el tiempo. Debido a que la tasa de crecimiento supera el promedio de
la industria del 10%, la nueva campa
na publicitaria no se llevara a cabo.

Ejemplo 1.3.17 Dos pueblos determinados tienen un 48% y un 34%, respectivamente, de


poblacion masculina. Discutir la mayor conveniencia de la media geometrica para promediar
porcentajes.
SOLUCION:
La media aritmetica para estos porcentajes es
48% + 34%
= 41%
2

x =
y la media geometrica,
G =

48% 34% = 40, 4%.

Ahora, la media aritmetica de los porcentajes recprocos es


x =

1
48%

+
2

1
34%

0, 0208 + 0, 0294
= 0, 0251
2

y la media geometrica es

G =

1
1

= 0, 0208 0, 0294 = 0, 0247.


48% 34%

Debido a que
1
= 0, 02439 6= 0, 0251 = x
x
y, en cambio,
1
1
=
= 0, 0247 = G .
G
40, 4%
1
Debido a que x1 6= x y a que G
= G , podemos afirmar que la media geometrica es mejor
que la media artimetica para promediar porcentajes y proporciones.

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

39

A continuaci
on se presenta un ejemplo que ilustra el calculo de la media geometrica de
un conjunto de datos que aparecen en una tabla frecuencias no agrupadas.
Ejemplo 1.3.18 La media geometrica de la distribucion de frecuencias que aparece en la
tabla
Dato
Frecuencia

1
3

3
2

4
3

6
5

viene dada por


Media geometrica =

13 32 43 65

1/13

3, 248.

Media arm
onica
nica es el recproco de la media aritmetica de
Definici
on 1.3.19 La media armo
los datos. Es decir, la media arm
onica de los datos x1, x2, . . . , xn est
a dada por
Media arm
onica =

1
x1

1
x2

n
+ +

1
xn

Si estos datos x1, . . . , xn tienen frecuencias (ponderaciones o pesos) f1, . . . , fn, res nica (ponderada) de estos datos viene
pectivamente, entonces, la media armo
dada por
f1 + f2 + + fn
.
Media arm
onica = f
f2
fn
1
x1 + x2 + + xn
Ejemplo 1.3.20 Una ama de casa ha ido comprando durante cuatro a
nos arroz a distintos
precios:
El primer a
no a $ 1.200 el kilogramo.
El segundo a
no a $ 1.400 el kilogramo.
El tercer a
no a $ 1.600 el kilogramo.
El cuarto a
no a $ 1.700 el kilogramo.
Hallar el costo promedio del arroz durante estos cuatro a
nos, suponiendo que:
(a) El n
umero promedio de kilos consumidos al a
no por el ama de casa es constante.
(b) La cantidad de dinero gastado al a
no es constante.
SOLUCION:
Aqu nos piden calcular el cociente
T := Costo promedio =

Costo total
.
Cantidad total comprada

(a) Si K representa al n
umero de kilos consimidos cada a
no, entonces, el costo promedio T
sera
T

=
=

$ 1.200K + $ 1.400K + $ 1.600K + $ 1.700K


4K
$ 1.200 + $ 1.400 + $ 1.600 + $ 1.700
= $ 1.475 por kilogramo,
4

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

40

lo cual no es m
as que la media aritmetica de los precios.
(b) Ahora, sea D la cantidad de dinero gastado por a
no. Entonces, en este caso, el costo
promedio T sera
T

=
=

D
$ 1.200
1
$ 1.200

D
$ 1.400

1
$ 1.400

4D
D
+ $ 1.600
+
4
+

1
$ 1.600

D
$ 1.700
1
$ 1.700

$4
= $ 1.449, 27 por kilogramo,
0, 00276

lo cual no es m
as que la media armonica de los precios.

La media arm
onica tambien es u
til para promediar velocidades desarrolladas en distancias
iguales, como se ilustra en el siguiente
Ejemplo 1.3.21 Una persona viaja en auto de Barranquilla a Cartagena con una velocidad
media de 60 kilometros por hora y regresa (por la misma va) a una velocidad media de 120
kilometros por hora. Hallar su velocidad media en el viaje completo.
SOLUCION:
Sea D la distancia recorrida por el auto de Barranquilla a Cartagena (que es la misma que
recorre el auto de Cartagena a Barranquilla). Entonces,
Tiempo para ir de Barranquilla a Cartagena =
Tiempo para ir de Cartagena a Barranquilla =

D
,
60km/h
D
.
120km/h

Por consiguiente,
Velocidad media del viaje total

=
=

distancia total
=
tiempo total
D
60km/h

D
60km/h

2D
D
+ 120km/h

2D
= 80km/h,
D
+ 120km/h

que corresponde3 a la media armonica de 60 km/h y 120 km/h. Notemos que uno hubiera
estado tentado de calcular la media aritmetica de 60 km/h y 120 km/h obteniendo 45 km/h,
lo cual es incorrecto.

1.3.2

Medidas de colocaci
on o de posici
on relativa

n o de posicio
n relativa para
Definici
on 1.3.22 Una medida de colocacio
una distribuci
on de frecuencias es aquel valor para el cual una porci
on especfica de
la distribuci
on queda en o debajo de el.
La mediana, los percentiles, deciles y cuartiles son ejemplos de medidas de posici
on relativa.
3

Si las distancias recorridas no son iguales, se llega a una media arm


onica ponderada, en donde
las ponderaciones o pesos son las distancias.

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

41

Percentiles
simo (punto) percentil es un valor tal que por lo
Definici
on 1.3.23 El p-e
menos un p% de los datos tienen dicho o menos de ese valor y, al menos, un
(100 p)% de los datos tienen este valor o m
as.
Para calcular el p-esimo (punto) percentil de un conjunto de n datos, es importante tener
en cuenta los siguientes pasos:
Ordenar los datos de manera ascendente.

Calcular un ndice i a traves de la f


ormula i = np/100, siendo p el percentil de interes y n,
la cantidad de datos.
Decidir de acuerdo a uno de los dos casos:
Si el ndice i no es entero, se redondea al entero siguiente. Este valor aproximado de
i indica la posici
on del p-esimo percentil.
Si i es entero, el p-esimo percentil es el promedio de los valores de los datos ubicados
en las posicones i y i + 1.

Ejemplo 1.3.24 Calcule (a) el 85-esimo punto percentil y (b) el 50-esimo punto percentil
de los siguientes datos que representan los salarios (en millones de pesos) de 12 empleados
en una empresa:
2, 350

2, 450

2, 550

2, 380

2, 255

2, 210

2, 390

2, 630

2, 440

2, 825

2, 420

2, 380.

SOLUCION:
Como primer paso fundamental, debemos ordenar los datos de manera ascendente (preferiblemente, con ayuda de un diagrama de tallo y hojas):
2, 210

2, 255

2, 350

2, 380

2, 380

2, 390

2, 420

2, 440

2, 450

2, 550

2, 630

2, 825.

(a) Para determinar el 85-esimo punto percentil, calcular el ndice i = np/100, con p = 85
y n = 12. Reemplazando, obtenemos que i = 10, 2. En este caso, como i = 10, 2 no
es entero, entonces redondeamos a 11. Por lo tanto, el lugar del 85-esimo percentil es
el lugar 11. En nuestros datos ordenados corresponde a 2,630. Esto quiere decir que el
85% de los empleados de la empresa ganan $2.630.000 o menos de este valor y que el
25% de estos empleados ganan $2.630.000 o m
as que este valor.
(b) En este caso, p = 50. Con ello y con n = 12, obtenemos que i = 6 (que es un n
umero
entero). Es decir, el 50% percentil es el promedio de los valores sexto (2,390) y septimo
(2,420), o sea, 2,405. Observemos que este valor coincide con la mediana del conjunto
de datos. En conclusion, podemos decir que el 50% de los empleados tienen un salario
menor o igual (o mayor o igual) que $2.405.000.

Cuartiles
Como veremos en la siguiente definici
on, los cuartiles son casos particulares de los percentiles.

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

42

Definici
on 1.3.25 Los cuartiles son las medidas de posici
on relativa correspondiente a un conjunto ordenado de datos divididos en cuatro partes (iguales) y se
definen como sigue:
Q1 = primer cuartil o 25-esimo percentil.
Q2 = segundo cuartil o 50-esimo percentil o tambien mediana.
Q3 = tercer cuartil o 75-esimo percentil.
Ejemplo 1.3.26 Calcule todos los cuartiles del conjunto de datos del ejemplo 1.3.24.
SOLUCION:
Como Q2 coincide con la mediana, entonces, Q2 = 2, 405. Calculando los percentelis como
en el ejemplo 1.3.24 podemos verificar que
Q1 =

2, 350 + 2, 380
= 2, 365
2

Q3 =

2, 450 + 2, 550
= 2, 500.
2

Estos resultados se interpretan de la siguiente manera: el valor del primer cuartil significa
que el 25% de los empleados gana al menos $2.365.000 o el 75%, gana m
as de este salario y
el valor del tercer cuartil significa que el 75% de los empleados gana al menos $2.500.000 o
el 25%, gana m
as de este salario.

Deciles
Al igual que los cuartiles, los deciles tambien son casos particulares de los percentiles.
Definici
on 1.3.27 Los deciles son las medidas de posici
on relativa correspondiente a un conjunto de datos (ordenado ascendentemente) que est
a dividido en diez
partes, de tal forma que cada parte contiene aproximadamente 10% de las medidas.
Hay nueve deciles, denotados por D1 , D2 , . . . y D9 .

Si Dn es el n-esimo decil, entonces,

cada punto decil corresponde a un punto percentil. Por ejemplo, D4 es el 40-esimo punto percentil,
D7 es 70-esimo punto percentil, etc.

1.3.3

Medidas de dispersi
on o de variabilidad

Los datos que se presentan en la tabla 1.11 muestran los salarios anuales de siete supervisores de ventas de una empresa y los de siete, de otra empresa. Observemos que
ambos conjuntos de datos tienen la misma media (33.500 d
olares) y la misma mediana
(33.800 d
olares).
Por tanto, si nos limitasemos a fijarnos en las medidas de centralizaci
on, no tendramos
base alguna para distinguir entre la distribuci
on de los salarios en las dos empresas.
Sin embargo, estas dos distribuciones son muy diferentes, como podemos apreciar en
la figura 1.9. Evidentemente que los datos del segundo conjunto estan mucho mas
dispersos que los del primero. Una medida de centralizaci
on, casi nunca es suficiente
por s sola, para analizar adecuadamente las caractersticas de un conjunto de datos. Por

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

Empresa 1:
Empresa 2:

34.500
34.000

30.700
27.500

32.900
31.600

36.000
39.700

34.100
35.300

43

33.800
33.800

32.500
31.700

Tabla 1.11: Salarios anuales (en d


olares) de la plantilla de supervisores de ventas de
dos empresa.

(a) En la primera empresa

(b) En la segunda empresa

Fig. 1.9: Dispersi


on de los salarios anuales de los empleados de dos empresas
(comp
arese con los datos de la tabla 1.11)
lo general, necesitaremos, ademas, una medida de la dispersi
on o variaci
on de los datos,
entre las que analizaremos se encuentran el rango o recorrido, el rango intercuartil, la
desviaci
on, la varianza y la desviaci
on estandar.
Rango
Es la medida de dispersi
on mas simple. Esta medida ya ha sido utilizada en secciones
anteriores.
Definici
on 1.3.28 El rango o recorrido de un conjunto de datos se define
como la diferencia entre el dato m
as alto y el m
as bajo.
Su ventaja es que es f
acil de calcular.

Su desventaja es que considera s


olo dos de la gran

cantidad de datos que hay en un conjunto (de datos), ignorando as el resto de los datos.

Ejemplo 1.3.29 El rango R del conjunto de datos del ejemplo 1.3.24 es


R = $2.825.000 $2.210.000 = $615.000.

Rango intercuartil
Una medida de dispersi
on que elimina la influencia de los valores extremos de los datos
es el rango intercuartil.

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

44

Definici
on 1.3.30 El rango intercuartil, simbolizado por R.I, es la diferencia
entre el tercer y el primer cuartil. Es decir,
R.I = Q3 Q1.
El rango intercuartil contiene el 50% de los datos, dejando a la izquierda el 25% inferior de los
datos y a la derecha, el 25% superior.

Ejemplo 1.3.31 Halle el rango intercuartil del conjunto de datos de la empresa 1 de la


tabla 1.11.
SOLUCION:
Para estos datos, el primer cuartil es 32.500 dolares y el tercer cuartil, 34.500 dolares. Por
lo tanto,
Rango intercuartil = 34.500 32.500 = 2.000 dolares.

Desviaci
on
n de un dato se define como la diferencia entre el
Definici
on 1.3.32 La desviacio
dato y la media del conjunto de datos de donde proviene dicho dato. Es decir, sean
dados los datos x1, . . . , xn. Entonces, la desviaci
on del dato xi se define como
Desviaci
on del dato xi = xi x.
Una desviaci
on positiva para una medida, indica que la medida est
a por encima de la media, mientras
que una desviaci
on negativa nos se
nala que est
a por debajo de la media. Una desviaci
on 0 para un
dato indica que el dato es igual a la media.

Ejemplo 1.3.33 Calcule la desviacion de los puntaje para los datos siguientes, que representen el n
umero de defectos encontrados por un inspector de automoviles en una lnea de
ensamblaje en los u
ltimos cinco automoviles producidos: 1, 4, 6, 6 y 8.
SOLUCION:
Se puede determinar que la media muestral es x = 5. Las desviaciones de los valores se
presentan en la tabla siguiente:
x
1
4
6
6
8

xx
1-5 = -4
4-5 = -1
6-5 = 1
6-5 = 1
8-5 = 3

Podemos observar que


1. Las medidas 6 y 8 estan arriba de la media y sus desviaciones son positivas.
2. Las medidas 1 y 4 estan debajo de la media y sus desviaciones son negativas.
3. La suma de las desviaciones es 0.

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

45

Una propiedad importante que podemos resaltar con respecto la desviaci


on de un dato
es la siguiente:
Teorema 1.3.34 La suma de las desviaciones de los valores para cualquier conjunto
de n
umeros x1, . . . , xn es igual a cero. Esto es, (x1 x) + + (xn x) = 0.
La desviaci
on de los valores puede usarse para describir la dispersi
on de una distribuci
on
dada de datos cuantitativos. Recordemos que la desviaci
on de un valor representa
la diferencia entre un dato y la media del conjunto de datos del cual proviene. En
consecuencia, podramos pensar que el promedio de todas las desviaciones de los valores
proporciona una medida de la dispersi
on de todos los valores, pero eso no ocurre, pues
ya se ha dicho en el teorema 1.3.34 que la suma de todas las desviaciones de los valores
es 0.
Varianza y desviaci
on est
andar (o tpica)
Aunque el rango es una medida de dispersi
on total y el rango intercuartil es una medida
de la dispersi
on de la media, ninguna de estas medidas de variaci
on toma en cuenta
c
omo se distribuyen o se agrupan las observaciones. Dos medidas de uso com
un que
s toman en cuenta la distribuci
on de los valores de los datos son la varianza y su raz
cuadrada, la desviaci
on estandar o tpica. Estas medidas eval
uan la manera en que
fluct
uan los valores respecto a la media.
n de valores se define como
Definici
on 1.3.35 La varianza de una poblacio
el promedio de los cuadrados de las desviaciones de los valores y se denota por 2
(lease sigma cuadrada). La varianza de la poblaci
on de valores x1, . . . , xn est
a
dada por la f
ormula
2 =

(x1 )2 + (x2 )2 + + (xn )2


.
n

n esta
ndar (o tpica) poblacional de un conjunto de datos, simLa desviacio
bolizada por , se define como la raz cuadrada positiva de la varianza poblacional
de los datos. Es decir,
p
= Varianza poblacional.
Por razones de comodidad en los calculos, para determinar la varianza de la poblaci
on
se usa normalmente la f
ormula que aparece en el siguiente

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

46

Teorema 1.3.36 La varianza de la poblaci


on de valores x1, . . . , xn est
a dada por
2 =

x21 + x22 + + x2n


2.
n

Esta f
ormula es equivalente a la que se introdujo en la definici
on 1.3.35 y puede recordarse f
acilmente
mediante la espresi
on: la media de los cuadrados menos el cuadrado de la media.

Ejemplo 1.3.37 Encuentre la varianza y desviacion de los datos 62, 80, 83, 72 y 73 si estos
constituyen una poblacion.
SOLUCION:
La media de estos datos es = 74. Por lo tanto, la varianza poblacional esta dada por
266
(62 74)2 + (80 74)2 + (83 74)2 + (72 74)2 + (73 74)2
=
= 53, 2.
5
5

La desviacion estandar de estos datos es = 53, 2 = 7, 29.


2 =

Definici
on 1.3.38 La varianza de una muestra con valores x1, . . . , xn se denota por s2 y se define por
s2 =

(x1 x)2 + (x2 x)2 + + (xn x)2


.
n1

n esta
ndar (o tpica) muestral de un conjunto de datos , denoLa desviacio
tada por s, se define como la raz cuadrada positiva de la varianza muestral de los
datos. Es decir,

s = Varianza muestral.
Al igual que la varianza poblacional, la varianza muestral se puede calcular de otra manera como se ilustra en el siguiente
Teorema 1.3.39 La varianza muestral de un conjunto de datos x1, . . . , xn se puede
calcular por
(x21 + x22 + + x2n) nx2
.
s2 =
n1
Ejemplo 1.3.40 Encuentre la varianza y desviacion estandar de los datos del ejemplo 1.3.37
si estos constituyen una muestra de una poblacion.
SOLUCION:
Nuevamente, x = 74. Por lo tanto, la varianza muestral esta dada por
266
(62 74)2 + (80 74)2 + (83 74)2 + (72 74)2 + (73 74)2
=
= 66, 5
51
4

y la desviacion muestral, por s = 66, 5 = 8, 15. Observemos c


omo cambia el valor de la
varianza (y, por consiguiente, tambien la desviacion muestral) al considerar los datos como
una muestra o como una poblacion.

s2 =

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

47

Desviaci
on media
Otro tipo de medida de dispersi
on es la que se define a continuaci
on.
n media de un conjunto de datos es la media de
Definici
on 1.3.41 La desviacio
las desviaciones de cada dato. Es decir, la desviaci
on media de los datos x1, . . . , xn
se define como
|x1 x| + |x2 x| + + |xn x|
DM =
.
n
La definici
on es an
aloga para datos poblacionales. Observemos que la desviaci
on media est
a medida
en las mismas unidades que la de los datos.

Ejemplo 1.3.42 Para la poblacion 2, 2, 4, 5 y 2 de las edades (en a


nos) de cinco casas, la
nos. As, la edad de
media es x = 3, con lo que la desviacion media es DM = 6/5 = 1, 2 a
cada casa difiere de la media de la poblacion en un promedio de 1,2 a
nos.

Ventajas y desventajas de la varianza, la desviaci


on est
andar y la desviaci
on
media
Si la varianza se usa por s misma como medida descriptiva de la dispersi
on, es difcil
interpretarla porque las unidades de la varianza son el cuadrado de las unidades de medida. En otras palabras, la desviaci
on estandar se mide con las mismas unidades que
las de los datos originales. Por esta raz
on la desviaci
on estandar se compara con mas
facilidad con el promedio y otros estadsticos que tienen las mismas unidades que los
datos originales.
A la hora de elegir una medida que describa la cantidad de dispersi
on de un conjunto
de datos, la desviaci
on media tiene dos ventajas frente a la desviaci
on tpica. En primer
lugar, es mas facil de interpretar conceptualmente. Es mas sencillo conceptuar el
promedio de las desviaciones respecto de la media que la raz cuadrada del promedio
del cuadrado de las desviaciones respecto de la media. En segundo lugar, dado que en
el calculo de la varianza y de la desviaci
on tpica se elevan al cuadrado las desviaciones
individuales, estas dos medidas se veran mas influenciadas por observaciones extremadamente grandes o extremadamente peque
nas que la desviaci
on media. A pesar de sus
ventajas, la desviaci
on media se emplea con poca frecuencia en la practica, debido a las
complicaciones que pueden surgir si se usa para hacer inferencias sobre una poblaci
on a
partir de las observaciones de una muestra.
La varianza y la desviaci
on estandar tienen una limitaci
on seria: pueden verse afectadas en presencia de observaciones aberrantes, pues ambas dependen de la media, que
se modifica por las medidas extremas. Cuando en un conjunto de datos estan presentes
observaciones aberrantes y se requiere una medida resistente a ellas, debe utilizarse el
rango intercuartil.

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

48

Varianza y desviaci
on tpica para datos en tablas de frecuencia
A menudo tendremos ocasi
on de encontrar la varianza y la desviaci
on estandar para
datos desplegados en una tabla de frecuencia.
Definici
on 1.3.43 Las varianzas poblacional y muestral (ponderadas) de
un conjunto de datos x1, . . . , xn con frecuencias f1, . . . , fn se calculan mediante las
siguientes f
ormulas:
2 =

f1(x1 )2 + + fn(xn )2
,
f1 + + fn

s2 =

f1(x1 )2 + + fn(xn )2
.
(f1 + + fn) 1

Estas medidas se pueden calcular, equivalentemente, de la siguiente manera:



f1 x21 + + fn x2n (f1 + + fn )x2
f1 x21 + + fn x2n
2
2
2
=
,
,
s =
f1 + + fn
(f1 + + fn ) 1
respectivamente.

Ejemplo 1.3.44 Dados los siguientes datos de una poblacion, hallar la media, varianza y
desviacion estandar.
Dato
Frecuencia

28
1

31
10

34
14

37
33

40
14

43
7

46
3

SOLUCION:
Primero construimos la tabla 1.12 que nos ayudar
a en los c
alculos.

Dato x
28
31
34
37
40
43
46
Sumas

Frecuencia f
1
10
14
33
14
7
3
82

fx
28
310
476
1.221
560
301
138
3.034

x
-9
-6
-3
0
3
6
9

(x )2
81
36
9
0
9
36
81

f(x )2
81
360
126
0
126
252
243
1.188

Tabla 1.12: Tabla de frecuencias para el ejemplo 1.3.44


Se encuentra que la media poblacional es
P
3.034
fx
=
= 37.
= P
f
82
Ademas,

y de esta forma =

f(x )2
1.188
P
=
= 14, 4878
f
82

14, 4878 = 3, 806.

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

49

Aplicaciones de la desviaci
on est
andar poblacional
Hasta ahora, hemos visto que la varianza y la desviaci
on estandar son muy u
tiles para
comparar la dispersi
on de dos poblaciones. Pero tambien podemos interpretar la desviaci
on de una u
nica poblaci
on. Concretamente, puede usarse esta cantidad para estimar
el porcentaje de valores de la poblaci
on que se encontraran a menos de una distancia
especfica de la media. Para construir tales estimaciones, utilizaremos dos reglas: la
regla de Tchebychev (valida para cualquier poblaci
on) y la emprica.
Teorema 1.3.45 (Regla de Tchebychev) Para cualquier poblaci
on con media
2
y desviaci
on est
andar , por lo menos el 100(11/k )% de los valores de la poblaci
on
se encuentran a una distancia de la media menor que k veces la desviaci
on est
andar,
para cualquier n
umero k > 1. En otras palabras, dentro del intervalo que va desde
k hasta + k se encuentra por lo menos el 100(1 1/k2)% de los valores de
la poblaci
on.
Para ver como funciona la regla de Tchebychev en la practica, hemos construido la
siguiente tabla:
k
100(1 1/k2)%

1,5
55,6%

2
75%

2,5
84%

3
88,9%

3,5
91,18%

4
93,7%

Es decir, de acuerdo con la regla de Tchebychev, al menos el 55,6% de los valores


de la poblaci
on se encuentran a una distancia de la media menor que 1,5 veces de la
desviaci
on tpica. O, dicho de otra forma, dentro del intervalo que va desde 1, 5
hasta + 1, 5 se encuentra por lo menos el 55, 6% de los valores de la poblaci
on. Esta
situaci
on se ilustra en la figura 1.10.

Fig. 1.10: Ilustraci


on de la regla de Tchebychev

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

50

Ejemplo 1.3.46 Consideremos los datos de la empresa 1 de la tabla 1.11(a), que tena una
media de 33.000 dolares y una desviacion estandar de 1.554 dolares. La regla de Tchebychev
nos dice que, para esta poblacion, al menos el 55% de los salarios deben estar a una distancia
de la media menor que (1,5)(1.554)=2.331 dolares. En otras palabras, dentro del intervalo
que va desde 31.169 dolares a 35.831 dolares estan por lo menos el 55,6% de los salarios.
Analogamente, dentro del intervalo que va desde 30.392 a 36.608 dolares se encuentran por
lo menos el 75% de los salarios.

Ejemplo 1.3.47 Un inspector de control de calidad selecciona aleatoriamente 14 clavos de


una caja de 100 clavos de 1 pulgada (una pulg.=2,54 cm). Las longitudes, en cm, son
2, 54

2, 55

2, 50

2, 60

2, 51

2, 52

2, 70

2, 40

2, 36

2, 53

2, 54

2, 52

2, 51

2, 55.

Si el inspector decide excluir los clavos que estan fuera del intervalo x 2s, cual es el
porcentaje de clavos excluidos? Se verifica la regla de Tchebychev?
SOLUCION:
Vemos que x = 2, 52 y s = 0, 07. Como deseamos desechar los clavos que estan fuera
del intervalo x 2s, es decir, [2, 38; 2, 66], observamos que dos clavos no pertenecen a ese
intervalo (los de longitud 2,70 y 2,36) que corresponde al 14, 28% de la muestra. La regla
de Tchebychev afirma que por lo menos el 75% de los clavos deber
an estar en el intervalo
x 2s, es decir, a lo m
as el 25% estar
an fuera de dicho intervalo, lo cual verifica la regla de
Tchebychev.

La ventaja de la regla de Tchebychev es que se puede aplicar a cualquier poblaci


on.
Pero, en contrapartida, tiene un importante inconveniente. Para muchas poblaciones, el
porcentaje de valores que se encuentran de un intervalo determinado es mucho mayor
que el mnimo asegurado por la regla de Tchebychev. Para poblaciones que tengan
forma acampanada, es posible establecer una regla emprica que proporcione estimaciones fiables.
Teorema 1.3.48 (Regla emprica) Para las poblaciones que tengan forma acampanada, aproximadamente el 68% de los valores de la poblaci
on se encuentran a una
distancia de la media menor que una desviaci
on est
andar, y aproximadamente el
95% est
an a una distancia de la media menor que dos veces la desviaci
on tpica
(comp
arese con la figura 1.11).

Ejemplo 1.3.49 Supongamos que tenemos una poblacion de salarios que tienen forma
acampanada con una media de 33.000 dolares y una desviacion estandar de 1.554 dolares.
La regla emprica estimara que aproximadamente el 68% de los salarios estar
an dentro del
intervalo que va desde 31.946 d
olares a 35.054 y que aproximadamente el 95% estar
a dentro
del intervalo que va desde 30.392 a 36.608 dolares.

El coeficiente de variaci
on
Para comparar las dispersiones de dos o mas conjuntos de valores no podemos confrontar
simplemente las varianzas o las desviaciones estandar respectivas, puesto que estos coeficientes de dispersi
on vienen afectados por la escala de medida del respectivo valor. Es
necesario, por tanto, eliminar esa influencia convirtiendo dichos valores en n
umeros sin

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

51

(a) El 68% de los datos se encuentran en el intervalo (


1, + 1).

(b) El 95% de los datos se encuentran en el intervalo (


2, + 2).

Fig. 1.11: Ilustraci


on de la regla emprica para una poblaci
on con forma acampanada
unidades de medidas. Una medida que cumple perfectamente con este cometido es el
llamado coeficiente de variaci
on de Pearson.
n de Pearson de un conjunto
Definici
on 1.3.50 El coeficiente de variacio
de datos, simbolizado por CV, es igual a la desviaci
on est
andar dividida entre la
media, multiplicada por 100 por ciento. Es decir,


desviaci
on est
andar de los datos
CV =
100%.
media aritmetica de los datos
Observemos que al dividir la desviaci
on estandar por la media aritmetica se elimina la

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

52

influencia de la escala de medida, convirtiendose as el coeficiente de variaci


on en una
medida u
til para comparar conjuntos de datos con diferentes unidades de medida. El
inconveniente de este coeficiente esta en que deja de ser utilizable cuando la media es
igual a cero.
El siguiente ejemplo ilustra el calculo del coeficiente de variaci
on.
Ejemplo 1.3.51 Los siguientes datos representan el promedio de millas por galon diario
por cinco das para un determinado auto: 20, 25, 30, 15, 35. Encuentre el coeficiente de
variaci
on e interprete su respuesta.
SOLUCION:
La media y desviacion estandar de millas por galon estan dadas por x = 25 y s = 7, 9,
respectivamente. Por tanto, el coeficiente de variaci
on de estos datos es


s
7, 9
CV =
100% =
100% = 31, 6%.
x
25
Por consiguiente, el tama
no relativo de la dispersion media alrededor de la media con
relacion a la media es 31,6%.

Como medida relativa, el coeficiente de variaci


on resulta especialmente u
til cuando se
compara la variabilidad de dos o mas conjuntos de datos, que se expresan en diferentes
unidades de medidas. Esto se muestra en el siguiente
Ejemplo 1.3.52 El gerente de operaciones de un servicio de paquetera desea adquirir una
nueva flota de autos. Cuando los paquetes se guardan con eficiencia en el interior de los
autos (durante la preparacion de las entregas), se deben considerar dos restricciones principales: el peso (en libras) y el volumen (en pies c
ubicos) de cada paquete. Ahora, en una
muestra de 200 paquetes, el peso promedio es 26 libras con una desviacion estandar de 3,9
libras. Ademas, el volumen promedio de cada paquete es 8,8 pies c
ubicos con una desviacion
estandar de 2,2 pies c
ubicos. C
omo se puede comparar la variaci
on del peso y del volumen?
SOLUCION:
Como las unidades de medida difieren para las restricciones de peso y volumen, si el
gerente de operaciones desea comparar las fluctuaciones en estas medidas, debe considerar la variabilidad relativa en ambos tipos de medidas. Para el peso, el coeficiente de
variaci
on es CV = (3, 9/26)100% = 15%; para el volumen, el coeficiente de variaci
on es
CV = (2, 2/8, 8)100% = 25%. Entonces, con relacion a la media, el volumen de un paquete
es mucho m
as variable que su peso porque el coeficiente de variaci
on del peso es menor que
el del volumen.

El coeficiente de variaci
on es muy u
til cuando se comparan dos o mas conjuntos de datos
que se miden con las mismas unidades, pero son tan diferentes que una comparaci
on
directa de las desviaciones estandar respectivas no ayuda mucho. Esto se ilustra en el
siguiente
Ejemplo 1.3.53 Un inversionista potencial piensa adquirir acciones en una de dos compa
nas
A o B, listadas en la Bolsa de Valores de Nueva York. Si ninguna de las compa
nas ofrece
dividendos a sus clientes y ambas tienen igual clasificacion (seg
un varios servicios de inversion) en terminos de crecimiento potencial, el posible inversionista quiz
as considere la
volatilidad (variabilidad) de ambas acciones para ayudar en la decision de inversion. En los
u
ltimos meses, el precio promedio de las acciones en la compa
na A fue de 50 dolares con una
desviacion estandar de 10 dolares. Ademas, durante el mismo periodo, el precio promedio

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

53

de las acciones en la compa


na B fue de 12 dolares con una desviacion estandar de 4 d
olares.
C
omo puede determinar el inversionista cu
ales acciones son m
as variables?
SOLUCION:
En terminos de la desviacion estandar, el precio de las acciones de A parece m
as vol
atil
que el de las acciones de B. Sin embargo, como los precios promedio por accion de las dos
compa
nas son tan diferentes, sera conveniente que el inversionista potencial considere la
variabilidad en precio respecto al promedio a fin de examinar la volatilidad/estabilidad de
ambas acciones.
Para la compa
na A, el coeficiente de variaci
on es CV = (10/50)100% = 20%; para la
compa
na B, el coeficiente de variaci
on es CV = (4/12)100% = 33, 3%. Entonces, en relaci
on
con la media, el precio de las acciones B es mucho m
as variable que el de las acciones A.

1.3.4

Medidas de formas

Una vez iniciado el analisis estadstico de sintetizaci


on de la informaci
on, para lo cual
hemos estudiado las medidas de tendencia central, de posici
on relativa y de dispersi
on de
un conjunto de datos, necesitamos conocer mas sobre el comportamiento de tales datos.
Para ello estudiaremos las medidas de forma, las cuales nos proporcionan informaci
on
sobre c
omo se distribuyen los datos.
Las medidas de forma se clasifican en medidas de asimetra (o coeficiente de sesgo)
y medidas de curtosis (o de apuntamiento). A continuaci
on, explicaremos cada una de
ellas. Antes, estudiaremos los conceptos de simetra y asimetra.

Sim
etra y asim
etra
Una distribuci
on de frecuencias sera simetrica o asimetrica seg
un lo sea su representaci
on
grafica.
trica
Definici
on 1.3.54 Decimos que una distribuci
on de frecuencias es sime
cuando lo es su representaci
on gr
afica, es decir, los datos equidistantes a una
medida central de la misma tienen frecuencias iguales. Esta medida central coincide
con la mediana y la media.
trica. La
Una distribuci
on de frecuencias que no es simetrica, se denomina asime
asimetra se puede presentar a la derecha ( asimetra positiva) o a la izquierda
( asimetra negativa) si la representaci
on gr
afica est
a m
as estirada hacia la
derecha o hacia la izquierda, respectivamente.
Los conceptos explicados en la defici
on se ilustran en la figura 1.12. Ahora, consideremos
los siguientes comentarios para el caso en que la distribuci
on de frecuencias tiene una
sola moda:
En una distribuci
on simetrica, la media, la media y la moda siempre coinciden
(comparese con la figura 1.13a). Es decir, se cumple la relaci
on
Media = mediana = moda.

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

(a) Distribuci
on simetrica unimodal

(b) Distribuci
on simetrica bimodal

(c) Distribuci
on asimetrica a
la derecha

(d) Distribuci
on asimetrica a
la izquierda

54

Fig. 1.12: Comparaci


on de cuatro distribuciones cuya forma difiere.
En este tipo de distribuciones, los datos se encuentran repartidos a lo largo del
recorrido de forma que todas las medidas de tendencia central estan justo en el
centro del conjunto de datos.
Si la distribuci
on es asimetrica a la derecha el orden en que aparecen las medidas
de tendencia central es moda-mediana-media (comparese con la figura 1.13b). Es
decir, se cumple la relaci
on
Moda < mediana < media.
Esto es as porque es en el lado derecho d
onde se concentra la mayor frecuencia de
los datos, por lo tanto, observamos una cola larga a la derecha de la distribuci
on.
Si la distribuci
on es asimetrica a la izquierda, el orden en que aparecen es mediamediana-moda (comparese con la figura 1.13c). Es decir, se cumple la relaci
on
Media < mediana < moda.
En este caso, la mayor frecuencia de los datos se concentra en el lado izquierdo.
Por lo tanto, observamos una cola larga hacia la izquierda de la distribuci
on.
Consideremos el caso en que la distribuci
on no es unimodal:
Para distribuciones que no tengan moda, si la media es igual a la mediana, entonces, la representaci
on grafica de la distribuci
on es simetrica.

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

55

Para distribuciones que tengan mas de una moda, la media es igual a la mediana
si y s
olo si la representaci
on grafica de la distribuci
on es simetrica.

(a) Distribuci
on simetrica

(b) Distribuci
on asimetrica a la derecha

(c) Distribuci
on asimetrica a la izquierda

Fig. 1.13: Comparaci


on de tres distribuciones unimodales cuya forma difiere.

Medidas de asimetra
Las medidas de asimetra o coeficientes de sesgo tienen como finalidad la
de elaborar un indicador que permita establecer el grado de simetra (o asimetra) que
presenta una distribuci
on, sin necesidad de llevar a cabo su representaci
on grafica. La
medida de asimetra mas utilizada en la practica es el llamado coeficiente de asimetra
de Pearson.

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

56

Definici
on 1.3.55 El coeficiente de asimetra de Pearson, simbolizado por
Ap, se define como la diferencia entre la media aritmetica y la mediana dividida por
la desviaci
on est
andar. Es decir,
Ap =

Media aritmetica Moda


.
Desviaci
on est
andar

Cuando As = 0, se dice que la distibuci


on es simetrica; cuando As > 0, se dice que la distribuci
on
es sesgada positivamente o a la izquierda y cuando As > 0, se dice que la distribuci
on es
sesgada negativamente o a la derecha.

Consideremos la figura 1.13, en donde mostramos la forma de tres conjuntos de datos.


Los datos en la figura 1.13(a) son simetricos. Por esta raz
on, el coeficiente de
sesgo es cero.
Los datos de la figura 1.13(b) estan sesgados a la derecha. Por lo tanto, el
coeficiente de sesgo es positivo.
Los datos de la figura 1.13(c) estan sesgados a la izquierda. Por consiguiente, el
el coeficiente de sesgo es negativo.
Ahora bien, por diversas razones, el coeficiente de asimetra de Pearson tan s
olo es aplicable en las distribuciones de forma acampanada y unimodales . En distribuciones de
otro tipo se puede utilizar, entre otros, los llamados coeficiente de asimetra de Fisher
y coeficiente de asimetra de Fisher estandarizado.
Definici
on 1.3.56 Los coeficientes de asimetra de Fisher (simbolizado por
g1) y de Fisher estandarizado (simbolizado por gs) de un conjunto de datos
x1, . . . , xn con frecuencias f1, . . . , fn se definen, respectivamente, como
g1 =

(x1 x)3f1 + + (xn x)3fn


,
s3n

g1
gs = p
.
6/n

Si g1 = 0 la distribuci
on es simetrica; si g1 > 0, la distribuci
on es sesgada positivamente, y si
g1 > 0, la distribuci
on es sesgada negativamente. Interpretaciones an
alogas se tienen con el valor
de gs .

Relaci
on emprica entre media, mediana y moda
El siguiente terema fue encontrado empricamente por Pearson. All se puede observar
claramente una relaci
on emprica entre la media, la mediana y la moda.4
4

Tengase en cuenta que, en las distribuciones moderadamente asimetricas, la mediana siempre


se sit
ua entre la media y la moda.

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

57

Teorema 1.3.57 Para distribuciones campanoides, unimodales y moderadamente


asimetricas se cumple aproximadamente la relaci
on emprica
Media Moda 3(Media aritmetica Mediana),
Con lo anterior, el coeficiente de asimetra de Pearson se puede calcular tambien a
traves de la f
ormula
Ap =

3(Media aritmetica Mediana)


.
Desviaci
on est
andar

Medidas de curtosis o apuntamiento


Las medidas de curtosis estudian la distribuci
on de frecuencias en la zona central de la
misma. La mayor o menor concentraci
on de frecuencias alrededor de la media y en la
zona central de la distribuci
on dara lugar a una distribuci
on mas o menos apuntada. Por
esta raz
on, a las medidas de curtosis se aplican a distribuciones campaniformes, es decir,
unimodales simetricas o con ligera asimetra. Para estudiar la curtosis de una distribuci
on
es necesario definir previamente una distribuci
on tipo, que vamos a tomar como modelo
de referencia. Esta distribuci
on es la normal, que s
olo introduciremos en la secci
on ??.
Por esta raz
on, aplazaremos nuestro estudio de la curtosis de una distribuci
on para mas
adelante, una vez que hallamos introducido la distribuci
on normal.

Ejercicios de la secci
on 1.3
23. Responda las siguientes preguntas. Justifique sus respuestas.
(a) Que escala de medida se requiere para la mediana? Y para la moda?
(b) En que condiciones coinciden la media, la mediana y la moda de una muestra?
(c) En que caso sera demasiado grande la diferencia entre la media y la mediana?
(d) Que efecto tiene el tama
no de la muestra en la desviacion estandar y en la varianza?
24. Supongamos que en un conjunto de 10 observaciones la media es 20 y la mediana es 15.
Si hay en ese conjunto dos seis, y todos los otros valores son diferentes, cual es la moda?
25. Veinti
un personas en un salon de clase tienen altura promedio de 168 centmetros. Si al
salon entra una persona adicional, entonces, cual es la altura que debe tener esta persona
para que la altura promedio se incremente en un centmetro?
26. Una empresa de servicio electrico de una ciudad le realiza la lectura del contador de luz a
un usuario, obteniendo los siguientes datos:
Fecha
Agosto 27
Agosto 30
Septiembre 4

Lectura
00553 Kwh
00571 Kwh
00605 Kwh

El recibo de pago le llego al usuario con lectura de 00638 Kwh, realizada el 9 de septiembre,
pero la empresa no dejo constancia de lectura, hecho que motiv
o el reclamo del usuario
alegando que le estaban cobrando de mas. Tiene la raz
on el usuario? Explique.

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

58

27. Un piloto A de la Formula 1 gano 60 carreras de las 152 en las cuales participo, mientras
que otro piloto B gano 52 carreras de las 115 en las que participo. Cual de los dos es
mejor piloto? Explique su respuesta.
28. Durante cierto da caluroso en Barranquilla, se registro una temperatura de 38 C a las
3:00 p.m. De repente un viento fro se hizo acompa
nado con lluvias que hizo descender
la temperatura a 25 C a las 3:35 p.m. Se puede afirmar que la temperatura promedio de
ese da fue de 31,5 C? Justifique sus respuestas.
29. Seg
un el recibo de energa electrica, los consumos de los u
ltimos cinco meses de un usuario
son: 1, 6, 33, 40 y 51 Kwh, respectivamente. Para el sexto mes, el recibo le llega con
una lectura estimada (no real) de 50 Kwh. Debe el usuario reclamar ante la empresa de
energa electrica? Por que?
30. Una cadena de grandes almacenes tiene diez establecimientos. Se analiza el volumen
de ventas durante el perodo de navidad y se comparan con las obtenidas en el mismo
perodo del a
no anterior. Los porcentajes de incrementos de ventas en dolares de los diez
establecimiento fueron
10,2

3,1

5,9

7,0

3,7

2,9

6,8

7,3

8,2

4,3

Halle la media, la mediana, la varianza muestral, la desviacion tpica, el rango y el rango


intercuartil del porcentaje de incremento de ventas en dolares. Interprete sus respuestas.
31. Los neumaticos de cierta marca tiene una duracion de vida con media de 29.000 kilometros
y desviacion tpica de 3.000 kilometros.
(a) Encontrar un intervalo en el que se pueda garantizar que se encuentra por lo menos
el 75% de los tiempos de vida de los neumaticos de esta marca.
(b) Usando la regla imprica y suponiendo que la poblacion tiene forma acampanada,
encontrar un intervalo en el cual se estime que se encuentra aproximadamente el 95%
de los tiempos de vida de los neumaticos de esta marca.
32. Se ha estimado, que la media de la cantidad de dinero que gastan en ropa las mujeres
colombianas es de 500.000 pesos, mientras que para los hombres, la media es de 350.000
pesos. Dibujar un diagrama de barras que represente esta informacion.
33. Considere las siguientes observaciones de resistencia al corte (en megapascales), de una
union pegada de cierta manera:
73,7

36,6

109,9

4,4

33,1

66,7

30,0

81,5

22,2

40,4

16,4

Determine el valor de la media y mediana muestrales. Por que la mediana es tan diferente
de la media?
34. Los valores de presion sangunea se reportan a veces a los 5 mm Hg mas cercanos (100,
105, 110, etc.). Suponga que los valores reales de presion sangunea para nueve individuos
seleccionados al azar son:
130,0

113,7

122,0

108,3

131,5

133,2

118,6

127,4

138,4

(a) Cual es la mediana de los valores reportados de presion sangunea?


(b) Suponga que la presion del octavo individuo es 127,6 en lugar de 127,4 (un peque
no
cambio en su valor). Como afectara esto a la mediana de los valores reportados?
Que dice esto sobre la sensibilidad de la mediana para redondear o agrupar los datos?

1.3 An
alisis de datos en tablas de frecuencias no agrupadas

59

35. La propagaci
on de grietas por fatiga en diversas partes de aeronaves ha sido objeto de
profundo estudio en a
nos recientes. Los datos que aparecen a continuacion constan de
tiempo de propagaci
on (horas de vuelo/104 ) para llegar a un tama
no de grieta dado en
agujeros sujetadores que se usan en aeronaves militares:
0,915
1,132

0,937
1,140

0,983
1,153

1,007
1,253

0,736
1,394

0,863
1,011

0,865
1,064

0,913
1,109

(a) Calcule los valores de la media y mediana muestrales.


(b) En cuanto se puede reducir la observaci
on muestral mas grande, sin afectar el valor
de la mediana?
36. Una manifestacion interesante de la variacion surge cuando se efect
uan los analisis de
emision de gases en los vehculos automotores. Los requisitos de costo y tiempo del
procedimiento federal de prueba (PFT) en cierto pais evitan la difusion de su uso en los
programas de inspeccion vehicular. Como resultado, muchas agencias han desarrollado
analisis menos costosos y mas rapidos con la esperanza de reproducir los resultados.
Seg
un un artculo de una prestigiosa revista, se dice que la eceptaci
on del PFT como
patron de excelencia ha conducido a la creencia de que las mediciones repetidas en el
mismo vehculo daran resultados identicos (o casi). Los autores del artculo aplicaron el
PFT a siete vehculos caracterizados como grandes emisores. Los resultados de uno de
esos vehculos son los siguientes:
HC (g/mi)
CO (g/mi)

32,2
232

32,5
236

13,8
118

18,3
149

(a) Calcule las desviaciones estandar muestrales de las observaciones de HC y CO. Parece
justificada la creencia general?
(b) Compare los coeficientes de variacion de cada conjunto de datos para determinar
cuales presentan mayor o menor variacion.
37. Los puntajes finales de 20 alumnos en un curso de Estadstica son:
50
54

55
77

61
72

60
76

71
81

73
83

53
87

54
44

67
48

67
67

Que proporcion de estos puntajes cae


(a) dentro de 1 desviacion estandar de la media?

(b) dentro de 2 desviaciones estandar de la media?


(c) dentro de 3 desviaciones estandar de la media?

38. Un taller de mecanica acepta una orden por 10.000 ruedas de 2 pulgadas de diametro.
Las especificaciones de tama
no del producto podran ser mantenidas solo si el diametro
medio es de 2 pulgadas y la desviacion estandar es muy peque
na. En este caso, cual es
el margen de tolerancia permitido para la desviacion estandar?
39. Un procesador de alimentos debe envasar su cafe instantaneo en frascos de 400 gramos
y para ello considera que la operacion de llenado esta funcionando adecuadamente si el
peso medio de cada frasco es de 405 gramos y la desviacion estandar es de 1 gramo.
Aproximadamente, cuantos frascos contienen menos de 400 gramos?
40. Millones de habitantes de un cierto pais se levantan cada ma
nana y trabajan en sus propias
casas. Se sugiere que el uso creciente de computadoras es una de las razones por las que
las personas pueden trabajar en empresas caseras. A continuacion vemos una muestra de
datos sobre las edades de esas personas.

1.3 An
alisis de datos en tablas de frecuencias no agrupadas
57
37

31
32

30
44

41
49

22
29

58
44

24
40

50
46

60
29
29

52
31

(a) Calcule la media y la moda.


(b) Suponga que se sabe que la mediana de edad de la poblacion de todos los adultos
es de 35.1 a
nos. Use la mediana de la edad de los datos anteriores para comentar si
los trabajadores en casa tiende a ser mas jovenes o mas viejos que la poblaci
on de
todos los adultos.
(c) Calcule el primer y el tercer cuartil y el 42% percentil. Interprete sus resultados.
41. En una prueba de rendimiento y consumo de gasolina se probaron 13 autos, durante 400
millas, en condiciones de transito en ciudad y en el campo; de lo anterior se obtuvieron
los siguientes datos en millas por galon.
Ciudad:

14,4
16,0
18,3
18,6

Campo:

13,2
15,3
18,6
18,5

15,3
16,2
19,2
18,7

16,8
16,1
17,4
19,0

16,2
15,3
19,4
21,1

16,7
15,2
20,6
19,4

15,9
17,2

Para llegar a una conclusion sobre la diferencia de rendimiento en la ciudad y en el campo,


use la media, la mediana y la moda.
42. La asociacion de Inversionistas Independientes de cierto pais lleva a cabo una encuesta
anual de descuentos con los corredores. En la tabla de datos del ejercicio ?? se ven las
comisiones que se cobran en una muestra de 20 corredores con dos tipos de operaciones:
500 acciones a $ 50 cada una, y 1.000 acciones a $ 5 cada una. Calcule el rango, el rango
intercuartil, la varianza, la desviacion estandar, el coeficiente de variacion y la variabilidad
del costo para cada tipo de transacion.
43. La profesora Greyci borra accidentalmente la calificacion de uno de sus seis estudiantes; las
cinco calificaciones restantes son 3,8; 4,3; 2,2; 4,5 y 3,3; y la media de las seis calificaciones
es 3,5. Encuentre la calificacion que borr
o Greyci.
44. En un esfuerzo por reducir su consumo de cigarillo, un trabajador de oficina registra los
n
umeros siguientes de cigarillos fumados durante un periodo de 21 das:
5

Que la medida de tendencia central le servira mejor para su proposito? Cual es su valor
numerico?
45. La tabla siguiente contiene los salarios (en miles de pesos) de 30 trabajadores.
Salario anual
Frecuencia

550
8

600
6

700
7

800
5

3.000
4

(a) Determine la moda, la media, la mediana, el rango medio y el sesgo.


(b) Cual medida de tendencia usara para determinar el valor central? Explique.
(c) Cual es el primer cuartil, el tercer cuartil y el sexto decil?
(d) Encuentre el rango, la desviacion estandar y el rango intercuartil.
46. Una maestra hizo un examen con el mismo grado de dificultad en cada uno de sus tres
grupos. Con los resultados determino las tres medianas y las promedio para estimar el
punto central de su habilidad profesional. Puede enga
narse al hacer esto? Diga por que.
47. Suponga que una muestra tiene media 26 y desviacion estandar 3,1.

1.4 An
alisis de datos en tablas de frecuencias agrupadas

61

(a) Determine un intervalo que contenga al menos 95% de las medidas de las muestras.
(b) Cual es el mnimo porcentaje de la muestra que esta contenido en el intervalo 18 34?
48. Suponga que una muestra tiene media 542 y desviacion estandar 10,4.
(a) Determine un intervalo que contenga al menos 93% de las medidas de las muestras.
(b) Cual es el mnimo porcentaje de la muestra que esta contenido en el intervalo 523,22
- 567,22?
49. La tabla siguiente da una muestra de los tiempos de recorrido (en minutos) de un camino
de 2,5 millas para el carro de Humberto y el de Greyci.
Humberto
Greyci

0,8
1,1

0,9
0,9

1,0
1,4

0,9
1,3

1,0
1,3

1,0
1,3

0,9
1,0

1,0
0,9

(a) Encuentre el promedio de los tiempos de recorrido para cada uno de los carros.
(b) Calcule la varianza de los tiempos de recorrido para cada uno de los carros, respectivamente.
(c) Que auto tuvo un desempe
no mas consistente, si la consistencia se mide con la
varianza?
(d) Encuentre el coeficiente de variacion para cada carro y comente al respecto.
50. Una gran lechera vigila continuamente el nivel de contenido de grasa en su producto. El
porcentaje de grasa no debe desviarse mucho del 1% de la leche, siendo aceptable una
desviacion estandar del 8%. Se obtuvo una muestra de 20 cartones de leche y se registro
el porcentaje grasa en cada uno. Los resultados se anotan a continuacion:
1,97
2,14

1,80
1,93

2,05
2,08

2,23
2,17

1,65
1,91

1,86
1,93

1,85
2,02

2,25
2,09

2,01
2,04

1,90
2,07

Calcule la media y la desviacion estandar para la muestra de contenidos de grasa. Hay


evidencia de que el contenido de grasa es demasiado alto? Explique.

1.4

An
alisis de datos en tablas de frecuencias agrupadas

Es posible calcular las medidas de tendencia central y dispersi


on para datos exhibidos
en una tabla de frecuencia agrupada, pero sus valores no son exactos sino u
nicamente
aproximados. Eso se debe al desconocimiento de las medidas en grupo, las cuales se
han colocado en intervalos de clase. En esta secci
on, describiremos procedimientos
para calcular medidas numericas que resuman la informaci
on cuando s
olo disponemos
de datos agrupados.

Media para datos agrupados


Si debemos encontrar la media para datos proporcionados en tablas de frecuencia agrupada, usamos marcas de clase para representar las medidas para cada clase. De esta
forma, usamos la f
ormula conocida de la media aritmetica para determinar la llamada
media muestral aproximada xa, puesto que los datos originales se desconocen y
cada observaci
on esta representada por su marca de clase.

1.4 An
alisis de datos en tablas de frecuencias agrupadas

62

Ejemplo 1.4.1 Los datos siguientes representan el n


umero de personas que han entrado a
un establecimiento diariamente durante un periodo de 25 das.
60
49

36
57

61
54

56
59

19
28

35
63

51
38

42
15

21
24

28
35

33
46

67
53

30

Los
datos han sido agrupados en la tabla de frecuencias agrupadas 1.13 usando la formula
umero de clases.
c = n para el n

N
umero de personas
14,5 - 25,5
25,5 - 36,5
36,5 - 47,5
47,5 - 58,5
58,5 - 69,5

N
umero de das
4
7
3
6
5

Tabla 1.13: Tabla de frecuencias agrupadas para el ejemplo 1.4.1


umero de personas que entran por da.
(a) Calcular la media x del n
(b) Calcular la media aproximada xa del n
umero de personas que entran por da.
SOLUCION:
(a) Se puede comprobar que la media de los datos es x = 42, 4.
(b) Primero debemos calcular la marca de cada clase (recordemos que una marca de clase
es el punto medio de cada intervalo de clase). Cada marca de clase se multiplica por su
frecuencia correspondiente, como se muestra en la tabla 1.14.

N
umero de personas
14,5 - 25,5
25,5 - 36,5
36,5 - 47,5
47,5 - 58,5
58,5 - 69,5
Sumas

N
umero de das f
4
7
3
6
5
25

Marca de clase X
20
31
42
53
64

fX
80
217
126
318
320
1.061

Tabla 1.14: Tabla de frecuencias para el ejemplo 1.4.1


Por consiguiente, la media aproximada es
P
fx
1.061
xa = P
= 42, 44,
=
25
f
el cual es solo un valor aproximado para la media de las 25 medidas muestrales originales.
La aproximacion se considera buena comparada con el valor exacto x = 42, 40, obtenido
en la parte (a).

1.4 An
alisis de datos en tablas de frecuencias agrupadas

Clase
49,5 - 59,5
59,5 - 69,5
69,5 - 79,5
79,5 - 89,5
89,5 - 99,5
99,5 - 109,5

Frecuencia
3
7
18
12
8
2

63

Frecuencia acumulada
3
10
28
40
48
50

Tabla 1.15: Distribuci


on de frecuencia

Mediana para datos agrupados


Si se han registrado datos en una tabla de frecuencias, no pueden colocarse en un arreglo
ordenado para calcular la mediana. A manera de ilustraci
on, presentamos la siguiente
tabla de frecuencias:
Primero se halla la clase de la mediana de la distribuci
on de frecuencia. La clase
mediana es la mnima clase cuya frecuencia acumulada es mayor o igual a n/2, siendo
n el n
umero total de datos. Debido a que n es igual a 50, se necesita localizar la primera
clase que tenga una frecuencia acumulada de 25 o mas. En este caso, la tercera clase
es la clase mediana porque tiene una frecuencia acumulada de 28. La mediana puede
determinarse entonces como


n/2 F
w,
Mediana = Lmed +
fmed
en donde
Lmed es la frontera inferior de la clase de la mediana (de la tabla, es 69,5),
F es la frecuencia acumulada de la clase que antecede a la clase de la mediana (en
este caso, es la frecuencia acumulada correspondiente a la segunda clase, o sea
F = 10),
fmed es la frecuencia de la clase de la mediana (en este caso, f = 18),
w es la amplitud del intervalo de clase de la clase de la mediana (w = 10).
Es decir,
Mediana = 69, 5 +

25 10
18

10 = 77, 83.

Moda para datos agrupados


Una desventaja de usar la moda con una distribuci
on de frecuencia agrupada es que
el valor de la moda a menudo depende del agrupamiento arbitrario de los datos. La
clase que contiene al mayor n
umero de datos suele denominarse clase modal o moda
cruda.

1.4 An
alisis de datos en tablas de frecuencias agrupadas

64

Para estimar la moda en el caso de datos agrupados, se utiliza la siguiente f


ormula:


Da
w,
Moda = Lmod +
Db + Da
en donde
Lmod es la frontera inferior de la clase modal (por ejemplo, de la tabla de la figura
1.15, Lmod = 69, 5),
Da es la diferencia entre la frecuencia de la clase modal y de la clase que la
antecede (por ejemplo, de la tabla de la figura 1.15, Da = 18 7 = 11),
Db es la diferencia entre la frecuencia de la clase modal y de la clase que le sigue
(por ejemplo, de la tabla de la figura 1.15, Db = 18 12 = 6),
w es el ancho del intervalo de clase de la clase modal (por ejemplo, de la tabla de
la figura 1.15,w = 10).
De la tabla 1.15, la moda es
Moda = 69, 5 +

11
6 + 11

10 = 75, 97.

Rango medio para datos agrupados


Para datos organizados en una tabla de frecuencias agrupadas, el rango medio es aproximadamente el promedio de la frontera inferior de clase de la primera clase y la frontera
superior de clase de la u
ltima clase.
Ejemplo 1.4.2 El rango promedio aproximado para los datos del ejemplo 1.4.1 es
Rango promedio =

26, 5 + 47, 5
= 74.
2

Puntos de posici
on para datos de una tabla de frecuencia agrupada
Supongamos que queremos encontrar el sexagesimo punto percentil de los datos que
presentamos en la tabla 1.15. Para ello, primero debemos hallar la clase del sexagesimo
simo
punto percentil de la distribuci
on de frecuencias. En general, la clase del p-e
punto percentil es la mnima clase cuya frecuencia acumulada es mayor o igual a
p%n, siendo n el n
umero total de datos. Como n = 50 y p = 60, entonces, necesitamos
localizar la primera clase que tenga una frecuencia acumulada de (60%)(50)=30 o mas.
En este caso, la cuarta clase es la clase donde se encuentra el sexagesimo punto percentil
de los datos porque tiene una frecuencia acumulada de 40. Entonces, el sexagesimo
punto percentil puede determinarse como


p%n F
p-esimo punto percentil = Lp +
w,
fp
en donde

1.4 An
alisis de datos en tablas de frecuencias agrupadas

65

Lp es la frontera inferior de la clase del p-esimo punto percentil (de la tabla, es


79,5),
F es la frecuencia acumulada de la clase que antecede a la clase del p-esimo punto
percentil (en este caso, es la frecuencia acumulada correspondiente a la tercera
clase, o sea F = 28),
fp es la frecuencia de la clase del p-esimo punto percentil (en este caso, f = 12),
w es la amplitud del intervalo de clase de la clase del p-esimo punto percentil
(w = 10).
Es decir,
Sexagesimo punto percentil = 79, 5 +

30 28
12

10 81, 16.

Varianza y desviaci
on tpica
Las marcas de clase se usan tpicamente para representar medidas que caen en las
clases de una tabla de frecuencia agrupada cuando se necesita obtener la varianza o
la desviaci
on estandar aproximadas de los datos. Al hacerse esto, se usan las f
ormulas
analogas para calcular la varianza y la desviaci
on estandar, para el caso de distribuciones
de frecuencias no agrupada.
Ejemplo 1.4.3 Calcular la varianza y desviacion estandar de los datos del ejemplo 1.4.1.
SOLUCION:
Como antes, debemos encontrar las marcas de clase m y con ello construimos la tabla 1.16,
siendo a la media poblacional aproximada de los datos.

Clase
26,5 - 29,5
29,5 - 32,5
32,5 - 35,5
35,5 - 38,5
38,5 - 41,5
41,5 - 44,5
44,5 - 47,5
Sumas

m
28
31
34
37
40
43
46

f
1
10
14
33
14
7
3
82

fm
28
310
476
1.221
560
301
138
3.034

m a
-9
-6
-3
0
3
6
9

(m a)2
81
36
9
0
9
36
81

f(m a)2
81
360
126
0
126
252
243
1.188

Tabla 1.16: Tabla de frecuencias para el ejemplo 1.4.3


Se encuentra que la media poblacional aproximada es
P
3.034
fm
=
= 37.
a = P
f
82
Ademas, la varianza poblacional aproximada es
P
f(m a )2
1.188
2
P
a =
=
= 14, 4878
f
82

y de esta forma la desviacion poblacional aproximada sera a = 14, 4878 = 3, 806.

1.4 An
alisis de datos en tablas de frecuencias agrupadas

66

Ejercicios de la secci
on 1.4
51. Situemonos en el contexto del ejercicio 17, en el que se recogan los porcentajes de
rentabilidad de las acciones de 25 empresas:
(a) A partir de la agrupacion de datos usada para construir el histograma, estimar la
media, la mediana, la desviacion tpica y el rango intercuartil de los porcentajes de
rentabilidad.
(b) Calcular directamente la media y la desviacion tpica a partir de las 25 observaciones
y compararlas con las obtenidas en el apartado (a).
52. Se toma una muestra de 20 estudiantes. La tabla siguiente muestra la cantidad de tiempo
(en horas) empleado por cada uno de estos estudiantes de dicha muestra en preparar un
examen.
Tiempo de estudio (Horas)
N
umero de estudiantes

0-3
2

3-6
6

6-9
7

9-12
4

12-15
1

(a) Hallar las frecuencias relativas y las frecuencias relativas acumuladas.


(b) Estimar la media, la mediana, la moda y la desviacion tpica del tiempo de estudio.
53. Durante una epidemia de gripe, los tiempos de espera en cierto centro de salud fueron
mas largos de lo habitual. La siguiente tabla resume la distribuci
on de los tiempos de
espera para una muestra de 24 pacientes que visitaron el centro de salud durante este
perodo.
Tiempo de espera (horas)
N
umero de pacientes

0-1
7

1-2
10

2-3
5

3-4
2

(a) Hallar las frecuencias acumuladas, relativas y relativas acumuladas.


(b) Dibujar el histograma, un polgono y una ojiva.
(c) Estimar la media, la mediana, la moda, la varianza y la desviacion tpica del tiempo
de espera.
(d) Estimar el rango intercuartil.
54. Se dispone de la siguiente informacion acerca de las rentas familiares (en millones de
pesos) en los hogares de cierta ciudad.
Renta familiar
Frec. relativa

1,5-2,0
0,10

2,0-2,5
0,20

2,5-3,0
0,22

3,0-3,5
0,12

3,5-4,0
0,13

4,0-4,5
0,08

4,5-5,0
0,15

Estimar la media y la desviacion tpica poblacional de la renta familiar.


55. Las ayudas concedidas, en miles de euros, por cierto gobierno a 60 proyectos empresariales
innovadores, vienen reflejadas en la siguiente tabla:
Importe de la ayuda
No. de proyectos

0-600
10

600-1.200
15

1.200-1.800
20

1.800-2.400
15

(a) Calcular la ayuda media y ver si este valor es representativo.


(b) Calcular la ayuda maxima concedida al 70% de los proyectos menos favorecidos en el
reparto.
(c) Calcular la ayuda mnima concedida al 65% de los proyectos mas favorecidos.

1.5 An
alisis exploratorio de datos

67

(d) Si se aumenta posteriormente las ayudas en once mil euros a cada proyecto, c
omo
afecta a los incisos anteriores?
(e) Si para el a
no siguiente las ayudas aumentan un 5% sobre el valor inicial, manteniendose el criterio del reparto, cual sera ahora la ayuda media? Sigue siendo
representativa?
56. A continuacion se presentan algunas medidas estadsticas (mediana, primer y segundo
cuartiles) y una tabla de frecuencia agrupada, para las edades de un grupo de personas
que hay en una sala de concierto. A partir de estos datos, responder las preguntas que
aparecen abajo. Mediana = 20, primer cuartil = 17,5 y tercer cuartil = 23.

Edades
11,5 - 14,5
14,5 - 17,5
17,5 - 20,5
20,5 - 23,5
23,5 - 26,5
26,5 - 29,5

Frecuencia
2
8
11
10
8
1

Frecuencia
relativa
0,0500
0,2000
0,2750
0,2500
0,2000
0,0250

Frecuencia
acumulada
2
10
21
31
39
40

Frec. acum.
relativa
0,0500
0,2500
0,5250
0,7750
0,9750
1,0000

(a) Cual era el n


umero exacto de personas que haban en la sala del concierto?
(b) Cual es la media aproximada de las personas que asistieron al concierto?
(c) Que edad tienen el 77,5% de las personas?
(d) Que porcentaje de personas tienen una edad entre 11,5 y 20,5?
(e) Que porcentaje de personas tienen una edad mayor de 23,5?
(f) Cuantas personas tienen una edad entre 17,5 y 20,5?
(g) Cuantas personas tienen una edad mayor que 14,5?
(h) Que interpretacion tiene el valor de la mediana y el de los cuartiles?

1.5

An
alisis exploratorio de datos

Una vez que hemos estudiado las cuatro propiedades mas importante de los datos
numericos (tendencia central, posici
on relativa, dispersi
on y forma), es importante identificar y describir las caractersticas principales de los datos en forma resumida. Un enlisis exploratorio de datos5 consiste en desarrollar un resumen
foque a este ana
de cinco n
umeros y construir un diagrama de caja y bigotes.

1.5.1

Resumen de cinco n
umeros

meros consiste en cinco cantidades


Definici
on 1.5.1 Un resumen de cinco nu
que se emplean para resumir los datos: valor mnimo, primer cuartil (Q1), Mediana
(Q2), tercer cuartil (Q3) y valor m
aximo.
5

lisis exploratorio de datos consisten en operaciones aritmeEn general, las tecnicas del ana
ticas sencillas y representaciones f
aciles de trazar, que pueden emplearse para resumir con rapidez los
datos. Muchos autores presentan el diagrama de tallo y hoja como tecnica del an
alisis exploratorio
de datos.

1.5 An
alisis exploratorio de datos

68

A partir del resumen de cinco n


umeros se pueden obtener, entre otras, dos medidas de
tendencia central (la mediana y el rango medio) y dos medidas de variaci
on (el rango
intercuartil y el rango) para tener una mejor idea de la forma de la distribuci
on.
Si la distribuci
on es simetrica, la relaci
on entre las diversas medidas nos la da el siguiente
teorema.
Teorema 1.5.2 (Situaciones para reconocer la simetra de los datos) Si la
distribuci
on es simetrica:
La distancia de Q1 a la mediana es igual a la distancia de la mediana a Q3.
La distancia del valor mnimo a Q1 es igual a la distancia de Q3 al valor
m
aximo.
La mediana y el rango medio son iguales. (Estas medidas son iguales a la
media de los datos.)
Por otra parte, si se trata de distribuciones no simetricas, la relaci
on de las diversas
medidas se expresan en el siguiente teorema.
Teorema 1.5.3 (Situaciones para reconocer a los datos no sim
etricos) Si
la distribuci
on no es simetrica:
En las distribuciones sesgadas a la derecha, la distancia de Q3 al valor m
aximo
excede la distancia del valor mnimo a Q1. Adem
as, la mediana es menor que
el rango medio.
En las distribuciones sesgadas a la izquierda, la distancia del valor mnimo a
Q1 excede la distancia de Q3 al valor m
aximo. Adem
as, el rango medio es
menor que la mediana.

Ejemplo 1.5.4 Utilice el resumen de cinco n


umeros para estudiar la forma de la distribucion de los datos del ejemplo 1.3.24.
SOLUCION:
En el ejemplo 1.3.26 calculamos que el primer cuartil es 2,365; la mediana es 2,405 y el
tercer cuartil es 2,500. Por tanto, el resumen de cinco n
umeros es
2, 210

2, 365

2, 405

2, 500

2, 825.

De las situaciones que se presentaron en los teoremas 1.5.2 y 1.5.3 es claro que los salarios
estan sesgados a la derecha porque la distancia del valor mnimo a Q1 (es decir, 0,155) es
bastante menor que la distancia de Q3 al valor m
aximo (es decir, 0,325).
Ademas, si se compara la mediana (2,405) y el rango medio (2,5175), se observa que el
rango medio se mueve debido al valor extremo 2,825, y es por mucho la m
as grande de estas
medidas de resumen (comp
arese con la figura 1.14).

1.5 An
alisis exploratorio de datos

69

Fig. 1.14: Diagrama de barras para los datos del ejemplo 1.5.4

1.5.2

Diagrama de caja y bigotes

El diagrama de caja y bigotes, como el que se muestra en la figura 1.15, proporciona una representaci
on grafica de los datos mediante el resumen de cinco n
umeros.
Esta herramienta de analisis exploratorio de datos va a permitir estudiar la simetra de los
datos, detectar los valores atpicos y vislumbrar un ajuste de los datos a una distribuci
on
de frecuencias determinada.

Fig. 1.15: Diagrama de caja y bigotes


El diagrama de caja y bigotes divide los datos en cuatro areas de igual frecuencia, una
caja central dividida en dos areas por una lnea vertical y otras dos areas representadas
por dos segmentos horizontales (bigotes) que parten del centro de cada lado de la caja.
La caja central encierra el 50% de los datos. En el interior de caja central se acostumbra
a representar la media con un signo mas y se dibuja la mediana como una lnea vertical
en el interior de la caja (comparese con la figura 1.15). Si esta lnea esta en el centro de

1.5 An
alisis exploratorio de datos

70

la caja no hay asimetra en los datos. Los lados verticales estan situados en los cuartiles
inferior y superior de los datos. Partiendo del centro de cada lado vertical de la caja se
dibujan los dos bigotes, uno hacia la izquierda y el otro hacia la derecha, teniendo en
cuenta lo siguiente:
El bigote de la izquierda tiene un extremo en el primer cuartil Q1 y el otro en el
valor dado por el primer cuartil menos 1,5 veces el rango intercuartil R.I, esto es,
Q1 1, 5R.I.
El bigote de la derecha tiene un extremo en el tercer cuartil Q3 y el otro en el
valor dado por el tercer cuartil mas 1,5 veces el rango intercuartil R.I, esto es,
Q3 + 1, 5R.I.
Si hay datos que se encuentran a la izquierda del bigote izquierdo y a la derecha del
bigote derecho se les denomina valores atpicos.
Definici
on 1.5.5 Todo valor que est
a m
as alejado del 1,5R.I del cuarto m
as
cercano se dice que es atpico. Un valor atpico es extremo si est
a a m
as de
3R.I del cuarto m
as cercano y es moderado en otro caso.
En el diagrama de caja, los valores atpicos moderados se representan mediante un peque
no
cuadrado y los extremos, con un peque
no cuadrado con un signo m
as en su interior.

Un valor atpico puede ser un elemento para el cual se haya anotado su valor en forma
err
onea. Si es as, puede corregirse antes de proseguir con el analisis. Tambien, un valor
atpico puede ser uno que por error se incluy
o en el conjunto de datos y, en estos casos,
debe eliminarse. Por u
ltimo, puede ser tan s
olo un elemento poco com
un que se haya
anotado en forma correcta y que s pertenece al conjunto de datos. En estos casos ese
elemento debe mantenerse.
Ejemplo 1.5.6 Construir un diagrama de caja y bigotes para los datos del ejemplo 1.5.4.
SOLUCION:
Tenemos que el rango intercuartil es R.I = 2, 500 2, 365 = 0, 135, de donde se obtiene que
la longitud de los bigotes es 1, 5R.I = 0, 2025. Ahora
El bigote de la izquierda tiene un extremo en el primer cuartil Q1 = 2, 365 y el otro
en el valor Q1 1, 5R.I = 2, 1625.
El bigote de la derecha tiene un extremo en el tercer cuartil Q3 = 2, 500 y el otro en
el valor Q3 + 1, 5R.I = 2, 7025.
La figura 1.16 es el diagrama de caja y bigotes pedido. En el diagrama podemos observar
que hay un valor atpico (el valor 2,825) porque este se encuentra por fuera de los bigotes.
Debido a que Q3 + 3R.I = 2, 905, este valor atpico es moderado porque esta 2,825 es menor
que 2,905. Ademas, podemos afirmar que la distribucion de frecuencias esta sesgada a la
derecha porque el area del rectangulo a la izquierda de la mediana es menor que el del
rectangulo a la derecha de la mediana. Esto tambien se puede concluir al tener en cuenta
que media es mayor que la mediana.

1.5 An
alisis exploratorio de datos

71

Fig. 1.16: Diagrama de caja y bigotes para los datos del ejemplo 1.5.4

Diagramas de cajas m
ultiples (o comparativos)
Un diagrama de caja m
ultiple (o comparativo) es una forma muy eficaz de mostrar
semejanzas y diferencias entre dos o mas conjuntos de datos.
Ejemplo 1.5.7 La figura 1.17 contiene los diagramas de caja de las calificaciones en un
examen de matematicas para quince estudiantes de primer curso de primaria, quince de
segundo y quince de tercero.

Fig. 1.17: Diagrama de caja y bigotes de las calificaciones en un examen


En el diagrama puede apreciarse que no hay valores atpicos en ninguno de los tres grupos. Los estudiantes del tercer curso consiguieron la mejor mediana, pero sus calificaciones
tienen una variabilidad considerablemente que la de los otros grupos. Otro hecho que llama
la atencion es la gran cantidad de calificaciones bajas obtenidas por los estudiantes de primer
curso. Finalmente, podemos afirmar que las distribuciones de frecuencias de los tres conjuntos de datos estan sesgadas a la izquierda.

1.5 An
alisis exploratorio de datos

72

Ejercicios de la secci
on 1.5
57. Un fabricante de bateras para linternas tom
o una muestra de 13 bateras de un da de
produccion y las us
o hasta que se agotaron. Las horas que funcionaron hasta fallar son:
166

342

426

492

562

298

264

631

451

1.049

317

545

512

Proporcione el resumen de cinco n


umeros, construya el diagrama de caja y bigotes, determine en cada caso si hay valores atpicos y haga un analisis exploratorio de cada conjunto
de datos.
58. Los siguientes datos muestran las yardas acumuladas durante la temporada de f
utbol
americano colegial para una muestra de 20 receptores:
451
1.278

1.023
820

852
511

809
907

596
1.251

744
941

652
975

576
400

1.112
711

971
1.174

Forme el resumen de cinco n


umeros, trace un diagrama de caja e indentifique en el el o
los valores atpicos.
59. Los siguientes datos representan los rendimientos porcentuales anuales en cuentas de
mercado de dinero de una muestra de 15 bancos comerciales en el area metropolitana de
una ciudad a una determinada fecha:
Nombre del Banco
Banco su cuenta
The Bank
Mein Bank
Your Bank
El Banco del pueblo
Aero Bank
Union Bank
Bank del cliente

Rendimiento
3,10
2,63
2,79
3,25
1,90
2,79
2,90
2,73

Nombre del banco


Banco el Pais
Banco la Clave
Banco del Norte
Banco del Sur
Banco Nacional
Nuestro Banco
Banco el dinero

Rendimiento
2,28
3,01
2,53
2,00
3,05
2,02
3,05

(a) Proporcione el resumen de cinco n


umeros.
(b) Construya el diagrama de caja y bigotes y describa la forma.
(c) Si alguien le dijera:los rendimientos del mercado de dinero no varan mucho de un
banco a otro, con base en estos datos, que dira?
60. Una de las metas de toda administracion es ganar lo mas posible en relaci
on con el
capital invertido en la empresa. Una medida del exito en alcanzarla es el retorno sobre
la aportaci
on, que es la relaci
on de la ganancia neta entre el valor de las acciones. A
continuacion se muestran los porcentajes de ganancia sobre las acciones para 25 empresas.
11,4
5,1
16,6

15,8
17,3
5,0

52,7
31,1
30,3

17,3
6,2
12,8

12,3
19,2
12,2

9,0
14,7
14,5

19,6
9,6
9,2

22,9
8,6

41,6
11,2

Forme el resumen de cinco n


umeros, trace un diagrama de caja y bigotes y determine si
hay valores atpicos. Como podra un analista financiero usar esta informacion?
61. Una revista publica regularmente las clasificaciones de funcionamiento y de calidad para
muchos productos de consumo. Se publicaron calificaciones generales de una muestra de
16 televisores de precio intermedio en esta revista. Las marcas y las calificaciones aparecen
en la tabla siguiente.

1.6 Uso de Statgraphics en la estadstica descriptiva

Fabricante
PCG
Monch
RMA
Cuark
Magnifon
Sodium

Calificacion
73
89
79
75
80
86

Fabricante
Rernat
Kuril
Tosh
Pate
Wand

73

Calificacion
72
77
79
78
78

Fabricante
Katze
Sheck
Fish
Karl
Wind

Calificacion
81
76
77
79
90

(a) Determine la calificacion promedio y forme el resumen de cinco n


umeros.
(b) Una evaluacion similar de radios proporciono calificaciones que tuvieron una media
de 82,56, una desviacion estandar 6,39 y un resumen de cinco n
umeros 75, 77, 82,
86 y 93. Compare los datos de calificaciones de la revista de televisores con los del
radio. Trace los diagramas de caja de ambos.
(c) Hay valores atpicos en los datos de televisores? Explique su respuesta.
62. Dos modos que usan las empleados para ir a trabajar diariamente son el transporte p
ublico
y el autom
ovil. A continuacion vemos unas muestras de tiempos de cada modo. Las cifras
son minutos:
Transporte p
ublico:
Autom
ovil:

25
30

29
31

32
32

41
35

34
33

28
29

29
31

32
33

37
32

33
34

(a) Calcule la media y la desviacion estandar de la muestra del tiempo que se lleva en
cada modo de transporte.
(b) Con base en los resultados del inciso (a), que modo de transporte debe preferirse?
Explique sus razones.
(c) Trace un diagrama de caja para cada modo. Al comparar los diagramas de caja, se
respalda la conclusion del inciso (b)?

1.6

Uso de Statgraphics en la estadstica descriptiva

A continuaci
on presentaremos una breve descripci
on de la forma c
omo se utiliza Statgraphics en el analisis descriptivo de uno o mas conjuntos de datos.

1.6.1

An
alisis de un solo conjunto de datos

En esta secci
on, trabajaremos con los datos que aparecen en el archivo calles.sf3. Este
contiene las variables longitud, anchura y nombre, que son la longitud, anchura y el
nombre de 112 calles del antiguo casco de Madrid (Espa
na). Utilizando este archivo y
con ayuda de Statgraphics realizaremos un analisis de la variable longitud. Al abrir el
archivo calles.sf3 sale la ventana de hojas de calculos que se muestra en la figura 1.18.
El acceso a todas las opciones analticas y graficas que se necesitan en cualquier practica
se realiza de la misma manera:
Se selecciona Describe . . . Numeric Data . . . One-Variable Analysis y aparecen
todas las variables que contiene el archivo.
Con el rat
on se elige la variable deseada (que en nuestro caso sera la variable longitud), aparecera resaltada, y a continuaci
on se pulsa el bot
on Data, apareciendo
el nombre de dicha variable como variable activa. Dicha ventana tiene la opci
on

1.6 Uso de Statgraphics en la estadstica descriptiva

74

Fig. 1.18: Aspecto de la ventana de hojas de c


alculos
ordenar (sort) las variables alfabeticamente. Los botones que aparecen en la parte
inferior permiten realizar el analisis, cancelar el analisis, transformar los datos y
consultar la ayuda. Se pulsa la opci
on OK para realizar el analisis y aparece la
llamada ventana del analisis, dando informaciones estadsticas acerca del conjunto
de datos con el que se esta trabajando (vease la figura 1.19).

Fig. 1.19: Aspecto de la ventana del an


alisis
Los conos principales que hay en la barra de herramientas de esta ventana son los cuatro
de la izquierda (los restantes se activan en algunas opciones graficas):
El primer cono (Input dialog, cono de dialogos) permite la selecci
on (o cambio)

1.6 Uso de Statgraphics en la estadstica descriptiva

75

de variables dentro del archivo y analisis seleccionado. Por ejemplo, dentro del
archivo calles.sf3 se puede cambiar la variable longitud por la varible anchura
utilizando este cono.
El segundo cono (Tabular options, cono de opciones tabulares) permite seleccionar opciones analticas.
El tercer cono (Graphical options, cono de opciones graficas) permite seleccionar
diferentes opciones de graficos.
El cuarto cono (Save results, cono de salvar resultados) permite salvar los resultados del analisis para tratarlos posteriormente o para imprimirlos.

Opciones num
ericas
Al marcar el segundo cono (Tabular options) de la barra de herramientas de la ventana
del analisis podemos seleccionar las siguientes opciones:
Analysis Summary (Resumen de procedimiento).
Nos presenta una informaci
on muy general del analisis (nombre de la variable,
n
umero de datos que ella tiene, datos mayor y menor, etc.).
Summary Statistics (Resumen estadstico).
Esta opci
on permite obtener algunas medidas estadsticas. Por defecto, ofrece el
numero de datos, la media, varianza, desviaci
on tpica, valores maximo y mnimo,
los coeficientes de asimetra y apuntamiento estandarizados y la suma de los valores
de las observaciones. Para obtener un n
umero mayor o menor de medidas es
suficiente con pulsar el bot
on derecho del rat
on y seleccionar Pane options, con lo
que aparece una ventana con un amplio conjunto de medidas.
Percentiles.
Permite el calculo simultaneo de hasta 10 percentiles a voluntad del usuario. Si,
estando situado sobre esta salida, pulsamos el bot
on derecho del rat
on y elegimos
Pane options, se introducen los percentiles que se deseen calcular.
Frequency Tabulation (Tabla de frecuancia).
Nos permite resumir la distribuci
on de los datos en una tabla de frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas. Si, estando situados
sobre esta salida, pulsamos el bot
on derecho del rat
on y elegimos Pane options,
obtenemos la ventana de dialogo Frequency Tabulation Options, en donde tenemos
los siguientes campos:
Number of Classes (N
umero de clases).
Aqu, se introduce el n
umero de intervalos de clase para agrupar los datos
de la distribuci
on.
Lower Limit (Lmite inferior ).
Se introduce el lmite inferior para la primera clase.
Upper Limit (Lmite superior ).
Se introduce el lmite superior para la u
ltima clase.

1.6 Uso de Statgraphics en la estadstica descriptiva

76

Hold (Mantener ).
Se se
nala cuando se quiere mantener la definici
on actual de clase para la
siguiente tabla de frecuencias que se realice.
Stem-and-Leaf Display (Diagrama de Tallo y Hojas).
Esta opci
on permite mostrar el diagrama de tallo y hojas. En este caso, el diagrama de tallo y hojas para la variable longitud esta formado por cuatro tallos.
Los valores que estan a la izquierda de cada tallo son la frecuencia absoluta acumulada de los tallos, donde dicha frecuencia se comienza a contar tanto por arriba
como por abajo, a excepci
on de valor que aparece entre parentesis que corresponde al tallo donde se encuentra la mediana. Si, estando situados sobre esta
opci
on, pulsamos el bot
on derecho del rat
on y elegimos Pane options, obtenemos
la ventana de dialogo Stem-and-Leaf Display Options, cuyo campo Flag Outliers
(Valores An
omalos) permite marcar valores atpicos en el diagrama. Como puede
observarse, el diagrama de tallo y hojas de la variable longitud presenta cuatro
valores atpicos.
Las otras dos opciones Confidence Intervals (Intervalos de confianza) y Hypothesis
Tests (Pruebas de hip
otesis) corresponden a conceptos de la estadstica inferencial.

Opciones gr
aficas
Al marcar el tercer cono (Graphical options) de la barra de herramientas de la ventana
del analisis podemos seleccionar las siguientes opciones:
Scatterplot (Grafico de dispersi
on).
Nos presenta un diagrama de dispersi
on para la variable en el que se presentan sus
valores mediante puntos no conectados a lo largo de un eje horizontal agrupados
por intervalos.
Box-and-Whisker Plot (Grafico de Cajas y Bigotes).
Nos permite realizar diagramas de cajas y bigotes. Si, estando situados sobre esta
salida, pulsamos el bot
on derecho del rat
on y elegimos Pane options, obtenemos la
ventana de dialogo Frequency Tabulation Options, en donde tenemos los siguientes
campos:
Direction (Direcci
on).
Se puede elegir Vertical u Horizontal para orientar el diagrama en el sentido
que uno lo desee.
Features (Aspectos).
Esta opci
on nos permite se
nalar o no en el grafico la media (Mean Marker ),
los valores atpicos (Outlier Symbols) y muescas sobre la mediana (Median
Nocht).
Frequency Histogram (Histograma de Frecuencia).
Esta opci
on nos permite realizar histogramas y polgonos de frecuencias absolutas
y relativas, que tambien pueden ser acumulados.6 Si, estando situados sobre el
6

Recordemos que los polgonos acumulados o acumulados relativos son las llamadas ojivas.

1.6 Uso de Statgraphics en la estadstica descriptiva

77

grafico del histograma, pulsamos el bot


on derecho del rat
on y elegimos Pane options, obtenemos la ventana de dialogo Frequency Plot Options con las siguientes
opciones:
En los campos Number of Classes, Lower Limit y Upper Limit podemos
definir el n
umero de clases deseado, el lmite inferior de la primera clase y el
lmite superior de la u
ltima clase, respectivamente.
El campo counts permite seleccionar frecuencias relativas (Relative) y acumuladas (Cumulative).
El campo Hold (Mantener ) permite mantener la escala actual para los graficos
siguientes.
El histograma de frecuencias absolutas se obtiene se obtiene se
nalando el
bot
on Histogram del campo Plot Type y dejando en blanco los dos botones
del campo Counts; el de frecuencias relativas, se
nalando el bot
on Histogram
del campo Plot Type y el bot
on Relative del campo Counts; el de frecuencias
acumuladas, se
nalando el bot
on Histogram del campo Plot Type y el bot
on
Cumulative del campo Counts; el de frecuencias acumuladas, se
nalando el
bot
on Histogram del campo Plot Type y los botones Cumulative y Relative
del campo Counts.
El polgono de frecuencias absolutas se obtiene se
nalando el bot
on Polygon
del campo Plot Type y dejando en blanco los dos botones del campo Counts;
el de frecuencias relativas, se
nalando el bot
on Polygon del campo Plot Type
y el bot
on Relative del campo Counts.
La ojiva de frecuencias acumuladas se obtiene se
nalando el bot
on Polygon
del campo Plot Type y el bot
on Cumulative Relative del campo Counts; la
de frecuencias acumuladas relativas, se
nalando el bot
on Polygon del campo
Plot Type y los botones Relative y Cumulative del campo Counts.
Density Trace (Grafico de densidad).
Esta opci
on nos permite visualizar en cierta forma el histograma suavizado.
Symmetry Plot (Grafico de simetra).
Este grafico nos permite analizar visualmente el grado de simetra de un conjunto
de datos. En el eje de las abcisas se representan las distancias de los datos a la
mediana que quedan por debajo de ella. Si la simetra fuese perfecta, el conjunto
de puntos resultante sera la diagonal principal. Mientras mas se aproxime la
grafica a la diagonal, mas simetra existira en la distribuci
on de los datos.

Conclusiones sobre la variable longitud


Tiene especial interes la comparaci
on de la media (Average) y la mediana (Median),
donde se observa que la media es mayor que la mediana en 40 unidades. Esto indica
cierta asimetra en los datos, que debe concordar con un coeficiente de asimetra grande
y positivo.
En el histograma observamos asimetra, con mayor concentraci
on de datos en la parte

1.6 Uso de Statgraphics en la estadstica descriptiva

78

izquierda. Es recomendable modificar el n


umero de clases del histograma, para as observar las variaciones que se producen en este.
El diagrama de caja de la variable longitud pone claramente de manifiesto la asimetra
de los datos, con mayor concentraci
on en la parte izquierda que en la derecha, y la
presencia de valores atpicos. La caja esta delimitada por el primer y tercer cuartil con
valores respectivos de 89 y 210. La lnea que separa la caja en dos partes es la mediana
con magnitud igual a 135. El valor mnimo es 25, no observandose valores atpicos en
la parte izquierda de los datos. En la parte derecha aparecen varios valores atpicos.
Si se desea obtener una distribuci
on simetrica y con probable desaparici
on de ciertos
valores atpicos es recomendable realizar una transformaci
on.

Transformaci
on de la variable longitud
Las cuatro transformaciones mas habituales para resolver este tipo de problemas son:
logaritmo, raz cuadrada, inversa y cuadrado.
Los comandos que representan estas tres transformaciones son:
LOG(nombre variable) para el logaritmo neperiano,
SQRT(nombre variable) para la raz cuadrada
y 1/(nombre variable) para la inversa.
Para trabajar con la variable transformada es suficiente con escribir en lugar del nombre
de la variable la transformaci
on adecuada. Por ejemplo, si quisieramos trabajar con el
logaritmo de la variable escribimos LOG(longitud) en vez de longitud. Otro metodo para
escribir la transformaci
on adecuada es desde la opci
on de One Variable Analysis; en la
parte inferior de la ventana activar el bot
on Transform, lo que nos permite acceder a los
diferentes operadores (Operators) entre los que se encuentran las transformaciones antes
mencionadas. De las estas transformaciones, la que ofrece una distribuci
on mas simetrica
es el logaritmo. A continuaci
on presentamos las conclusiones obtenidas del estudio
descriptivo (medidas caractersticas, diagrama de tallo y hojas, caja e histograma) de la
variable LOG(longitud).

Conclusiones sobre el logaritmo de la variable longitud


Se repite todo el analisis realizado para la variable longitud, pero ahora con la variable
transformada (LOG(longitud)). Como consecuencia de la transformaci
on realizada se
obtiene un comportamiento simetrico, aunque se detecta la presencia de un valor atpico
correspondiente a la calle Atocha de 1260 metros.7
7

La presencia de este valor atpico se puede explicar acudiendo a razones hist


oricas. Por ejemplo,
la calle Atocha est
a ubicada entre la Plaza de Santa Cruz y el Paseo del Prado, con existencia desde
1589, al igual que las calles de su entorno. Una explicaci
on de su car
acter peculiar (atpico) es su
funci
on como uni
on entre Madrid capital y el Hospital General (inicialmente en la periferia).

1.6 Uso de Statgraphics en la estadstica descriptiva

1.6.2

79

An
alisis simult
aneo de dos o m
as conjuntos de datos

Mediante la opci
on Compare . . . Two Samples . . . Two Sample Comparison . . . podemos analizar dos conjuntos de datos simultaneamente (vease el ejercicio 68).
Para obtener diagramas de cajas m
ultiples para dos o mas conjuntos de datos, una
alternativa es mediante las opciones Compare . . . Multiple Samples . . . Multiple-Sample
Comparison . . . Multiple Data Columns . . . Ok . . . Samples= (en esta u
ltima opci
on
mencionar los datos que se quieren comparar).
Statgrpahics tambien habilita la subopci
on Plot . . . Exploratory Plots . . . Multiple Boxand-Whishker Plot . . . Data=distancia . . . Level codes=year . . . para obtener diagramas
de cajas m
ultiples de varios conjuntos de datos con respecto diferentes grupos en que
se puede dividir los conjuntos de datos (vease el ejercicio 64c).

Ejercicios de la secci
on 1.6
s 63. Considere la variable anchura que contiene el conjunto de datos que se encuentra en el
archivo calles.sf3 y que corresponde al ancho de 112 calles de Madrid (Espa
na).
(a) Obtenga la media y la mediana, la moda, el primer y tercer cuartiles, el segundo y
octavo deciles, los percentiles 35, 66, 81 y 93, el sesgo y el coeficiente de variaci
on.
Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 8 clases para los datos, en donde la primera
frontera inferior sea 0 y la u
ltima frontera superior sea 40. A partir de ella, responda
las siguientes preguntas:
i.
ii.
iii.
iv.
v.
vi.

Cuantas calles tienen un ancho entre 5 y 25 kilometros?


Que porcentaje de calles tienen un ancho entre 10 y 30 kilometros?
Cuantas calles tienen un ancho mayor de 20 kilometros?
Que porcentaje de calles tienen un ancho mayor 25 kilometros?
Cuantas calles tienen un ancho menor de 15 kilometros?
Que porcentaje de calles tienen un ancho menor de 35 kilometros?

(c) Con 8 clases (en donde la primera frontera inferior sea 0 y la u


ltima frontera superior
sea 40), construir los histogramas de frecuencias absolutas y de frecuencias absolutas
acumuladas, los polgonos de frecuencia y de frecuencias relativas y las ojivas de frecuencias acumuladas y de frecuencias relativas acumulada. A partir de estos graficos,
responda las siguientes preguntas:
i.
ii.
iii.
iv.

Aproximadamente cuantas calles tienen un ancho mayor que 16,9 kilometros?


Aproximadamente cuantas calles tienen un ancho menor que 12,5 kilometros?
Que porcentaje aproximado de calles tienen un ancho mayor de 7,7 kilometros?
Que porcentaje aproximado de calles tienen un ancho menor de 13,8 kil
ometros?

(d) Estudie la simetra de la distribuci


on de los datos.
(e) Existen valores atpicos? Cuantos? Cuales?
(f) Existe alguna transformacion que mejora la simetra? Y la presencia de valores
atpicos? Indique en caso positivo la transformacion seleccionada.

1.6 Uso de Statgraphics en la estadstica descriptiva

80

s 64. En el archivo de datos autos.sf3 se muestran las distancias recorridas (dadas en millas
por galon) de 154 modelos de autom
oviles sacados al mercado entre los a
nos 1978 y
1982 por diferentes fabricantes: americanos (origen=1), europeos (origen=2) y japoneses
(origen=3). Tambien aparecen los respectivos cilindrajes de los autos, las potencias, etc.
(a) Construya un diagrama de caja y bigotes para los datos de la distancia recorrida y a
partir de el, responda las siguientes preguntas: Entre cuales valores vara la distancia
recorrida? Cuanto recorre el 50% central de los autos? Hay valores atpicos? Es
simetrica o asimetrica la distribuci
on de los datos? En caso de ser asimetrica, es
asimetrica a la izquierda o a la derecha? Cuales son los valores de la media y de la
mediana?
(b) Estudie el grado de simetra de los datos de la distancia recorrida de cuatro maneras
diferentes (compare sus respuestas):
i. Utilizando las medidas estadsticas (media, mediana, moda, sesgo, etc. )
ii. Construyendo un histograma de frecuencias con 5 clases.
iii. Construyendo un un histograma con 13 clases. Porque este histograma resulta
mas adecuado que el que construy
o con 5 clases?
iv. Construyendo un grafico de simetra con la opci
on graphical options . . . symmetry
plot de Statgraphics.
(c) Considere ahora por separado los conjuntos de distancias recorridas de los modelos
de cada uno de los cinco a
nos.
i. Analice grafica y numericamente cada uno de estos conjuntos.
ii. Utilizando la opci
on Plot . . . Exploratory Plots . . . Multiple Box-and-Whishker
Plot . . . Data=distancia . . . Level codes=year . . . obtenga los diagramas de cajas
(m
ultiples) de los cinco conjuntos de distancias recorridas con respecto a cada
uno de los a
nos. Que se observa? Conoce alguna raz
on que pueda explicar
lo que resulta de los analisis numericos y de la observaci
on de los diagramas de
cajas?
(d) Ahora, construya el diagrama de caja m
ultiple de la distancia recorrida de los autom
oviles seg
un su cilindrada.
i. Teniendo en cuenta cada uno de los diagramas, responda las preguntas formuladas en la parte (a).
ii. Compare entre s los distintos diagramas y responda las siguientes preguntas:
D
onde es mas fuerte la asimetra? D
onde es menor? D
onde no existe? Vara
bastante los valores de la media y de la mediana para los diferentes grupos?
(e) Construya el diagrama de caja m
ultiple de la potencia de los autom
oviles seg
un su
origen y responda las preguntas formuladas en el inciso anterior.

s 65. Se han medido los diametros (en milmetros) de 50 tornillos y se han obtenido los resultados
que se encuentran en el archivo tornillos.sf3.
(a) Obtenga la mediana, la moda, el primer y tercer cuartiles, el sexto y septimo deciles
y los percentiles 54, 47, 82. Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 6 clases para los datos y, a partir de ella, responda
las siguientes preguntas:
i.
ii.
iii.
iv.

Cuantos tornillos tienen un


Que porcentaje de tornillos
Cuantos tornillos tienen un
Que porcentaje de tornillos

diametro entre 29 y 32 milmetros?


tienen un diametro entre 30 y 34 milmetros?
diametro mayor de 32 milmetros?
tienen un diametro mayor 34 milmetros?

1.6 Uso de Statgraphics en la estadstica descriptiva

81

v. Cuantos tornillos tienen un diametro menor de 31 milmetros?


vi. Que porcentaje de tornillos tienen un diametro menor de 33 milmetros?
(c) Con 6 clases, construir los histogramas de frecuencias absolutas y de frecuencias
absolutas acumuladas, los polgonos de frecuencia y de frecuencias relativas y las
ojivas de frecuencias acumuladas y de frecuencias relativas acumulada. A partir de
estos graficos, responda las siguientes preguntas:
i. Aproximadamente cuantos tornillos tienen un diametro mayor que 34,4 milmetros?
ii. Aproximadamente cuantos tornillos tienen un diametro menor que 32,2 milmetros?
iii. Que porcentaje aproximado de tornillos tienen un diametro mayor de 31,6
milmetros?
iv. Cuantos tornillos tienen un diametro menor de 32,8 milmetros?
(d) Estudie la simetra de la distribuci
on de los datos.

s 66. Los datos del archivo fotocopia.sf3 muestran el gasto en fotocopias (en miles de pesos)
de 70 estudiantes universitarios durante un determinado a
no.
(a) Obtenga la media y la mediana, la moda, el primer y tercer cuartiles, el segundo y
octavo deciles, los percentiles 33, 67, 84 y 93, el sesgo y el coeficiente de variaci
on.
Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 8 clases para los datos, en donde la primera frontera
inferior sea 0 y la u
ltima frontera superior sea $ 1.400.000. A partir de ella, responda
las siguientes preguntas:
i. Cuantos estudiantes han gastando entre $ 175.000 y $ 525.00 en el a
no?
ii. Que porcentaje de estudiantes han gastando entre $ 700.000 y $ 1.225.000 en
el a
no?
iii. Cuantos estudiantes han gastando mas de $ 1.050.000 en el a
no?
iv. Que porcentaje de estudiantes han gastando mas de $ 350.000 en el a
no?
v. Cuantos estudiantes han gastando menos de $ 875.000 en el a
no?
vi. Que porcentaje de estudiantes han gastando menos de $ 525.000 en el a
no?
(c) Con 8 clases (en donde la primera frontera inferior sea 0 y la u
ltima frontera superior
sea $ 1.400.000), construir los histogramas de frecuencias absolutas y de frecuencias
absolutas acumuladas, los polgonos de frecuencia y de frecuencias relativas y las
ojivas de frecuencias acumuladas y de frecuencias relativas acumulada. A partir de
estos graficos, responda las siguientes preguntas:
i. Aproximadamente cuantos estudiantes han gastando mas de $ 767.810 en el
a
no?
ii. Aproximadamente cuantos estudiantes han gastando menos de $ 391.821 en el
a
no?
iii. Que porcentaje aproximado de estudiantes han gastando mas de $ 601.583 en
el a
no?
iv. Cuantos estudiantes han gastando menos de $ 1.104.220 en el a
no?
(d) Estudie la simetra de la distribuci
on de los datos.
(e) Existen valores atpicos? Cuantos? Cuales?
(f) Realice una transformacion logartmica de los datos e interprete los resultados. Comente las diferencias con los datos sin transformar.

s 67. En el archivo de datos doscientos.sf3 se proporcionan las sesenta y nueve mejores marcas
de todos los tiempos en la prueba de 200 metros lisos masculinos (las marcas se dan en
segundos), as como el nombre del atleta y la fecha en que se consiguio la marca.

1.6 Uso de Statgraphics en la estadstica descriptiva

82

(a) Obtenga la media y la mediana, la moda, el primer y tercer cuartiles, el segundo y


octavo deciles, los percentiles 42, 53, 76 y 89, el sesgo y el coeficiente de variaci
on.
Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 8 clases para los datos, en donde la primera frontera
inferior sea 19,2 segundos y la u
ltima frontera superior sea 20,2 segundos. A partir
de ella, responda las siguientes preguntas:
i.
ii.
iii.
iv.
v.
vi.

Cuantos atletas han recorrido entre 19,325 y 19,7 segundos?


Que porcentaje de atletas han recorrido entre 19,45 y 19,95 segundos?
Cuantos atletas han recorrido mas de 19,7 segundos?
Que porcentaje de atletas han recorrido mas de 19,45 segundos?
Cuantos atletas han recorrido menos de 19,95 segundos?
Que porcentaje de atletas han recorrido menos de 19,825 segundos?

(c) Con 8 clases (en donde la primera frontera inferior sea 19,2 segundos y la u
ltima frontera superior sea 20,2 segundos.), construir los histogramas de frecuencias absolutas
y de frecuencias absolutas acumuladas, los polgonos de frecuencia y de frecuencias
relativas y las ojivas de frecuencias acumuladas y de frecuencias relativas acumulada.
A partir de estos graficos, responda las siguientes preguntas:
i.
ii.
iii.
iv.

Aproximadamente cuantos atletas han recorrido mas de 19,818 segundos?


Que porcentaje aproximado de atletas han recorrido mas de 19,845 segundos?
Que porcentaje aproximado de atletas han recorrido mas de 19,782 segundos?
Aproximadamente cuantos atletas han recorrido menos de 20,03 segundos?

(d) Estudie la simetra de la distribuci


on de los datos.
(e) Se detecta algo peculiar en la distribuci
on de estos datos?
(f) Se detecta alg
un valor potencialmente atpico? Cual es?

s 68. En el archivo de datos gemelos.sf3 se muestran los resultados de tests de inteligencia


realizados a parejas de gemelos monozigoticos. Los gemelos monozigoticos se forman
por la division en dos de un mismo ovulo ya fecundado y, por tanto, tienen la misma
carga genetica. Al mismo tiempo, por razones obvias, es muy frecuente que compartan el
entorno vital y es difcil separar ambos factores. En el conjunto de datos, los datos de la
columna A corresponden al gemelo criado por sus padres naturales, los de la columna B al
criado por un familiar u otra persona. Mediante la opci
on Compare . . . Two Samples . . .
Two Sample Comparison . . . Sample 1=A . . . Sample 2=B . . . Ok, resuelva lo siguiente:
(a) Compare la simetra de los datos de la columna A y B.
(b) Construya un diagrama de caja m
ultiple para los datos de la columna A y B y describa
sus interesantes propiedades.
(c) Como interpreta el coeficiente de variacion de ambos conjuntos de datos?

s 69. En el archivo de datos Cavendish.sf3 se presentan 29 medidas de la densidad de la tierra


obtenidas por Henry Cavendish en 1798 empleando una balanza de torsi
on. La densidad
de la tierra se proporciona como un m
ultiplo de la densidad del agua.
(a) Utilice los diagramas de tallo y hojas y de cajas para determinar si existe algun valor
atipico.
(b) Proponga, razonando la respuesta, un valor para la densidad de la tierra.

s 70. En 1893 Lord Rayleigh investigo la densidad del nitrogeno empleando en su obtencion
distintas fuentes. Previamente haba comprobado la gran discrepancia existente entre la
densidad del nitrogeno producido tras la eliminacion del oxgeno del aire y el nitrogeno

1.7 Uso de la calculadora en la estadstica

83

producido por la descomposici


on de ciertos compuestos qumicos. Los datos del archivo
Rayleigh.sf3 muestran esta diferencia de forma clara. Esto llevo a Lord Rayleigh a investigar detenidamente la composicion del aire libre de oxgeno y al descubrimiento de un
nuevo elemento gaseoso, el arg
on.
(a) Analice numerica y graficamente estos datos. Preste especial atenci
on a los diagramas
de tallo y hojas y al diagrama de cajas. Hay alguna peculiaridad de la poblacion de
pesos que se manifieste en un diagrama y no en el otro?
(b) Realice diagramas de cajas dividiendo los datos en los pesos obtenidos a partir de aire
y los obtenidos a partir de compuestos qumicos del nitrogeno. Que se observa?

s 71. Una de las medidas de seguridad de los reactores nucleares frente a desajustes en el proceso
de generacion de energa o de extraccion de esta es el disparo del reactor. Esta medida
consiste en la detencion del proceso de fusion mediante la inserci
on en el n
ucleo del reactor
de venenos neutronicos. El n
umero de disparos no previstos de un reactor en un periodo es
un indicador de problemas de comportamiento y de fiabilidad en la planta. En el archivo
de datos disparos.sf3 se proporciona, para dos a
nos diferentes (1984 y 1993), el n
umero
de disparos no previstos en sesenta y seis reactores nucleares de los Estados Unidos de
Norteamerica.
(a) Analice numerica y graficamente, por separado, el n
umero de disparos de reactor en
cada uno de los dos a
nos considerados.
(b) Compare graficamente las distribuciones de ambas variables Se aprecian diferencias
importantes entre ellas? Que conclusiones le merece esta comparaci
on?

1.7

Uso de la calculadora en la estadstica

El objetivo de esta secci


on es ilustrar en forma breve el manejo de la calculadora como
herramienta de ayuda en los calculos estadsticos, pero utilizando directamente las funciones estadsticas que estan all incorporadas. En particular, las explicaciones se basaran
en la utilizaci
on de la calculadora Casio fx-82MS, fx-83MS, fx-85MS, fx-270MS, fx300MS y fx-350MS.

C
alculos estadsticos
Para realizar calculos estadsticos en la calculadora, tenga en cuenta los siguientes comentarios:
Utilice las teclas mode 2 para ingresar el modo SD cuando desea realizar calculos
estadsticos con ayuda de las funciones estadsticas que hay incorporadas en la
calculadora.
El ingreso de datos comienza siempre con shift
memoria de estadsticas.

clr

para borrar la

Ingrese los datos usando la secuencia de tecla siguiente: <Dato> dt .


Los
calcular los valores para n (el total de datos),
P datos ingresados se usan paraP
x (la suma de todos los datos),
x2 (la suma de los cuadrados de los datos), x
(la media), n (la desviaci
on estandar poblacional) y n1 (la desviaci
on estandar
muestral), que pueden llamarse usando las operaciones de tecla indicados a continuaci
on:

1.7 Uso de la calculadora en la estadstica

Para llamar este tipo de valor:


P 2
Px
x
n
x
n
n1
Ejemplo 1.7.1 Calcular n,
55, 53, 53, 54 y 52.
SOLUCION:

x,

84

Realice esta operaci


on:
shift

s-sum

shift

s-sum

shift

s-sum

shift

s-var

shift

s-var

shift

s-var

x2 , x, n y n1 para los datos siguientes: 55, 54, 51,

Primero, ingresamos al modo SD con las teclas mode

2.

Luego, borramos la memoria con la secuencia de teclas shift

clr

=.

Posteriormente, ingresamos los datos: 55 dt 54 dt 51 dt 55 dt 53 dt 53 dt


54 dt 52 dt
Por u
ltimo, calculamos las medidas estadsticas pedidas:
P 2
Suma de los cuadrados de los valores
x = 22.805
P
Suma de valores
x = 427
N
umero de datos n = 8
Media aritmetica x = 53, 375
Desviacion estandar poblacional n = 1, 316956719
Desviacion estandar muestral n1 = 1, 407885953

shift
shift
shift
shift
shift
shift

s-sum
s-sum
s-sum
s-var
s-var
s-var

1
2
3
1
2
3

=
=
=
=
=
=

Precauciones con el ingreso de datos


dt dt ingresa el mismo dato dos veces.
Tambien puede ingresar m
ultiples entradas del mismo dato usando shift ; . Por
ejemplo, para ingresar el dato 110 diez veces presiones 110 shift ; 10 dt .
Mientras ingresa datos o despues de completar el ingreso de datos, puede usar
las teclas y para ir visualizando a traves de los datos que ha ingresado.
Si ingresa m
ultiples ingresos del mismo dato usando shift ; para especificar la
frecuencia de datos (n
umero de temes de datos) como se describe anteriormente,
pasando a traves de los datos muetra el tem de dato y una pantalla separada para
la frecuencia de datos (freq).
Los datos visualizados pueden editarse, si as lo desea. Ingrese el valor nuevo y
presione la tecla = para reemplazar el valor antiguo por el valor nuevo. Esto
tambien significa que si desea realizar alguna otra operaci
on (calculo, llamada de
resultados de calculos estadsticos, etc.), siempre debera presionar primero la tecla
ac para salir de la presentaci
on de datos.
Presionando la tecla dt en lugar de = despues de cambiar un valor sobre la
presentaci
on, registra el valor que ha ingresado como un elemento de dato nuevo,
y deja el valor antiguo tal como esta.

Cap. 1. Ejercicios complementarios

85

Puede borrar el valor del dato visualizado usando y , y luego presionando


shift cl . Borrando un valor de dato ocasiona que todos los valores siguientes
se desplacen hacia arriba.
Despues de ingresar los datos estadsticos en el modo SD, no podra visualizar
o editar mas los datos temes de datos individuales, despues de cambiar a otro
modo.

Ejercicios de la secci
on 1.7
72. Una determinada persona es propietario de 12 terrenos cuyos tama
nos (en kilometros
cuadrados) son:
21

22

27

36

22

29

22

23

22

28

36

33

Hallar la media y la desviacion tpica directamente de la calculadora.


73. Los porcentajes de rentabilidad de los fondos de inversion de diez grandes empresas fueron
17,6

26,6

15,6

12,4

22,9

25,0

22,4

18,5

27,9

11,6

Hallar la media y la desviacion tpica directamente de la calculadora.


74. Directamente de la calculadora, hallar la media y la desviacion tpica de los datos del
ejercicio 45.
75. Sea dada la siguiente tabla de frecuencias. Hallar la media y la desviacion tpica directamente de la calculadora.
Dato
Frecuencia

5,0
8

2,5
2

3,2
6

2,0
3

Ejercicios complementarios
76. Diga si la afirmacion dada es verdadera o falsa. Justifique siempre su respuesta. En caso
que sea falso, de un contraejemplo.
(a) La suma de las desviaciones de los valores respecto a la media para cualquier conjunto
de datos es uno.
(b) Si la desviacion estandar de un conjunto de datos es 0, entonces, los datos son iguales.
(c) El valor de la desviacion estandar es menor que el de la varianza.
(d) No existen datos de tal forma que sean iguales el rango y la desviacion estandar.
(e) No existen datos de tal forma que sean iguales el rango y la varianza.
(f) Si el ingreso medio de 25 trabajadores es de $ 2.500.000, entonces, el ingreso total es
de $ 10.000.000.
(g) Si 10 calificaciones tienen una media de 2,0 y 27 calificaciones una media de 3,0,
entonces, la media del grupo total de 37 calificaciones es 2,5.
(h) Existen datos con desviacion estandar negativa.
(i) En una distribuci
on simetrica, la media, la mediana y la moda son iguales.
(j) En una distribuci
on positivamente sesgada, la mediana es mayor que la media.
(k) La desviacion estandar esta dada por las mismas unidades que la media.

Cap. 1. Ejercicios complementarios

86

(l) Toda informacion numerica proporciona datos cuantitativos.


(m) Toda informacion no numerica ofrece datos cuantitativos.
(n) Cuando todos los datos son categoricos, la moda es la u
nica medida de tendencia
central que se puede utilizar.
(o) Si el primer cuartil en el primer examen de estadstica fue de 3,0, entonces, este valor
indica que el 25% de los estudiantes ganaron el examen.
(p) Si x es un dato de una muestra y s2 es la varianza de esa muestra, entonces, la
expresion x s2 carece de sentido.
(q) Si un conjunto de datos no es asimetrico, entonces, su coeficiente de sesgo es 1.
77. Un determinado reporte presenta las siguientes observaciones de resistencia de vigas (los
datos estan en megapascales):
6,8
6,5

7,0
7,0

7,6
6,3

6,8
7,9

5,9
8,2

7,2
8,7

7,3
7,8

6,3
9,7

8,1
7,7

11,6
9,7

9,0
7,8

11,8
7,7

10,7
7,4

11,3

(a) Construya un diagrama comparativo de tallo y hojas de los datos. Cual parece
ser un valor representativo de la resistencia? Parecen estar las observaciones muy
concentradas cerca del valor representativo, o solo estan dispersas?
(b) Parece ser razonablemente simetrico el diagrama respecto a un valor representativo,
o describira su forma de otra manera?
(c) Parece haber alg
un valor extra
no o atpico?
(d) Que proporcion de observaciones de resistencia fueron mayores que 10 megapascales?
78. El reporte del ejercicio 77 tambien presenta las siguientes observaciones de resistencia de
cilindros:
9,2
9,8

6,6
9,7

8,3
14,1

7,0
12,6

8,3
11,2

6,1
7,8

5,8
8,1

7,8
7,4

7,1
8,5

7,2
8,9

(a) Construya un diagrama comparativo de tallo y hojas de los datos para vigas y para
cilindros y a continuacion conteste las preguntas de la parte (b) a (d) de aquel ejercicio,
sobre las observaciones con cilindros.
(b) En que aspectos se parecen los dos lados del diagrama? Hay diferencias obvias
entre las observaciones para vigas y para cilindros?
79. Seg
un un diario, en Colombia la donacion y disponibilidad de sangre es muy baja, tomando
en cuenta que la captacion anual es tan solo de 485 mil unidades, lo que equivale al 1 por
ciento de la poblacion. Cual es el promedio de unidades de sangre para 1.000 personas?
80. Un multicentro ha vendido el 70 por ciento de sus metros cuadrados por un valor de 399
millones de dolares. Si el multicentro tiene 190 mil metros cuadrados, cual es el precio
promedio por metro cuadrado? Cuanto recibira aproximadamente la cadena por la venta
de todos los locales del multicentro?
81. Si cada colombiano consume cien botellas de 8 onzas de una marca de gaseosa al a
no,
cuanto consume de dicha gaseosa diariamente en botellas y en onzas?
82. Una revista efectu
o una encuesta para estudiar sus suscriptores en ciertos pases. Una de
las preguntas peda el valor del portafolio del suscriptor (acciones, bonos, fondos hipotecarios y certificados de dep
ositos). La siguiente distribuci
on de frecuencias porcentuales
fue preparada con las respuestas.

Cap. 1. Ejercicios complementarios

87

Inversi
on (dolar)
Menos de 15.000
15.000 - 40.000
40.000 - 90.000
90.000 - 240.000
240.000 - 490.000
490.000 - 990.000
990.000 y mas

Frecuencia porcentual
27
7
10
18
5
13
20

(a) Que porcentaje de suscriptores tienen inversiones menores de 90.000 dolares?


(b) Que porcentajes de suscriptores tienen inversiones en el intervalo de 40.000 a 490.000
dolares?
(c) Que porcentajes de suscriptores tienen inversiones de 490.000 dolares o mas?
(d) La distribuci
on porcentual de frecuencias se basa en 816 respuestas. Aproximadamente cuantos encuestados dijeron tener inversiones entre 40.000 y 990.000 dolares?
(e) Estime la cantidad de encuestados que aseguran tener inversiones menores a 90.000
dolares.
83. De todos los anuncios de bebidas alcoholicas en vallas publicitarias, el 60% son de cerveza,
el 30% de licores con alta graduacion, el 6% sobre vino, y el 4% restantes de bebidas
con bajas graduacion alcoholica. Construir un diagrama de barras y uno de pastel que
represente esta informacion.
84. Una sucursal bancaria que se localiza en la zona comercial de una ciudad desarrollo un
proceso para atender a sus clientes durante la hora pico de almuerzo, de 12:00 p.m. a
1:00 p.m. Se registro el tiempo de espera en minutos (definido como el tiempo desde que
el cliente se forma en la cola hasta que lo atienden) para todos los clientes que asisten a
esta hora durante una semana. Se selecciono una muestra aleatoria de 15 clientes y los
resultados fueron:
2,34
4,50

3,02
6,10

3,54
6,19

3,20
3,79

5,13
5,12

4,21
6,46

5,55
0,38

4,77

(a) Calcule la media, la mediana, la moda, el rango medio, los tres cuartiles, el rango, el
rango intercuartil, la varianza, la desviacion estandar y el coeficiente de variaci
on.
(b) Estan los datos sesgados? Si es as, como?
(c) Un cliente entra en la sucursal a la hora del almuerzo y pregunta cuanto tiempo tendra

que esperar. Este


responde: es casi seguro que no tendra que esperar mas de cinco
minutos. Eval
ue esta afirmacion seg
un los resultados obtenidos en el inciso (a).
85. Un auditor ha comprobado que el valor de la facturas pagadas por cierta empresa norteamericana tiene una media de 300 dolares, y una desviacion tpica de 65 dolares. Hallar
un intervalo en el cual se pueda garantizar que se encuentra por lo menos (a) 60%, (b)
80% de estos valores.
86. Los siguientes tiempos fueron registrados por corredores de cuarto de milla de un equipo
universitario de pista (tiempos en minutos).
Tiempos en el cuarto de milla:
Tiempos en la milla

1,04
4,60

0,90
4,70

0,99
4,50

0,92
4,52

0,98
4,35

Despues de ver esta muestra de tiempos, uno de los entrenadores comento que los corredores de cuarto de milla corran con mas consistencia. Emplee la desviacion estandar y
el coeficiente de variacion para resumir la variabilidad de los datos. El coeficiente de
variacion indica que es cierta la afirmacion del entrenador?

Cap. 1. Ejercicios complementarios

88

87. La maxima temperatura registrada durante el verano en una ciudad europea durante los
u
ltimos 8 a
nos son: 25; 24; 23,2; 25,5; 24,8; 23,6; 26 y 35 C. Se puede considerar la
u
ltima temperatura como fuera de lo normal? Justifique.
88. Dos poblaciones constan de n datos cada una. La media de estas dos poblaciones es
la misma, y tambien lo son sus desviaciones tpicas. Si (a) n = 2, (b) n = 3, son
necesariamente iguales los valores numericos de los datos de las dos poblaciones?

89. Sean dados los datos x1 , . . ., xn .


(a) Para que valor de c la cantidad

Pn

i=1 (xi

c)2 es minimizada?

(b) P
Mediante el resultado del inciso (a), cual de las dos cantidades
n
2
a menor que la otra (suponiendo que x 6= )?
i=1 (xi ) ser

Pn

i=1 (xi

x)2 y

90. Supongamos que a cada dato de un conjunto de datos se le suma una constante c, es
decir, supongamos que se agrega una constante c a cada xi en una muestra, obteniendo
yi = xi + c.
(a) Demuestre que la media del nuevo conjunto de datos es igual a la media de los datos
originales mas la constante. Es decir, y = x + c.
(b) Demuestre que la mediana del nuevo conjunto de datos es igual a la mediana de los
datos originales mas la constante. Es decir,
(Mediana de los yi ) = (Mediana de los xi ) + c.
(c) Demuestre que la varianza del nuevo conjunto de datos es igual a la varianza de los
datos originales. Es decir,
(Varianza de los yi ) = (Varianza de los xi ).
(d) Demuestre que la desviacion estandar del nuevo conjunto de datos es igual a la
desviacion estandar de los datos originales. Es decir,
(Desviaci
on estandar de los yi ) = (Desviaci
on estandar de los xi ).

91. Supongamos que a cada dato de un conjunto de datos se le multiplica una constante, es
decir, supongamos que se multiplica una constante k a cada xi en una muestra, obteniendo
yi = kxi .
(a) Demuestre que la media del nuevo conjunto de datos es igual a la media de los datos
originales multiplicada por la constante. Es decir, y = kx.
(b) Demuestre que la mediana del nuevo conjunto de datos es igual a la mediana de los
datos originales multiplicada por la constante. Es decir,
(Mediana de los yi ) = k (Mediana de los xi ).
(c) Demuestre que la varianza del nuevo conjunto de datos es igual a la varianza de los
datos originales por la constante al cuadrado. Es decir,
(Varianza de los yi ) = k2 (Varianza de los xi ).
(d) Demuestre que la desviacion estandar del nuevo conjunto de datos es igual a la
desviacion estandar de los datos originales multiplicada por el valor absoluto de la
constante . Es decir,
(Desviaci
on estandar de los yi ) = |k| (Desviaci
on estandarde los xi ).

Cap. 1. Ejercicios complementarios

89

Aplique los resultados de los ejercicios 90 y 91 para resolver los problemas 92 y 93.
92. (a) Una muestra de temperatura para iniciar cierta reaccion qumica dio una media muestral de 87, 3 C y una desviac
on estandar muestral de 1, 04 C. Cual son la media y
desviacion estandar muestrales medidas en F? (Sugerencia: F = 95 C + 32.)
(b) Si se suma 5 a cada dato en un conjunto de diez que tiene una desviacion estandar
de 7, cual es la desviacion estandar del nuevo conjunto de datos?
(c) Suponga que 3,0 es la media de una muestra de cuatro calificaciones.
i. Si se suma 5 decimas a cada calificacion, cual es la media del nuevo conjunto?
ii. Si cada calificacion se multiplica por 1,5 puntos, cual sera la media?
93. El propietario de una peque
na empresa tiene asignado un sueldo de 3.910 euros mensuales.
Los salarios de los empleados aparecen a continuacion:
480
1.172

510
853

739
487

883
553

859
944

499
920

505
1.713

1.106
1.893

980
595

(a) Cual es el salario medio de todos los que trabajan en la empresa incluyendo al
propietario? Cual es la desviacion estandar?
(b) Si se decide aumentar el salario a cada uno en 20 euros, como vara la media? Y
la desviacion estandar?
(c) Si se aumenta solo el sueldo del due
no en 600 euros, que ocurre con la media?
(d) Hallar la mediana. Como vara la mediana si se aumentan todos los sueldos en 300
euros? Y si solo se aumenta el salario del director en 1.200 euros?

s 94. Se pidio a los alumnos de la facultad de Aministracion de Empresas de una prestigiosa


universidad, llenar un cuestionario de evaluacion del curso final del mismo. Consiste en una
diversidad de preguntas cuyas respuestas se clasifican en cinco categoras: mala, regular,
buena, muy buena, excelente. Una de las preguntas es: En comparaci
on con otros cursos
que has estudiado, cual es la calidad general de este? En una muestra de 60 alumnos
que terminaron un curso de estadstica durante un determinado semestre de cierto a
no se
obtuvieron las respuestas que se presentan a continuacion (para facilitar el procesamiento
de los resultados del cuestionario en el computador, se us
o una escala numerica en la que
1 = mala, 2 = regular, 3 = buena, 4 = muy buena, 5 = excelente):
5
2
3

2
5
4

4
4
5

5
2
4

4
4
3

4
4
5

3
4
4

3
4
5

4
5
5

4
5
3

5
4
4

1
4
5

5
4
5

4
5
2

3
1
4

5
5
5

4
3
3

5
3
4

4
4
4

3
3
3

(a) Comente porque estos datos son cualitativos.


(b) Elabore un diagrama de frecuencias y una distribuci
on de frecuencias relativas de los
datos.
(c) Trace un resumen de los datos en forma de grafica de barras y de diagrama circular.
(d) Con base en sus res
umenes, haga comentarios sobre la evaluacion general del curso
por parte de los alumnos.

s 95. En el archivo de datos bombeo.sf3 se proporcionan los nombres y potencias instaladas


(en Megawatios) de las veinticuatro centrales espa
nolas de bombeo en funcionamiento en
el a
no 2.000. Se desea analizar numerica y graficamente este conjunto de datos.

Cap. 1. Ejercicios complementarios

90

s 96. Una de las principales atracciones tursticas del Parque Nacional de Yellowstone (Estado de
Wyoming, Estados Unidos de Norteamerica) es el geiser Old Faithful, cuyo nombre procede
del hecho de que sus erupciones siguen una pauta bastante estable a lo largo del tiempo.
En el archivo de datos parque.sf3 se proporcionan los lapsos de tiempo transcurridos
entre sucesivas erupciones (variable Lapso) y las duraciones de esas erupciones (variable
Duracion). Ambas variables se dan en minutos. Estudie numerica y graficamentre ambas
variables. Se observa alguna peculiaridad en ellas?

s 97. En el archivo de datos pi.sf3 se proporcionan los 200 primeros dgitos del numero .
Analice numerica y graficamente este conjunto de datos.

s 98. En el archivo de datos sismo.sf3 se muestran el tiempo transcurrido (dado en das) entre
sismos sucesivos acaecidos en el mundo. Todos los sismos considerados o tuvieron una
intensidad de al menos 7,5 en la escala de Richter o produjeron mas de 1000 vctimas
mortales. Los sismos registrados ocurrieron entre el 16 de diciembre de 1902 y el 4 de
marzo de 1977. Estudie numerica y graficamente estos datos.

Respuestas a ejercicios impares


seleccionados

Captulo 1
5. (b) Se ha cometido un error.
7. (a) de barras, circular (b) histograma,
ojiva (c) de barras
9. (a) Ordinal

43. 2,9
45. (a) 963,33; 550; 700; 1.775; 413,3 (b)
Mediana (c) 550; 800; 700 (d) 2.450;
803,52; 250

13. (a) 80% (b) 40%


15. (c) 149 en la clase 138,5 - 157,5 (d)
Ojiva
17. (a) 16% (b) 20 (c) 12% (d) 13
23. (a) Ordinal, nominal (b) Distribucion
simetrica unimodal
25. 190
27. El piloto A
29. S
31. (a) 23.000 - 35.000
33. Media 46,81 y mediana 36,6
35. (a) Media 1,0297 y mediana 1,0090
(b) Disminuir maximo en 0,385
37. x = 65, s = 12, 18 (a) 70% (b) 100%
(c) 100%
39. S (aplicar regla de Tchebychev)

47. (a) [12,05; 39,95] (b) Por lo menos


aproximadamente el 85%
49. (a) H:0,9375; G:1,15 (b) H:5,53
103 ; G:0,04 (c) El de Humberto (d)
CV(H)=0,075; CV(G)=0,173
x = 27, 639;
51. (a) x = 27, 95; e
s = 8, 0829; R.I = 5, 42 (b)
x = 27, 944; s = 8, 1061
x = 2, 6; M0 = 0, 875;
53. (c) x = 1, 6; e
s = 1, 0208
55. (a) 1.300 (b) 1.710 (c) 1.040 (d)
12.300; 12.710; 12.040 (e) 1.365
57. Resumen de cinco n
umeros: 166; 317;
451; 545; 1.049

Respuestas a ejercicios impares seleccionados

59. (a) 1,9; 2,28; 2,79; 3,05; 3,25 (b) La


distribuci
on esta sesgada a la izquierda
(c) El rango de los datos de 1,35
puntos es grande dado los peque
nos
rendimientos porcentuales sobre los que
esta calculado. Las tasas del mercado
de dinero varan entre bancos.
61. (a) x = 79, 31; Resumen de cinco
n
umeros: 72; 76,5; 78,5; 80,5; 90 (c) S
73. x = 20, 05; s = 5, 7812; = 5, 484
75. x = 3, 694; s = 1, 214; = 1, 182
77. (a) El valor representativo parece ser
7,9. Regla usada a veces: La variacion

92

tiende a ser grande si el rango es grande


comparada con un valor representativo
(en este caso, grande significa que el
porcentaje esta mas cerca de 100% que
a 0%). Aqu, el rango es 5,9. Esto
constituye un 5, 9/7, 9 75% del valor
representativo. Por tanto, la variaci
on
es grande. (b) Tendencia a ser sesgada
a la derecha (c) No parece (d) 15%
79. 10 unidades
81. 0,273 botellas; 2,19 onzas
85. (a) [402,7; 197,3] (b) [445,34; 145,34]

Indice

Amplitud de clase, 15
Analisis exploratorio de datos, 67
Censo, 9
Clase, 14
del p-esimo punto percentil, 64
mediana, 63
modal, 63
Coeficiente
de sesgo, 55
de asimetra
de Fisher, 56
de Fisher estandarizado, 56
de Pearson, 56
de variacion de Pearson, 51
Cuartil, 42, 64
Dato, 8
categorico o cualitativo, 11
numerico o cuantitativo, 11
continuo, 12
discreto, 12
Datos
agrupados, 14
de nivel
de intervalo, 13
de raz
on, 13
nominal, 12
ordinal, 12
no agrupados, 14
Decil, 42
Desviaci
on, 44
estandar
muestral, 46
poblacional, 45
media, 47

tpica, ver desviacion estandar, ver desviaci


on
estandar
Diagrama
circular o de pastel, 22
de barras, 23
de caja y bigotes, 69
comparativos, 71
de tallo y hoja, 27
Distribucion
asimetrica, 53
negativamente, 53
positivamente, 53
sesgada
negativamente o a la derecha, 56
positivamente o a la izquierda, 56
simetrica, 53
Elemento de una poblacion, 8
Escala de medida, 12
de intervalo, 13
de raz
on, 13
nominal, 12
ordinal, 12
Estadstica
descriptiva o deductiva, 9
inferencial o inductiva, 9
Estadstico, 8
metodo, 10
Estadstica, 4, 5
Frecuencia, 14
acumulada, 21
de clase, 14
relativa, 21
relativa acumulada, 21
Frontera

INDICE

de clase, 15
inferior de clase, 15
superior de clase, 15
Histograma, 24
suavizado, 32
Individuo de una poblacion, 8
Intervalos de clase, ver clase
Lmite
de clase, 15
inferior de clase, 15
real
inferior de clase, ver Frontera inferior
de clase
superior de clase, ver Frontera superior de clase
real de clase, ver frontera de clase
superior de clase, 15
Marca de clase, 15
Media
aritmetica ponderada, 33
aritmetica, 33, 61
arm
onica, 39
arm
onica ponderada, 39
geometrica, 37
geometrica ponderada, 37
Mediana, 34, 63
Medidas
de asimetra, 55
de colocacion o de posici
on relativa, 40
de curtosis o apuntamiento, 57
de forma, 53
de tendencia central, 33
Moda, 35, 63
cruda, 63
Muestra, 8
Observacion, 8
Ojiva, 26
Parametro, 8
Percentil, 41, 64
Pictografos, ver pictograma
Pictograma, 23
Poblacion, 8
Polgono, 25
Rango, 16, 43
intercuartil, 44
medio, 36, 64
Recorrido, ver Rango

94

Regla
de Sturges, 16
de Tchevichev, 49
emprica, 50
Resumen de cinco n
umeros, 67
Tabla de frecuencias, 14
acumuladas, 21
agrupadas, 14
bivariadas, 21
no agrupadas, 14
relativas, 21
relativas acumuladas, 21
Valor atpico, 70
extremo, 70
moderado, 70
Varianza
muestral, 46
muestral ponderada, 48
poblacional, 45
poblacional ponderada, 48

You might also like