You are on page 1of 32

Notas de clase Estadística Raúl Urbán Ruiz

0



ESTADISTICA Y PROBABILIDAD
(Notas del curso)






RAÚL RAFAEL URBAN RUIZ
UNAM

DIVISION DE ESTUDIOS DE POSGRADO
FACULTAD DE ECONOMIA

Enero 2014


Notas de clase Estadística Raúl Urbán Ruiz

1
INTRODUCCION


Los juegos de azar o quizá la necesidad de medir la riqueza de una población dio origen a lo que
hoy conocemos como la teoría de la probabilidad y estadística. La mayoría de los estadísticos
ubican los años de 1650 y 1670 como el período en que nacieron estas dos aplicaciones
matemáticas, casi en paralelo. El cálculo de probabilidades tiene sus orígenes con Pascal, y Fermat
1654 basados en los juegos de azar. Sin embargo, fue hasta 1656 cuando Huygens publica el
primer tratado sobre probabilidad “De ratiociniis in ludo aleae” sobre los cálculos en los juegos de
azar en donde introduce los conceptos de esperanza matemática y resuelve problemas propuestos
por Pascal y Fermat. Unos años después, en 1713, Jacques Bernoulli publica su libro “Ars
Conjectandi”, el arte de la conjetura, que contiene la primera declaración de la ley de los números
grandes teorema que es la base de las interpretaciones de la escuela frecuentista. En 1733 de
Moivre en su libro “The Doctrine of Chances” demuestra la primera forma del teorema del límite
central (límite de una distribución binomial), que pone de relieve el papel central de la distribución
normal en la teoría de la probabilidad. Posteriormente, en los siglos XVIII y XIX, Laplace y Gauss
perfeccionan y enriquecen significativamente la teoría matemática de la probabilidad. Los
matemáticos rusos Chebyshev, Markov y los franceses Poincaré y Borel (1871-1956)) a lo largo del
siglo IXX y XX realizan contribuciones importantes a la teoría de probabilidades. Finalmente en
1933, Kolmogorov (1903-1987) en su libro “Los fundamentos de la Teoría de la Probabilidad
estructuro el marco axiomático de la teoría de la probabilidad a partir de la teoría de conjuntos.


Propósito de la estadística

Diariamente los medios de comunicación “bombardean” con datos. Las “estadísticas” se nutren de
los números generados por espacios informativos, publicidad, resultados de eventos deportivos,
sondeos de opinión, debates públicos, etc. Las organizaciones modernas tienen gran variedad de
datos en sus archivos de documentos y en las computadoras. Cientos o miles de valores se
agregan a este total todos los días.

Algunos de los datos nuevos se generan normalmente durante el registro de las actividades; otros
son el resultado de estudios e investigaciones especiales. Sin los procedimientos estadísticos,
ninguna organización podría transformar en información útil la gran cantidad de datos generados
por su actividad.

El tratamiento estadístico de los datos se simplifica mucho con el empleo de computadora. Los
programas de cómputo para este tipo de aplicaciones son variados, hojas de cálculo como el
famoso EXCEL y software estadístico como MINITAB y SPSS, por citar algunos de ellos. Existen
otros en el mercado que realizan funciones similares, como el SAS, STAT, etc. Destaca el paquete
Notas de clase Estadística Raúl Urbán Ruiz

2
EPIINFO
1
de plataforma libre, diseñado por el Centro para el Control de Enfermedades de Atlanta
(CDC) y que se distribuye en forma gratuita

En toda actividad profesional, es importante la recolección y el estudio de datos; por eso los
conocimientos de estadística son valiosos para una gran variedad de casos.

• El INEGI y la mayoría de las oficinas del gobierno publican periódicamente información
numérica sobre la inflación y el desempleo, a través de índices de precios, tasa de desempleo,
etc.
• Quienes se dedican a realizar previsiones, los economistas, los asesores financieros y los que
determinan las políticas de una empresa, industria y del gobierno estudian estos datos para
tomar decisiones basadas en la información obtenida.
• Con el fin de ofrecer un tratamiento adecuado en los centros de salud, deben entender la
información estadística de las investigaciones que se publican en las revistas médicas sobre
efectos de nuevas drogas, tratamientos de enfermedades, etc.
• En política, los funcionarios que ocupan cargos directivos consideran las estadísticas de la
opinión pública para definir la legislación que quieren sus votantes.
• Las empresas basan sus decisiones en estudios de mercado sobre los patrones de
compra de los consumidores, pruebas de nuevos productos, etc.
• Las empresas, mediante sus áreas de control de calidad recopilan datos sobre la fiabilidad de
partes y productos fabricados, calidad de procesos, etc. para mejoramiento del producto.

El análisis estadístico nos provee un conjunto de principios y procedimientos para manipular,
resumir e investigar datos con el fin de obtener información útil en la toma de decisiones.

De acuerdo con la experiencia, virtualmente toda persona involucrada en la toma de decisiones
necesita conocimientos de análisis estadístico. Muy frecuentemente, en especial en compañías
grandes, se utiliza la estadística en forma habitual. Cuando se solicita personal para esos trabajos,
se piden conocimientos sólidos de análisis estadístico.

En cualquiera de estos u otros ejemplos se puede observar que tanto el registro de los datos que
interesan, como su manejo o utilización, no siempre es simple y se necesitan procedimientos
adecuados para llevarlos a cabo.

La estadística es una ciencia con base matemática referente a la recolección, análisis e
interpretación de datos, que busca explicar condiciones regulares en fenómenos de tipo aleatorio.
Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde
las ciencias de la salud hasta el control de calidad, y es usada para la toma de decisiones en áreas
de negocios e instituciones gubernamentales.

1
EPIINFO, es un software gratuito con más de 20 años de existencia. Está disponible para la
plataforma Windows, desarrollado por los Centros para el Control y la Prevención de
Enfermedades de los Estados Unidos (CDC). Permite, diseñar encuestas y captura de datos y
análisis estadístico de la información de la muestra. Se puede descargar del sitio
http://www.cdc.gov/epiinfo.

Notas de clase Estadística Raúl Urbán Ruiz

3
Experimento

Llamamos experimento a cualquier proceso que nos proporciona un resultado que no puede
predecirse antes de su realización. Estos resultados pueden ser numéricos o no numéricos. Son
experimentos que no dan siempre el mismo resultado al repetirlos en las mismas condiciones. Un
suceso elemental en el resultado de cada una de las realizaciones del experimento aleatorio. Se
llama suceso imposible al resultado que nunca se obtiene con este experimento. Por lo contrario
un suceso o resultado seguro es aquel que siempre ocurre. Por ejemplo, si el experimento consiste
en lanzar un dado y el resultado es el número de puntos de la cara superior. Si solamente tenemos
6 resultados posibles {1,2,3,4,5,6}, un resultado imposible es que salga el número 9, y siempre
ocurre que la cara superior sea un número entre 1 y 6.

Población y Muestra

Al recoger datos relativos a las características de un grupo de individuos por ejemplo el ingreso
familiar de una comunidad, la edad de los trabajadores de una empresa, la calidad de un tipo de
café que produce una comunidad, suele ser imposible o nada práctico y en la mayoría de los casos
costoso, observar por ejemplo toda la producción de café, en especial si es un área muy grande.
En vez de examinar el grupo entero, llamado población o universo, se examina una pequeña parte
del grupo, llamada muestra. En las ciencias naturales por ejemplo para analizar la calidad del agua
en rio o para realizar un análisis de sangre en un persona, basta con tomar una muestra pequeña
de la zona o del individuo, a partir de esta muestra podemos suponemos que el resto tiene la
misma calidad.

Una población puede ser finita o infinita. Por ejemplo, la población consistente en todas las
tuercas producidas por una fábrica un cierto día es finita, mientras que la determinada por todos
los posibles resultados (caras, cruces) de sucesivas tiradas de una moneda, es infinita.

Si una muestra es representativa de una población, es posible inferir importantes conclusiones
sobre las poblaciones a partir del análisis de la muestra. La fase de la estadística que trata con las
condiciones bajo las cuales tal diferencia es válida se llama estadística inductiva o inferencia
estadística. Ya que dicha inferencia no es del todo exacta, el lenguaje de las probabilidades
aparecerá al establecer nuestras conclusiones.

Por ejemplo en una encuesta de opinión sobre la preferencias de una población en una elección.
Consultar a todos los votantes para poder medir sus preferencias sería una labor muy difícil; como
única alternativa lo que las agencias realizan, es obtener una muestra de los votantes con la
expectativa de que la proporción de votos para cada candidato en la muestra, describa lo mas
cercano posible al comportamiento de la población.

Cuando hacemos inferencia del comportamiento de una población a partir de los datos de una
muestra estamos en lo que se conoce como inferencia estadística.

La parte de la estadística que sólo se ocupa de describir y analizar un grupo dado, sin sacar
conclusiones sobre un grupo mayor, se llama estadística descriptiva.
Notas de clase Estadística Raúl Urbán Ruiz

4
La estadística descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una
población, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc.) y
trata de extraer conclusiones sobre el comportamiento de estas variables.

Tipos de datos.
Los datos que trabajamos en estadística (de la recolección o del resultado de un análisis) se
pueden presentar sobre formas diferentes. Estas formas reflejan las propiedades intrínsecas de los
datos e influyen de manera decisiva en el tipo de análisis que puede realizarse con ellos.
Las variables o los datos, son necesariamente clasificados de alguna manera, una medida y un
tipo. De esta manera a partir de la característica de interés que interesa observar en la población
en relación al objetivo de estudio, pueden ser de dos tipos:
• Variables cualitativas o atributos: los valores que toma la variable o dato son no
jerárquicos, no se pueden listar en un orden lógico; no se pueden medir numéricamente
(por ejemplo: la nacionalidad, el color de la piel, sexo etc.)
• Variables cuantitativas: los valores que toman estas variables o datos permiten a los
elementos en estudio poder ser colocados en un orden lógico, según una jerarquía
natural. Tienen valor numérico (edad, salario, precio de un producto, ingresos anuales).
Estas variables a su vez se clasifican en:
o Discretas: sólo pueden tomar valores enteros (1, 2, 8, −4, . ). Por ejemplo:
número de hermanos ( 1, 2, 3. . . . , , á 3.45).
o Continuas: a la inversa de las discretas, pueden tomar cualquier valor real dentro
de un intervalo. Por ejemplo, la velocidad de un vehículo puede ser 80,3 km/h,
94,57 km/h...etc.
Las variables también las podemos clasificar en:
a) Variables unidimensionales: sólo recogen información sobre una característica (por
ejemplo: edad de los alumnos de una clase).
b) Variables bidimensionales: recogen información sobre dos características de la población
(por ejemplo: edad y altura de los alumnos de una clase).
c) Variables pluridimensionales: recogen información sobre tres o más características (por
ejemplo: edad, altura y peso de los alumnos de una clase).

Transformación de variables cualitatitivas en cuantitativas
Ciertos tratamientos y análisis de datos y variables necesitan ser modificados para poderlos
trabajar. Este es el caso de las variables cuantitativas que se necesitan ser manipulables o bien
compatibles con los programas de cómputo estadísticos. Es necesario transformar la variable
cuantitativa con un código que la modifique a una variable numérica, o pseudo numérica. Esta
transformación, sigue una regla básica; solo se aplica a variables cualitativas.

Notas de clase Estadística Raúl Urbán Ruiz

5
Por ejemplo, una variable cualitativa ordinal para medir la calidad de un servicio médico, que toma
el valor siguiente; muy bueno, bueno, regular, malo y muy malo. La recodificación numérica de la
variable debe considerar el carácter ordinal. Así, podríamos asignar el siguiente código.

5 = Muy bueno
4 = Bueno
3 = Regular
2 = Malo
1 = Muy malo

En esta recodificación, el orden de la numeración indica el grado de satisfacción. Esta regla no
siempre se aplica como en el caso en los que la variable no requiere un orden jerárquico. Por
ejemplo la modalidad masculina y femenina. En este caso no tiene sentido dar una jerarquía y
podríamos recodificar,

1= Masculino 1=Femenino
2= Femenino 2=Masculino

En este caso, podríamos utilizar cualquier codificación sin que se alteren los resultados. Es
necesario aclarar que la codificación asignada a este tipo de variables no puede ser objeto de
operaciones aritméticas como por ejemplo, el cálculo de una suma o la del promedio. En realidad
son números que no modifican en nada las propiedades fundamentales de la variable cuantitativa
ya sea nominal u ordinal. En suma, la transformación de una variable cualitativa en numérica no le
otorga ninguna propiedad numérica.

Población y Muestra
Cuando se estudia el comportamiento de una variable hay que distinguir los siguientes conceptos:
La Unidad de análisis, es cualquier elemento que porte información sobre el fenómeno que se
estudia. Así, si estudiamos la altura de los niños de una clase, cada alumno es una unidad de
análisis; si estudiamos el precio de la vivienda, cada vivienda es una unidad de análisis.
La Población, es el conjunto de todos los individuos (o unidades estadísticas; como personas,
objetos, animales, etc.) que tienen características comunes. Para una temática específica, la
población agrupa a la totalidad de individuos relativos a esa característica específica.
Parámetro. Es una medida que resume información de una característica o variable de
la población.
Por ejemplo,
• La población que vive en una comunidad específica, parámetros de este grupo puede ser,
la edad, el sexo, nivel educativo
• La población económicamente activa, parámetros pueden ser el nivel salarial, sexo, sector
industrial
Notas de clase Estadística Raúl Urbán Ruiz

6
• El conjunto de vacas y toros en un rancho ganadero, algunos parámetros pueden ser,
producción lechera, edad, número de crías
• Los Obreros que trabajan en un sector industrial, parámetros; nivel salarial, prestaciones
sociales, capacitación, salud, etc.

Una muestra es un subconjunto de elementos tomados de la población en estudio. Así, si se
estudia el precio de la vivienda de una ciudad, lo normal será no recoger información sobre todas
las viviendas de la ciudad (sería una labor muy compleja), sino que se suele seleccionar un
subgrupo (muestra) que se entienda que es suficientemente representativo.
Estadístico. Es una medida que resume datos de una variable obtenida a partir de los
datos de una muestra.
Como ya lo indicamos antes, una muestra nos sirve para hacer inferencias acerca del
comportamiento de una población. Por lo tanto, la selección de una muestra representativa es un
problema importante en la investigación estadística ya que ésta puede proporcionar una visión útil
de la naturaleza de la población que se estudia, mientras que una muestra no representativa
puede sugerir conclusiones totalmente erróneas sobre la población.

Por esto, es importante que la selección de las unidades de análisis que intervengan en la muestra
no esté influenciada por cuestiones de conveniencia o favoritismo; es decir, la muestra no debe
tener “sesgo”. Regresamos al experimento de obtener una gota de sangre para medir la cantidad
de glucosa. Si la muestra la tomamos en ayunas tendremos un resultado diferente a si tomamos la
muestra después de comer. O por ejemplo si al realizar una encuesta de ocupación, tendremos
resultados diferentes si solo entrevistamos a empleados de gobierno o solamente a obreros de un
sector industrial.

Una buena práctica es utilizar el azar. Las muestras seleccionadas en forma aleatoria son muestras
probabilísticas. Existen algunas técnicas estadísticas diseñadas para diferentes situaciones. Una de
estas técnicas son las muestras aleatorias simples, las cuales son seleccionadas de la población por
medio de una tabla de números aleatorios o algunos medios similares, si no se tiene una tabla a la
mano, se tendrían los mismos resultados con el apoyo de una calculadora de bolsillo o un
directorio telefónico.

Una muestra aleatoria simple se obtiene cuando se seleccionan n elementos de una
población, de manera que todas las combinaciones posibles de n elementos de la
población tienen igual posibilidad de ser elegidas.

Se utilizan muestras y no se estudia la población total por cualquiera de las razones siguientes:
a) Recursos limitados
b) Datos disponibles limitados.
c) Prueba destructiva
d) Más exactitud

La limitación de los recursos (tiempo, dinero, etc.) desempeña siempre un papel importante que
justifica el uso de muestras. Si la población es grande, el censo ocasiona un costo elevado y
Notas de clase Estadística Raúl Urbán Ruiz

7
muchas veces, aunque económicamente se pudiera realizar, llevaría tanto tiempo que la
información no resultaría de interés. En este mundo tan cambiante, el muestreo permite
conseguir la información rápidamente en un momento determinado.

A veces, independientemente de los recursos, sólo existe una pequeña muestra. Por ejemplo, se
puede tener a prueba una máquina que se supone más eficiente que otras, para decidir si se
compran unidades semejantes. El gerente de control de calidad sencillamente no puede esperar
hasta observar la población completa de los productos de esta máquina, en lugar de ello, debe
observar una muestra de productos de dicha máquina y basar su decisión en una inferencia que
hace a partir de dicha muestra.

El muestreo puede implicar una prueba destructiva. Por ejemplo, suponga que se desea conocer el
promedio de vida de los focos producidos por una fábrica determinada. Sería insensato esperar a
que todos los focos se quemaran para conocer su promedio de vida.

Un censo no ofrece garantía absoluta de calidad. La observación de toda la población puede ser
una tarea enorme que lleve a cometer muchos más errores que cuando se observa una muestra
cuidadosamente diagramada. Por ejemplo, una gran cantidad de personal poco capacitado puede
cometer errores de medición que no cometería una menor cantidad de personal mejor
capacitado.

Ejercicios.
1. ¿Qué tipo de variables son las siguientes?
a. Número de integrantes de una familia.
b. Religión de una persona
c. Los estados de la república mexicana
d. Número de acciones vendidas por día en la bolsa
e. Remuneraciones de los obreros de una empresa
f. Valor del PIB
g. Grado académico de una persona

Errores de las muestras

Retomando el ejemplo de las encuestas previas a la elección, puede suceder que la proporción de
votos obtenida por cada uno de los candidatos en la muestra, quizás represente muy mal a la
correspondiente en la población, por distintas razones:

• Independientemente de lo bien dirigido y diseñado que esté el procedimiento de
muestreo, puede ocurrir que se obtenga una muestra de votantes “no representativa” de
la población. Por ejemplo si seleccionamos la muestra de un solo estrato de la población,
por ejemplo de estudiantes. En todo caso podríamos hacer inferencias del
comportamiento electoral de estudiantes.
• El otro problema consiste en que el muestreo puede estar mal diseñado. Por ejemplo,
cuando se muestrea una población de votantes es erróneo tomar sus nombres de una guía
telefónica, puesto que quedarán excluidos los votantes que no poseen teléfono.

Notas de clase Estadística Raúl Urbán Ruiz

8
Recolección de datos
Los datos se pueden obtener por observación o por experimentación. Si simplemente se observa
la característica de interés sin intervenir en el proceso en estudio, se está ante un estudio
observacional. En cambio sí se interviene en el proceso en estudio imponiendo algún tratamiento
en forma deliberada sobre las unidades de análisis a fin de observar las respuestas, se está ante un
experimento.

Según el tipo de fuente, los datos pueden ser primarios o secundarios. Los datos primarios se
recogen específicamente para el análisis deseado. Los datos secundarios ya se han compilado y
están disponibles para el análisis estadístico.

La ventaja de usar datos secundarios para una investigación estadística es que ya se dispone de
ellos y no es necesario recogerlos para un proyecto específico. Incluso la compra de los datos a
una compañía comercial es por lo general menos costosa que obtener datos primarios. La
desventaja de los datos secundarios es que estas fuentes no siempre cubren las necesidades
específicas del análisis y además no siempre son confiables. Esta es la razón por la que muchos
investigadores prefieren obtener datos primarios orientados específicamente al asunto que se
está investigando.

Se requiere experiencia para determinar qué técnica o combinación de técnicas se adecuan mejor
a la tarea de obtener la información necesaria de las unidades de análisis. La clave para realizar
una buena investigación reside, en gran medida, en la pericia del analista a la hora de elegir la
técnica idónea.

Finalmente ya tenemos datos, como por ejemplo los resultados de una muestra de ingreso de una
comunidad para formular inferencias estadísticas acerca de ingresos o consumo de la comunidad,
es necesario poder describir un conjunto de datos ya sea la población o una muestra. Los métodos
usados para describir estos datos pueden ser de dos tipos: métodos gráficos y métodos
numéricos.

Una vez fijado el objetivo de estudio y en consecuencia definida la o las poblaciones asociadas, se
procede a la recolección de los datos (censo o muestra). Considerando que el conjunto de datos
constituye una muestra, en lo que sigue se estudian algunas de las técnicas más usadas para; la
presentación de los mismos en forma ordenada (tablas y gráficos) y el cálculo de medidas o
resúmenes.

Antes de analizar los datos es importante determinar primero si se recogieron datos cualitativos o
cuantitativos ya que se usan técnicas estadísticas distintas para cada uno de ellos, por lo que se
pueden esperar resultados erróneos si se aplica una técnica inapropiada


Clase.
Es común que los elementos de una población se dividan en subconjuntos construidos a partir de
un criterio determinado, esto con el fin de reducir el tamaño de las tablas de datos y para facilitar
la lectura, el análisis y la interpretación de los datos. Esta división lleva a un reagrupamiento de los
elementos de la población bajo estudio y la formación de diferentes clases de elementos que
Notas de clase Estadística Raúl Urbán Ruiz

9
tienen características comunes. Por ejemplo, dada una población particular, con las edades de sus
individuos, podemos formar las siguientes clases;

Clase 1 Clase 2 Clase 3 Clase 3 Clase 4 Clase 5
0 – 19 años 20 – 29 años 30 – 39 años 40 – 49 años 50 – 59 años 60 y más años
130 210 340 310 260 140

Igualmente podemos formar clases a partir de diferentes criterios como, por ejemplo, edad y sexo,
como por ejemplo

Sexo
Edad
0–19 años 20–29 años 30–39 años 40–49 años 50–59 años 60 años y mas
Masculino 70 115 200 175 190 81
Femenino 60 95 140 135 130 59
Total 130 210 340 310 260 140

La división en clase de una población por uno o más criterios requiere de un conocimiento
detallado del fenómeno bajo estudio, debido a que el estudio es muy sensible a los de los
umbrales o límites de clase, pueden conducir a resultados distintos y por lo tanto diferentes
interpretaciones.


Como organizar los datos. Distribuciones de frecuencia.

Cualquier tratamiento, cualquier representación o análisis de un conjunto de datos relativos a un
dato o variable de una población o muestra requieren que se presenten en una forma organizada
que facilite su análisis. La distribución de frecuencia es la representación estructurada, en forma
de tabla, que nos permite resumir toda la información que se ha recogido sobre la variable que se
estudia.
Supongamos que obtenemos los datos siguientes que corresponden a los ingresos anuales de un
grupo de pobladores de una comunidad.
Datos de ingresos de una comunidad
2760 13460 4140 4250 11740 3180 3760
4340 5210 3000 3460 3560 4240 4170
5210 2690 1610 19310 2740 2860 6170
3410 3850 4570 2670 7110 4350 2350
4570 4360 1940 3100 10300 7310 8340
9300 2140 2780 5130 4440 3550 1990
3320 3330 3340 1710 3370 4210 2800
1790 7810 4350 4320 5170 5490 2800
4560 5340 2610 9830 3160 2110 4325
3800 2970 8190 3890 2800 23400 3680

Notas de clase Estadística Raúl Urbán Ruiz

10
1) Como primer paso, ordenamos la información del menor al mayor dato
1610 2690 3100 3560 4250 4570 7810
1710 2740 3160 3680 4320 5130 8190
1790 2760 3180 3760 4325 5170 8340
1940 2780 3320 3800 4340 5210 9300
1990 2800 3330 3850 4350 5210 9830
2110 2800 3340 3890 4350 5340 10300
2140 2800 3370 4140 4360 5490 11740
2350 2860 3410 4170 4440 6170 13460
2610 2970 3460 4210 4560 7110 19310
2670 3000 3550 4240 4570 7310 23400
2) Para agrupar los datos formamos grupos de datos, por ejemplo de acuerdo al nivel de ingreso.
Estos grupos estarán delimitados por intervalos de clase
2
y por lo tanto tendremos varios
grupos e intervalos de clase. En forma general, se recomienda utilizar entre 5 y 20 intervalos
dependiendo de la dispersión de la información.

Para encontrar estos intervalos aplicamos una regla sencilla, obtenemos la diferencia entre el
mayor y el menor de los datos y este resultado lo dividimos entre el número de intervalos de clase,
o grupos de datos que deseamos formar.
=
23400 −1610
10
= 2179
En nuestro ejemplo, se queremos 10 intervalos de clase. Las fronteras de clase se construyen
iniciando con el valor menor como límite inferior y el superior se obtiene al sumar a este límite la
longitud del intervalo. Es decir, el primer intervalo seria, límite inferior 1610 y el límite superior
1610 +2179, quedaría “1610-3789” para la segunda clase procedemos igual pero iniciando con
3789+1 en el límite inferior.

Clase Fronteras de clase
Frecuencia
de clase
Frecuencia relativa
de clase
Frecuencia acumulada Frecuencia
relativa
acumulada
1 1610 – 3789 33 0.47
33 0.47
2 3790 – 5969 24 0.34 57 0.81
3 5970 – 8149 4 0.06 61 0.87
4 8150 – 10329 5 0.07 66 0.94
5 10330 – 12509 1 0.015 67 0.955
6 12510 – 14689 1 0.015 68 0.97
7 14690 – 16869 0 0.00 68 0.97
8 16870 – 19049 0 0.00 68 0.97
9 19050 – 21229 1 0.015 69 0.985
10 21230 – 23409 1 0.015 70 1
70 1

2
Intervalo de clase es Rango utilizado para dividir y resumir conjuntos de informaciones grandes con el
objetivo de agrupar y realizar un mejor análisis de esta información.
Notas de clase Estadística Raúl Urbán Ruiz

11
Histograma.
Es la única representación gráfica utilizada para representar una distribución estadística. El
histograma relaciona el tamaño de la población (frecuencias absolutas o relativas) y los valores
tomados por elementos que componen esta población o muestra para una variable dada. El
resultado es un gráfico que consiste en barras proporcionales al valor que representan,
normalmente de cada clase. Siendo muy rigoristas estas barras no se separan, como lo hacen
algunos programas en Excel
Una distribución de frecuencias se presenta comúnmente en forma gráfica, ya sea utilizando las
frecuencias absolutas o las relativas. En los dos casos la gráfica resultante es muy similar.



Como se aprecia las gráficas son muy similares.

Consideremos el histograma de frecuencias relativas con mayor detalle, observando el histograma
es claro que el porcentaje de la población correspondiente a la clase “1” son los que más bajo
ingreso tienen; es decir, una persona elegida al azar de esta comunidad tendrá una probabilidad
de 0.47 de tener este nivel de ingreso. Si esta muestra es representativa de la población o nos
Notas de clase Estadística Raúl Urbán Ruiz

12
sirve para hacer inferencias de la población, entonces el 47% de la población tiene un ingreso
comprendido entre $1,610 y $3,789 pesos.

Es común llamar al Histograma de frecuencias relativas como distribución de frecuencias, puesto
que muestra como los datos se distribuyen en el eje de las abscisas, eje horizontal.


Polígono de frecuencias

Otra forma de representar gráficamente la distribución de frecuencias absolutas o relativas es a
través del polígono de frecuencias. Si se considera una distribución de frecuencias con intervalos
de clase de igual amplitud, el polígono está referido a un sistema coordenado donde cada vértice
tiene por abscisa el punto medio del intervalo y por ordenada la frecuencia del intervalo de clase.

Para hallar los puntos de iniciación
y finalización del polígono, se
consideran dos intervalos de clase
(uno anterior al primero y otro
posterior al último) de igual
amplitud a los restantes y de
frecuencia cero. Se demuestra
mediante la igualdad de triángulos
que el polígono así construido
encierra igual área que el
histograma.



Finalmente, la gráfica de frecuencias relativas acumuladas. Consiste en representar la gráfica de
una función que una por segmentos las alturas correspondientes a los extremos superiores de
cada intervalo, tengan o no todos igual amplitud, siendo dicha altura igual a la frecuencia
acumulada, dando una altura cero al extremo inferior del primer intervalo y siendo constante a
partir del extremo superior del último.


Notas de clase Estadística Raúl Urbán Ruiz

13
Si elegimos 5 intervalos de clase, el proceso es similar y tenemos la información que se resume en
la siguiente tabla.
=
23400 −1610
5
= 4358

Clase
Fronteras de
clase
Conteo
Frecuencia
de clase
Frecuencia
relativa de clase
Frecuencia
acumulada
Frecuencia
relativa
acumulada
1 1610 – 5968 ////\ ////\ ////\ ... 57 0.81
57 0.81
2 5969 – 10327 9 0.13 66 0.94
3 10328 – 14686 2 0.03 68 0.97
4 14687 – 19045 0 0.0 68 0.97
5 19046 – 23409 2 0.03 70 1
Totales 70 1


Y su gráfico de frecuencias relativas es:




De acuerdo a este último histograma de frecuencias relativas con mayor detalle y si como en el
caso anterior, la muestra es representativa de la población o nos sirve para hacer inferencias de la
población, entonces el 81% de la población tiene un ingreso comprendido entre $1,610 y $5,968
pesos.

En resumen, para construir una gráfica de distribución de frecuencias seguimos los siguientes
pasos:

1) Determinar el número de intervalos de clase. Se recomienda seleccionar entre 5 y 20
intervalos. En general, entre más datos más intervalos. Si al seleccionar este número se
tienen demasiados intervalos vacíos que resten significado a la distribución se puede
Notas de clase Estadística Raúl Urbán Ruiz

14
reducir el número de intervalos, con el riesgo de ocultar características importantes de la
distribución.
2) Determinar el tamaño de los intervalos. La regla es, dividir la diferencia entre el mayor
menos el menor de las observaciones, entre el número de intervalos. Todas las clases
deben tener la misma longitud, excepto si así lo desea la primera y la última
3) Determinar las fronteras de clase. Deberá tener cuidado de incluir en el primer intervalo
al menor de las observaciones y deberá seleccionar las fronteras de estos intervalos de
manera que ninguna observación coincida con alguna frontera de clase


Otras formas gráficas.

Existen algunos otros diagramas auxiliares que sirven como un resumen visual de las
observaciones. La utilización de estos dependerá de ciertos factores como, diferentes períodos de
tiempo, diferentes áreas geográficas, etc.

Barras apiladas.

Para el caso cuando tenemos información con temporalidad dividida en variables categóricas. El
interés por este tipo de gráfico es innegable, pero tienen un gran inconveniente. En algunos casos
no es aprecian las proporciones o los efectos reales de las variables y cuando se presentan varias
variables se pierde la visibilidad del gráfico. Un ejemplo, para presentar en forma gráfica la
distribución de empleados de una empresa de manufacturas.


1990 2000 2010
Total de empleados 100 142 160
Profesionales 40 62 74
Hombres 25 34 44
Mujeres 15 28 30
No profesionales 60 80 86
Hombres 50 55 59
Mujeres 10 25 27


0
20
40
60
80
100
120
140
160
180
1990 2000 2010
Mujeres
Hombres
Notas de clase Estadística Raúl Urbán Ruiz

15
En algunos casos, al levantar una encuesta tenemos algunas variables como:
¿Calidad de los servicios financieros? Y las respuestas pueden ser
Bueno ( ) Regular ( ) Malo ( )
Tamaño de la explotación agrícola.
10 has o menos ( ) entre 10 y 20 ( ) más de 20 has ( )-

Si los resultados de la encuesta a 158 productores son los siguientes:


Calidad de servicios
financieros
Bueno Regular Malo
10 has o menos 28 6 2
Entre 10 y 20 36 16 1
Más de 20 Has. 58 8 3
Total 122 30 6

Debemos notar que en este gráfico todas las barras poseen la misma altura, debido a que en este
caso representan el 100% de las respuestas y no la frecuencia de cada categoría. Desde luego cada
una de las categorías de la variable tamaño de la explotación cafetalera cuenta con una frecuencia
diferente, pero el objetivo de este tipo de gráficos no es determinar el porcentaje o recuento de
las categorías de la variable principal (tamaño de la parcela), sino representar el porcentaje de
participación con que cuenta cada una de las categorías de la variable secundaria (Calidad de los
servicios financieros).
Si nos fijamos en los resultados del gráfico, notaremos que los valores de las marcas de escala
representan porcentajes. Desde luego las frecuencias de cada barra son distintas, pero lo que se
persigue con este gráfico es identificar los porcentajes de participación de las categorías de la
variable secundaria (Calidad de los servicios financieros café) en cada una de las categorías de la
variable principal (tamaño de la parcela).
Graficas circulares.
Este tipo de gráficos son frecuentes en informes debido a su impacto visual. Sin embargo, son un
tipo de gráfico muy simplificado que no siempre representa los datos de la mejor manera posible.
Este tipo de representaciones muestra los grupos de observaciones como segmentos
independientes dentro del gráfico. El propósito de este tipo de representación es igual al gráfico
de barras, pero con posibilidades menores, solo podemos representar valores efectivos en función
de elementos, no sirve para representar la evolución de variables; es decir, no se recomienda su
utilización para representar series de tiempo de observaciones.
Notas de clase Estadística Raúl Urbán Ruiz

16
Por ejemplo si queremos mostrar, como una cantidad total, las exportaciones totales de México
para el año 2009, como está repartida en diferentes zonas geográficas.



La construcción de este tipo de gráficos se facilita, en caso de no utilizar una computadora para
hacerlo, si se recuerda que un círculo completo tiene 360 grados y que este ángulo debe
corresponder a un 100% del total representado. Para el caso por ejemplo de las exportaciones a
USA que son el 80.51% (
80.51%
100%
(360) = 289.83 )



Medidas descriptivas de una distribución.

Las representaciones gráficas son útiles para lograr una representación rápida y clara de las
características de las observaciones de un modelo. Sin embargo en algunas situaciones es mejor
resumir la información en un número o bien necesitamos hacer inferencias a cerca de parámetros
de la población que requieren de datos puntuales. En otros casos, pudiera pasar que los
histogramas de la muestra y de la población sean diferentes y tal pareciera que no podemos hacer
inferencias de la población ya que los histogramas difieren.
Estos problemas pueden salvarse con el uso de medidas descriptivas numéricas, como lo hemos
dicho antes, estas medidas calculadas a partir del total de las observaciones de la población se
denominan parámetros, mientras que a las que obtenemos a partir de los datos de la muestra se
llamarán estadísticos. Para distinguir entre parámetro y estadístico, utilizamos letras griegas para
los primeros y latinas para los segundos.
Dependiendo de los datos que tenemos podemos calcular estas medidas descriptivas. Si
solamente contamos con una tabla de frecuencias entonces las medidas que obtenemos se dicen
que son para datos agrupados. Por lo contrario, si contamos con una lista de todas las
observaciones de la muestra entonces usaremos las fórmulas para datos no agrupados. En todo
caso la medida numérica deberá ser muy similar.
Las medidas descriptivas de una distribución son de dos tipos:
I. Medidas de tendencia central.
USA
Canada
Unión
Europea
ALADI
Centro
america
NIC`S
Resto
del
Mundo
Exportaciones Mexicanas 2009
Exportaciones mexicanas
2009


USA 184,878.50
80.1%
Canadá 8,375.20
3.64%
Unión Europea 11,352.80
4.94%
ALADI 10,124.10
4.42%
Centroamérica 3,003.30
1.31%
NIC`S 1,447.10
0.63
Resto del Mundo 10,439.20
4.55%


Total 229,620.20

Notas de clase Estadística Raúl Urbán Ruiz

17
Se llaman también de centro de gravedad y están referidas a la posición de la distribución de
frecuencias sobre el eje de las abscisas.
Las principales medidas de tendencia central son;
La Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de
media, siendo las más utilizadas:
i. Media aritmética: Para un grupo de observaciones ,
1
,
2
,
3
, …. .

es igual a la suma de
las observaciones dividida entre , para datos no agrupados.
=

=1

Por ejemplo, si tenemos el siguiente grupo de datos que corresponden a los salarios por hora de
operadores de una empresa.
9.50, 3, 10, 9.5, 8.5, 7.5
El promedio aritmético es entonces ̅ =
9.5+3+10+9.5+8.5+7.5
6
=
48
6
= 8
Se puede utilizar este valor para estimar, por ejemplo, el salario total de empresa. Si se tienen 200
empleados. El total sería:
. 600 , 1 $ 8 * ) 200 ( = = Total
Esta es la forma general, algunos autores sugieren formas alternativas derivadas de la forma
general. Una de estas sugiere calcular el promedio; multiplicando cada valor por el número de
veces que se repite. La suma de todos estos productos se divide por el total de las observaciones,
es decir:
=

=1

Donde

es el valor de la observación y

el número de veces que se repite y es el tamaño de
la muestra. Esta forma es de utilidad cuando tenemos un número grande de observaciones y están
ordenadas. El uso de un computador hace innecesaria su utilización.
ii. Media geométrica: Es la raíz enésima de la multiplicación de todas las observaciones.
n
n i
n
i
x x x x x x x x ....
5 4 3 2 1
1
= =
=


46 . 7 5 . 7 * 5 . 8 * 5 . 9 * 10 * 3 * 5 . 9
6
1
= = =
=
i
n
i
x x


En algunos casos, la media aritmética y la media geométrica pueden ser iguales.
Notas de clase Estadística Raúl Urbán Ruiz

18
La media geométrica es de utilidad porque considera todos los valores de la distribución y es
menos sensible que la media aritmética a los valores extremos. La desventajas más importante es
que su significado estadístico menos intuitivo que la media aritmética, cálculo más difícil y
en ocasiones no queda determinada; por ejemplo, si un valor x
i
=0 entonces la media
geométrica se anula.
Solo es relevante la media geométrica si todos los números son positivos. Como hemos visto, si
uno de ellos es 0, entonces el resultado es 0. Si hubiera un número negativo (o una cantidad impar
de ellos) entonces la media geométrica sería o bien negativa, o bien inexistente.
iii. Media geométrica ponderada. Cada observación se eleva a su frecuencia. Se multiplican
todo estos resultados y al producto final se le calcula la raíz "n" (siendo "n" el total de datos
de la muestra).
= �
1

1

2

2

3

3
∗ …∗


1



Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la media
geométrica.
La media geométrica se suele utilizar en series de datos como tipos de interés anuales, inflación,
etc., donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores. En
todo caso, la media aritmética es la medida de posición central más utilizada.
Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la serie, por lo que
no se pierde ninguna información. Sin embargo, presenta el problema de que su valor (tanto en el
caso de la media aritmética como geométrica) se puede ver muy influido por valores extremos,
que se aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar en gran
medida el valor de la media, perdiendo ésta representatividad.
Mediana (

)
La mediana significa mitad, etimológicamente, entonces este valor corresponde realmente a la
mitad de una distribución. Es la observación que cae en el centro cuando las observaciones se
ordenan, en orden creciente. Regresando a nuestro ejercicio anterior, al que aumentamos un
renglón, y si ordenamos los datos,
La mediana es 9.5, es el valor que divide la serie en dos partes iguales
y nos indica que arriba y abajo tenemos el mismo número de
observaciones.
Si el número de observaciones es par, como en el caso del ejemplo
original, se escoge como mediana al valor medio entre las dos
observaciones que disputan la medianía. La mediana de esta muestra
es,

= 9 9.5 8.5.

x
i
3
7.5
8.5
9.5
9.5
9.5
10
Total = 96
Notas de clase Estadística Raúl Urbán Ruiz

19

La mediana

no tiene el problema de estar influido por los valores extremos, pero en cambio no
utiliza en su cálculo toda la información de la serie de datos (no pondera cada valor por el número
de veces que se ha repetido).
Moda (
0
)
En un conjunto de observaciones es el valor que más se repite en una distribución o el valor que
ocurre con más frecuencia. Si tenemos por ejemplo, si

representa los salarios por hora de
obreros de una empresa,
x
i ) ( x x
i

2
) ( x x
i

3 -5 (-5)
2
=25
7.5 -.5 .25
8.5 .5 .25
9.5 1.5 2.25
9.5 1.5 2.25
10 2 4
Total = 48 Total= 0 Total=34
El valor que más se repite es 9.5, por lo tanto la moda es

0
= 9.5
En este caso, en que tenemos solamente un valor que se repite con más frecuencia, le llamamos
una distribución unimodal; si tuviésemos dos valores con la misma frecuencia, sería una
distribución bimodal y así sucesivamente. En algunos casos, la moda no es suficiente para
caracterizar y resumir los datos de una distribución. En algunas situaciones ni siquiera no sirve
para comparar y analizar una distribución, como por ejemplo para la tabla siguiente de salarios
En este caso más que hablar de una distribución bimodal, la moda no
es significativa. Este es el tema de una distribución con insuficiencia
de datos.
La moda es la única medida de tendencia central que puede ser
utilizada para datos tanto cualitativos como cuantitativos


B) Medidas de dispersión.
Las medidas de variabilidad permiten conocer como está distribuida la distribución, por ejemplo
alrededor de la media. La medida de variación más simple es el recorrido.
x
i
7.5
7.5
9.5
9.5
9.5
7.5
Total = 96
Notas de clase Estadística Raúl Urbán Ruiz

20
0
0.5
1
1.5
2
2.5
1 2 3 4 5 6 7 8 9
b1) Recorrido. Es la diferencia entre la mayor y la menor de las observaciones.
Desafortunadamente, el recorrido no resulta satisfactorio como medida de variación ya que
solamente intervienen los valores extremos. Por ejemplo si analizamos dos distribuciones, ambas
con el mismo recorrido. La distribución del lado derecho nos muestra más variación de los datos
que la del lado izquierdo.

Otras medidas que pueden salvar la dificultad anterior son los cuartiles y los percentiles.
Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o
decreciente, en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los
resultados.
El primer cuartil es aquel que deja a la izquierda ¼ de las observaciones y es menor que ¾ de las
observaciones. El segundo cuartil es la mediana y el Tercer cuartil, sobrepasa ¾ de las
observaciones y es menor que 174 de ellas.
En nuestro ejemplo.

El primer cuartil es el valor correspondiente a la
4
) 1 ( + n
observación ordenada; 1.75,
aproximadamente, la segunda (7.5). El segundo cuartil es la mediana
2
1
4
) 1 ( 2 +
=
+ n n
. El tercer cuartil
es
25 . 5
4
) 1 6 ( 3
4
) 1 ( 3
=
+
=
+ n
aproximadamente la observación x
5
= $9.5

También podemos encontrar el recorrido intercuartílico que sería Q
3
– Q
1
= $9.5 - $7.5= $2.0
Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o
decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los
resultados.
Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o
decreciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los
resultados.
0
5
10
15
20
25
1 2 3 4 5 6 7 8 9
Notas de clase Estadística Raúl Urbán Ruiz

21
Ejemplo: Vamos a calcular los cuartiles de la serie de datos referidos a la estatura de un grupo de
alumnos (lección 2ª). Los deciles y centiles se calculan de igual manera, aunque harían falta
distribuciones con mayor número de datos.
Variable Frecuencias absolutas Frecuencias relativas
(Valor) Simple Acumulada Simple Acumulada
X x X x X
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%
1º cuartil: es el valor 1,22 cm, ya que por debajo de ella se sitúa el 25% de la frecuencia (tal como
se puede ver en la columna de la frecuencia relativa acumulada).
2º cuartil: es el valor 1,26 cm, ya que entre este valor y el 1º cuartil se sitúa otro 25% de la
frecuencia.
3º cuartil: es el valor 1,28 cm, ya que entre este valor y el 2º cuartil se sitúa otro 25% de la
frecuencia. Además, por encima suya queda el restante 25% de la frecuencia.
Atención: cuando un cuartil recae en un valor que se ha repetido más de una vez (como ocurre en
el ejemplo en los tres cuartiles) la medida de posición no central sería realmente una de las
repeticiones.

Varianza de una población

Mide la distancia existente entre las N observaciones de la serie y la media. Se calcula como
sumatorio de las diferencias al cuadrado entre cada valor y la media µ. El símbolo utilizado para la
varianza de la población es
2
σ


=
− =
N
i
i
x
N
1
2 2
) (
1
µ σ

Utilizamos letras mayúsculas N, para indicar el número de elementos de la población.
Comúnmente no contamos con el total de elementos y solo disponemos de una muestra de las
observaciones, en este caso la varianza de la muestra deberá calcularse como la suma de los
Notas de clase Estadística Raúl Urbán Ruiz

22
cuadrados de las desviaciones de las observaciones con respecto a su media y dividida entre (n-1),
de acuerdo a la siguiente fórmula:
1
) (
) (
1
1
2
1
1
2
1
2
__
2

= −

=



=
=

=
n
n
x
x
x x
n
s
n
i
i n
i
i N
i
i

La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados
están los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la
varianza, más dispersos están.

Desviación estándar
Es la raíz cuadrada de la varianza, es decir; = √
2

Coeficiente de variación de Pearson
Se calcula como cociente entre la desviación estándar y la media.
Para la población, =

y para la muestra =

Ejemplo: vamos a utilizar la serie de datos de la estatura de los alumnos de una clase y vamos a
calcular sus medidas de dispersión.
Variable Frecuencias absolutas Frecuencias relativas
(Valor) Simple Acumulada Simple Acumulada
x x x X X
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%

Rango. Diferencia entre el valor de la observación mayor (1.30) y la menor (1.20). De esta
manera el rango para este ejercicio es 10 cm.
Notas de clase Estadística Raúl Urbán Ruiz

23
Varianza: recordemos que la media de esta población es 1.253. Luego, aplicamos la fórmula:
] 3 * ) 253 . 1 30 . 1 ( ..... 4 * ) 253 . 1 22 . 1 ( 4 * ) 253 . 1 21 . 1 ( ) 253 . 1 20 . 1 [(
30
1
2 2 2 2 2
− + + − + − + − = σ

Por lo tanto, la varianza es 0,0010
Desviación estándar: es la raíz cuadrada de la varianza.
0320 . 0
2
= = σ σ

Coeficiente de variación de Pearson: se calcula como cociente entre la desviación estándar y la
media de la población.
Cv=.0320 / 1.253 =0,0255
El interés del coeficiente de variación es que al ser un porcentaje permite comparar el nivel de
dispersión de dos muestras. Esto no ocurre con la desviación estándar, ya que viene expresada en
las mismas unidades que los datos de la serie.
Por ejemplo, para comparar el nivel de dispersión de una serie de datos de la altura de los
alumnos de una clase y otra serie con el peso de dichos alumnos, no se puede utilizar las
desviaciones estándar (una viene vienes expresada en cm y la otra en kg). En cambio, sus
coeficientes de variación son ambos porcentajes, por lo que sí se pueden comparar.
Cálculos para datos agrupados
Es común encontrarse con datos que solo están disponibles en forma de histograma de
frecuencias, como por ejemplo datos proporcionados por el gobierno o agencias de información.
En tales casos no se conoce el número exacto de observaciones que caen en cada intervalo de
clase. Cuando esto ocurre no es posible calcular media y varianza de la muestra.
Se tiene, sin embargo, un método alternativo que se basa en la suposición de que el punto medio
de cada clase es aproximadamente igual a la media aritmética de las medias contenidas en el
intervalo. Este punto medio lo llamaremos m
i.
A partir de este concepto podemos redefinir las
fórmulas de cálculo de la media y la varianza para datos agrupados de la siguiente manera.
Media
n
m f
x
i i
n
i 1 =


en donde m
i
denota al punto medio de la clase i y f
i
es la frecuencia de las
observaciones en la clase i.
Varianza
1
) (
1
2
1
2
2


=


=
=
n
n
m f
m f
s
k
i
k
i
i i
i i

Ejemplo para los datos de ingresos de una comunidad, podemos encontrar estos estadísticos, para
datos agrupados, para el caso de 10 intervalos de clase:

Notas de clase Estadística Raúl Urbán Ruiz

24
Clase
Fronteras de
clase
Frecuencia
de clase
Frecuencia
relativa de
clase
m
i
f
i
m
i
m
i
2
f
i
m
i
2
1 1610 – 3789 33 0.47
2700 89084 7287300 240480908
2 3790 – 5969 24 0.34 4880 117108 23809520 571428486
3 5970 – 8149 4 0.06 7060 28238 49836540 199346161
4 8150 – 10329 5 0.07 9240 46198 85368360 426841801
5 10330 – 12509 1 0.015 11420 11420 130404980 130404980
6 12510 – 14689 1 0.015 13600 13600 184946400 184946400
7 14690 – 16869 0 0.00 15780 0 248992620 0
8 16870 – 19049 0 0.00 17960 0 322543640 0
9 19050 – 21229 1 0.015 20140 20140 405599460 405599460
10 21230 – 23409 1 0.015 22320 22320 498160080 2657208278
Totales 70 1 348105 2657208278
Las medidas de dispersión son;
Promedio Varianza Desviación estándar
=

=1

2
=
2657208278 −
348105
2
70

69
= 13,421,840.25
≈ �13,421,840.25
= 3663.58
Las medidas de concentración permiten conocer que forma tiene la curva que representa la serie
de datos de la muestra. En concreto, podemos estudiar las siguientes características de la curva:
a) Asimetría: mide si la curva tiene una forma simétrica, es decir, si respecto al centro de la misma
(centro de simetría) los segmentos de curva que quedan a derecha e izquierda son similares.
b) Curtosis: mide si los valores de la distribución están más o menos concentrados alrededor de
los valores medios de la muestra.
c) Concentración: mide si los valores de la variable están más o menos uniformemente repartidos
a lo largo de la muestra.
a) Asimetría
Si trazamos una vertical en el valor de la media, en el diagrama de barras o histograma, de una
variable, esta línea vertical es el eje de simetría. Decimos que una distribución es simétrica si este
eje parte en exactamente dos partes iguales a la distribución. En caso contrario, dicha distribución
será asimétrica.
Notas de clase Estadística Raúl Urbán Ruiz

25

Para medir el nivel de asimetría se utiliza el llamado Coeficiente de Asimetría de Fisher, que viene
definido:
Para datos no agrupados:

=
∑(

−)
3

3
Para datos agrupados

=
∑(

−)
3


3

Los resultados pueden ser los siguientes:

= 0 (distribución simétrica; existe la misma concentración de valores a la derecha y a la
izquierda de la media) Media=moda=mediana

> 0 (distribución asimétrica positiva; por lo que los valores se tienden a reunir más en la
parte izquierda que en la derecha de la media.) Media > mediana > moda

< 0 (distribución asimétrica negativa; los valores se tienden a reunir más en la parte
derecha de la media) Media < mediana < moda

Para el ejercicio considerado antes tenemos los siguientes cálculos,

Clase Fronteras de clase
Frecuencia
de clase Punto medio Asimetría
Inferior Superior




1 1610 3789 33 2700 -387755423540
2 3790 5969 24 4880 -19572683
3 5970 8149 4 7060 36337894542
4 8150 10329 5 9240 388335475713
5 10330 12509 1 11420 267908440992
6 12510 14689 1 13600 641969903185
7 14690 16869 0 15780 0
8 16870 19049 0 17960 0
9 19050 21229 1 20140 3488688907820
10 21230 23409 1 22320 5219644755384



Sumas 70 Sumas 2657556383

La media de esta muestra es = 4973 y la desviación estándar = 3663.58
Luego:

=
2657556383
70∗3663.58
3
= 2.8

(

−)
3

Notas de clase Estadística Raúl Urbán Ruiz

26
Por lo tanto el Coeficiente de Fisher de Asimetría de esta muestra es 2.8, lo que quiere decir que
presenta una distribución asimétrica positiva (se concentran más valores a la izquierda de la media
que a su derecha).
b) Curtosis
El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores alrededor
de la zona central de la distribución.
Se definen 3 tipos de distribuciones según su grado de curtosis:
Distribución Mesocúrtica: presenta un grado de concentración medio alrededor de los valores
centrales de la variable (el mismo que presenta una distribución normal).




Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores
centrales de la variable.



Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores
centrales de la variable.



El Coeficiente de Curtosis viene definido por la siguiente fórmula:
Para datos no agrupados:

=
1

∑(

−)
4

4
−3 Para datos agrupados

=
1

∑(

−)
4

4
−3
Los resultados pueden ser los siguientes:
Notas de clase Estadística Raúl Urbán Ruiz

27

= 0 (distribución Mesocúrtica).

> 0 (distribución leptocúrtica).

< 0 (distribución platicúrtica).
Continuando con el ejemplo anterior, ingresos de una comunidad, tenemos
Clase Fronteras de clase
Frecuencia
de clase Punto medio Curtosis
Inferior Superior




1 1610 3789 33 2700 8.815343E+14
2 3790 5969 24 4880 1.828648E+09
3 5970 8149 4 7060 7.582161E+13
4 8150 10329 5 9240 1.656861E+15
5 10330 12509 1 11420 1.727091E+15
6 12510 14689 1 13600 5.537999E+15
7 14690 16869 0 15780 0.000000E+00
8 16870 19049 0 17960 0.000000E+00
9 19050 21229 1 20140 5.291145E+16
10 21230 23409 1 22320 9.054294E+16
Sumas 70 Sumas
1.5333370E+17
Entonces,

=
1.5333370E+17
70∗(3663.58)
4
−3 = 9.2
Por lo tanto, el Coeficiente de Curtosis de esta muestra es 9.2, lo que quiere decir que se
trata de una distribución leptocúrtica, es decir, un alto grado de concentración alrededor
de los valores centrales.
a) Concentración
La concentración estudia el mayor o menor grado de distribución de los valores de la variable, la
mayor o menor equidad o igualdad en el reparto, por lo tanto sólo se puede estudiar en variables
de tipo económico, rentas, sueldos, subvenciones, etc. Las medidas más utilizadas son el Índice de
Gini y la curva de Lorenz.

La curva de Lorenz es una forma gráfica de mostrar la distribución de una variable normalmente
referenciada a la población, por ejemplo el ingreso en una población. En ella se relacionan los
porcentajes acumulados de población con porcentajes acumulados de ingreso que esta población
recibe. En el eje de abscisas se representa la población "ordenada" de forma que los percentiles de
ingresos más bajos quedan a la izquierda y los más altos a la derecha.

(

−)
4

Notas de clase Estadística Raúl Urbán Ruiz

28
El Coeficiente de Gini se calcula como el
cociente entre el área comprendida entre
la Línea de equidistribución y la Curva de
Lorenz. A medida que mejora la equidad
el área disminuye y la Curva de Lorenz se
acerca a la diagonal. Si la Curva de Lorenz
se aleja de la diagonal, aumenta la
desigualdad a la misma velocidad que
aumenta el área. Si la desigualdad es
total, el área gris, debajo de la curva de
Lorenz desaparece, lo que indica que una
sola familia se queda con el total de los
ingresos.
Este índice se calcula aplicando la siguiente fórmula:

El Coeficiente de Gini, puede tomar valores entre 0 y 1 mientras más se acerque al valor de cero la
distribución será más equitativa, si va hacia el valor de 1 será más inequitativa, se concentra en el
último decil la mayor proporción de la distribución.
Si medimos el nivel de ingreso de la población un coeficiente de uno nos indicaría que el ingreso
está concentrado en el decil de los que obtienen el mayor ingreso, es decir una distribución
desigual.
Ejemplo: vamos a calcular el Índice Gini para la encuesta de ingreso gasto de los hogares
siguiente.
INGRESOS DE LOS HOGARES TRIMESTRAL POR DECILES
(Miles de pesos)
DECILES DE HOGARES
1


TOTAL

HOGARES INGRESO
I

2 907 433 17 918 764
II

2 907 433 31 533 846
III

2 907 433 42 175 769
IV

2 907 433 53 087 119
V

2 907 433 64 773 539
VI

2 907 433 78 528 188
VII

2 907 433 96 230 532
VIII

2 907 433 121 878 488
IX

2 907 433 165 280 112
X

2 907 435 344 322 586
Totales

29 074 332 1 015 728 943
Fuente: INEGI, Encuesta Nacional de ingreso y gasto de los hogares 2010.
Notas de clase Estadística Raúl Urbán Ruiz

29
Calculamos los valores que necesitamos para aplicar la fórmula del coeficiente de Gini:
Deciles
Porcentaje
de ingreso Acumulados







0.10 0.018 0.100 0.018 0.100 0.018 0.002
0.10 0.031 0.200 0.049 0.100 0.066 0.007
0.10 0.042 0.300 0.090 0.100 0.139 0.014
0.10 0.052 0.400 0.142 0.100 0.233 0.023
0.10 0.064 0.500 0.206 0.100 0.349 0.035
0.10 0.077 0.600 0.284 0.100 0.490 0.049
0.10 0.095 0.700 0.378 0.100 0.662 0.066
0.10 0.120 0.800 0.498 0.100 0.877 0.088
0.10 0.163 0.900 0.661 0.100 1.159 0.116
0.10 0.339 1.000 1.000 0.100 1.661 0.166






COEFICIENTE DE GINI
2


0.435

Un Índice de Gini de 0.435 indica una distribución bastante equitativa.
El gráfico de la distribución sería:


0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Curva de Lorenz
Línea de equidistribución

+1

+1
+

Notas de clase Estadística Raúl Urbán Ruiz

30
Indicador Datos no agrupados Datos agrupados
Medidas de tendencia central
Media
=

=1

n
m f
x
i i
n
i 1 =




Media geométrica
n
n i
n
i
x x x x x x x x ....
5 4 3 2 1
1
= =
=


n
n n i
n
i
i
m f m f m f m f x ....
2 2 1 1
1
= =
=


Mediana El valor de la variable que esta al
centro de los datos.

=
(+1)/2

=

+
+ 1
2
− ( + 1)

limite inferior intervalo de la mediana
suma de frecuencias anteriores al
intervalo de la mediana

frecuencia de la clase mediana

amplitud intervalos de clase
Moda

Valor que mas se repite


=

+

−1

−1
� + �

+1

limite inferior de la clase modal

frecuencia de la clase modal

−1
frecuencia de la clase anterior a modal

+1
frecuencia de la clase posterior

amplitud de la clase modal
Medidas de dispersión
Varianza De la población

2
=
1

�(

− )
2

=1

De la muestra
1
) (
) (
1
1
2
1
1
2
1
2
__
2

= −

=



=
=

=
n
n
x
x
x x
n
s
n
i
i n
i
i N
i
i


Para la población y la muestra

1
) (
1
2
1
2
2


=


=
=
n
n
m f
m f
s
k
i
k
i
i i
i i

Desviación
estándar
De la población = √
2

De la muestra = √
2

Igual que para datos no agrupados
Medidas de concentración
Asimetría

=
1

∑(

− )
3

3

=
1

∑(

−)
3

3

= 0 Simetría

> 0 Asimetría (+)

< 0 Asimetría (-)
Curtosis

=
1

∑(

− )
4

4
− 3

=
1

∑(

−)
4

4
−3

= 0 Mesocúrtica

> 0 Leptocúrtica

< 0 Platicúrtica


Coeficiente de
gini

0 ≤ G ≤1
Valores cercanos a 0 indican una mejor
distribución.

= +
+ − +
=
M
L w
m
f
F n
m )
) 1 ( 2 / ) 1 (
(
Notas de clase Estadística Raúl Urbán Ruiz

31
Bibliografía
Anderson, D. R., D. J. Sweeney y T. A. Williams. (2008). Estadística para la administración y la
economía. (10
a
ed). México: CENGAGE Learning. 260-262.
Levine, D. M., T. C. Krehbiel y M. L. Berenson. (2006). Estadística para la administración. (4
ta
ed).
México: Pearson Prentice Hall. 221.
Lind, D. A., W. G. Marchal, y S. A. Wathen. (2008). Estadística aplicada a los negocios y a la
economía. (13
a
ed). México: McGraw-Hill. 262, 265, 266
Mendenhall William, Reinmuth James. ESTADISTICA PARA ADMINISTRACIÓN Y
ECONOMIA. Grupo editoria Iberoamerica 1978. México
Webster Allen L. ESTADISTICA APLICADA A LOS NEGOCIOS Y LA ECONOMIA, tercera
edición McGraw-Hill 2000. México
INEI, GUIA PARA LA PRESENTACION DE GRAFICOS ESTADÍSTICOS. Instituto Nacional de Estadística
e Informática, Centro de Investigación y Desarrollo, Lima Perú, Agosto 2009