Estadística Descriptiva. Ing. Gabriel Marrufo

UNIVERSIDAD AUTÓNOMA DE YUCATÁN
Escuela Preparatoria Uno
Estadística Descriptiva
Enero de 2022
Ing. Gabriel J. Marrufo May

Página 1 de 27
íNDICE
Conceptos básicos …………………………………………………………………………………………………………… 3
Colección de datos organizada con una fila de datos ……………………..……………………………….. 7
Colección de datos organizada con una Tabla de distribución de frecuencias ………………… 11
Colección de datos organizada con una Tabla de distribución de frecuencias con los datos
agrupados ……………………………………………………………………………………………………………………... 18

Página 2 de 27
Conceptos básicos

Página 3 de 27
La estadística es una rama de las matemáticas que se encarga de recopilar, organizar, presentar,
analizar e interpretar los valores de una variable, así como para sacar conclusiones y tomar
decisiones basadas en tal análisis. A los valores que toma la variable se le llaman datos y al
conjunto de estos valores se le llama colección de datos.
La estadística se divide en dos ramas: la estadística descriptiva que describe el comportamiento
de los valores de una variable por medio de tablas, gráficas y valores numéricos, y la estadística
inferencial que realiza generalizaciones, pronósticos, análisis y proyecciones para la toma de
decisiones y planificación, partiendo de la información obtenida en la estadística descriptiva y
empleando como herramienta la probabilidad.
RECOPILACIÓN
La recolección o recopilación es el momento en el cual el investigador obtiene los datos de la
variable estudiada al ponerse en contacto con los elementos (sujetos u objetos) involucrados; a
partir de estos datos se prepara la información estadística y se realizan los cálculos para el análisis
estadístico.
Las variables por analizar estadísticamente pueden ser cualitativas (de atributo) si califican a los
elementos de un estudio por algún rasgo o característica que poseen o cuantitativas si califican a
los elementos por números. Las variables cuantitativas a su vez se clasifican en discretas si solo
pueden tomar valores enteros y se generan por un proceso de conteo, y continuas si pueden
tomar valores fraccionarios y se generan por un proceso de medición.
Ejemplos
• El peso de las sandías cosechadas en
Variable cuantitativa continua
un huerto.
• La complexión corporal de los
Variable cualitativa
empleados de una empresa.
• La asistencia de las personas a una
Variable cuantitativa discreta
sala de cine.
Cuando se analiza al conjunto de todos los datos de la variable en un estudio estadístico se dice
que se utiliza la población de datos y cuando se trabaja con un subconjunto representativo de la
población se dice que se utiliza una muestra de los datos.
ORGANIZACIÓN
Las colecciones de datos se pueden organizar de diferentes maneras dependiendo de sus
características en: Filas de Datos, Tablas de Distribución de Frecuencias y Tablas de Distribución de
Frecuencias para Datos Agrupados.
• Fila de datos. Se utiliza cuando los datos de una colección son 15 o menos. Es una fila con
los todos datos ordenados en forma creciente.
• Tabla de distribución de frecuencias. Se utiliza cuando los datos de una colección se
repiten y se tienen 15 o menos datos diferentes. Es una tabla donde en la primera
columna se colocan los distintos datos de la colección, ordenados en forma creciente de
arriba hacia abajo, y en la segunda columna se registra la frecuencia con que aparecen.
• Tabla de distribución de frecuencias con datos agrupados. Se utiliza cuando los datos de
una colección no se repiten y son más de 15 datos diferentes. Es una tabla donde en la
primera columna se colocan clases o intervalos que contienen los distintos datos de la
colección, ordenados en forma creciente de arriba hacia abajo, y en la segunda columna se

Página 4 de 27
registra la frecuencia con que aparecen estos datos en cada clase. El número de clases a
utilizar lo podemos obtener como la raíz cuadrada del total de datos de la colección, y el
tamaño de cada clase como el cociente de la diferencia entre el dato mayor y el dato
menor entre el número de clases.
PRESENTACIÓN
Las colecciones de datos se pueden presentar por medio de diferentes tipos de gráficos:
Histograma de Frecuencias, Polígonos de Frecuencias, Gráficas de Pastel, etc.
• Histograma de frecuencias. Es una gráfica en forma de barras, donde las barras
representan los valores de cierta variable y la superficie de cada barra es proporcional a la
frecuencia de estos valores.
• Polígono de frecuencias. Es una gráfica que une con segmentos de recta los puntos que
representan los valores de cierta variable que se encuentran a una altura igual a la
frecuencia de estos valores.
• Pastel. es un círculo dividido en partes, donde el área de cada parte es proporcional a la
frecuencia de los valores de cierta variable.
ANÁLISIS NUMÉRICO
Las colecciones de datos se pueden describir por medio de valores numéricos como las medidas
de centralización y las medidas de dispersión.
Una medida de centralización es un valor que representa a los datos de una colección y que
tiende a estar al centro al ordenarlos en forma creciente o decreciente.
• Media aritmética (promedio). Es el valor que resulta de dividir la suma de todos los datos
de una colección entre el total de estos.
• Mediana. Es el valor del dato central o el promedio de los dos datos centrales de una
colección dispuesta en forma creciente.
• Moda. Es el valor del dato o de los datos que ocurren con mayor frecuencia en una
colección.
Una medida de dispersión es un valor que describe la variabilidad de los datos de una colección
con relación al valor promedio.
• Rango. Es el valor de la diferencia entre el dato mayor y el dato menor de la colección.
• Desviación media. Es el valor del promedio de las desviaciones de cada dato con respecto
a la media aritmética de la colección.
• Varianza. Es el valor del promedio del cuadrado de las desviaciones de cada dato con
respecto a la media aritmética de la colección.
• Desviación estándar (típica). Es el valor de la raíz cuadrada de la varianza de la colección.

Página 5 de 27
Cuando se trabaja con una población de datos las medidas de centralización y dispersión se
representan con letras griegas, y cuando se trabaja con una muestra de la población de datos se
representan con letras latinas como se muestra en la tabla siguiente:
Símbolos
Medidas
Población Muestra
CENTRALIZACIÓN
Media aritmética 𝜇̅ 𝑥̅
Mediana 𝜇̃ 𝑥̃
Moda 𝜇̂ 𝑥̂
DISPERSIÓN
Rango 𝑅 𝑅
Desviación media 𝐷𝑀 𝐷𝑀
Varianza 𝜎2 𝑠2
Desviación estándar 𝜎 𝑠
Al calcular las medidas de centralización y dispersión se recomienda dar el valor resultante con un
digito adicional al nivel de redondeo que tienen los datos en la colección. Esto es, si los datos son
números enteros, sus medidas de centralización y dispersión las reportarás con un decimal, si los
datos tienen un decimal, las reportarás con dos decimales, si los datos tienen dos decimales, las
reportarás con tres decimales, etc.

Página 6 de 27
Colección de datos
organizada con una
Fila de datos

Página 7 de 27
La siguiente colección de datos corresponde a las calificaciones del quinto semestre de un alumno
de bachillerato:
85, 76, 94, 100, 89, 92,100.
La variable por estudiar es: calificaciones del quinto semestre del alumno de bachillerato, es una
variable cuantitativa discreta y se está utilizando la población de datos del estudio.
Debido a que los datos de la colección son 15 o menos, usaremos para organizarla una:
FILA DE DATOS
76 85 89 92 94 100 100
MEDIDAS DE CENTRALIZACIÓN
• Media aritmética
∑𝒙
̅ =
𝝁
𝒏
Donde:
𝜇̅ = Media aritmética de una población de datos.
𝑥 = Datos de la colección.
∑ 𝑥 = Suma de todos los datos de la colección.
𝑛 = Número total de datos de la colección.
∑ 𝑥 75 + 85 + 89 + 92 + 94 + 100 + 100 635

𝜇̅ = = = = 𝟗𝟎. 𝟕 𝒑𝒖𝒏𝒕𝒐𝒔
𝑛 7 7
• Mediana
̃ = 𝒙𝒏+𝟏
𝝁
𝟐
Donde:
𝜇̃ = Mediana de una población de datos.
𝑛+1
2
= Posición central de la colección de datos enfilados.
𝜇̃ = 𝑥𝑛+1 = 𝑥7+1 = 𝑥8 = 𝑥4 = 𝟗𝟐 𝒑𝒖𝒏𝒕𝒐𝒔

2 2 2
La posición central 4 de la colección de datos ordenada en forma creciente la ocupa el 92 y

este valor corresponde a la mediana.
• Moda
̂
𝝁
Donde:
𝜇̂ = Moda de una población de datos.
𝜇̂ 𝑜 𝑥̂ = 𝟏𝟎𝟎 𝒑𝒖𝒏𝒕𝒐𝒔

Página 8 de 27
100 es el dato que tiene la mayor frecuencia en la colección y este valor corresponde a la
moda.
MEDIDAS DE DISPERSIÓN
• Rango
𝑹 = 𝒙𝑴 − 𝒙𝒎
Donde:
𝑅 = Rango de una colección de datos.
𝑥𝑀 = Valor del dato mayor de la colección.
𝑥𝑚 = Valor del dato menor de la colección.
𝑅 = 100 − 76 = 𝟐𝟒 𝒑𝒖𝒏𝒕𝒐𝒔
• Desviación media
∑|𝒙 − 𝒙
̅|
𝑫𝑴 =
𝒏
Donde:
𝐷𝑀 = Desviación media de una colección de datos.
𝑥̅ = Media aritmética de la colección.
𝑥 − 𝑥̅ = Desviación de cada dato de la colección con relación a su media aritmética.
|𝑥 − 𝑥̅ | = Valor absoluto de cada desviación.
∑|𝑥 − 𝑥̅ | = Suma de los valores absolutos de las desviaciones de todos los datos.
Considerando la media aritmética de esta colección de datos 𝜇̅ = 90.7, tenemos:
∑|𝑥−𝑥̅ |
𝐷𝑀 = 𝑛
|75−90.7|+|85−90.7|+|89−90.7|+|92−90.7|+|94−90.7|+|100−90.7|+|100−90.7|
𝐷𝑀 = 7
15.7+5.7+1.7+1.3+3.3+9.3+9.3
𝐷𝑀 = 7
46.3
𝐷𝑀 = 7
𝐷𝑀 = 𝟔. 𝟔 𝐩𝐮𝐧𝐭𝐨𝐬
• Varianza
̅)𝟐
∑(𝒙 − 𝒙
𝝈𝟐 =
𝒏
Donde:
𝝈𝟐 = Varianza de una población de datos.
(𝒙 − 𝒙̅)𝟐 = El cuadrado de cada desviación.

Página 9 de 27
̅)𝟐 = Suma de los cuadrados de las desviaciones de todos los datos.

∑ 𝒇(𝒙 − 𝒙
∑(𝑥−𝑥̅ )2
𝜎2 = 𝑛
2 (75−90.7)2 +(85−90.7)2 +(89−90.7)2 +(92−90.7)2 +(94−90.7)2 +(100−90.7)2 +(100−90.7)2
𝜎 = 7
2 (−15.7)2 +(−5.7)2 +(−1.7)2 +(1.3)2 +(3.3)2 +(9.3)2 +(9.3)2
𝜎 = 7
2 246.49+32.49+2.89+1.69+10.89+86.49+86.49
𝜎 =
7
467.43
𝜎2 =
7
𝜎 2 = 𝟔𝟔. 𝟖 𝒑𝒖𝒏𝒕𝒐𝒔
• Desviación estándar
̅) 𝟐
∑(𝒙−𝒙
𝝈=√ 𝒏
Donde:
𝜎 = Desviación estándar de una población de datos.
∑(𝑥−𝑥̅ )2
𝜎=√ 𝑛
= √66.8 = 𝟖. 𝟐 𝒑𝒖𝒏𝒕𝒐𝒔

Página 10 de 27
Colección de datos
organizada con una
Tabla de distribución de
frecuencias

Página 11 de 27
La siguiente colección de datos corresponde a las inasistencias de los alumnos del quinto
semestre, grupo 17, que cursan la asignatura Estadística Descriptiva en la escuela Bachilleres
Exitosos.
3 2 0 1 1 0 1
2 1 2 2 2 1 2
1 0 0 0 0 0 0
4 0 2 0 3 0 1
0 3 1 3 4 2 3
La variable por estudiar es: inasistencias de los alumnos a cada una de las 45 sesiones de clases de
la asignatura Estadística de un grupo de bachillerato, es una variable cuantitativa discreta y se
está utilizando la población de datos.
Debido a que los datos de la colección se repiten y se tienen 15 o menos datos diferentes,
usaremos para organizarla una:
TABLA DE DISTRIBUCIÓN DE FRECUENCIAS
Inasistencias Frecuencia
0 12
1 8
2 8
3 5
4 2
∑ = 35
∑(𝒇∙𝒙)
̅=
𝝁
𝒏
Donde:
𝜇̅ = Media aritmética de una población de datos.
𝑓 = Frecuencia de cada dato en la colección.
∑(𝑓 ∙ 𝑥) = Suma de todos los datos de la colección.
𝑛 = Número total de datos de la colección, igual a la suma de las frecuencias, 𝑛 = ∑ 𝑓.
𝑥 𝑓 𝑓∙𝑥
0 12 0
1 8 8
2 8 16
3 5 15
4 2 8
∑ = 35 ∑ = 47

Página 12 de 27
∑(𝑓 ∙ 𝑥) 47
𝜇̅ = = = 𝟏. 𝟑 𝒊𝒏𝒂𝒔𝒊𝒔𝒕𝒆𝒏𝒄𝒊𝒂𝒔
𝑛 35
• Mediana
̃ = 𝒙𝒏+𝟏
𝝁
𝟐
Donde:
𝜇̃ = Mediana de una población de datos.
𝑛+1
2
Para identificar a la mediana de la colección de datos anexaremos a la tabla la columna de

frecuencias acumuladas pues nos dará información acerca del dato o los datos que ocupan
la posición central de la colección ordenada en forma creciente.
𝑥 𝑓 𝑓𝑎
0 12 12
1 8 20
2 8 28
3 5 33
4 2 35
𝜇̃ = 𝑥𝑛+1 = 𝑥35+1 = 𝑥36 = 𝑥18 = 𝟏 𝒊𝒏𝒂𝒔𝒊𝒔𝒕𝒆𝒏𝒄𝒊𝒂

2 2 2
Interpretando la columna de frecuencias acumuladas en la TDF podemos decir que al

ordenar los datos de en forma creciente las primeras 12 posiciones la ocupan ceros, de la
posición 13 a la posición 20 la ocupan unos, de la posición 21 a la posición 28 la ocupan
dos, etc. Así, la posición central 18 de la colección de datos ordenada en forma creciente la
ocupa el 1 y este valor corresponde a la mediana.
Otra manera de identificar el valor de la mediana en una TDF es recorrer la columna de las
frecuencias acumuladas buscando la primera que iguale o sobrepase la posición central 18
de los datos de la colección, y el dato asociado con esa frecuencia acumulada 1
corresponderá a la mediana de la colección.
• Moda
̂
𝝁
Donde:
𝜇̂ = Moda de una población de datos.

Página 13 de 27
𝑥 𝑓
0 12
1 8
2 8
3 5
4 2
𝜇̂ = 𝟎 𝒊𝒏𝒂𝒔𝒊𝒔𝒕𝒆𝒏𝒄𝒊𝒂𝒔
0 es el dato que tiene la mayor frecuencia en la colección y este valor corresponde a la

moda.
• Rango
𝑹 = 𝒙𝑴 − 𝒙𝒎
Donde:
𝑥 𝑓
0 12
1 8
2 8
3 5
4 2
𝑅 = 4 − 0 = 𝟒 𝒊𝒏𝒔𝒊𝒔𝒕𝒆𝒏𝒄𝒊𝒂𝒔
∑(𝒇 ∙ |𝒙 − 𝒙
̅|)
𝑫𝑴 =
𝒏
Donde:
𝑥̅ = Media aritmética de la colección
|𝑥 − 𝑥̅ | = Valor absoluto de cada desviación.
𝑓 = Frecuencia de cada desviación en la colección de datos.
𝑓 ∙ |𝑥 − 𝑥̅ | = Suma de los valores absolutos de las desviaciones de cada dato igual.
∑(𝑓 ∙ |𝑥 − 𝑥̅ |) = Suma de los valores absolutos de las desviaciones de todos los datos.

Página 14 de 27
𝑥 𝑓 𝑥 − 𝑥̅ |𝑥 − 𝑥̅ | 𝑓 ∙ |𝑥 − 𝑥̅ |
0 12 -1.3 1.3 0
1 8 -0.3 0.3 2.4
2 8 0.7 0.7 5.6
3 5 1.7 1.7 8.5
4 2 2.7 2.7 5.4
∑ = 35 ∑ = 21.9
∑(𝑓. |𝑥 − 𝑥̅ |) 21.9
𝐷𝑀 = = = 𝟎. 𝟔 𝒊𝒏𝒂𝒔𝒊𝒔𝒕𝒆𝒏𝒄𝒊𝒂𝒔
𝑛 35
• Varianza
̅)𝟐 ]
∑[𝒇 ∙ (𝒙 − 𝒙
𝝈𝟐 =
𝒏
Donde:
𝜎 2 = Varianza de una población de datos.
(𝑥 − 𝑥̅ )2 = El cuadrado de cada desviación.
𝑓 ∙ (𝑥 − 𝑥̅ )2 = Suma de los cuadrados de las desviaciones de cada dato igual.
∑[𝑓 ∙ (𝑥 − 𝑥̅ )2 ] = Suma de los cuadrados de las desviaciones de todos los datos.
𝑛 = El total de datos de la colección, igual a la suma de las frecuencias, 𝑛 = ∑ 𝑓.
𝑥 𝑓 𝑥 − 𝑥̅ (𝑥 − 𝑥̅ )2 𝑓 ∙ (𝑥 − 𝑥̅ )2
0 12 -1.3 1.69 20.28
1 8 -0.3 0.09 0.72
2 8 0.7 0.49 3.92
3 5 1.7 2.89 14.45
4 2 2.7 7.29 14.58
∑ = 35 ∑ = 53.95
∑[𝑓 ∙ (𝑥 − 𝑥̅ )2 ] 53.95
𝜎2 = = = 𝟏. 𝟓 𝒊𝒏𝒂𝒔𝒊𝒔𝒕𝒆𝒏𝒄𝒊𝒂𝒔
𝑛 35
̅)𝟐 ]
∑[𝒇∙(𝒙−𝒙
𝝈=√ 𝒏
Donde:
𝜎 = Desviación estándar de una población de datos.

Página 15 de 27
∑[𝑓∙(𝑥−𝑥̅ )2 ]
𝜎=√ 𝑛
= √1.5 = 𝟏. 𝟐 𝒊𝒏𝒂𝒔𝒊𝒔𝒕𝒆𝒏𝒄𝒊𝒂𝒔

Página 16 de 27
GRÁFICAS
𝑥 𝑓
0 12
1 8
2 8
3 5
4 2
∑ = 35
𝑥 𝑓 𝑓𝑎
0 12 12
1 8 20
2 8 28
3 5 33
4 2 35
∑ = 35

Página 17 de 27
Colección de datos
organizada con una
Tabla de distribución de
frecuencias con los datos
agrupados

Página 18 de 27
La siguiente colección de datos corresponde a los pesos en kilogramos de un grupo

representativo de todas las personas que se ejercitan en el gimnasio La Salud, ante todo.
83.5 73.2 86.4 76.8 75.8 75.9

64.2 85.0 77.1 68.0 93.8 65.4
75.8 82.4 91.4 69.8 88.2 82.7
90.4 93.3 85.7 64.5 90.7 72.8
91.6 87.5 74.2 96.7 82.1 74.3
La variable por estudiar es: pesos en kilogramos de las personas que se ejercitan en el gimnasio La
Salud, ante todo, es una variable cuantitativa continua y se está utilizando una muestra de la
población de datos.
Debido a que los datos de la colección no se repiten y son más de 15 datos diferentes, usaremos
para organizarla una:
TABLA DE DISTRIBUCIÓN DE FRECUENCIAS CON LOS DATOS AGRUPADOS
Número de clases o intervalos = √𝑛

Donde:
√𝑛 = √30 = 5.5 ≈ 𝟔 𝒄𝒍𝒂𝒔𝒆𝒔
𝑀 𝑥 𝑚 −𝑥
Tamaño de las clases = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠
Donde:
𝑥𝑀 − 𝑥𝑚 96.7 − 64.2 32.5

= = = 𝟓. 𝟒
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠 6 6
(se utiliza con el nivel de redondeo que tienen los datos de colección)
A los extremos de las clases se les llama límites nominales. El tamaño de las clases es la diferencia
que hay entre los límites nominales de cada una de las clases.
Pesos (kg) Frecuencia

64.0-69.4 4
69.5-74.9 5
75.0-80.4 5
80.5-85.9 6
86.0-91.4 6
91.5-96.9 4
∑ = 30

Página 19 de 27
∑(𝒇∙𝒎)
̅=
𝒙
𝒏
Donde:
𝑥̅ = Media aritmética de la muestra de una población de datos.
𝑚 = Marca de clase (punto medio de clase). Es el promedio de los límites de cada clase.
𝑓 = Frecuencia de los datos dentro de cada clase.
∑ 𝑓 ∙ 𝑚 = Suma de todas las marcas de clase de la colección.
𝑛 =Número total de datos de la colección, igual a la suma de las frecuencias, 𝑛 = ∑ 𝑓.
𝑥 𝑓 𝑚 𝑓∙𝑚
64.0-69.4 4 66.7 266.8
69.5-74.9 5 72.2 361.0
75.0-80.4 5 77.7 388.5
80.5-85.9 6 83.2 499.2
86.0-91.4 6 88.7 532.2
91.5-96.9 4 94.2 376.8
∑ = 30 ∑ = 2424.5
∑ 𝑓 ∙ 𝑚 2424.5
𝑥̅ = = = 𝟖𝟎. 𝟖𝟐 𝒌𝒊𝒍𝒐𝒈𝒓𝒂𝒎𝒐𝒔
𝑛 30
• Mediana
𝒙𝒏+𝟏
𝟐
Donde:
𝑛+1
2
La clase mediana es la que contiene al dato que ocupa la posición central de la colección
enfilada en forma creciente.
Para identificarla anexaremos a la tabla la columna de frecuencias acumuladas.
𝑥 𝑓 𝑓𝑎
64.0-69.4 4 4
69.5-74.9 5 9
75.0-80.4 5 14
80.5-85.9 6 20
86.0-91.4 6 26
91.5-96.9 4 30
∑ = 30

Página 20 de 27
𝑥̃ = 𝑥𝑛+1 = 𝑥30+1 = 𝑥31 = 𝑥15.5

2 2 2
Interpretando la columna de frecuencias acumuladas en la TDFDA podemos decir que al

ordenar los datos de en forma creciente las primeras 4 posiciones la ocupan datos que se
encuentran en la primera clase, de la posición 5 a la posición 9 la ocupan datos que se
encuentran en la segunda clase, de la posición 10 a la posición 14 la ocupan datos que se
encuentran en la tercera clase, de la posición 15 a la posición 20 la ocupan datos que se
encuentran en la cuarta clase, etc. Así, las posiciones centrales 15 y 16 de la colección de
datos ordenada en forma creciente se encuentran en la cuarta clase, por tanto, esta clase
contiene a la mediana.
Clase mediana = 80.5-85.9
Otra manera de identificar el valor de la mediana en una TDFDA es recorrer la columna de

las frecuencias acumuladas buscando la primera que iguale o sobrepase las posiciones
centrales 15 y 16 de los datos de la colección, y el dato asociado con esa frecuencia
acumulada 80.5-85.9 corresponderá a la mediana de la colección.
Ahora, para determinar el valor de la mediana se usa la fórmula de interpolación

siguiente:
𝒏
−(𝒇𝒂)𝒂𝒏𝒕
̃ = 𝑳𝒊 + [𝟐
𝒙 ]𝑨
𝒇
Donde:
𝑥̃ = Mediana de la muestra de una población de datos.
𝐿𝑖 = Límite real inferior de la clase mediana.
El límite real inferior de una clase se obtiene promediando el límite nominal superior de la clase anterior y el límite
nominal inferior de la clase. Y el límite real superior de una clase se obtiene promediando el límite nominal superior
de la clase y el límite nominal inferior de la clase siguiente.
(𝑓𝑎)𝑎𝑛𝑡 = Frecuencia acumulada anterior a la clase mediana.
𝑓 = Frecuencia de la clase mediana.
𝐴 = Amplitud de la clase mediana. Es la diferencia entre el límite real superior y el límite
real inferior de la clase mediana. 𝐴 = 𝐿𝑠 − 𝐿𝑖
80.4+80.5
𝐿𝑖 = 2
= 80.45
85.9+86.0
𝐿𝑠 = 2
= 85.95
𝐴 = 85.95 − 80.45 = 5.5
30
−14
𝑥̃ = 80.45 + ( 2 6 ) 5.5 = 𝟖𝟏. 𝟑𝟕 𝒌𝒊𝒍𝒐𝒈𝒓𝒂𝒎𝒐𝒔
• Moda

Página 21 de 27
La clase modal es la que corresponde a la que tiene la mayor frecuencia
𝑥 𝑓
64.0-69.4 4
69.5-74.9 5
75.0-80.4 5
80.5-85.9 6
86.0-91.4 6
91.5-96.9 4
∑ = 30
Clase modal 1 = 80.5-85.9

Clase modal 2 = 86.0-91.4
𝒅𝟏
̂ = 𝑳𝒊 + (
𝒙 )𝑨
𝒅 𝟏 +𝒅𝟐
Donde:
𝑥̂ = Moda de la muestra de una población de datos.
𝐿𝑖 = Límite real inferior de la clase modal.
𝑑1 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase anterior.
𝑑2 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase siguiente.
𝐴 = Amplitud de la clase modal. Es la diferencia entre el límite real superior y el límite real
inferior de la clase modal. 𝐴 = 𝐿𝑠 − 𝐿𝑖
Para la clase modal 1 = 80.5-85.9

𝑑1 = 6 − 5 = 1
𝑑2 = 6 − 6 = 0
80.4+80.5
𝐿𝑖 = 2
= 80.45
85.9+86.0
𝐿𝑠 = 2
= 85.95
𝐴 = 85.95 − 80.45 = 5.5
1
𝑥̂1 = 80.45 + ( ) 5.5 = 𝟖𝟓. 𝟗𝟓 𝒌𝒊𝒍𝒐𝒈𝒓𝒂𝒎𝒐𝒔
1+0
Para la clase modal 2 = 86.0-91.4

𝑑1 = 6 − 6 = 0
𝑑2 = 6 − 4 = 2
85.9+86.0
𝐿𝑖 = 2
= 85.95
91.4+91.5
𝐿𝑠 = 2
= 91.45
𝐴 = 91.45 − 85.95 = 5.5

Página 22 de 27
0
𝑥̂2 = 85.95 + ( ) 5.5 = 𝟖𝟓. 𝟗𝟓 𝒌𝒊𝒍𝒐𝒈𝒓𝒂𝒎𝒐𝒔
0+2
• Rango
𝑹 = (𝑳𝒔 )𝑨 − (𝑳𝒊 )𝑩
Donde:
(𝐿𝑠 )𝐴 = Límite real superior de la clase más alta.
(𝐿𝑖 )𝐵 = Límite real inferior de la clase más baja.
𝑥 𝑓
64.0-69.4 4
69.5-74.9 5
75.0-80.4 5
80.5-85.9 6
86.0-91.4 6
91.5-96.9 4
∑ = 30
96.9+97.0
(𝐿𝑠 )𝐴 = = 96.95
2
63.9+64.0
(𝐿𝑖 )𝐵 = = 63.95
2
𝑅 = 96.95 − 63.95 = 𝟑𝟑 𝒌𝒊𝒍𝒐𝒈𝒓𝒂𝒎𝒐𝒔
∑(𝒇 ∙ |𝒎 − 𝒙
̅|)
𝑫𝑴 =
𝒏
Donde:
𝑚 = Marca de clase.
𝑚 − 𝑥̅ = Desviación de cada marca de clase con relación a su media aritmética.
|𝑚 − 𝑥̅ | = Valor absoluto de cada desviación.
𝑓 ∙ |𝑚 − 𝑥̅ | = Suma de los valores absolutos de las desviaciones de cada marca de clase igual.
∑(𝑓 ∙ |𝑚 − 𝑥̅ |) = Suma de los valores absolutos de las desviaciones de todas las marcas de
clase.
Considerando la media aritmética de esta colección de datos 𝑥̅ = 80.82, tenemos:
𝑥 𝑓 𝑚 𝑚 − 𝑥̅ |𝑚 − 𝑥̅ | 𝑓 ∙ |𝑚 − 𝑥̅ |

Página 23 de 27
64.0-69.4 4 66.7 -14.12 14.12 56.48

69.5-74.9 5 72.2 -8.62 8.62 43.1
75.0-80.4 5 77.7 -3.12 3.12 15.6
80.5-85.9 6 83.2 2.38 2.38 14.28
86.0-91.4 6 88.7 7.88 7.88 47.28
91.5-96.9 4 94.2 13.38 13.38 53.52
∑ = 30 ∑ = 230.26
∑(𝑓 ∙ |𝑚 − 𝑥̅ |) 230.26
𝐷𝑀 = = = 𝟕. 𝟔𝟖 𝒌𝒊𝒍𝒐𝒈𝒓𝒂𝒎𝒐𝒔
𝑛 30
• Varianza
̅)𝟐 ]
∑[𝒇 ∙ (𝒎 − 𝒙
𝒔𝟐 =
𝒏
Donde:
𝑠 𝟐 = Varianza de la muestra de una población de datos.
𝑚 = Marca de clase.
𝑚 − 𝑥̅ = Desviación de cada marca de clase con relación a su media aritmética.
(𝑚 − 𝑥̅ )2 = El cuadrado de cada desviación.
𝑓 ∙ (𝑚 − 𝑥̅ )2 = Suma de los cuadrados de las desviaciones de cada marca de clase igual.
∑[𝑓 ∙ (𝑚 − 𝑥̅ )2 ] = Suma de los cuadrados de las desviaciones de todas las marcas de clase.
Considerando la media aritmética de esta colección de datos 𝑥̅ = 80.82, tenemos:
𝑥 𝑓 𝑚 𝑚 − 𝑥̅ (𝑚 − 𝑥̅ )2 𝑓 ∙ (𝑚 − 𝑥̅ )2
64.0-69.4 4 66.7 -14.12 199.3744 797.4976
69.5-74.9 5 72.2 -8.62 74.3044 371.522
75.0-80.4 5 77.7 -3.12 9.7344 48.672
80.5-85.9 6 83.2 2.38 5.6644 33.9864
86.0-91.4 6 88.7 7.88 62.0944 372.5664
91.5-96.9 4 94.2 13.38 179.0244 716.0976
∑ = 30 ∑ = 2340.342
∑[𝑓 ∙ (𝑚 − 𝑥̅ )2 ] 2340.342
𝑠2 = = = 𝟕𝟖. 𝟎𝟏 𝒌𝒊𝒍𝒐𝒈𝒓𝒂𝒎𝒐𝒔
𝑛 30
̅) 𝟐 ]
∑[𝒇∙(𝒎−𝒙
𝒔=√ 𝒏
Donde:
𝑠 = Desviación estándar de la muestra de una población de datos.

Página 24 de 27
∑[𝑓∙(𝑚−𝑥̅ )2 ]
𝑠=√ 𝑛
= √78.01 = 𝟖. 𝟖𝟑 𝒌𝒊𝒍𝒐𝒈𝒓𝒂𝒎𝒐𝒔

Página 25 de 27
GRÁFICAS
𝑥 Límites reales 𝑓 𝑚
64.0-69.4 63.95-69.45 4 66.7
69.5-74.9 69.45-74.95 5 72.2
75.0-80.4 74.95-80.45 5 77.7
80.5-85.9 80.45-85.95 6 83.2
86.0-91.4 85.95-91.45 6 88.7
91.5-96.9 91.45-96.95 4 94.2
∑ = 30
𝑥 Límites reales 𝑓 𝑚 𝑓𝑎
64.0-69.4 63.95-69.45 4 66.7 4
69.5-74.9 69.45-74.95 5 72.2 9
75.0-80.4 74.95-80.45 5 77.7 14
80.5-85.9 80.45-85.95 6 83.2 20
86.0-91.4 85.95-91.45 6 88.7 26
91.5-96.9 91.45-96.95 4 94.2 30
∑ = 30

Página 26 de 27
FORMULARIO
Fórmulas
Medidas Tabla de Tabla de distribución de
Fila de datos distribución de frecuencias con datos
frecuencias agrupados
CENTRALIZACIÓN
∑𝑥 ∑(𝑓∙𝑥) ∑(𝑓∙𝑚)
Media aritmética
𝑛 𝑛 𝑛
𝑛
−(𝑓𝑎)𝑎𝑛𝑡
Mediana 𝑥𝑛+1 𝑥𝑛+1 𝐿𝑖 + [ 2
]𝐴
2 2 𝑓
𝑑1
Moda 𝐿𝑖 + (𝑑 +𝑑 ) 𝐴
1 2
DISPERSIÓN
Rango 𝑥𝑀 − 𝑥𝑚 𝑥𝑀 − 𝑥𝑚 (𝐿𝑠 )𝐴 − (𝐿𝑖 )𝐵

∑|𝑥−𝑥̅ | ∑(𝑓∙|𝑥−𝑥̅ |) ∑(𝑓∙|𝑚−𝑥̅ |)
Desviación media
𝑛 𝑛 𝑛
∑(𝑥−𝑥̅ )2 ∑[𝑓∙(𝑥−𝑥̅ )2 ] ∑[𝑓∙(𝑚−𝑥̅ )2 ]
Varianza
𝑛 𝑛 𝑛
∑(𝑥−𝑥̅ )2 ∑[𝑓∙(𝑥−𝑥̅ )2 ] ∑[𝑓∙(𝑚−𝑥̅ )2 ]
Desviación estándar √ √ √
𝑛 𝑛 𝑛

Página 27 de 27

Estadística Descriptiva. Ing. Gabriel Marrufo

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Estadística Descriptiva. Ing. Gabriel Marrufo

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD AUTÓNOMA DE YUCATÁN

Escuela Preparatoria Uno

Ing. Gabriel J. Marrufo May

Conceptos básicos …………………………………………………………………………………………………………… 3

Colección de datos organizada con una fila de datos ……………………..……………………………….. 7

Colección de datos organizada con una Tabla de distribución de frecuencias ………………… 11

Ing. Gabriel J. Marrufo May

Ing. Gabriel J. Marrufo May

Ing. Gabriel J. Marrufo May

Ing. Gabriel J. Marrufo May

Ing. Gabriel J. Marrufo May

Ing. Gabriel J. Marrufo May

∑ 𝑥 75 + 85 + 89 + 92 + 94 + 100 + 100 635

𝜇̃ = 𝑥𝑛+1 = 𝑥7+1 = 𝑥8 = 𝑥4 = 𝟗𝟐 𝒑𝒖𝒏𝒕𝒐𝒔

La posición central 4 de la colección de datos ordenada en forma creciente la ocupa el 92 y

Ing. Gabriel J. Marrufo May

Considerando la media aritmética de esta colección de datos 𝜇̅ = 90.7, tenemos:

Ing. Gabriel J. Marrufo May

̅)𝟐 = Suma de los cuadrados de las desviaciones de todos los datos.

Considerando la media aritmética de esta colección de datos 𝜇̅ = 90.7, tenemos:

Ing. Gabriel J. Marrufo May

Ing. Gabriel J. Marrufo May

TABLA DE DISTRIBUCIÓN DE FRECUENCIAS

Ing. Gabriel J. Marrufo May

Para identificar a la mediana de la colección de datos anexaremos a la tabla la columna de

𝜇̃ = 𝑥𝑛+1 = 𝑥35+1 = 𝑥36 = 𝑥18 = 𝟏 𝒊𝒏𝒂𝒔𝒊𝒔𝒕𝒆𝒏𝒄𝒊𝒂

Interpretando la columna de frecuencias acumuladas en la TDF podemos decir que al

Ing. Gabriel J. Marrufo May

0 es el dato que tiene la mayor frecuencia en la colección y este valor corresponde a la

Considerando la media aritmética de esta colección de datos 𝜇̅ = 1.3, tenemos:

Ing. Gabriel J. Marrufo May

Considerando la media aritmética de esta colección de datos 𝜇̅ = 1.3, tenemos:

Ing. Gabriel J. Marrufo May

Ing. Gabriel J. Marrufo May

Ing. Gabriel J. Marrufo May

Ing. Gabriel J. Marrufo May

La siguiente colección de datos corresponde a los pesos en kilogramos de un grupo

83.5 73.2 86.4 76.8 75.8 75.9

TABLA DE DISTRIBUCIÓN DE FRECUENCIAS CON LOS DATOS AGRUPADOS

Número de clases o intervalos = √𝑛

√𝑛 = √30 = 5.5 ≈ 𝟔 𝒄𝒍𝒂𝒔𝒆𝒔

𝑥𝑀 − 𝑥𝑚 96.7 − 64.2 32.5

Pesos (kg) Frecuencia

Ing. Gabriel J. Marrufo May

Para identificarla anexaremos a la tabla la columna de frecuencias acumuladas.

Ing. Gabriel J. Marrufo May

𝑥̃ = 𝑥𝑛+1 = 𝑥30+1 = 𝑥31 = 𝑥15.5

Interpretando la columna de frecuencias acumuladas en la TDFDA podemos decir que al

Clase mediana = 80.5-85.9

Otra manera de identificar el valor de la mediana en una TDFDA es recorrer la columna de

Ahora, para determinar el valor de la mediana se usa la fórmula de interpolación

Ing. Gabriel J. Marrufo May

La clase modal es la que corresponde a la que tiene la mayor frecuencia

Clase modal 1 = 80.5-85.9

Para la clase modal 1 = 80.5-85.9

Para la clase modal 2 = 86.0-91.4

Ing. Gabriel J. Marrufo May

𝑅 = 96.95 − 63.95 = 𝟑𝟑 𝒌𝒊𝒍𝒐𝒈𝒓𝒂𝒎𝒐𝒔

Considerando la media aritmética de esta colección de datos 𝑥̅ = 80.82, tenemos:

Ing. Gabriel J. Marrufo May

64.0-69.4 4 66.7 -14.12 14.12 56.48

Considerando la media aritmética de esta colección de datos 𝑥̅ = 80.82, tenemos:

Ing. Gabriel J. Marrufo May

Ing. Gabriel J. Marrufo May