You are on page 1of 13

17/09/2009

Distribución de Frecuencias

Delfino Vargas. ITAM 2009

Introducción
` Cuando se tiene bastante información es muy
abrumador “visualizar” los datos, por ello es necesario
presentarlos en forma gráfica
` La representación gráfica ayuda a observar la
distribución de los datos de manera agrupada
` Las gráficas son útiles para generar informes para que la
información pueda ser aprovechada.
` Veremos la representación gráfica para variables
cuantitativas
tit ti y categóricas
t ói

1
17/09/2009

Representación Gráfica para Variables


Cuantitativas
` Para datos agrupados
` En la mayoría de los casos se requiere agrupar los datos para una
mejor visualización. Para ello se usa una distribución de frecuencias
` Las medidas de tendencia central reflejan la “concentración” de los
datos. Las medidas de dispersión reflejan la variabilidad.
` La distribución de frecuencias permite resumir la información en
una tabla o en gráfico que permite visualizar la “centralidad” y la
“dispersión” de los datos

Construcción de una Tabla de


Distribución de Frecuencias

` Primer paso: se hace un arreglo de datos, esto es ponemos en


orden
d ded magnitud
i d ascendente
d o descendente
d d

Número de eventos de violencia doméstica


reportados en un municipio
10 14 21 22 17
15 14 18 33 23
20 15 19 16 28
22 27 18 18 13

2
17/09/2009

Construcción de una Tabla de


Distribución de Frecuencias (cont..)

` Segundo paso: Se calcula el rango de los datos. El rango es la


di
distancia
i máxima
á i entre ell valorl grande
d y ell chico
hi

Tiempo en días de las auditorías de fin de año


(datos ordenados)
10 15 18 20 23
13 15 18 21 27
14 16 18 22 28
14 17 19 22 33

z Rango = R = Valor Máximo – Valor Mínimo = 33 – 10 = 23

Construcción de una Tabla de


Distribución de Frecuencias (cont..)
` Tercer paso: Se calcula el número de intervalos de las clase necesarias.
Usualmente se seleccionan entre 5 y 20.
K = 1+3.322 Log(n)
g( )
donde n es el número de datos y el logaritmo es base 10. Es decir,
K= 1 + 3.322 Log(20) =1 + 4.32 = 5.32
o de manera redondeada el número de clases es 5
` Otra forma de determinar el número de intervalos es obteniendo la raíz
cuadrada del número de observaciones. En este caso se eligen 4 clases
K = n = 20 = 4.47 ≈ 4
` Otra forma es seleccionar el entero más pequeño K para el cual se cumple
2K ≥ n
` Ejemplo, si n=20, entonces 25=32 y 24=16, de acuerdo a esta regla se toman
5 clases.

3
17/09/2009

Construcción de una Tabla de


Distribución de Frecuencias (cont..)

` Cuarto paso es determinar el ancho del intervalo.


Seleccionamos 5 clases.

Rango 23
W= = = 4.6 ≈ 5
N . clases 5
z Quinto paso es determinar las clases en si. Es decir los
límites superior e inferior de cada intervalo.
Clases
10 15
15 20
20 25
25 30
30 35

Construcción de una Tabla de


Distribución de Frecuencias (cont..)

` Sexto paso: Se Calculan las frecuencias de cada clase o intervalo. Esta


c l mna ssuele
columna ele ser igual
i al al número
númer de observaciones
bser aci nes en cada clase.
clase

Clases Frecuencias
(10, 15]
(15, 20]
(20, 25]
(25, 30]
(30, 35]
Total

4
17/09/2009

Construcción de una Tabla de


Distribución de Frecuencias (cont..)

` La frecuencia absoluta acumulada va sumando las frecuencias de cada clase,


hasta ssumar
mar el total
t tal de observaciones
bser aci nes

Clases Frecuencias Frecuencias


Acumuladas
(10, 15] 6
(15, 20] 7
(20, 25] 4
(25, 30] 2
(30, 35] 1
Total 20

Construcción de una Tabla de


Distribución de Frecuencias (cont..)

` EL porcentaje relativo se obtiene dividiendo las frecuencias entre el total

Clases Frecuencias Frecuencias Porcentaje


Acumuladas Relativo
(10, 15] 6 6
(15, 20] 7 13
(20, 25] 4 17
(25, 30] 2 19
(30, 35] 1 20
Total 20

10

5
17/09/2009

Construcción de una Tabla de


Distribución de Frecuencias (cont..)

` El porcentaje acumulado se obtiene dividiendo las frecuencias acumuladas entre el


t t l Alt
total. Alternativamente,
ti t se pueden
d sumar los l porcentajes
t j relativos.
l ti

Clases Frecuencias Frecuencias Porcentaje Porcentaje


Acumuladas Relativo Acumulado
(10, 15] 6 6 0.30 0.30
(15, 20] 7 13 0.35 0.65
(20, 25] 4 17 0.20 0.85
(25, 30] 2 19 0.10 0.95
(30, 35] 1 20 0.05 1.00
Total 20 1.00

11

Histograma y Medidas Descriptivas

Descriptives

Statistic Std. Error


Días Mean 19.1500 1.25084
95% Confidence Lower Bound 16.5320
Interval for Mean Upper Bound
21.7680

5% Trimmed Mean 18.8889


Median 18.0000
Variance 31.292
Std. Deviation 5.59393
Minimum 10.00
Maximum 33.00
Range 23.00
Interquartile Range 7.00
Skewness .830 .512
Kurtosis .714 .992

Histograma de frecuencias para 4


intervalos de clase

12

6
17/09/2009

Diagrama de Caja

Percentiles

Percentiles
5 10 25 50 75 90 95
Weighted Días
10.1500 13.1000 15.0000 18.0000 22.0000 27.9000 32.7500
Average(Definition 1)
Tukey's Hinges Días 15.0000 18.0000 22.0000

13

Gráficas
` La distribución de frecuencias en forma gráfica nos permite representar de
una forma clara la información.
` En el eje horizontal se representan los valores de la variable de estudio y
en el eje vertical se representan las frecuencias.
` Se llaman Histogramas de Frecuencias
` Las bases de cada rectángulo representan a cada intervalo de clase
` Las alturas representan las frecuencias
` También se pueden representar los porcentajes relativos o los
cumulados en las alturas de cada rectángulo

14

7
17/09/2009

Histograma de Frecuencias
` El histograma de frecuencias es una sucesión de
rectángulos sobre un sistema de coordenadas
cartesianas de la manera siguiente:
` El ancho de los rectángulos es igual a la longitud del intervalo K
` En el eje horizontal se localiza el límite inferior y superior de cada
clase
` Las alturas de cada rectángulo se registran sobre el eje vertical y
corresponden a las frecuencias de clase
` Las áreas de cada rectángulo son proporcionales a las frecuencias
de clase

15

Histograma de Frecuencias
8
6
Frequency
4

GRAPH
/HISTOGRAM=dias.
2
0

10 15 20 25 30 35
Tiempo en días

El histograma de frecuencias se obtuvo usando la


regla [a, b). Es decir cerrado por la izquierda y abierto
por la derecha.
16

8
17/09/2009

Diagramas de Tallo y Hoja

Frequency Stem & Leaf

1.00
1 00 1 . 0 10 + 0
1.00 1 . 3 10 + 3
4.00 1 . 4455 10 + 4, 10 + 4, 10 + 5 , 10 + 5
2.00 1 . 67
4.00 1 . 8889
2.00 2 . 01
3.00 2 . 223
.00 2 .
1.00 2 . 7
1.00 2 . 8 20 + 8
1.00 Extremes (>=33)

Stem width: 10.00 EXAMINE


Each leaf: 1 case(s) VARIABLES=dias
/PLOT BOXPLOT STEMLEAF
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
17

Diagramas de Caja
` Un diagrama de caja sirve para representar estadísticas básicas (mediana,
Q1, Q3, valores mínimos máximos, desviación estándar) en una sola figura.
` Para crear un diagrama de caja se necesita:
` Crear una escala apropiada
` Dibujar una caja que empieza con Q1 y termina Q3
` Trazar una línea dentro de la caja que represente a Q2 (mediana)
` Trazar una línea que represente los valores máximos y mínimos
(bigotes).

18

9
17/09/2009

Ejercicio 1. Numero de eventos de


violencia doméstica
Descriptives

Statistic Std. Error


dias Mean 19.1500 1.25084
95% Confidence Lower Bound 16 5320
16.5320
Interval for Mean Upper Bound
21.7680

5% Trimmed Mean 18.8889


Median 18.0000
Variance 31.292
Std. Deviation 5.59393
Minimum 10.00
Maximum 33.00
Range 23.00
Interquartile Range 7.00
Skewness .830 .512
Kurtosis .714 .992

Percentiles

Percentiles
5 10 25 50 75 90 95
Weighted dias
10.1500 13.1000 15.0000 18.0000 22.0000 27.9000 32.7500
Average(Definition 1)
Tukey's Hinges dias 15.0000 18.0000 22.0000

19

Diagrama de Caja y Bigotes


35

` Los Cuantiles Q1=15 y


Q2=18 y Q3=22 del
diagrama de caja.
30

Entonces el 50% delas


auditorías se hacen
Tiempo en días
25

entre 15 y 22 días
` También se observa un
sesgo ligeramente
20

positivo que sugiere la


distribución esta
15

“cargada” a la izquierda
con “colas largas” a la
10

derecha

20

10
17/09/2009

Diagrama de Caja y Bigotes

2-21

Representación Gráfica para Variables


Categóricas
` Los datos originales se agrupan de acuerdo a la
característica observada
` Una distribución de frecuencias es un resumen tabular de
un conjunto de datos que tiene la característica
observada
` Observando la frecuencia de las categorías observadas
permite tener una mejor perspectiva de los datos.

22

11
17/09/2009

Tabla de Distribución de Frecuencias

` Los datos de la tabla de abajo provienen de una muestra de clientes


entrevistados n=50.
Coca Coca Dieta Pepsi Coca Coca Dieta
Pepsi Dieta Pepsi Coca Pepsi Dieta Coca
Fanta Coca Coca Dieta Coca Pepsi Dieta
Coca Dieta Pepsi Dieta Coca Pepsi Pepsi
Pepsi Coca Coca Dieta Fanta Coca
Fanta Coca Dieta Pepsi Coca Pepsi
Coca Pepsi Coca Pepsi Dieta Fanta
Pepsi Coca Pepsi Pepsi Coca
Fanta Coca Coca Coca Pepsi
Coca Coca Dieta Coca Pepsi Dieta Coca Dieta

23

Tabla de Frecuencias

marca

Cumulative
Frequency Percent Valid Percent Percent
Valid Fanta 5 10.0 10.0 10.0
Pepsi Dieta 6 12.0 12.0 22.0
Coca Dieta 8 16.0 16.0 38.0
Pepsi 12 24.0 24.0 62.0
Coca 19 38.0 38.0 100.0
Total 50 100.0 100.0

24

12
17/09/2009

Histograma de Frecuencias

25

Diagrama de Pastel

10% Fanta

12% Pepsi Dieta

38% Coca Cola

16% Coca Dieta

24% Pepsi

26

13

You might also like