Distribución de frecuencias

Una distribución de frecuencias es método de clasificación de datos en clases o intervalos, que muestra el número o porcentaje de observaciones de cada una de ellas. Esto proporciona una forma de observar un conjunto de números sin que se tenga que considerar en forma individual. La distribución de frecuencias se puede presentar en forma tabular y gráfica.

El procedimiento para elaborar una distribución de frecuencias, depende del tipo de datos particulares (esto es, continuos, discretos, nominales o jerarquizados). En primer lugar se consideraremos datos que se miden en una escala continua.

CONSTRUCCIÓN DE UNA DISTRIBUCIÓN DE FRECUENCIAS PARA DATOS CONTINUOS

Los pasos principales en la elaboración de una distribución de frecuencias para observaciones de una muestra se enumeran a continuación:
1.Establecer el número de clases o intervalos (k) en que se agruparán los datos. En la práctica se eligen entre 5 y 15 intervalos. Una regla empírica es calcular la raíz cuadrada del número de observaciones (n), o bien la Regla de Sturges que se utiliza para determinar el número mínimo de intervalos que debe tener la distribución de frecuencias. 2. Determinar el rango o amplitud de las observaciones (R), el cual se obtiene como la diferencia entre el mayor y el menor valor numérico de las observaciones.

Para prevenir ambigüedades en la clasificación de las observaciones, resulta conveniente considerar un rango extendido (R*) en lugar del rango original, R* se elige de modo que sea mayor que R, por ejemplo : R* = kR. La longitud de cada intervalo se obtiene dividiendo al rango ampliado por el número de intervalos. 3. Con el fin de que la diferencia R* - R se distribuya en forma equitativa, debemos dividir esta diferencia por 2, y repartirla en ambos extremos del rango original. Con esto logramos que los límites de los intervalos tengan una mayor aproximación decimal que la que tienen las observaciones originales. Usaremos el símbolo : (a,b] para representar a todas las observaciones que son mayores que “a” pero menores o iguales que “b”.

El límite del primer intervalo se obtiene restando a la primer observación el cociente: (R* - R)/2. Los límites de los demás intervalos se obtienen sumando sucesivamente la longitud de cada intervalo. 4. El punto medio de cada intervalo, llamado marca de clase se obtiene promediando los límites inferior y superior de cada intervalo, es el valor más representativo de cada intervalo. Se le simboliza por: xj 5. Contar el número de observaciones que pertenecen a cada intervalo, a las cuales se les llama frecuencias absolutas de la clase y se les representa por: fj 6. La frecuencia relativa fr de un intervalo se obtiene dividiendo a la frecuencia de la clase por el número total de observaciones en la muestra.

7. La frecuencia acumulada Fa, es la cantidad que nos indica cuántas observaciones existen, cuyo valor numérico es menor o igual al límite superior de un intervalo. Esta se puede expresar en términos de las frecuencias absolutas o de las frecuencias relativas.

EJEMPLO
Considérense los siguientes datos, los cuales representan la razón de precio - ganancia de una emisión de acciones, de certificados de valores vendidos muy por arriba del precio promedio del mercado: 5.26 8.51 7.64 8.61 7.25 7.17 8.14 6.95 4.00 6.90 8.96 8.82 3.86 6.26 8.06 6.91 7.78 8.64 7.44 5.64 6.78 6.43 6.66 7.82 10.34 5.47 8.82 10.08 9.02 7.71 8.26 6.76 6.65 6.07 5.88 3.81 8.65 7.52 6.67 7.75 6.86 6.48 7.62 6.81 6.72 6.68 6.25 7.36 7.74 8.72 5.67 7.49 8.26 7.98 7.63 8.52 6.67 9.16 9.00 4.56 7.90 10.27 6.73 7.23 7.12 5.85 5.60 7.16 6.65 7.64 7.60 7.63 7.10

Construcción de una distribución de frecuencias : 1. El número de intervalos de clase es: Usando la regla de la raíz: k = 73 = 8.54  9 intervalos. Usando la regla de Sturges:

10 k  1 log n 3

10 k  1  log 73 3 k  7.21
k  8 intervalos de clase

En particular, en este ejemplo usaremos 8 intervalos de clase de longitud igual a 0.9 unidades. El mayor valor observado es: Xmax = 10.34 El menor valor observado es: Xmin = 3.81 El rango es: R = 10.34 - 3.81 = 6.53 A fin de que estas observaciones extremas queden incluidas dentro de los intervalos, usaremos un valor ligeramente mayor a R = 6.53, al que llamaremos rango extendido ( R*), de modo que este último sea un múltiplo de R. Eligiendo a R* = 8(0.9) = 7.2 La diferencia entre R* y R es: R* - R = 7.20 - 6.53 = 0.67 Distribuyendo de manera equitativa esta diferencia, dividimos este resultado por dos, así tenemos el valor 0.335.

Restando esta cantidad al menor valor observado Xmin = 3.81, obtenemos : Xmin = 3.81 - 0.335 = 3.475. Ahora elegimos a 3.475 como el límite inferior del primer intervalo de clase. Si a este valor le sumamos la longitud del intervalo obtenemos : 3.475 + 0.9 = 4.375, el cual será el límite superior del primer intervalo. Procediendo de esta forma, obtendremos los límites de los demás intervalos.

 3.475

4.375   5.275

6.175   7.075

7.975   8.875

9.775   10.675

Los 8 intervalos de clase considerados son: (3.475,4.375], (4.375,5.275], (5.275,6.175], (6.175,7.075], (7.075,7.975], (7.975,8.875], (8.875,9.775], (9.775,10.675]

La marca de clase (punto medio de un intervalo), se obtiene promediando los valores de los límites inferior y superior de cada intervalo. Así tenemos:

3.475  4.375  3.925 2
Así, las marcas de clase xj son:
3.925, 4.825, 5.725, 6.625, 7.525, 8.425, 9.325, 10.225 En el intervalo (3.475,4.375] se encuentran incluidas las observaciones: 3.81, 4.00 y 3.86, por lo que la frecuencia absoluta fj de este intervalo es igual a 3. Procediendo a contar las frecuencias en cada uno de los demás intervalos, obtenemos las siguientes frecuencias:

2, 7,19, 22, 13, 4, y 3 respectivamente. De esta forma la Distribución de frecuencias contiene hasta este momento las siguiente información: Intervalos marca de Frecuencias clase absolutas (3.475, 4.375] 3.925 3 (4.375, 5.275] 4.825 2 (5.275, 6.175] 5.725 7 (6.175, 7.075] 6.625 19 (7.075, 7.975] 7.525 22 (7.975, 8.875] 8.425 13 (8.875, 9.775] 9.325 4 (9.775, 10.675] 10.225 3 Para terminar de construir la Distribución de frecuencias solo nos falta calcular las frecuencias relativas: fr y a las frecuencias acumuladas: Fa .

Las frecuencias relativas se calculan dividiendo a las frecuencias absolutas de cada intervalo, por el número de observaciones en la muestra. Así, por ejemplo, la frecuencia relativa del primer intervalo es: 3 73
Repitiendo este procedimiento, frecuencias relativas. obtenemos las demás

Las frecuencias acumuladas las obtenemos sumando las frecuencias absolutas (o relativas) que se encuentren contenidas hasta el límite superior del intervalo de clase considerado.

Por ejemplo, la frecuencia acumulada absoluta hasta el límite superior del segundo intervalo es: 3 + 2 = 5.

Toda esta información se presenta a continuación en forma de tabla:
Intervalos (3.475, 4.375] (4.375, 5.275] (5.275, 6.175] (6.175, 7.075] (7.075, 7.975] (7.975, 8.875] (8.875, 9.775] (9.775, 10.625] TOTAL xj 3.925 4.825 5.725 6.625 7.525 8.425 9.325 10.225 -----fj 3 2 7 19 22 13 4 3 73 fr 3/73 2/73 7/73 19/73 22/73 13/73 4/73 3/73 -------Fa(Absolutas) 3 5 12 31 53 66 70 73 -------Fa(Relativas) 3/73 5/73 12/73 31/73 53/73 66/73 70/73 73/73 --------

Frecuencia Relativa, Acumulada y distribución de porcentajes acumulados
 Distribución de frecuencias relativas: Indica la proporción del numero total de datos que aparecen en cada intervalo  Distribución de frecuencias acumuladas: Indica el numero de datos que están por debajo del limite real superior de cada intervalo  Distribución de porcentajes acumulados: Indica el porcentaje de datos que están por debajo

del limite real superior de cada intervalo

Calificaciones de examen 95 57 76 76 65 79 67 79 72 88 82 96 87 65 58 54 86 81 82 92

76 63 60 71 84 87 77 82 63 75

93 74 56 77 70 69 72 82 46 76

86 94 72 52 83 89 56 66 62 90

80 96 82 76 93 77 78 73 99 74

89 77 70 68 76 81 78 79 93 67

Distribución de Frecuencias
 Presenta los valores de los datos y la frecuencia con

que se presentan. Al ser mostrados en una tabla, los valores de los datos se presentan en orden y, por lo general, el valor del dato más bajo aparece en la parte inferior de la tabla

Ejemplo1
Calificaciones organizadas en frecuencias Calificacioin f Calificacioin 99 1 85 98 0 84 97 0 83 96 2 82 95 1 81 94 1 80 93 3 79 92 1 78 91 0 77 90 1 76 89 2 75 88 1 74 87 2 73 86 2 72 f 0 1 1 5 2 1 3 2 4 6 1 2 1 3 Calificacioin 71 70 69 68 67 66 65 64 63 62 61 60 59 58 f 1 2 1 1 2 1 2 0 2 1 0 1 0 1 Calificacioin 57 56 55 54 53 52 51 50 49 48 47 46 f 1 2 0 1 0 1 0 0 0 0 0 1

Objetivo Principal
 La utilización de la distribución de frecuencias tiene

como objetivo principal el presentar los datos de una manera que facilite su comprensión e interpretación.

Datos Agrupados
 Los datos se pueden agrupar en intervalos de clase y se presentan como una distribución de frecuencias de datos agrupados.
 Un punto importante en este caso es determinar la Amplitud de cada intervalo.  Cada vez que los datos son agrupados se pierde un poco de información.  Mientras mas amplio es el intervalo, mas información se perderá.

Histograma

Polígono de Frecuencia

Histograma
80
Frecuencia absoluta
Frecuencia absoluta

Histograma

80 60 40 20 0
1 2 3 4 5

60

40

20

0

1

2

3

4

5

Peso al nacer (k)

Peso al nacer (k)

1. Un histograma o histograma de frecuencias consiste en una serie de rectángulos que tienen (a) Sus bases sobre un eje horizontal (el eje X) con centros en las marcas de clase y longitud igual al tamaño de los intervalos de clase. (b) Superficies proporcionales a las frecuencias de clase. Si los intervalos de clase tienen todos igual tamaño, las alturas de los rectángulos son proporcionales a las frecuencias de clase y se acostumbra en tal caso a tomar las alturas numéricamente iguales a las frecuencias de clase. Si los intervalos de clase no son de igual tamaño, estas alturas deberán ser calculadas. 2. Un polígono de frecuencias es un gráfico de línea trazado sobre las marcas de clase. Puede obtenerse uniendo los puntos medios de los techos de los rectángulos en el histograma. El histograma y el polígono de frecuencias correspondiente a la distribución de frecuencias de las alturas de los estudiantes se muestran en el mismo sistema de ejes en la Fig.1. Se acostumbra a prolongar el polígono con PQ y RS hasta las marcas de clase inferior y superior inmediatas, que corresponderían a la clase de frecuencia cero. En tal caso, la suma de las áreas de los rectángulos del histograma es igual al e área total limitada por el polígono de frecuencias y el eje X.

Histograma
Este tipo de gráfico se utiliza para representar variables continuas o cuantitativas discretas tabuladas en intervalos.

Histograma 80

Frecuencia absoluta

60

40

20

0

1

2

3

4

5

Pes o al nacer (k)

Polígono de Frecuencias
Este tipo de gráfico se utiliza para representar la distribución de variables cuantitativas continuas o discretas tabuladas en intervalos.
TALLA DE UNA M UESTRA DE ALUM NOS DE CIERTO COLEGIO

NUMERO DE ALUMNOS

30 25 20 15 10 5 0 95 105 115 125 135 145 155 165 TALLA EN CM

 El conjunto de datos puede considerarse normalmente como

perteneciente a una muestra extraída de una población grande. A causa de las muchas observaciones que podemos realizar en la población es posible teóricamente (para datos continuos) elegir los intervalos de clase muy pequeños y todavía tener un número adecuado de observaciones dentro de cada clase. Así se tiene que el polígono de frecuencias o el de frecuencias relativas para una población grande puede estar formado por muchos pequeños segmentos rectos que aproximan el conjunto a una curva, las curvas de este tipo pueden llamarse curvas de frecuencias o curvas de frecuencias relativas, respectivamente.  Es razonable esperar que tales curvas teóricas provengan de la suavización de los polígonos de frecuencias o de los polígonos de frecuencias relativas de la muestra, la aproximación es tanto más exacta conforme aumenta el tamaño de la muestra. Por esta razón una curva de frecuencias se conoce como un polígono de frecuencias suavizado.  De una forma análoga las ojivas suavizadas provienen de la suavización de los polígonos de frecuencias acumuladas u ojivas. Normalmente es más sencillo suavizar una ojiva que un polígono de frecuencias.

 Las curvas de frecuencia presentan determinadas formas características 


 

que les distinguen como se indica en la Figura 3. (a) Las curvas de frecuencia simétricas o bien formadas se caracterizan por el hecho de que las observaciones que equidistan del máximo central tienen la misma frecuencia. Un ejemplo importante es la curva normal. (b) En las curvas de frecuencia moderadamente asimétricas o sesgadas la cola de la curva a un lado del máximo central es mayor que al otro lado. Si la cola mayor se presenta a la derecha de la curva se dice que ésta está sesgada a la derecha o que tiene sesgo positivo, mientras que si ocurre lo contrario se dice que la curva está sesgada a la izquierda o que tiene un sesgo negativo. (c) En las curvas en forma de J o de J invertida, el máximo se presenta en un extremo. (d) Las curvas de frecuencias en forma de U tienen el máximo en ambos extremos. (e) Una curva de frecuencias bimodal tiene dos máximos. (f) Una curva de frecuencias multimodal tiene más de dos máximos.

GRÁFICOS ESTADÍSTICOS
El gráfico es la representación en el plano, de la información estadística, con el fin de obtener una impresión visual global del material presentado, que facilite su rápida comprensión. Los gráficos son una alternativa a las tablas para representar las distribuciones de frecuencias.

Algunos requisitos recomendables al construir un gráfico son:

- Evitar distorsiones por escalas exageradas.
- Elección adecuada del tipo de gráfico, según los objetivos y tamaño de recorrido de las variables. - Sencillez y autoexplicación.

Al igual que las tablas estadísticas, los gráficos estadísticos deben tener un título y una explicación de QUE, DONDE y CUANDO se

obtuvo la información.

¿Qué gráfico elegir?
¿Qué gráfico elegir?

¿Qué frecuencia graficar?

¿Absoluta o Relativa?

TIPOS DE GRÁFICOS ESTADÍSTICOS

Gráfico de Barras Separadas:

Se utilizan para representar la distribución de frecuencias de variables discretas. Cada categoría de la variable se representa por una barra, cuyo largo indica la frecuencia de observaciones en dicha categoría. Todas las barras deben ser de igual ancho y estar igualmente espaciadas.

NÚMERO DE HERMANOS DE LOS ALUMNOS DE UN CURSO
NUMERO DE ALUMNOS

20 10 0 0 1 2 3 4 5 6
NÚMERO DE HERMANOS

Gráfico Sectorial

Son una alternativa a los gráficos de barras separadas, es decir, se pueden utilizar indistintamente estos dos tipos de gráficos, si la variable es discreta.

DEPORTE FAVORITO DE LOS ALUMNOS DE UN CURSO FUTBOL 23% 8% 13% 21% 35% BALONCESTO ATLETISMO NATACION VOLEYBOL

Variables Discretas

Sarcoma de Kaposi Si No

Número de individuos 246 2314
Gráfico de Barras separadas
Diagrama de Barras 0.5 0.4 0.3 0.2 0.1 0.0 Peral Manzano Naranjo Especie Mandarino Pomelo

Número de hijos

Número de familias

0
1 2 3 4 5

80
60 50 30 20 10

Frecuencia relativa

Variables Discretas
Sarcoma de Kaposi Si No Frecuencia Absoluta (nº de ind) 246 2314 Frecuencia relativa 0.10 0.90
Gráfico Sectorial

Número de hijos 0 1 2 3 4 5

Frecuencia absoluta (nºfamilias) 80 60 50 30 20 10

Frecuencia relativa 0.32 0.24 0.20 0.12 0.08 0.04

Pictograma
Son una forma de representar la información mediante dibujos de los objetos que son motivo de estudio, con un formato tal que de una idea rápida y visual, de la distribución de frecuencias. Son especialmente útiles para fines publicitarios por ser atractivos y de fácil comprensión.

Gráfico de Barras Agrupadas Se utiliza para representar la distribución de dos variables discretas, con el objeto de efectuar comparaciones con mayor facilidad. EJEMPLO: La siguiente información corresponde al deporte favorito de los alumnos de 5º nivel de cierto establecimiento educacional.

DEPORTES PREFERIDOS POR LOS ALUMNOS DE CUARTOS BASICOS
NUMERO DE ALUMNOS

30 20 10 0
A B CURSO C

BALONCESTO VOLEYBOL FUTBOL PIN-PON

OBSERVACIÓN: Cuando los tamaños de muestra son distintos siempre se debe construir un gráfico con las frecuencias relativas (%). Si los tamaños de muestra fueran iguales da lo mismo si el gráfico lo construimos con las frecuencias absolutas o relativas.

A
BALONCESTO VOLEYBOL FUTBOL PIN-PON

B 8 12 14 10 5 11 20 8

C 7 5 21 11

TOTAL

44

44

44

Gráfico de Barras Divididas Se utiliza para representar la distribución de dos variables discretas, con el objeto de efectuar comparaciones con mayor facilidad.
PREFERENCIA POR LAS ASIGNATURAS 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%

HARTO MAS O MENOS NADA

C A

S TE M LL A TE A N M O A T H ICA IS TO R I IN A G L E. ES A FIS .V IC IS A U A LE S
ASIGNATURA