AGRUPACION DE DATOS

ORDENAMIENTO DE DATOS EN ARREGLOS DE DATOS DE DISTRIBUCIONES
DE FRECUENCIA

Una ordenación de datos es una de las formas más sencillas de presentarlos:
organiza los valores en orden ascendente o descendente.
La ordenación de datos ofrece varias ventajas con respecto a los datos sin
procesar:
1.- Podemos identificar los valores de mayor a menor rápidamente.
2.- Es fácil dividir los datos en secciones.
3.- Podemos ver si algunos valores aparecen más de una vez en el arreglo
4.- Podemos observar la distancia entre valores sucesivos de los datos.
A pesar de las ventajas, en algunas ocasiones un ordenamiento de datos no
resulta útil.
MEDIA ARITMETICA CALCULADA APARTIR DE DATOS AGRUPADOS
Cuando los datos se presentan mediante una distribución de frecuencia, todos
los valores caen dentro de unos intervalos de clase dados q se consideran
coincidentes con las marcas de clases o puntos medios de cada intervalo.
MEDIANA
Es una colección de datos ordenados de magnitud es decir el valor medio o la
mediana aritmética de los dos valores medios.
Ejemplo:
Sean los números 5,6,6,6,7,8,8,8,8 en este ejemplo su mediana es 7
Para datos agrupados la mediana se obtiene mediante la interpolación y su
fórmula es:

La moda puede no existir.18 tiene de moda 9 El sistema 3. y se llama bimodal.3.7.16 no tiene moda El sistema 2.9.7.8. Este valor de X se denota a veces por Ẋ MODA La moda es una serie de números. Ejemplos: El sistema 2.11.9.5. incluso si existe no puede ser única.9 tiene dos modas. la mediana es el valor de x (abscisa) que corresponde ala vertical q divide un histograma en dos partes de igual área.15.7.5. Una distribución q tiene una sola moda se llama unimodal.12. la clase q contiene la mediana) N= Número total de datos (frecuencia total) (∑▒〖f)₁〗= Suma de frecuencias de todas las clases por debajo de la clase media. 4.7. En el caso de datos agrupados en el que se ha construido una curva de frecuencias para ajustar los datos.10.4.5.5.2.7.9.4.10. ƒ mediana = Frecuencia de la clase mediana c = Tamaño del intervalo de la clase mediana Geométricamente. es aquel valor que se presenta con mayor frecuencia es decir es el valor más común.12.4.L1= Limite real inferior de la clase mediana (es decir. la moda será el valor (o valores) de X .10.

sin embargo no se conoce con exactitud los valores que toma. al agrupar los datos cuantitativos en intervalos. Este valor de X se representa a veces por Ẋ Agrupamiento de datos cuantitativos Cuando existen gran cantidad de datos cuantitativos (discretos y continuos) que se encuentran muy dispersos. se debe elegir un número razonable de clases. es decir. Esta desventaja es atribuible cuando los datos ya se encuentran organizados en intervalos. por lo tanto se pierde el nivel de detalle y accesibilidad. deben ser mutuamente excluyentes y colectivamente exhaustivas. para de esta manera concentrar los datos y así acumular el número de observaciones o frecuencias contenidas para cada clase facilitando su presentación. además de que se puede correr el riesgo de tener muchas clases con muy pocos datos. además de permitir un análisis de aspectos resaltantes que serían muy difícil de observar con datos individuales. un valor no puede pertenecer a dos clases de manera simultánea.correspondientes al máximo (o máximos) de la curva. Por otro lado es importante tomar en consideración que. lo segundo expresa que todos los datos deben estar incluidos en los intervalos definidos. Es preciso aclarar que dichas clases. en el caso contrario. porque cuando se escoge un número muy grande el objetivo de simplificación no se obtiene. es posible retornar a los datos originales. Cabe señalar que. las distribuciones de frecuencias en intervalos tienen como principal desventaja. las distribuciones de frecuencias sin agrupar no son la mejor opción para realizar una organización de datos. por lo cual se hace necesario realizar una distribución en intervalos o clases. (se selecciona un número . lo primero significa que las clases no deben estar solapadas. la perdida de individualidad de los datos. de lo contrario. que hagan posible un resumen de los datos de la variable en estudio. debido a que se sabe que en determinada clase está contenida cierta cantidad de datos.

o la marca de bebida preferida. por ejemplo. . En Estadística se estudian fenómenos aleatorios. siempre sería posible encontrar valores intermedios entre ambos. Regular.muy pequeño de intervalos). Las variables estadísticas pueden ser cualitativas y cuantitativas. Colectivo o Población: es el conjunto todos los individuos a los que va dirigido el estudio estadístico. si se poseyesen instrumentos con infinita precisión. el color. Bien. Muestra: es el subconjunto de datos elegidos del colectivo que realmente se analizan. por ejemplo. También son ordinales las variables que miden el grado de satisfacción conseguido por algún servicio: Muy mal. por próximos que estén. frecuentemente van asociadas a procesos de conteo: Nº de ramas de un árbol. Variable estadística: es cada una de las características que se miden de cada uno de los individuos que forman la muestra. Mal. Continuas: aquellas variables numéricas que. Finalmente hay que recordar que tanto el número de clases como las amplitudes de las mismas dependen de la naturaleza de los datos. La mayoría de las variables que implican una medición son de este tipo: la temperatura de la atmósfera. o el partido político elegido. el estado de salud de pacientes de un hospital: Muy grave. Nº de miembros por familia. Ordinales: los valores de este tipo de variables admiten ordenación. o el lugar de procedencia. la velocidad del vuelo de un ave. y dados dos consecutivos no puede haber valores intermedios. se resume tanto los datos al punto de perder información de utilidad. Se dice que una variable estadística es cualitativa cuando los valores que puede tomar son atributos. etc. su valor podría ser expresado con infinitas cifras decimales. la altura que alcanza un árbol. etc. Leve. dados dos valores. Nº de puestas en nidos. Grave. Muy bien. aunque sean cualitativas. Las variables cuantitativas pueden ser: Discretas: aquellas que solo pueden tomar valores aislados. Variables cuantitativas son aquellas que pueden tomar valores numéricos. Las variables cualitativas pueden ser: Nominales o categóricas: los valores no admiten ordenación. que son aquellos cuyo resultado no es previsible aunque se repitan en idénticas condiciones. el número de datos disponibles para la agrupación y el interés del investigador. son ejemplos de variables cuantitativas Continuas.

la temperatura absoluta. entonces podemos considerar diferencias entre las medidas y también proporciones. La tabla siguiente es un ejemplo de uno de estos estadillos . Un ejemplo clásico de este tipo de variable es la temperatura: si el aire hoy está a 10ºC y ayer estaba a 20ºC. la tabla recoge las medidas correspondientes a los diez primeros. en grados Kelvin es una variable medida en escala por ratios. pero no podemos decir que el segundo haya tardado el doble que el primero en llegar. . La mayoría de los fenómenos físicos que consideremos están medidos en este tipo de escala. cuando las variables son numéricas. Tablas de frecuencias Como resultado del estudio estadístico se posee una serie de estadillos o cuestionarios. si se toma como cero las 24 horas del día anterior y ha llegado un tren a las 0h 10 min.. Estadística descriptiva: Es la parte de la estadística que proporciona técnicas para extraer y mostrar la información que subyace en conjuntos de muy numerosos datos. por ejemplo: la hora de llegada de un tren a una estación. es necesario conocer su escala de medida: Decimos que una variable numérica está medida en escala por intervalos cuando no hay un cero absoluto origen de las medidas. la estadística descriptiva univariante permite estudiar los datos correspondientes a cada característica sin considerar la influencia de las demás.A veces. pues no se ha adoptado un cero absoluto común a todos los recorridos. basta con expresar ambas temperaturas en grados Fahrenheit. en él se han anotado seis características de árboles de un vivero después de un año de haber sido plantadas. y otro a las 0h 20 min. para comprobarlo. Cuando se acomete un estudio científico. Una variable estadística está medida en escala por ratios cuando existe un cero absoluto. o la masa lo son. por ejemplo. uno por cada individuo considerado en el que se recogen todas las medidas realizadas a cada individuo. también el peso. sabemos que el segundo llegó 10 minutos después que el primero. la longitud. es habitual medir gran cantidad de parámetros sobre cada uno de los individuos elegidos. pues el cero en la escala de medida se ha tomado de modo arbitrario. no podemos decir que la temperatura hoy sea el doble de la de ayer.

5 3. La tabla de frecuencia de la variable Replantado es: Replantad frecuencia o S 4 N 6 Total: 10 .9 4. Las variables cualitativas se prestan muy bien a este sistema de agrupamiento Para construir una tabla de frecuencias de agrupamiento discreto se anotan en una columna cada uno de los distintos valores que tome la variable y en la columna siguiente su frecuencia o número de veces que se repite.9 2.4 203.3 123.5 2.0 186.9 160.Árbol nº Replantado Grado afección 1 2 3 4 5 6 7 8 9 10 Códigos: N S N N N S N N S S S: Si N: No de Nº de ramas primarias 1 0 2 1 3 4 2 1 0 2 No MG NA M G M NA L L MG M NA: Afectado L: Leve M: Medio G: Grave MG: Muy Grave Diámetro (cm) Altura (cm) 3.8 168.9 4.5 146.3 2.0 169.3 3. Consideraremos distintos tipos de agrupaciones de datos: Tablas de frecuencias de datos en agrupamiento discreto: Realizamos este tipo de agrupamiento cuando el número de posibles respuestas a la variable en estudio es reducido.4 153.8 el primer paso para sintetizar la información es tabular los datos.2 4.5 5.0 184.7 160.

Tablas de frecuencias de datos agrupados en clases: Cuando tenemos una variable continua. el número de valores diferentes es muy grande. Se puede expresar también en %. I es el exponente de la primera .3 0.5 0.1 0. El número de intervalos o clases I a considerar es una cuestión importante y no hay un criterio fijo para establecerlo.2 0. indica la proporción de datos que muestran un determinado valor de la variable.3 1 0.0 La frecuencia acumulada es el número de datos que presentan un valor menor o igual que uno dado de la variable. siendo discreta.2 0.8 0. o cuando. La fórmula de Sturges es una de las que se pueden utilizar para determinarlo.2 10 1.2 2 0.9 1. La tabla de frecuencia de la variable X=Número de ramas primarias es.1 1. según ella.1 2 0. La frecuencia acumulada relativa es la proporción de datos menores o iguales a uno dado.La tabla de frecuencia de la variable X = Grado de afección es: Grado de afección xi NA L M G MG Total frecuencia frecuencia relativa ni fi 2 0. Nº ramas frecuencia primarias frecuencia relativa Frecuencia acumulada xi 0 1 2 3 4 Total fi 0.0 Ni 2 5 8 9 10 ni 2 3 3 1 1 10 Frecuencia acumulada relativa Fi 0. se agrupan los datos en clases o intervalos.3 0.0 La frecuencia relativa es la frecuencia absoluta dividida entre el número de observaciones.2 3 0.

3.3] Marcas de clase frecuencia frecuencia relativa frecuencia acumulada xi 2. Para determinar la amplitud de cada clase se divide el rango o diferencia entre el mayor y el menor de los valores observados entre el número de clases I. (6 de Septiembre de 2010).3 0. 5.25 4. B. aunque eso hará que la última clase termine en un valor superior al máximo observado. con un mínimo de 4 clases. Prezi.5 . que es la media entre ambos extremos. 3.8    0. se consideran todos los intervalos cerrados por la derecha y abiertos por la izquierda.6] (4. (7 de Febrero de 2014).3 0.6 .9 .6 0.2 . como 24>10. 4.com/wumw191bi2mj/metodos-de-agrupacion-ypresentacion-de-datos/ Nancyt.85 3. Obtenido de https://prezi. Para evitar dudas.55 4.potencia de dos cuyo resultado supera al número de datos. Cada clase o intervalo se identifica con una cifra llamada marca de clase.9 1. Para el ejemplo que estamos comentando.1 Ni 3 6 9 10 frecuencia acumulada relativa Fi 0.95 ni 3 3 3 1 fi 0.blogspot. Obtenido de http://nancytestadistica.com/2010/09/agrupacion-de-datos. salvo el primero que se considera cerrado por ambos extremos. la amplitud es: a R 5. con 10 datos.0 Bibliografía Espinoza.3 0.3  2. Estadística.3 0. Para la variable diámetro.2] (3.5 2.9] (3. La tabla de frecuencias de la variable diámetro es: Clases [2. se toma I=4.html .7 I 4 4 Si el cociente no es exacto se puede redondear por exceso.