You are on page 1of 11

1.

_ESTADÍSTICA DESCRIPTIVA
La estadística descriptiva, proviene del vocablo latín status, esto se refiere a todas
las actividades que se desarrollan en diferentes instituciones y organizaciones del
estado, especialmente con las que se encuentran vinculadas con la descripción de
la situación económica y política de un país. El conjunto de métodos para la
recolección y análisis de los datos del estado impulsaron el desarrollo de la
estadística.
Los primeros en dar sus aportes a la enseñanza de esta ciencia fueron el alemán
H. Coring (1606-1681), el belga A. Quetelet (1796-1874) y el alemán K. F. Gauss
(1777- 1855).
Un ejemplo de lo ya antes mencionado es conocer el número exacto de individuos
en edad escolar y la proyección de su crecimiento son factores importantes para
pretender definir las políticas de inversión en el sector educativo. Para ciencias
como la Sociología y la Psicología, la estadística es una herramienta que les
permite estudiar los comportamientos de las poblaciones.
La estadística tiene dos grandes partes: la estadística descriptiva la cual se
encarga de recolectar, organizar y representar datos mediante tablas y diagramas
que describen las características de una población o de una parte de ella, y la
estadística inferencial con la que predice el comportamiento de una población, a
partir de la información que se conoce de una parte de ella.
Algunos términos de uso frecuente en cualquier experimento estadístico son:
población, muestra, variable y dato.
La población estadística es el conjunto de individuos, objetos o valores cuyas
propiedades serán estudiadas estadísticamente.
La muestra es un subconjunto o parte de la población; la muestra debe estar
compuesta por aquellos elementos de la población que sean más representativos.
Las técnicas de selección de muestras son estudiadas por una rama de la
estadística llamada muestreo. Generalmente, en las investigaciones no es posible
trabajar con toda la población, bien sea por ser numerosa, como el caso de los
habitantes de una ciudad o por costos, por tal razón, el investigador es el
encargado de seleccionar los elementos que conformarán la muestra.
Después de establecer la población o muestra es indispensable determinar las
variables o características que se estudiarán. El análisis de cada variable arroja
los datos o valores asociados a la muestra o población. El valor numérico que
resume todos los datos de una población se denomina parámetro.
Consideremos el experimento estadístico de determinar las horas que se le dedica
a la lectura en una población de estudiantes de diferentes planteles educativos de
la ciudad de Tuxtla Gutiérrez, la variable asociada es el número de horas

informa acerca de las características que se distinguen de un elemento de otro y los ubican en clases independientes y separadas mediante números. se dice que el conjunto de datos es bimodal. En las tablas 1 y 2 se observa que las frecuencias mayores son 15. Si dos datos distintos tienen la misma frecuencia máxima. . la mediana y el rango. puede existir incluso conjuntos de datos multimodales. esta variable es el tipo de libros que prefieren leer los habitantes de la muestra. en este caso el número de horas diarias de lectura es la variable cuantitativa. los datos son los resultados que se obtendrán de la encuesta realizada a los miembros de la muestra. la cual podría ser el promedio aritmético. y 16. y el parámetro depende de la medida que se quiera representar al conjunto de datos. como son la moda. MEDIDAS DE TENDENCIA CENTRAL O DE POSICIÓN Para cada grupo de datos existen números que son valores representativos de la población. que corresponden al valor cuantitativo “una hora”. Asó la moda en el primer caso es “una hora” y en segundo es “libro científico”. la moda o la mediana. que corresponde a la variable cualitativa “lectura científica”. en el caso presente. Dentro de la variable cualitativa se clasifica o describe un elemento de la población. La moda El valor o característica que más se repite en una población o muestra se llama moda de la población o de la muestra. Las medidas de tendencia central o de posición de un conjunto de datos buscar dar al investigador alguna medida cuantitativa del centro de los datos de una población o muestra. la media.dedicadas a la lectura diariamente. es decir. En la estadística hay dos clases de variables: cuantitativas y cualitativas. Una variable cuantitativa establece los atributos de un elemento. y corresponde al dato con la mayor frecuencia absoluta.

La media aritmética o media se le conoce como media muestral. 8. 9. 6. Un ejemplo común. 7. 7. 10 7+8 Mediana=-___________________ 2 El rango . si las edades de 10 niños son: 6. 9. la mediana es la mitad de la adición de los dos datos centrales. Esta medida se encuentra afectada por los valores extremos. Para calcular la mediana es necesario ordenar los datos de menor a mayor.La mediana La mediana de un conjunto de datos es aquel dato central que divide los datos de la muestra o la población en partes iguales. la mediana es el dato central.6años La mediana se obtiene al ordenar de las edades y promediar los datos del centro: 6. 6. efecto que no ocurre con la mediana. 8. 9. El propósito de esta medida es identificar la tendencia central de la muestra sin que se vea afectada por los valores extremos. 8. 6. es el valor de la característica en estudio que tendría todos los elementos de la población si ellos no se diferenciaran. 8. 7. 7. y si el número de datos es par. 6. 10. La media aritmética o promedio La media aritmética o promedio de un conjunto de datos es el cociente que resulta entre la adición de los datos y el número total de datos. 9. el promedio de las edades de los niños es: 6+7+8+9+8++6+10+6+9+7 Mediana=_______________________________ 10 Mediana =7. Si el número de datos es impar.

Organizando los datos de menor a mayor. 14. y la frecuencia acumulada se escribe como . La moda de este grupo de datos es 15. La diferencia entre el mayor valor y el menor valor de la característica en estudio se llama rango.1.1_MEDIDAS DE TENCION CENTRAL PARA DATOS AGRUPADOS En ocasiones es especial agrupar los datos correspondientes a una variable. La moda de los datos se encuentra en este intervalo. 13. 12. 15. La media o promedio es 13. 15. 11. es decir. La frecuencia absoluta es el numero de datos que corresponden a cada intervalo. la mediana es de (13+13)/2=13. 13. en intervalos o clases. Como son 10 datos. 11. 15. 12. 11. La moda La clase con mayor frecuencia absoluta se denomina clase modal. 1. tenemos: 11. 15. El rango es de 15-11=4. Considérese el siguiente grupo de datos: 12. El valor exacto de la moda se puede calcular como el valor correspondiente al punto de intersección de los segmentos de la figura continua. la mediana corresponde al promedio aritmético de los datos que ocupan los lugares 5 y 6. Considérese la tabla 3 de frecuencias de datos agrupados En cada intervalo o clase escogemos una marca de clase correspondiente al punto medio del intervalo. 13. 15. 14. ya que es el valor con la mayor frecuencia absoluta. El en ejemplo la clase modal es el intervalo [4-6]. 13. . 15. 12.

2_MEDIDAS DE DISPERSION O VARIABILIDAD Las medidas de tendencia central proporcionan información valiosa adecuada para los datos de la muestra. se puede hallar mediante el valor correspondiente al 50%. Sin embargo. se puede apreciar que las notas de Carolina están entre 3. sin embargo.0. dos muestras distintas pueden tener la misma media o promedio. se calcula el valor correspondiente al dato 25. Analicemos a dos estudiantes cuyas notas son las siguientes: El promedio de notas de Carolina y Jairo es de 4. por tanto. Para el caso de frecuencias absolutas. estas medidas no son suficientes para su estudio Por ejemplo.5 y 5. por tanto el rango de variación de las notas de Jairo es mayor. En la figura se muestra el valor correspondiente a la mediana de este grupo de datos.5 y 4. para distintas muestras de la misma población. Para las frecuencias relativas.3. mientras que las notas de Jairo están entre 2. es posible encontrar la mediana. es necesario estudiar la variabilidad o dispersión de los datos. . La media aritmética o promedio Para un conjunto de datos agrupados.La mediana A partir de un polígono de frecuencias absolutas o relativas. la media aritmética o promedio se calcula mediante la expresión: 1.0.

Si se trata de la distribución agrupada de una variable continua. sin olvidar que no se toman desviaciones. es una medida de dispersión de un conjunto de datos. mientras que el rango de variación de las notas de Jairo es de 2. Varianza La varianza muestral es la suma de los cuadrados de las desviaciones divididas entre .8. sino distancias. respecto a la media aritmética. es el promedio de las distancias de los datos de la distribución. Desviación media absoluta La desviación media absoluta promedio. también se le denomina desviación media. Para el caso de las notas de Carolina y Jairo la desviación absoluta se presenta a continuación: La desviación media o desviación absoluta promedio respecto de la media aritmética de los datos de una distribución agrupada de frecuencias.Rango de variación El rango de variación es una medida que determina la dispersión de los datos de una distribución de frecuencias y corresponde a la diferencia entre el mayor de los valores de los datos y el menor. entonces el rango de variación se puede hallar mediante la expresión: El rango de variación de las notas de Carolina es de 0.5. que se define como el promedio de las distancias de los datos a la media aritmética. Es una medida de dispersión que mide cuanto se alejan los datos de su media y sirve para comparar la desviación de dos distribuciones de frecuencias. la varianza muestral se calcula mediante la expresión: . Las medidas más importantes de variabilidad son la varianza y la desviación estándar. Si es una muestra de observaciones y es la media.

Coeficiente de variación. El coeficiente de variación. CV.Desviación estándar La desviación estándar muestral es la raíz cuadrada de la varianza. se calcula con la expresión La varianza y la desviación estándar de las notas de Carolina y Jairo se muestran en las siguientes tablas: El coeficiente de variación en los dos casos es: .

La mediana divide el conjunto de datos de dos subconjuntos de igual número de datos. similares a la mediana. 116. al igual que los deciles y los percentiles. Cuando un conjunto de datos se divide en cien partes iguales. que subdividen un conjunto de mediciones (datos) de acuerdo con la proporción de frecuencias observadas. percentil 50 o mediana. 205. 285. los puntos de división se llaman percentiles.Medidas de localización Los cuartiles. 22. 151. el primer cuartil o percentil 25 es igual al promedio de las observaciones 32 y 44 El segundo cuartil. 81. 32. 310. 320. 72. 252. es igual a: . 129. 139. 91. los deciles dividen el conjunto en diez subconjuntos de datos de igual número de datos. Para los siguientes 20 datos ordenados de menor a mayor: 20. son medidas de localización. 62. los cuartiles dividen el conjunto en cuatro subconjuntos de igual número de datos. 145. 44. 30. es un valor tal que al menos el k% de las observaciones están en el valor o por debajo de él. 25. y al menos (1-k) % de las observaciones están en el valor o por encima. El k-ésimo percentil.

. por ejemplo. y las hojas. Este tipo de diagramas busca proporcionar una impresión visual de la distribución de un conjunto de datos. son los dígitos de las unidades de cada uno de los datos que empiezan con 6. Se emplea cuando el número de observaciones es moderadamente grande. Organiza los datos en dígitos primarios o tallos. que son los dígitos de mayor valor posicional. 6… 1 3 4 5 6 El diagrama de tallos y hojas para los datos se muestra en la figura continua. los tallos corresponden a los dígitos de las decenas 6. y dígitos secundarios u hojas que corresponden al resto de los dígitos que se encuentran en cada dato. Para su construcción se escriben los datos en una columna en la parte izquierda y. para el numero 6. Los datos de la siguiente tabla representan 25 observaciones del rendimiento de un proceso.DIAGRAMA DE TALLO Y HOJAS Fue creado por el estadístico norteamericano John Tukey. Puesto que los datos están desde el 61 y 95. 8 y 9. 7. a la derecha separadas por una línea vertical las correspondientes hojas de cada tallo. HISTOGRAMAS Un histograma es una grafica de barras que representa la distribución de frecuencias de una variable cuantitativa.

en muchos casos. en una ojiva. las frecuencias acumulativas se trazan en las fronteras de clase en lugar de hacerlo en las marcas de clase.1. Si es posible las clases deben tener el mismo ancho con la finalidad de mejorar la información visual en la distribución de frecuencias. una distribución de frecuencias que emplea muy pocas o demasiadas clases no contienen mucha información. y que el numero de clases debe aumentar en función de n. Sin embargo. POLÍGONO DE FRECUENCIAS El polígono de frecuencias se construye uniendo con segmentos de recta los puntos representados por una pareja ordenada.3_DISTRIBUCION DE FRECUENCIAS La distribución de frecuencias ofrece un resumen más compacto de los datos que el diagrama de tallo y hojas. obtenemos lo que se conoce como una ojiva. los cuales se conocen como intervalos de clases o celdas. . Para construir una distribución de frecuencias. DIAGRAMAS DE CAJA El diagrama de caja es una representación visual que describe al mismo tiempo varias características importantes de un conjunto de datos. primero se divide el rango de los datos en intervalos. resulta satisfactorio usar entre 5 y 20 clases. en la que el primer elemento es un dato de la variable y como segundo elemento su correspondiente Frecuencia OJIVAS Si aplicamos una técnica similar a una distribución acumulativa. tales como el centro. Hemos visto que. la dispersión. la desviación de la simetría y la identificación de observaciones que se alejan de manera poco usual del resto de los datos. En general. El numero de clases depende del numero de observaciones y de la dispersión de los datos. Este tipo de valores se le conoce como “valores atípicos”. Para la selección del numero de clases debe emplearse cierto criterio de modo que pueda desarrollarse un diagrama razonable.

El diagrama de caja presenta los tres cuartiles. .5 y 3 veces el rango intercuartílico a partir de las aristas del rectángulo reciben el nombre de valores atípicos. El rectángulo delimita el rango intercuartílico con la arista izquierda o inferior. ubicada en el primer cuartil. . que va hacia los valores extremos. Se dibuja una línea a través del rectángulo en la posición que corresponde al segundo cuartil. y la arista derecha o superior en el tercer cuartil. De cualquiera de las aristas del rectángulo se extiende una línea o bigote. alineado horizontal o verticalmente. . los diagramas de caja reciben el nombre de diagramas de caja o bigotes. Estas son observaciones que se observan entre el cero y 1. para identificar los dos tipos de valores atípicos. Las observaciones que están más allá de 3 veces el rango intercuartílico a partir de las aristas del rectángulo se conocen como valores atípicos extremos. que es igual al 50% o la mediana. Las observaciones que están entre 1. y los valores mínimo y máximo de los datos sobre un rectángulo. En ocasiones se emplean diferentes símbolos.5 veces el rango intercuartílico a partir de las aristas del rectángulo. . A veces. como círculos vacios o llenos.