ESTADÍSTICA DESCRIPTIVA

1. DEFINICIONES.

1.1 Estadística.

Es una disciplina que provee los métodos y procedimientos para colectar, clasificar,
resumir y analizar datos.

1.2 Bioestadística.

Es la aplicación de la estadística a información o datos provenientes de las áreas
biológicas.

1.3 Variable.

Es una característica que interesa evaluar ya sea en un individuo o en un objeto, y que
como su nombre lo dice: varía o cambia de un individuo a otro; si todos los individuos
observados son homogéneos para la característica en cuestión, ya no se habla de una
variable, sino de una constante. Otra definición más corta: variable es lo que está siendo
observado o medido.

Las variables pueden ser clasificadas de diferentes maneras:

1.3.1 Variables cualitativas y Variables Cuantitativas: Hay diferentes maneras de clasificar
las variables y ésta es sólo una de ellas, se dice que una variable es cuantitativa cuando
es posible hacer una medición numérica de la misma, mientras que una variable
cualitativa, simplemente indica mediante palabras, algoritmos o convenciones la
característica de la variable.

Ejemplos:

Cuantitativas Cualitativas
 Peso  Variedad o especie
 Diámetro  Raza
 Altura  Color
 Número de plantas  Tipo de suelo

1.3.2 Variables discretas y variables continuas: Esta es otra forma de clasificar las
variables, una variable es discreta si entre dos o más valores posibles de ser observados
o registrados, no existe otro valor posible de observar, es decir, hay “saltos” entre los
valores que toma la variable, mientras que en una variable continua, entre dos valores
observables siempre hay infinitos valores posibles de ser observados. A veces se toma
como regla de clasificación que las variables discretas no pueden tomar valores que
involucren cifras decimales, pero esto no siempre se cumple, veamos un ejemplo:

Si en un examen definimos una variable como la relación de respuestas correctas
respecto al total de preguntas formuladas, los valores posibles siempre serán
fraccionarios: 1/5, 2/5, ...etcétera y a pesar de esto, la variable sería discreta.

en realidad las limitaciones están dadas por el instrumento de medida. altura. por lo tanto las divisiones sí son posibles. regular.3. Ejemplos: Peso.3.5 . aparentemente indica que son discretas. especie. Una forma de evaluar si una variable es nominal. pero en el caso de la temperatura no se puede afirmar que a 40 °C hace el doble de calor que a 20 °C. es continua. raza.1 Nominal: Es la escala de medición más débil. 1. materia. orden de llegada en una carrera (primero. Ejemplo: Nivel de producción (Alto.3 Escalas de medición: Esta forma de clasificar las variables hace relación a la cantidad de información que contenga la medición.3. la temperatura. numéricamente 40 es el doble de 20. los valores de la variable simplemente indican diferentes categorías y no existe un orden entre ellas. medio o bajo). por lo tanto las razones (divisiones) no son posibles aunque las diferencias sí lo sean. sexo. 4 . Ejemplos: Cociente intelectual y la más famosa de todas. ejemplos: el tiempo expresado en horas. pero la diferencia o distancia entre las categorías no es la misma.3. etcétera). Ejemplo: Color.2 Ordinal: Aquí también se agrupa en categorías. es una unidad. éstas sí están ordenadas.3. Algunas variables conceptualmente son continuas aunque el manejo que se hace de ellas. nombre. Una característica de esta escala es que el cero no es verdadero. el peso expresado en kg. por eso se puede afirmar que la diferencia entre 5 y 6 es la misma que entre 10 y 11.3. segundo. etcétera. .3. además. 1. calificación (excelente. 1. Página 2 de 13 Otras definiciones: Una variable es discreta si sólo puede tomar valores en un conjunto finito. es arbitrario. si puede tomar cualquier valor de un intervalo determinado. aquí existen categorías ordenadas y con igual distancia entre si. 1. tercero).3. el cero sí es real (indica ausencia).3 Interválica: Existen categorías ordenadas y las distancias o diferencias entre las categorías son iguales. 3. es pensar si en su representación gráfica se pierde información al colocar en diferentes posiciones cada una de las categorías.3. 2. evaluación nutricional. donde el valor de 0 °C no indica ausencia de temperatura.4 Razón o Proporción: Es la escala que tiene más información. estrato social (1. pues no indica ausencia.6). Discretas Continuas  Número de huevos  Peso  Sexo  Altura  Número de plantas  Tiempo 1. una ilustración de porque las razones no son posibles se tiene al comparar las temperaturas 20 °C y 40 °C .

gráficos y “medidas de resumen” que son aquellas que representan las características esenciales de los datos en términos fáciles de interpretar. En otras palabras. Ejemplos: estudiantes matriculados en el primer semestre del 2004 (característica temporal) . lo que pasa es que desde el punto de vista del investigador. Se representan por medio de letras latinas.6 Parámetro. es más práctico (facilidades operativas) y si la variable que se quiere medir implica destrucción de la unidad experimental (análisis bromatológicos. basados en información contenida en una muestra de dicha población y se hace a través de dos actividades relacionadas: estimación y prueba de hipótesis. estudiantes del núcleo de minas (característica espacial). organización y resumen de los datos. 1.7 Estadístico o estadígrafo. hacer inferencia estadística es sacar conclusiones válidas acerca de una población de elementos o medidas. en este caso se hablaría de población de pesos. Es cualquier subconjunto de elementos seleccionado de una población. se considera una estimación del parámetro poblacional. se define como el conjunto de individuos poseedores de la característica. 1. de composición. La estadística matemática define una población como el conjunto de todos los valores que puede tomar una variable. 1. lo ideal es que sea un subconjunto representativo de toda la población. aunque dicha estimación puede ser buena o mala. Las razones para trabajar con muestras son: Ahorro de tiempo. 1.8 Estadística descriptiva. Se representan por medio de letras griegas. etcétera.1.4 Población. usando tablas. Ahorro de dinero. Es la rama de la estadística que se dedica a la presentación.5 Muestra. Es cualquier medida de resumen que se calcule a partir de los datos de la muestra.9 Estadística inferencial. . o sea que permita hacer generalizaciones de la misma. Es cualquier medida de resumen que se calcule a partir de los datos de toda la población. 1. pueden ser espaciales o temporales. Las características comunes no son sólo físicas. a un número más grande de individuos. etcétera) el trabajar con muestras evita destruir toda la población. Esta es la parte de la estadística que permite generalizar los resultados obtenidos a partir de los datos de una muestra. Es cualquier conjunto de individuos o elementos que tienen una o más características comunes.

6. 5. 8. 2. Una medida de tendencia central es aquel valor hacia el cual converge la mayoría de los datos.1. 9 Repita con el siguiente conjunto de datos: 3. sirven para resumir la información contenida en un grupo de datos y se dividen en: medidas de tendencia central. Podemos definir la media muestral (estadístico) y la media poblacional (parámetro). 5. medidas de forma y medidas de posición. 8.1. se dice también que es aquel valor que divide el conjunto de datos exactamente a la mitad. la estadística descriptiva se basa en el uso de tres herramientas básicas: medidas de resumen. 4. 6. viene a ser una especie de representante del conjunto de datos.1 MEDIDAS DE TENDENCIA CENTRAL.  i 1 N Tarea: Calcule la media para el siguiente conjunto de datos: 3. Así. es el parámetro. 6. para el siguiente conjunto de datos: 2. 20 Compare los dos valores obtenidos y concluya.1. 2.1 MEDIDAS DE RESUMEN Las medidas de resumen. es un estadístico. 2.2 Mediana: Es el valor central de un conjunto de datos ordenados. como su nombre lo dice. existen varias medidas de tendencia central.1 Media: Es la más famosa de las medidas de tendencia central y se define como el promedio aritmético de todos los datos. 5.1. 6. Así. 20 la mediana es 5 ¿A partir de estos resultados que se puede concluir? . medidas de dispersión. 4. 2.Tarea: Plantear 10 variables que tengan que ver con su carrera y clasificarlas con las tres formas vistas.1. n ___ x i 1 i . 5. 8 la mediana es 5 ¿ Y para el siguiente conjunto de datos? 2. ESTADÍSTICA DESCRIPTIVA. X  n N x i . 2. tablas y gráficos. Como se mencionó antes.

5.3 Moda: El significado estadístico de la palabra moda es similar al que le damos en nuestra sociedad.4 Media ponderada: Es una media donde todas las observaciones no tienen el mismo “peso” o importancia. 6. 5.. Al calcular la mediana de un conjunto de datos siempre se estará en una de dos situaciones: el conjunto de datos es impar o el conjunto de datos es par. 8. es decir.Si se tiene un conjunto de datos par : 2.1. es decir. 7. 5.. 2. 3. 5. 4. 6. pero para ver las fórmulas. X(n) es el estadístico de orden n y correspondería al mayor valor. Existen dos fórmulas que facilitan el cálculo de la mediana cuando se tienen muchos datos. . 4. X(2) es el estadístico de orden 2 y correspondería al segundo menor valor. 8. ¿cuál es la moda? Aquí vemos que no hay moda. un ejemplo clásico es la nota definitiva de una asignatura. después de ordenar todos los datos. primero debemos definir que es un “Estadístico de Orden”. supongamos el caso de un estudiante en un curso cualquiera con las siguientes notas: . 4. .¿qué hacemos? La solución es calcular la media de los dos valores centrales. la media aritmética de los 2 dos estadísticos de orden que aparecen en el numerador.1. 8 En el conjunto de datos: 3. ejemplo: en el siguiente conjunto de datos la moda sería 5: 2. 5. el estadístico de orden (n+1) / 2 2 Si el conjunto es par. . ¿qué es moda? Lo que más se usa. Me = X n 2   X   n 2  1 . a partir de estos tres ejemplos se puede observar que la moda puede o no existir. Nota: “n” es el número de datos evaluados. 6. entonces la moda es simplemente el valor que más se repite. 9 . Me = X  n 1 . 5. 3. Se define el estadístico de orden i-ésimo como el valor que toma la observación i-ésima. 6. 2. Si el conjunto es impar. 5. siempre es un valor observado en el conjunto de datos.1. Un último conjunto de datos: 2. así: X(1) es el estadístico de orden 1 y correspondería al menor valor de todos. puede no ser única y si existe. 5..1.3. ¿cuál es la moda? Se puede apreciar que hay dos modas: 3 y 5.

una aplicación práctica se da cuando se quiere calcular la temperatura media de un día cualquiera. la situación es muy diferente: Explotación Producción Promedio Datos A 4 Ton/ha 4. veamos lo siguiente. por lo tanto calculamos la media ponderada. n __ P *X i 1 i i X p  n = 3. .1. 8 Estos dos conjuntos de datos ponen en evidencia que la medida de tendencia central por sí sola no es suficiente para describir un conjunto de datos. 4 B 4 Ton/ha 0.5 Recorrido Medio: Esta medida de tendencia central se utiliza muy poco.16 P i 1 i 2. 4. de ahí la importancia de utilizar otra medida de resumen que refleje la situación del ejercicio anterior. pues le estaríamos dando el mismo “peso” a cada una de las notas. Antes de continuar con la siguiente medida de resumen. que permite darle “pesos” diferentes a los valores observados. pero si ahora vemos los conjuntos originales.6 Para calcular la nota definitiva no podríamos simplemente calcular la media aritmética de las cuatro notas. TAREA: Analizar para cada una de las escalas de medición que medidas de tendencia central son posibles de aplicar y cuáles no. se tienen dos explotaciones A y B de cualquier producto agrícola: Explotación Producción Promedio A 4 Ton/ha B 4 Ton/ha A simple vista podríamos decir que los conjuntos de datos que dieron origen a estas dos medias son iguales. 4. simplemente consiste en calcular la media aritmética de los valores mayor y menor. Porcentaje (Pi) Nota (Xi) Parcial 1 20% 4.5 Parcial 2 40% 2.1.2 Trabajos 10% 4.1 Parcial 3 30% 3.

En el ejemplo anterior la desviación estándar sería: S = 2. S = Raíz cuadrada de: S2. Así. indican que tan homogéneos o heterogéneos son los datos. ¿qué hacemos? Pues saquemos raíz cuadrada! 2. (verificar el cálculo) ahora. lo cual hace que no tenga una interpretación fácil. S2  n 1 2 N   2 =  x     i 1  i .387 ton / ha.. 9 Donde la varianza es: 5. Podemos definir la varianza muestral (estadístico) y la varianza poblacional (parámetro).2..2. Existe una fórmula operacional que hace mucho más fácil el cálculo de la varianza. MEDIDAS DE DISPERSIÓN. Las medidas de dispersión indican que tan cerca o que tan lejos están los datos de la medida de tendencia central. 6.2 Desviación estándar: simplemente es la raíz cuadrada de la varianza y por lo tanto está dada en las unidades de medida originales y por eso es más utilizada.2.2. es un estadístico. Así.1.. ¿qué es una Ton 2 ? pues este es el problema de la varianza.1 Varianza: Es la más conocida de las medidas de dispersión y su análisis es la base de todos los métodos de estadística inferencial. es el parámetro. . Así. 8. valor que está dado en las unidades de medida originales y por lo tanto es más fácil de entender. está dada en unidades al cuadrado.. que surge de desarrollar y luego simplificar el numerador de la fórmula anterior: 2  n  n 2    xi    xi i 1  i 1 n S2  n 1 Supongamos valores de producción de mango en ton/ha: 3. es un estadístico. Así.  = Raíz cuadrada de: 2.. 5.1. N La diferencia en los dos divisores radica en que el estadístico debe ser un buen estimador del parámetro y dividiendo por (n – 1) se obtiene el mejor estimador de la varianza. 2.1. es el parámetro.. 2 n  ___   i 1  xi  X   .7 Ton2/ha. en otras palabras.. Podemos definir la desviación estándar muestral (estadístico) y la desviación estándar poblacional (parámetro). entonces.

ya sea que éstos tengan o no. la misma unidad de medida. en cuál de ellos hay mayor dispersión? A B Media 10 ton/ha 4 ton/ha D. 2. para hacer esta comparación se podría hacer uso de la siguiente medida de dispersión. Mediana =  x i 1 i n Básicamente es para variables ordinales. no tiene unidades de medida y por lo tanto es muy útil para comparar la dispersión de dos conjuntos de datos. el análisis no puede basarse exclusivamente en la D. se calcula como la diferencia entre los dos valores extremos del conjunto de datos. en general.2.5 ton/ha 2 ton/ha Se podría pensar que el conjunto A tiene una mayor dispersión que el B. S C. por lo tanto simplemente indica la distancia que hay entre el valor menor y el valor mayor.V.1.4 Desviación Mediana: Es una medida de dispersión donde la medida de tendencia central de referencia es la Mediana y se calcula así:   Me n D. E.2. Tarea: Analizar para cada una de las escalas de medición que medidas de dispersión son posibles de aplicar y cuáles no .2. V. lo correcto entonces será calcular la desviación mediana. = _____ *100 X 2. de tal manera que si se desea saber cual de los dos conjuntos tiene una mayor dispersión. 2. debe tener en cuenta también la media.3 Coeficiente de Variación (C. E.1. R: Valor mayor – Valor menor. expresa la desviación estándar como un porcentaje de la media.1. pero debe recordarse la definición de medida de dispersión: es un valor que me indica que tan lejos o cerca se encuentran los datos respecto a la medida de tendencia central..Ejercicio: ¿Se tienen los siguientes conjuntos de datos. 2. cuando se calcule la mediana como medida de tendencia central.): Esta es una medida de dispersión muy utilizada porque es adimensional.5 Recorrido o Rango: Es una medida poco utilizada porque provee de muy poca información.

12.75.2.9.3 MEDIDAS DE FORMA.05. 11.475 9. 2. .Ejercicio: ¿Qué se puede decir de la producción de mango en estas dos fincas? A B Media: 9. se calcula de la siguiente manera:  n  __  3   n      x  x  i  i 1   a =      n  1 n  2    3 S    Donde S es la desviación estándar.05. 6.1 B:0.3.55. Una medida de forma simplemente refleja cual es la forma de los datos al hacer un gráfico de dispersión con ellos.475 D. la media.65. hace falta algo más. 9. veamos la siguiente medida de resumen.26807 Aparentemente son dos conjuntos de datos iguales. E.95. 6. tampoco son suficientes para describir de manera completa un conjunto de datos. 7. 10. 12.1 Coeficiente de Asimetría (a): Indica si un conjunto de datos es simétrico o no respecto a la media. 9. 8.3. 13.4.9. básicamente se puede hablar de tres situaciones (no son las únicas):  Distribución Simétrica: a = 0: Cuando hay simetría perfecta.26807 4.1. pero si vemos los datos originales vamos a encontrar lo siguiente: A: 5.95 Con estos dos conjuntos se hace evidente que una medida de tendencia central junto con una medida de dispersión. 2. 18. 6.85. 4. la mediana y la moda toman el mismo valor. 12.1.

7. la moda < la mediana < la media.6228 a 0 0 Aparentemente son dos conjuntos de datos iguales.475)3 +.3089 = Asimetría negativa o sesgo a la izquierda..85-9.6228 3.1-9.2683] aA = 1.5. aB = [8 / 7*6 ]*[(0.. 12.  Sesgo a la izquierda: a < 0: Cuando hay sesgo a la izquierda.5.5.475)3 / 4.5.05-9. 3. Evaluemos los dos conjuntos de datos anteriores: aA = [ 8 / 7*6 ]*[ (5-9.3089 = Asimetría positiva o sesgo a la derecha.3-9. 8.+(13. 8..5 .. 6. 13. 6.2683] aB = . 10. 4.. 4. Tarea: Verificar los anteriores resultados. la media < la mediana < la moda..5. E. Ejercicio: Qué se puede decir de la producción de mango en estas dos fincas? A B Media: 7 7 D.95-9.5 B: 1. 3. 10.475)3+ (6.475)3 + (6. 7.5. 10.475)3 /4. 6. pero si vemos los datos originales vamos a encontrar lo siguiente: A: 0. +(18..475)3 +.1.  Sesgo a la derecha: a > 0: Cuando hay sesgo a la derecha.. 7.

Con estos dos conjuntos se hace evidente que una medida de tendencia central junto con una medida de dispersión y la medida de asimetría. 2.  n  __  4   n n  1      xi  x    3 n  1 2  i 1    K=          n  1 n  2 n  3    n  2 n  3  4 S     Situaciones posibles: Distribución Mesocurtica: K = 0 Distribución Leptocurtica: K > 0 Distribución Platicurtica: K < 0 . hace falta algo más.3. tampoco son suficientes para describir de manera completa un conjunto de datos.1.2 Coeficiente de Kurtosis o Kurtosis (K): Evalúa como es la concentración de los datos alrededor de la media y de las colas.

se encuentra un determinado valor.1.2 Cuartiles: Son valores que dividen el conjunto de datos en cuatro partes. Recordar.1 Cuantiles: Es la expresión más general de medidas de posición y comprende a todas las otras.  Q1: Primer cuartil: Es el valor por debajo del cual se encuentra el 25% de los datos. Importante: Cuantil “0” = X (1) = El valor Mínimo Cuantil “100” = X (n) = El valor Máximo 2. Primero se debe calcular el valor n*X (Siendo n el número de datos y “X” el cuantil deseado).4 MEDIDAS DE POSICIÓN.. Para el cálculo de los cuantiles vamos a recurrir nuevamente a los estadísticos de orden. lo que traduce: redondee por debajo. a partir del valor hallado se hace lo siguiente: si (nx/100) no es entero. .  Q3: Tercer cuartil: Es el valor por debajo del cual se encuentra el 75% de los datos.4.. [| |] quiere decir menor entero contenido en.4.235 : Leptocúrtica KB: -1. Si (nx/100) es entero. Son medidas que permiten estimar en que punto de la distribución de los datos. entonces el Cuantil X = X ( [| nx/100 |] + 1 ) . 2.1. entonces el Cuantil X = {X (nx/100) + X[(nx/100) + 1] }/ 2. 2.004: Platicúrtica Tarea : Verificar los dos valores de kurtosis anteriores.Evaluemos los dos conjuntos de datos anteriores: KA: 1. el valor que tome el cuantil “X” es el valor que deja por debajo de sí al “X” % de los datos.1.  Q2: Segundo cuartil: Es el valor por debajo del cual se encuentra el 50% de los datos.

. Son los mismos cuantiles.4. ejemplo: Mediana = Q2 = D5 = P50 Tarea: Calcular todas las anteriores medidas de resumen para describir dos conjuntos de datos que ustedes mismos pueden inventar.  D1: Decil uno: Es el valor por debajo del cual está el 10% de los datos. P1: Percentil uno: Es el valor por debajo del cual está el 1% de los datos. 2.1.4. P2: Percentil dos: Es el valor por debajo del cual está el 2% de los datos.1. Tarea: Hallar equivalencias entre las diferentes medidas de posición.4 Percentiles: Son los valores que dividen la información en centésimas.3 Deciles: Son valores que dividen el conjunto de datos en diez partes. 2. o sea en 100 partes.  D2: Decil dos: Es el valor por debajo del cual está el 20% de los datos.