Professional Documents
Culture Documents
Estadística Descriptiva
Santiago, 2014
Apunte Facultad de Economía y Negocios
Universidad de Chile
Contenido
1
Apunte Facultad de Economía y Negocios
Universidad de Chile
¿Qué es la estadística?
La estadística es el área de las matemáticas que permite recoger, organizar, resumir, presentar y
analizar datos sobre fenómenos y procesos. Pero, el trabajo del especialista en estadística no
consiste sólo en reunir y tabular los datos, sino sobre todo en el proceso de interpretación de esa
información para obtener conclusiones y tomar decisiones basadas en esos análisis. Su aplicación
es muy amplia, por ejemplo, en la interpretación de fenómenos físicos, meteorológicos, biológicos,
de las ciencias sociales y de las organizaciones.
Algunos Conceptos
El mundo presenta una enorme variabilidad. Por ejemplo, los seres vivos son distintos entre sí, y
aportan diversidad a la población. Muchas son las características que pueden variar entre
individuos (en el ser humano: altura, color de pelo, sexo, edad, respuesta a tratamientos, entre
muchos otros). Se las llama variables y se las puede clasificar como se indica en la siguiente tabla:
Variables cualitativas Nominales: Sus valores no se pueden ordenar. Por ejemplo: sexo (F o
No se pueden medir M), grupo sanguíneo (A, B, AB, 0, entre otros), religión, nacionalidad,
numéricamente. No etc.
permiten realizar Ordinales: Sus valores se pueden ordenar. Por ejemplo: mejoría de
operaciones algebraicas. un paciente ante un tratamiento (muy mejorado, moderado, poco
Pueden ser nominales u mejorado, sin mejoras), grado de satisfacción (muy, medianamente,
ordinales. poco, nada satisfecho), intensidad del dolor, etc.
Variables cuantitativas Discretas: sólo pueden tomar valores enteros (1, 2, 25, -12, etc.). Por
Tienen valor numérico ejemplo: número de hijos (puede ser 1, 2, 3, etc., pero nunca podrá
(edad, altura, ingresos ser 3,5).
mensuales). Se pueden Continuas: pueden tomar cualquier valor real dentro de un intervalo.
clasificar en discretas y Por ejemplo, la altura de las personas puede ser 1,65 m; 1,70 m; 1,90
continuas. m; etc.
La estadística se aplica sobre la variabilidad, y se puede utilizar de dos maneras:
2
Apunte Facultad de Economía y Negocios
Universidad de Chile
Cuando se estudia el comportamiento de una variable en una población (conjunto sobre el que se
desea obtener conclusiones o hacer inferencias) hay que tener en cuenta que ésta normalmente
es demasiado grande para poder abarcarla. Entonces, se toma una muestra formada por
miembros “seleccionados” de la población (individuos o unidades experimentales) y que es
suficientemente representativa (en cantidad y diversidad).
a) Población, o conjunto de todos los elementos cuyo estudio nos interesa. Si se dispone de datos
de una o más variables sobre la población completa, o se puede acceder a ellos, la estadística
tendrá como misión que la información recogida sea adecuada, se ordene, se estructure y se
resuma dichos datos para su mejor comprensión, es decir, que se describan. Ello nos llevará a
hablar de Estadística Descriptiva. Por ejemplo, el conjunto de los varones mayores de 65 años y
residentes en una provincia sería una población.
b) Muestra, o conjunto de elementos de los que efectivamente se dispone de datos, y que es una
parte (a menudo pequeña) de la población. Cuando no se puede acceder a los datos de toda la
población, que es lo más frecuente, y se debe trabajar con sólo los de la muestra, a la simple
descripción de los datos se añade el interés por valorar hasta qué punto los resultados de la
muestra son extrapolables o generalizables a la población; en consecuencia, será necesario utilizar
no sólo las técnicas de la Estadística Descriptiva, siempre obligadas en todo caso para la
comprensión de los resultados, sino también otras que permiten inferir afirmaciones sobre la
población a partir de los datos de la muestra y que constituyen la Estadística Inferencial o
Inferencia Estadística. Por ejemplo, el grupo de los varones mayores de 65 años y residentes en
una provincia que son usuarios de bibliotecas públicas sería una muestra de la población citada en
el párrafo anterior (otra cosa es que la muestra fuese o no representativa del conjunto de tal
población).
3
Apunte Facultad de Economía y Negocios
Universidad de Chile
1) Datos sin agrupar: cada dato corresponde a una unidad por si sólo
2) Datos agrupados: los datos son agrupados en un rango. Este tipo de análisis se utiliza
cuando hay mucha heterogeneidad en los datos.
Distribuciones de frecuencias
Cuando se toman datos de una muestra, éstos son inicialmente compilados en bases de datos
(tablas de frecuencias), para luego ser presentados en forma gráfica. Esto ayuda a visualizar e
interpretar la variación de los datos.
Frecuencia absoluta es el número de veces que una modalidad o un valor de una variable aparece
entre los datos de una muestra; si en una muestra de la variable “nivel de estudios” aparecen 148
personas con nivel de estudios “superiores”, diremos que 148 es la frecuencia absoluta de la
modalidad “superiores”. Naturalmente, el número total de datos es n y, por tanto, la suma de las
frecuencias absolutas de todas las modalidades o valores debe ser igual al tamaño muestral n.
Frecuencia relativa de una modalidad o valor de una variable es su frecuencia absoluta dividida
entre el tamaño muestral, es decir, la proporción de veces que aparece esa modalidad o valor
entre todos los datos de la muestra; si la frecuencia absoluta 148 del ejemplo anterior
corresponde a una muestra de 2000 personas, diremos que la frecuencia relativa de la modalidad
AB es 148/2000 = 0.074. Es claro que la suma de las frecuencias relativas de todas las modalidades
o valores debe ser 1, ya que las absolutas suman n y estamos dividiendo entre n. Es muy habitual
expresar las frecuencias relativas como porcentajes (multiplicándolas por cien) y entonces la
frecuencia relativa del ejemplo sería 7.4 % y la condición de la suma sería que deben sumar 100 %,
lo que se entiende mejor (la frecuencia relativa es la parte del total de datos que corresponde a
cada valor o modalidad).
Las frecuencias absolutas y relativas son aplicables a cualquier tipo de variable, y de ahí su
importancia; además, pese a su simplicidad, dan lugar a conceptos muy importantes, como el de
proporción, y son la base sobre la que se construye cualquier resumen de los datos.
Usando como ejemplo el grupo sanguíneo en una muestra de doscientas personas, la tabla
siguiente sirve para resumir lo que, si no, sería una tediosa lista de doscientos grupos sanguíneos:
4
Apunte Facultad de Economía y Negocios
Universidad de Chile
En este segundo ejemplo, cuya tabla se encuentra a continuación, el número n de datos es 500 y la
variable toma seis valores distintos (0,1,2,3,4 y 5) en la muestra. No se deben confundir los valores
de la variable, que son el número de visitas (ninguna, una, dos, etc.) de cada persona a la
biblioteca en ese mes, con las frecuencias absolutas, que son el número de personas cuyo número
de visitas es uno determinado: que 210 sea la frecuencia absoluta del valor 0 quiere decir que de
entre las 500 personas consideradas en el estudio 210 no han ido ninguna vez a la biblioteca en
ese mes, es decir, que el valor de la variable es "cero" para ellas; esta frecuencia absoluta 210
supone el 42% de 500, por lo que 0.42 ó 42% es la frecuencia relativa del valor 0 de la variable.
5
Apunte Facultad de Economía y Negocios
Universidad de Chile
X1 n1 n1 f1 = n1 / n f1
X2 n2 n1 + n2 f2 = n2 / n f1 + f2
Xn nn ∑n fn = nn / n ∑f
Tipos de gráficos
6
Apunte Facultad de Economía y Negocios
Universidad de Chile
Recuento
300
200
100
0
1 2 3 4 5 6
Nº de hijos
Histograma
7
Apunte Facultad de Economía y Negocios
Universidad de Chile
Si los datos son una muestra, el promedio y la mediana se llamarán estadísticas. Si los datos son
una población entonces estas medidas de tendencia central se llamarán parámetros.
Una estadística es una medida descriptiva numérica calculada a partir de datos de una muestra
Un parámetro es una medida descriptiva numérica que usa la totalidad de las unidades de una
población
Expresada de forma más intuitiva, podemos decir que la media aritmética es la cantidad total de la
variable distribuida a partes iguales entre cada observación.
Por ejemplo, si en una habitación hay tres personas, la media de dinero que tienen en sus bolsillos
sería el resultado de tomar todo el dinero de los tres y dividirlo a partes iguales entre cada uno de
ellos. Es decir, la media es una forma de resumir la información de una distribución (dinero en el
bolsillo) suponiendo que cada observación (persona) tendría la misma cantidad de la variable.
x i
x1 x2 xn
x i 1
n n
Ejemplo:
45 41 51 46 47 45 37
43,35 años
20
8
Apunte Facultad de Economía y Negocios
Universidad de Chile
Mean =2
Mean =2.5
9
Apunte Facultad de Economía y Negocios
Universidad de Chile
Mediana
La mediana de un conjunto de n observaciones, ordenadas de menor a mayor, es un valor tal que
la mitad de las observaciones son menores o iguales que tal valor y la mitad de las observaciones
son mayores o iguales que ese valor.
Ejemplo:
Se calcula (n+1)/2 obtenemos (20+1)/2 = 10,5. Entonces las observaciones del medio son la
décima y undécima observaciones, es decir 43 y 44. La mediana es el promedio de estas dos
observaciones, (43+44)/2=43,5 años.
32 37 39 40 41 41 41 42 42 43 44 45 45 45 46 47 47 49 50 51
Moda
Observación o clase que tiene la mayor frecuencia en un conjunto de observaciones.
Un conjunto de datos puede ser unimodal, bimodal o multimodal.
Es la única medida de tendencia central que se puede determinar para datos de tipo cualitativo.
Ejemplos:
- La moda de los valores: {0, 0, 0, 0, 1, 1, 2, 2, 3, 4} es 0
- {0, 0, 0, 1, 1, 2, 2, 2, 3, 4} dos modas, 0 y 2 (bimodal)
La Moda no se usa a menudo como medida de tendencia central para datos cuantitativos. Sin
embargo la Moda es LA medida de tendencia central que puede ser calculada en datos
cualitativos.
10
Apunte Facultad de Economía y Negocios
Universidad de Chile
El famoso trío (promedio, mediana y moda) representan tres métodos diferentes para encontrar
EL valor del “centro”. Estos tres valores pueden ser un mismo valor pero a menudo son distintos.
Cuando son distintos, pueden servir para diferentes interpretaciones de los datos que queremos
resumir.
Es una medida de dispersión absoluta, ya que depende solamente de los datos y permite conocer
la máxima dispersión.
11
Apunte Facultad de Economía y Negocios
Universidad de Chile
Desviación Estándar
Es una medida de la dispersión de las observaciones a la media. Es un “promedio de la distancia
de las observaciones a la media”.
Ejemplo
deviation = -4
deviation =1
deviation = 3
0 1 2 3 4 5 6 7
mean=4
12
Apunte Facultad de Economía y Negocios
Universidad de Chile
x x x x x 2
0 0–4=-4 16
5 5–4= 1 1
7 7–4= 3 9
Ejemplo:
Hallar la desviación media de la siguiente distribución de frecuencias
Solución
13
Apunte Facultad de Economía y Negocios
Universidad de Chile
Varianza
La varianza mide la mayor o menor dispersión de los valores de la variable respecto a la media
aritmética. Cuanto mayor sea la varianza mayor dispersión existirá y por tanto, menor
representatividad tendrá la media aritmética. La varianza se expresa en las mismas unidades que
la variable analizada, pero elevadas al cuadrado.
Ejemplo
Hallar la desviación estándar y la varianza de la siguiente serie de datos: 10, 18, 15, 12, 3, 6, 5, 7
Solución
14
Apunte Facultad de Economía y Negocios
Universidad de Chile
Los cuartiles, que definen las cuartas partes de la muestra mediante tres “cortes”: el primer cuartil
deja por debajo al 25% de la distribución, el segundo coincide con la mediana y el tercero deja por
debajo al 75% de la distribución. No tienen mucho sentido en muestras pequeñas, pero en nuestro
ejemplo valdrían respectivamente 0, 1 y 3.5 (que están situados en las posiciones “tercera y
media”, séptima y “décima y media” de los datos ordenados).
Los deciles, que dan nueve cortes para definir de diez en diez por ciento los valores de la
distribución; así, el primer decil deja por debajo una décima parte de la distribución, el segundo
dos décimas partes, etc., hasta nueve deciles.
Los percentiles, que son como los decíles pero de uno en uno por ciento, y por tanto son noventa
y nueve; por ejemplo, el percentil 37 deja por debajo al 37% de la distribución, y está claro que no
tienen sentido en muestras tan pequeñas como la de nuestro ejemplo, ya que trece elementos no
se pueden “partir” en cien partes.
Todos los cuantiles son definibles sobre variables cuantitativas o sobre cualitativas ordinales,
porque requieren siempre que los datos estén ordenados.
Los cuantiles más próximos al percentil 50, como la propia mediana o los cercanos a ella, pueden
considerarse como parámetros de centralización y sin embargo los más lejanos al centro ayudan a
medir la dispersión; por ejemplo, si restamos el tercer cuartil menos el primero obtenemos el
rango intercuartílico, que es una medida de dispersión. Con el rango intercuartílico estamos
midiendo la extensión que nos cubre la mitad central de nuestros datos; recuérdese que el RANGO
era la extensión cubierta por toda la muestra ordenada (se define como máximo menos mínimo),
mientras que el rango intercuartilico es la extensión cubierta por la mitad central de los datos
ordenados, excluyendo la cuarta parte inicial (los que son inferiores al primer cuartil) y la cuarta
parte final (los que son superiores al tercer cuartil).
15
Apunte Facultad de Economía y Negocios
Universidad de Chile
Diagrama de dispersión
La distribución conjunta de dos variables puede expresarse gráficamente mediante un diagrama
de dispersión: en un plano se representa cada elemento observado haciendo que sus coordenadas
sobre los ejes cartesianos sean los valores que toman las dos variables para esa observación.
Ejemplo.
La siguiente tabla muestra los datos correspondientes a un conjunto de diez pares de
observaciones de estaturas de padres e hijos:
Solución
El diagrama de dispersión de ese grupo de datos es:
16
Apunte Facultad de Economía y Negocios
Universidad de Chile
Por supuesto que diferentes conjuntos de datos ofrecerán diagramas diferentes. Sin embargo, se
pueden considerar cuatros tipos de diagramas de dispersión, que son los más típicos:
1. Relación tal que al aumentar los valores de la variable independiente aumenta (en promedio) el
valor de la variable dependiente. Cuando esto ocurre hay una relación lineal positiva.
2. Relación tal que al aumentar los valores de la variable independiente se reduce (en promedio) el
valor de la variable dependiente. Cuando esto ocurre hay una relación lineal negativa.
3. No hay relación entre ambas variables. Esto significa que las variables son independientes.
17
Apunte Facultad de Economía y Negocios
Universidad de Chile
Covarianza
La covarianza es una medida de la asociación lineal entre dos variables que resume la información
existente en un gráfico de dispersión. Es un indicador de si los valores están relacionados entre sí,
se simboliza por σxy y se calcula por medio de:
Esta medida, refleja la relación lineal que existe entre dos variables. El resultado numérico fluctúa
entre los rangos de [−∞,∞]. Al no tener unos límites establecidos no puede determinarse el grado
de relación lineal que existe entre las dos variables, sólo es posible ver la tendencia.
• Una covarianza positiva significa que existe una relación lineal positiva entre las dos
variables. Es decir, los valores bajos de la variable x se asocian con los valores bajos de la
variable y , mientras los valores altos de x se asocian con los valores altos de la variable y .
• Una covarianza de negativa significa que existe una relación lineal inversa (negativa) entre
las dos variables. Lo que significa que los valores bajos en x se asocian con los valores altos
en y, mientras los valores altos en x se asocian con los valores bajos en y .
• Una covarianza de cero se interpreta como la no existencia de una relación lineal entre las
dos variables estudiadas.
Ejemplo
Dada la tabla de estaturas de 10 padres y 10 hijos, calcular su covarianza e interpretarla.
18
Apunte Facultad de Economía y Negocios
Universidad de Chile
Solución
Correlación
Es frecuente que se estudie sobre una misma población los valores de dos variables estadísticas
distintas, con el fin de ver si existe alguna relación entre ellas, es decir, si los cambios en una de
ellas influyen en los valores de la otra. Si ocurre esto se dice que las variables están
correlacionadas o bien que hay correlación entre ellas.
Ejemplo
Las calificaciones de 10 alumnos en Matemáticas y Física vienen dadas en la siguiente tabla:
Los pares de valores { (2,2), (4,2), (5,5), …, (8,7), (9,10) }, forman la distribución bidimensional en
la que hay cierta tendencia a que cuanto mejor es la calificación en Matemáticas, mejor es la de
Física.
Representando los pares de valores en el plano cartesiano se obtiene su diagrama de dispersión:
19
Apunte Facultad de Economía y Negocios
Universidad de Chile
Cuando se puede apreciar si los puntos se distribuyen alrededor de una recta entonces se dice que
hay correlación lineal. Una correlación lineal fuerte es cuando la nube (conjunto de puntos) se
parece mucho a una recta y será cada vez más débil (o menos fuerte) cuando la nube vaya
diseminándose con respecto a la recta.
En el ejemplo se aprecia que la correlación es bastante fuerte, ya que si se traza una recta, ésta se
ubica muy próxima a los puntos de la nube.
La correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Se
considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas
varían sistemáticamente con respecto a los valores homónimos de la otra: si se tienen dos
variables (x e y) existe correlación si al aumentar los valores de x lo hacen también los de y y
viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de
causalidad
La relación entre dos variables cuantitativas queda representada mediante la línea de mejor
ajuste, trazada a partir de la nube de puntos. Los tres principales componentes elementales de
una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma:
20
Apunte Facultad de Economía y Negocios
Universidad de Chile
1. La fuerza mide el grado en que la línea representa a la nube de puntos: si la nube es estrecha y
alargada, se representa por una línea recta, lo que indica que la relación es fuerte; si la nube de
puntos tiene una tendencia elíptica o circular, la relación es débil.
2. El sentido mide la variación de los valores de y con respecto a x: si al crecer los valores de x lo
hacen los de y , la relación es positiva; si al crecer los valores de x disminuyen los de y , la relación
es negativa.
3. La forma establece el tipo de línea que define el mejor ajuste: la línea recta, cuadrática,
polinomial, etc
Correlación de Pearson
La apreciación visual de la existencia de correlación no es suficiente. Así que se define como
coeficiente de correlación de Pearson al índice estadístico que mide la relación lineal entre dos
variables cuantitativas. Se denota por r:
Este coeficiente de correlación lineal divide la covarianza por el producto de las desviaciones
estándar de ambas variables. A diferencia de la covarianza, la correlación de Pearson es
independiente de la escala de medida de las variables.
El valor del índice de correlación varía en el intervalo [-1, 1] y se interpreta de la siguiente forma:
• Si r = 0, no existe ninguna correlación. El índice indica, por lo tanto, una independencia total
entre las dos variables, es decir, que la variación de una de ellas no influye en absoluto en el valor
que pueda tomar la otra.
• Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las
dos variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace
en idéntica proporción.
• Si 0 < r < 1, existe una correlación positiva.
• Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las
dos variables llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en idéntica
proporción.
• Si -1 < r < 0, existe una correlación negativa.
21
Apunte Facultad de Economía y Negocios
Universidad de Chile
Ejemplo
Obtener la correlación que existe entre la estatura y el peso de 10 jugadores de un equipo fútbol
americano.
Solución
22
Apunte Facultad de Economía y Negocios
Universidad de Chile
23