You are on page 1of 24

Apunte

Estadística Descriptiva

Santiago, 2014
Apunte Facultad de Economía y Negocios
Universidad de Chile

Contenido

¿Qué es la estadística? .......................................................................................................................2


Algunos Conceptos .............................................................................................................................2
Distribuciones de frecuencias ............................................................................................................4
Tipos de gráficos ................................................................................................................................6
Gráficos para variables cualitativas ................................................................................................6
Gráficos para variables numéricas .................................................................................................7
Medidas de tendencia central ............................................................................................................8
Media Aritmética (Promedio).............................................................................................................8
Mediana ...........................................................................................................................................10
Moda ................................................................................................................................................10
¿Cuál medida es mejor? ...................................................................................................................11
Rango (amplitud o recorrido) ...........................................................................................................11
Desviación Estándar .........................................................................................................................12
Varianza ...........................................................................................................................................14
Cuantiles o parámetros de posición .................................................................................................15
Análisis descriptivo de datos ............................................................................................................16
Diagrama de dispersión ................................................................................................................16
Covarianza ........................................................................................................................................18
Correlación .......................................................................................................................................19
Correlación de Pearson ....................................................................................................................21

1
Apunte Facultad de Economía y Negocios
Universidad de Chile

¿Qué es la estadística?
La estadística es el área de las matemáticas que permite recoger, organizar, resumir, presentar y
analizar datos sobre fenómenos y procesos. Pero, el trabajo del especialista en estadística no
consiste sólo en reunir y tabular los datos, sino sobre todo en el proceso de interpretación de esa
información para obtener conclusiones y tomar decisiones basadas en esos análisis. Su aplicación
es muy amplia, por ejemplo, en la interpretación de fenómenos físicos, meteorológicos, biológicos,
de las ciencias sociales y de las organizaciones.

Algunos Conceptos
El mundo presenta una enorme variabilidad. Por ejemplo, los seres vivos son distintos entre sí, y
aportan diversidad a la población. Muchas son las características que pueden variar entre
individuos (en el ser humano: altura, color de pelo, sexo, edad, respuesta a tratamientos, entre
muchos otros). Se las llama variables y se las puede clasificar como se indica en la siguiente tabla:

Variables cualitativas Nominales: Sus valores no se pueden ordenar. Por ejemplo: sexo (F o
No se pueden medir M), grupo sanguíneo (A, B, AB, 0, entre otros), religión, nacionalidad,
numéricamente. No etc.
permiten realizar Ordinales: Sus valores se pueden ordenar. Por ejemplo: mejoría de
operaciones algebraicas. un paciente ante un tratamiento (muy mejorado, moderado, poco
Pueden ser nominales u mejorado, sin mejoras), grado de satisfacción (muy, medianamente,
ordinales. poco, nada satisfecho), intensidad del dolor, etc.
Variables cuantitativas Discretas: sólo pueden tomar valores enteros (1, 2, 25, -12, etc.). Por
Tienen valor numérico ejemplo: número de hijos (puede ser 1, 2, 3, etc., pero nunca podrá
(edad, altura, ingresos ser 3,5).
mensuales). Se pueden Continuas: pueden tomar cualquier valor real dentro de un intervalo.
clasificar en discretas y Por ejemplo, la altura de las personas puede ser 1,65 m; 1,70 m; 1,90
continuas. m; etc.
La estadística se aplica sobre la variabilidad, y se puede utilizar de dos maneras:

2
Apunte Facultad de Economía y Negocios
Universidad de Chile

Cuando se estudia el comportamiento de una variable en una población (conjunto sobre el que se
desea obtener conclusiones o hacer inferencias) hay que tener en cuenta que ésta normalmente
es demasiado grande para poder abarcarla. Entonces, se toma una muestra formada por
miembros “seleccionados” de la población (individuos o unidades experimentales) y que es
suficientemente representativa (en cantidad y diversidad).

a) Población, o conjunto de todos los elementos cuyo estudio nos interesa. Si se dispone de datos
de una o más variables sobre la población completa, o se puede acceder a ellos, la estadística
tendrá como misión que la información recogida sea adecuada, se ordene, se estructure y se
resuma dichos datos para su mejor comprensión, es decir, que se describan. Ello nos llevará a
hablar de Estadística Descriptiva. Por ejemplo, el conjunto de los varones mayores de 65 años y
residentes en una provincia sería una población.

b) Muestra, o conjunto de elementos de los que efectivamente se dispone de datos, y que es una
parte (a menudo pequeña) de la población. Cuando no se puede acceder a los datos de toda la
población, que es lo más frecuente, y se debe trabajar con sólo los de la muestra, a la simple
descripción de los datos se añade el interés por valorar hasta qué punto los resultados de la
muestra son extrapolables o generalizables a la población; en consecuencia, será necesario utilizar
no sólo las técnicas de la Estadística Descriptiva, siempre obligadas en todo caso para la
comprensión de los resultados, sino también otras que permiten inferir afirmaciones sobre la
población a partir de los datos de la muestra y que constituyen la Estadística Inferencial o
Inferencia Estadística. Por ejemplo, el grupo de los varones mayores de 65 años y residentes en
una provincia que son usuarios de bibliotecas públicas sería una muestra de la población citada en
el párrafo anterior (otra cosa es que la muestra fuese o no representativa del conjunto de tal
población).

3
Apunte Facultad de Economía y Negocios
Universidad de Chile

Los datos pueden ser tratados de dos maneras:

1) Datos sin agrupar: cada dato corresponde a una unidad por si sólo

2) Datos agrupados: los datos son agrupados en un rango. Este tipo de análisis se utiliza
cuando hay mucha heterogeneidad en los datos.

Este apunte se centra en las estadísticas de datos sin agrupar.

Distribuciones de frecuencias
Cuando se toman datos de una muestra, éstos son inicialmente compilados en bases de datos
(tablas de frecuencias), para luego ser presentados en forma gráfica. Esto ayuda a visualizar e
interpretar la variación de los datos.

Frecuencia absoluta es el número de veces que una modalidad o un valor de una variable aparece
entre los datos de una muestra; si en una muestra de la variable “nivel de estudios” aparecen 148
personas con nivel de estudios “superiores”, diremos que 148 es la frecuencia absoluta de la
modalidad “superiores”. Naturalmente, el número total de datos es n y, por tanto, la suma de las
frecuencias absolutas de todas las modalidades o valores debe ser igual al tamaño muestral n.

Frecuencia relativa de una modalidad o valor de una variable es su frecuencia absoluta dividida
entre el tamaño muestral, es decir, la proporción de veces que aparece esa modalidad o valor
entre todos los datos de la muestra; si la frecuencia absoluta 148 del ejemplo anterior
corresponde a una muestra de 2000 personas, diremos que la frecuencia relativa de la modalidad
AB es 148/2000 = 0.074. Es claro que la suma de las frecuencias relativas de todas las modalidades
o valores debe ser 1, ya que las absolutas suman n y estamos dividiendo entre n. Es muy habitual
expresar las frecuencias relativas como porcentajes (multiplicándolas por cien) y entonces la
frecuencia relativa del ejemplo sería 7.4 % y la condición de la suma sería que deben sumar 100 %,
lo que se entiende mejor (la frecuencia relativa es la parte del total de datos que corresponde a
cada valor o modalidad).

Las frecuencias absolutas y relativas son aplicables a cualquier tipo de variable, y de ahí su
importancia; además, pese a su simplicidad, dan lugar a conceptos muy importantes, como el de
proporción, y son la base sobre la que se construye cualquier resumen de los datos.

Usando como ejemplo el grupo sanguíneo en una muestra de doscientas personas, la tabla
siguiente sirve para resumir lo que, si no, sería una tediosa lista de doscientos grupos sanguíneos:

4
Apunte Facultad de Economía y Negocios
Universidad de Chile

En este segundo ejemplo, cuya tabla se encuentra a continuación, el número n de datos es 500 y la
variable toma seis valores distintos (0,1,2,3,4 y 5) en la muestra. No se deben confundir los valores
de la variable, que son el número de visitas (ninguna, una, dos, etc.) de cada persona a la
biblioteca en ese mes, con las frecuencias absolutas, que son el número de personas cuyo número
de visitas es uno determinado: que 210 sea la frecuencia absoluta del valor 0 quiere decir que de
entre las 500 personas consideradas en el estudio 210 no han ido ninguna vez a la biblioteca en
ese mes, es decir, que el valor de la variable es "cero" para ellas; esta frecuencia absoluta 210
supone el 42% de 500, por lo que 0.42 ó 42% es la frecuencia relativa del valor 0 de la variable.

5
Apunte Facultad de Economía y Negocios
Universidad de Chile

Una tabla que resume lo siguiente es:

Variable Frecuencias absolutas Frecuencias relativas

(Valor) Simple Acumulada Simple Acumulada

X1 n1 n1 f1 = n1 / n f1

X2 n2 n1 + n2 f2 = n2 / n f1 + f2

... ... ... ... ...

Xn-1 nn-1 n1 + n2 +..+ nn-1 fn-1 = nn-1 / n f1 + f2 +..+fn-1

Xn nn ∑n fn = nn / n ∑f

Tipos de gráficos

Gráficos para variables cualitativas


Diagramas de barras: se representan en el eje
de ordenadas (X) las opciones de las variables,
y en abscisas (Y) las frecuencias absolutas o
relativas.
Por ejemplo: el porcentaje de personas que
pertenecen a los distintos grupos sanguíneos
son: B: 7%; A: 44%; AB: 3%; 0: 46%.

Diagramas de sectores (también llamados


tortas): Se divide un círculo en tantas porciones 3% 7%
como opciones de las variables existan, de A
modo que a cada opción le corresponde un 44%
0
arco de círculo proporcional a su frecuencia 46%
absoluta o relativa.

6
Apunte Facultad de Economía y Negocios
Universidad de Chile

Gráficos para variables numéricas


Diagramas de barras para variables discretas:
Se deja un hueco entre barras para indicar los
valores que no son posibles (por ejemplo,
números decimales de hijos) 500
400

Recuento
300
200
100
0
1 2 3 4 5 6
Nº de hijos

El histograma o histograma de rectángulos, es la gráfica adecuada para representar variables


cuantitativas continuas. Estas variables cubren teóricamente con sus valores a la recta de los
números reales, o al menos de un cierto intervalo, de manera que “infinitamente” junto a un valor
se encontraría otro y no se producen “saltos” entre ellos. En la práctica, esto se traduce en que
casi siempre se maneja un gran número de valores distintos y ello hace poco adecuado para estas
variables un diagrama de segmentos; por ello, y para respetar la continuidad de la variable, lo que
se hace es agrupar los valores en intervalos y gráficamente se representan rectángulos
yuxtapuestos cuyas bases descansan sobre la horizontal y cuyas alturas son tales que el área de
cada rectángulo sea proporcional a la frecuencia de cada intervalo. A veces estos histogramas son
llamados erróneamente diagramas de barras.

Histograma

7
Apunte Facultad de Economía y Negocios
Universidad de Chile

Medidas de tendencia central


Las medidas de tendencia central son valores numéricos que quieren mostrar el centro de un
conjunto de datos.

Si los datos son una muestra, el promedio y la mediana se llamarán estadísticas. Si los datos son
una población entonces estas medidas de tendencia central se llamarán parámetros.

Una estadística es una medida descriptiva numérica calculada a partir de datos de una muestra
Un parámetro es una medida descriptiva numérica que usa la totalidad de las unidades de una
población

Media Aritmética (Promedio)


Es la suma de todas las observaciones dividida entre el número total de observaciones.

Expresada de forma más intuitiva, podemos decir que la media aritmética es la cantidad total de la
variable distribuida a partes iguales entre cada observación.

Por ejemplo, si en una habitación hay tres personas, la media de dinero que tienen en sus bolsillos
sería el resultado de tomar todo el dinero de los tres y dividirlo a partes iguales entre cada uno de
ellos. Es decir, la media es una forma de resumir la información de una distribución (dinero en el
bolsillo) suponiendo que cada observación (persona) tendría la misma cantidad de la variable.

x i
x1  x2    xn
x i 1

n n
Ejemplo:

Promedio de edad de los 20 sujetos en el estudio médico:

Sumar las 20 edades y divida por 20:

45  41  51  46  47    45  37
 43,35 años
20

8
Apunte Facultad de Economía y Negocios
Universidad de Chile

Es importante tener en consideración que:

Un promedio NO es siempre representativo, debido a que se ve fuertemente influido por los


valores extremos de la muestra. Si por ejemplo se tiene un alumno que tiene notas 1, 4 y 7 su
promedio de notas será 4.

El promedio también se define como el punto de equilibrio, el


punto donde distribución se balancea.

Si la distribución es simétrica, el promedio será exactamente el


1 2 3
centro de la distribución.

Mean =2

Si la observación más grande se mueve a la derecha, el


promedio se mueve con la observación extrema
1 2 5

Mean =2.5

Si la distribución es sesgada, vamos a querer usar una


medida que sea más resistente para mostrar el centro. La
medida de tendencia central que es más resistente a los
1 2 11 valores extremos es la mediana.
Mean =4

9
Apunte Facultad de Economía y Negocios
Universidad de Chile

Mediana
La mediana de un conjunto de n observaciones, ordenadas de menor a mayor, es un valor tal que
la mitad de las observaciones son menores o iguales que tal valor y la mitad de las observaciones
son mayores o iguales que ese valor.

Pasos para encontrar la mediana:

1. Ordenar los datos de menor a mayor;


2. Calcular la posición de la mediana: (n+1)/2, donde n es el número de observaciones
3. a)Si el número de observaciones es impar, la mediana es la observación del medio.
b)Si el número de observaciones es par, la mediana es el promedio de las dos
observaciones del medio

Ejemplo:

Edades de n=20 sujetos...

Se calcula (n+1)/2 obtenemos (20+1)/2 = 10,5. Entonces las observaciones del medio son la
décima y undécima observaciones, es decir 43 y 44. La mediana es el promedio de estas dos
observaciones, (43+44)/2=43,5 años.

32 37 39 40 41 41 41 42 42 43 44 45 45 45 46 47 47 49 50 51

Moda
Observación o clase que tiene la mayor frecuencia en un conjunto de observaciones.
Un conjunto de datos puede ser unimodal, bimodal o multimodal.
Es la única medida de tendencia central que se puede determinar para datos de tipo cualitativo.

Ejemplos:
- La moda de los valores: {0, 0, 0, 0, 1, 1, 2, 2, 3, 4} es 0
- {0, 0, 0, 1, 1, 2, 2, 2, 3, 4} dos modas, 0 y 2 (bimodal)

La Moda no se usa a menudo como medida de tendencia central para datos cuantitativos. Sin
embargo la Moda es LA medida de tendencia central que puede ser calculada en datos
cualitativos.

10
Apunte Facultad de Economía y Negocios
Universidad de Chile

¿Cuál medida es mejor?


Diferentes medidas pueden dar diferentes impresiones

El famoso trío (promedio, mediana y moda) representan tres métodos diferentes para encontrar
EL valor del “centro”. Estos tres valores pueden ser un mismo valor pero a menudo son distintos.
Cuando son distintos, pueden servir para diferentes interpretaciones de los datos que queremos
resumir.

Rango (amplitud o recorrido)


Está determinado por los dos valores extremos de los datos muestrales, es simplemente la
diferencia entre la mayor y menor observación.

Es una medida de dispersión absoluta, ya que depende solamente de los datos y permite conocer
la máxima dispersión.

Casi no se emplea debido a que depende únicamente de dos valores.

No proporciona una medida de variabilidad de las observaciones con respecto al centro de la


distribución.

Rango = máximo – mínimo

11
Apunte Facultad de Economía y Negocios
Universidad de Chile

Algunas características del rango son:

1. A medida que el rango es menor, el grado de representatividad de los valores centrales se


incrementa.
2. A medida que el rango es mayor, la distribución está menos concentrada o más dispersa.
3. Su cálculo es extremadamente sencillo.
4. Tiene gran aplicación en procesos de control de calidad.
5. Tiene el inconveniente de que sólo depende de los valores extremos. De esta forma basta que
uno de ellos se separe mucho para que el recorrido se vea sensiblemente afectado.

Desviación Estándar
Es una medida de la dispersión de las observaciones a la media. Es un “promedio de la distancia
de las observaciones a la media”.

Ejemplo

deviation = -4
deviation =1
deviation = 3

0 1 2 3 4 5 6 7
mean=4

12
Apunte Facultad de Economía y Negocios
Universidad de Chile

Observación Desviación Desviación al cuadrado

x x x  x  x 2

0 0–4=-4 16

5 5–4= 1 1

7 7–4= 3 9

Promedio = 4 Suma Suma

Ejemplo:
Hallar la desviación media de la siguiente distribución de frecuencias

Solución

13
Apunte Facultad de Economía y Negocios
Universidad de Chile

Varianza
La varianza mide la mayor o menor dispersión de los valores de la variable respecto a la media
aritmética. Cuanto mayor sea la varianza mayor dispersión existirá y por tanto, menor
representatividad tendrá la media aritmética. La varianza se expresa en las mismas unidades que
la variable analizada, pero elevadas al cuadrado.

La varianza de un conjunto de datos se define como el cuadrado de la desviación estándar y está


dada por:

Ejemplo
Hallar la desviación estándar y la varianza de la siguiente serie de datos: 10, 18, 15, 12, 3, 6, 5, 7

Solución

14
Apunte Facultad de Economía y Negocios
Universidad de Chile

Cuantiles o parámetros de posición


Los cuantiles completan el cuadro de los parámetros de una distribución. En cierto modo pueden
ser considerados como medidas de centralización (de hecho la mediana es uno de ellos) y también
como medidas de dispersión (algunas pueden construirse a partir de ellos) pero en realidad son
medidas de posición. Se define el cuantil p como aquel valor de la variable (que puede estar o no
en la muestra) que supera al p% de los datos de la muestra; resultan útiles sólo cuando la muestra
es numerosa y permiten saber en que “posición” se encuentra un valor dado con respecto al
conjunto de una muestra o población. Se definen entre los más importantes:

Los cuartiles, que definen las cuartas partes de la muestra mediante tres “cortes”: el primer cuartil
deja por debajo al 25% de la distribución, el segundo coincide con la mediana y el tercero deja por
debajo al 75% de la distribución. No tienen mucho sentido en muestras pequeñas, pero en nuestro
ejemplo valdrían respectivamente 0, 1 y 3.5 (que están situados en las posiciones “tercera y
media”, séptima y “décima y media” de los datos ordenados).

Los deciles, que dan nueve cortes para definir de diez en diez por ciento los valores de la
distribución; así, el primer decil deja por debajo una décima parte de la distribución, el segundo
dos décimas partes, etc., hasta nueve deciles.

Los percentiles, que son como los decíles pero de uno en uno por ciento, y por tanto son noventa
y nueve; por ejemplo, el percentil 37 deja por debajo al 37% de la distribución, y está claro que no
tienen sentido en muestras tan pequeñas como la de nuestro ejemplo, ya que trece elementos no
se pueden “partir” en cien partes.

Todos los cuantiles son definibles sobre variables cuantitativas o sobre cualitativas ordinales,
porque requieren siempre que los datos estén ordenados.
Los cuantiles más próximos al percentil 50, como la propia mediana o los cercanos a ella, pueden
considerarse como parámetros de centralización y sin embargo los más lejanos al centro ayudan a
medir la dispersión; por ejemplo, si restamos el tercer cuartil menos el primero obtenemos el
rango intercuartílico, que es una medida de dispersión. Con el rango intercuartílico estamos
midiendo la extensión que nos cubre la mitad central de nuestros datos; recuérdese que el RANGO
era la extensión cubierta por toda la muestra ordenada (se define como máximo menos mínimo),
mientras que el rango intercuartilico es la extensión cubierta por la mitad central de los datos
ordenados, excluyendo la cuarta parte inicial (los que son inferiores al primer cuartil) y la cuarta
parte final (los que son superiores al tercer cuartil).

15
Apunte Facultad de Economía y Negocios
Universidad de Chile

Análisis descriptivo de datos


Cuando sobre una población se estudian simultáneamente los valores de dos variables
estadísticas, el conjunto de los pares de valores correspondientes a cada individuo se denomina
distribución bidimensional.

Diagrama de dispersión
La distribución conjunta de dos variables puede expresarse gráficamente mediante un diagrama
de dispersión: en un plano se representa cada elemento observado haciendo que sus coordenadas
sobre los ejes cartesianos sean los valores que toman las dos variables para esa observación.

Ejemplo.
La siguiente tabla muestra los datos correspondientes a un conjunto de diez pares de
observaciones de estaturas de padres e hijos:

Solución
El diagrama de dispersión de ese grupo de datos es:

Se representa la variable dependiente en el eje de las ordenadas y la independiente en el eje de


las abscisas. Cuando se estudia la relación entre dos variables, una puede considerarse causa y la
otra resultado o efecto de la primera, siendo ésta una decisión teórica. Se conoce como variable
exógena, o variable independiente a la que causa el efecto y variable endógena, o variable
dependiente a la que lo recibe.

16
Apunte Facultad de Economía y Negocios
Universidad de Chile

Por supuesto que diferentes conjuntos de datos ofrecerán diagramas diferentes. Sin embargo, se
pueden considerar cuatros tipos de diagramas de dispersión, que son los más típicos:

1. Relación tal que al aumentar los valores de la variable independiente aumenta (en promedio) el
valor de la variable dependiente. Cuando esto ocurre hay una relación lineal positiva.

2. Relación tal que al aumentar los valores de la variable independiente se reduce (en promedio) el
valor de la variable dependiente. Cuando esto ocurre hay una relación lineal negativa.

3. No hay relación entre ambas variables. Esto significa que las variables son independientes.

4. Relación entre ambas, pero no lineal.

17
Apunte Facultad de Economía y Negocios
Universidad de Chile

Covarianza
La covarianza es una medida de la asociación lineal entre dos variables que resume la información
existente en un gráfico de dispersión. Es un indicador de si los valores están relacionados entre sí,
se simboliza por σxy y se calcula por medio de:

Esta medida, refleja la relación lineal que existe entre dos variables. El resultado numérico fluctúa
entre los rangos de [−∞,∞]. Al no tener unos límites establecidos no puede determinarse el grado
de relación lineal que existe entre las dos variables, sólo es posible ver la tendencia.

• Una covarianza positiva significa que existe una relación lineal positiva entre las dos
variables. Es decir, los valores bajos de la variable x se asocian con los valores bajos de la
variable y , mientras los valores altos de x se asocian con los valores altos de la variable y .
• Una covarianza de negativa significa que existe una relación lineal inversa (negativa) entre
las dos variables. Lo que significa que los valores bajos en x se asocian con los valores altos
en y, mientras los valores altos en x se asocian con los valores bajos en y .
• Una covarianza de cero se interpreta como la no existencia de una relación lineal entre las
dos variables estudiadas.

Ejemplo
Dada la tabla de estaturas de 10 padres y 10 hijos, calcular su covarianza e interpretarla.

18
Apunte Facultad de Economía y Negocios
Universidad de Chile

Solución

Correlación
Es frecuente que se estudie sobre una misma población los valores de dos variables estadísticas
distintas, con el fin de ver si existe alguna relación entre ellas, es decir, si los cambios en una de
ellas influyen en los valores de la otra. Si ocurre esto se dice que las variables están
correlacionadas o bien que hay correlación entre ellas.

Ejemplo
Las calificaciones de 10 alumnos en Matemáticas y Física vienen dadas en la siguiente tabla:

Los pares de valores { (2,2), (4,2), (5,5), …, (8,7), (9,10) }, forman la distribución bidimensional en
la que hay cierta tendencia a que cuanto mejor es la calificación en Matemáticas, mejor es la de
Física.
Representando los pares de valores en el plano cartesiano se obtiene su diagrama de dispersión:

19
Apunte Facultad de Economía y Negocios
Universidad de Chile

Cuando se puede apreciar si los puntos se distribuyen alrededor de una recta entonces se dice que
hay correlación lineal. Una correlación lineal fuerte es cuando la nube (conjunto de puntos) se
parece mucho a una recta y será cada vez más débil (o menos fuerte) cuando la nube vaya
diseminándose con respecto a la recta.
En el ejemplo se aprecia que la correlación es bastante fuerte, ya que si se traza una recta, ésta se
ubica muy próxima a los puntos de la nube.

La correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Se
considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas
varían sistemáticamente con respecto a los valores homónimos de la otra: si se tienen dos
variables (x e y) existe correlación si al aumentar los valores de x lo hacen también los de y y
viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de
causalidad
La relación entre dos variables cuantitativas queda representada mediante la línea de mejor
ajuste, trazada a partir de la nube de puntos. Los tres principales componentes elementales de
una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma:

20
Apunte Facultad de Economía y Negocios
Universidad de Chile

1. La fuerza mide el grado en que la línea representa a la nube de puntos: si la nube es estrecha y
alargada, se representa por una línea recta, lo que indica que la relación es fuerte; si la nube de
puntos tiene una tendencia elíptica o circular, la relación es débil.

2. El sentido mide la variación de los valores de y con respecto a x: si al crecer los valores de x lo
hacen los de y , la relación es positiva; si al crecer los valores de x disminuyen los de y , la relación
es negativa.

3. La forma establece el tipo de línea que define el mejor ajuste: la línea recta, cuadrática,
polinomial, etc

Correlación de Pearson
La apreciación visual de la existencia de correlación no es suficiente. Así que se define como
coeficiente de correlación de Pearson al índice estadístico que mide la relación lineal entre dos
variables cuantitativas. Se denota por r:

Este coeficiente de correlación lineal divide la covarianza por el producto de las desviaciones
estándar de ambas variables. A diferencia de la covarianza, la correlación de Pearson es
independiente de la escala de medida de las variables.

El valor del índice de correlación varía en el intervalo [-1, 1] y se interpreta de la siguiente forma:

• Si r = 0, no existe ninguna correlación. El índice indica, por lo tanto, una independencia total
entre las dos variables, es decir, que la variación de una de ellas no influye en absoluto en el valor
que pueda tomar la otra.
• Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las
dos variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace
en idéntica proporción.
• Si 0 < r < 1, existe una correlación positiva.
• Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las
dos variables llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en idéntica
proporción.
• Si -1 < r < 0, existe una correlación negativa.
21
Apunte Facultad de Economía y Negocios
Universidad de Chile

Gráficamente se representa de la siguiente manera:

Ejemplo

Obtener la correlación que existe entre la estatura y el peso de 10 jugadores de un equipo fútbol
americano.

Solución

Considerando que la estatura es la variable x y que el peso es la variable y se tiene:

22
Apunte Facultad de Economía y Negocios
Universidad de Chile

23

You might also like