You are on page 1of 7

Estadstica Analtica 2010 Fac. Cs. Veterinarias (U.B.

A)



67

Unidad 5 CORRELACIN LINEAL (Pearson) Y NO PARAMTRICA (Spearman) CORRELACIN LINEAL (Pearson) Y NO PARAMTRICA (Spearman) CORRELACIN LINEAL (Pearson) Y NO PARAMTRICA (Spearman) CORRELACIN LINEAL (Pearson) Y NO PARAMTRICA (Spearman)

Objetivos especficos
Comprender la necesidad y utilidad del anlisis de correlacin.
Distinguir entre el anlisis de correlacin y el anlisis de regresin.
Aplicar los conceptos y tcnicas del anlisis de correlacin al campo de los procesos biolgicos.

Contenidos temticos
Conceptos de asociacin y correlacin. Diagrama de dispersin. Coeficiente de correlacin lineal de
Pearson: clculo e interpretacin. Prueba de hiptesis para = 0. Coeficiente de correlacin no paramtrica
de Spearman. Prueba de hiptesis para asociacin por rangos. Supuestos y Aplicaciones.

Glosario
Distribucin bivariada (dos variables aleatorias conjuntamente distribuidas). Distribucin normal
bivariada. Parmetros de esta distribucin. Elipse de concentracin. Asociacin entre variables aleatorias
normales y no normales. Coeficientes de correlacin lineal y no lineal. Aplicaciones a inferencia estadstica:
Estimacin y contraste.

PROBLEMAS RESUELTOS
01.- Los siguientes datos corresponden al peso vivo (PV, en Kg) y al espesor de grasa dorsal (EGD, en mm)
de 30 lechones elegidos al azar de una poblacin de porcinos Duroc Jersey del Oeste de la provincia de
Buenos Aires:
Obs 1 2 3 4 5 6 7 8 9 10
PV 56,81 70,40 71,73 75,10 79,65 51,43 52,10 69,10 35,70 76,44
EGD 16,19 22,00 19,52 31,00 23,58 16,58 17,20 26,70 21,60 24,51
Obs 11 12 13 14 15 16 17 18 19 20
PV 27,51 67,90 51,61 69,40 48,93 55,02 62,70 84,00 67,50 58,62
EGD 16,21 13,80 16,43 33,60 25,07 20,52 26,20 11,50 21,50 27,26
Obs 21 22 23 24 25 26 27 28 29 30
PV 68,58 67,10 49,10 73,80 61,40 63,44 93,00 58,90 58,70 66,45
EGD 12,60 23,30 32,46 19,90 20,48 7,29 40,90 9,21 27,60 23,27

a.- Dibujar el diagrama de dispersin e interpretarlo.
b.- Calcular el coeficiente de correlacin muestral.
c.- Hay suficiente evidencia para admitir asociacin entre el peso y el espesor de grasa? ( = 0,05)

Datos del problema:
Variables en estudio:
X
1
: peso vivo de un lechn, en kg;
X
2
: espesor de grasa dorsal de un lechn, en
mm;
Tamao de muestra: n = 30

Solucin

a) En el eje de la abscisas est graficado el peso vivo
(PV), y en el eje de las ordenadas, el espesor de grasa
dorsal (EGD). Se podra haber graficado al revs, ya que
en el anlisis de correlacin no hay una variable que
explica a la otra, sino que se estudia el comportamiento
de ambas variables conjuntamente.

En este grfico se puede observar una asociacin directa
suave entre ambas variables, es decir que a valores
25.0 35.0 45.0 55.0 65.0 75.0 85.0 95.0
PV
5.0
15.0
25.0
35.0
45.0
E
G
D
Diagrama de dispersin
Estadstica Analtica 2010 Fac. Cs. Veterinarias (U.B.A)



68

grandes de peso vivo corresponden valores grandes de espesor de grasa dorsal. (Se denomina directa porque
al aumentar los valores de una de las variables aumentan los valores de la otra, y viceversa).

b) Para calcular el coeficiente de correlacin muestral tenemos dos coeficientes, el de Pearson y el de
Spearman. Las variables en estudio en este caso cumplen, en principio, con el supuesto terico de Spearman,
ya que ambas variables (Peso vivo y espesor de grasa dorsal) son al menos ordinales, es decir que tienen un
orden natural porque son nmeros. Sin embargo podramos docimar la hiptesis de normalidad, para ver si
se cumple el supuesto de Pearson
Dcima de normalidad para X
1
al 5%
0 1
1 1
: se distribuye normalmente
: no se distribuye normalmente
H X
H X



Salida del programa InfoStat para X
1

Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
PV 30 63.07 13.54 0.98 0.9463

Como el p-valor = 0,9463>0,05 no se rechaza la hiptesis nula. Por lo tanto al 5% la variable X
1
se puede
suponer que se distribuye normalmente.
Dcima de normalidad para X
2
al 5%
0 2
1 2
: se distribuye normalmente
: no se distribuye normalmente
H X
H X


Salida del programa InfoStat para X
2

Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
EGD 30 21.59 7.44 0.98 0.9485

Como el p-valor = 0,2501>0,05 no se rechaza la hiptesis nula. Por lo tanto al 5% la variable X
2
se puede
suponer que se distribuye normalmente.
Por lo tanto ambas variables se distribuyen normalmente y es mejor utilizar el coeficiente de Pearson, ya que
utiliza la informacin que proporciona la normalidad de la variable y, por esto, es un estimador ms eficiente.
Es decir que, en los casos en los cuales las variables se distribuyen normalmente, aunque se pudiera usar el
coeficiente Spearman, es mejor utilizar el coeficiente de Pearson. Entonces vamos a calcular el
coeficiente de correlacin lineal muestral, que estima a (Rho).
( )( )
( ) ( )
( (
( (
( (



1i 2i
1i 2i
2 2
1i 2i
2 2
1i 2i
x x
x x -
n
r =
x x
x - x -
n n


( ) ( )
( (
( (
( (

1892,1* 647, 7
41604, 3 -
30
0.2572
2 2
1892,1 647, 7
124659 - 15597, 3 -
30 30
r = =


Sabemos que el estimador del coeficiente de correlacin debe ser un nmero entre 1 y 1, por lo tanto este
valor est en el rango apropiado de valores.
Estadstica Analtica 2010 Fac. Cs. Veterinarias (U.B.A)



69


c) Para responder a esta pregunta debemos realizar la dcima correspondiente cuyas hiptesis son:

Hiptesis estadsticas:
0
1
H : = 0 (no hay correlacin lineal)
H : 0 (hay correlacin lineal)



Como no nos dice asociacin positiva o asociacin negativa, se plantea igual versus distinto.

Nivel de significacin: = 0,05

Estadstico de prueba:
n-2
2

r n-2
t =
1-r
t

Regin crtica: Para este punto vamos a necesitar los valores crticos, son dos por que la regin crtica es
bilateral, y van a estar determinados por
2, / 2 n
t

y
2,1 / 2 n
t

. En este caso,
28; 0,025
t y
28; 0,975
t . Valores Crticos:
28; 0,025
t = -2,048 y
28; 0,975
t = 2,048. Regin Crtica: t -2,048 conjuntamente t 2,048

Regla de decisin: RECHAZO H
O
si t
H0
- 2,048 o t
H0
2,048
NO RECHAZO H
O
si -2,048 < t
H0
< 2,048

Clculo: Reemplazando los datos muestrales en el estadstico


2
o
0, 2572 28
1,3606
t = = =1, 408
H
0,9663
1- (0, 2572)

Decisin: Como 1,5746<2,048 y 1,5746>-2,048 no se rechaza la hiptesis nula al 5%

Conclusin: Al nivel de significacin del 5%, no hay evidencias suficientes para rechazar H
0

(H
0
:=0), por lo tanto no existira asociacin lineal poblacional entre el peso vivo y el espesor de grasa
dorsal en los lechones Duroc Jersey del Oeste de la provincia de Buenos Aires.

02.- Al finalizar el primer ao de un programa de promocin de la salud aplicado a los habitantes de la
ciudad de Crdoba se tomaron mediciones de algunas variables de inters en una muestra aleatoria de 8
(ocho) hombres de dicha ciudad. Se quiere saber si

la concentracin de colesterol (X
1
) y la concentracin
de cido rico (X
2
), ambas medidas en sangre, estn correlacionadas en forma inversa al 5%. Los datos
obtenidos se muestran en la siguiente tabla:
X
1
269 279 248 318 318 254 263 320
X
2
43 65 78 73 71 69 67 45

Datos del problema:
Variables en estudio
X
1
: concentracin de colesterol en un hombre
X
2
: concentracin de cido rico en un hombre.
Tamao de muestra: n = 8

Solucin:
Para poder resolver esta situacin hay dos posibilidades, utilizar el coeficiente de correlacin de
Pearson o el de Spearman. Las variable en estudio, en este caso, cumplen con el supuesto terico de
Spearman, ya que ambas variables (concentracin de colesterol y concentracin de cido rico) son al menos
ordinales (es decir que tienen un orden natural porque son nmeros). Sin embargo podramos docimar la
hiptesis de normalidad, para ver si se cumple el supuesto de Pearson

Estadstica Analtica 2010 Fac. Cs. Veterinarias (U.B.A)



70

Dcima de normalidad para X
1
al 5%
0 1
1 1
: se distribuye normalmente
: no se distribuye normalmente
H X
H X


Salida del programa InfoStat para X
1

Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
X1 8 283.63 30.46 0.81 0.0463

Como el p-valor = 0,0463<0,05 se rechaza la hiptesis nula. Por lo tanto al 5% la variable X
1
no se puede
suponer que se distribuye normalmente.

Dcima de normalidad para X
2
al 5%
0 2
1 2
: se distribuye normalmente
: no se distribuye normalmente
H X
H X



Salida del programa InfoStat para X
2

Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
X2 8 63.50 12.46 0.78 0.0196

Como el p-valor = 0,0196<0,05 se rechaza la hiptesis nula. Por lo tanto al 5% la variable X
2
no se puede
suponer que se distribuye normalmente.
Como estas variables no cumplen con el supuesto para utilizar Pearson vamos a utilizar Spearman.

Hiptesis estadsticas:
0 1 2
1 1 2
H : X y X no estn asociadas inversamente
H : X y X estn asociadas inversamente



Nivel de significacin: = 0,05
Estadstico de prueba:
( ) ( )
2
i
S
6d
r =1 -
n-1 n n+1
, (esta frmula est en la Gua de Frmulas y Tablas)
Regin crtica: Para este punto vamos a necesitar el valor crtico ya que es una regin critica unilateral
izquierda, determinada por
n; 1- n;
r =-r , en este caso:
8;0.95 8;0.05
r =-r . Buscando en la tabla de la
distribucin Spearman observamos que la probabilidad considerada es la de la cola derecha.
Valores Crticos:
8;0.95 8;0.05
0.619 r r = =
Regin Crtica: 0.619 r
Regla de decisin: RECHAZO H
0
si r
S
-0,619
NO RECHAZO H
0
si r
S
> -0,619

Clculo: Para calcular el valor del estadstico se utilizarn los rdenes o rangos de los datos muestrales
sabiendo que:
R(x
i
): rango correspondiente a la observacin i de la variable X
1
.
R(y
i
): rango correspondiente a la observacin i de la variable X
2.

d
i
: diferencia entre u
i
y v
i
;

2
i
d : cuadrado de la diferencia entre R(x
i
) y R(y
i
).




Estadstica Analtica 2010 Fac. Cs. Veterinarias (U.B.A)



71

Se obtiene la tabla:
x
1i
x
2i
R(x
i
) R(y
i
)

d
i

2
i
d
269 43 4 1 3 9
279 65 5 3 2 4
248 78 1 8 -7 49
318 73 6,5 7 -0,5 0,25
318 71 6,5 6 0,5 0,25
254 69 2 5 -3 9
263 67 3 4 -1 1
320 45 8 2 6 36
0 108,5

La estimacin del coeficiente de correlacin de Spearman es:
( ) ( )
S
6*108,5 651 651
r =1 - =1 - =1- =1 - 1, 2916 = -0, 2916
7*8*9 504 8-1 *8* 8+1

Decisin: Como -0,2916>-0.619 no se rechaza la hiptesis nula al 5%

Conclusin: Con un nivel de significacin del 5%, no se tienen evidencias suficientes para rechazar H
0
(H
0
: X
1

y X
2
no estn asociadas inversamente), por lo tanto se puede concluir que la

concentracin de colesterol y la
concentracin de cido rico en sangre no estaran asociadas inversamente la poblacin de hombres de la
ciudad de Crdoba.

PROBLEMAS PROPUESTOS
03.- Se registra la temperatura (T) y el pulso (P) en forma simultnea a un grupo de 10 pacientes.
t
i
39,0 39,9 39,5 39,0 38,7 38,4 38,0 37,5 36,9 36,7
p
i
100 90 80 70 65 64 62 62 60 59

a.- Dibujar el diagrama de dispersin.
b.- Teniendo en cuenta la siguiente salida decidir cual de los estimadores es el adecuado para estimar el
coeficiente de correlacin
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
T 10 38.36 1.07 0.93 0.5915
P 10 71.20 14.12 0.80 0.0190

c.- Comprobar estadsticamente si existe asociacin positiva entre la temperatura y el pulso, usando un nivel
de significacin del 5%.

04.- Considerando que la estimacin del coeficiente de correlacin entre el peso al nacer y al destete en una
especie fue igual a 0,40 (r=0,40) a partir de una muestra de 20 individuos. Podra afirmar que el peso al
nacer y el peso al destete estn significativamente asociados? (=0,05). Suponer que ambas variables tienen
distribucin normal.

05.- Sabiendo que el contenido de celulosa, hemicelulosa, y lignina se estudian a travs de la fibra
detergente neutro (FDN) de la dieta, se quiere analizar su relacin con el pH ruminal generado. Se tomaron
10 bovinos y se midieron ambas variables:
FDN 37,9 39,2 41,2 43,1 44,6 45,8 46,2 55,8 57,0 59,0
pH 5,88 5,92 6,01 6,10 5,92 6,56 5,93 6,20 6,30 6,57

Estadstica Analtica 2010 Fac. Cs. Veterinarias (U.B.A)



72

Suponiendo que ambas variables se distribuyen normalmente, y que = 0,05, responder:
Hiptesis estadsticas:...................................................................................................................................
Regin crtica:..............................................................................................................................................
Valor de la variable pivotal:..........................................................................................................................
Poblacin:....................................................................................................................................................
Datos:
2 2
i i i i i i
d p = 2896, 574; d = 22592, 98; p = 377, 4907; d = 469, 8; p = 61, 39.

06.- El director de un centro de internacin veterinaria les pide a dos enfermeros que califiquen de 1 a 100
los pacientes internados de acuerdo a la dificultad de cuidados mdicos que los mismos requieren. La
siguiente tabla tiene la respuesta de los enfermeros.
Paciente A B C D E F G H I J
Enfermero 1 9 3 15 6 100 12 18 80 21 95
Enfermero 2 25 10 35 5 50 15 28 100 40 70
Se puede afirmar que la opinin de estos enfermeros est asociada? Qu supuesto debe hacer para poder
contestar la pregunta anterior?

07.-Se quiere analizar si existe asociacin negativa entre el numero de hijos de un matrimonio (X
1
) y su
ingreso anual (X
2
). Se muestrearon 10 matrimonios y se obtuvieron los siguientes datos:

X
1
1 8 3 2 6 2 0 4 5 6
X
2
13005 11096 8720 9166 10111 12937 13734 8861 9747 9568

Responder, sabiendo que = 0,05.
Hiptesis estadsticas:...........................................................................................................................
Regla de decisin.................................................................................................................................
Decisin:..............................................................................................................................................
Conclusin: .........................................................................................................................................
...........................................................................................................................................................
...........................................................................................................................................................
CUESTIONARIO
1.- Suponer que las variables en estudio son A: peso y B: longitud.
a.- Explicar cmo seleccionara las unidades experimentales y qu observara en cada una para que
se pueda realizar un anlisis de correlacin entre ambas variables.
b.- Modificar el enunciado para que corresponda a un estudio de regresin.

2.-Indicar verdadero o falso segn corresponda.
a) V F Spearman se aplica solamente a variable con distribucin no normal.
b) V F En un anlisis de correlacin de Spearman se estudia la diferencia entre los valores de las
variables.
c) V F es un parmetro que toma valores entre 0 y 1.
d) V F Si
2
1
~ ( , ) X N y X
2
es una variable aleatoria ordinal entonces no se puede utilizar Pearson.
e) V F El estimador r se distribuye normalmente.

3.-Indicar qu mtodo o mtodos se puede/n utilizar para analizar la asociacin entre cada par de
variables (S: Spearman, P: Pearson, N: ninguno)
a) X
1
:Peso de un lechn al nacer; X
2
: Peso de la madre al momento del parto. ................................
b) X
1
:Longitud del fmur de un animal; X
2
:Peso de un animal. ........................................................
Estadstica Analtica 2010 Fac. Cs. Veterinarias (U.B.A)



73

c) X
1
:Concentracin de glbulos rojos en sangre en un individuo; X
2
:Consumo de carne de un
individuo (categorizado en: alto, medio, bajo).......................................................................................
d) X
1
:Nota de un alumno en elementos de estadstica; X
2
:Nota de un alumno en Estadstica analtica.
...........................................................................................................................................................
e) X
1
:Cantidad de cachorros nacidos por camada; X
2
:Peso de una madre. ........................................
f) X
1
:Ubicacin de un caballo en una carrera; X
2
:Ritmo cardiaco de un caballo al finalizar una carrera.
...........................................................................................................................................................
g) X
1
:Color del pelaje de un animal; X
2
:Color de ojos de un animal. .................................................
h) X
1
:Color de la herida de un animal; X
2
:Nivel de glbulos rojos de un animal. ................................
i) X
1
:Estado civil de una persona; X
2
:Cantidad de hijos de una persona. ..........................................

4.- Qu indica el coeficiente de correlacin lineal? Cul es su rango de valores posibles? Proponer un
ejemplo donde sospeche que existe correlacin negativa. Indicar cmo selecciona los individuos en
estudio, qu registra en cada uno de ellos y cmo se interpreta en caso de rechazar la hiptesis nula a un
cierto nivel?

5.- Cundo se utiliza el anlisis de correlacin? Cuntas muestras son necesarias para dicho estudio?
Proponer un ejemplo donde se especifique: cmo se muestre, algunos valores de la muestra, las
variables y supuestos tericos que deben cumplirse para realizar dicho estudio.

6.- En un anlisis de correlacin lineal simple:
a.- Cul es la distribucin en que se basa el estudio?
b.- Cuntos y cules son los parmetros de la distribucin?
c.- Proponga un ejemplo donde identifique los parmetros e indique su significado biolgico.

7.-Elegir la opcin correcta:
a.- Si (X
1
,X
2
) se distribuyen normal bivariada y son independientes entre si, entonces:

1) 1
2) 0
3) 0
4) 1

=
=
>
=

b.- Si dos variables no estn correlacionadas linealmente, para estimar la correlacin se emplea:
1) El coeficiente de Spearman
2) El coeficiente de Pearson
3) No se puede estimar la correlacin
4) No tienen sentido estimar la correlacin.
c.- El supuesto terico para emplear el coeficiente de correlacin de Spearman es
1) Ambas variables no se distribuyan normalmente
2) Ambas variable se distribuyan normalmente
3) Ambas variable al menos ordinales
4) Una de las variable no se distribuye normalmente

8.- Cundo se utiliza el anlisis de correlacin no paramtrico? Proponer un ejemplo donde se
especifique: cmo se hizo el muestreo, algunos valores de la muestra, las variables y supuestos tericos
que deben cumplirse para realizar dicho estudio.