You are on page 1of 4

Ctedra : Probabilidad y Estadstica

Anlisis de Correlacin
1
ANLISIS DE CORRELACIN

INTRODUCCIN

Muchas veces, el investigador dispone de pares de observaciones realizadas al azar sin tener un
control sobre una de las variables; es decir, ambas variables son aleatorias. Esto ocurre cuando
se extrae una muestra de individuos al azar y en cada uno se realizan dos observaciones (una
para cada variable).
Estas poblaciones bivariadas son de inters no slo con el objeto de predecir una variable en
funcin de la otra sino tambin con el objeto de analizar si existe relacin entre las variables.
En este caso, ambas regresiones son posibles y vlidas, aunque a veces slo una de ellas sea de
inters para el investigador. Podemos hablar entonces, de una regresin de Y sobre X y de
otra regresin de X sobre Y .
El estudio de la variable bivariada basado en datos muestrales consiste en el calculo de dos
medias : X e Y , de dos variancias : S
2
(x)
y S
2
(y)
y de la covariancia Cov(x,y) .
Esta ltima puede ser reemplazada sin prdida de informacin por el coeficiente de correlacin,
que es una medida de la intensidad de la relacin.

Coeficiente de correlacin

El coeficiente de correlacin mide el grado de relacin entre dos variables que varan
conjuntamente .

El anlisis de correlacin se basa en los siguientes supuestos:
X e Y son variables aleatorias . Luego, no existe una variable explicativa y otra explicada.
La poblacin de la cual se extrae la muestra es Normal Bivariada .
Existe una relacin lineal entre las variables, la cual est medida por el coeficiente de
correlacin poblacional definido como :

1 1
] ) [( ] ) [(
)] )( [(
) , (
2 2



=

=
y x
y x
y x
Y E X E
Y X E
y x Cov


(X,Y) es una variable que se distribuye normal bivariada con parmetros:
y x
y y x x
y x Cov
y V y E x V x E

= = = = =
) , (
) ( ) ( ) ( ) (
2 2



Coeficiente de correlacin muestral = r

1 1
)
2 2
)(
2 2
(
1
2
) (
2
)
1
(
1
) )(
1
(
1
) ( ). (
) , cov(

=

=

=

=
= = r
Y n
i
y X n
i
x
n
i
Y X n
i
y
i
x
Y
i
y X
n
i
i
x
n
Y
i
y X
n
i
i
x
n
y S x S
y x
r

r =-1 Existe relacin inversa y perfecta entre las variables

r =1 Existe relacin directa y perfecta entre variables

r =0 No existe relacin lineal entre las variables Variables no correlacionadas

-1 <r <0 Existe relacin inversa entre las variables

0 <r <1 Existe relacin directa entre las variables

Ctedra : Probabilidad y Estadstica
Anlisis de Correlacin
2
Notamos que la interpretacin del coeficiente de correlacin no es muy precisa, a menos que la
relacin sea perfecta o bien que no exista
relacin entre las variables.

Para una mejor interpretacin de r , podemos agregar que :
Valores de r cercanos a 1 , se traduce en una alta relacin directa entre las variables.
Valores de r cercanos a -1 , se traduce en una alta relacin inversa entre las variables.
Valores de r cercanos a 0 , se traduce en una baja relacin lineal entre las variables, la cual
ser directa si r >0 , y ser inversa si r <0 .

1 1 ; 1
2
0
2
) (
2
= r r r r

siendo r el coeficiente de correlacin y r
2
el coeficiente de determinacin.


Obtencin de las dos rectas de ajuste

Mediante el mtodo de Mnimos cuadrados se obtienen las dos rectas de ajuste:

i i i i
y b a X x b a Y . . + = + =
) )



La primera ecuacin satisface la condicin minimo X
n
i
i
x =
=
2
)
1
(
La segunda ecuacin satisface la condicin minimo Y
n
i
i
y =
=
2
)
1
(

Los coeficientes de la primera recta
i i
x b a Y . + =
)
se obtienen con las frmulas :

x b y a . =

) (
) , cov(
2 2 X V
Y X
X n
i
x
Y X n
i
y
i
x
b =


=

Los coeficientes de la segunda recta
i i
y b a X . + =
)
se obtienen con las frmulas :

y b x a . =

) (
) , cov(
2 2 Y V
Y X
Y n
i
y
Y X n
i
y
i
x
b =


=


Los coeficientes b y b tienen el mismo signo (dado por la covariancia):
Son ambos positivos si existe relacin directa entre las variables .
Son ambos negativos si existe relacin inversa entre las variables .
y verifican la relacin : b . b = r
2

sgn(b) = sgn(b) = sgn(r) = sgn(cov(x,y))





Ctedra : Probabilidad y Estadstica
Anlisis de Correlacin
3
INFERENCIA SOBRE EL COEFICIENTE DE CORRELACIN
Distribucin del coeficiente de correlacin muestral r


Si =0 , la distribucin de r es simtrica (alrededor de =0 ) . Responde a un modelo
Normal si el tamao de muestra es suficientemente grande ( tericamente, para n ).
Si el tamao de muestra ( n ) es pequeo ( y =0 ) entonces se utiliza la distribucin t de
Student con n-2 grados de libertad :


2
2
~
2
1
0

=
n
t
n
r
r



Esta distribucin permite probar la hiptesis nula =0 contra cualquiera de las alternativas
unilaterales ( <0 >0 ), o bien, contra la alternativa bilateral ( 0 ) .

Nota : Esta distribucin no puede ser empleada para la estimacin por intervalo, ni tampoco
para probar la hiptesis correspondiente a otro valor posible de , (puesto que slo es
vlida para =0 )

Bajo el supuesto de la distribucin Normal de la variable bidimensional (X,Y) , =0 es
equivalente a afirmar que las variables X e Y son independientes.

Luego, la siguiente prueba de hiptesis:

H
0
: =0 vs H
1
: 0

indica en palabras:

H
0
: X e Y son independientes vs H
1
: X e Y no son independientes

por lo cual, dicha prueba es conocida tambin con el nombre de : prueba de hiptesis para la
independencia entre las variables.

Prueba de hiptesis para la independencia entre las variables.

H
0
: =0 vs H
1
: 0

Bajo H
0
:
2
2
~
2
1

n
t
n
r
r


2
1
2

=
n
r
r
t
obs
obs
o
,
2 / ; 2
=
n c
t t

Luego: si
c o
t t > Rechazo H
0
0 , o sea, las variables no son
independientes
si
c o
t t < No Rechazo H
0
=0 , o sea, las variables son independientes


Ctedra : Probabilidad y Estadstica
Anlisis de Correlacin
4
Otras pruebas de hiptesis sobre el coeficiente de correlacin.



H
0
: =0 vs H
1
: >0 que significa:

H
0
: No existe relacin directa entre X e Y vs H
1
: Existe relacin directa entre X e Y

Bajo H
0
:
2
2
~
2
1

n
t
n
r
r
,
2
1
2

=
n
r
r
t
obs
obs
o
,

=
; 2 n c
t t


Luego: si
c o
t t > Rechazo H
0
>0 , o sea, las variables estn directamente
relacionadas
si
c o
t t < No Rechazo H
0
=0 , o sea, las variables no estn directamente
relacionadas





H
0
: =0 vs H
1
: <0 que significa:

H
0
: No existe relacin inversa entre X e Y vs H
1
: Existe relacin inversa entre X e Y

Bajo H
0
:
2
2
~
2
1

n
t
n
r
r
,
2
1
2

=
n
r
r
t
obs
obs
o
,

=
; 2 n c
t t


Luego: si
c o
t t < Rechazo H
0
<0 , o sea, las variables estn inversamente
relacionadas
si
c o
t t > No Rechazo H
0
=0 , o sea, las variables no estn inversamente
relacionadas

You might also like