You are on page 1of 37

ANLISIS DE

CORRELACIN
INTRODUCCIN

INTRODUCCIN
Adems de las medidas de tendencia central y de
variabilidad y de inferir algo acerca de los
parmetros poblacionales es necesario describir
el grado de relacin que existe entre las
variables. Por Ejemplo:
Hay alguna relacin entre la cantidad que gasta
una determinada empresa y sus ventas?.
Entre ms altas son las calificaciones en aptitud
mayor son los grados universitarios obtenidos.
Dosis de fertilizante aplicadas y rendimiento del
cultivo.
Relacin entre el nmero de aos que un
trabajador ha estado en la empresa y el nmero
de unidades producidas.

ANLISIS DE CORRELACIN

Como se expresa la Correlacin.


Grficas de Dispersin.
Correlacin no es causalidad.
Distribuciones bidimensionales (Datos
No Agrupados).
Covarianza y Correlacin Lineal.
Coeficiente de Correlacin Lineal de
Pearson.

Como se expresa la
Correlacin
Se expresa mediante el coeficiente de
correlacin Lineal de Pearson (r), que
resume la magnitud y la direccin de
una relacin entre dos o ms variables.
Las variables correlacionadas pueden
ser variables cuantitativas.

Grficas de Dispersin.
Los
diagramas
de
dispersin
no
slo
muestran
la
relacin
existente entre variables,
sino tambin resaltan las
observaciones individuales
que se desvan de la
relacin general. Estas
observaciones
son
conocidas como valores
inusitados, que son puntos
de los datos que aparecen
separados del resto.

Correlacin no es
causalidad.
La correlacin no establece causalidad. El
hecho de una relacin entre dos variables
no implica necesariamente que exista una
relacin causal entre ellas. Aunque
correlaciones entre variables pueden ser
tiles al investigar relaciones causales,
cuando se une con otra informacin es un
criterio peligroso y potencialmente errneo
para la causalidad cuando se usan solos.

Distribuciones bidimensionales
(Datos No Agrupados).
Cuando se estudia de forma conjunta dos
caractersticas (variables estadsticas) de una
poblacin, se dice que estamos analizando una
variable estadstica bidimensional.
x1 , y1 , x2 , y2 , x3 , y3 ,...., xn , yn
Y las observaciones sern: x , y ,
i
i
Por lo tanto el par ordenado
representa el valor isimo de la variable X y el valor i-esimo de la variable
x1 , x2 , x3 ,....., xn
Y.
y1 , y 2 , y3 ,....., y n
Variable X cuyos valores son:
Variable Y cuyos valores son:
Y para ambas variables se calculara por separado las
medidas descriptivas que viene a ser, Promedio,
Mediana, Moda, Varianza, Desviacin Estndar.

MEDIDAS DESCRIPTVAS
VARIABLE X

VARIABLE Y

2
X
S X2 i X 2
n

2
Y
SY2 i Y 2
n

SX S

SY SY2

2
X

Covarianza y Correlacin
Lineal.
Estas medidas miden el grado de asociacin entre
las variables, as por ejemplo.
Si solo nos interesa el grado de relacin entre las
variables estamos frente a un problema de
correlacin, si nos interesa el grado y adems el
tipo de relacin y adems el tipo de relacin con la
finalidad de hacer predicciones este tipo de anlisis
es de regresin.
1 x y XY
S xy
i i
n
r

2
2
S x .S y
S x .S y

Coeficiente de Correlacin Lineal


de Pearson.
Requiere variables medidas en escala de
intervalos o de proporciones
Vara entre -1 y 1.
Valores de -1 1 indican correlacin perfecta.
Valor igual a 0 indica ausencia de correlacin.
Valores negativos indican una relacin lineal
inversa y valores positivos indican una relacin
lineal directa

Correlacin Negativa Perfecta

10
9
8
7
6
5
4
3
2
1
0
0

10

Correlacin Positiva Perfecta

10
9
8
7
6
5
4
3
2
1
0
0

10

Ausencia de Correlacin

10
9
8
7
6
5
4
3
2
1
0
0

10

Correlacin Fuerte y Positiva


10
9
8
7
6
Y 5
4
3
2
1
0
0

10

Para una mejor interpretacin del


Coeficiente de Correlacin Lineal de
Pearson
r = +/- 1

Correlacin Lineal Perfecta

0.8 r < 1 -1< r -0.8


Excelente
0.5 r < 0.8 -0.8 < r -0.5
Buena
0.3 r < 0.5 -0.5 < r -0.3
0 r < 0.3 - 0.3 < r 0
Lineal

Correlacin Lineal
Correlacin Lineal
Correlacin Lineal Pobre
No hay Correlacin

Ejemplo
Calcular el coeficiente lineal de Pearson
tomando los siguientes datos sobre estaturas
y pesos de 10 estudiantes: (1.54;60),
(1.82;94), (1.57;65), (1.60, 66), (1.75;85),
(1.65;72.5), (1.69;77), (1.65;70), (1.77;89.5),
(1.70;80)

Talla

Peso

Xi

Yi

Xi Yi

Xi

Yi

1,54

60

92,4

2,3716

3600

1,82

94

171,08

3,3124

8836

1,57

65

102,05

2,4649

4225

1,6

66

105,6

2,56

4356

1,75

85

148,75

3,0625

7225

1,65

72,5

119,625

2,7225

5256,25

1,69

77

130,13

2,8561

5929

1,62

70

113,4

2,6244

4900

1,77

89,5

158,415

3,1329

8010,25

1,7

80

136

2,89

6400

16,71

759

1277,45

27,9973

58737,5

ANLISIS DE REGRESIN
Propsito del Anlisis de regresin.
Variable Dependiente e
Independiente.
Ecuacin de Regresin Lineal.
Coeficiente de Determinacin.
Distribuciones Bidimensionales.
Error Estndar de la Estimacin

Propsito del Anlisis de


regresin.
El propsito de este mtodo estadstico es
la prediccin de la variable dependiente.
Un modelo de regresin, es una manera de
expresar dos ingredientes esenciales de una
relacin estadstica:
Una tendencia de la variable dependiente Y a
variar conjuntamente con la variacin de X
de una manera sistemtica.
Una dispersin de las observaciones
alrededor de la curva de relacin estadstica.

Anlisis de Regresin
Objetivo: determinar la ecuacin de
regresin para predecir los valores de la
variable dependiente (Y) en base a la o las
variables independientes (X).
Procedimiento: seleccionar una muestra a
partir de la poblacin, listar pares de datos
para cada observacin; dibujar un diagrama de
puntos para dar una imagen visual de la
relacin; determinar la ecuacin de regresin.

Variable Dependiente e
Independiente.
Nos
referimos
a
la
variable
dependiente Y a partir de la variable
independiente X, donde X y Y
representan
variables
distribuidas
normalmente
y
relacionadas
linealmente.

Ecuacin de Regresin
Lineal.

Y= a + bX, donde:

Y es el valor estimado de Y para distintos X.


a es la interseccin o el valor estimado de Y cuando X=0
b es la pendiente de la lnea, o el cambio promedio de Y para
cada cambio en una unidad de X
el principio de mnimos cuadrados es usado para obtener a y b:

n( XY ) ( X )( Y )
b
n( X 2 ) ( X ) 2
Y
X
a
b
n
n

Coeficiente de
Determinacin.
Coeficiente de Determinacin, r2
es la
proporcin de la variacin total en la variable
dependiente
Y
que
es
explicada
o
contabilizada por la variacin en la variable
independiente X.
El coeficiente de determinacin es el cuadrado
del coeficiente de correlacin, y varia entre 0 y
1.

2
(Yi Y )

2
r
2
(Yi Y )

Bondad de Ajuste
Indica la cantidad de mejoramiento en
trminos de reduccin del error total
por el uso de la recta de Regresin.
r2
0.8
0.5
0

=
r2
r2
r2

Ajuste Perfecto
1
Ajuste Excelente
0.8 Ajuste aun Bueno
0.5 Ajuste Pobre

Lneas posibles de regresin en la


regresin lineal simple
Seccin A
Relacin lineal positiva

Seccin B
Relacin lineal negativa
Ey

Ey
Lnea de regresin

Seccin C
No hay relacin
Ey

La pendiente 1
es negativa

La pendiente 1
es 0
*

La pendiente 1
es positiva

Lnea de regresin

x
* Ordenada al origen 0

Lnea de regresin

Error Estndar de la
Estimacin
Para medir la confiabilidad de la
ecuacin de estimacin, se han
desarrollado el error estndar de la
estimacin, y es similar a la
desviacin estndar, en cuanto a que
ambas son medidas de dispersin.
El error estndar de la estimacin, por
otra parte, mide la variabilidad, o
dispersin de los valores observados
alrededor de la lnea de regresin.

Error Estndar de la
Estimacin
Se

Se

(Y Y )

n2

a Y b XY
n2

Interpretacin del error estndar


de la estimacin
Como se aplica en la desviacin estndar,
mientras ms grande sea el error estndar
de la estimacin, mayor ser la dispersin de
los puntos alrededor de la lnea de regresin.
De manera inversa, si Se = 0, esperamos que
la ecuacin de estimacin sea un estimador
perfecto de la variable dependiente. En
este caso, todos los puntos de datos caeran
directamente sobre la lnea de regresin y no
habr puntos dispersos alrededor.

Interpretacin del error estndar


de la estimacin
Usaremos el error estndar de la
estimacin como una herramienta de la
misma forma que usamos la desviacin
estndar. Esto es, suponiendo que los
puntos observados estn normalmente
distribuidos alrededor de la lnea de
regresin, podemos esperar encontrar 68%
de los puntos dentro +/- 1 Se, 95% de los
puntos dentro +/- 2 Se y 99.7% de los
puntos de +/- 3 Se.

Distribuciones Bidimensionales De
Datos Clasificados

Distribucin de Frecuencias
Bivariadas

(Xi , Yj) vs nij

X
S X2

Marginal
X
X n

i.

n
X i2 ni .

X2
n

SX

S X2

Marginal y

Yn

SY2
SY

.j

n
Yi 2 n. j
n

SY2

MARGINAL X

X n

i ij

n
r

2
X

i 1 j 1

SY2

i 1 j 1

S M ( X ) ( M ( X ))
2

i 1 j 1

X
i 1 j 1

j ij

n
r

2
(
X

X
)
i nij

Y n

2
X

MARGINAL Y

(Y Y ) n
i 1 j 1

ij

n
r

2
i ij

SY2 M (Y 2 ) ( M (Y )) 2

2
Y
i nij
i 1 j 1

Y 2

Distribucin Bidimensional
conjunta verticalizada
r

Cov ( X , Y ) S XY

( X
i 1 j 1

X )(Y j Y )nij
n
r

Cov ( X , Y ) M ( XY ) M ( X ) M (Y )
S X2
Matriz.de.Co var ianzas
S XY
rxy

X Y n
i

i 1 j 1

j ij

XY

S XY

SY2

Cov ( XY )
ryx
SxS y
1 r

r 1

Matriz..de..Correlacio nes : R

Cov ( XY )
,
a

b
X

Y
a bX
2
SX

Cov ( XY )
De. X .dado.Y : b
,
a

b
Y

X
a bY
2
SY
De.Y .dado. X : b

Ejemplo
El siguiente cuadro es la distribucin de
100 familias por numero de hijos (Xi) y el
numero de habitaciones por vivienda (Yj).
Construir las marginales.
Calcular el vector de medias y la matriz
de covarianzas y la matriz de
correlaciones.
Determinar la recta de regresin mnimo
cuadrtica .
Determinar la bondad de ajuste.
Estimar el numero de habitaciones para
una familia de 6 hijos.

Yj

10

16

16

12

13

Xi

CORRELACIN Y REGRESIN
SIMPLE NO LINEAL

CURVA
CURVA
CURVA
CURVA

PARABOLICA
POTENCIAL
EXPONENCIAL
HIPERBOLA EQUILATERA

You might also like