You are on page 1of 5

3.

ANALISIS DE REGRESION Y CORRELACION

3.1. INTRODUCCION. En la realidad cotidiana encontramos muchos fenmenos donde se observa que
existe una relacin entre dos ms variables por ejemplo: a) nmero de clientes y ventas semanales.
b) cantidades de ventas hechas por varios vendedores y los aos de experiencia de cada vendedor.
Con el fn de expresar esta relacin en forma matemtica (ecuacin que relacione las variables)
hacemos uso del anlisis de regresin el cul bsicamente se utilizar para hacer predicciones, el
objetivo es predecir los valores de una variable repuesta dependiente (a menudo se identifica
con la letra y ) basados en los valores de una variables independiente explicatora (que por
lo general se identifica con la letra x), y para medir la intensidad de la asociacin de las
variables se usar el anlisis de correlacin.
3.2. DIAGRAMA DE DISPERSION. (Diagrama de esparcimiento nube de datos) El primer paso del
anlisis de regresin es coleccionar los datos indicando el valor de las variables (tabla 1.) y se
representa en un sistema de coordenadas cartesianas, al conjunto de estos puntos se le llama:
diagrama de dispersin (ver grfica).
Tabla 1. Nmero de clientes y Ventas semanales (muestra 20 almacenes)
Almacenes

Clientes

Ventas

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

907
926
506
741
789
889
874
510
529
420
679
872
924
607
452
729
794
844
1010
621

11.20
11.05
6.84
9.21
9.42
10.08
9.45
6.73
7.24
6.12
7.63
9.43
9.46
7.64
6.92
8.95
9.33
10.23
11.77
7.41

Ventas semanales

Diagrama de dispersin de las


ventas semanales y nmero de
clientes

14
12
10
8
6
4
2
0
0

500

1000

Nmero de clientes

- 24 -

1500

En este diagrama observamos una lnea que representa aproximadamente los datos, a la cul se le
denomina: lnea interpolante.
3.3. TIPOS MODELOS DE REGRESION. La naturaleza de la relacin puede tomar formas desde las
ms sencillas hasta la funciones matemticas complicadas. La ms sencilla es la relacin lineal como la
del ejemplo y que se representa por: Y = a + bx + error
El modelo matemtico apropiado que se debe seleccionar est influenciado por la distribucin de los
valores de x y y en el diagrama de dispersin, como ejemplo tenemos los siguientes de la grfica de abajo.
En el panel A sera como el ejemplo, en el B que sera una relacin lineal negativa, un ejemplo podra ser
el precio de un producto y las ventas. En el panel C no observamos ninguna relacin entre variables. El
panel D muestra una relacin curvilnea positiva entre X y Y. Los valores de y aumentan al aumentar x
pero luego este incremento disminuye cuando se sobrepasan ciertos valores de x, un ejemplo podra ser
la edad y el costo de mantenimiento de una mquina, el panel E muestra una relacin parablica en
forma de U, entre X y Y. Conforme aumenta X al principio Y disminuye pero a medida que X sigue
incrementndose y no solamente deja de disminuir sino que en realidad aumenta por encima de su valor
mnimo. Un ejemplo podra ser el nmero de errores por hora cometidos en una cierta tarea y el nmero
de horas trabajadas en ella. En el panel F se presenta una relacin exponencial curvilnea negativa, Y
disminuye rpidamente en la medida que X aumenta, pero luego la disminucin se hace ms lenta
conforme X sigue aumentando. Un ejemplo sera el valor de reventa de un tipo particular de automvil
con respecto a su antigedad.

90

90

80

80

70

70

60

60

50

Series1

50

40

40

30

30

20

20

10

Series1

10

0
0

10

10

90

80

80

70

70
60

60

50

50

Series1

40

Series1

40

30

30

20

20
10

10

0
0

10

10

C
90

6000

80
70

5000

60
50

4000

Series1

40
3000

30
20

2000

10
1000

0
0

10

15

0
0

20

40

60

80

E
- 25 -

20

25

3.4. USO DE ECUASIONES NORMALES.


3.5. ERROR ESTNDAR DE LA ESTIMACION.
3.6. METODO DE MINIMOS CUADRADOS. El Tipo mas simple de curva de regresin es el de la
lnea recta, aunque como ya vimos pueden existir otros tipos, lo que al final buscamos es encontrar
la lnea que mejor se ajusta a los datos matemticamente esto significa hallar la lnea que
minimice la suma de los cuadrados de las distancias entre la lnea del modelo y los puntos de la base
de datos original (medidas en direccin vertical y); para esto se requiere del clculo diferencial (ver
apndice B en Estadstica para negocios de Hanke). Con las siguientes frmulas encontraremos la
pendiente (b) y la ordenada al origen de la recta de regresin muestral.

b=

n xy ( x)( y )
n x 2 ( x ) 2
a=

y b x
n

x = suma de valores de x.
y = suma de valores y
x^2 = suma de los cuadrados de los valores de x
(x)^2= cuadrado de la suma de los valores de x
xy = suma de productos de x e y para cada observacin pareada
n = nmero de observaciones x-y
Para estos clculos desarrollamos la siguiente hoja electrnica.
Donde:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

x
y
907
11.2
926 11.05
506
6.84
741
9.21
789
9.42
889 10.08
874
9.45
510
6.73
529
7.24
420
6.12
679
7.63
872
9.43
924
9.46
607
7.64
452
6.92
729
8.95
794
9.33
844 10.23
1010 11.77
621
7.41
14623 176.11

xy
x^2
y^2
10158.4
822649
125.44
10232.3
857476 122.1025
3461.04
256036
46.7856
6824.61
549081
84.8241
7432.38
622521
88.7364
8961.12
790321 101.6064
8259.3
763876
89.3025
3432.3
260100
45.2929
3829.96
279841
52.4176
2570.4
176400
37.4544
5180.77
461041
58.2169
8222.96
760384
88.9249
8741.04
853776
89.4916
4637.48
368449
58.3696
3127.84
204304
47.8864
6524.55
531441
80.1025
7408.02
630436
87.0489
8634.12
712336 104.6529
11887.7 1020100 138.5329
4601.61
385641
54.9081
134127.9 11306209 1602.0971

Con estos resultados realizamos los clculos:

b=

20(134127.9) (14623)(176.1)
20(11306209) (14623) 2

b = 0.00873
-

26

a=

176.11 0.00873(14623)

= 2.423
20
20

La ecuacin para la mejor lnea recta que se ajusta a estos datos es:
Y = 2.423 + .00873 x
Este modelo de regresin que ha sido ajustado a los datos puede utilizarse ahora para predecir las ventas
semanales. Por ejemplo, digamos que nos gustara utilizar el modelo para predecir las ventas semanales
de una tienda con 600 clientes. Podemos determinar el valor predicho si hacemos X = 600 en nuestra
ecuacin:
Y = 2.423 + 0.00873 ( 600 ) = 7.661
Cuando se hacen predicciones fuera del rango de los valores originales se presupone que la relacin
ajustada es vlida para todos los valores, en donde debe de tenerse cuidado pues el alcance relevante que
tenamos ahora se ha convertido en una extrapolacin. Cuando el calculo se realiza dentro del rango
estamos hablando de una interpolacin.
3.7. COEFICIENTE DE CORRELACION. El coeficiente de correlacin es un valor entre 1 y +1 que
indica la fuerza de la relacin lineal. Para una poblacin se identifica como (la letra griega rho) y para
una muestra se identifica como r.
El valor de 1 indica una relacin lineal negativa perfecta, +1 una relacin lineal positiva perfecta y 0
indica que no hay relacin lineal. La siguiente ecuacin se usa para calcular este coeficiente:

r=

n xy ( x)( y )
n x ( x ) 2 n y 2 ( y ) 2
2

En el ejemplo que venimos desarrollando:

r=

20(134127.9) (14623)(176.11)
20(11306209) 146232 20(1602.0971) (176.11) 2

= 0.9555

Esto indica un grado de correlacin bastante aceptable.

3.7. MEDICIONES DE VARIACION EN REGRESION Y CORRELACION.


Con el fin de examinar que tan bien una variable independiente predice a la variable dependiente en
nuestro modelo estadstico, necesitamos desarrollar algunas medidas de variacin. La primera de ellas es
la SUMA TOTAL DE CUADRADOS (SST), que es una medida de la variacin de los valores Yi
alrededor de su media, Y. Esta se divide en: VARIACION EXPLICADA SUMA DSE CUADRADOS
DEBIDA A LA REGRESION (SSR) que se puede atribuir a la relacin entre X y Y; y la VARIACION
NO EXPLICADA SUMA DE CUADRADOS DEL ERROR (SSE), que se puede atribuir a factores
diferentes a la relacin entre X y Y.

SST = (Y Y ) = Y n Y
2

SSE = (Y Y ) 2 = Y 2 a Y b XY

SSR = ( y y ) 2 = SST SSE


-

27

SSR = a y + b xy n y 2
En el ejemplo:
SSE = 1602.0971-(2.423)(176.11)-(0.00873)(134127.90)=4.446
SST = 1602.0971-20(8.8055)^2 = 51.3605
SSR = (2.423)(176.11)+(0.00873)(134127.90)-20(8.8055)^2=46.9145
SST = SSR + SSE
51.3605 = 46.9145 + 4.446
COEFICIENTE DE DETERMINACIN r^2 puede definirse como:

r2 =

suma cuadrados debido regresin SSR 46.9145


=
=
= 0.913
suma total cuadrados
SST 51.3605

El coeficiente de correlacin puede calcularse tambin a travs de calcular la raz cuadrada del
coeficiente de determinacin. (comprobar esto con el resultado obtenido por la frmula.
EL ERROR ESTANDAR DE LA ESTIMACIN
La ecuacin de regresin no es un pronosticador perfecto, en realidad es un pronosticador aproximado.
La medida de la variabilidad alrededor de la lnea de regresin (su variacin estndar) se conoce como
error estndar de la estimacin. La forma de calcular este error estndar es:

S yx =

( y yp)

n2

El clculo puede simplificarse debido a la siguiente identidad:

( y yp)

= y 2 a y b xy

Quedando de la siguiente forma:

S yx =

a y b xy
n2

En el ejemplo:

S yx =

1602.0971 (2.423)(176.11) (0.00873)(134127.90)


= 0.497
20 2

Con esta informacin podramos construir intervalos de confianza para la ecuacin sumndole el valor
(Syx) (z) a la ecuacin encontrada. El z variar dependiendo del nivel de confianza que deseemos.

You might also like