Professional Documents
Culture Documents
3.1. INTRODUCCION. En la realidad cotidiana encontramos muchos fenmenos donde se observa que
existe una relacin entre dos ms variables por ejemplo: a) nmero de clientes y ventas semanales.
b) cantidades de ventas hechas por varios vendedores y los aos de experiencia de cada vendedor.
Con el fn de expresar esta relacin en forma matemtica (ecuacin que relacione las variables)
hacemos uso del anlisis de regresin el cul bsicamente se utilizar para hacer predicciones, el
objetivo es predecir los valores de una variable repuesta dependiente (a menudo se identifica
con la letra y ) basados en los valores de una variables independiente explicatora (que por
lo general se identifica con la letra x), y para medir la intensidad de la asociacin de las
variables se usar el anlisis de correlacin.
3.2. DIAGRAMA DE DISPERSION. (Diagrama de esparcimiento nube de datos) El primer paso del
anlisis de regresin es coleccionar los datos indicando el valor de las variables (tabla 1.) y se
representa en un sistema de coordenadas cartesianas, al conjunto de estos puntos se le llama:
diagrama de dispersin (ver grfica).
Tabla 1. Nmero de clientes y Ventas semanales (muestra 20 almacenes)
Almacenes
Clientes
Ventas
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
907
926
506
741
789
889
874
510
529
420
679
872
924
607
452
729
794
844
1010
621
11.20
11.05
6.84
9.21
9.42
10.08
9.45
6.73
7.24
6.12
7.63
9.43
9.46
7.64
6.92
8.95
9.33
10.23
11.77
7.41
Ventas semanales
14
12
10
8
6
4
2
0
0
500
1000
Nmero de clientes
- 24 -
1500
En este diagrama observamos una lnea que representa aproximadamente los datos, a la cul se le
denomina: lnea interpolante.
3.3. TIPOS MODELOS DE REGRESION. La naturaleza de la relacin puede tomar formas desde las
ms sencillas hasta la funciones matemticas complicadas. La ms sencilla es la relacin lineal como la
del ejemplo y que se representa por: Y = a + bx + error
El modelo matemtico apropiado que se debe seleccionar est influenciado por la distribucin de los
valores de x y y en el diagrama de dispersin, como ejemplo tenemos los siguientes de la grfica de abajo.
En el panel A sera como el ejemplo, en el B que sera una relacin lineal negativa, un ejemplo podra ser
el precio de un producto y las ventas. En el panel C no observamos ninguna relacin entre variables. El
panel D muestra una relacin curvilnea positiva entre X y Y. Los valores de y aumentan al aumentar x
pero luego este incremento disminuye cuando se sobrepasan ciertos valores de x, un ejemplo podra ser
la edad y el costo de mantenimiento de una mquina, el panel E muestra una relacin parablica en
forma de U, entre X y Y. Conforme aumenta X al principio Y disminuye pero a medida que X sigue
incrementndose y no solamente deja de disminuir sino que en realidad aumenta por encima de su valor
mnimo. Un ejemplo podra ser el nmero de errores por hora cometidos en una cierta tarea y el nmero
de horas trabajadas en ella. En el panel F se presenta una relacin exponencial curvilnea negativa, Y
disminuye rpidamente en la medida que X aumenta, pero luego la disminucin se hace ms lenta
conforme X sigue aumentando. Un ejemplo sera el valor de reventa de un tipo particular de automvil
con respecto a su antigedad.
90
90
80
80
70
70
60
60
50
Series1
50
40
40
30
30
20
20
10
Series1
10
0
0
10
10
90
80
80
70
70
60
60
50
50
Series1
40
Series1
40
30
30
20
20
10
10
0
0
10
10
C
90
6000
80
70
5000
60
50
4000
Series1
40
3000
30
20
2000
10
1000
0
0
10
15
0
0
20
40
60
80
E
- 25 -
20
25
b=
n xy ( x)( y )
n x 2 ( x ) 2
a=
y b x
n
x = suma de valores de x.
y = suma de valores y
x^2 = suma de los cuadrados de los valores de x
(x)^2= cuadrado de la suma de los valores de x
xy = suma de productos de x e y para cada observacin pareada
n = nmero de observaciones x-y
Para estos clculos desarrollamos la siguiente hoja electrnica.
Donde:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
x
y
907
11.2
926 11.05
506
6.84
741
9.21
789
9.42
889 10.08
874
9.45
510
6.73
529
7.24
420
6.12
679
7.63
872
9.43
924
9.46
607
7.64
452
6.92
729
8.95
794
9.33
844 10.23
1010 11.77
621
7.41
14623 176.11
xy
x^2
y^2
10158.4
822649
125.44
10232.3
857476 122.1025
3461.04
256036
46.7856
6824.61
549081
84.8241
7432.38
622521
88.7364
8961.12
790321 101.6064
8259.3
763876
89.3025
3432.3
260100
45.2929
3829.96
279841
52.4176
2570.4
176400
37.4544
5180.77
461041
58.2169
8222.96
760384
88.9249
8741.04
853776
89.4916
4637.48
368449
58.3696
3127.84
204304
47.8864
6524.55
531441
80.1025
7408.02
630436
87.0489
8634.12
712336 104.6529
11887.7 1020100 138.5329
4601.61
385641
54.9081
134127.9 11306209 1602.0971
b=
20(134127.9) (14623)(176.1)
20(11306209) (14623) 2
b = 0.00873
-
26
a=
176.11 0.00873(14623)
= 2.423
20
20
La ecuacin para la mejor lnea recta que se ajusta a estos datos es:
Y = 2.423 + .00873 x
Este modelo de regresin que ha sido ajustado a los datos puede utilizarse ahora para predecir las ventas
semanales. Por ejemplo, digamos que nos gustara utilizar el modelo para predecir las ventas semanales
de una tienda con 600 clientes. Podemos determinar el valor predicho si hacemos X = 600 en nuestra
ecuacin:
Y = 2.423 + 0.00873 ( 600 ) = 7.661
Cuando se hacen predicciones fuera del rango de los valores originales se presupone que la relacin
ajustada es vlida para todos los valores, en donde debe de tenerse cuidado pues el alcance relevante que
tenamos ahora se ha convertido en una extrapolacin. Cuando el calculo se realiza dentro del rango
estamos hablando de una interpolacin.
3.7. COEFICIENTE DE CORRELACION. El coeficiente de correlacin es un valor entre 1 y +1 que
indica la fuerza de la relacin lineal. Para una poblacin se identifica como (la letra griega rho) y para
una muestra se identifica como r.
El valor de 1 indica una relacin lineal negativa perfecta, +1 una relacin lineal positiva perfecta y 0
indica que no hay relacin lineal. La siguiente ecuacin se usa para calcular este coeficiente:
r=
n xy ( x)( y )
n x ( x ) 2 n y 2 ( y ) 2
2
r=
20(134127.9) (14623)(176.11)
20(11306209) 146232 20(1602.0971) (176.11) 2
= 0.9555
SST = (Y Y ) = Y n Y
2
SSE = (Y Y ) 2 = Y 2 a Y b XY
27
SSR = a y + b xy n y 2
En el ejemplo:
SSE = 1602.0971-(2.423)(176.11)-(0.00873)(134127.90)=4.446
SST = 1602.0971-20(8.8055)^2 = 51.3605
SSR = (2.423)(176.11)+(0.00873)(134127.90)-20(8.8055)^2=46.9145
SST = SSR + SSE
51.3605 = 46.9145 + 4.446
COEFICIENTE DE DETERMINACIN r^2 puede definirse como:
r2 =
El coeficiente de correlacin puede calcularse tambin a travs de calcular la raz cuadrada del
coeficiente de determinacin. (comprobar esto con el resultado obtenido por la frmula.
EL ERROR ESTANDAR DE LA ESTIMACIN
La ecuacin de regresin no es un pronosticador perfecto, en realidad es un pronosticador aproximado.
La medida de la variabilidad alrededor de la lnea de regresin (su variacin estndar) se conoce como
error estndar de la estimacin. La forma de calcular este error estndar es:
S yx =
( y yp)
n2
( y yp)
= y 2 a y b xy
S yx =
a y b xy
n2
En el ejemplo:
S yx =
Con esta informacin podramos construir intervalos de confianza para la ecuacin sumndole el valor
(Syx) (z) a la ecuacin encontrada. El z variar dependiendo del nivel de confianza que deseemos.