You are on page 1of 37

GESTION DE LA

CALIDAD
ANALISIS DE REGRESION Y
CORRELACION
ING. RICARDO ANTONIO MARTINEZ FLORES
raflores@ufg.edu.sv
Las tcnicas de regresin y correlacin cuantifican la
asociacin estadstica entre dos o ms variables. La
regresin lineal simple expresa la relacin entre una
variable dependiente Y y una variable independiente
X, en trminos de la pendiente y la interseccin de la
lnea que mejor se ajuste a las variables.
La correlacin simple expresa el grado o la cercana de
la relacin entre las dos variables en trminos de un
coeficiente de correlacin que proporciona una
medida indirecta de la variabilidad de los puntos
alrededor de la mejor lnea de ajuste- Ni la regresin
ni la correlacin dan pruebas de relaciones causa
efecto.
ANALISIS DE CORRELACION
Definicin:

Anlisis de correlacin es el estudio de la relacin
entre variables. Para explicarlo mejor supongamos
que el jefe del departamento de Recursos humanos
desea determinar si hay relacin entre la edad de los
empleados y el nmero de incapacidades anuales.
Otro ejemplo sera si se desea determinar la relacin
entre el nmero de paginas de un libro y el precio de
ste.
Variable independiente:
Una variable que proporciona las bases para el
clculo. Es la variable de prediccin, se suele
representar con la letra X.

Variable dependiente:
La variable que se predice o calcula. se suele
representar con la letra Y.

Diagrama de Dispersin (Scatter Diagram) :
Una grfica que muestra la relacin entre las 2
variables de inters
Usa el plano cartesiano
En el eje horizontal se ubica la variable
independiente (X)
En el eje vertical se ubica la variable dependiente
(Y).
Se dibuja una marca en el punto donde se
interceptan ambos valores: la variable independiente
con la dependiente
Diagrama de Dispersin (Scatter Diagram) :
Ejemplo:
No. Llamadas
No. Copiadoras
vendidas
20 30
40 60
20 40
30 60
10 30
10 40
20 40
20 50
20 30
30 70
No. Copiadoras vendidas
0
10
20
30
40
50
60
70
80
0 10 20 30 40 50
No. Llamadas
N
o
.

c
o
p
i
a
d
o
r
a
s
No. Copiadoras vendidas
Coeficiente de correlacin (r):

El coeficiente de correlacin lineal simple r es un
nmero entre -1 y 1 que indica qu tan bien describe
la ecuacin lineal la relacin entre las dos variables.
Como se muestra en la siguiente figura, r se designa
como positiva si Y se incrementa cuando lo hace X, y
negativa si Y decrece al incrementarse X. Una r de
cero indica una ausencia de relacin entre las dos
variables.
Coeficiente de Correlacin( r ):
Es una medida del grado de la relacin entre dos (2)
variables.
Vara de -1.00 a +1.00.
Valores de -1.00 +1.00 indican una perfecta
correlacin.
Valores ente 0 y -0.5 entre 0 y 0.5 indican una
dbil correlacin.
Valores ente -0.5 y -1 entre 0.5 y 1 indican una
fuerte correlacin.
Valores negativos indican una relacin inversa y
valores positivos indican una relacin directa.
Coeficiente de Correlacin( r ):
La frmula para calcularlo es
( )
y x
s s n
Y y X x
r
1
) )( (

E
=
x: es la variable independiente, se trabaja con la media y la
desviacin estndar (s)
y: es la variable dependiente, se trabaja con la media y la desviacin estndar (s).
n: es el numero de pares de datos en estudio

Otra manera de calcularlo:
El coeficiente de correlacin r es la raz cuadrada del
coeficiente de determinacin:



Cuando el tamao de la muestra es lo
suficientemente grande (v.g., mayor de 50); el valor
de r puede ser calculado ms directamente con base
en:
( ) | || |
2 2
2
2
) (




=
Y Y n X X n
Y X XY n
r

=
2
2
) (
) (
Y Y
Y Y
r
c
Coeficiente de Determinacin( r
2
):
Es el porcentaje de la variacin de la variable
dependiente que se explica por la variacin de la
variable independiente.

Se calcula elevando al cuadrado el coeficiente de
correlacin y multiplicndolo por 100 para obtenerlo
en formato de porcentaje.

Para el ejemplo anterior r
2
=(0.76)
2
*100=58%
Lo cual significa que el la variacin del nmero de
copias vendidas depende del nmero de llamadas en
un 58%
La desviacin de todos los puntos (Y) de la lnea de
regresin (Yc) consiste en la desviacin contabilizada
por la lnea de regresin (explicada) y la variacin
aleatoria (no explicada).
Variacin total = explicada + no explicada



El coeficiente de determinacin r
2
es la razn de la
variacin explicada a la variacin total:



+ =
2 2 2
) ( ) ( ) (
c c
Y Y Y Y Y Y

=
2
2
2
) (
) (
Y Y
Y Y
r
C
Coeficiente de Correlacin( r ):
Ejemplo: de la tabla del ejemplo anterior calcular r.
No.
Llamadas
x
No.
Copiadoras
vendidas
y
x - media (x - media)^2 y - media (y - media)^2 (x - media)*(y - media)
20 30 -2 4 -15 225 30
40 60 18 324 15 225 270
20 40 -2 4 -5 25 10
30 60 8 64 15 225 120
10 30 -12 144 -15 225 180
10 40 -12 144 -5 25 60
20 40 -2 4 -5 25 10
20 50 -2 4 5 25 -10
20 30 -2 4 -15 225 30
30 70 8 64 25 625 200
suma--> 220 450 0 760 0 1850 900
datos--> 10 10
media--> 22 45
desv.std--> 9.189 14.337
( )
7591 . 0
) 337 . 14 )( 189 . 9 ( 1 10
900
=

= r
Coeficiente de Determinacin( r
2
):
Es el porcentaje de la variacin de la variable
dependiente que se explica por la variacin de la
variable independiente.

Se calcula elevando al cuadrado el coeficiente de
correlacin y multiplicndolo por 100 para obtenerlo
en formato de porcentaje.

Para el ejemplo anterior r
2
=(0.76)
2
*100=58%
Lo cual significa que el la variacin del nmero de
copias vendidas depende del nmero de llamadas en
un 58%
Desviacin estndar de la regresin
Una lnea de regresin describe la relacin entre un
valor dado de la variable independiente X y la media
y.x de la distribucin de probabilidad
correspondiente de la variable dependiente Y. El
punto estimado, o pronstico, es la media de la
distribucin para un valor dado X.
La desviacin estndar de la regresin S y.x es una
medida de la dispersin de los datos alrededor de la
lnea de regresin.
2
2
.


=

n
XY b Y a Y
S
X y
La significancia de cualesquier valor de r puede
probarse estadsticamente con una hiptesis para
mostrar que no existe correlacin. Para probarlo, el
valor de r es comparado con un valor de tablas para
un tamao de muestra y un nivel de significancia
dados.
Regresin:
La regresin lineal o ajuste lineal es un mtodo
matemtico que modeliza la relacin entre una
variable dependiente Y, las variables independientes
X
i
y un trmino aleatorio . Este modelo puede ser
expresado como:

donde
0
es la interseccin o trmino "constante", las
son los parmetros respectivos a cada variable
independiente, y p es el nmero de parmetros
independientes a tener en cuenta en la regresin. La
regresin lineal puede ser contrastada con la
regresin no lineal.
Supuestos para un modelo de regresin lineal:

Para poder crear un modelo de regresin lineal, es
necesario que se cumpla con los siguientes supuestos:

1. La relacin entre las variables es lineal.
2. Los errores en la medicin de las variables
explicativas son independientes entre s.
3. Los errores tienen varianza constante.
4. Los errores tienen una esperanza matemtica igual
a cero (los errores de una misma magnitud y
distinto signo son equiprobables).
5. El error total es la suma de todos los errores.
Mnimos cuadrados
Es una tcnica de anlisis numrico encuadrada dentro de la
optimizacin matemtica, en la que, dados un conjunto de pares (o
ternas, etc), se intenta encontrar la funcin que mejor se aproxime a los
datos (un "mejor ajuste"), de acuerdo con el criterio de mnimo error
cuadrtico.
En su forma ms simple, intenta minimizar la suma de cuadrados de las
diferencias ordenadas (llamadas residuos) entre los puntos generados
por la funcin y los correspondientes en los datos. Especficamente, se
llama mnimos cuadrados promedio (LMS) cuando el nmero de datos
medidos es 1 y se usa el mtodo de descenso por gradiente para
minimizar el residuo cuadrado. Se puede demostrar que LMS minimiza
el residuo cuadrado esperado, con el mnimo de operaciones (por
iteracin), pero requiere un gran nmero de iteraciones para converger.
Desde un punto de vista estadstico, un requisito implcito para que
funcione el mtodo de mnimos cuadrados es que los errores de cada
medida estn distribuidos de forma aleatoria.
Mnimos cuadrados

El teorema de Gauss-Mrkov prueba que los estimadores mnimos
cuadrticos carecen de sesgo y que el muestreo de datos no tiene que
ajustarse, por ejemplo, a una distribucin normal. Tambin es
importante que los datos recogidos estn bien escogidos, para que
permitan visibilidad en las variables que han de ser resueltas (para dar
ms peso a un dato en particular-
La tcnica de mnimos cuadrados se usa comnmente en el ajuste de
curvas. Muchos otros problemas de optimizacin pueden expresarse
tambin en forma de mnimos cuadrados, minimizando la energa o
maximizando la entropa.
Regresin:
El modelo de regresin lineal simple toma la forma :
Y = a + bx,
donde
y = variable dependiente
x = variable independiente.
Los valores de la pendiente b y la interseccin a se
obtienen usando las ecuaciones normales escritas en
la forma conveniente.



=
2
2
X n x
XY n xy
b
x b Y a =
Ejemplo

El gerente general de una planta de produccin de
materiales de construccin considera que la demanda
de embarques de aglomerado puede estar
relacionado con el nmero de permisos de
construccin emitidos en el municipio durante el
trimestre anterior.

El gerente ha recolectado los datos que se muestran
en la tabla.
Permisos de Embarques de
construccin (X) conglomerado (Y)
15 6
9 4
40 16
20 6
25 13
25 9
15 10
35 16

Se pide determinar una estimacin de los embarques
cuando el nmero de permisos de construccin es 30.
En el siguiente diagrama de dispersin se puede ver
que los datos no son perfectamente lineales; sin
embargo, se puede hacer un enfoque lineal sobre este
periodo corto
Se realizan los clculos como se muestra en la
siguiente tabla

n X Y XY X
2
Y
2

1 15 6 90 225 36
2 9 4 36 81 16
3 40 16 640 1600 256
4 20 6 120 400 36
5 25 13 325 625 169
6 25 9 225 625 81
7 15 10 150 225 100
8 35 16 560 1225 256
Totales 184 80 2146 5006 950

Se calcula las medias aritmticas de X y Y
X = 23 Permisos de construccin/Trimestre
Y = 10 Embarques/Trimestre

Se calculan los valores de la pendiente b y la
interseccin a:



a = 10 0.395(23)

b = 0.395 a = 0.915



=
2
2
X n x
XY n xy
b
) 23 )( 23 ( 8 5006
) 10 )( 23 ( 8 2146

= b
x b Y a =
Se plantea la ecuacin de la regresin

Y = a + bx

Y = 0.915 + 0.395X

Donde:
X = permisos de construccin
Y = embarques.
Entonces, el nmero de embarques cuando el nmero
de permisos de construccin es 30 se puede
encontrar sustituyendo el valor en la ecuacin.

X = 30

Y = 0.915 + 0.395(30)

Y = 12.76 13

El nmero de embarques ser de 13
aproximadamente.
Desviacin estndar de la regresin

Dados los datos de los permisos y embarques
calclese la desviacin estndar de la regresin

En la siguiente grafica se muestra el comportamiento
de la desviacin
Por lo tanto, la desviacin estndar de la regresin es:







Syx = 2.2 embarques/Permiso de construccin
2
2
.


=

n
XY b Y a Y
S
X y
2 8
) 2146 )( 396 . 0 ( ) 80 )( 91 . 0 ( 950
.


=
X Y
S
Coeficiente de correlacin de Pearson:










r = 0.902
( ) | || |
2 2
2
2
) (




=
Y Y n X X n
Y X XY n
r
| || |
2 2
) 80 ( ) 950 ( 8 ) 184 ( ) 5006 ( 8
) 80 )( 184 ( ) 2146 ( 8


= r
= =
7430400
2448
r
Coeficiente de determinacin:
r
2
= (0.902)
2


r
2
= 0.8136

r
2
= 81.36%
Ejercicio:
Dada la siguiente tabla, que muestra edades versus alturas,
de un conjunto de estudiantes se pide realizar:
1. Diagrama de dispersin o nube de puntos
2. Calcular la ecuacin lineal de la recta de regresin
mediante el mtodo de cuadrados mnimos
3. Calcularla lnea de regresin mediante el mtodo de
cuadrados mnimos
4. Dibujar sobre la grfica la lnea de regresin basada en la
ecuacin de regresin obtenida
5. Calcular el coeficiente de correlacin de Pearson.
6. Calcular el coeficiente de determinacin.
7. Calcular la desviacin estandar de la regresin.
8. Estimar la edad de un estudiante de 1,74 m de altura
9. Estimar la altura de un estudiante de 25 aos de edad.
Modelo Potencial Exponencial Logartmico
Ecuacin
Ecuacin
Linealizada
----------
Grfica
Y Log y Ln y y
X Log x x Log x
A Log a Ln a a
B b b b
a A
b B B B
b
ax y =
x b a y log log log + =
bx
ae y =
x b a y log + =
bx a y + = ln ln
Log y
Log x
Ln y
x
y
Log x
A
10
A
e
Antes de proceder a la regresin, hay que transformar la ecuacin no lineal, y = f(x), en otra del tipo Y = A
+ BX, donde Y, X, A y B son funciones de y, x, a y b respectivamente.
(c) Rosario Ruiz Baos. Departamento de Biblioteconoma y Documentacin. Universidad de Granada (Espaa)