You are on page 1of 21

Anlisis de regresin y correlacin lineal.

CORRELACIN LINEAL Y ANLISIS DE REGRESIN


Autores:

Alicia Vila (avilag@uoc.edu), Mximo Sedano (msedanoh@uoc.edu), Ana Lpez

(alopezrat@uoc.edu), ngel A. Juan (ajuanp@uoc.edu),

MAPA CONCEPTUAL

________________________

Definicin

Con frmula

Ejemplo con la
definicin

Definicin

Correlacin
lineal

Deteccin grfica

Regresin lineal
(recta de mnimos
cuadrados)

Representacin
grfica

Supuestos del
modelo de
regresin

Por la
definicin

Inferencia en el
modelo de
regresin

Coeficiente de
Determinacin

Con frmula

Definicin

Por la
definicin

Con frmula

Clculo con
Minitab

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de regresin y correlacin lineal.

INTRODUCCIN

___________________

El objetivo de este math-block es analizar el grado de la relacin existente entre variables


utilizando modelos matemticos y representaciones grficas. As pues, para representar la
relacin entre dos o ms variables desarrollaremos una ecuacin que permitir estimar una
variable en funcin de la otra.
Por ejemplo, en qu medida, un aumento de los gastos en publicidad hace aumentar las
ventas de un determinado producto?, cmo representamos que la bajada de temperaturas
implica un aumento del consumo de la calefaccin?,...
A continuacin, estudiaremos dicho grado de relacin entre dos variables en lo que
llamaremos anlisis de correlacin. Para representar esta relacin utilizaremos una
representacin grfica llamada diagrama de dispersin y, finalmente, estudiaremos un
modelo matemtico para estimar el valor de una variable basndonos en el valor de otra, en
lo que llamaremos anlisis de regresin.

OBJETIVOS

________________________

Aprender a calcular la correlacin entre dos variables

Saber dibujar un diagrama de dispersin

Representar la recta que define la relacin lineal entre dos variables

Saber estimar la recta de regresin por el mtodo de mnimos cuadrados e interpretar su


ajuste.

Realizar inferencia sobre los parmetros de la recta de regresin

Construir e interpretar intervalos de confianza e intervalos de prediccin para la variable


dependiente

Realizar una prueba de hiptesis para determinar si el coeficiente de correlacin es distinto


de cero

CONOCIMIENTOS PREVIOS

___________________________________

Es recomendable haber ledo, previamente, los math-blocks Estimacin puntual e intervalos


de confianza y Contraste de hiptesis para dos poblaciones, as como los ejercicios
asociados resueltos con Minitab.

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de regresin y correlacin lineal.

CONCEPTOS FUNDAMENTALES___________________________________
Definicin de Correlacin Lineal
En ocasiones nos puede interesar estudiar si existe o no algn tipo de relacin entre dos
variables aleatorias. As, por ejemplo, podemos preguntarnos si hay alguna relacin entre las
notas de la asignatura Estadstica I y las de Matemticas I. Una primera aproximacin al
problema consistira en dibujar en el plano R2 un punto por cada alumno: la primera coordenada
de cada punto sera su nota en estadstica, mientras que la segunda sera su nota en
matemticas. As, obtendramos una nube de puntos la cual podra indicarnos visualmente la
existencia o no de algn tipo de relacin (lineal, parablica, exponencial, etc.) entre ambas notas.
Otro ejemplo, consistira en analizar la facturacin de una empresa en un periodo de tiempo dado
y de cmo influyen los gastos de promocin y publicidad en dicha facturacin. Si consideramos
un periodo de tiempo de 10 aos, una posible representacin sera situar un punto por cada ao
de forma que la primera coordenada de cada punto sera la cantidad en euros invertidos en
publicidad, mientras que la segunda sera la cantidad en euros obtenidos de su facturacin. De
esta manera, obtendramos una nube de puntos que nos indicara el tipo de relacin existente
entre ambas variables.
En particular, nos interesa cuantificar la intensidad de la relacin lineal entre dos variables. El
parmetro que nos da tal cuantificacin es el coeficiente de correlacin lineal de Pearson r,
cuyo valor oscila entre 1 y +1 :
n

Cov( X , Y )
1 r =
=
s X sY

(X
t =1

(X
t =1

X ) (Yt Y )

X) *
2

(Y

t =1

Y )

CORRELACIN LINEAL NEGATIVA ( r = -1 )

VARIABLES NO CORRELACIONADAS ( r = 0 )

X
CORRELACIN NO LINEAL ( r = 0 )

CORRELACIN LINEAL POSITIVA ( r = +1 )

+1
2

2
1

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de regresin y correlacin lineal.

Como se observa en los diagramas anteriores, el valor de r se aproxima a +1 cuando la


correlacin tiende a ser lineal directa (mayores valores de X significan mayores valores de Y),
y se aproxima a 1 cuando la correlacin tiende a ser lineal inversa.
Es importante notar que la existencia de correlacin entre variables no implica causalidad.
Atencin!: si no hay correlacin de ningn tipo entre dos v.a., entonces tampoco habr
correlacin lineal, por lo que r = 0. Sin embargo, el que ocurra r = 0 slo nos dice que no hay
correlacin lineal, pero puede que la haya de otro tipo.
El siguiente diagrama resume el anlisis del coeficiente de correlacin entre dos variables:
Correlacin
negativa
perfecta

- 1.00

Correlacin Correlacin Correlacin


negativa
negativa
negativa
fuerte
moderada
dbil

Ninguna
correlacin

- 0.50

Correlacin Correlacin Correlacin


positiva
positiva
positiva
dbil
moderada fuerte

0.50

Correlacin
postiva
perfecta

1.00

Definicin y caractersticas del concepto de Regresin Lineal


En aquellos casos en que el coeficiente de regresin lineal sea cercano a +1 o a 1, tiene
sentido considerar la ecuacin de la recta que mejor se ajuste a la nube de puntos (recta de
mnimos cuadrados). Uno de los principales usos de dicha recta ser el de predecir o estimar
los valores de Y que obtendramos para distintos valores de X. Estos conceptos quedarn
representados en lo que llamamos diagrama de dispersin:

Nube de puntos y recta de mnimos cuadrados


8
7
6

5
4
3
2
1
1

La ecuacin de la recta de mnimos cuadrados (en forma punto-pendiente) es la siguiente:

y y =

Cov( X , Y )
sx

(x x)

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de regresin y correlacin lineal.


Veamos con detalle estos conceptos mediante un ejemplo:
Si queremos estudiar la relacin existente entre ambas variables, siguiendo con el ejemplo
anterior referente a la relacin entre las ventas de una empresa (Vt ) y sus gastos en
publicidad (GPt ) , lo que podemos hacer es representar grficamente el modelo matemtico
lineal que podemos considerar para analizar dicha relacin.

Vt = 1 + 2 GPt + u t
Supongamos que disponemos de los siguientes datos:

Ao

Ventas en millones de euros. Gastos en publicidad en millones de euros.

1998

200

30

1999

400

50

2000

800

50

2001

1.200

60

2002

900

60

A partir de este modelo matemtico lineal, vamos a analizar la relacin entre ambas variables,
la variable ventas (Vt ) que es la variable dependiente del modelo y la variable que vamos a
analizar y los gastos en publicidad (GPt ) que es la variable independiente o la variable
explicativa que vamos a utilizar para estudiar las ventas.
En este modelo queremos comprobar qu influencia tienen los gastos de publicidad sobre el
volumen de facturacin o las ventas de la empresa.
Para poder cuantificar dicha relacin, debemos tambin representar la recta de regresin que
subyace en el modelo matemtico que relaciona ambas variables.
Para cuantificar la relacin entre ambas variables y tener un aproximacin de la magnitud de
la influencia de los gastos en publicidad sobre las ventas de la empresa debemos estimar el
modelo por mnimos cuadrados ordinarios (M.C.O.) donde se minimiza la suma de los
cuadrados de los residuos.
La recta en rojo (que aparece a continuacin en el grfico), es la que mejor se ajusta a la
nube de puntos que tenemos. Dicho de otra forma, es la recta que hace que el error de
estimacin, definido como la distancia entre el valor observado y el valor estimado de la
variable endgena (en el grfico, es la distancia vertical sealada por la flecha en rojo), sea la
mnima para cada una de las observaciones (recta de mnimos cuadrados), esta recta ser la
que utilizaremos para predecir o estimar los valores de Y que obtendremos para distintos
valores de X.

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de regresin y correlacin lineal.


La diferencia entre un valor observado y el valor estimado lo denominaremos residuo.
Residuo = Yt Yt
Nuestro problema consiste en minimizar la suma de los cuadrados de los residuos de los
n

cuadrados de los residuos,

u
t =1

2
t

. De este problema de optimizacin se deduce la expresin

de mnimos cuadrados ordinarios del MRLM:


n

Min u t2

Criterio MCO:

t =1

Como ya hemos citado anteriormente, la ecuacin de la recta de mnimos cuadrados (en


forma punto-pendiente) es la siguiente:
n

Cov( X , Y )
Y Y =
(X X ) =
2
sx

(X
t =1

(X
t =1

2002

2 =

(GP G P )(V

t =1998
2002

(GP G P )

t =1998

V )
=
2

X ) (Yt Y )
t

X)

(X X )

17.000
= 28,3 , sta sera la estimacin de la pendiente
600

de la recta por mnimos cuadrados.


Por otro lado, 1 = V 2 G P = 700 28,333 50 = 716,6 , y sta sera la estimacin de
la ordenada de la recta de regresin el punto de corte de la recta con los ejes.
Por tanto, Y = 716,6 + 28,3X
La representacin grfica de los datos anteriores es la que sigue:

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de regresin y correlacin lineal.

Regression Plot
Y = -716,667 + 28,3333X
R-Sq = 75,3 %
1200

1000

VENTAS

800

error de
estimacin (ut)

600

400

200

0
30

40

50

60

Publicidad

Del diagrama anterior, cabe observar que no todos los puntos estn en la lnea de regresin.
Si todos lo estuvieran y, adems, si el nmero de observaciones fuera suficientemente
grande, no habra ningn error de estimacin. En ese caso, no habra ninguna diferencia entre
el valor observado y el valor de prediccin.
Como imaginamos, en los casos reales, las predicciones perfectas son prcticamente
imposibles y lo que necesitamos es una medida que describa cmo de precisa es la
prediccin de Y en funcin de X o, inversamente, qu inexacta puede ser la estimacin.
A esta medida se le llama error estndar de estimacin y se denota Syx. El error estndar
de estimacin, es el mismo concepto que la desviacin estndar, aunque sta mide la
dispersin alrededor de la media y el error estndar mide la dispersin alrededor de la lnea
de regresin.

Interpretacin de los coeficientes estimados


Segn la recta de mnimos cuadrados, al incrementarse en un milln de euros los gastos en
publicidad, la cantidad de facturacin obtenida se incrementar en 28,3 millones de euros. Y
cuando no se haga ningn esfuerzo publicitario, las ventas segn la recta sern negativas.
Esto se puede entender como que no se vende nada o que si no se hace ningn esfuerzo
publicitario se obtienen unas ventas negativas, en el sentido de que hay otros gastos a la hora
de vender que provocan que al final haya ventas negativas.
La correlacin entre ambas variables es muy alta, ya que el coeficiente de correlacin r = 0.87
est muy prximo a 1.
2002

Cov( X , Y )
r=
=
s X sY

(GP G P ) (V
t

t =1998
2002

(GP G P )

t =1998

V )
= 0,868

2002

(V

t =1998

V )2

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de regresin y correlacin lineal.


Para profundizar ms en los conceptos vistos hasta el momento o para entender
grficamente como funcionan, a continuacin citamos algunos enlaces web interesantes:
En el enlace: http://www.stat.wvu.edu/SRS/Modules/Applets/Regression/regression.html
encontraremos un applet en el que modificando los datos de la variable X e Y podemos
construir la recta de regresin. El grfico resultante ser similar al siguiente:

Un applet de similares caractersticas lo encontraremos en:


http://www.kuleuven.ac.be/ucs/java/version2.0/Applet010.html

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de regresin y correlacin lineal.


Los conceptos de regresin lineal y correlacin entre variables se aplican a innumerables
aspectos de la vida real, tanto en el mbito social, como cientfico,... En el siguiente enlace:
http://www.fisterra.com/material/investiga/regre_lineal_simple/regre_lineal_simple.htm#1
encontramos un claro ejemplo de cmo utilizar estos conceptos para ver la relacin entre la
Tensin arterial sistlica y la edad, a partir de una muestra de 69 pacientes.

Supuestos del modelo de regresin lineal


En el caso en que nuestras observaciones sean una muestra aleatoria proveniente de una
poblacin, estaremos interesados en realizar inferencias sobre la misma. A fin de que estas
inferencias sean estadsticamente razonables, se han de cumplir las siguientes condiciones:
1. En la poblacin, la relacin entre las variables X e Y debe ser aproximadamente
lineal, i.e.: y = 1 + 2 x + , siendo la v.a. que representa los residuos
(diferencias entre el valor estimado por el modelo y el verdadero valor de Y ).
2. Los residuos se distribuyen segn una Normal de media 0, i.e.,

N (0, 2 ) .

3. Los residuos son independientes unos de otros.


4. Los residuos tienen varianza 2 constante.
Afortunadamente, el modelo de regresin lineal es bastante robusto, lo que significa que no
es necesario que las condiciones anteriores se cumplan con exactitud (en particular las tres
ltimas).

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de regresin y correlacin lineal.

Definicin del Coeficiente de Determinacin


Denominamos coeficiente de determinacin R2 como el coeficiente que nos indica el
porcentaje del ajuste que se ha conseguido con el modelo lineal, es decir el porcentaje de la
variacin de Y(ventas) que se explica a travs del modelo lineal que se ha estimado, es decir
a travs del comportamiento de X (publicidad) . A mayor porcentaje mejor es nuestro modelo
para predecir el comportamiento de la variable Y
Tambin se puede entender este coeficiente de determinacin como el porcentaje de
varianza explicada por la recta de regresin y su valor siempre estar entre 0 y 1 y siempre
es igual al cuadrado del coeficiente de correlacin (r).

R2 = r 2
Es una medida de la proximidad o de ajuste de la recta de regresin a la nube de puntos.
Tambin se le denomina bondad del ajuste.

1 R 2 nos indica qu porcentaje de las variaciones no se explica a travs del modelo de

regresin, es como si fuera la varianza inexplicada que es la varianza de los residuos.

En nuestro ejemplo, el coeficiente de determinacin nos da bajo, el 75,3%, por lo que slo
conseguimos explicar el 75,3 % de las variaciones de las ventas a travs del ajuste por medio
de los gastos en publicidad.

Inferencia en el modelo de regresin


Una vez que hemos calculado la recta de regresin y el ajuste que hemos conseguido con el
modelo de regresin lineal, el siguiente paso consiste en analizar si la regresin en efecto es
vlida y la podemos utilizar para predecir. Para ello debemos contrastar si la correlacin entre
ambas variables es distinta de cero o si el modelo de regresin es vlido en el sentido de
contrastar si el anlisis de nuestra variable endgena (Y). es vlido a travs de la influencia
de la variable explicativa (X).
Supongamos por un lado que el coeficiente de correlacin lineal r, est prximo a +1 o a 1,
y por tanto parece indicar la existencia de una correlacin lineal entre los valores de la
muestra. Pero este valor del coeficiente de correlacin lineal muestral entre ambas variables
no garantiza que tambin estn correlacionadas en la poblacin.
Para poder contrastar esta suposicin, una vez que hemos estimado la recta de regresin y
hemos obtenido las estimaciones de los parmetros del modelo; Vt = 1 + 2 GPt + u t
como Vt = 1 + 2 GPt .
Ahora lo que debemos es comprobar si esta estimacin de este modelo es vlida en el
sentido de si es significativa de forma que la variable Publicidad (X) es relevante para explicar
(Y) que son las ventas. Entonces debemos contrastar si la pendiente de la recta de
regresin poblacional 2 es significativamente distinta de cero, de ah tendramos que, en
efecto, existe una correlacin lineal entre ambas variables poblacionales.

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

10

Anlisis de regresin y correlacin lineal.


Los dos contrastes siguientes son equivalentes porque si el coeficiente de correlacin , r, es

S
cero tambin lo ser la estimacin de la pendiente, 2 puesto que: 2 = r Y

SX

(1)

donde

H 0 : = 0

H 1 : 0

H 0 : 2 = 0

H 1 : 2 0

(2)

es el coeficiente de correlacin entre ambas variables.

El estadstico (t-Student) que se utiliza para realizar el test (2 ) es el siguiente:

2
t= 2
t n 2,
2
S

),

S =

donde

1 Y 2 XY

(
X)

(n 2) X
n

donde t(n-2,/2) es el valor asociado a una t-Student con n-2 grados de libertad que deja a su
derecha un rea de /2 (o, equivalentemente, deje a su izquierda un rea de 1 - /2).
OJO!: si en vez de realizar el contraste bilateral ( 2 ) deseamos hacer un contraste unilateral
(en el cual la hiptesis alternativa sera H1 : 2 > 0 H1 : 2 < 0 ), deberemos sustituir en la
frmula anterior /2 por (ya que ahora trabajaremos con una nica cola de la distribucin).
Finalmente, tambin podemos obtener el intervalo de confianza para 1 a nivel de confianza
(1-) utilizando la expresin:

2 t n 2, 2 * s

Siguiendo con el ejemplo anterior, el estadstico de contraste nos queda:

)
2 2 28,3 0
t=
=
= 3,02
S
9,38
2

Si calculamos el p-valor de t = 3,02 con tres grados de libertad, vamos a la tabla t-student y
debemos calcular el rea que hay por encima de t = 3,02 y el rea por debajo de t= -3,02, si
miramos en la tabla , el valor de t ms cercano es t = 3,1824 que le corresponde un rea de
0,025, por lo que a t>=3,02 le corresponder un rea menor, por lo que el p-valor ser algo
menor del 0,05=2*0,025.
Por lo que, si el nivel de significacin es del 5%, como el p-valor es menor que 0,05,
rechazaremos la hiptesis nula a un nivel de significacin del 5%,. Esto indica que existen
evidencias estadsticas de que la variable gastos en publicidad es una variable relevante o
que influye sobre las ventas.
Es interesante notar que todo lo que hemos realizado sobre el coeficiente 2 es tambin
aplicable al coeficiente 1.

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

11

Anlisis de regresin y correlacin lineal.

CASOS PRCTICOS CON SOFTWARE________________________________


1. En la siguiente tabla, se muestran los datos registrados de las ventas en millones de euros y
de los gastos incurridos en publicidad, tambin en millones de euros, por una empresa
industrial que fabrica sillas abatibles para oficina:
Gtos de publicidad (millones euros) (X)

Volumen de ventas (millones euros) (Y)

14,2226
13,9336
15,5040
16,3105
17,4936
19,8906
21,4803
20,4046
21,4776
22,6821
20,9722
23,3538
26,1040
29,1101
27,2418
23,0096
27,6116
32,1111
36,1788
37,5671
33,5069
36,6088
31,1554
32,7752
41,1886
39,9715
39,6866
40,2991
40,9538
41,9323
39,8393

95,065
97,281
103,159
107,607
113,860
121,153
129,102
132,340
138,663
142,856
143,120
147,928
155,955
164,946
163,921
163,426
172,485
180,519
190,509
196,497
196,024
200,832
196,769
205,341
220,230
228,703
236,500
244,560
254,771
263,683
268,304

a) Calcular el coeficiente de correlacin lineal entre las variables ventas y gastos de


publicidad.
Seleccionamos Stat > Basic Statistics > Correlation :

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

12

Anlisis de regresin y correlacin lineal.

Correlations (Pearson)
Correlation of Publicidad y ventas = 0.973, P-Value = 0.000

El valor obtenido para el coeficiente de correlacin es de 0,973, lo cual hace suponer que, en
principio, la correlacin entre ambas variables es muy alta por lo que se puede prever que en
la regresin obtendremos un buen ajuste.
b) Representar la nube de puntos (grfico x-y) ventas vs. publicidad, junto con la recta de
regresin asociada. Piensas que el modelo obtenido sirve para explicar las ventas
obtenidas por esta empresa en los ltimos treinta aos en funcin de lo que se ha
gastado en publicidad?
Seleccionamos Stat > Regression > Fitted Line Plot :

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

13

Anlisis de regresin y correlacin lineal.

Regression Plot
Y = 21,1667 + 5,33582X
R-Sq = 93,7 %

Ventas

250

200

150

100

20

30

40

Publicidad

Regression
The regression equation is
y = 21,2 + 5,34 x
Predictor
Constant
x
S = 12,94

Coef
21,167
5,3358

StDev
7,687
0,2568

R-Sq = 93,7%

T
2,75
20,78

P
0,010
0,000

R-Sq(adj) = 93,5%

Como se aprecia en el grfico, el modelo lineal simple ajusta con mnimos errores la
evolucin de las ventas en funcin de los gastos en publicidad. De hecho, si nos fijamos en
el valor del coeficiente de determinacin R-sq, veremos que este modelo explica casi el 94%
del comportamiento de las ventas a travs de la evolucin, por lo que es un buen ajuste y
por tanto, los residuos son mnimos.

c)

Presenta la muestra suficiente evidencia, a un nivel de significacin de 0,05, como


para rechazar la hiptesis nula sobre la pendiente (H0: pendiente de la recta es cero)?

En el output anterior podemos ver que el p-valor asociado al contraste de hiptesis anterior
es casi cero. Como este valor es menor que = 0,05, debemos rechazar la hiptesis nula,
i.e., concluiremos que la pendiente de la recta es distinta de cero o, lo que es lo mismo, que
el coeficiente de correlacin poblacional es no nulo (es decir, que ambas variables estn
correlacionadas y que, por tanto, el modelo tiene sentido).

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

14

Anlisis de regresin y correlacin lineal.


2. La informacin estadstica obtenida de una muestra de tamao 12 sobre la relacin existente
entre la inversin hecha y el rendimiento obtenido en miles de euros para explotaciones
agropecuarias se muestra la tabla siguiente:
Inv

11

14

16

15

16

18

20

31

14

20

19

11

Rend.

10

10

a)

Calcula el coeficiente de correlacin lineal, as como la recta de regresin. Calcula


adems, la previsin de inversin que se obtendr con un rendimiento de 8000
Seleccionamos Stat > Basic Statistics > Correlation y obtenemos:

Correlations (Pearson)
Correlation of Rend. and Inv. = 0.618, P-Value = 0.032

Como el coeficiente de correlacin lineal es 0.618 no podemos deducir que exista una
relacin fuerte ni dbil, tendramos que realizar un contraste de hiptesis para saberlo con
claridad.
Calculemos ahora la recta de regresin. Para ello, seleccionaremos Stat > Regression >
Fitted Line Plot:

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

15

Anlisis de regresin y correlacin lineal.


A partir de este grfico, observamos que no existe ninguna correlacin entre las dos
variables.
Para conocer ms detalles, seleccionamos Stat > Regression > Regression:
Regression Analysis
The regression equation is
Inv. = - 1.68 + 0.452 Rend.
Predictor
Constant
Rend.
S = 2.060

Coef
-1.682
0.4522

StDev
3.015
0.1819

R-Sq = 38.2%

T
-0.56
2.49

P
0.589
0.032

R-Sq(adj) = 32.0%

Analysis of Variance
Source
Regression
Residual Error
Total

DF
1
10
11

SS
26.230
42.437
68.667

MS
26.230
4.244

F
6.18

P
0.032

As pues, la recta de regresin ser:


Inv=-1.68 + 0.452*Rend
Por tanto, para obtener un rendimiento de 8000 , tendramos que hacer una inversin de...
Inv = -1.68 + 0.452*8000 = 3614.32

b)

Presenta la muestra suficiente evidencia, a un nivel de significacin de 0,05, como


para rechazar la hiptesis nula sobre la pendiente (H0: pendiente de la recta es cero)?
En el output anterior podemos ver que el p-valor asociado al contraste de hiptesis
anterior es 0,032. Como este valor es menor que = 0,05, debemos rechazar la
hiptesis nula, i.e., concluiremos que la pendiente de la recta es distinta de cero o, lo
que es lo mismo, que el coeficiente de correlacin poblacional es no nulo (es decir,
que ambas variables estn correlacionadas y que, por tanto, el modelo tiene sentido).

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

16

Anlisis de regresin y correlacin lineal.


3. La entidad bancaria City Banking est estudiando el nmero de veces por da que se usa el
cajero automtico localizado en un barrio de una determina ciudad espaola del sur. Los
siguientes datos son las veces por da que fue usado el cajero en los ltimos 30 das:
83
63
95

64
80
36

84
84
78

76
73
61

84
68
59

54
52
84

75
65
95

59
90
47

70
52
87

61
77
60

a) Realiza un dotplot de los valores anteriores y comenta los resultados.


Para dibujar el dotplot, seleccionamos Graph > Dotplot:

Del grfico anterior podramos concluir que el valor que ms se repite es 84 y,


adems, podemos apreciar que los datos no parecen seguir una distribucin normal.

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

17

Anlisis de regresin y correlacin lineal.


b) Dibujar un diagrama de cajas (boxplot) asociado a los datos anteriores, as como
tambin los estadsticos descriptivos correspondientes.
Para realizar el diagrama de cajas, seleccionamos Graph > Boxplot, y en el eje de las
Y, insertamos cada una de las columnas:

Del anterior grfico se desprende que el valor mximo es 95 y el mnimo 36. As


mismo, el valor de la mediana estar aproximadamente entre 70 y 75. Los cuartiles
primero y tercero sern 60 y 85 aproximadamente.
Verifiquemos estos resultados anteriores calculando los estadsticos descriptivos.
Seleccionamos Stat > Basic Statistics > Display Basic Statistics:
Descriptive Statistics
Variable
C1

N
30

Variable
C1

Minimum
36.00

Mean
70.53
Maximum
95.00

Median
71.50

TrMean
70.88

Q1
59.75

Q3
84.00

StDev
14.82

SE Mean
2.71

Por tanto, como vemos en este resultado, los valores correspondientes a la media,
mediana, mximo, mnimo y cuartiles coinciden con los comentados a partir del
diagrama de cajas.
b) Adems, se quiere tambin estudiar cul es la relacin entre la cantidad gastada
semanalmente en comida (en euros) y el nmero de miembros de una familia.
Para ello, cogemos una muestra de 10 familias del barrio obteniendo los
siguientes resultados:
Miembros
familia
Cantidad
gastada

99

104

151

129

142

74

91

119

91

142

Determina el coeficiente de correlacin entre las dos variables. Calcula y representa


tambin la recta de regresin.
Qu cantidad gastada en comida cabra esperar si el nmero de miembros de una
familia aumenta a 8?

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

18

Anlisis de regresin y correlacin lineal.


Para calcular el coeficiente de correlacin, seleccionamos Stat > Basic Statistics >
Correlation:

Correlations (Pearson)
Correlation of miembros f and cantidad g = 0.589, P-Value = 0.073
Como vemos, el coeficiente de correlacin es de 0.589, lo cual indica que existe cierta correlacin
entre el nmero de miembros de una familia y la cantidad gastada semanalmente.
Para representar la recta de regresin, utilizamos la opcin Stat > Regresin > Fitted Line Plot :

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

19

Anlisis de regresin y correlacin lineal.

A partir de este grfico observamos que sorprendentemente, parece no existir apenas


correlacin entre el nmero de miembros de una familia y la cantidad gastada en alimentos
semanalmente.
The regression equation is
y = 60.4 + 11.3 x
Predictor
Constant
x
S = 20.82

Coef
60.36
11.276

StDev
25.47
5.467

R-Sq = 34.7%

T
2.37
2.06

P
0.045
0.073

R-Sq(adj) = 26.6%

Analysis of Variance
Source
Regression
Residual Error
Total

DF
1
8
9

SS
1843.6
3467.3
5310.9

MS
1843.6
433.4

F
4.25

P
0.073

Por tanto, la recta de regresin es:


cantidad_g = 60.4 + 11.3(miembros_f)
As pues, la cantidad que esperamos gastar en una familia de 8 miembros ser:
Cantidad_g = 60.4 + 11.3 * 8 = 150.8

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

20

Anlisis de regresin y correlacin lineal.

BIBLIOGRAFA

____________________________

[1]

D.A. Lind, R.D. Mason, W.G. Marchal (2001): Estadstica para Administracin y Economa.
Ed. Irwin McGraw-Hill.F.

[2]

Kvanli, A. Introduction to Business Statistics South-Western

[3]

R. Johnson (1996): Elementary Statistics. Ed. Duxbury

[4]

Richard I. Levin & David S. Rubin (1996): Estadstica para Administradores. Ed. Prentice
Hall.

[5]

E. Farber (1995): A Guide to Minitab. Ed. McGraw-Hill.

ENLACES

___________________________________

http://www.unalmed.edu.co/~estadist/regression/regresion.htm : Caractersticas y applet de


Regresin lineal.
http://kitchen.stat.vt.edu/~sundar/java/applets/ : Applets de Java de Estadstica
http://huizen.dds.nl/~berrie/ : Coleccin de enlaces a applets de Java de Estadstica
http://e-stadistica.bio.ucm.es/mod_regresion/regresion_applet.html : Caractersticas y applets
de regresin lineal simple
http://www.stat.wvu.edu/SRS/Modules/Applets/Regression/regression.html : Applet de Java
para calcular la recta de regresin
http://www2.egr.uh.edu/%7Eemw30693/applet.htm : Applet de Java para calcular la recta de
regresin
http://www.ruf.rice.edu/%7Elane/stat_sim/reg_by_eye/index.html : Ejemplo de recta de
regresin y correlacin lineal
http://www.kuleuven.ac.be/ucs/java/version2.0/Applet010.html : Applet para calcular la recta
de regresin
http://www.kuleuven.ac.be/ucs/java/index.htm : Coleccin de applets para mostrar conceptos
de estadstica.
http://ima.udg.es/Docencia/02-03/3105100015/Dossier_Rev.pdf : Ejercicios resueltos con
Minitab de la Universitat de Girona.

Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

21

You might also like