You are on page 1of 16

Metodologa y Documentacin Cientfica

Conferencia 14
Regresin lineal
Mediante las tcnicas de regresin inventamos una variable como funcin de otra
variable X (o viceversa),
Esto es lo que denominamos relacin funcional. El criterio para construir , es que la
diferencia entre Y e sea pequea.
El trmino que hemos
denominado error debe ser tan
pequeo como sea posible. El
objetivo ser buscar la funcin
(tambin denominada modelo
de regresin) que lo
minimice.
Bondad de un ajuste
Consideremos un conjunto de observaciones sobre n individuos de una poblacin, en los que
se miden ciertas variables X e Y:
Estamos interesamos en hacer regresin para determinar, de modo aproximado, los valores
de Y conocidos los de X, debemos definir cierta variable , que debe tomar
los valores
de modo que:
Ello se puede expresar definiendo una nueva variable E que mida las diferencias entre los
autnticos valores de Y y los tericos suministrados por la regresin,
y calculando de modo que E tome valores cercanos a 0. Dicho de otro modo, E debe ser
una variable cuya media debe ser 0 , y cuya varianza debe ser pequea (en
comparacin con la de Y). Por ello se define el coeficiente de determinacin de la regresin
de Y sobre X, , como
Si el ajuste de Y mediante la curva de regresin es bueno, cabe esperar que la
cantidad tome un valor prximo a 1.
Anlogamente si nos interesa encontrar una curva de regresin para
X como funcin de Y, definiramos
y si el ajuste es bueno se debe tener que
Las cantidades y sirven entonces para medir de qu
modo las diferencias entre los verdaderos valores de una variable y
los de su aproximacin mediante una curva de regresin son
pequeos en relacin con los de la variabilidad de la variable que
intentamos aproximar. Por esta razn estas cantidades miden el
grado de bondad del ajuste.
Regresin lineal
La forma de la funcin f en principio podra ser arbitraria, y tal vez se tenga que la relacin
ms exacta entre dos variables sea algo de la forma
Nos vamos a limitar al caso de la regresin lineal. Con este tipo de regresiones nos
conformamos con encontrar relaciones funcionales de tipo lineal, es decir, buscamos
cantidades a y b tales que se pueda escribir
con el menor error posible entre e Y, o bien
de forma que sea una variable que toma valores prximos a cero.
Observacin
Obsrvese que la relacin explica cosas como que si X vara en 1 unidad, vara la
cantidad b. Por tanto:
- Si b>0, las dos variables aumentan o disminuyen a la vez;
- Si b<0, cuando una variable aumenta, la otra disminuye.
El problema que se plantea es entonces el de cmo calcular las cantidades a y b a partir de
un conjunto de n observaciones
de forma que se minimice el error. Las etapas en que se divide el proceso que vamos a
desarrollar son de forma esquemtica, las que siguen:
1. Dadas dos variables X, Y, sobre las que definimos
medimos el error que se comete al aproximar Y mediante calculando la suma de las
diferencias entre los valores reales y los aproximados al cuadrado (para que sean positivas y
no se compensen los errores):
2. Se busca una aproximacin de Y, la cual se define a partir de dos
cantidades a y b. las cuales minimizan la funcin
3. Posteriormente se buscarn frmulas para el clculo directo de a y b que sean vlidas
para cualquier problema de este tipo
Regresin de Y sobre X
Para calcular la recta de regresin de Y sobre X nos basamos en la figura
Una vez definido el error de aproximacin las cantidades
que lo minimizan se calculan derivando con respecto a
ambas e igualando a cero (procedimiento de los mnimos
cuadrados
De donde se obtiene rescribiendo las ecuaciones:
Se concluye que los valores de a y b que minimizan la funcin deben cumplir las igualdades:
Coeficiente de regresin de Y sobre X.
Regresin de X sobre Y
Las mismas conclusiones se sacan cuando intentamos hacer la regresin de X sobre Y, pero
atencin!: Para calcular la recta de regresin de X sobre Y es totalmente incorrecto
despejar de
Pues esto nos da la regresin de X sobre , que no es lo que se busca. La regresin de X
sobre Y se hace aproximando X por , del modo
donde
Ejemplo 1
En una muestra de 1.500 ladrillos se recogen datos sobre dos medidas de resistencia
mecnica X e Y. Los resultados se muestran resumidos en los siguientes estadsticos:
Obtener el modelo de regresin lineal que mejor aproxima Y en funcin de X. Utilizando
este modelo, calcular de modo aproximado la cantidad Y esperada cuando X=15.
Solucin:
Lo que se busca es la recta, , que mejor aproxima los valores de Y (segn el
criterio de los mnimos cuadrados) en la nube de puntos que resulta de representar en un
plano (X,Y) las 1.500 observaciones. Los coeficientes de esta recta son:
As, el modelo lineal consiste en:
Por tanto, si x=15, el modelo lineal predice un valor de Y de:
Hay que preguntarse si realmente esta prediccin puede considerarse fiable. Para dar una
respuesta, es necesario estudiar propiedades de la regresin lineal.
Propiedades de la regresin lineal
Una vez que ya tenemos perfectamente definida , (o bien ) nos preguntamos las
relaciones que hay entre la media y la varianza de esta y la de Y (o la de X). La respuesta
nos la ofrece la siguiente proposicin:
Proposicin
En los ajustes lineales se conservan las medias, es decir:
En cuanto a la varianza, no necesariamente son las mismas para los verdaderos valores de
las variables X e Y y sus aproximaciones y , pues slo se mantienen en un factor de
r
2
, es decir,
Demostracin
Basta probar nuestra afirmacin para la variable Y, ya que para X es totalmente anlogo:
Coeficiente de
correlacin
Observacin
Como consecuencia de este resultado, podemos decir que si:
La cantidad que le falta a la varianza de regresin, , para llegar hasta la varianza
total de Y, , es lo que se denomina varianza residual, que no es ms que la varianza
de , ya que
Varianza residual
Bondad del ajuste
Por tanto:
Por ello:

Si , el ajuste es bueno (Y se puede calcular de modo bastante aproximado
a partir de X y viceversa).

- Si las variables X e Y no estn relacionadas (linealmente al menos), por
tanto no tiene sentido hacer un ajuste lineal. Sin embargo no es seguro que las dos
variables no posean ninguna relacin en el caso r=0, ya que si bien el ajuste lineal
puede no ser procedente, tal vez otro tipo de ajuste s lo sea.

Ejemplo 2
De una muestra de ocho observaciones conjuntas de valores de dos variables X e Y, se
obtiene la siguiente informacin:
Calcule:
1. La recta de regresin de Y sobre X.
Explique el significado de los parmetros.
2. El coeficiente de determinacin.
Comente el resultado e indique el tanto
por ciento de la variacin de Y que no est
explicada por el modelo lineal de
regresin.
3. Si el modelo es adecuado, cul es la
prediccin para x=4.
Solucin:
1. En primer lugar calculamos las medias y las covarianza entre ambas variables:
Con estas cantidades podemos determinar los parmetros
a y b de la recta. La pendiente de la misma es b, y mide la
variacin de Y cuando X aumenta en una unidad:
2. El grado de bondad del ajuste lo obtenemos a partir del coeficiente de determinacin
Es decir, el modelo de regresin lineal explica el de la variabilidad de Y en funcin
de la de X. Por tanto queda un de variabilidad no explicada.
3. La prediccin que realiza el modelo lineal de regresin para x=4 es:
la cual hay que considerar con ciertas reservas, pues como hemos visto hay una razonable
cantidad de variabilidad que no es explicada por el modelo.
Tarea: Determinar la bondad del ajuste lineal entres
las variables del trabajo que ustedes han
reestructurado del expuesto en clase. Realizar la
discusin al respecto