You are on page 1of 4

Introduccin a la regresin lineal

Anlisis de regresin
Coeficientes
Diagrama de dispersin
Mnimos cuadrados
Parmetros
Recta de regresin
Relacin estadstica
Relacin funcional
Relacin lineal
Variables

El objeto de un anlisis de regresin es investigar la relacin


estadstica que existe entre una variable dependiente (Y) y
una o ms variables independientes ( X 1 , X 2 , X 3 , ... ). Para

poder realizar esta investigacin, se debe postular una


relacin funcional entre las variables. Debido a su
simplicidad analtica, la forma funcional que ms se utiliza
en la prctica es la relacin lineal. Cuando solo existe una
variable independiente, esto se reduce a una lnea recta:

Y b0 b1 X
donde los coeficientes b0 y b1 son parmetros que definen la
posicin e inclinacin de la recta. (Ntese que hemos usado el smbolo
especial Y para representar el valor de Y calculado por la recta. Como
veremos, el valor real de Y rara vez coincide exactamente con el valor
calculado, por lo que es importante hacer esta distincin.)
El parmetro b0, conocido como la ordenada en el origen, nos
indica cunto es Y cuando X = 0. El parmetro b1, conocido como la
pendiente, nos indica cunto aumenta Y por cada aumento de una unidad
en X. Nuestro problema consiste en obtener estimaciones de estos
coeficientes a partir de una muestra de observaciones sobre las variables Y y
X. En el anlisis de regresin, estas estimaciones se obtienen por medio del
mtodo de mnimos cuadrados.
Como ejemplo, consideremos las cifras del Cuadro 1, que muestra datos
mensuales de produccin y costos de operacin para una empresa britnica
de transporte de pasajeros por carretera durante los aos 1949-52 (la
produccin se mide en trminos de miles de millas-vehculo recorridas por
mes, y los costos se miden en trminos de miles de libras por mes). Para
poder visualizar el grado de relacin que existe entre las variables, como
primer paso en el anlisis es conveniente elaborar un diagrama de dispersin,
que es una representacin en un sistema de coordenadas cartesianas de los
datos numricos observados. En el diagrama resultante, en el eje X se miden
las millas-vehculo recorridas, y en el eje Y se mide el costo de operacin
mensual. Cada punto en el diagrama muestra la pareja de datos (millasvehculo y costos de operacin) que corresponde a un mes determinado.
Como era de esperarse, existe una relacin positiva entre estas variables:
una mayor cantidad de millas-vehculo recorridas corresponde un mayor nivel
de costos de operacin.
Cuadro 1.

Operaciones Mensuales en una Empresa de Transporte de Pasajeros

Mes N
1
2
3
4
5
6
7
8
9

Costos Totales
miles
Y
213.9
212.6
215.3
215.3
215.4
228.2
245.6
259.9
250.9

Millas Vehculo
miles
X
3147
3160
3197
3173
3292
3561
4013
4244
4159

10
11
12
13
14
15
16
17
18

234.5
205.9
202.7
198.5
195.6
200.4
200.1
201.5
213.2

20
21
22
23
24
25
26
27
28
29
30
31
32

243.7
262.3
252.3
224.4
215.3
202.5
200.7
201.8
202.1
200.4
209.3
213.9
227.0

19

33

246.4

219.5

3776
3232
3141
2928
3063
3096
3096
3158
3338
3492
4019
4394
4251
3844
3276
3184
3037
3142
3159
3139
3203
3307
3585

4073

Fuente: J. Johnston,
Anlisis Estadstico de los Costes
(Barcelona: Sagitario, S. A., 1966), p. 118.

Diagrama de dispersin

Por otro lado, tambin se aprecia por qu este grfico se


denomina un diagrama de dispersin: no existe una relacin
matemticamente exacta entre las variables, ya que no toda la variacin en
el costo de operacin puede ser explicada por la variacin en las millasvehculo. Si entre estas variables existiera una relacin lineal perfecta,
entonces todos los puntos caeran a lo largo de la recta de regresin, que
tambin ha sido trazada y que muestra la relacin promedio que existe
entre las dos variables. En la prctica, se observa que la mayora de los
puntos no caen directamente sobre la recta, sino que estn dispersos en
torno a ella. Esta dispersin representa la variacin en Y que no puede
atribuirse a la variacin en X.

Estimacin de la recta de regresin


y del coeficiente de determinacin
En la prctica, los clculos relacionados con un anlisis de regresin se
efectan por medio de programas de computadora, por lo que los clculos
detallados en esta seccin se incluyen nicamente a ttulo de ilustracin.
Para estimar los coeficientes por medio de mnimos cuadrados, se utilizan las
siguientes frmulas:
b1

XY y X
X2 xX

b0 y b1 x

En nuestro ejemplo, aplicando estas frmulas tenemos:


25,216,020.3

219.1242(113,879)

b1
=

0.044674
398,855,769 3,450.879(113,879)

b0 = 219.1242 0.044674(3,450.879) = 64.96

Expresando los resultados en trminos de la recta de regresin, tenemos:

= 64.96 +
0.044674 X

Podemos concluir que por cada milla adicional recorrida, los costos de
operacin aumentan en aproximadamente 4.5 centavosesto podra
interpretarse como el costo marginal para la empresa de recorrer una milla
adicionalmientras que el coeficiente b0 nos estara indicando la parte del
costo mensual que no vara directamente con la cantidad de millas recorridas
(aproximadamente 64,960 libras mensuales).
Diagrama de dispersin

Coeficiente de Determinacin (R2).


Una pregunta importante que se plantea en el anlisis de regresin es la
siguiente: Qu porcentaje de la variacin total en Y se debe a la variacin en
X? En otras palabras, cul es la proporcin de la variacin total en Y que
puede ser explicada por la variacin en X? El estadstico que mide esta
proporcin o porcentaje se denomina coeficiente de determinacin:

R2 1

e2
(Y y ) 2

En este caso, al hacer los clculos respectivos, se obtiene un valor de 0.946.


Esto significa que la variacin en las millas recorridas explica 94.6 % de la
variacin en el gasto de operacin mensual.