You are on page 1of 39

B C

Ejemplo 1
altura (x)
cm.
peso (y)
Kgr.
2 162 63
A la derecha tenemos una posible manera de recoger 3 158 52
los datos obtenidos observando dos variables en 4 167 78
varios individuos de una muestra. 5 151 49
6 162 71
7 168 62
En cada fila tenemos los datos de un individuo 8 167 68
9 153 48
Cada columna representa los valores que toma una 10 152 56
173 67
variable sobre los mismos. 11

12 161 50
13 187 76
Las individuos no se muestran en ningn orden en 14 148 38
particular. 15 152 60
16 158 62
17 161 68
Dichas observaciones pueden ser representadas en 18 161 69
un DIAGRAMA DE DISPERSIN (scatterplot). En 19

20
163
165
70
55
ellos, cada individuos es un punto cuyas coordenadas 21 165 65
son los valores de las variables. 22 166 55
23 167 53
24 168 68
Nuestro objetivo ser intentar reconocer a partir del 25 167 69
mismo si hay relacin entre las variables, de qu tipo, 26 171 81
173 78
y si es posible predecir el valor de una de ellas
27

28 173 69
en funcin de la otra. 29

30
188
188
90
88
1
Luis Ojeda Silva 6/23/2012 31 192 85
Diagrama de dispersin o nube de
puntos
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de
dispersin.

Diagrama de dispersin de 30 pesos y alturas

100 Pesa 89 kgr..


90

80 Pesa 69 kgr.
Pesos

70

Mide 162 cm.


60
50
40
30
140 150 160 170 180 190 200
Altura

2
Luis Ojeda Silva 6/23/2012
Relacin entre variables.
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de
dispersin.

Diagrama de dispersin de 30 pesos y alturas

100
90
80
Pesos

70
60
50

40
30
140 150 160 170 180 190 200
Altura

3
Luis Ojeda Silva 6/23/2012
Estimacin de la recta de regresin
por mnimos cuadrados
Usando los datos de pesos y estaturas
B C D E
a ltu r a (x ) p e s o (y ) 2
1 cm . K g r. 1 xi x yi x
2 162 63 2 10206 26244
3 158 52 3 8216 24964
4 167 78 4 13026 27889
5 151 49 5 7399 22801
6 162 71 6 11502 26244
7 168 62 7 10416 28224
8 167 68 8 11356 27889 n
n n
9
10
153
152
48
56
9
10
7344
8512
23409
23104 n X iYi X i Yi
11
12
173
161
67
50
11
12
11591
8050
29929
25921
1 = i =1 i =1 i =1
13 187 76 13 14212 34969 2
n 2 n
n X i X i
14 148 38 14 5624 21904
15 152 60 15 9120 23104

i =1 i =1
16 158 62 16 9796 24964
17 161 68 17 10948 25921
18 161 69 18 11109 25921
19 163 70 19 11410 26569
20 165 55 20 9075 27225
21 165 65 21 10725 27225
22 166 55 22 9130 27556
23 167 53 23 8851 27889
24 168 68 24 11424 28224
25 167 69 25 11523 27889
26 171 81 26 13851 29241
27 173 78 27 13494 29929
28 173 69 28 11937 29929
29 188 90 29 16920 35344 4
Luis Ojeda3 Silva
0 188 88 30 6/23/2012
16544 35344
31 192 85 31 16320 36864
sumatorias

5
Luis Ojeda Silva 6/23/2012
6
Luis Ojeda Silva 6/23/2012
Ajuste de la curva a los datos

altura (x) cm. Curva de regresin ajustada

100
Kgr.

80

60
Yi = 86,65 + 0,915 xi
peso (y)

40

20
0
140 150 160 170 180 190 200
altura (x) cm .

7
Luis Ojeda Silva 6/23/2012
Interpretacin de la ecuacin de
regresin estimada
Cuando una persona obtiene una recta estimada de regresin se
enfrenta inmediatamente al problema de interpretar, en el
contexto de su inters, cada una de las componentes de la
ecuacin.

Interpretacin de la estimacin de la ordenada al origen 0


Lo primero que queremos destacar es que en la ecuacin
de regresin estimada Y = X
i 0 1 i

A un valor de X = 0 corresponde un valor estimado Yi = 0


8
Luis Ojeda Silva 6/23/2012
Interpretacin de la ecuacin de regresin estimada

Lo que indica que es el valor de la prediccin para Y


0
cundo la variable independiente toma el valor cero. Dado lo
anterior es importante sealar que no tiene interpretacin
prctica en muchos problemas. 0

Tomemos los datos anteriores Yi = 86,65 + 0,915 xi

Por lo que una interpretacin mecnica de la ecuacin nos


llevara a pensar que a una altura de 0 cm. Correspondera
un peso de -86,7 kgr.

9
Luis Ojeda Silva 6/23/2012
Interpretacin de la ecuacin de regresin estimada

Dicho esto surge inmediatamente una pregunta: Bajo que


condiciones es posible dar una interpretacin
prctica a 0 ?
Las dos condiciones ms que importantes son:

a) Debe ser fsicamente posible que X tome el valor cero.


b) Deben tenerse suficientes datos alrededor del valor X = 0
Nuestro ejemplo es de tal naturaleza que la primera condicin es imposible y por
lo tanto tambin lo es la segunda; en ese caso no tiene ningn sentido tratar de
interpretar 0 , aunque cabe decir que su valor sera mucho menor si se
hubiesen individuos con pesos menores.
10
Luis Ojeda Silva 6/23/2012
Interpretacin de la ecuacin de regresin estimada

Luego, algunas veces 0 slo es


un factor de ajuste que permite
representar la tendencia de los datos
(en el espacio de valores observados
para la variable independiente)
mediante un modelo de lnea recta.

11
Luis Ojeda Silva 6/23/2012
Interpretacin del estimador de la pendiente o
coeficiente de regresin
1
El estimador de la pendiente , tambin llamado
1
Coeficiente de Regresin Estimado, es de mucha ms
importancia que 0 , ya que nos indica la forma en
que estn relacionadas X e Y, en el sentido que mide
cunto y en qu direccin se modifican los valores de Y
cuando cambia X. Recurdese que estima la
1
pendiente de una recta, o sea el nmero de unidades que
cambia Y por cada unidad de cambio en X.
Consideremos nuestro ejemplo, en el cual la ecuacin
de regresin estimada es:

Yi = 86,65 + 0,915 xi
12
Luis Ojeda Silva 6/23/2012
Interpretacin del estimador de la pendiente o coeficiente de regresin 1

Yi = 86,65 + 0,915 xi

Usualmente se dice que a un incremento de un


cm. De altura corresponde un incremento de
0,951 kgr.. Si fuese negativa diramos que
1
hay un decremento en Y cuando X aumenta, lo
que correspondera a una correlacin negativa.

13
Luis Ojeda Silva 6/23/2012
Interpretacin del estimador de la pendiente o coeficiente de regresin 1

Ahora, bien hay que tener cuidado con este


tipo de afirmacin. Supngase que uno de los
integrantes del grupo la interpreta en el
sentido de que por cada cm. Que aumente la
altura su peso se incrementar 0,591kgr. Por
supuesto la situacin ha sido caricaturizada
para recalcar que la interpretacin es
absurda; sin embargo, este tipo de errores se
cometen con cierta frecuencia.
14
Luis Ojeda Silva 6/23/2012
Interpretacin del estimador de la pendiente o coeficiente de regresin
1

Aparte de la suposicin- en este caso


falsa- de que existe una relacin causal de
la estatura sobre el peso, tambin es
incorrecto pensar en trminos de un solo
individuo. Recurdese que una de las
suposiciones del modelo es que para cada
posible valor de X, Y es una variable
aleatoria con distribucin normal cuya
media es Y
X
15
Luis Ojeda Silva 6/23/2012
Interpretacin del estimador de la pendiente o coeficiente de regresin 1

Lo correcto entonces es decir que las


medias poblacionales de Y se incrementan
al aumentar X o, desde un punto de vista
pragmtico, que los individuos de
poblaciones con una diferencia de un cm.
en promedio difieren en peso por 0,591
kgr.

16
Luis Ojeda Silva 6/23/2012
Mtodos Inferenciales en Regresin Lineal
Simple: Una Idea

Existe una relacin lineal significativa para


propsitos de prediccin?

Si la respuesta es afirmativa

Cun apropiado es el ajuste lineal?

Podra un modelo polinomial ser un mejor


ajuste?
17
Luis Ojeda Silva 6/23/2012
Mtodos Inferenciales en Regresin Lineal
Simple: Una Idea

ANOVA

Enfoques t-test

18
Luis Ojeda Silva 6/23/2012
ENFOQUE
ANOVA
19
Luis Ojeda Silva 6/23/2012
Particionando la variacin total
Y
( xi , yi )
yi Yi = 0 1 X i

(total)
(no explicada) yi y

yi y ( xi , y i )
y i y
y y
(explicada)

(x, y) Modelo y = 0

x xi X
Particin de la variabilidad de la variable dependiente
20
Luis Ojeda Silva 6/23/2012
Particionando la variacin total
La variacin total es particionada en 2 componentes: la variacin
explicada (la cual es atribuible a la relacin entre X e Y postulada
por el modelo) y la variacin no explicada (la cual no es
respondida por la relacin matemtica ajustada entre X e Y).

Variacin Total = Variacin explicada


+
Variacin no explicada

La variacin explicada o La variacin no


La variacin
Suma de Cuadrados explicada o la suma de
total es
debida a la Regresin es cuadrados del error est
obtenida de:
obtenida de: dada por:
n n n
SCT = ( yi y ) 2 SCR = ( y i y ) 2 SCE = ( yi y i ) 2
i =1 i =1 i =1

21
Luis Ojeda Silva 6/23/2012
Planteamiento formal del problema
Hiptesis

H0: 1=0 (no est presente una regresin


lineal simple)

V/s H1: 10 (est presente una regresin lineal


simple)

Nivel de significacin:

F0 =
Estadstica de prueba:
CMR
CME
22
Luis Ojeda Silva 6/23/2012
Regin Crtica: Rechazar H0 ssi:

F0 F1-,1,n-2
Clculos:

Decisin:

23
Luis Ojeda Silva 6/23/2012
Tabla ANOVA

Fuente de Grados de Sumas de Cuadrados Razn F


variacin Libertad cuadrados medios
Debido a la 1 SCR CMR=SCR/1 F0=CMR/CME
regresin
(explicada) F1,n-2
Error (no n-2 SCE CME=SCE/(n-
explicada) 2)
total n-1 SCT

24
Luis Ojeda Silva 6/23/2012
Docimando la relacin lineal por Anova
2
n
donde
n
yi
SCT = yi2 i =1
i =1 n
2
n

n n n
y i

SCR = ( y i y ) 2 = 0 yi + 1 xi yi i =1
i =1 i =1 i =1 n

SCE = SCT - SCR

25
Luis Ojeda Silva 6/23/2012
Consideremos nuestro ejemplo de pesos y estaturas,
evaluemos las frmulas anteriores
19632
SCT = 132989
30

Luego SCT = 4543,36666666667

19632
SCR = 86,651*1963 + 0,915 * 329631
30
entonces SCR = 3032,816

Por diferencia: SCE = 1510,55

26
Luis Ojeda Silva 6/23/2012
CMR=SCR/1
Entonces CMR = 3032,82
F0=CMR/CME
CME=SCE/28
F0 = 56,22
Entonces CME = 53,95

Resumiendo los clculos, tenemos:

ANLISIS DE VARIANZA
Promedio
Fuente de Grados de Suma de
de los F
Variacin libertad cuadrados 0
cuadrados
Regresin 1 3032,81589 3032,81589 56,2171403
Residuos 28 1510,55078 53,948242
Total 29 4543,36667
27
Luis Ojeda Silva 6/23/2012
El valor crtico F1-,1,n-2

Est dado por F0,95;1;28=4,196

Entonces, como F0 = 56,22 > 4,196

Se rechaza H0 al nivel de significacin =0,05, y se


concluye que est presente una regresin lineal simple

hay una razn para creer que existe una relacin entre el
peso y la altura, Al nivel de significacin utilizado

28
Luis Ojeda Silva 6/23/2012
Estimacin de los parmetros verdaderos
de la regresin
Una vez que una significativa relacin entre X
e Y se ha establecido y ha sido verificado lo
apropiado del modelo de regresin lineal
simple ajustado, se utilizar la ecuacin de
regresin muestral para propsitos de
prediccin.

29
Luis Ojeda Silva 6/23/2012
Estimacin de la pendiente verdadera 1
Una Intervalo de confianza estimado al 100(1-)%
de la pendiente verdadera 1

1 t s
1 ; n 2 1
2
se
donde s = 1
2
1
n 2
( xi x )
i =1
y
se = CME 30
Luis Ojeda Silva 6/23/2012
Estimacin de la pendiente verdadera 1
De nuestro ejemplo, tenemos que

1 = 0,915 se = 7,345

1
n 2
2
y
( xi x ) = 60,194
i =1
t t = t0,975; 28 = 2,0484
1 ; n 2 1
0 , 05
; 30 2
2 2

y
31
Luis Ojeda Silva 6/23/2012
Estimacin de la pendiente verdadera 1
Luego 7,345
s = = 0,1220
1
60,194
Luego, el intervalo de confianza viene dado por
0,915 2,0484 * 0,1220
0,915 0,2499
As, el Intervalo de Confianza al 95% para la
pendiente verdadera de la poblacin es:
1

( 0,665 ; 1,165 )
32
Luis Ojeda Silva 6/23/2012
Estimacin de la pendiente verdadera 1

El Intervalo de Confianza al 95% para la pendiente


verdadera de la poblacin se puede escribir
1
como:

0,665 < 1 < 1,165 )

33
Luis Ojeda Silva 6/23/2012
Estimacin de la pendiente verdadera 1
En la prctica, cuando slo construimos un intervalo de
confianza para estimar el parmetro, este puede caer o no
dentro del intervalo. Sin embargo, tenemos un nivel de
confianza de 1 a que si caer. Obviamente si hemos
construido un I.C. del 95 por 100, decimos que la
probabilidad (confianza) es 0,95 de que el intervalo incluir
el parmetro que se estima. Es decir, si repetidamente
muestreamos y construimos tal intervalo una y otra vez
muchas veces a largo plazo. 95 por 100 de estos intervalos
cubrirn el parmetro desconocido y 5 por 100 de ellos no.
Ahora, puesto que 95 por 100 de los intervalos cubrirn el
parmetro; ordinariamente podemos comportarnos como si
cada uno de nuestros intervalos cubrirn el parmtero.
34
Luis Ojeda Silva 6/23/2012
Usando la ecuacin de regresin para
propsitos de prediccin
Muy frecuentemente el inters fundamental de un
anlisis de regresin se ubica en predecir el valor
esperado de Y para valores especficos de X. Es decir,
para una valor dado de X=Xg predecir con cierta
confiabilidad y/Xg

35
Luis Ojeda Silva 6/23/2012
Estimacin de la respuesta media
verdadera y/X para un X dado

Una Intervalo de confianza estimado al 100(1-)%


de la respuesta media verdadera y/X para un
valor particular de X (digamos Xg) est dada por:

Donde:
Yg t1 / 2 , n 2 s y g

1 (x g x )
2
Yg = 0 + 1 x g s y g = se + 2
n sx
36
Luis Ojeda Silva 6/23/2012
Estimacin de la respuesta media
verdadera y/X para un X dado

Ejemplo: Se desea estimar con un 95% de confianza


la verdadera media de los pesos de los individuos con
altura de 160 cm.

Entonces, como: Yg = 86,65 + 0,915 x g

Evaluando para xg=160

Luego,
Y160 = 59 ,7 kgr .
37
Luis Ojeda Silva 6/23/2012
Estimacin de la respuesta media
verdadera y/X para un X dado

1 (x g x )
2
Entonces, como: s y g = se +
n s x2
Tenemos:
x = 166,23cm. x =124,94cm.
2
s
se= 7,345
t tabulado=2,0484

1 (160 166 .23 )


2
s y g = 7,345 +
30 124 .94
s =4,31
y
g

38
Luis Ojeda Silva 6/23/2012
Estimacin de la respuesta media
verdadera y/X para un X dado

Como
Yg t1 / 2 , n 2 s y g
tenemos 59 ,7 2,0484 * 4,31
59 ,7 8.829

(50,871 ; 68,53)

50 ,87 Y 68,53
X 160

39
Luis Ojeda Silva 6/23/2012

You might also like