Professional Documents
Culture Documents
y = β0 + β1 x + β2 x2 + e (9.1)
y = β0 + β1 x1 + β2 x2 + β3 x1 x2 + β4 x21 + β5 x22 +e (9.2)
Con las herramientas que hemos desarrollado, podemos ajustar fácilmente casos como
9.1, 9.2 y modelos polinomiales de ordenes mayores. Los ajustes de este tipo funcionan
bien cuando hay un efecto de curvatura en E[y|X], el caso más sencillo serı́a en RLS como
el de la figura:
12
11
10
E[y|X]
9
8
7
6
−2 −1 0 1 2
En estos casos, podemos realizar una transformación para linealizar la relación entre
variables o podrı́amos trabajar directamente con la curvatura, si lo hacemos adecuada-
1
9.2. VARIABLES CATEGÓRICAS EN RLM M. en C. Carlos Erwin Rodrı́guez
Los modelos polinomiales bien aplicados, pueden ser una herramienta poderosa. Tomem-
os en cuenta que por el desarrollo en serie de Taylor, podemos aproximar una función f ,
con ciertas caracterı́sticas, mediante polinomios de la siguiente forma:
f ′′ (c)
f (x) = f (c) + f ′ (c)(x − c) + (x − c)2 + . . .
2!
Veamos el ejemplo 9.0 en R para aclarar este punto.
Sin embargo, antes de empezar a trabajar con modelos polinomiales hay varias cosas
que se tienen que tomar en cuenta:
Orden del modelo: es muy importante mantener el orden del modelo polinomial
tan bajo como se pueda. Cuando sea posible, es recomendable realizar transforma-
ciones a linealidad para facilitar el análisis. Como norma, nuestro modelo siempre
debe mantener un sentido de parsimonia (usar el modelo más simple que ajuste
adecuadamente los datos). Además, se tiene que tomar en cuenta que siempre es
posible pasar un polinomio de orden n − 1 por n puntos, entonces, un polinomio
de grado suficientemente grande siempre podrá ajustar “bien” nuestros datos. Pero
este modelo no nos ayudará a entender el comportamiento de E[y|X] y será muy mal
predictor.
Para incluir variables cualitativas en RLM, tenemos que encontrar una manera de
indicarle al modelo el nivel que va tomando la variable y ası́ poder trabajar con ella.
Claramente esto no lo podemos hacer directamente, pues no tiene sentido manejar vari-
ables categóricas como si fueran variables continuas, si llegamos a hacer esto, estarı́amos
cometiendo un grave error.
En el caso de una variable categórica de dos niveles, podemos utilizar una variable
indicadora y ası́ ya podrı́amos manejarla dentro de un modelo de RLM. Esto lo podemos
2
9.2. VARIABLES CATEGÓRICAS EN RLM M. en C. Carlos Erwin Rodrı́guez
Supongamos que F es una variable cualitativa con dos categorı́as, entonces generamos
una nueva variable U , en donde cada entrada se definirá como:
1 si Fi ∈ categorı́a 1 de F
Ui =
0 si Fi ∈/ categorı́a 1 de F
Esta nueva variable U ya la podrı́amos utilizar como variable predictora o respuesta
en una RLM, sin ningún problema.
Con la misma idea podemos trabajar con variables categóricas que tengan varios nive-
les, sin embargo para mostrar esto de forma más sencilla veremos un ejemplo en R.
Trabajaremos los datos sleep1, de la librerı́a alr3. En esta base de datos se tienen
muchas variables, sin embargo, por el momento sólo nos interesará T S que es el tiem-
po total en horas al dı́a, que duerme una determinada especie y D que es una variable
categórica con 5 niveles, en donde 1 indica la especie que corre menos peligro,...,5 la que
corre más peligro (indicador del peligro que corre la especie).
En la Figura 9.2 se muestran los diagramas de caja para el tiempo total que una especie
duerme (TS), para cada nivel de D.
20
15
TS(h)
10
5
1 2 3 4 5
Indice de peligro
Como análisis inicial, nos gustarı́a saber ¿cómo va cambiando el valor promedio de
T S a medida que D cambia? Entonces para contestar esta pregunta, tendrı́amos que ser
capaces de escribir E[T S|D] de forma que para cada nivel de D podamos calcular el valor
promedio de T S en ese nivel. Esto lo podemos hacer de varias formas, una de ellas es
la siguiente, la variable D tiene 5 niveles, entonces definimos Uj para j = 1, . . . , 5 como
variables indicadoras de forma que
1 si Di = j
Uij =
0 si en otro caso
3
9.2. VARIABLES CATEGÓRICAS EN RLM M. en C. Carlos Erwin Rodrı́guez
Para entender mejor cómo generar las Uj ’s, revisar el ejemplo 9.1 en R.
Entonces U1 , . . . , U5 son variables indicadoras que representan cada uno de los niveles
de la variable D, con esto podemos escribir:
En R es muy sencillo trabajar con funciones de cambio medio como 9.3 y 9.4, lo único
que tendrı́amos que hacer es definir a D como variable tipo factor
4
9.2. VARIABLES CATEGÓRICAS EN RLM M. en C. Carlos Erwin Rodrı́guez
> summary(m1<-lm(TS~-1+D))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
D1 13.0833 0.8881 14.732 < 2e-16 ***
D2 11.7500 1.0070 11.668 2.91e-16 ***
D3 10.3100 1.1915 8.653 1.03e-11 ***
D4 8.8111 1.2559 7.016 4.26e-09 ***
D5 4.0714 1.4241 2.859 0.00606 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> summary(m2<-lm(TS~D))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 13.0833 0.8881 14.732 < 2e-16 ***
D2 -1.3333 1.3427 -0.993 0.32519
D3 -2.7733 1.4860 -1.866 0.06754 .
D4 -4.2722 1.5382 -2.777 0.00756 **
D5 -9.0119 1.6783 -5.370 1.78e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
5
9.2. VARIABLES CATEGÓRICAS EN RLM M. en C. Carlos Erwin Rodrı́guez
> anova(m1)
Analysis of Variance Table
Response: TS
Df Sum Sq Mean Sq F value Pr(>F)
D 5 6891.7 1378.3 97.09 < 2.2e-16 ***
Residuals 53 752.4 14.2
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> anova(m2)
Analysis of Variance Table
Response: TS
Df Sum Sq Mean Sq F value Pr(>F)
D 4 457.26 114.31 8.0523 3.78e-05 ***
Residuals 53 752.41 14.20
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
6
9.3. TRABAJANDO CON VARIABLES
PREDICTORAS TIPO FACTOR Y CONTINUAS M. en C. Carlos Erwin Rodrı́guez
20
1 1 1 1
1
1
2
3
2
15
2 1
3 2
3 3 2 1
3 4 12
1
TS(h)
3
2 2 2 4 1
2 1 2 4
10
124 1
4
1 34 52 4
1
2
1 1 4
3 3
5
5 5 5 4
5 3
5 5
−4 −2 0 2 4 6 8
log(BodyWt)
1. Modelo general: Este modelo ajusta los datos de forma que para cada nivel de
D se tengan rectas de regresión completamente distintas. Este modelo equivaldrı́a
a ajustar 5 regresiones distintas, una para cada nivel de D. Formalmente esto lo
podemos escribir de la siguiente forma:
5
X
E[T S| log BodyW t = x, D = j] = (β0j Uj + β1j Uj x) (9.5)
j=1
Este modelo tiene 10 términos, las 5 variables indicadoras Uj que nos darán 5 orde-
nadas al origen y 5 interacciones que son el producto de Uj x, como resultado ten-
dremos 5 pendientes para cada nivel de D. En R es muy sencillo ajustar 9.5, ya que D
esta definido como factor, simplemente hacemos T S ∼ −1 + D + D : log(BodyW t),
en donde “−1” quita la ordenada al origen “global”, el término “D” ajustará las
diferentes ordenadas al origen para cada nivel de D y “D : log(BodyW t)” especifica
las interacciones entre cada variable indicadora de D y log(BodyW t).
Podemos escribir 9.5 de forma totalmente equivalente como sigue
5
X
E[T S| log BodyW t = x, D = j] = α0 + α1 x + (α0j Uj + α1j Uj x) (9.6)
j=2
7
9.3. TRABAJANDO CON VARIABLES
PREDICTORAS TIPO FACTOR Y CONTINUAS M. en C. Carlos Erwin Rodrı́guez
Comparando las dos parametrizaciones tenemos que α0 = β01 , α1 = β11 y para j > 1,
α0j = β0j − β01 y α1j = β1j − β11 . De nuevo tenemos que la parametrización 9.5 es
más conveniente para tener parámetros interpretables, mientras que 9.6 se usa para
comparar funciones de cambio medio. En R es muy fácil ajustar 9.6, simplemente
hacemos T S ∼ log(BodyW t) + D + D : log(BodyW t)
2. Regresiones paralelas: Para este modelo se generan 5 rectas paralelas de regresión,
cada una con ordenada al origen distinta, pero con la misma pendiente. La función
de cambio medio la escribimos de la siguiente forma:
5
X
E[T S| log BodyW t = x, D = j] = β0j Uj + β1 x (9.7)
j=1
5
X
E[T S| log BodyW t = x, D = j] = β0 + β1j Uj x (9.8)
j=1
Para comparar estos modelos, podemos recurrir a la prueba F parcial que se vio ante-
riormente en el curso, recordemos un poco la prueba.
Con esto llegamos a que la regla de decisión es rechazar H0 al nivel α si F0 > F1−α,r,n−p
y el p-value=1 − P (F0 ≤ F1−α,r,n−p |H0 cierta). Ası́, sólo necesitamos:
8
9.3. TRABAJANDO CON VARIABLES
PREDICTORAS TIPO FACTOR Y CONTINUAS M. en C. Carlos Erwin Rodrı́guez
en donde ê1 son los residuales obtenidos al ajustar el modelo resultante al suponer H0
cierta (y = X1 β1 + e) y ê son los residuales obtenidos al ajustar el modelo completo.
Tenemos 4 diferentes modelos para E[T S| log BodyW t, D], claramente el modelo 1(mod-
elo general), contiene a los modelos 2,3 y 4. Dicho de otra forma, la matriz X resultante
de ajustar el modelo general, contiene a todas las matrices que usarı́amos para ajustar los
demás modelos, entonces podemos utilizar la prueba F parcial para comparar los modelos
1,2,3 y 4. El resultado se muestra de forma abreviada a continuación:
1 1 1 1
1
1
2
3
2
15
2 1
3 2
3 3 2 1
3 4 12
1
TS (h)
3
2 2 2 4 1
2 1 2 4
10
124 1
4
1 34 52 4
1
2
1 1 4
3 3
5
5 5 5 4
5 3
5 5
−4 −2 0 2 4 6 8
log(BodyWt)
En la Figura 9.4, la recta naranja modela el tiempo promedio que duermen las especies
que enfrentan un peligro de 1, la recta roja modela el tiempo promedio que duermen las
especies que enfrentan un peligro de 2, la recta azul modela el tiempo promedio que duer-
men las especies que enfrentan un peligro de 3, la recta verde modela el tiempo promedio
que duermen las especies que enfrentan un peligro de 4 y por último la recta gris modela
el tiempo promedio que duermen las especies que enfrentan un peligro de 5.
Esta gráfica, nos indica claramente que mientras mayor peligro enfrente una especie y
mientras más pesada sea, en promedio menor tiempo dormirá.