Modelos Lineales Generalizados Book PDF

Modelos Lineales Generalizados ‘M® Asuncién Martinez Mayoral Javier Morales Socuétamos Dpto. Estadistica y Matematica Aplicada Centra de Investigacion Operativa Universidad Miguel HernandezNo esta pernitida la reproduccién tol o parcial de este libro, ni de su tratamiento informético ni ta transmisiin de ninguna forma por cualquier medio. va sea electrénieo. por fxtocapia. por registro u otros métdos, sin el permiso previo y por eserito de los titulares del consright Impresoen Espaia. Printed in Spain Autor Mesuncion Martinez Mayoral Janer Morates Socuewamos ISBN: 84-95893-01-0 Depdsito Legal: A-1544-2001 Fotocomposicién, impresién y encuaclemacién: Gritficas Limencop S.L. ELCHE Editor: Universidad Miguel HemAndezPrdlogo Este manual de Modelos Lineales Generalizados surge del trabajo continuado de tres afios de docencia impartiendo la asignatura Métodos de Regresidn en la Licen- ciatura en Ciencias y Técnicas Estadisticas de la Universidad Miguel Hemindez de Elche Hemos tratado de hacer una revisién a nivel basico, de los modelos lineales ge neralizados (GLM, abreviatura cou kt que uvs referiremos frecuenlemente a estos modelos, y que proviene del inglés Generalized Linear Models). La pretension al confeccionar la asignatura fue la de conseguir que el estudiante, a la vista de unos datos, aprendiera a proponer cuestiones a resolver y a la vez modelos estadisticos tiles para contestarlas. Se le ofrecian como herramientas una serie de modelos Tine- ales gencralizados comunes en la prictica, Este manual sigue esa filosofia; asociado a cada concepto teérico tratado, se propone un ejemplo para ilustrar eémo se Hevaria a cabo la modelizacion e mnterpretacion de los resultados del analisis. La resolucién de los ejemplos esta hecha con el paquete estaclistico de libre dis- posicién , desarrollado por AT&T Rell Laboratories por Rick Becker, John Cham- bers y Allan Wilks, iniciado como una réplica del lenguaje-software S-Plus. R esta dis- ponible en la direccién web htip.//vwn.R-project org/. La flexibilidad y sencillez de este lenguaje para la programacién lo hace uita herramienta eMicaz. y versatil para el analisis estadistico. Ademas, R contiene implementados una buena cantidad de modelos lineales generalizados, con lo que la resolucién de la mayoria de los modelos que proponemns es inmediata, Para aquellos paca familiarizadas con este saftware existe un manual del lenguaje en la pagina web citada, AIndice general 1, Introduceién alos GLM 1.1. Limitaciones en el Modelo Lineal Normal 1.2. La Generalizacin del Modelo Lineal Normal Llementos de un Modelo Lineal Generalizado (GLM) 1.3, Bjemplos de datos modelizables com GLM’s 14, Modelos de cuasi-verosimilitud . 2. Conceptos Basteus de lus GLM 2.1. La familia Exponencial . Modelos Lineales Generalizados Relacion mediavarianza en la familia exponencial 24. Ajuste del modelo 2.4.1. Necesidad de métodoa numéricoa para catimar por maxima verosiuuilitud2.4.2. Elaiuste por MAXIMA-VEROSIMILITUD_ 2.4.2. Matodos Numéricns de Obtencidn de los FMV"s 2.4.4, Minimos Cuadrados Ponderados Iterados 24,5, Estimacién del parimetro de escaks @. Inferencia 2.5.1. Distribucién en el muestreo de U 2.5.2. Distribucidn en el muestreo del EMV(/3) Estadistico DEVIANCE: Bondad del ajuste . . 2.6, Compatacion de modelos . 2.6.1. Comparaciones con la deviance 2.6.2. Comparaciones con el estadistico de Wald 2.6.3. Comparaciones con los estadisticos Cy y AIC. 2.7. Chequeo del Modelo Ajustado: Residuos 2.7.1. Tipus de residuus 2.7.2. Residuos en R 2.8. Analisis de la Covarianza (ANCOVA). Ejemplos 2.9. Ejercicios 3. GLM para Respuesta Binaria 3.1. Introdnccidn, Rjemplos 3.2. _Hipétesis y Links para variables binarias 3.3. Modelos de dosis-respuesta Modelos Lineales Generali 34 38 68 B R 7 9 in © Mayoral y MoralesModelos Lineales Generalizados INDIC 34. 35. 36. 37. 3.3.1. Modelo Lineal 5 Peer : 3.3.2. Modelo Prohit 3.3.3. Modelo Logit... . . Peer : 3.3.4. Modelo Complementario Log-Log Estimacién y Bondad de Ajuste . Residuos aoe porn : Modelizacién y Anilisis. Ejemplos Ejercicios . 4. Tablas de Contingencia y Modelos Log-Lineales Al. 42. 43. 44. 45 46. 47. Introduceién y Ejemplos. . . Peer : Tipos de muestreo y distribucién de frecuencias . . 5 Modelos Log-Lineales 5 Peer : Estimacién maximo-verosimil, Bondad de Ajuste Consideraciones en el andlisis de Tablas de Contingencia Modelos Logit Multinomial 4.6.1. Variable a explicar Binaria . . 4.6.2. Variable a explicar Multinomial. . 4.6.3. Modelos Logit Generalizados Modelos logit-multinomial y variables ordinales 4.7.1. Variable a explicar nominal y predictor ordinal 5 4.7.2. Variable a explicar ordinal y predictor nominal . © Mayoral y Morates 80 80 81 81 81 84 86 147 150 150INDICE GENERAL Modelos Lineales Generalizados 4.7.3. Variable a explicar ordinal y predictor ordinal... ... 152 48, Modelos de cambio 154 48.1, Modelos Mover Stayer... . wees ISS AB.2. Simei ee eee 158 AY, EYER eee eee ee 102 5. Otros Modelos Lineales Generalizados 181 SA. Introduccion. eee eee II 5.2, Regresion de Poisson... eee ee ees II 5.3, GLM’s para Datos Longitudinales . . . sees 187 5.3.1. Introduceién y Ejemplos .. . . . 187 5.3.2. Curvas Exponenciales de Crecimiento eee 189 5.3.2.1. Respuesta Continua . . 190 5.3.2.2. Respuesta Disereta: conteos............ 192 5.3.3. Curva Logistica de Crecimiento 193 5.3.4, Curva de Crecimiento de Gomperz.. 0.00... eee 198 5.4, GLM’s para Datos de Supervivencia Censurados .......... 197 5.4.1. Conceptos Generales: Distribuciones asimetricas y Censura 197 5.4.2. Funciones de probabilidad para Tiempos de Supervivencia . 199 5.4.3. Modelizacién de la Censura 200 5.43.1, Modelos Hazard Proporcionales . 201 54.3.2. Representacidu de Poisson an 202 W © Mayoral y MoralesModelos Lineales Generalizados iNDICI 54.3.3. Distribucién Exponencial 203 54.34. Distribucién Weibull 204 5.3.5. Distribucién del valor extremo 205 55. Djercicios eee eee es 206 6. Modelos de Cuasi-Verosimilitud 21 6.1, Introduceién y Bjomplos oe ee eee eee eee DUT 6.2. Cuasi-verosimilitud y estimacibn. eee 2B 6.3. Sobredispersin: Modelizacion y Anilisis 218 6A, Bjercicios eee eee es 228 indice de Tablas 227 Ribliografia 33 © Mayoral y Morates vINDICE GENERAL Modelos Lineales Generalizados vi © Mayoral y MoraesIntroduccién a los GLM 1.1. Limitaciones en el Modelo Lineal Normal Muchos de los modelos de toda la vida son modelos lineales generalizados (GLM). Por micuciouat algunos, teuenus, = regresién lineal multiple 1 anilisis de la varianza (ANOVA) «= andlisis probit = analisis logit para proporciones * anilisis de item = modelos log-lineales # modelos de regresién para datos de supervivencia = polinumios inversosIntroduccion a los G = modelos basados en la familia exponencial = ete Sea cual sea el tipo de datos que pretendemos analizar, para una modelizactén adecuada siempre es bisico preguntar y contestar una serie de cuestiones: 1, {Cual es la vanable respuesta, esto es, la variable a explicar’? 2, {Son siempre homogéneas las condiciones de observacion’’ {Cémo cambia la respuesta media cuando se modifican las condiciones de ex- perimentacién’? 4. ;Qué variables pueden explicar algo sobre la respuesta? La respuestay a estas cuestiones constituyet la guia eseucial de por d6ude abor- dar el andlisis de los datos para obtener el tipo de conclusiones deseadas. Cuando ademés corroboramos que la respuesta verifica — normalidad — homogeneidad de varianzas linealidad (aditividad) de los efectos sistematicos proponcmos como modclizacién cl Modelo lineal Normal: Y¥—XBte (uy donde e + N'(0, 02), de Forma que EYY)—p — XB Var(¥,) Sin embargo, el mundo de los datos no ¢3 perfectamente NORMAL. Muchas veces, los datos proviewen de otras distribuciones que no pueden satisfacer munca 2 © Mayoral y MoratesModelos Lineales Generalizados Introduceién a los Gi EY) Vari¥) ¥ ~ Nino?) H ° ¥ ~ Bri) helt] wp) Y ~ Potu) we (0, +90) uw Galayna) | we (400) _p/' Tabla 4.4: Ditribuciones ucuales, Relacién entre la media y la varianza, los requisitos del modelo normal respecto a la relacién media-varianza. Algunas se ilustran en la Tabla 1.1, junto con su media y su varianza, Cuando no se verifican las hipétesis del modelo lineal normal, la dinémica usual es intemtar alguna transformacion de las variables, de forma que se corrijan las deficiencias y asi poder aplicar el modelo normal. Sin embargo, surgen algunos in- convenientes: ~ Algunas transformaciones no estin definidas en las fronteras del espacio muesteal (como la logit). —No es siempre directa la interpretacién de la variable transformada, — Generalmente no cxists una escala Ginica que corrija a la vez “todos los defectos” (violactones de las hipéresis) que encontramos en el ajuste de un modelo lineal (como por ejemplo, linealidad y heterocedastictdad conjuntamente). Ejemplo 1.1 (Regresin de Poisson) Las datos son relativas al mimero de quejas a médicos de un servicio de urgencias en un hospital (Le, 1998, pag. 113). El interés Inisic del umiivis e encontrar reluciones enive ef mimeru ie qucjus que recibee un meédico y el hecho de que sea hombre o mujer, haya sido restdente 0 no en un servicto de urgencias, sus ingresos y el mimero de horas y consultas que ha realizado en alli. Algunos de los datos se presentan en la Tabla 1.2. La respuesta es “Y;jx =mimera de quejas que recibe el k-ésima médico de sexo 4 (— L hombre, — 2 mujer) en la categoria j de residente-en urgencias (— 1 no, — 2 si)”. Dado que el mimery de quejas esté limitado det nimero de consultas realizadas, © Mayoral y Morates 3Introduceién a los GLM Modelos Lineales Generalizados Nowisitas QuejasResidente Sexo Ingresos Horas: 2014 2 Y F 263.03 1287.25 3091 3 N M 334.94 1588.0 879) 1 y M — 20642 705.25 1780 1 N M — 226.32 1005.50 3646 u N M 288.91 1667.25 ‘Tabla 1.2: Datos de un servicio de urgencias hospitalari. podriamos asumir que Yijx se distribuye segin una Poisson con tasa de ocurrencias Ask ¥ media proporcional al mimero de consultas realizadas, Zijx, esto es, Yijn ~ Pol dsj Zizx); ta tasa de ocurrencias estaria relacionada con el resto de variables explicativas En la Figura 1.1 tenemos representada la variable respuesta, cuya distribucién es cclaramemte asiméirica, Es impostble utilizar ef logaritmo para corregir la asimemria dado que hay varios ceros. Ni siquiera la transformacién Y 2! consigue algo de simetria. La modelizacién estd resuelta en el Ejemplo 5.1. 2 2 5 2 e e = 2 1 4 o 4 8 12 012345 auiajan auiajann(oiay Figura 4 1° Niimarn da quejas a médions an un Servicio de UIrgancias 4 © Mayoral y MoratesModelos Lineales Generalizados Introduceién a los GLM Por eiemplo. en problemas con datos basados en conteos procedentes de una distribucién de Poisson, suele ocurrir que: 1 los efectos sistematicos a menudo son multiplicativos: E(Y) = aexp(bX). + VY aproxima homogeneidad de varianza. + Y#/9 aproxima simetria o normalidad. # log(Y) prod aditividad en las efectos sistenviticas (F(log(Y)) = a+ 82) de modo que ninguna escala tnica corrige simultineamente todas las propiedades deseadas para el ajuste de un modelo lineal. 1.2. La Generalizacién del Modelo Lineal Normal Los modelos li \eales generalizados (GLM) son una alternativa a transforma ciones de la respuesta, justificadas por falta de linealidad y homogeneidad de la varianza, En todos los modelos lineales generalizados, las propiedades basicas de los esti- adores (como por ejemplo, las varianzas) son insensibles a la distribucién asumida: dopenden bécicamente de: = la relacién asumida entre media-varianza, al grado de independencia/incorrelacidn entre lac obvervacionee. Las hipétesis basicas de un modelo lineal generalizado (GLM) con: = independencia entre las respuestas: 1 la “respuesta media” cambia con las condiciones, pero no la “forma funcional” de In distribu = Ia respuesta media, o alguna transformacién de ella, cambia de modo lineal cuando las condiciones cambian, © Mayoral y Morates 5Introduecién a los GIM Modelos Lineales Generalizados As se trabaja con aquella distribucién de probabilidad y aquel funcional para el mbio en la respuesta media de la variahle observada, qe mejor acamoda los datos. Esto es, los GLM permiten especificar, separadamente: = la distribucién de los datos, 0 lo que es basico, que es la relacién media- varianza ~~ funeion de varianza; «= las relaciones de linealidad entre la respuesta media y los predictores ~~ funeién link. Ademis, ¥ unifican todos los modelos en los que la respuesta (continua o disereta, en la familia exponencial) guarda algin tipo de relacién lineal con los predictores; ¥ no ferzan transformaciones de las variables a escalas no naturales, dificiles de interpretar; ¥ utilizan un mismo algoritmo de estimacién: minimos cuadrados ponderados iterados. 1.2.1. Elementos de un Modelo Lineal Generalizado (GLM) «= Las variables respuesta ¥;, i = 1,...,n, comparten la misma distribuc' la familia exponencial. = Un cunjunto de variables explicativas X y de pardmetwus 0 = (Keparametrizacion) Una funcién monétona Hamada lank, g(), proporciona el predictor lineal n, glue) =m = X48. con Bus) = 1. En la Tabla 1.3 aparseen algunos modelos y links uauales en la modelizacién de GLM's, 6 © Mayoral y MoralesModelos Lineales Generalizados Introduceién a los Gi Modelos Tinks Normal identidad i Binomial inverso Vu Poisson inverso cuadratico 1/4? Gamma raiz cuadrada Vi Gausiano inverso || exponencial (ut en)? log Loat) logit log aba) cloglog log(—log(.)) probit wv Tabla 1.3. Alguinos modes y inks usuales en ajustes de GLMS. 1.3. Ejemplos de datos modelizables com GLM’s. Prescutanius a Cuutinuacién algunos ejemplos cou dates eu los que > viable la modelizacién a través de modelos lineales generalizados. La mayoria de estos ejemplos son tratados y analizados en temas sucesivos. Ejemplo 1.2 (Respuesta Binaria) En un experimento se sometié a cierto mimero de cucarachas a cinea horas de expoxicién a disulfato de carbon gasenso a varias concentraciones (Bliss, 1935, también en Dobson, 1995, pag.109). Se pretendia in vestigar la relacién existente entre fa dosis de disulfato administrada y la resistencia de os insectos. Los datos aparecen en fa tabla 1.4 La variable respuesta es “Y; =nimero de escarabajos muertos en un roral de nj sometidos a una misma dosis de pesticida x", La distribucién habitual es binomial, Y, ~ Ri(n,,m) para i= 1,....n, con x; =probabilidad de muerte a dasis x; Ver Ejemplo Ejemplo 1.3 (Respuesta multinomial) Los datos de fa Tabla 4.1 (Roberts et al, 1981, también en Dobson, 1995, pag. 121) provienen de un estudio de pacientes con una forma de céncer de piel Hamado melanoma maligno. En una muestra de NV = 400 pacientes se recogié informacién sobre la localizacién del tumor y su tipo histolégico. Los datos son ef niimero de pacientes en cada combinacién de tipo de tumor y lovalizacién, El interés bisico del andlisis es investigar la relacién entre el tipo de tumor y su locatizacién. © Mayoral y Morates 7Introduecién a los GIM Modelos Lineales Generali Tog.dosis (r:) No. inseetos (ni) No. muertos (y.) 1.6907 39 6 1.7242 60 13 1.7552 @ 18 1.7842 36 28 18113 63 52 1.8369 59 33 1.8610 62 61 1.9939 60 60. Tabla 44: Datos de mortalidad de cucarachas Dado el tipo de muestreo realizado (se selecciond a un conjunto de pacientes con melanoma y se les five clasificando en funcién de los dos criterios mencionados), Ia distribucién de la variable respuesta “Y;; =mimero de tumores de tipo i en la Jocalizacién 5” seria multinomial. Ver Ejemplo 4.1 Localizacion tipo tumor cabeza/cuello_tronco _extremidades | total [Hutenmson ZZ Z wu | 34 ‘melanoma superficial 16 4 Ls nodular 19 33 B 125 indeterminado. u 0 28 56 total 8 106 226 400 Tabla 1.6: Melanoma maligno: frecuenclae por tipo de tumor y localizacién, Ejemplo 1.4 (Respuesta ordinal) Los datos que se presenton en la Tabla 1.6 (Agresti, 1990, pag. 262) corresponden aun estudio en el que se pretendia concluir sobre la relacién entre el grado de satisfaccion en el abajo y loy ingresos percibidos, ambas variables caregorizadas y de tipo ordinal. Si existe asociacion, un segundo objetivo es predecir el grado de satisfaccién en el trabajo (variable respuesta ordinal) en funcién de los ingresos percibidos (predictor ordinal). El interés del andlisis es resolver estas cuestiones incorporando la informacién ordinal de las variables. Vor jemplo 4.12. Ejemplo 1.5 (Respuesta normal) Los datos en ta Tabla 1.7 (Dobson, 1990, pag.) corresponden a un esiudio en el que semillas genéticamente iguates sun avignadas 8 © Mayoral y MoratesModelos Lineales Generalizados Introduceién a los Gi Muy Poco Moderad Muy Ingresos ($) Insatisfecho _Insatisfecho Satisfecho _Satisfecho = 6000 20 ox 80 82 6000 — 15,000 22 38 os 125 5,000 — 25,000 13 28 31 13 > 25000 1 18 54 92. Tabla 1.6: Satisfaccion en el trabajo e ingresos, (aleatoriamente), bien wun entorny enriquecido nutricionalmente (watamiento), bien a condiciones estindar (control). Una vez han crecido todas fas plantas, se recolectan, secan y pesan. EI interés del andiliss es investigar el efecto del tratamien- to utilizado sobre el peso seco (en gramos) de las plantas en cuestién. Ver Eiemplo 217 En este caso podemos asumir normalidad para la variable respuest secu (gr) de fa plana j en ef yrupy i (= 1 wuumien, = 2 consol captar diferencias entre el tratamiento y ef control. “Yj peso trata de control] 4.17 tratamiento | 4.81 ST 6.03 a5. 4.89 Tabla 1.7: Datos sobre el crecimiento de plantas. Ejemplo 1.6 (Respuesta Continua Asimétrica) Los datos en la Tabla 1.8 (Exam- ple U de Cox v Snell, 1981, también en Dobson, 1990, pag.47), covresponden a tiem- ‘pos de supervivencia (en semanas) para pacientes de leucemia y su correspondiente comteo inicial de eéhulas blancas en Ja sangre (en escala logya). El intorés del andili sis es intentar predecir el tiempo de supervivencia ¥ en fancién del nimero inicial de células Blancas x. Ver Efercicio 3. Una distribucién usual en la modelizacién de tiempos de supervivencia es la exponencial, que es un caso particular de la gamma. Ejemplo 1.7 (Respuesta Longitudinal) En economia se presta mucha atencién a comparar las razones de erecimienta entre diferemtes paises. La formacién del capital doméstico bruto es un indice importante para modir el crecimiento econdmico de un puis. Eu la Tabla 1.9 (Oliver, 1970, también en Lindsey, 1997, pag.71) tenemos loy © Mayoral y Morates 9Introduecién a los GIM Modelos Lineales Generalizados tiemposy; | 65 136 100 134 16 108 (21 4 39 célulasas | 3.36 2.88 3.63 3.41 3.78 4.02 4.00 4.23 3.73 tiemposy,| 4356 262=*«222~OdTSdSS OS edlulasay | 3.85 3.97 451 454 5.00 5.00 4.72 5.00 Tabla 1.8: Tiempos de cuperviveneia (en comanae) para pacientes de leueemia y eontce nial de vélulas blancas en la sangre (en estat fog.0). datos de este indice en el Reino Unido para el periodo comprendido entre 1948 y 1907. El obfestvo del analitsts es modettear fa evotuctin de dicho tndice de cara a tuna prevision det juturo, La variable respuesta ‘indice econémico’ tiene un crecimiento exponencial los primeros aitos. y acaba estabilizindose: podria asumirse una distribucién exponencial, Ver Ejemplo $.3. afio | 101 1919 1950 1981 10821953 gdfer | 1422 1377 1700 1889 2106 2359 TOs? 19551956 2829 3103 3381 afio | 1957 1958 1959 1960 1961 1962 gdfef | 3492 3736 4120 461947314906 19641965 1966 63316686 7145, Tabla 1.9: Formactén de capital doméstico bruto en Gran Bretafia durante 1948-1966, 1.4. Modelos de cuasi-verosimilitud Los modelos de cuasi-verosimilitud son modelos lineales generalizados aiin mas generales, en los que en lugar de especificarse la distribucidn de la variable respuesta, se conereta jinicamente: ~ [a fein link: g(s1) =n = XB: y la funcién de varianza V(j1) tal que Var(y) = oV(y). Soma buena altemativa a modelos en los que la respuesta presenta sobredlisper= sin respecto de la distribucién asumida, esto es, que presentan mayor variabilidad de la que postula dicha distribucidn. 10 © Mayoral y MoratesModelos Lineales Generalizados Introduceién a los Gi M Ejemplo 1.8 (Respuesta Poisson con sobredispersién) Los datos de la Tabla 1.10 (Bissell, 1972, también en Garthwaite et al, 1995, pag. 271) corresponden al mimern de defectos encontrados en rollos de fabrica de varias longitudes, El interés del andli ois 9 inveatigur tu retucién enire ef mimesy de faltoy (respuesta) y ta tongitu det rollo. Ver Ejemplo 6.5. La respuesta 'Y; =ntimero de fallas’ podria responder a una distribucién de Poisson,; sin embargo hay indicios para sospechar que su varianza es mayor de la que le corresponde en casa de ser Poisson, quizds Var(¥;) = OE(Y,), ean @ > 1 La modelizacién ese plantea a partir de la rele ninguna verosimitiaud particular: in media varianza, sin considerar ‘observacion No-Fallos Tongitud del rollo 5 2 4 651 3 a 832 4 9 375 5 4 715 6 8 x08 2 Tabla 1.10: Nimero de taras versus la longitud de los rollos. © Mayoral y Morates inIntroduceién a los GLM Modelos Lineales Generalizados 12 © Mayoral y MoratesConceptos Basicos de los GLM La familia Exponencial La fumncién de densidad de una variable aleatoria Y; euya distribucién pertenece a la familia exponencial viene dada por: 5) — erp fH HOD. fluss0i.0) cop {3 a felt of 1) donde a;(}, 6) y c()} son funciones especificas de la distribucion en cuestién, y 0; es el denominado pardmetro natural 0 canénico. Si @ es conocido, entonces tenemos tun modelo de la familia exponencial lineal. Si d es desconocido, el modelo pertenece a laclase de las madelos de dispersién exponenciales May a menudo, resulta que a:($) — aid, donde ay es una constante de peso conocida y ¢ es Hanmado el purimeiro de dispersion o escala. 13Conceptos Basicos de los GLM Modelos Lineales Generalizados Una formulacién mas general para expresar la funcién de densidad de una distribucién de la familia exponencial es la siguiente, F (yes 1) — #(y.)4(A,) eM WOOD) — cep { r(y,)r0(B,) + (8) + d{ys)}, (2.2) con (04) = log(t(0}} y d(ys) = log (atus)) Si r(y)) = gi, decimos que la distribucion en (2.2) viene dada en_forma candnica, A veces, a w( li) se le ama pardmetro candnico de la distribucton, Si hay otros parimetros ademas del parmetro de interés 8, que forman parte de Ins finneiones 1,10, ¢y d, se consideran eomo pardmemas de ruida, y serie tratados como si fueran conocidos Ejemplo 2.1 (Distribucién Normal) Vow Nipts,a?) ms EVs) = pe 2 fys00?) \ sof vi pry vino 2 con Se plegt2na?y} 0; ee 0) = & ax(9) ely, 9) Ejemplo 2.2 (Distribucién Poisson) Yew Polis) + BUY) =n a ) = eee Susan) = pexp(-m) exp (yattlogyis — pi — logy! 4 © Mayoral y MoralesModelos Lineales Generalizados Conceptos Béisicos de los GLM- 4 = log: U0) — cxp(r) a{d) 1 ely, 9) — —log(y:')- Ejemplo 2.3 (Distribucién Binomial) Y= Bilmeym) -» EY) = nm = ps Flim) — (te) aa mynnm = exp fo (logs — log(t — ns)) stog(d — 1) + ste G)} Aopit(as) a = toa (=) = too nA.) nglog( + 0%) a(@) = 1 vi.6) — tog (ti) Ejemplo 2.4 (Distribuciéu Gamma) ¥~Gu(v,v/ui) > EQ) =n Hussar) = (2° cori) mi) TO ap {Und =r) a + plog(v)+ Hoy Pv) + (v = logye} © Mayoral y Morates IsConceptos Basicos de los GLM Modelos Lineales Generali % = -1/Hi bo) a) = 1fv=o Lo 1 I elynd) — loge towtt (2) ' G ) tout) 2.2, Modelos Lineales Generalizados Un Modelo Lineal Generalizado (Generalized Linear Model (GLM)) consiste en: 1. Variables respuesta independientes ¥4,..., Yq que tienen fa misma forma distribucional (parametrica) dentro de la familia exponencial 2. Un vector de parmettos 6” = (51... 3p) y una matriz de disefio X 3. Una funeién monétona y diferenciable llamada funeién link g(.), que define la relacién entre la media fu; = (4) y el predictor lineal x/,5 = 1p, es decir, gets) — ms — 48: Nota 2.2.1 En los GLM asumiremos que el pardmetro o se mantiene constante, sin interferir en la linealidad del predictor lineal respecto de 3. Nota 2.2.2 Llamamos link candnico a ta funcién q(-) que define el parémetro candnico 6; de un modelo en términos de su media ju. (He) = 4 2.3. Relacion media—varianza en la familia exponencial En los miembros de la familia exponencial exiate una relacién especial entre Ia media y ta varianza, que aprovecharemos posterionmente para obtener el ajuste y 16 © Mayoral y MoralesModelos Lineales Generali dos Conceptos Bésicos de los GLM estimar los parametros de interés. Denotemos por (0, dy) a la funcién de log-verosimilitud obtenida con una éiniea oboorvacin y, yo — 610) 1(0;y) — tog f(ys0,9) = ey, 9) 0) — tog £05050) — PS" + elu) y por (/ a la funelon score asoctada, Alog f(ys4,4) _ y—¥(O) y 00 af) 23) El valor esperado de la funcién score es cero, y en consecuencia, la respuesta media c3 igual a la derivada de la funcién &(0): EU) =0 = BY) =U) (24) Demustracitin. Nog f(ys0.0) a 1050,0) ay= f Zr0u50,0) ay a 00 [1119.0 d0~0 Luego > Ey) = VO), ege. La varianza de la funcion score es igual al valor esperado de su derivada cambi- ado de signo, En consecuencia, la varianza de la respuesta Y se puede escribir como el producto de la funcién de escala a(¢) y la derivada segunda de la fancién (0): Var(U) = -BU') > Var(¥) = a(o)V (qn) 2.5) donde V (y1) = 0"(0) es la llamada tunet6n de varianza, © Mayoral y Morates 0Conceptos Basicos de los GLM Modelos Lineales Generalizados Demostracién: Puesto que F(I) = Ny Var(t) = BU) — BUY + Var) = FW?) Con lo que basta probar que (U2) — (LU), eiendo U? — 2U/20. De (2.4) se tiene que (U7) — 0+ f 3h fly — 0. Tomando derivadas de nuevo, al a (al aot | in (aw) a ot, | OOF 4 | ot oo 008” como A/a = f/f — J! =f-al/oo (5m) + i La) Be de donde se coneluye con que £(U?) = —B(U") Y dado que E(U") = —W/"(9)/a{d), se tiene que Var(try — Wary) _ 00), ao) ag) yporlo tanto Var(¥) = a(¢)b"(0), cad. 2.4. Ajuste del modelo 2.4.1. Necesidad de métodos numéricos para estimar por maxima verosimilitud Nada mejor que un par de ejemplos para ilustrar la necesidad de métodos numéri- cos en la estimacin de los parimetros de un modelo lineal generalizado, De hecho. enel modelo lineal normal, Is ecuaciones normales para Ia estimacién son analiticas, pero no ea lo usual en cualquier GLM, como vemos a continuacién en un modelo Pyisson sencillo, 18 © Mayoral y MoralesModelos Lineales Generalizados Conceptos Béisicos de los GLM Ejemplo 2.5 (Ajuste del modelo Normal) Planteado ef modelo lineal usual, E(Y) = XB, se obtiene la expresién expliita (amalitica) de los estimadores mixcimo— verosiniles , simplemente devivando la log verosimilitud 1(0;¥) respecto de , ¢ igualundy w cery, Dada ta forma ike te tox-verusimititud, > Ee -#R/2_ plor+ petal 2a? 2 Wy) D a? 2 derivada reypecio de 9, € igualuda a cero da lugar a. OG; . BPEL 8 Loe aB20) 0 fee ~~ XY —XB)=0 a B= (XX) N'Y. Ejemply 2.6 (Ajuste de un modelo Poisson) Planteady ef modelo de prediccion log|E(Y)] = X. y en particular log|E(Y;)) = Gp + Hiei, obtendriamos el EMV de Ba partir de la log-verosimilinud Musy) = Y wstognes — ws = con pi; = E(Y,), que expresada en términos de 8 = (8), 51) resulta UB) = D> wil + Burs) — explo + Bix). Las ecuaciones que dan lugar a las estimaciones maximo-verosimiles son: _ aay) 2 88 = YL wi explo + hres) > a ony =D exp (sha), a © Mayoral y Morates 9% és L. Modelos Lineales Generalizados Ecuaciones que no son lineales en y por to tanto fuerzan la estimacién numéri- ca de su EMV. 2.4.2. Elajuste por MAXIMA-VEROSIMILITUD Notacion Consideramos un conjunto de datos que provienen de variables observadas Vises Yn, enya distribucién cs de la familia exponcneial, Yi~ FO, 9). La log-verosimititud conjunta viene dada por wb WO) x Cis Bs 2.6 cou 6; el pardmeny canduicy, relacivnaly con jx; = (V4), y @ um pardmnenw Ue escata, Consideramos el ajuste de un modelo tineal generalizado de ta forma: gis) =m =x38, BERT. Ecuaciones a resolver Para obtener el FMV de 3 hemos de maximizar (2.6) respecto de @. Dicha maxi« miacibn 9 expresable a modo de una regresién por minimos cuadrados ponderados, inmersa 20 © Mayoral y MoratesModelos Lineales Generali dos Conceptos Bésicos de los GLM El ajuste por maxima-verosimilitud se obtiene resolviendo las ecuaciones al(@:y) Ale(Os: 45) = Li = Hi) 5 0, para j=1 zy Var(¥.)a'Gu) ad ue escritas en forma matricial resultan: U = X'MALY — yp) =0, 9) donde U! Wi Uy), X (uy )uxps ¥" Mis Kae ow! (un tin) ¥ M —diag{my,..., ma}, con mj — Var(¥5)g"(ui): Notar que tanto jz como M son funcién de los parimetros a estimar, 2. Demostracién: 1. Las observaciones son independientes, luego 2. Datla la comexidn directa ys — 6: — jis — i — 3, la derivata del score respecto del parimetro de interés 6 se obtencdra aplicando la Regla de la Cadena AAO: us) _ AGsiue) OO; One One 23 Bj Om 8B, @19) donde AAO Ys) w— VO) th=te 00; a;(@) a;(o) yo) + 2 — yay + 2 w= 40) aa) > Fe = Fe © Mayoral y Morates 2Conceptos Basicos de los GLM Modelos Lineales Generalizados oH) Asi, sustituyendo en (2.10) tenemos: Nes Us) yi = pi )avig 08; y Varl¥ido ue) Nota 2.4.1 Si g(j1:) es el link candnico, entonces V(je;) — 1/9! (yas) ¥ (2.8) queda simplificuda a SF MiRig Mati 7 an Zaid) Laie Fb eu Demostracién: Por ser 9 el link candnico, g(us) = 0, luego “ts — Fe, Como ju, — E(¥i) = U(0,), se tiene que See = A — ay) = Vi) a g's) La obtencién de (2.11) es directa. Nota 2.4.2 Si a;(d) = 0:0, con los a;'s conocidos, entonces (2.8) queda (yi = widrsy _ aV (nig) Ds (2.12) que no depende del pardmetro de escala ¢. 2 © Mayoral y MoratesModelos Lineales Generalizados Conceptos Béisicos de los GLM 2.4.3. _Métodos Numéricos de Obtencion de los EMV’s ‘Las ecuaciones que se obtienen para resolver el ajuste por maxima verosimil: itud, (2.8), generalmente no son lineales en /3;, j = 1,...,p. Surge entonces la necesidad de utilizar métodos numéricos para obtener las estimaciones (maximo-verosimiles) 3), j — 1,...,p, y en consecuencia obtener el ajuste fa — g~ (x1). Come posibilicades tenemos: 1, Newton-Raphson: OY = HS! Ujea 2. Seoring de Fisher ° (ar) FL (aor) r~ run ye oa) . y Ug, Ij! © Z3! son las matrices U, I~! © Z~! evaluadas en (3. Demostracién: 1, Newton-Raphson se apoya en el desarrollo en serie de Taylor: Si 3* es solucién de U(3) — Us — 0, y 6 es un punto cualquiera, entonces podemos escribir aproximadamente 0 = Ua = Ugo + Ho (Bt - 8. donde H = 0U/00 = (01/0 J) es la matress © Mayoral y Morates 3BConceptos Basicos de los GLM Podemos asi construir un procedimiento iterativo que finalmente llegari al cero de 1 através de, ji — ge-D yt 2, Elmétodo Scoring de Fisher aprovecha el mismo algoritmo iterativo de Newton- Raphson sustituyendo Ia matriz hessiana por la matriz de informacin de Fish- ex, Z — —D(H1), dando lugar a (2.14), Cualquiera de los procedimientos iterativos de busqueda de los EMV’s es expresable en términos de un ajuste iterativo de minimos cuadrados ponderados, lo que da lugar a ta denominacién del método de estimacién como Ajuste por Mi mos Cuadrados Ponderados Iterados. Repasemos en primer lugar la justifieacién y procediniento de estinzacion por minimus cuadiades pouderades, para pasar a cou- tinuacién a expresar el algoritmo iterativo de Fisher en términos de un ajuste similar, .4.4. Minimos Cuadrados Ponderados Iterados Propuesto el ajuste del modelo lineal Y =X | c, donde c ~ Na(0,02V), V una matriz conocida, definida positiva y simétrica tal que existe una matriz.K con V = KK’, para conseguir los estimadores maximo-verosimiles de {f dentro de los supuestos del modelo lineal normal, basta con transformar Za Ky \ M=K-~X } yajustarZ—= Mg 46, donde 5 ~ Ny(0,072) acer La estimacién por minimos cuadrados ponderados consiste en resolver ming (Z — MBY(Z — MB), que da lugar al EMV a (M'M)'MIZ = (X! (NIKO XX! UHI ee ae KK RV (X'V-EX) IXY TY ” © Mayoral y MoralesModelos Lineales Generalizados Conceptos Béisicos de los GLM La expresion del algoritmo iterativo Scoring de Fisher como un aiuste de ‘mos cnadrados ponderadas iteradas viene dada por: 30) — (ews) xy tw) ae 2.15) “ [ a) ] “bs (ari), diag {V ar(¥s)g'(ui)®s t= Ly. } Xi4-+(y = p)diag{g'(11),---.9'U4n)} Demostracidn: Para llegar a la expresién (2.15) procedemos, en primer lugar, multiplic bus halos de (2.14) pur la mattiz Z)y.-»), de donde BPP + Ue (2.16) Si calculamos la expresion de lus étminos de Z3 = Z(3), . Pe Mf ki tu = -° [aga] =~)" [aaa Lf le) f OG 7 i= Ha) Le (a) (a4) x Vario"? Sota ZVarl¥.)o'uP Es decir. Ta = X'W5!X 17) donde W = diag{Var(¥i)q'(us)*, i = 1,....m}, y puesto que Up = X'Wg Zp, con Z = (yi — pi)y(Hi)s f= 1.16 a ecuacidn (2.16) queda: wel xg) — xtwel xg) yrs XW), XA = xt) XB! XW, © Mayoral y Morates 28Conceptos Basicos de los GLM Modelos Lineales Generali de donde se obtiene la expresion x'w3l xan = x ‘ier ae BO (XWST XE XIWSD Zoro Ly Sates similar a la ecuacién de ajuste de regresién por minimos cuadrados ponderados (MCP), con W como mattiz de pesos. La diferencia con el procedimiento habitual de MCP estriba en la necesidad de iterar; de ahi la coletilla de iterados. Notar que tanto los pesos W’ como las respucstas % dependen del veetor de parimetros a estimar 5. En concreto, en el algoritmo dependerin del valor obtenido para (4 en la titima tteracton, Nota 2.4.3 Especificando una estimacién inicial 3!) de 9, las ecuaciones en (2.15) se pueden resolver tierattvamenre huyia obiener una secuencia de estimaciones 3,6)... que convergen al estimador maximo-verosimil (3. 4 tel xy-lxtwet AO = (XW XY XW ED Zev. Nota 2.4.4 La estimacién inicial de 3 se puede obtener tomando jt; = 1, v ajustan- do si fuera necesario. Nota 2.4.5 Si ai(d) = 0:0, entonces la matriz de informacion de Fisher (2.17) se puede expresar como ZL ixiw x, (2.18) donde en este caso, W = diag(aV (yts)af yu), § 2.4.5. Estimacién del parametro de escala Deaafortunadaments, aunque # sea conocido, como ocurre en los modelos Pois- sou y binoutial, necesitaremos estinatl. 26 © Mayoral y MoratesModelos Lineales Generalizados Conceptos Béisicos de los GLM Cuando a.(6) = asd. un estimador consistente de d (= Varl¥)/a.V(1e)) que permite también la estimacién (consistente) de es el estimador corregido de los grados de libertad, definido como: 5-1 (w= i? 5 Gy 2.19 Pap hy aVi al La relacién entre este estimador corregido de los grados de libertad y el estadistico de Pearson generalizado es directa: x2(ysii) — (n= pd. (2.20) 2.5. Inferencia Una vez seleccionado y ajustado un modelo conereto, se plantea el problema de inferir sobre la calidad del ajuste: dar intervalos de confianza de los pardmetros, a hondlad del ajuste Para ello es impre~ recalver contrastes da hiphtesie y eale scindible conocer Ia distribucién en el muestreo de los estimadores y de otros estadisticos que seran titles para medi la bondad del ajuste La idea basica es que consiguiendo estimadores consistentes, estos serin inses- gados y asintéticamente normales por el Teorema Central del Limite. Enel Teorema Central del Limite se basa la obtencién de las distribuciones en el mestren de las estadisticos: = Scores U SEMV(3))= 3 — Deviance (estadistico de bondad de ajuste), que se presentan a continuacién, © Mayoral y Morates nConceptos Basicos de los GLM Modelos Lineales General ‘Teorema 1 (Teorema Central del Limite) Si @ es wn estimador consisiente de un partimewo 0 (es decir, in & 0 littnsePr(\bn — 4] > 2) = O, y Var(0) es su varianza, entonces para muestras grandes tenemos, apr ‘madamente al menos, que 1. Bes un estimador insesgado de 6 2. G~ N(0,Var(d)), 0 lo que es igual, (0 — 0)#/Var(0) ~ xf. Generalizando el teorema anterior a p dimensiones, ‘Teorema 2 (Teorema Central del Limite p-dimensional) Sea OF — (xs .-258)). S10 09 un ostimador consistonta do Oy V su matvie de varian. , entonces J. Ges, asintéticamente, un estimador insesgado de 0. 2. Si Ves no singular, entonces 0-OV-"6-0) + x2, SIV es singular, entonces tenemos varias atternanivas a) Obtener una tnversa generattzada de VV, y entonces (6-0V-(@-8) <8 b)Expresar el modelo en términos de un vector paramétrico y € RP tal que ta matric de varianzas-covariancas W de su estimador sea no singular» ast (e-eYWe-9) & xB 2.5.4. Distribucién on ol muestreo do U Siendo U; = E(U;) = 0, 28 © Mayoral y MoralesModelos Lineales Generali dos Conceptos Bésicos de los GLM donde Z es la matriz de informacion de Fisher, Por el TCL ee tiene qua, al menos azintoticamente, U~N(Q,Z) + UIT ~ 2 (2.21) 2.5.2. Distribucién en el muestreo del EMV(3) Cuando se encuentra un veetor 4 solucién del ajuste por MCPI. éste es consistente, asintéticamente normal y asintéticamente eficiente. La media de su distribucién asintética normal es 3, y su matriz de varianzas-covarianzas la inversa de la matriz. con uk Tix Dav Nea En conereto, para muestras erandes se tiene WD =(8-A)'T(A-p) ~ x2, (2.22) donde IW’ D recibe el nombre de estadistico de Wald, y equivalentemente 3~ N(8,2-1) (2.23) Demostracién: Supongamos que la funcion de log-verosimilitud tiene un tinico maximo en B = By que este estimador quede cerca del verdadero valor de . Consideremos también la aproximacién de primer orden del vector score, U(—) — U(A) +19 = 1) ee © Mayoral y Morates 2»Conceptos Basicos de los GLM Modelos Lineales Generalizados Asintéticamente H(3) + E|H(3)| = -2(8) ‘grandes —Z. de donde para muestras U(@) = -2 (8-8) + -a=T-W. Tratando a Z como constante, tenemos Bls-p)=r 'w)=0 = HA es decir, que (3 es un estimador insesgado de 3. La matriz de varianzas-covarianzas sera EUG (8p) ~Z-BWUUYZ—! — 2-1, Asi, porel TCL para muestras grandes, WD = (8 8)T(8- 8) ~ © equivalentemente, G~ N(G,Z-"). Nota 2.8.1 Excepto para los modelos lineales con variables respuesta con una dis- tribucién Normal, las resultados anteriores estén apoyados en aproximaciones para muestras grandes. También la matriz de informacion de Fisher T depende a menudo de los pardmetros 8, de tal forma que para wilizarla necesitaremos evaluarla en 5 = 8. Ocasionaimemte, —H (9) se uttltzard en lugar de Z(G) como una estimacton de T(j). Cuando n es grande, la diferencia entre (3) y -H(3) no serd muy rele- ante; algunos prefieren —H(3) porque no esté basada en una medida promedio, Resultado 2.5.1 Los elementos de la diagonal de la inversa de la matris de infor macién de Fisher (evatuada en ef EMY) proporcionan una medida de ta precisién ‘obtenida en las estimactones, Var(a;) = 33 donde ¥;; es el elemento correspondiente en la matriz I~! 30 © Mayoral y MoratesModelos Lineales Generalizados Conceptos Béisicos de los GLM Resultado 2.5.2 Los intervalos de confianza para las estimaciones 3; cuando el tamaio muestral es suficientemente grande, vienen dados por 8y taj VO ean siendo a. el nivel de confianza deseado y zqy3 el cuantil «/2 de la normal esténdar Resultado 2.5.3 Podemos examinar la correlacion entre las esttmactones utllizando Ja matriz Z, Ue corr By Be) = Fe Resultado 2.5.4 Cuando hacemos un contraste de hipdtesis para eliminar (0 no) una variable del modelo, por ejemplo Hy : 8; = 0, podemos wilizar el estadistico de Wald - WD; (8) B)P fey, que tiene una distribucién asintética x3, 0 lo que es igual, el estadistica de coniraste By 5 =-h syn (2.25) VOR Notar que las distribuciones especificadas para WD y Z son aproximaciones aasintéticas y por tanto sélo han de utilizarse como guia. En el caso de la respuesta normal, dichas distribuciones muestrales son exactas. Si @ es descanacido, ha de ser estimado; en lugar del estadistica Z 0 del estadistico de Wald habremos de utilizar las versiones t de Student y PF habituales Esto se verd en la seccién de Comparacién de madtelos. jemplo 2.7 (Estimacion en un modelo Poisson) Consideramos fos datos en la la- bla 2.1, donde Y representa el nimero de casos observados para diversos valores de una covariable X € {=1,11,1}, Pademas asumir entonces una distribuciéin de Pois- son para la respuesta y (Ver Ejercicio 6) Vamos ajustar un modelo de la forma = B+ baw, g(a) w= © Mayoral y Morales uCon: eptos Bésicos de los GLM Modelos Lineales Generalizados 67 8 10 1 oooo1 1 B loo Tabla 2.1: Datos Poisson ces decir, explicamos j. — E(Y’) con la variable «, y los retacionamos con el link iden- sidad. Queremos calcular las estimaciones de los pardmetros, sus errores estdndar y correlaciones. Para ello necesitaremos la matriz de diseiio X y calcular con ella ia mauriz de informacion de Fisher Z. Para ajustar ol modelo en R. inraducimas primeramente log datos con y < —c(2,3,6,7,8,9, 10, 12, 15) x <—c(—1,—1,0,0,0,0, 1, 1,1) P ajustamos ef modelo propuesto solicttando también la matriz de disefio X con el ‘argumento ‘x = 7" fit <—glinly ~ x, Family = poisson{link = "identity’),2 = T) Los resultados del afuste provienen de summary fit) y son: Estimate Sud Error_z value Pr(> el) Uniercep) 74516 08841 8428 < 20-16 x 4.9353 1.0892 4.531_5,86e — 06 Todos los coeficientes del modelo resultan significativos al 95% en funciéin del estadistico de Wald (columna '2-value’ en la tabla anterior), como puede compro- arse a través de sus p-valores asociados (columna Pr(> |2\)). La recta ajustada ene ta forma: BY) = 74516 + 41,9353 25 La estimacién del error estindar de tas estimaciones viene dada en ta cohunna ‘Std. Error’ de la tubla anterior, y son 0.8841 y 1.0892 respectivamente para (hy 32 © Mayoral y MoratesModelos Lineales Generalizados Conceptos Béisicos de los GLM A partir de esto, es facil construir intervalos de confianza para los parémetros del modelo: 10(01,95%) = 749+ 1,90(0,88) = (5,72,9,18) IC(82,95%) = 4,93 & 1,96(1,09) = (2,79, 7,066) ‘81 pretendemos sin embargo, calcular la matriz de vartanzas-covarianzas completa, con el fn de caleular también la correlacién entre las estimaciones, hemos de utilizar Ja matriz de informacién de Fisher 1 o ee Disa Doe oS La Far, Yio a “\ Sigdie Comte Utilizando al Resultado 2.4.5 y la expresién on (2.18), tan sblo necositamos la matriz de disefio X y la mawiz W. La matriz de disefio X la recuperamos con X_<—Jit8r} Vado que V(H;) = pi ¥ g() es el link identidad (g'(y4;) = 1), la matriz W tiene la forma: W = diag{a:V(s:)9"(uus)?} = diag{y:}. La caleulamos en R con: W <= diag(fitted(fit)) Asi, la matric de informacién Ty la mauriz de varianzas-covarianzas de (3, Z~', se obtienen con: Lfisher < —U(X)% * Ssutve(W) % = 9X Var.Cov < ~solve(I fisher) yp resultan, respectivamente 197 7 0.78 0682 T= (205s or)» Varcoe=( 2 tis ) © Mayoral y Morates 3Conceptos Basicos de los GLM Modelos Lineales Generali Asi, el error estindar de las estimaciones v sus correlaciones resultan. se((h) = /O,TBIT = 0,88, sep) = /T, 1863 = 1,09. arin) = lt — 2.5.3. Estad{stico DEVIANCE: Bondad del ajuste Un aspecty importante eu el ujuste de un modelo es detetuninnar si describe ade~ cuadamente 0 no los datos observados. Cuando ajustamos un modelo lineal generalizado, juzgamos la adecuacién del modelo comparando la verosimilitud del modelo ajustado con la verosimilitud del modelo saturado. E] modelo saturado es un modelo de forma similar al modelo propuesto que de- seribe de modo perfecto los datos. Por tanto, tiene poca utilidad desde el punto de vista de ajuste de un modelo, Sin embargo, es Geil para medir eOmo un ajuste con creto se parece a un ajuste “perfecto”. £1 modelo saturado asociado a un modelo propuesto viene caracterizado por: * utiliza la misma distribucién para la respuesta (no necesariamente con los mis- ‘mos pardmetros) = utiliza el mismo link = cludmery de pardmretius 9 igual al udmery de datus (py — 2), y pur ly tantu nw quedan grados de libertad para los residuos. Ejemplo 2.8 (Normal 1) Conviderando ¥4,..., Ya va. mormates, con B(¥8) = psy varianza comin o°, se propone un modelo en el que todas las medias pi: son rguales, im Jin = 4t. En ef modelo sanurado se usa la misma distribucién (normal), el mismo link fidentidad), v hay un pardmetro a estimar por cada dato (jis ~~ Vi) Modelo Propuesto B(Y;) = jt, i=1,-...n fh = Modelo Saturado EY) — isy 6 —Ayevesn -> fle — ye Ejemplo 2.9 (Normal 2) Consideranda Yi, Y va. normales, con ELY;) = pe y varianca comtin o2, se propone un modelo en ef que las medias js viewen determi naday por una variable explicativa ie; como jis = + Gries. EL modelo saturado ex 34 © Mayoral y MoratesModelos Lineales Generalizados Conceptos Béisicos de los GLM el mismo del Ejemplo 2.8. Modelo Propuesto E(Y¥:) = 51 + Boas, i Mw fii = Bi + Boats, con 9 — PMV(0), Modelo Saturado EY: = jus, No fe = Yi Ejemplo 2.10 (Poisson) Considerando Yi,....Yn va. independientes que se dis- sribuyen Poisson, con E(Y;) = 1. Se propone un modelo en el que todas Tax medias po, son iguales, jy = fin = te En el modelo saturada se usa la misma disirifuciéin (poisson), ef mismo link (identidad), y hay un pardmeto a estimar por cada dato (31; yi): Modelo Propuesto E(Ys) Modelo Sanurado EY.) = 1, Ejemplo 2.11 (Binomial) Considerando Y;,...,¥, wai independientes que se dis- mribuyen Di(n;, m3). Se propone un modelo en el que la probabilidad de éxito es similar en todas las pruebas, 7 =... = %_ =m; en el modelo saturado se usa Ja misma distribucién (binomial), el mismo link (identidad), y hay un pardmetro a estimar por cada dato (3 ~» wi: Modelo Propuesto EW) = nit, i=1,..4n > fie = nie MV (x), [yep fle = ah con i = ys/ns, conic Modelo Saturado E(Y;) = nami, ‘Supongamos que hemos ajustado un modelo g(s.) — X' que proporciona como estimaciones maximo—verosimiles /3, Consideremos el modelo saturado correspondiente, en cuyo ajuste se obtiene EMV (8) = Bua. Para medir la distancia entre el modelo ajustado y el saturado (ajuste perfecto), podemos cansiderar el estadistieo del caciente de verosimilitudes — Sly, d) L(Y; Bsat, 9)" (2.26) supuesto @ conocido, © Mayoral y Morates 38Con: eptos Bésicos de los GLM Modelos Lineales Generalizados Si el modelo aiustado es “pobre”. f(u: 3.0) sera mucho menor que f(u; Barr.) (» \.< 1) Siel modelo ajustado es “bueno”, describiri bien los datos y por lo tanto L(Y B, 0) = F(Y5 Boats @) Cm Ave De Equivalentemente a \, podemos utilizar 1,0) ~ (Baasi ts 9) 2.27 donde | denota la log-verosimilitud para /3 con datas observados y, y parimetro de escala @ conocido, S se denomina deviance esealada, S = -2ogd = 213 Una cuacteristica de los modelos Tineales geueralizads es que el criterio de maxima-verosimilitud utilizado para obtener estimadores {3 coincide con el criterio de bondad de ajuste basado en Ia deviance: maximizar la log-verosimilitud es equivalente a minimizar la deviance (dado que la log-verosimilitud evaluada en los EMV del modelo saturado es una constante), Si expresamos ¢l modelo en forma candnica ¥ O;.at 0; denotan, respectivamente, Jas EMY para el modelo saturado y el modelo propuesto, potlemos escribir S como: oe jis — (05) _ (9:8 =) Ss Sa) + ely) (ge + ely )| ys(Oi — 65) — (00;) = 0(6,)) oo -?L a6) . eee Si ademas, a;(6) = ace, entonces se puede escribir Stysi9) = PM, (229) con Lo | 1 2S HG) = (0) = 0.) 0.30) a ‘que no depende de ¢ y es el output deviance que proporcionan usualmente los paque- tes estadisticos, D se denomina deviance no esealada. Ejemplo 2.12 (Continuacién del Ejemplo 2.8. Normal) Dada la log-verosimitinid Wasy,0*) = —Slog(2n0*) — w= a), 36 © Mayoral y MoratesModelos Lineales Generalizados Conceptos Béisicos de los GLM se obtiene: P= du cony = dea). Elestadistico deviance esd relacionado con a vrianca muestra 8 = Llu — 9), mediante B= (n= 12 fa ws que es la distribucién exacta de S. Ejemplo 2.13 (Continnacién del Rjemplo 2.10, Poisson) La log_vernsimilinud para datos Poisson es Kysy) ~ Yo yslog(us) — Sms — SY logy!) Se obtiene pues: $= 23 wea ( cony = alr. Como en el modelo Poisson @ = 1, entonces S = D~ x3, Ejemplo 2.14 (Continuacion del Ejemplo 2.11. Binomial) Dada fa forma de ta fog- verosimilinud para datos binomiales, Ud.¥) 2 2 (uiloals) + (ns — uoa(l — m)) , oe) +n. —witon (2). Cuando @ es conocida, la deviance S mide cémo de grande es la desviacién del modelo ajustado respecto de los datos (modelo saturado). Si $ es grande, el modelo ajustado proporeiona una ajuste pobre. Lin valor pequefio de S es indicador de un bbucn ajuste. Para decidir qué se considera “S grande” y qué “8 pequefio”, e2 preciso utilizar la distribuciéu eu ef muestreo del estat se tiene: 2) won ( © Mayoral y Morales 7Conceptos Basicos de los GLM Modelos Lineales Generali Guando el modelo propuesto proporeiona un buen ajuste de los datos. entonces S\ x2», asintoticamente, (2.31) donde n es el nimero de datos a ajustar yp el mimero de parimetros del modelo, Ejemplo 2.15 (Continuacién del Ejemplo 2.7) En aguel ejemplo, con datos Pois- can (() = 1) y-un ajusto con ol link identidad, BUY) = Bi + Boas, se habia obtenido D = 1,8947 con 7 grados de libertad. Comparando con una x2, se tiene que D < x3(0,95). indicando que el modelo ajusta bien los datos. A pesar de que la deviance tiene un valor limitado para evaluar la bondad del ajuste, es itil para comparar los ajustes de dos modelos anidados. 2.6. Comparacién de modelos Aunque un modelo con més parimetros proporcione un ajuste mejor que otro con menos parimetros, cabe plantearse si en realidad todos los parimetros estimados son necesarios. Esta cuestién se puede resolver con tests basados en la deviance y en el estadistico de Wald, siempre y cuando se trate de modelos anidados. Otros estadisticos como el C’, de Mallows 0 el AJC permiten la comparacién mas general do modelos no necesariamente anidados Dos modelos en competencia pueden ser comparados mediante la deviance cuan. do tienen Ia usisuxa distvibucion y funciGu link y sOlo difieren eu el miner de pardi- metros, es decir, cuando se trata de modelos anidados, Dos modelos IM y M son anidados (My C M)si,siendo X; y X sus respectivas matrices de diseito, Mi + (u) = Xidi y M : alg) = X83, se tiene que las ps columnas de X; estin contenidas en las p columnas de X.,con pi < p Sea pues fA" — (/3{, 4), con dim(ia1) — pry dim() — p. Se plantea pues, si es necesuriy estimar el vector paramétrivo completo 9, 0 si por el contrariy basta com 38 © Mayoral y MoralesModelos Lineales Generalizados Conceptos Bésicos de los GLM estimar (1. El contraste a resolver es pues: Ho: §2=0 Hh: #0. Nos limitaremos al casu en que a;() = aid y consideramos dus situaciones: & conocido y @ desconocido 2.6.4. Comparaciones con la deviance Sean Di y D las deviances (no-escaladas) asociadas a los modelos ajustados My yM, dD 26 [IBry) — UBsas)1 D = WIKB:y) UBsat) Si @ es conocido. Puesto que tanto 1, /@ como 1D/¢ tienen distribuciones x? (cada tung bajo la hipStesia de que cs un modslo adecuado), y ademas D eo indspen- diente de Dy — D, se tiene que: Di—D é © Xp (2.32) Para algunas distrihuciones en que ¢ es conocido, como son la binomial o la Poisson (# — 1), el extadiatico x? do (2.32) ca suficionte para llevar a cabo Ja comparacion de modelos. Bastard con calcular el p-valor asociado al estadistico de (2.32) y concluir a favor del rechazo del modelo mas sencillo si el resultado es significativo; si no lo es, la conclusién es la habitual: no hay evidencias para rechazar el modelo més simple propuesto en Ho, Ejemplo 2.16 (Continuacién del Ejempla 2.7) En aguel ejemplo, con datas Poisson (@ — V) yun ajuste con el link identidad, E(Ys) = Gi + Baars, se habia obtenido D = 1,8947 con 7 grados de libertad. Comparando con el modelo nulo, B(Y,) = 81. para el que se obtiene una deviance de Dy = 18,42 con 8 grados de libertad, se tiene que Dy ~ D = 16,5959, que ha de ser comparado con una x2, Pucsto que Dy D > x}(0,95) — 8,841, se rechaza el modelo nulo a favor del modelo ajustado E(Ys) =H + Priv. © Mayoral y Morales 9© es desconocido. Cuando ¢ es desconocido. ha de ser estimado. A pesar de que ya fue presentado un estimador consistente de @, (2.19), cuando se trabaja con deviances es conveniente utilizar un estimador alternativo, no consistente). Si el modelo propuesto proporciona un buen ajuste de los datos, se puede estimar ¢ con la deviance media, n np é donde 1) es la deviance no escalada (J) = 93), y L$) = n —p asintoticamente, cuando el modelo propuesto es adecuado, @ es practico y adecuado como estimador de @ cuando a;(?) = aig y ademas se sabe que x min{,..., ) = 1. utilizar el estadistico de Wald es equivalente a utilizar el estadistico normal estindar: Z-—_ inn. (2.35) Var(in) Si ves descanncida, ha de ser estimado, y la matri7 de covarianzas T sustitida por tuna estimacién Z (ver la Nota 2.5.1 y el resultado en (2.18)). Asi, la distribueién del estadistico de Wald se convierte en una F WD — (G2 ~ 2) L2x(2 — 2) * Fray y la del estadistico normal (2.35), en una t de Student con 1 grados de libertad, de donde 2 ~ St(%2, Ty, v). Los grados de libertad v de las distribuciones Ly F’ son los correspondientes a la deviance con la que se ha estimado ¢ (en general, n —p). En paitivulas, pata cuntiastes en una dimensidn, el estadiativy nvimal (2.35) se convierte en (236) Una decventaja de utilizar ol test de Wald oc que acume que la dictribucién del estadistico de contraste es normal, y por lo tanto simétrica, Sin embargo, esto puede no ser cierto, especialmente en muestras pequefias, y por lo tanto el test puede resultar poco fiable. Una aproximacion altemativa cuando ¢ es conocido, es basar este tipo de contrastes en intervalos de confianza para la deviance escalada, y utilizar (2.32). Ejemplo 2.17 (Modelo Lineal Normal tratado como GLM) Los datos en la Tabla 2.2 (Dobson, 1990, pag, 11) corresponden a un estudio en el que semillas genética mente iguales son asignadas (aleatoriamente), bien a un cntorno enrigueeido nutri Gionalmente (iratamienty), bien « condiciones esidndar (contro). Una vee hun eveci= do todas las plantas, se recotectan, secan y pesan, El interés del andlisis es investigar el efecto del tratamiento utilizado sobre el peso seco (en gramos) de las plantas en cuestiOn, esto es, si existen diferencias entre el peso de las plantas tratadas y el de Jas no tratadas. En este caso podemos asumir normalidad para la variable respuesta "Yiy —peso secu (gr) de la planta j en el grupo i (= 1 tratamiento, = 2 control)” © Mayoral y Morates alConceptos Basicos de los GLM Modelos Lineales Generalizados control | 4.17 3538 S18 611 430 461 S17 433 533 5.14 tratamiento | 4.81 4.17 4.41 3.59 5.87 3.83 6.03 4.89 4.32 4.69 Tabla 2.2: Datos sobre el crecimiento de plantas. Lo resolvemos utilizando R. En primer lugar, introducimos los datos observados ‘para los individuos del grupo control (ctl) v para los del grupo tratamiento (tt), Creamos asimismo, una variable factor que etiqueta a estas individuos con cl a trt ssegtin corresponde: ctl < ~0(4,17, 5,58, 5,18, 6,11, 4,50, 4,61,5,17, 4,53,5,33, 5,14) trt < (4,81, 4,17, 41, 3,59, 5,87, 3.83, 6.03, 4.80, 4,32, 4,69) peso < —e(ctl,trt) n < —length(ctl) tratasniento < —factor(repe( “etl”, “trt!"),e(s,1))) El modelo en el que constderamos un efecto del tratamiento es Bg) = + IP, 1= 1,2 FH 1... 10 con If =O en el grupo comol e Ly = 1 en el grupo tratamiento, equivalente a: BUY:3) = ti, WF =1,---510, an py = Ay pa = a + Ae La sintaxis en R. para conseguir el ajuste y una descri summary(fitl <_ glm(peso ~ tratamiento, family — " gaussian”) Puesto que el comando ‘gin’ por defecto utiliza el modelo normal, bastaria con haber escrito [ali(respuesta ~ tratamiento) 2 © Mayoral y MoratesModelos Lineales Generalizados Conceptos Béisicos de los GLM- Elresumen del modelo consiste. primero en una descriptiva de los residuos deviance, _y después en Ia estimacién de las pardmetras del modelo, junto con el error estindar, el estadistico de Wald (t) y el p valor asociado a éste Deviance Residuals: Median 30 0685 0.2463 Coofficionts: Estimate Std. Error _t-valuePr> |) (Intercept) 5.0320 0.2202 22.850 9. 55e-15 sratamicntowt -O.3710 0.3114 1.191 0.249 Es decir, la respuesta media en el grupo control es estimada con fly ~ 5,0820, y-en el grupo tratamiemto con jig; = 5,0820 — 03710 = 4,661, Elestadistico de Wald para contrasiar j5, = 0,1 = 1,2, es eft de Student: te = fi/se(i) ~ tap, conn =20, p=2 5,0220/0,2202 — 22,850 para ay 0,3710/0,3114 1,191 para 32, cuyos p-valores asociades aparceen on ta titima columna de la Tabla Coofhicicnts. El p-valor ayociady a la comparacién de toy grupos, Hy + 2 = 0 (coeficiente ‘watamtentotrt’), resulta p = 0,249, Asi, los datas no evidencian diferencias signt- ficativas entre los individuos que recibieron el tratamiento v los que quedaron como comiroles, Por otro lado, es preciso estimar el parmetro de dispersién ¢ que en la fami- ia normal es ¢ — 0%; la estimacién se obtiene con ta deviance media D/n — p, aproxtmadamente: (Dispersion parameter for gaussian family taken to be 04849583) Tor idtimo, aparecen la deviance del modelo nulo (Null Deviance). que es el mo- delu que ajusta todos tay datos con la miyma media, E(Y3) = yt, V inj, y ta del © Mayoral y Morates rrConceptos Basicos de los GLM Modelos Lineales Generalizados modelo aiustado (Residual deviance). junto con los grados de libertad asociados al estadistico chi-cuadrado, que son: Null deviance: 9.4175 on 19 degrees of freedom Residual deviance. 8.7293 on 18 degrees of freedom .hunto a estas deviances se presentan el AIC (ALU : 46,116), que es un indicador de la bondad del ajusie (lo veremos en Ia Seceién 2.6.3), y el mimero de iteraciones necesarias para obiener la solucién uilizando el método Scoring de Fisher para estimar (en este caso, sélo 2 iteraciones). Para resolver el contraste Hy + By ‘paracién de modelos, hay que ajustar un modelo mas simple SIN efecto tratamiento, que en este caso coincide con el modelo nulo, es decir, 0 con la deviance, a través de una com- summary( fit2 <—update( fitl,.~ . ~ tratamiento)) equivalente a summary fit2 <_ glm{rcapucata - 1) Elestadistico F basado en las deviances, adecuado para hacer la comparacion de modelos ya que el parametro de escala = o* es desconocido, (Dp= Dy Di7O—) a ~ Fas se obtiene con el comando anova( fit2, fitl, teat (que proporciona ta valida. “4 © Mayoral y MoratesModelos Lineales Generalizados Conceptos Béisicos de los GLM [Analisis of Deviance Table. Response: respuesta Resid. Df_Resid. Dev Df Deviance F- Pris FY 7 1 9.4175 tratamiento _18 8.7293 1 0.6882__‘1.4191 0.249 Elp-valor asociado a la comparacién de modelos coincide con el del test basado enelestadistico de Wald. Los dos tests son equivalentes siempre para la comparacién de dos grupas en el modela Tineal normal 2.6.3. Comparaciones con los estadisticos (, y AIC. Existen varias hetramientas mis para ka comparacion de modelos en situaciones no tan restrictivas como las de Jos modelos anidados. Los estadisticos (i, de Mallows y AIC (Akaike Information Criteria) permiten comparaciones de modelos més ge~ nerales, y por supuesto, resultan ttiles en la bisqueda de modelos parsimoniosos cuando el mimero de variables explicativas disponibles es grande. Estos estadisticos consideran, ademas de la influencia en la deviance que ticnen las diversas variables explicativas, el mimero de parimettos a estimar. El objetivo es conseguir modelos parsimontosos (sencillos): que expliquen mucho (poca deviance) a poco coste (pocos parimetros). En un modelo lineal normal, el estadistieo C, de Mallows toma la forma Cp = RSSp/s? =n +2p, donde n es el nimero de datos, 2.5.5, es la suma de cuadrados residual para un mode- Tocon p parimetros estimadas, y s? un estimador insesgado de la varianza, obtenidlo come la suma de cuadrados residual media cuando 3¢ consideran en el modslo todas {ay variables explicativas disponibles Cuanto mayor sea el mimero de variables explicativas en el modelo, mas préximo a | resultara el cociente RSS,/s*, pero el valor del estadistico C;, recibira mayor penalizacién (2p —n) por incorporar mas variables. Cuando el modelo ajustado con p parimetros es adecuado, entonces E(RSS,) = (n—p)a?; por otro lado, E(s?) = a?. con lo que se tendri que E(Op) — p. Modelos adceuados son diagnosticados pues, cuando el valor del C se aproxinus a p. © Mayoral y Morates 6Conceptos Basicos de los GLM Modelos Lineales Generalizados mn del estadistico reneralizadas con un El estadistico AIC (Akaike information criterion) es una ve (Cp en términos de la verosimilitud. Fn los modelos lineales parimetro de dispersién @ conocido, se caleula como AIC = D+ 2p 6, siendo D la deviance del modelo ajustado y p el niimero de parimetros estimados, 0 lo que es lo mismo, el nimero de grados de libertad consumidos por el modelo. Los cambios en el AIC debidos aiiadir o quitar un término en un modelo, provienen (anty del cambio vcasionady cn la deviance, como Ue la dimeusiéu del xine de diferencia (a menudo un término involucra mas de un grado de libertad). Cuando se comparan modelos en los que ¢ es estimado, es importante mantener ¢ constante, La relacion, aproximada, entre los estadisticos C, y ATC’ en el modelo normal viene dada por: AIC = 6?(Cy +n). (2.38) Si protendemos iniciar un procedimiento de tipo STEPWISE para conseguir ajustar un modelo parsimonioso, es claro que el criterlo ha de estar basado en afiadir terminos siempre que el ajuste mejore sustanctalmente y eliminar términos que no contribuyan a una mejora importante, considerando por supuesto, el equilibrio res- peeto al caste del niimern de parkmetros a estimar Si se procede segsin un criterio de biisqueda BACKWARD, en cada paso se elimi- ha aquella vatiable que propurciona una reduccion més importante en el Cy (ATC), Si se procede hacia adelante (FORWARD), se introduce el término que reduce mas el valor del estadistico C’, (ATC). Todos los procedimientos se detienen cuando se llega a un modelo “frontera”. o cuando ningtin paso mas hace decrecer el Cp (AIC), ao manual Fn R hay varios comando sitiles para realizar una biisqueda antom: de laa variables relovantes on la explicacién del modelo segiin ol eriterio AIC, Estos ounaudos som drupl, adil y step. El comando, drop! (respectivamente add!), realiza la comparacién del modelo actual con todos los que se obtienen eliminando (respectivamente affadiendo) una so- la de las variables candidatas a desaparecer (respectivamente ser incluida) del modelo, Estos comanclos permiten ademés la comparacién de modelos mediante tests Chi-cuadmado y F. Proporeionan por defeeto para cada contraste, los valores de la de viance (Deviance), el estadistico del coviente de verosimilitudes (LRT), los grados 46 © Mayoral y MoratesModelos Lineales Generalizados Conceptos Béisicos de los GLM de libertad (Df) asociados v el AIC del modelo que surge, El analista es el ha de ajustar mannalmente en fein de los resultados que observa El procedimionto do R denominado atep reauelve automaticaments la biicqueda de un modelo parsimonioso bajo el criterio del AIC, procediendo de manera secuen- cial hacia adelante y hacia atras a la vez, 0 en un tinico sentido, elegible con el argumento direction=c("“both”, “backward”, “forward”); por defecto funciona hacia atris (ver ayuda en R), El procedimiento se detiene cuando la eliminacién o inclusion de cualquier término no proporeiona una reduccién en el ATC. Hay que tener en cucnta que un efecto principal no ea candidate a desaparsecr del modelo Ista que nv han desaparecide todos los ( otras variables. nos Ue interaccion con Es importante anotar que en la seleccién de variables en un modelo, se puede optar por seguir el criterio AIC (0 Cp), 0 bien el de significatividad de las variables (tests basados en la deviance de modelos anidados). Cada uno conducira a resultados distintos la mayoria de las veces. Eso si, el AIC seri siempre licito para la comparacion de modelos no-anidados, mientras que la deviance no permitiré ese tipo de comparaciones. Ejemplo 2.18 (Torus Mandibularis: Seleceibn de variables) Consideremos el ajusie de Tos datos que se presentan en el Ejercicio 6 del Tema 4, (Muller y May- hall, 1970, también en Krzanowski, 1998, pag.230). Estos datos versan sobre la incidencia de un rasgo morfolégico denominado Torus Mandibularis, quo consiste on una pequefia protuberancia en la barbilla, y que afecta a tres tribus de esquimales. ‘Se han considerado diversas variables que pudieran tener mas 0 menos importan- cia sobre la incidencia de esta malformacién, Pretendemos obtener el modelo mas parsimonioso (simple) posible. Lax euatra variables absorvadas son inc: incidencia de la malformacién: la variable a explicar, con dos opciones de res- pmosta, que son Sis presencia de Tavs mandibularis y No + ausencia pop: tribu esquimal, explicitamente controlada para comparar la incidencia de ta ‘malformacién en las diversas tritus consideradas. De hecho, se tomé un tamario mucstral fijo para cada grupo poblacional, lo que obliga a incluir esta variable cen cualyuier modelo que planieemuy (como veremoy en ef Tema 4). © Mayoral y Morates 7Conceptos Basicos de los GLM Modelos Lineales Generalizados sex: el sexo del individuo: H— hombre y Mi muier. edad: categarizada en os grupos (1, 10), [11,20], 21,30). [81, 40), [41,50] y (51, +] La modelizacién de este tipo de datos se hace a través de modelos con verosimili- ud Poisson para fos comteos de las celdas, en la variable ‘conteos', y link logaritmo, ‘como veremos en ef Tema 4, Todas las vartables de clasificacton y fas tnteracctones centre ellas pueden servir en principio para predecir los conteos. Como hay muchos osibles modelos (si consideramos todas las posibilidades a la hora de incluir las variables de clasificacién y suc interacciones), podemas proceder: hien hacia ade~ Jante partiendo del modelo més simple posible, bien hacia atrés desde el modelo mds “grande” sin ser saturado. Seguiremos este tltimo procedimiento. El ajuste se lleva a cabo segiin una modelizacién de Poisson para predecir las frecuencias esperadas en las celdas a través de los factores de clasificacién y sus ineracciones. Excluvendo la interaccién de orden 4 (modelo saturado} tenemos: fit < —glm(conteas ~ (pop + sex + edad + ine)’, family — poisson) La Deviance de este modelo resulta D = 21,607, con 10 grados de libertad, y un AIC = 3874, Ahora bien, 2p/n, y candidata por tanto, a ser revisada con atencién, Fl reciproco de un elemento his de Ia diagonal de H, 1/hjs, llamado la repli cacién efeetiva, se puede interpretar, a grosa0 modo, como el niimero de observa~ informacion sobre j cioues que proporcious © Mayoral y Morates 3Con: eptos Bésicos de los GLM Modelos Lineales Generalizados En un GLM. la matriz gorro del ajuste viene dada en el procedimiento de MCPI 2.15) por He W7V2X(XTWHEXY LX We, (2.39) ‘que depende del valor de los parimetros a través de W’ = diag{Var(¥i)a' (ue)? ¥ Asi pues, habré de ser evaluada sobre las estimaciones maximo-verosimiles obtenidas en el ajuste. Esta matriz gorro la utilizaremos para estandarizar residuos. 2.7.1. Tipos de residuos Los anlogos a los restduos esnudentizados de Pearson en el caso de la normal son los que llamamos residuos de Pearson: (2.40) Vart¥) Ta sma de sus cuadradas es el estadistica chi-cuadrado de Pearson, pep 57 Wea Deeb) z Var(¥) x Elestadistico de Pearson se utiliza, mas que como un estadistico de bondad de ajuste, como una medida de variacién residual, Puestu que la vatiabilidad de lus vesiduos depende de las variables explicativas _X, al igual que en el modelo normal, corregimos su etecto dividiendo por yT= Tia. Obtenemos asi los residuos de Pearson estandarizados: p ~ Vif rps oa) Ejemplo 2.19 Bu duruy binomtales, ef residuy de Pearson (ny estanuricadly) es pp = Beate Ejemplo 2.20 En datos Poisson, el residuo de Pearson es. ts iis 52 © Mayoral y MoratesModelos Lineales Generalizados Conceptos Béisicos de los GLM Una desventaia de los residuos de Pearson es que su distribucién para respuestas no-normales es a memo, marcadamente asimétrica, y por lo tanto pueden diferir sus propiedades de las de los residuos del modelo lineal normal. Anscombe propuso definir otro tipo de residues cuya distribucién fuera lo mas Normal posible (cuando el modelo era adecuado). Wedderburn (ver Bamdorff— Nielsen, 1978) definio esos residuos a través de una transformacién de la forma 1 40= | pagyt Se definen los residues de Anscombe como: Kjemplo 2.21 Ln datos binomiales, V() =na(1 — x) = p(n —1)/n, y el residuo de Anscombe resulsa (yp! = (neis)'9) Coa Ejemplo 2.22 En datos Poisson, V(u) = ey Aly) = (3/2)p2"°, y el residuo de Anscombe es: apace — nh 7 Si la deviance se utiliza como una medida de discrepancia para un modelo lineal generalizado, entonces cada unidad contribuye una cantidad 1; a dicha medida, de forma que )°, D; = D, Definimos pues, el residuo deviance como: P= syn(yi— iV Dis 2.42) © Mayoral y Morates 3Con: eptos Bésicos de los GLM Modelos Lineales Generalizados con @ estimada y san(; — fis) el signo de dicha diferencia. Tenemos pues que Dwr donde D es la deviance no escatada para el modelo ajustado. El residuo deviance estandarizado se obtiene con: (2.43) Los residuos Deviance estandatizados hacen resaltar cualquier observacion que “contribuye demasiado” a la deviance del modelo. El residuo verosimilitud se define como: rf = samtys— jie) yf hislrPS)2 + (1 had(rPS)2 (2.44) La utilidad de este residue reside en el hecho de que (r/')? es aproximadau igual al cambio en la deviance escalada que resulta cuando eliminamos la i-ésima observacién en el ajuste. Asi, la sensibilidad del ajuste de un modelo a la eliminacién de la i-ésima observacién se puede calcular considerando el tamaito der! Con el residue rf: podemoc definir un estadistice de Cook: modiieads: . 2.45) w= has) ee) conn el niimero de datos y p el niimero de parametros estimados en el modelo. 2.7.2. Residuos en R En $Plus/ R tenemos varias opciones para conseguir residuos. Una vez hemos ajustado un modelo lineal generalizado con el comando gim, Jit <—glin{respuesta ~ covariables, family — ()) 54 © Mayoral y MoratesModelos Lineales Generalizados Conceptos Béisicos de los GLM- podemos calcular los residuos: pearsan: Se abtienen con residuals( fit, type = “pearson” ) deviance: Se obtienen con reaidualo( Fit, type — “deviance”) fa simplemente residuals( fit) working: Son los residuos ponderados por la derivada de la funcién link, W Se obtienen con vesiduals( fit, type = “working”) o simplemente JitSresiduals response: Son simplemente las diferencins entre Ins valores ahservados y sns predic. ciones con el modelo ajustado, ys — jis. Se obtienen con: residuals( Sit, type = “response”) ‘A partir de ellos podemos calcular cualeaquicra de los residuos antes eapecifica- dos y asi llevar u cabo un chequeo completo del modelo ajustado. © Mayoral y Morates 8idos Conceptos Basicos de los GLM Modelos Lineales Generali Ejemplo 2.23 (Continuacién del Eiemplo 2,7: Residuos) Pretendemos a continua cin, construir los residuas de Pearson, los estandarizados de Pearsom, Las deviance, los deviance estandarizados, los residuos verosimilitud y las distancias de Cook mo dificadas. Comenturemus ef ajuste del mudety en funciona de tay residuoy y deter ‘minaremos qué observactones son las mds influyentes en el cdlculo de la deviance. Utilizamas todos los resultados obtenidos en el Ejemplo 2.7. Para estandarizar los residuos necesitamos la matriz gorro H, que se calcula seggin (2.39), utilizando la matriz de disefto X y la mawriz W-¥/2 Tanto X como W habian sido caleuladas en el Ejemplo mencfonado: iW.sart < —sart(solve(W)) H <~(iWosgqrt %* X)% # WVarCov% + W(X) % * KiW.sgrt) de donde obtenemos una matriz 9 x 9, cuya diagonal son los valores leverage: h.leverage < —diag(H) ces decir: h = (0,451, 0,451, 0,105, 0,105, 0,105, 0,105, 0,226, 0,226, 0,226). Urilizan- do como regla de salto b> 2p/n — 0,44, la primera y segunda observacibn son las ‘que resultan mas remotas respecto de las restantes observaciones, en el espacio de Jas vartables X (el valor de su x es -1, frente ay 1 que es el valor de las restantes observaciones). A continuacién, calculamos los residuos estandarizados v las distancias de Cook madificadas. Las diforoncias enive las distintos tipas de residuax son muy poguofas, como puede apreciarse en la Figura 2.1. Se puede hablar de aleatoriodad de los residuos. Sus magnitudes son ademés, considerablemente pequeftas. Las observaciones mas influyentes desde la perspectiva de los residuos, son la sexta y fa novena (mis la iltima): (Y,:) = (9, 0) y (15,1), con estimaciones respectivas de ji = 7,45 ¥ 12,39, Desde el punto de vista de las distancias de Cook, las més influsentes son la séptima (Y,, ft) = (10, 1, 12,38) y la novena. La observacién tal que al prescindir de ella en el ajuste modifica més la deviance del modelo es, como puede apreciarse en el grifico de residuay Deviance, la novena (la que tiene un mayor residuy deviance) 56 © Mayoral y MoratesModelos Lineales Generalizados Conceptos Béisicos de los GLM- La sintaxis utilizada para calcular y representar los residuos es. purinfion22) ploi(pearstd: —resid itl type“ pearson” sgrt(I-hleverage), lub" ",ylab—" "main "Res. Pearson std”) plovilev.std: —resid(fitl spe “deviance "/ayrt(T-h leverage), a=" ylad=" “smain= "Res. Deviance st") low(vero< —signires-fnedggtt)) * sqri(h.teverage*pearstd 2+ (U-h leverage) dev std 2), xlad=" “,ylab=" “ maun=Kes,Yerostmn) lot(ans(vero)*sqrt(length(res)-2)"h.leverage/(2*(I-h.leverage))), jxlab="".ylad=" ”-main="Cook modif") Res,Pearson std Res,Deviance std fc 5° fo ,° shoe ot] Shot? Tao Tot 24 68 24 68 Res.Verosim Cook modif J £ Sh 4? Spe 8 TTT 3 H*1-F 24 6 8 24 6 8 Figura 2.1: Residuos estandarizados para datos Poisson, © Mayoral y Morates 37Conceptos Basicos de los GLM Modelos Lineales Generalizados 2.8. Analisis de la Covarianza (ANCOVA). Ejemplos Lina ve7 introducida toda Ia teoria general sobre modelos lineales generalizadas, ‘consideramos el ajuste de un modelo lineal normal como una particularizacién de los GLM. En concreto, a través de modelos de respuesta normal en los que algunas de las variables explicativas son continuas y otras son factores de clasificacién. El objetivo basico del andlisis de este tipo de datos, conocido usualmente como ANCOVA, es investigar si el factor (o factores) de clasificacién influye en la relacién entre la variable respuesta y Ins explicativas cantinnas. Asumiremos normalidad en la repuesta para los ejemplos que se presentan a con- tinuacién, Ejemplo 2.24 (Pesos al nacer) Los daios en fa Tabla 2.3 (Dobson, 1990, pag.17) representan los pesos al nacer (en gramos) y fos periodos de gestacidn estimados (en semanas) para 24 hebés -12 varones y 12 hembras-, nacidos en cierto hospital. Las edades gestacionales medias son casi las mismas para los dos sexos, pero el peso medio al nacer para varones resulta mayor que el de hembras. La represantacién de los datos sugiere cierta tendencia lineal para explicar el peso al nacer con la edad gestactonal. La pregunta de interés es st la razon de incremento es igual para varones v para hembras, Ver Figura 2.2, donde los varones estén identficados por 'H’ y las hembras por 'M’. La normalidad de la respuesta queda patente con el histograma. Tembras E (e) | Edad semanas) _Pesoal 40 2968 40 337 38 2795 36 2729 40 318? 40 906 8 2025 38 2784 36 2625 a 3210 a7 2847 30 2817 mn 3202 10 3126 40 3473 37 2539 37 2628 36 242 2 3176 28 2091 40 3421 39 2875 38 2975 40 3231 Tabla 2.9: Peso al nacery edad gestacional para bebés varones y hembras 58 © Mayoral y MoratesModelos Lineales Generalizados Conceptos Béisicos de los GLM- pace Diana pendionte isl 3 rel 2A Baga ite g— g++ 2800 2800 3200 3600 Figura 2.2: Datos de Peso al nacer MODELIZACION: 1» Fartables: — Respuesta Yi | hemoras) -s0.al nacer del individuo j en el grupo i = 0 (varones), ~ Predictores, Factor sexo: i = 0 (varones), i = 1 (hembras). Covariable ~ 13; = edad estimada (en semanas) al nacer del ine dividuo j en el grupo i. 1 Hipéesis distribucional: Yj ~ N(qj-0), © Mayoral y Morates 39Conceptos Basicos de los GLM Modelos Lineales Generalizados # Modelos propuestos: misma recta ~~ MA jj = w+ Bais rectas paralelas ~~ M2 iptay — je | ay | Batyy reetas distintas ~~ M3 spa3 = + 04 + es = Ajusies (on R) M1 <~glin(peso ~ edad) M2 <—glm{peso ~» sexo + edaul) M3 <—glm{peso ~ sexo + edad + sexo : edad) = Comparacién de modelos: anova(M1, M2, M3, test =" P*) RexDf ReDev Pf Deviance FACA ella 22 S10074 serotedad = 21 Os8771— 1137304 5 0.04000] sexo * edad 20 10340 _1.945e-01__ 0.0039] El contraste Hy : M1 versus Hy ; M2 tiene un p-valor asociado de 0.040, can To que se rechaza Hy a favar de Hy, demostranda la significatividad de 1a variable sexo para distinguir entre el peso medio de los varones y el de las hembrus al nacer. Fl contraste Ho + M2 versus Hy: M3, plantea cancluir sobre si tienen igual pendiente las dos rectas con las que predecir el peso al nacer de varones y hembras. El p-valor asociado vale 0.664, con lo que no se consigue significa vidad para rechazar Hy y se concluye a favor det modeto de recras paratelas Mp Ejemplo 2.25 (Consumo de azitear) En a Tabla 2.4 (Dobson, 1990, pag.81) se mues- tran los promedios aparentes de consumo per capita de azicar (en kg por aio) en Australia. Estin diferenciadas las eifras segin el consumo sea en aricar refinado 0 desicudo a la manufactursa de alimentos (del Asuaratian Durcau of Statistics, publi- cation 4306.0). 60 © Mayoral y MoratesModelos Lineales Generalizados Conceptos Béisicos de los GLM- Consumo de azticar Aiios 36-39 46-49 56-59 66-69 76-79 83-86 Refinado 320 312 27.0 210 149 99 En manufactuas 16.9 23.1 236 27.7 34S Tabla 2.4: Consumo de azicer como refinado 0 para manufacturas de alimentos. La cuestién de interés biisica es si el consumo de azticar ha variado con el paso det ilempo de forma distina yegiin ef disttnto uso que ve fe dé (como refinade o para mamujacturas). Ver Figura 2.3 Figura 2.8: Datos del Consumo de Azcar. MODELIZACION: 1» Variables. — Respuesta = Yi; = concwmo de azticar en la dpoca j, e0n uso como i — 0 (refinado), 1 (manufacturas). ~ Predictoras: Factor > uso, referente al tipo de consumo: i — 0 (refinado), 1 (manufacturas). © Mayoral y Morates aConceptos Basicos de los GLM Modelos Lineales Generalizados Covariable ~» época t:;: definimos la variable temporal empezan- do por ‘época="” y considerando Ia separacién enire lox periados observados; los primeros 5 periodos de tiempo distan entre si 10 ats, peru ef ittiny per fata disia del anterior xite 7 ufiun, €9 ect, epoca < ~e(1,2,3,4,5,5-+ 7/10) = Hipbtesis distribucional: Yay ~ N(tus.02) = Modelos propuestos: MI epg = 11 Blay M2 spss = Wt as + tay MB spay = pt a + Bitiy = Ajustes (en R). M1 < —glin(consumo ~ epoca, family = gaussian) M2 <—glm{consumo ~ epoca + uso , family = gaussian) MB.<~yln(consume ~ epoca + usw, family = youssiar). = Comparacién de modelos: anova( M1, MB, Ma, text — °F) Resid. Df Resid. Dev_Df Deviance ___F__ PrP) poe 10 S35 epoca * 10 9 6313S 147.20 12.49 0.007603 epoca * uso 8 3025 1 621.10 164.28 1,296 — 06 La comparaciin de modelos favorece la modetizacin M3, en la que se ajusta una recta para predecir el consumo de azticar refinado y otra para el de uso en manufacturas, como claramente exigia la visualizacién de los daios en la Figura 2.3. oy © Mayoral y Morates

Modelos Lineales Generalizados Book PDF

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Modelos Lineales Generalizados Book PDF

Uploaded by

Copyright:

Available Formats

You might also like