You are on page 1of 515

ANLISIS DE DATOS MULTIVARIANTES

Daniel Pea 23 de enero de 2002

ndice General
0.1 Prefacio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 INTRODUCCIN 1.1 EL ANLISIS DE DATOS MULTIVARIANTES 1.2 ESTRUCTURA DEL LIBRO . . . . . . . . . . . 1.3 PROGRAMAS DE ORDENADOR . . . . . . . . 1.4 UN POCO DE HISTORIA . . . . . . . . . . . . . 1.5 LECTURAS COMPLEMENTARIAS . . . . . . . 10 13 13 15 18 18 21 23 23 24 25 29 31 32 33 35 36 45 46 47 49 52 54 56 56 57 58 58 59 64

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

2 LGEBRA MATRICIAL 2.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . 2.2 VECTORES . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Deniciones bsicas . . . . . . . . . . . . . . . . . . 2.2.2 Dependencia Lineal . . . . . . . . . . . . . . . . . . 2.3 MATRICES . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Deniciones bsicas . . . . . . . . . . . . . . . . . . 2.3.2 Productos entre matrices . . . . . . . . . . . . . . . 2.3.3 Rango de una matriz . . . . . . . . . . . . . . . . . 2.3.4 Matrices Cuadradas . . . . . . . . . . . . . . . . . . 2.3.5 Matrices Particionadas . . . . . . . . . . . . . . . . 2.4 VECTORES Y VALORES PROPIOS . . . . . . . . . . . . 2.4.1 Denicin . . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Valores y vectores propios de matrices simtricas . 2.4.3 Diagonalizacin de Matrices Simtricas . . . . . . . 2.4.4 Raiz cuadrada de una matriz semidenida positiva 2.4.5 Descomposicin en valores singulares . . . . . . . . 2.4.6 (*)Diagonalizacin de Matrices generales . . . . . . 2.4.7 (*)Inversas Generalizadas . . . . . . . . . . . . . . 2.5 (*)PROYECCIN ORTOGONAL . . . . . . . . . . . . . 2.5.1 Matrices Idempotentes . . . . . . . . . . . . . . . . 2.5.2 Proyeccin Ortogonal . . . . . . . . . . . . . . . . . 2.6 (*)DERIVADAS MATRICIALES . . . . . . . . . . . . . . 3

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

NDICE GENERAL 67 67 67 67 68 70 72 74 75 79 80 83 83 83 85 86 86 88 89 91 91 92 95 96 98 99 107 107 107 107 111 112 114 114 115 115 117 117 119 120 120 121 122

3 DESCRIPCIN DE DATOS MULTIVARIANTES 3.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 DATOS MULTIVARIANTES . . . . . . . . . . . . . . . . . . . . . 3.2.1 Tipos de variables . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 La matriz de datos . . . . . . . . . . . . . . . . . . . . . . . 3.2.3 Anlisis univariante . . . . . . . . . . . . . . . . . . . . . . . 3.3 MEDIDAS DE CENTRALIZACIN: EL VECTOR DE MEDIAS . 3.4 LA MATRIZ DE VARIANZAS Y COVARIANZAS . . . . . . . . . 3.4.1 Clculo a partir de la matriz de datos centrados . . . . . . . 3.4.2 Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.3 Variables redundantes: El caso con Matriz S singular . . . . 3.5 MEDIDAS GLOBALES DE VARIABILIDAD . . . . . . . . . . . . 3.5.1 La variabilidad total y la varianza promedio . . . . . . . . . 3.5.2 La Varianza Generalizada . . . . . . . . . . . . . . . . . . . 3.5.3 La variabilidad promedio . . . . . . . . . . . . . . . . . . . 3.6 VARIABILIDAD Y DISTANCIAS . . . . . . . . . . . . . . . . . . 3.6.1 El concepto de distancia . . . . . . . . . . . . . . . . . . . . 3.6.2 La Distancia de Mahalanobis . . . . . . . . . . . . . . . . . 3.6.3 La distancia promedio . . . . . . . . . . . . . . . . . . . . . 3.7 MEDIDAS DE DEPENDENCIA LINEAL . . . . . . . . . . . . . . 3.7.1 Dependencia por pares: La matriz de correlacin . . . . . . 3.7.2 Dependencia de cada variable y el resto: Regresin Mltiple 3.7.3 Dependencia directa entre pares: Correlaciones parciales . . 3.7.4 El coeciente de Dependencia . . . . . . . . . . . . . . . . . 3.8 La matriz de precisin . . . . . . . . . . . . . . . . . . . . . . . . . 3.9 COEFICIENTES DE ASIMETRA Y KURTOSIS . . . . . . . . . . 4 ANALISIS GRAFICO Y DATOS ATIPICOS 4.1 INTRODUCCIN . . . . . . . . . . . . . . . 4.2 REPRESENTACIONES GRFICAS . . . . . 4.2.1 Histogramas y diagramas de dispersin 4.2.2 Representacin mediante guras . . . . 4.2.3 (*)Representacin de Proyecciones . . 4.3 TRANSFORMACIONES LINEALES . . . . . 4.3.1 Consecuencias . . . . . . . . . . . . . . 4.3.2 Estandarizacin univariante . . . . . . 4.3.3 (*)Estandarizacin multivariante . . . 4.4 TRANSFORMACIONES NO LINEALES . . 4.4.1 Simplicidad en las distribuciones . . . 4.4.2 Simplicidad en las relaciones . . . . . . 4.5 DATOS ATPICOS . . . . . . . . . . . . . . . 4.5.1 Denicin . . . . . . . . . . . . . . . . 4.5.2 Los efectos de los atpicos . . . . . . . 4.5.3 (*)Identicacin de grupos de atpicos

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

NDICE GENERAL

4.6 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 5 COMPONENTES PRINCIPALES 5.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . 5.2 PLANTEAMIENTO DEL PROBLEMA . . . . . . . 5.3 CALCULO DE LOS COMPONENTES . . . . . . . . 5.3.1 Clculo del primer componente . . . . . . . . 5.3.2 Clculo del segundo componente . . . . . . . . 5.3.3 Generalizacin . . . . . . . . . . . . . . . . . . 5.4 PROPIEDADES DE LOS COMPONENTES . . . . . 5.5 ANLISIS NORMADO O CON CORRELACIONES 5.6 INTERPRETACIN DE LOS COMPONENTES . . 5.6.1 Seleccin del nmero de componentes . . . . . 5.6.2 Representacin grca . . . . . . . . . . . . . 5.6.3 Datos atpicos . . . . . . . . . . . . . . . . . . 5.6.4 Distribucin de los componentes . . . . . . . . 5.7 Generalizaciones . . . . . . . . . . . . . . . . . . . . . 5.8 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 137 138 141 141 144 145 149 151 155 158 159 162 163 171 171

6 ESCALADO MULTIDIMENSIONAL 179 6.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 6.2 ESCALADOS MTRICOS: COORDENADAS PRINCIPALES . . . . . . . 180 6.2.1 Construccin de variables a partir de las distancias . . . . . . . . . . 180 6.3 Matrices compatibles con mtricas eucldeas . . . . . . . . . . . . . . . . . . 183 6.3.1 Construccin de las Coordenadas Principales . . . . . . . . . . . . . . 186 6.4 RELACIN ENTRE COORDENADAS Y COMPONENTES PRINCIPALES 189 6.5 BIPLOTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 6.6 ESCALADO NO MTRICO . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 6.7 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 7 ANLISIS DE CORRESPONDENCIAS 7.1 INTRODUCCIN . . . . . . . . . . . . . . . 7.2 BSQUEDA DE LA MEJOR PROYECCIN 7.2.1 Proyeccin de las Filas . . . . . . . . . 7.2.2 Proyeccin de las columnas . . . . . . 7.2.3 Anlisis Conjunto . . . . . . . . . . . 7.3 LA DISTANCIA JI-CUADRADO . . . . . . . 7.4 ASIGNACIN DE PUNTUACIONES . . . . 7.5 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 201 202 203 210 211 214 220 225 227 227 228 228 228

8 ANLISIS DE CONGLOMERADOS 8.1 FUNDAMENTOS . . . . . . . . . . . . . . . . 8.2 MTODOS CLSICOS DE PARTICIN . . . 8.2.1 Fundamentos del algoritmo de k-medias 8.2.2 Implementacin del algoritmo . . . . . .

6 8.2.3 Nmero de grupos . . . . . . . . . . . . . . . . 8.3 MTODOS JERRQUICOS . . . . . . . . . . . . . . 8.3.1 Distancias y Similaridades . . . . . . . . . . . . 8.3.2 Algoritmos Jerrquicos . . . . . . . . . . . . . . 8.3.3 Mtodos Aglomerativos . . . . . . . . . . . . . . 8.4 CONGLOMERADOS POR VARIABLES . . . . . . . 8.4.1 Medidas de distancia y similitud entre variables 8.5 Lecturas complementarias . . . . . . . . . . . . . . . . 9 DISTRIBUCIONES MULTIVARIANTES 9.1 CONCEPTOS BSICOS. . . . . . . . . . . . . . . . 9.1.1 Variables aleatorias vectoriales. . . . . . . . . 9.1.2 Distribucin conjunta . . . . . . . . . . . . . . 9.1.3 Distribuciones marginales y condicionadas . . 9.1.4 Independencia . . . . . . . . . . . . . . . . . . 9.1.5 La maldicin de la dimensin . . . . . . . . . 9.2 PROPIEDADES DE VARIABLES VECTORIALES . 9.2.1 Vector de medias . . . . . . . . . . . . . . . . 9.2.2 Esperanza de una funcin . . . . . . . . . . . 9.2.3 Matriz de varianzas y covarianzas . . . . . . . 9.2.4 Transformaciones de vectores aleatorios. . . . 9.2.5 Esperanzas de transformaciones lineales . . . . 9.3 Dependencia entre variables aleatorias . . . . . . . . 9.3.1 Esperanzas condicionadas . . . . . . . . . . . 9.3.2 Varianzas condicionadas . . . . . . . . . . . . 9.3.3 Matriz de correlacin . . . . . . . . . . . . . . 9.3.4 Correlaciones Mltiples . . . . . . . . . . . . . 9.3.5 Correlaciones Parciales . . . . . . . . . . . . . 9.4 LA DISTRIBUCIN MULTINOMIAL . . . . . . . . 9.5 LA DISTRIBUCIN DE DIRICHLET . . . . . . . . 9.6 LA NORMAL k-DIMENSIONAL . . . . . . . . . . . 9.6.1 Distribuciones condicionadas . . . . . . . . . . 9.7 DISTRIBUCIONES ELPTICAS . . . . . . . . . . . 9.7.1 Distribuciones esfricas . . . . . . . . . . . . . 9.7.2 Distribuciones elpticas . . . . . . . . . . . . 9.8 (*)LA DISTRIBUCIN DE WISHART . . . . . . . . 9.8.1 Concepto . . . . . . . . . . . . . . . . . . . . 9.8.2 Propiedades de la distribucin . . . . . . . . . 9.9 LA T 2 DE HOTELLING . . . . . . . . . . . . . . . . 9.10 DISTRIBUCIONES MEZCLADAS . . . . . . . . . . 9.11 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

NDICE GENERAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 240 240 244 244 252 252 253 257 257 257 258 259 262 262 263 263 264 264 265 266 267 267 268 269 270 270 271 273 274 277 281 281 282 283 283 285 286 288 290

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

NDICE GENERAL

10 INFERENCIA CON DATOS MULTIVARIANTES 295 10.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 10.2 Fundamentos de la Estimacin Mximo Verosimil . . . . . . . . . . . . . . . 295 10.3 Estimacin de los parmetros de variables normales p-dimensionales. . . . . 297 10.4 El mtodo de la razn de verosimilitudes . . . . . . . . . . . . . . . . . . . . 299 10.5 Contraste sobre la media de una poblacin normal . . . . . . . . . . . . . . . 301 10.6 Contrastes sobre la matriz de varianzas de una poblacin normal . . . . . . . 303 10.6.1 Contraste de un valor particular . . . . . . . . . . . . . . . . . . . . . 304 10.6.2 Contraste de independencia . . . . . . . . . . . . . . . . . . . . . . . 305 10.6.3 Contraste de esfericidad . . . . . . . . . . . . . . . . . . . . . . . . . 305 10.6.4 (*)Contraste de esfericidad parcial . . . . . . . . . . . . . . . . . . . . 306 10.6.5 Ajustes en la distribucin . . . . . . . . . . . . . . . . . . . . . . . . 307 10.7 Contraste de igualdad de varias medias: el Anlisis de la Varianza Multivariante307 10.8 Contrastes de datos atpicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 312 10.9 Contrastes de Normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 10.9.1 Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314 10.10Lecturas recomendadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 11 METODOS DE INFERENCIA AVANZADA MULTIVARIANTE 11.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 ESTIMACIN MV CON DATOS FALTANTES . . . . . . . . . . . . 11.2.1 Estimacin MV con el algoritmo EM . . . . . . . . . . . . . . 11.2.2 Estimacin MV de mezclas . . . . . . . . . . . . . . . . . . . . 11.2.3 Estimacin de poblaciones normales con datos ausentes . . . . 11.3 ESTIMACIN ROBUSTA . . . . . . . . . . . . . . . . . . . . . . . . 11.4 ESTIMACIN BAYESIANA . . . . . . . . . . . . . . . . . . . . . . 11.4.1 Concepto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.4.2 Distribuciones a priori . . . . . . . . . . . . . . . . . . . . . . 11.4.3 Clculo de la Posterior . . . . . . . . . . . . . . . . . . . . . . 11.4.4 Estimacin Bayesiana de referencia en el modelo normal . . . 11.4.5 Estimacin con informacin a priori . . . . . . . . . . . . . . . 11.5 CONTRASTES BAYESIANOS . . . . . . . . . . . . . . . . . . . . . 11.5.1 Conceptos bsicos . . . . . . . . . . . . . . . . . . . . . . . . . 11.5.2 Comparacin entre los contraste bayesianos y los clsicos . . . 11.6 Seleccin de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.6.1 El Criterio de Akaike . . . . . . . . . . . . . . . . . . . . . . . 11.6.2 El criterio BIC . . . . . . . . . . . . . . . . . . . . . . . . . . 11.6.3 Relacin entre el BIC y EL AIC . . . . . . . . . . . . . . . . . 11.7 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . 321 321 322 323 325 331 334 337 337 339 340 341 342 344 344 346 346 346 348 350 350 355 355 356 356

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

12 ANLISIS FACTORIAL 12.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2 EL MODELO FACTORIAL . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2.1 Hiptesis bsicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8 12.2.2 Propiedades . . . . . . . . . . . . . . . . . . . . 12.2.3 Unicidad del modelo . . . . . . . . . . . . . . . 12.2.4 Normalizacin del modelo factorial . . . . . . . 12.2.5 Nmero mximo de factores . . . . . . . . . . . 12.3 EL MTODO DEL FACTOR PRINCIPAL . . . . . . 12.3.1 Estimacin de las comunalidades . . . . . . . . 12.3.2 Generalizaciones . . . . . . . . . . . . . . . . . 12.4 ESTIMACIN MXIMO VEROSMIL . . . . . . . . . 12.4.1 Estimacin MV de los parmetros . . . . . . . . 12.4.2 Otros mtodos de estimacin . . . . . . . . . . . 12.5 DETERMINACIN DEL NMERO DE FACTORES 12.5.1 Contraste de verosimilitud . . . . . . . . . . . . 12.5.2 Criterios de seleccin . . . . . . . . . . . . . . . 12.6 ROTACIN DE LOS FACTORES . . . . . . . . . . . 12.7 ESTIMACIN DE LOS FACTORES . . . . . . . . . . 12.7.1 Los factores como parmetros . . . . . . . . . . 12.7.2 Los factores como variables aleatorias . . . . . . 12.8 DIAGNOSIS DEL MODELO . . . . . . . . . . . . . . 12.9 Anlisis Factorial Conrmatorio . . . . . . . . . . . . . 12.10Relacin con componentes principales . . . . . . . . . . 12.11Lecturas recomendadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

NDICE GENERAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357 358 360 361 362 363 368 370 370 372 374 374 377 379 381 381 382 383 386 388 389

13 ANLISIS DISCRIMINANTE 397 13.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397 13.2 CLASIFICACIN ENTRE DOS POBLACIONES . . . . . . . . . . . . . . . 398 13.2.1 Planteamiento del Problema . . . . . . . . . . . . . . . . . . . . . . . 398 13.2.2 Poblaciones Normales: Funcin lineal discriminante . . . . . . . . . . 401 13.2.3 Interpretacin Geomtrica . . . . . . . . . . . . . . . . . . . . . . . . 402 13.2.4 Clculo de Probabilidades de error . . . . . . . . . . . . . . . . . . . 405 13.2.5 Probabilidades a posteriori . . . . . . . . . . . . . . . . . . . . . . . . 406 13.3 GENERALIZACIN PARA VARIAS POBLACIONES NORMALES . . . . 407 13.3.1 Planteamiento General . . . . . . . . . . . . . . . . . . . . . . . . . . 407 13.3.2 Procedimiento operativo . . . . . . . . . . . . . . . . . . . . . . . . . 409 13.4 POBLACIONES DESCONOCIDAS. CASO GENERAL . . . . . . . . . . . 412 13.4.1 Regla estimada de clasicacin . . . . . . . . . . . . . . . . . . . . . 412 13.4.2 Clculo de Probabilidades de error . . . . . . . . . . . . . . . . . . . 414 13.5 VARIABLES CANNICAS DISCRIMINANTES . . . . . . . . . . . . . . . 415 13.5.1 El caso de dos grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . 415 13.5.2 Varios Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417 13.5.3 Variables cannicas discriminantes . . . . . . . . . . . . . . . . . . . 420 13.6 DISCRIMINACIN CUADRTICA. DISCRIMINACIN DE POBLACIONES NO NORMALES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424 13.7 DISCRIMINACIN BAYESIANA . . . . . . . . . . . . . . . . . . . . . . . 427 13.8 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428

NDICE GENERAL 14 DISCRIMINACIN LOGSTICA Y OTROS MTODOS DE CACIN 14.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . . . . 14.2 EL MODELO LOGIT . . . . . . . . . . . . . . . . . . . . . . . . 14.2.1 Modelos con respuesta cualitativa . . . . . . . . . . . . . . 14.2.2 El modelo logit con datos normales . . . . . . . . . . . . . 14.2.3 Interpretacin del Modelo Logstico . . . . . . . . . . . . . 14.3 LA ESTIMACIN DEL MODELO LOGIT . . . . . . . . . . . . 14.3.1 Estimacin MV . . . . . . . . . . . . . . . . . . . . . . . . 14.3.2 Contrastes . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.3.3 Diagnosis . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.4 EL MODELO MULTILOGIT . . . . . . . . . . . . . . . . . . . . 14.5 OTROS MTODOS DE CLASIFICACIN . . . . . . . . . . . . 14.5.1 rboles de Clasicacin . . . . . . . . . . . . . . . . . . . 14.5.2 Redes Neuronales . . . . . . . . . . . . . . . . . . . . . . . 14.5.3 Mtodos no Paramtricos . . . . . . . . . . . . . . . . . . 14.5.4 Otros Mtodos . . . . . . . . . . . . . . . . . . . . . . . . 14.6 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . .

9 CLASIFI433 . . . . . . 433 . . . . . . 434 . . . . . . 434 . . . . . . 436 . . . . . . 437 . . . . . . 438 . . . . . . 438 . . . . . . 442 . . . . . . 445 . . . . . . 445 . . . . . . 446 . . . . . . 446 . . . . . . 449 . . . . . . 452 . . . . . . 454 . . . . . . 455 457 457 458 460 464 464 466 468 470 470 472 475 477 477 478 478 481 482 483 487 488 490 491 492

15 CLASIFICACIN MEDIANTE MEZCLAS DE DISTRIBUCIONES 15.1 FUNDAMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15.2 EL METODO de K-MEDIAS para mezclas . . . . . . . . . . . . . . . . 15.2.1 Nmero de grupos . . . . . . . . . . . . . . . . . . . . . . . . . . 15.3 ESTIMACIN DE MEZCLAS DE NORMALES . . . . . . . . . . . . . 15.3.1 Las ecuaciones de mxima verosimilitud para la mezcla . . . . . . 15.3.2 Resolucin mediante el algoritmo EM . . . . . . . . . . . . . . . . 15.3.3 Aplicacin al anlisis de conglomerados . . . . . . . . . . . . . . . 15.4 MTODOS BAYESIANOS . . . . . . . . . . . . . . . . . . . . . . . . . 15.4.1 Estimacin Bayesiana de Mezclas de Normales . . . . . . . . . . . 15.5 MTODOS DE PROYECCIN . . . . . . . . . . . . . . . . . . . . . . . 15.6 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . 16 CORRELACIN CANNICA 16.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . 16.2 Construccin de las variables cannicas . . . . . . . . . . . . 16.2.1 La primera variable cannica . . . . . . . . . . . . . . 16.3 Las r variables cannicas . . . . . . . . . . . . . . . . . . . . 16.3.1 Propiedades de las variables y correlaciones cannicas 16.4 ANLISIS MUESTRAL . . . . . . . . . . . . . . . . . . . . 16.5 INTERPRETACIN GEOMTRICA . . . . . . . . . . . . 16.6 CONTRASTES . . . . . . . . . . . . . . . . . . . . . . . . . 16.7 EXTENSIONES A MS DE DOS GRUPOS . . . . . . . . . 16.8 RELACIN CON OTRAS TCNICAS ESTUDIADAS . . . 16.9 ANLISIS CANNICO ASIMTRICO . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

10

NDICE GENERAL 16.9.1 Coecientes de redundancia . . . . . . . . . . . . . . . . . . . . . . . 493 16.9.2 Anlisis cannico asimtrico . . . . . . . . . . . . . . . . . . . . . . . 494 16.10Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495

Datos
Prefacio

505

0.1

El crecimiento de los ordenadores y la facilidad de adquirir y procesar grandes bancos de datos en todas las ciencias ha estimulado el desarrollo y utilizacin del anlisis estadstico multivariante en muchas disciplinas. En las Ciencias Econmicas y empresariales los mtodos estadsticos multivariantes se utilizan para cuanticar el desarrollo de un pas, determinar las dimensiones existentes entre ingresos y gastos familiares, comprender el comportamiento de los consumidores y medir la calidad de productos y servicios. En Ingeniera para disear mquinas inteligentes que reconozcan formas o caracteres, para construir clasicadores que aprendan interactivamente con el entorno y para establecer sistemas de control de procesos. En Ciencias de la computacin para desarrollar sistemas de inteligencia articial. En Medicina para construir procedimientos automticos de ayuda al diagnstico. En Psicologa para interpretar los resultados de pruebas de aptitudes. En Sociologa y Ciencia Poltica para el anlisis de encuestas de actitudes y opiniones sociales y polticas. Este libro presenta las tcnicas actuales ms utilizadas del Anlisis multivariante. Su contenido se ha seleccionado para que pueda ser til a distintos tipos de audiencias, pero esta especialmente orientado como texto en un curso orientado a las aplicaciones pero donde se desee proporcionar al estudiante los fundamentos de las herramientas presentadas de manera que se facilite su utilizacin inteligente conociendo sus posibilidades y limitaciones. Para conseguir este objetivo, el libro incluye numerosos ejemplos de aplicacin de la tcnicas, pero tambin presenta con cierto detalle los fundamentos estadsticos de las tcnicas expuestas. En la exposicin se ha procurado prescindir de los detalles tcnicos que tienen ms inters para especialistas, y este material se ha presentado en los apndices y en los ejercicios al nal de cada captulo. Por otro lado, se recomienda que los estudiantes realizen un proyecto donde apliquen los mtodos estudiados a sus propios datos, para que adquieran la experiencia prctica que les permitir utilizarlos despus con xito en su trabajo profesional. Este libro ha tenido una largo perodo de gestacin. Mi inters por el Anlisis Multivariante se lo debo a Rafael Romero, Catedrtico en la Universidad Politcnica de Valencia y excelente profesor, de quien aprend, a nales de los aos 70, la potencia de estos mtodos como herramientas de investigacin emprica y su inmenso campo de aplicacin. La primera versin de este libro tena la mitad del tamao actual y se redact por primera vez a nales de los aos 80 para un curso de Doctorado en la Universidad Politcnica de Madrid. Desde entonces, cada ao el manuscrito ha ido sufrido revisiones y ampliaciones, fruto de su uso como notas de clase en varias universidades, y especialmente en la Universidad Carlos III de Madrid. Estoy agradecido a mis estudiantes del curso de doctorado sobre anlisis multivariante que han sugerido muchas mejoras y detectado errores y erratas de versiones anteriores. En esa labor estoy especialmente en deuda con Ana Justel, Juan Antonio Gil, Juan Carlos

0.1. PREFACIO

11

Ibaez, Mnica Benito, Pilar Barrios, Pedro Galeano y Rebeca Albacete, por sus numerosas sugerencias y cuidadosa lectura de versiones anteriores de estos captulos. He tenido tambin la fortuna de contar con excelentes comentarios de mis colegas Carlos Cuadras, Javier Girn, Jorge Martinez, Alberto Muoz, Rosario Romera, Juan Romo, Santiago Velilla, George Tiao, Victor Yohai y Rubn Zamar, que me han ayudado a mejorar el texto en muchos aspectos. El libro incorpora resultados recientes, fruto de investigaciones conjuntas con Javier Prieto y Julio Rodriguez, con los que ha sido un placer trabajar y de los que ha aprendido mucho. Adems, Julio Rodriguez, me ha ayudado en la preparacin de muchos de los ejemplos y ha ledo y comentado sucesivas versiones del manuscrito encontrando siempre formas de mejorarlo.

12

NDICE GENERAL

Captulo 1 INTRODUCCIN
1.1 EL ANLISIS DE DATOS MULTIVARIANTES

Describir cualquier situacin real, por ejemplo, las caractersticas fsicas de una persona, la situacin poltica en un pas, las propiedades de una imagen, el rendimiento de un proceso, la calidad de una obra de arte o las motivaciones del comprador de un producto, requiere tener en cuenta simultneamente varias variables. Para describir las caractersticas fsicas de una persona podemos utilizar variables como su estatura, su peso, la longitud de sus brazos y de sus piernas, etc. Para describir la situacin poltica de un pas, variables como la existencia o no de un rgimen democrtico, el grado de participacin poltica de los ciudadanos, el nmero de partidos y sus aliados, etc. El anlisis de datos multivariantes tienen por objeto el estudio estadstico de varias variables medidas en elementos de una poblacin. Pretende los siguientes objetivos. 1. Resumir el conjunto de variables en una pocas nuevas variables, construidas como transformaciones de las originales, con la mnima prdida de informacin. 2. Encontrar grupos en los datos si existen. 3. Clasicar nuevas observaciones en grupos denidos. 4. Relacionar dos conjuntos de variables. Vamos a explicar estos objetivos. El lector habr encontrado que la descripcin de una realidad compleja donde existen muchas variables se simplica mediante la construccon de uno o varios ndices o indicadores que la resumen. Por ejemplo, el crecimiento de los precios en una economa se resume en un ndice de precios, la calidad de una universidad o de un departamento se resume en unos pocos indicadores y las dimensiones del cuerpo humano se resumen en la ropa de confeccin en unas pocas variables indicadoras del conjunto. Disponer de estas indicadores tiene varias ventajas: (1) si son pocas podemos representarlas grcamente y comparar distintos conjuntos de datos o instantes en el tiempo; (2) simplican el anlisis al permitir trabajar con un nmero menor de variables; (3) si las variables indicadoras pueden interpretarse, podemos mejorar nuestro conocimiento de la realidad estudiada. El anlisis multivariante de datos proporciona mtodos objetivos para conocer cuntas variables indicadoras, que a veces se denomina factores, son necesarias para describir una realidad compleja y determinar su estructura. El segundo objetivo es identicar grupos si existen. Si observamos un conjunto de vari13

14

CAPTULO 1. INTRODUCCIN

ables en empresas, esperamos los datos indiquen una divisin de las empresas en grupos en funcin de su rentabilidad, su ecacia comercial o su estructura productiva. En muchas situaciones los grupos son desconocidos a priori y queremos disponer de un procedimiento objetivo para obtener los grupos existentes y clasicar las observaciones. Por ejemplo, deseamos construir una tipologa de clientes, de votantes o de procesos productivos. Un tercer objetivo relacionado con el anterior aparece cuando los grupos estn bien denidos a priori y queremos clasicar nuevas observaciones. Por ejemplo, queremos clasicar a clientes que solicitan crditos como ables o no, personas como enfermas o no, o disear una mquina que clasique monedas o billetes en clases prejadas. Para alcanzar estos tres objetivos una herramienta importante es entender la estructura de dependencia entre las variables, ya que las relaciones entre las variables son las que permiten resumirlas en variables indicadoras, encontrar grupos no aparentes por las variables individuales o clasicar en casos complejos. Un problema distinto es relacionar dos conjuntos de variables. Por ejemplo, podemos disponer de un conjunto de variables de capacidad intelectual y otros de resultados profesionales y queremos relacionar ambos conjuntos de variables. En particular, los dos grupos de variables pueden corresponder a las mismas variables medidas en dos momentos distintos en el tiempo o en el espacio y queremos ver la relacin entre ambos conjuntos. Las tcnicas de anlisis multivariante tienen aplicaciones en todos los campos cientcos y comenzaron desarrollndose para resolver problemas de clasicacin en Biologa, se extendieron para encontrar variables indicadoras y factores en Psicometra, Marketing y las Ciencias sociales y han alcanzado una gran aplicacin en Ingeniera y Ciencias de la computacin como herramientas para resumir la informacin y disear sistemas de clasicacin automtica y de reconocimiento de patrones. Algunos ejemplos indicativos de sus aplicaciones en distintas disciplinas, muchos de los cuales sern objeto de anlisis detallado en este libro, son: Administracin de Empresas: Construir tipologas de clientes. Agricultura: Clasicar terrenos de cultivo por fotos areas. Arqueologa: Clasicar restos arqueolgicos. Biometra: Identicar los factores que determinan la forma de un organismo vivo. Ciencias de la Computacin: Disear algoritmos de clasicacin automtica. Ciencias de la Educacin: Investigar la efectividad del aprendizaje a distancia. Ciencias del medio ambiente: Investigar las dimensiones de la contaminacin ambiental. Documentacin: Clasicar revistas por sus artculos y construir indicadores bibliomtricos. Economa: Identicar las dimensiones del desarrollo econmico. Geologa: Clasicar sedimentos. Historia: Determinar la importancia relativa de los factores que caracterizan los periodos prerevolucionarios. Ingeniera: Transmitir ptimamente seales por canales digitales. Lingstica: Encontrar patrones de asociacin de palabras. Medicina: Identicar tumores mediante imgenes digitales. Psicologa: Determinar los factores que componen la inteligencia humana Sociologa y Ciencia Poltica: Consstruir tipologas de los votantes de un partido.

1.2. ESTRUCTURA DEL LIBRO

15

Algunas de esas aplicaciones han tenido una repercusin importante en la evolucin del anlisis mutivariante, como veremos en la seccin 1.4.

1.2

ESTRUCTURA DEL LIBRO

Los datos de partida para un anlisis multivariante estn habitualmente en una tabla de dos o mas dimensiones y para trabajar con ellos es muy conveniente considerar la tabla como una o varias matrices. El captulo 2 presenta los fundamentos matemticos de lgebra lineal que son necesarios para trabajar con matrices y entender sus propiedades. Este captulo est diseado de forma instrumental para proporcionar los conceptos bsicos y las tcnicas necesarias para los anlisis estadsticos presentados en los captulos posteriores. El anlisis multivariante pude plantearse a dos niveles. En el primero, el objetivo es utilizar slo los datos disponibles y extraer la informacin que contienen. Los mtodos encaminados a este objetivo se conocen como mtodos de exploracin de datos, y se presentan en la primera parte del libro que cubre los captulos 3 al 8. A un nivel ms avanzado, se pretende obtener conclusiones sobre la poblacin que ha generado los datos, lo que requiere la construccin de un modelo que explique su generacin y permita prever lo datos futuros. En este segundo nivel hemos generado conocimiento sobre el problema que va ms all del anlisis particular de los datos disponibles. Los mtodos encaminados a este objetivo se conocen como mtodos de inferencia, y se presentan en la segunda parte del libro, captulos 9 al 16 . El primer paso en la descripcin de datos multivariantes es describir cada variable y comprender la estructura de dependencia que existe entre ellas. Este anlisis se presenta en el captulo 3. Siempre que sea posible conviene utilizar tcnicas grcas para resumir y representar la informacin contenida en los datos, y analizar la forma de medir las variables para obtener una representacin lo ms simple posible. Estos problemas se estudian en el captulo 4. Estos dos captulos extienden al caso multivariante la descripcin habitual de datos estadsticos estudiada en los textos bsicos de Estadstica. El problema de resumir o condensar la informacin de un conjunto de variables se aborda, desde el punto de vista descriptivo, construyendo una nuevas variables indicadoras que sinteticen la informacin contenida en las variables originales. Existen distintos mtodos exploratorios para conseguir este objetivo. Con variables continuas, el mtodo ms utilizado se conoce como componentes principales, y se estudia en el captulo 5. Los componentes principales nos indican las dimensiones necesarias para representar adecuadamente los datos. Con ellos podemos hacer grcos de los datos en pocas dimensiones, con mnima prdida de informacin, para entender su estructura subyacente. El anlisis de componentes principales puede generalizarse en dos direcciones: la primera cuando los datos disponibles no corresponden a variables sino a similitudes o semejanzas entre elementos. Interesa entonces investigar cuantas dimensiones tienen estas similitudes, este es el objetivo de las escalas multidimensionales, que se estudian en el captulo 6. La segunda generalizacin de componentes principales es para datos cualitativos, que se presentan en una tabla de contingencia, y esto conduce al anlisis de correspondencias, que se presenta en el captulo 7. Esta tcnica permite adems cuanticar de forma objetiva atributos cualitativos.

16

CAPTULO 1. INTRODUCCIN

El problema descriptivo de investigar si los elementos de nuestra muestra forman un grupo homogneo o no, y, en caso de que existan varios grupos de datos identicar que elementos pertenecen a cada uno, se aborda con las herramientas de mtodos de agrupamiento (cluster methods en ingls). Por ejemplo, supongamos que tenemos una encuesta de los gastos en los hogares espaoles. Podemos encontrar que, de manera natural, la estructura de gastos es distinta en los hogares unipersonales que en los que conviven adultos con nios pequeos, y la relacin entre distintas variables del gasto puede ser distinta en ambos. Conviene, en estos casos, dividir la muestra en grupos de observaciones homogneas y estudiarlos separadamente. En otros casos el anlisis de la homogeneidad de los datos tiene por objeto construir tipologas: de consumidores, de artistas por su utilizacin del color, de productos, o del tipo de consultas en una pgina web. Estos mtodos se estudian en el captulo 8. Las tcnicas descriptivas para resumir, condensar y clasicar datos y relacionar variables se conocen a veces como tcnicas de exploracin de datos multivariantes, y se han popularizado en los ltimos aos en ingeniera y ciencias de la computacin con el nombre de minera de datos, nombre que indica la capacidad de estas tcnicas para extraer informacin a partir de la matera prima datos. Los captulos 3 al 8 forman pues un curso bsico de minera de datos. Sin embargo estas herramientas no permiten directamente obtener conclusiones generales respecto al proceso o sistema que genera los datos. Para ello necesitamos los mtodos presentados en la segunda parte del libro, que comprende los captulos, 9 al 16, y all se aborda el objetivo ms ambicioso de crear conocimiento respecto al problema mediante un modelo estadstico. La construccin de un modelo estadstico requiere el concepto de probabilidad y las herramientas bsicas para la construccin de modelos para varias variables se exponen en el captulo 9. La construccin del modelo requiere estimar los parmetros del modelo a partir de los datos disponibles, y contrastar hiptesis respecto a su estructura. Los fundamentos de la inferencia multivariante se estudian en el captulo 10. Algunos problemas de estimacin multivariante pueden formularse como estimacin con valores ausentes, y un mtodo eciente para llevar a cabo esta estimacin, el algoritmo EM, se presenta en el captulo 11. Este captulo aborda tambin la estimacin (1) permitiendo la posibilidad de que una pequea fraccin de los datos incluyan errores de medida o datos heterogeneos; (2) incorporando adems informacin a priori respecto a los parmetros. En el primer caso tenemos la estimacin robusta y en el segundo la Bayesiana (que, como la clsica, puede adems hacerse robusta). Este captulo considera adems el problema de seleccionar el mejor modelo explicativo entre varios posibles. Los modelos para generar conocimiento mediante una reduccin del nmero de variables se conocen como modelos de anlisis factorial, y pueden verse como una generalizacin de los componentes principales. Si podemos reemplazar un conjunto amplio de variables por unos pocos factores o variables latentes, no observables, que permiten prever las variables originales hemos aumentado nuestro conocimiento del problema. En primer lugar, descubrimos el mecanismo generador de los datos, en segundo podemos realizar predicciones respecto a datos no observados pero generados por el mismo sistema. Este es el objeto del anlisis factorial que se presenta en el captulo 12. El problema de la homogeneidad se aborda desde el punto de vista inferencial segn dos puntos de vista principales. El primero es el problema de clasicacin o discriminacin :

1.2. ESTRUCTURA DEL LIBRO Objetivos Resumir los datos Obtener indicadores Enfoque descriptivo (informacin) Descripcin de datos (Cap. 3 y 4) Componentes principales (Cap. 5) Escalas multid. (Cap.6) Anlisis de Correspon.(Cap. 7) Clasicar Anlisis de Conglomerados (Cap. 8) Construir grupos Anlisis de Conglomerados (Cap. 8) Relacionar Conj. variab. Regres. mul.(Cap 3) y Mult. (Cap 16)

17

Enfoque inferencial (conocimiento Constr. de modelos (Cap 9, 10 y1 Anlisis Factorial (Cap. 12)

A. Discriminante (Cap.13 y 14) Clas. con mezclas (Cap 15) Correlacin cannica (Cap. 16)

Tabla 1.1: Clasicacin de los mtodos multivariantes estudiados en este libro conocemos que los datos pueden provenir de una de dos (o ms) poblaciones conocidas y se desea clasicar un nuevo dato en una de las poblaciones consideradas. Por ejemplo, se desea clasicar declaraciones de impuestos como correctas o fraudulentas, personas como enfermos o sanos, empresas como solventes o no, billetes por su valor en una maquina automtica, cartas escritas a mano por su cdigo postal en un mquina clasicadora, preguntas a un contestador telefnico por su contenido. Este es el objetivo de los mtodos de anlisis discriminante presentados en los captulos 13 y 14. El segundo punto de vista es investigar si los datos disponibles han sido generados por una sola o varias poblaciones desconocidas. Los mtodos para clasicar las observaciones se conocen como mtodos de clasicacin mediante mezclas, y se estudian en el captulo 15. Estos mtodos generalizan los mtodos de agrupamiento estudiados desde el punto de vista descriptivo. El problema inferencial multivariante de relacionar variables aparece cuando estas se separan en dos conjuntos, y tiene varias variantes: (1) Anlisis de la varianza multivariante: el primero incluye variables cualitativas y el segundo variables continuas, y queremos ver el efecto de las cualitativas sobre las del segundo grupo. Por ejemplo, observamos en distintas clases de una universidad, denidas por variables cualitativas como titulacin, curso etc, varias variables que miden los resultados de las encuestas de evaluacin docente y se desea investigar como los resultados varan en las distintos clases. Este tema se estudia en el captulo 10 como una aplicacin directa de los contrastes estadsticos multivariantes (2) Regresin multivariante: el primer conjunto incluye variables continuas o discretas y queremos utilizarlas para explicar las variables continuas del segundo grupo. Por ejemplo, queremos relacionar un conjunto de variables de inversin con un grupo de variables resultado en distintas empresas. Estos mtodos se presentan brevemente en el captulo 16. (3) Correlacin cannica: queremos encontrar indicadores del primer grupo que explique lo ms posible a los indicadores de las variables del segundo grupo. El nmero de relaciones independientes entre los indicadores nos informa respecto a la dimensin de la relacin. Por ejemplo, queremos buscar indicadores de la inversin en empresas, medida por un conjunto de variables, que explicen indicadores de resultado, construidos tambin como resumen de un conjunto de variables de resultados econmicos. Estos mtodos se desarrollan en el captulo 16. La tabla1.1 resume la clasicacin de mtodos multivariantes estudiados en el libro.

18 omo

CAPTULO 1. INTRODUCCIN

1.3

PROGRAMAS DE ORDENADOR

Es impensable aplicar el anlisis multivariante sin utilizar el ordenador y recomendamos al lector que reproduzca los ejemplos y realice los ejercicios del libro con cualquiera de los programas estadsticos disponibles. En el libro se han utilizado, por orden de dicultad,los siguientes: (1) STATGRAPHICS que permite aplicar las herramientas bsicas contenidas en el libro, teniendo buenas capacidades grcas fciles de usar. (2) MINITAB es un programa ms completo, tambin de fcil manejo. Es ms completo que el anterior y ms comodo para la manipulacin de datos y la lectura de cheros en distintos formatos. (3) SPSS es un programa ms avanzado y con mejores capacidades para el manejo de datos. Est dirigido a investigadores sociales que desean analizar grandes encuestas con variables de distintos tipos y permite mucha exibilidad en la entrada de los datos y en su manipulacin, as como en la presentacin de los resultados. Adems este programa tiene algoritmos de clculo bastante ables y muy contrastados con distintas aplicaciones. (4) S-PLUS est dirigido a un usuario con buena formacin estadstica, e incluye muchas rutinas que el lector puede combinar para hacer anlisis de datos ms a su medida. Puede programarse tambin fcilmente para implantar nuevos desarrollos, y contiene los mtodos ms modernos que todava no se han implantado en SPSS. El programa R es similar a S-PLUS y tiene la ventaja de ser de distribucin gratuita. (5) MATLAB y GAUSS son programas con excelentes capacidades para la manipulacin matricial, por lo que son muy recomendables para los lectores que quieran escribir sus propios programas y probar anlisis nuevos, no incluidos en los paquetes tradicionales. Tienen la ventaja de la exibilidad y el inconveniente de que son menos automticos para anlisis tradicionales. Adems de estos programas existen otros muchos paquetes estadsticos, como SAS, BMDP, STATA, etc, que estan tambin bien adaptados para aplicar las tcnicas multivariantes descritas en este libro, pero sobre los que el autor tiene menos experiencia directa.

1.4

UN POCO DE HISTORIA

El primer mtodo para medir la relacin estadstica entre dos variables es debido a Francis Galton (1822-1911), que introduce el concepto de recta de regresin y la idea de correlacin entre variables en su libro Natural Inheritance, publicado en 1889 cuando Galton tena 67 aos. Estos descubrimientos surgen en sus investigaciones sobre la transmisin de los rasgos hereditarios, motivadas por su inters en contrastar empricamente la teora de la evolucin de las especies, propuesta por su primo Charles Darwin en 1859. El concepto de correlacin es aplicado en las ciencias sociales por Francis Edgeworth (1845-1926), que estudia la normal multivariante y la matriz de correlacin. Karl Pearson (1857-1936), un distinguido estadstico britnico creador del famoso contraste ji-cuadrado que lleva su nombre, obtuvo el estimador

1.4. UN POCO DE HISTORIA

19

del coeciente de correlacin en muestras, y se enfrent al problema de determinar si dos grupos de personas, de los que se conocen su medidas fsicas, pertenen a la misma raza. Este problema intrig a Harold Hotelling (1885-1973), un joven matemtico y economista americano, que, atrado por la Estadstica, entonces una joven disciplina emergente, viaja en 1929 a la estacin de investigacin agrcola de Rothamsted en el Reino Unido para trabajar con el ya clebre cientco y gura destacada de la estadstica, R. A. Fisher (1890-1962). Hotelling se interes por el problema de comparar tratamientos agrcolas en funcin de varias variables, y descubri las semejanzas entre este problema y el planteado por Pearson. Debemos a Hotelling (1931) el contraste que lleva su nombre, que permite comparar si dos muestras multivariantes vienen de la misma poblacin. A su regreso a la Universidad de Columbia en Nueva York, Truman Kelley, profesor de pedadoga en Harvard, plante a Hotelling el problema de encontrar los factores capaces de explicar los resultados obtenidos por un grupo de personas en test de inteligencia. Hotelling (1933) invent los componentes principales, que son indicadores capaces de resumir de forma ptima un conjunto amplio de variables y que dan lugar posteriormente al anlisis factorial. El problema de obtener el mejor indicador resumen de un conjunto de variables haba sido abordado y resuelto desde otro punto de vista por Karl Pearson en 1921, en su trabajo para encontrar el plano de mejor ajuste a un conjunto de observaciones astronmicas. Posteriormente, Hotelling generaliza la idea de componentes principales introduciendo el anlisis de correlaciones cannicas, que permiten resumir simultaneamente dos conjuntos de variables. El problema de encontrar factores que expliquen los datos fu planteado por primera vez por Charles Spearman (1863-1945), que observ que los nios que obtenan buenas puntuaciones en un test de habilidad mental tambin las obtenan en otros, lo que le llev a postular queeran debidas a un factor general de inteligencia, el factor g (Spearman, 1904). L. Thurstone (1887-1955) estudi el modelo con varios factores y escribi uno de los primeros textos de anlisis factorial (Thurstone, 1947). El anlisis factorial fu considerado hasta los aos 60 como una tcnica psicomtrica con poca base estadstica, hasta que los trabajos de Lawley y Maxwell (1971) establecieron formalmente la estimacin y el contraste del modelo factorial bajo la hiptesis de normalidad. Desde entonces, las aplicaciones del modelo factorial se han extendido a todas las ciencias sociales. La generalizacin del modelo factorial cuando tenemos dos conjuntos de variables y unas explican la evolucin de las otras es el modelo LISREL, que ha sido ampliamente estudiado por Joreskov (1973), entre otros. La primera solucin al problema de la clasicacin es debida a Fisher en 1933. Fisher inventa un mtodo general, basado en el anlisis de la varianza, para resolver un problema de discriminacin de crneos en antropologa. El problema era clasicar un crneo encontrado en una excavacin arqueolgica como perteneciente a un homnido o no. La idea de Fisher es encontrar una variable indicadora, combinacin lineal de las variables originales de las medidas del crneo, que consiga mxima separacin entre las dos poblaciones en consideracin. En 1937 Fisher visita la India invitado por P. C. Mahalanobis (19***), que haba inventado la medida de distancia que lleva su nombre, para investigar las diferentes razas en la India. Fisher percibe enseguida la relacin entre la medida de Mahalanobis y sus resultados en anlisis discriminante y ambos consiguen unicar estas ideas y relacionarlas con los resultados de Hotelling sobre el contraste de medias de poblaciones multivariantes. Unos aos despus, un estudiante de Mahalanobis, C. R. Rao, va a extender el anlisis de

20

CAPTULO 1. INTRODUCCIN

Fisher para clasicar un elemento en ms de dos poblaciones. Las ideas anteriores se obtienen para variables cuantitativas, pero se aplican poco despus a variables cualitativas o atributos. Karl Pearson haba introducido el estadstico que lleva su nombre para contrastar la independencia en una tabla de contingencia y Fisher, en 1940, aplica sus ideas de anlisis discriminante a estas tablas. Paralelamente, Guttman, en psicometra, presenta un procedimiento para asignar valores numricos (construir escalas) a variables cualitativas que est muy relacionado con el mtodo de Fisher. Como ste ltimo trabaja en Biometra, mientras Guttman lo hace en psicometra, la conexin entre sus ideas ha tardado ms de dos dcadas en establecerse. En Ecologa, Hill (1973) introduce un mtodo para cuanticar variables cualitativas que esta muy relacionado con los enfoques anteriores. En los aos 60 en Francia un grupos de estadsticos y lingistas estudian tablas de asociacin entre textos literarios y J. P. Benzecri inventa el anlisis de correspondencias con un enfoque geomtrico que generaliza, y establece en un marco comn, muchos de los resultados anteriores. Benzecri visita la Universidad de Princeton y los laboratorios Bell donde Carroll y Shepard estn desarrollando los mtodos de escalado multidimensional para analizar datos cualitativos, que haban sido iniciados en el campo de la psicometra por Torgeson (1958). A su vuelta a Francia, Benzecri funda en 1965 el Departamento de Estadstica de la Universidad de Pars y publica en 1972 sus mtodos de anlisis de datos cualitativos mediante anlisis de correspondencias. La aparicin del ordenador transforma radicalmente los mtodos de anlisis multivariante que experimentan un gran crecimiento desde los aos 70. En el campo descriptivo los ordenadores hacen posible la aplicacin de mtodos de clasicacin de observaciones (anlisis de conglomerados o anlisis cluster) que se basan cada vez ms en un uso extensivo del ordenador. MacQueen (1967) introduce el algoritmo de de k-medias. El primer ajuste de una distribucin mezclada fue realizado por el mtodo de los momentos por K. Pearson y el primer algortimo de estimacin multivariante es debido a Wolfe (1970). Por otro lado, en el campo de la inferencia, el ordenador permite la estimacin de modelos sosticados de mezclas de distribuciones para clasicacin, tanto desde el punto de vista clsico, mediante nuevos algoritmos de estimacin de variables ausentes, como el algoritmo EM, debido a Dempster, Laird y Rubin (1977), como desde el punto de vista Bayesiano, con los mtodos modernos de simulacin de cadenas de Markov, o mtodos MC2 ( Markov Chain Monte Carlo). En los ltimos aos los mtodos multivariantes estn sufriendo una transformacin en dos direcciones: en primer lugar, las grandes masas de datos disponibles en algunas aplicaciones estn conduciendo al desarrollo de mtodos de aproximacin local, que no requieren hiptesis generales sobre el conjunto de observaciones. Este enfoque permite construir indicadores no lineales, que resumen la informacin por tramos en lugar de intentar una aproximacin general. En el anlisis de grupos, este enfoque local esta obteniendo tmbin ventajas apreciables. La segunda direccin prescinde de las hiptesis sobre las distribuciones de los datos y cuantica la incertidumbre mediente mtodos de computacin intensiva. Es esperable que las crecientes posibilidades de clculo proporcionadas por los ordenadores actuales amplie el campo de aplicacin de estos mtodos a problemas ms complejos y generales.

1.5. LECTURAS COMPLEMENTARIAS

21

1.5

LECTURAS COMPLEMENTARIAS

Existe una excelente coleccin de textos de anlisis multivariante en lengua inglesa. Entre ellos destacaremos Flury (1997), Johnson and Wichern (1998), Mardia, Kent y Bibby (1979), Gnandesikan (1997) y Seber (1984). Estos libros combinan la presentacin de resultados tericos y ejemplos y cubren un material similar al aqu expuesto. Textos ms aplicados son Dillon y Goldstein (1984), Flury y Riedwyl (1988) y Hair et al (1995). En espaol, Cuadras (1991), es un excelente texto. Otras referencias de inters son Escudero (1977), Lebart et al (1985) y Batista y Martinez (1989). Hand et al (2000) es una buena referencia para la relacin entre minera de datos y estadstica. El libro de Krzanowski y Marriot (1994, 1995) contiene numerosas referencias histricas del desarrollo de estos mtodos. Otros textos ms especcos que comentan sobre los orgenes histricos de una tcnica y presentan abundantes regerencias son Jackson (1991) para componentes principales, Gower and Hand (1996), para los escalogramas multidimensionales, Greenacre (1984) para el anlisis de correspondencias, Hand (1997) para los mtodos de clasicacin, Harman (1980) y Bartholomew (1995) para el anlisis factorial, Bollen (1989) para el modelo LISREL, McLachlan y Basford (1988) para los mtodos de clasicacin mediante mezclas y Schafer (1997) para el algoritmo EM y los nuevos mtodos MC2 de clculo intensivo. Efron y Tibshirani (1993) presentan interesantes ejemplos de las posibilidades del bootstrap para el anlisis multivariante.

22

CAPTULO 1. INTRODUCCIN

Captulo 2 LGEBRA MATRICIAL


2.1 INTRODUCCIN

La informacin de partida en el anlisis multivariante es una tabla de datos correspondiente a distintas variables medidas en los elementos de un conjunto. La manipulacin de estos datos se simplica mucho utilizando el concepto de matriz y su propiedades, que se presentan en este captulo. La descripcin de datos parte de las posiciones de las observaciones como puntos en el espacio y las ideas que aqu se presentan pueden ayudar al lector a desarrollar la intuicin geomtrica, de gran ayuda para visualizar y comprender la estructura de los procedimientos del anlisis multivariante. Por esta razn, recomendamos al lector dedicar el tiempo necesario para comprender los conceptos bsicos presentados en este captulo. Su estudio puede abordarse con dos objetivos distintos. Para los lectores interesados en las aplicaciones y sin formacin previa en lgebra lineal, recomendamos concentrarse en las secciones 2.1, 2.2 y 2.3 y la introduccin a la seccin 2.4. Para los lectores que hayan seguido ya un curso de lgebra, este captulo puede servir de repaso de los conceptos bsicos y de profundizacin en el uso de valores y vectores propios y proyecciones ortogonales, que forman la base de muchas de las tcnicas estudiadas en este libro. El concepto principal de este captulo es el concepto de vector. Un conjunto de n datos numricos de una variable puede representarse geomtricamente asociando cada valor de la variable a una dimensin del espacio n dimensional, obteniendo un punto en ese espacio, y tambin el vector que une el origen con dicho punto. Esta analoga entre variables y vectores es til, porque los mtodos de descripcin estadstica de una variable tienen una correspondencia clara con las operaciones bsicas que realizamos con vectores. Cuando en lugar de medir una variable en n elementos observamos en cada elemento los valores de p variables, los datos pueden disponerse en una tabla rectangular con p columnas y n las, de manera que cada columna tenga los valores de una variable y cada la los valores de las p variables en cada elemento. Si consideramos cada columna como un vector n dimensional, este conjunto de p vectores se denomina matriz. As como la descripcin univariante se asocia a operar con el vector de datos, la descripcin de datos multivariantes se asocia geomtricamente a operar con la matriz de datos. En particular, el estudio de la variabilidad y la dependencia lineal entre las p variables conduce al concepto de matrices cuadradas, que son aquellas que contienen el mismo nmero de las que de columnas. Las 23

24

CAPTULO 2. LGEBRA MATRICIAL

matrices cuadradas son tiles para representar, por ejemplo, las varianzas y covarianzas o correlaciones entre las p variables, y sobre ellas se denen ciertas funciones escalares, como el determinante y la traza, que veremos tienen una clara interpretacin estadstica: el determinante es una medida de la dependencia lineal y la traza de la variabilidad, del conjunto de las variables. Adems, las matrices cuadradas tienen ciertas propiedades bsicas, asociadas al tamao y la direccin de los vectores que la forman. El tamao de una matriz est relacionada con sus valores propios, y las direcciones con los vectores propios. La estimacin de parmetros mediante una muestra en modelos lineales puede verse geomtricamente como la proyeccin ortogonal del vector (o vectores) que representa la muestra sobre un subespacio. Por esta razn se presentan con detalle algunos resultados de proyecciones ortogonales que no suelen incluirse en textos introductorios de lgebra lineal. Finalmente, este captulo incluye algunos resultados bsicos de clculo diferencial con vectores y matrices. Para favorecer el aprendizaje del material de este captulo al estudiante que se enfrenta a l por primera vez hemos incluido ejercicios despus de cada seccin, y recomendamos al lector que intente resolverlos. Las secciones marcadas con un asterstico son algo ms avanzadas y pueden saltarse en una primera lectura sin prdida de continuidad. El lector puede encontrar una explicacin ms detallada de los conceptos aqu expuestos en cualquier texto de lgebra matricial. Un libro claro en espaol es Arves, Alvarez y Marcelln (1999), y en ingls Hadi (1996) presenta una introduccin muy sencilla y fcil de seguir con pocos conocimientos bsicos. Searle (1982) y Basilevsky (1983) estn especialmente orientados a las aplicaciones estadsticas. Noble y Daniel (1977) es una buena introduccin de carcter general.

2.2

VECTORES

Geomtricamente un dato numrico puede representarse como un punto en un espacio de dimensin uno. Si elegimos una recta con origen y direccin (positiva o negativa) denidos, podemos asociar a cada punto de la recta la magnitud del segmento que une el origen con el punto. Un conjunto de n datos numricos puede representarse como n puntos sobre una recta pero tambin, y esta representacin es muy til, como un punto en el espacio de n dimensiones. En dicho espacio podemos tambin asociar al conjunto de datos el vector que une el origen de coordenadas con dicho punto. La longitud de un vector se denomina norma. Existe una correspondencia entre las propiedades del conjunto de datos y las propiedades del vector asociado. La media de los datos es proporcional a la proyeccin del vector de datos sobre la direccin del vector constante (que se dene como el que tiene todas las coordenadas iguales). La desviacin tpica es la distancia promedio entre el vector de datos y el vector constante. La dependencia lineal entre dos variables se mide por la covarianza. El concepto anlogo vectorial es el de producto escalar, que es la herramienta principal para estudiar la posicin en el espacio de dos vectores. Con variables estandarizadas la covarianza se reduce al coeciente de correlacin, que es equivalente al producto escalar de dos vectores de norma unitaria. Cuando consideramos varios vectores, por ejemplo p variables medidas sobre n elementos de una poblacin, el concepto principal es la nocin de dependencia lineal. La dependencia

2.2. VECTORES

25

lineal establece cuantas variables realmente distintas tenemos. Por ejemplo, si en un conjunto de variables una de ellas representa salarios en euros y otra los mismos salarios pero medidos en miles de euros, aunque ambas variables no sean idnticas (la primera es siempre mil veces mas grande que la segunda), es claro que ambas miden la misma caracterstica y contienen la misma informacin: las dos variables son linealmente dependientes, ya que conocida una podemos determinar el valor de la otra. Generalizando esta idea, diremos que p variables son linealmente dependientes si podemos obtener los valores de una cualquiera de ellas mediante una combinacin lineal del resto. Por ejemplo, las tres variables, nmero de hombres, nmero de mujeres y nmero de personas (que es la suma de las anteriores), son linealmente dependientes, ya que podemos calcular el valor de cualquiera conocidos los valores de las otras dos.

2.2.1

Deniciones bsicas

Un conjunto de n nmeros reales x puede representarse como un punto en el espacio de n dimensiones, <n . Deniremos el vector x como el segmento orientado que une el origen de coordenadas con el punto x. La direccin es importante, porque no es lo mismo el vector x que el !x. Con esta correspondencia, a cada punto del espacio en <n le asociamos un vector. 3 2 Por ejemplo, en la gura 2.1 se representa dos vectores en el plano ( < ) : el vector x = ,y 2 !1 el vector y = 0 . En adelante, representaremos un vector mediante x, para diferenciarlo del escalar x, y llamaremos <n al espacio de todos los vectores de n coordenadas o componentes. En particular, un conjunto de nmeros con todos los valores iguales se representar por un vector constante, que es aquel con todas sus coordenadas iguales. Un vector constante es de la forma c1, donde c es cualquier constante y 1 el vector con todas sus coordenadas iguales a la unidad. En Estadstica podemos asociar a los valores de una variable en n elementos un vector en <n , cuyo componente isimo es el valor de la variable en el elemento i. Por ejemplo, si medimos las edades de tres personas en una clase y obtenemos los valores 20, 19 y 21 aos, esta muestra se representa por el vector tridimensional ! # 20 x = " 19 $ 21 La suma (o diferencia) de dos vectores x, y, ambos en <n , se dene como un nuevo vector con componentes iguales a la suma (diferencia ) de los componentes de los sumandos: # ! # ! # ! x1 y1 x1 + y1 & % & % . & % . . . x+y =" . $. . $+" . . $=" . xn yn xn + yn

Es inmediato comprobar que la suma de vectores es asociativa (x + (y + z) = (x + y) + z) y conmutativa (x + y = y + x). La suma de dos vectores corresponde a la idea intuitiva de trasladar un vector al extremo del otro y construir la lnea que va desde 3 el origen !1 del primero al extremo del segundo. 2 Por ejemplo, la suma de los vectores x = 2 e y = 0 ,en la gura 2.1, es el vector z = 2 .

26

CAPTULO 2. LGEBRA MATRICIAL

z = x+y 2 x -1 y 2 3

Figura 2.1. Suma de dos vectores La operacin suma (resta) de dos vectores da lugar a otro vector y estadsticamente corresponde a generar una nueva variable como suma (resta) de otras dos anteriores. Por ejemplo, si x representa el nmero de trabajadores varones en un conjunto de empresas e y el nmero de trabajadoras, la variable x + y representa el nmero total de trabajadores y la variable x ! y la diferencia entre hombres y mujeres en cada empresa. El producto de una constante por un vector, es un nuevo vector cuyos componentes son los del vector inicial multiplicados por la constante. ! # kx1 % . & z = kx = " . . $. kxn

Multiplicar por una constante equivale a un cambio en las unidades de medicin. Por ejemplo, si en lugar de medir el nmero de trabajadores en unidades (variable x) lo hacemos en centenas (variable z) entonces la variable z es igual a x/100. Llamaremos vector transpuesto x0 , de otro x, a un vector con los mismos componentes, pero escritos ahora en la: x0 = (x1 , ..., xn ).

Al transponer un vector columna se obtiene un vector la. Generalmente los vectores la se utilizan para describir los valores de p variables distintas en un mismo elemento de una poblacin. El producto escalar o interno de dos vectores x, y, ambos en <n , que escribiremos 0 x y o y0 x, es el escalar obtenido al sumar los productos de sus componentes. xy=yx=
0 0 n X i=1

x i yi .

Se llamar norma o longitud de un vector x, a la raz cuadrada del producto escalar x x. Se escribe kxk: q " 0 2 kxk = x x = x2 1 + . . . + xn .
0

2.2. VECTORES

27

La norma es la longitud del segmento que une el origen con el punto x. Por ejemplo, la norma del vector x en la gura 2.1 es " " 32 + 22 = 13

kxk =

que corresponde a la longitud de la hipotenusa en el tringulo rectngulo formado por el vector y sus proyecciones sobre los ejes. El producto escalar de dos vectores puede calcularse tambin como el producto de las normas de los vectores por el coseno del ngulo que forman. Para a ilustrar aeste concepto consideremos la gura 2.1 donde se representan los vectores x = 0 y y = c . Observemos que el producto escalar es x0 y =a2 y que este " mismo resultado se obtiene multiplicando la norma de ambos vectores, k x k = a y k y k = a2 + c2 por el coseno del ngulo ! que forma, " dado por a/ a2 + c2 . Observemos que el producto escalar puede tambin expresarse como el producto de la norma de un vector por la proyeccin del otro sobre l. Si uno de los vectores tiene norma uno, el producto escalar es directamente la proyeccin sobre l del otro vector. Generalizando esta idea, se dene el ngulo entre dos vectores x, y por la relacin:

cos ! =

x0 y . kxk kyk

Si dos variables tiene media cero, el coseno del ngulo que forman dos vectores es su coeciente de correlacin. Como cos ! # 1, se demuestra en general que: |x0 y| # kxk kyk . que se conoce como la desigualdad de Schwarz. Dos vectores son ortogonales, o perpendiculares, si y slo si su producto escalar es cero. Por la denicin de ngulo

x0 y = kxk kyk cos !, siendo ! el ngulo que forman los vectores. Si ! = 90" el coseno es cero y tambin lo ser el producto escalar.

28
!

CAPTULO 2. LGEBRA MATRICIAL

c y
!

Figura 2.1: Coseno del ngulo entre dos vectores El producto escalar tiene una clara interpretacin estadstica. Para describir una variable tomamos su media. Para describir un vector podemos tomar su proyeccin sobre el vector 1 constante. El vector constante de modulo unitario en dimensin n es # 1, y la proyeccin n P " " 1 0 de x sobre este vector #n 1 x = xi / n = x n. El vector constante resultante de esta " 1 proyeccin es # 1 ( x n) =x1. Por tanto, la media es el escalar que dene el vector obtenido n al proyectar el vector de datos sobre la direccin constante. Tambin puede interpretarse como la norma estandarizada del vector obtenido al proyectar los datos en la direccin del vector constante, donde para estandarizar la norma de un vector dividiremos siempre por " n, siendo n la dimensin del espacio. La variabilidad de los datos se mide por la desviacin tpica, que es la distancia entre el vector de datos y el vector constante. La proyeccin del vector de datos sobre la direccin del vector constante produce el vector x1, y la norma del vector diferencia, x!x1, mide la distancia entre el vector de datos y el vector constante. Tomando la norma estandarizada, dividiendo por la raz de la dimensin del espacio rP 1 (xi ! x)2 " kx!x1k = n n La medida de dependencia lineal entre dos variables, x, y, es la covarianza. La covarianza es el producto escalar estandarizado de los dos vectores medidos en desviaciones a la media, o tomando sus diferencias respecto al vector constante. Si promediamos el producto escalar de estos vectores P 1 (xi ! x)(yi ! y ) 0 (x!x1) (y!y 1) = n n

se obtiene directamente la covarianza. Para variables con media cero, el producto escalar promedio de los dos vectores que representan sus valores normalizado es directamente la

2.2. VECTORES

29

covarianza. Para variables estandarizadas, de media cero y desviacin tpica unidad, la covarianza es el coeciente de correlacin. Para vectores de norma unitaria, el producto escalar es el coseno del ngulo que forman, que es la interpretacin geomtrica del coeciente de correlacin. La implicacin estadstica de ortogonalidad es incorrelacin. Si dos variables son ortogonales, es decir los vectores que las caracterizan forman un ngulo de 90 grados, llamando r al coeciente de correlacin como r = cos ! = 0, las variables estn incorreladas.

2.2.2

Dependencia Lineal

Un conjunto de vectores x1 , ..., xp es linealmente dependiente si existen escalares c1 , ..., cp , no todos nulos, tales que: c1 x1 + ... + cp xp = 0 donde 0 representa el vector nulo que tiene todos los componentes iguales a cero. En particular el vector de ceros, 0, es siempre linealmente dependiente de cualquier otro vector x no nulo. En efecto, aplicando la denicin siempre podemos escribir para cualquier escalar c no nulo 0x+c0 = 0 Intuitivamente, si los vectores son linealmente dependientes podemos expresar alguno de ellos como combinacin lineal de los dems. Por ejemplo, supuesto c1 6= 0 y llamando ai = ci /c1 , tenemos x1 = a2 x2 + . . . + ap xp . Si un conjunto de vectores no es linealmente dependiente diremos que los vectores son linealmente independientes. En el espacio <p el nmero mximo de vectores linealmente independientes es p. En efecto, si tenemos un conjunto de p + h vectores donde existen, al menos, p linealmente independientes (xi , i = 1, ..., p) podemos expresar cualquier otro vector del conjunto, xp+1 , como xp+1 =
p X i=1

ai xi ,

y resolviendo este sistema de p ecuaciones y p incgnitas obtendremos los coecientes ai . Por tanto, el mximo nmero de vectores linealmente independientes es p. En Estadstica un conjunto de vectores linealmente independientes corresponde a un conjunto de variables que no estn relacionadas linealmente de forma exacta. Por ejemplo, si dos variables miden la misma magnitud pero en unidades distintas sern linealmente dependientes. Tambin sern linealmente dependientes si el conjunto de variables incluye una que se ha generado como una combinacin lineal de las otras (por ejemplo, tenemos p variables que representan los precios en euros de p productos en n pases de Europa (n > p) y se incluye tambin como variable p + 1 el precio ponderado de estos productos en los mismos pases).

30

CAPTULO 2. LGEBRA MATRICIAL

Dado un conjunto de p vectores linealmente independientes (x1 , ..., xp ), en <n (p # n), llamaremos espacio generado por este conjunto de vectores al espacio que contiene todos los vectores z, en <n , que pueden expresarse como combinacin lineal de stos. El conjunto (x1 , ..., xp ) se llama base generadora del espacio, o simplemente base del espacio. Si z pertenece a este espacio: z = c1 x1 + ... + cp xp . Es fcil comprobar que z estar en un espacio de dimensin p: en efecto, podemos tomar las primeras p coordenadas de z y obtener los coecientes c1 , ..., cp del sistema de p ecuaciones y p incgnitas resultante. Las n ! p coordenadas siguientes de z quedan determinadas, al estarlo los ci , por lo que, obviamente, z slo tiene p componentes independientes, estando, por lo tanto, en un espacio de dimensin p. El espacio generado por un conjunto de variables incluye a todas las variables que pueden generarse como ndices o combinaciones lineales de las originales. La dimensin de un espacio Ep se dene como el nmero de vectores linealmente independientes que lo generan. Diremos que un vector x es ortogonal a un subespacio Ep si x es ortogonal a todo vector de Ep , es decir, si y pertenece al subespacio Ep , que escribiremos y $Ep , entonces: y 0 x = 0. Llamaremos complemento ortogonal de un subespacio Ep , de dimensin p, y lo denotaremos por C (Ep ), al espacio que contiene todos los vectores ortogonales a Ep . Entonces, si x $Ep , y $C (Ep ) se verica x0 y = 0. La dimensin de C (Ep ) ser n ! p. En particular el complemento ortogonal del espacio generado por un vector que contiene todos los vectores ortogonales a l se denomina espacio nulo del vector.

Ejercicios 2.2
2.2.1Dados los vectores 2 tres 2 1 a = 2 , b = 1 ,c = ! 1 a) Representarlos en el plano <2 . b) Calcular los vectores suma y diferencia de a y b, ab. c) Calcular la norma de los tres vectores. d) Calcular los productos escalares,ab , bc, ac. Qu podemos deducir de estos productos? e) Calcular la proyeccin del vector a sobre el b. f) Justicar si los tres vectores son linealmente independientes. Si no lo son, expresar uno cualquiera como combinacin lineal de los otros dos. 2.2.2 En <3 se denomina base cannica a la formada por los vectores a = (1, 0, 0)0 , b = (0, 1, 0)0 , y c = (0, 0, 1). Se pide a) Expresar el vector d = (1, 1, 2)0 , como suma de los vectores de la base cannica. b) Calcular la proyeccin del vector d sobre cada uno de los vectores de la base cannica. c) Calcular el coseno del ngulo entre el vector d y los vectores de la base cannica. d) Indicar la dimensin del espacio generado por el vector d y obtener una base del complemento ortogonal a ese espacio.

2.3. MATRICES

31

2.2.3 Dados los vectores en <3 , a = (1, 0, 2)0 , b = (1, 1, 2)0 , c = (2, 1, 6)0 . a) Calcular los vectores !b, a + c, y b + c b) Calcular la norma de los vectores, 4a y -2c. c) Calcular el producto escalar, ab y bc. d) Calcular la proyeccin del vector a sobre el b. 2.2.4 Calcular la dimensin del espacio generado por los tres vectores del ejercicio anterior a) Pertenece el vector d = (!2, 0, !8)0 al espacio generado por estos tres vectores? Si es as expresarlo como suma de una base del espacio. b) Indicar la dimensin del espacio complemento ortogonal al generado por estos tres vectores. c) Encontrar una base del complemento ortogonal. d) Calcular el coseno de ngulo entre los vectores d y a. 2.2.5 Dados los tres vectores a = (1, 0, 0, 0, 1)0 , b = (1, 1, 0, 0, 0)0 , y c = (0, 0, 0, 1, 1), en <5 . a) Indicar la dimensin del espacio generado por estos vectores y obtener un nuevo vector miembro de ese espacio. b) Calcular la dimensin del espacio complemento ortogonal al generado por esos vectores. c) Calcular una base del espacio complemento ortogonal. d) Demostrar que los vectores a + b, a + c, y b + c tambin son linealmente independientes. 2.2.6 Considerar las 9 variables que denen los productos alimenticios en los datos EUROALI del apndice de datos como 9 vectores en un espacio de dimensin 25. Se pide: a) Calcular el vector proyeccin de cada vector sobre el vector de constantes. b) Calcular la distancia entre cada vector y el vector de constantes. c) Calcular el producto escalar de los vectores correspondientes a las variables CR y CB. d)Calcular el coseno del ngulo que forman los vectores CR y CB. 2.2.7 Considerar cada pas de los datos EUROALI del apndice de datos como un vectores en un espacio de dimensin 9. Se pide: a) Indicar si estos vectores son linealmente independientes b) Justicar que el nmero mximo de vectores linealmente independientes es ocho. c) Calcular e interpretar el producto escalar entre Austria y Blgica. d) Determinar el ngulo que forman Austria y Blgica. e) Calcular la distancia de cada pas al vector de constantes. Interpretar el resultado.

2.3

MATRICES

Para trabajar conjuntamente con p variables o vectores denimos el concepto de matriz. Una matriz es un conjunto de nmeros dispuestos en las y columnas y puede verse como un conjunto de vectores columna o un conjunto de vectores la. Diremos que una matriz tiene dimensiones n p si tiene n las y p columnas. Si en una matriz intercambiamos las las por las columnas, se obtiene una nueva matriz que se denomina la traspuesta de la primera. En particular, un vector columna de orden n es una matriz de dimensiones n 1(su traspuesta es un vector la), y un escalar es una matriz de dimensiones 1 1 (e igual a su traspuesta).

32

CAPTULO 2. LGEBRA MATRICIAL

La generalizacin del concepto de producto escalar entre dos vectores es el producto matricial, que se dene como una nueva matriz que contiene todos los productos escalares entre los vectores la de la primera matriz y los vectores columna de la segunda. Para que este producto sea posible la primera matriz tiene que tener tantas columnas como las la segunda. Por la propia denicin de deduce que este producto no es conmutativo. Diremos que premultiplicamos la matriz A por la B cuando realizamos el producto BA y que postmultiplicamos la A por la B si realizamos el producto AB. Un producto matricial que puede siempre aplicarse entre dos matrices cualesquiera es el producto de Kronecker. Una propiedad bsica de una matriz es el rango, que indica el nmero mximo de vectores la o columna linealmente independientes que la forman. En una matriz de n las y p columnas (n > p), sus p columnas pueden ser vectores linealmente independientes en <n , pero sus n las no, ya los vectores la pertenecen a <p donde slo pueden existir p < n vectores la linealmente independientes. El rango mximo de la matriz es p y cuando esto ocurre decimos que la matriz tienen rango completo. El rango de una matriz es igual al de su traspuesta. Las matrices cuadradas son aquellas que tienen el mismo nmero de las que de columnas. Las matrices cuadradas tienen ciertas propiedades similares a los escalares. Podemos denir la matriz inversa, y existen distintas formas de obtener una medida escalar de una matriz cuadrada. La primera es la traza, la segunda el determinante y la tercera construir una forma cuadrtica a partir de la matriz. Veremos en el captulo siguiente que todas estas propiedades tienen una interpretacin estadstica en el anlisis de datos multivariantes.

2.3.1

Deniciones bsicas

Llamaremos matriz, A, de dimensiones (n p) a un conjunto de n p nmeros reales, ordenados en n las y p columnas. Por ejemplo, si medimos p variables en n individuos de una poblacin podemos representar cada variable por un vector columna de dimensin n y el conjunto de datos muestrales ser una matriz n p. En particular, cada vector columna es pues una matriz (n 1). Una matriz (n p), puede verse como un conjunto de p vectores columna en <n , o como un conjunto de n vectores la en <p . Llamaremos matriz traspuesta A0 a la matriz obtenida a partir de A intercambiando las por columnas. Si A es n p, A0 ser p n. Se verica: (A0 )0 = A. La suma de dos matrices se dene slo cuando ambas tienen las mismas dimensiones. Cada elemento de la matriz suma se obtiene sumando los elementos correspondientes de los sumandos ! # ! # ! # a11 . . . a1p b11 . . . b1p c11 . . . c1p ... $ + " ... ... $ = " ... ... $ A + B = C % " ... an1 . . . anp bn1 . . . bnp cn1 . . . cnp con cij = aij + bij . Se verica: (a) A + B = B + A

2.3. MATRICES (b) (A + B)0 = A0 +B0 .

33

Sumar dos matrices equivale en trminos estadsticos a sumar los valores de las variables correspondientes a las columnas de las matrices. Por ejemplo, si la matriz A representa el nmero de incidencias leves de p clases distintas en una empresa en n semanas y la B el nmero de incidencias graves en las mismas semanas, la suma representa el nmero total de incidencias.

2.3.2

Productos entre matrices

Vamos a estudiar dos tipos de productos entre matrices. El primero y ms importante es el producto matricial, lo representaremos por AB y slo es posible cuando el nmero de columnas de A es igual al nmero de las de B. Entonces, si A(n p) y B(p h), el producto es una matriz C(n h) con trminos: cij =
p X

aim bmj

m=1

Es decir, el trmino cij representa el producto escalar del vector a0i , denido por la i-sima la de A, por el vector bj , de la j-sima columna de B. Si escribimos: ! # a01 % . & A=" . B = [b1 ...bh ] . $ 0 an

Observemos que el producto de dos matrices no es en general conmutativo, ya que si AB existe (el nmero de columnas de A es igual al nmero de las de B), el producto BA puede no existir. Adems, cuando existe, el producto AB es, en general, distinto de BA. En particular, el producto de una matriz (n p) por un vector (p 1), Ax, ser un nuevo vector de dimensin (n 1) cuyos componentes se obtienen por el producto escalar de las las de A por el vector x. Si y = Ax,

donde todos los vectores tienen dimensiones p, el producto matricial de estas dos matrices es: ! # a01 b1 . . . a01 bh % . & . . AB = C = " . . . . $ 0 0 an b1 . . . an bh (nh)

la matriz A transforma un vector x en <p en otro vector y en <n . Como veremos ms adelante, los movimientos y deformaciones de vectores en el espacio son el resultado de multiplicar el vector por una matriz. Denimos la matriz identidad de dimensin n, In , como la matriz de dimensiones n n que tiene unos en las posiciones ii y ceros fuera de ella. En general la dimensin est clara

34

CAPTULO 2. LGEBRA MATRICIAL

por el contexto y utilizaremos la letra I para representar la matriz identidad de cualquier dimensin: ! # 1 ... 0 % . . &. I=" . . 1 . . $ 0 ... 1 El producto matricial tiene, entre otras, las propiedades siguientes, donde suponemos que las matrices tienen las dimensiones adecuadas para que los productos estn denidos: (a) A(B + C) = AB + AC (b) (AB)0 = B0 A (c) AI = IA = A (*)Producto de Kronecker El producto de Kronecker nos resuelve el problema de construir matrices grandes cuyos elementos son matrices dadas ms pequeas y se dene para matrices cualesquiera. Dadas dos matrices Akn y Bpq , su producto de Kronecker, que representaremos con el smbolo &, se efecta multiplicando cada elemento de la primera por todos los elementos de la segunda, de manera que la matriz resultante tiene un nmero de las igual al producto de las las, kp, y un nmero de columnas igual al producto de las columnas, nq. Este producto existe siempre sean cual sean las dimensiones de las matrices, y se representa por : ! # a11 B a12 B . . . a1n B % a21 B a22 B . . . a2n B & % & A&B=% . &. . . . . " . . . . $ ak1 B ak2 B . . . akn B donde la matriz producto es de orden kp nq. Por ejemplo, 1 1 0 3 & 1 0 3 = 2 2 0 6 (a) si c es un escalar c & A = A&c = cA. (b) si x e y son vectores: x & y 0 = y0 & x (c) (A & B)0 = A0 & B0 (d) (A & B)(C & D) = AC & BD, supuesto que los productos AC y BD existen.

Las propiedades siguientes son resultado directo de la denicin:

2.3. MATRICES

35

En estadstica el producto de Kronecker se utiliza para construir matrices cuyos elementos son a su vez matrices, con frecuencia repetidas. Por ejemplo, si queremos construir una matriz que tenga como elementos diagonales la matriz A, denimos el producto ! # A 0 0 I3 &A = " 0 A 0 $ 0 0 A donde si I3 es la matriz identidad y 0 es una matriz de ceros, ambas de dimensines 3 3.

2.3.3

Rango de una matriz

Una propiedad bsica de una matriz es el rango, que indica el nmero mximo de vectores la o columna linealmente independientes que contiene la matriz. En una matriz de n p , suponiendo n > p, el mximo nmero de vectores linealmente independientes es p. En efecto, si consideramos los vectores formados por las p columnas, tenemos p vectores en <n , que pueden ser linealmente independientes. Sin embargo, si consideramos los n vectores la, estos son vectores de <p , y el mximo nmero de vectores independientes en este espacio es p. Por tanto, el rango mximo de la matriz es p, y cuando esto ocurre decimos que la matriz es de rango completo. Por la denicin es inmediato que el rango de una matriz y de su transpuesta es el mismo. En general, si llamamos rg (A) al rango de la matriz A se verica: 1. rg (Anp ) # min(n, p). El rango es igual o menor que el menor de n y p. 2. Si rg (Anp ) = n < p o rg (Anp ) = p < n, se dice que A es de rango completo. 3. rg (A + B) # rg (A) + rg (B). 4. rg (AB) # mnimo(rg (A), rg (B)) 5. rg (A0 A) = rg (AA0 ) = rg (A). Las dos primeras propiedades resultan de la denicin. Es fcil comprobar que el rango de la suma no puede ser mayor que la suma de rangos. Por ejemplo en la suma 1 2 0 !1 0 0 0 2 0 + = , 0 1 0 0 0 0 0 1 0 la primera matriz tiene rango dos, (los dos vectores columna no nulos son linealmente independientes), la segunda rango uno (solo un vector es linealmente independiente) y la suma tiene rango uno. Si multiplicamos dos matrices, el rango de la matriz resultante no puede exceder a la de menor rango. Por ejemplo, en el producto ! # 1 1 1 !1 1 " 0 0 1 0 $= 2 1 0 3 2 0 !1

36

CAPTULO 2. LGEBRA MATRICIAL

cada una de las matrices que se multiplican tiene rango dos, pero el producto tiene solo rango uno. Finalmente, si multiplicamos una matriz por su transpuesta el producto tiene el mismo rango que la matriz original. En Estadstica el rango de una matriz de datos nos indica la dimensin real necesaria para representar el conjunto de datos, o el nmero real de variables distintas de que disponemos. Analizar el rango de una matriz de datos es la clave para reducir el nmero de variables sin prdida de informacin.

2.3.4

Matrices Cuadradas

Una matriz es cuadrada si n = p. Dentro de las matrices cuadradas se llaman simtricas a las que tienen cada la igual a la correspondiente columna, es decir aij = aji . Una matriz simtrica es, por tanto, idntica a su traspuesta, y diremos que A es simtrica si A0 = A. Una clase de matrices cuadradas y simtricas muy importante son las matrices diagonales, que tienen nicamente trminos no nulos en la diagonal principal. Un caso particular importante de matriz diagonal es la matriz identidad o unidad, I, ya estudiada. En particular, los productos AA0 y A0 A conducen a matrices simtricas. Las matrices cuadradas aparecen de manera natural cuando consideramos estos productos en matrices de datos. Si A es (n p) y representa los valores de p variables de media cero en n individuos de una poblacin, la matriz cuadrada de orden p, A0 A/n, va a contener, como veremos en el captulo siguiente, las varianzas y covarianzas entre las variables. Otra matriz cuadrada y simtrica de amplio uso en estadstica es la matriz de correlacin, que contiene unos en la diagonal y fuera de ella los coecientes de correlacin entre las variables. Sobre las matrices cuadradas podemos denir dos medidas escalares que resumen su tamao global : el determinante y la traza. Ambas son medidas relativas, ya que se modican si multiplicamos los elementos de la matriz por constantes, como veremos a continuacin.

Determinante de una matriz Dada una matriz A cuadrada y diagonal con trminos aii se denomina determinante de la matriz, y lo representaremos por |A|, al escalar resultante de multiplicar todos los trminos diagonales de la matriz. Supongamos inicialmente una matriz de orden dos como A= 2 0 0 4

si consideramos las columnas de esta matriz como vectores, cada vector est situado en uno de los ejes coordenados. La gura 2.2 ilustra esta situacin. El determinante de esta matriz es 24=8, igual al rea del rectngulo determinado por ambos vectores.

2.3. MATRICES

37

Figura 2.2: El determinante como rea encerrada por los vectores columna de la matriz Generalizando esta idea, dada una matriz A cuadrada de orden n con trminos aij , se denomina determinante de la matriz, y lo representaremos por |A|, al escalar obtenido mediante la suma de todos los productos de n elementos de la matriz, a1i1 a2i2 , ..., anin , que podemos formar de manera que en cada producto aparezca una vez un elemento de cada la y uno de cada columna. Cada trmino tiene adems un signo, que depende del nmero de cambios entre dos subndices consecutivos, que es necesario para poner los subndices i1 , . . . , in de ese trmino en el orden natural 1, 2, . . . , n. Escribiremos : |A| = X (!1)r a1i1 a2i2 , ..., anin

donde el sumatorio est extendido a las n! permutaciones de los segundos ndices. Los ndices i1 , . . . in son una permutacin de los nmeros 1, 2, . . . , n y r es el nmero de cambios entre dos subndices necesario para ponerlos en el orden 1, 2, . . . , n. Por ejemplo, en la matriz 2 2 el nmero de permutaciones de los nmeros 1 y 2 es dos ((1,2) y (2,1)). La primera permutacin est en el orden natural luego el nmero de cambios es r = 0 y el trmino a11 a22 ser positivo. La segunda requiere permutar el uno y el dos, con lo que r = 1 y el trmino a12 a21 ser negativo. El determinante ser: |A| = a11 a22 ! a12 a21 . y, como demostraremos ms adelante, puede interpretarse de nuevo como el rea del paralelogramo determinado por los vectores columna. La situacin se ilustra en la gura ??. Esta interpretacin sugiere que si una columna es proporcional a la otra, los dos vectores estarn en la misma direccin y el rea encerrada por ambos, que es el determinante de la matriz, ser cero. La comprobacin de esta propiedad es inmediata: si la primera columna es (a, b)0 y la segunda("a, "b)0 el determinante ser a"b ! b"a = 0.

38

CAPTULO 2. LGEBRA MATRICIAL

En una matriz 3 3 el determinante tiene 3! = 6 trminos que se obtiene de las 6 posibles permutaciones: 1 1 2 2 3 3 2 3 1 3 1 2 3 2 3 1 2 1

la primera permutacin va en el orden natural, luego r = 0. Las dos siguientes podemos ponerlos en orden natural con un solo cambio entre ndices consecutivos, luego r = 1. Las dos siguientes requieren dos cambios (por ejemplo, en la cuarta primero pasamos a 2,1,3 y luego a 1,2,3). Finalmente, en la ltima son necesarios 3 cambios, con lo que tendr signo menos. En consecuencia: |A| = a11 a22 a33 ! a11 a23 a32 ! a12 a21 a33 + a12 a23 a31 + +a13 a21 a32 ! a13 a22 a31 , y puede demostrarse que ahora el determinante es el volumen del paraleppedo generado por las columnas de la matriz. Para matrices mayores de 3, la interpretacin del determinante como hipervolumen es la misma, pero su clculo es tedioso. Para obtenerlo utilizaremos el concepto de menor. Llamaremos menor del elemento aij de una matriz cuadrada de orden n, mij , al determinante de la matriz de orden n ! 1 que resulta al eliminar de la matriz original A la la i y la columna j . Se denomina adjunto del elemento aij al escalar (!1)i+j mij . Se demuestra que el determinante de una matriz puede calcularse multiplicando cada elemento de una la por sus adjuntos. Entonces: |A| =
n X j =1

aij (!1)i+j mij

para cualquier la i. Por ejemplo, en una matriz 3 3, desarrollando por los elementos de la primera la |A| = a11 (a22 a33 ! a23 a32 ) ! a12 (a21 a33 ! a23 a31 ) + a13 (a21 a32 ! a22 a31 ) , que coincide con el resultado anterior. Aplicando sucesivamente esta idea es posible calcular el determinante de matrices grandes. El determinante se calcula muy fcilmente cuando una matriz es diagonal, ya que entonces, como hemos visto, el determinante es el producto de los trminos diagonales de la matriz. El mismo resultado se obtiene si la matriz es triangular, que es aquella que tiene todos los elementos por encima o por debajo de la diagonal principal nulos. Por ejemplo, una matriz diagonal de orden tres es ! # 1 0 0 " 2 3 0 $ 1 4 2

2.3. MATRICES

39

Para calcular el determinante desarrollamos por la primera la, con lo que obtenemos el producto del primer trmino diagonal, 1, por su adjunto, que es otra matriz triangular ahora de orden dos. Desarrollando de nuevo este matriz por su primera la tenemos el producto del segundo trmino diagonal, 3, por un escalar, 2. Aplicando esta misma idea a matrices de cualquier tamao comprobamos que el determinante es el producto de los trminos diagonales. Los determinantes tienen las propiedades siguientes: (a) |"A| = "n |A| (b) |A0 | = |A| (c) Si A y B son matrices cuadradas, |AB| = |A| |B| . (d) Si permutamos dos las o dos columnas entre s, el determinante cambia slo su signo. (e) Si una la (o columna) de una matriz es una combinacin lineal de las restantes las (o columnas), lo que supone que su rango es menor que n, la matriz es singular y el determinante de la matriz es cero.
!

v1 v1sen !

v2

El determinante como area del paralelogramo formado por los dos vectores La gura ?? ilustra la interpretacin del determinante como area del paralelogramo denido por los dos vectores. Este area es el producto de la base, kv2 k , por la altura, kv1 ksen!. Consideremos el determinante de la matriz 0 0 0 v1 v1 v1 v1 v2 0 |A| = |C C| = [v1 v2 ] = 0 0 0 v2 v2 v1 v2 v2 entonces: |A| = |C|2 = kv2 k2 kv1 k2 (sen!)2

40

CAPTULO 2. LGEBRA MATRICIAL

y el determinante de la matriz formada por los dos vectores es kv1 k kv2 ksen!, el rea del paralelogramo que forman. Observemos se obtiene el mismo resultado cuando los vectores v1 y v2 son vectores de Rn , ya que la matriz C0 C ser cuadrada, y su determinante es el cuadrado del rea encerrada por los vectores. Si interpretamos los vectores v1 y v2 como variables, veremos en el captulo 3 que el producto C0 C es su matriz de varianzas y covarianzas, y su determinante, que es el rea que forman, es una medida global de la independencia entre las variables, como veremos en la seccin 3.5. Por ejemplo, en el caso general de p variables, si una variable es combinacin lineal de las dems, las variables son linealmente dependientes, la columna correspondiente a esa variable en la matriz de varianzas y covarianzas ser tambin combinacin lineal de las dems columnas y el determinante de la matriz de covarianzas ser nulo. Por otro lado, si las variables estan incorreladas su matriz de covarianzas es diagonal y el determinante ser, en trminos relativos, mximo. Por tanto podemos concluir que cuanto mayor sea el determinante mayor es la independencia entre los vectores. Traza de una matriz Se denomina diagonal principal de una matriz cuadrada C de orden n con elementos cij al conjunto de elementos cii , i = 1, ..., n. La traza de una matriz cuadrada es la suma de los elementos de la diagonal principal de la matriz, escribiremos: tr(C) =
n X i=1

cii

La traza es un operador lineal. En efecto, de la denicin se obtiene: (a) tr(A + B) = tr(A) + tr(B). (b) tr("A) = "tr(A), donde " es un escalar. (c) Se demuestra que: tr(ABC) = tr(BCA) = tr(CAB), en el supuesto de que todos los productos estn denidos. P Pn 2 (d) Si la matriz C es simtrica, tr(C2 ) = tr(CC) = n i=1 j =1 cij .

La traza es una medida global de tamao de la matriz que se obtiene sumando sus elementos diagonales. Por ejemplo, la traza de una matriz de varianzas y covarianzas es la suma de todas las varianzas de las variables. Al sumar los elementos diagonales es una medida global de variabilidad, pero, a diferencia del determinante, no tiene en cuenta las relaciones entre las variables. Rango de una matriz cuadrada El rango mximo de una matriz cuadrada de orden n es n. Cuando el rango es menor que n una la o columna es combinacin lineal de las dems y decimos que la matriz es singular. Por otro lado, se comprueba que

2.3. MATRICES

41

1. Para matrices cuadradas del mismo orden, A, B y C, donde B y C son no singulares, rg (CAB) = rg (A). 2. Si A y B son cuadradas de orden n y AB = 0, entonces rg (A) + rg (B) # n. Formas cuadrticas Si transformamos un vector x mediante una transformacin lineal, y = Bx, la norma al cuadrado del nuevo vector ser y0 y = x0 B0 Bx = x0 Ax donde A = B0 B es una matriz cuadrada y simtrica. En funcin del vector original la forma resultante se denomina forma cuadrtica. Llamaremos forma cuadrtica a una expresin escalar del tipo: x0 Ax donde x es un vector, x0 su transpuesto, y A una matriz cuadrada y simtrica. La forma cuadrtica es siempre un escalar. Su expresin general es:
n X i=1

aii x2 i

+2

n n X X

aij xi xj .

i=1 j =i+1

Diremos que una matriz A es semidenida positiva si cualquier forma cuadrtica formada a partir de ella es un nmero no negativo, para cualquier vector x 6= 0. Si la forma cuadrtica es siempre un numero positivo diremos que la matriz A es denida positiva. Se demuestra que las formas escalares, como el determinante y la traza, que pueden obtenerse a partir de matrices semidenidas positivas son nmeros no negativos. Una matriz semidenida positiva tiene pues propiedades similares a los nmeros no negativos y una matriz denida positiva a los nmeros positivos. Matriz Inversa Dada una matriz A cuadrada n n, no singular, denimos su inversa, A!1 , como una matriz n n tal que: AA!1 = A!1 A = I donde I es la matriz identidad, que tiene unos en la diagonal y ceros fuera de ella. Es decir, escribiendo A con vector la a0i , la matriz A!1 tendr vectores columna bi tales que: ! # # # ! ! 1 0 . . . 0 a01 a0 b . . . a01 bn % & % 1. 1 & & % 0 1 ... 0 & % . . . . . &. " . $ b1 . . . bn = " . . . . . $=% . " . . . . . $ 0 0 0 an an b1 . . . an bn 0 ... ... 1

42

CAPTULO 2. LGEBRA MATRICIAL

En consecuencia la matriz A!1 debe tener por columnas vectores b tales que: (1) bi es ortogonal a aj ,es decir el producto escalar b0i aj es cero 'j 6= i; (2) el producto escalar de los vectores b0i ai = a0i bi es uno. Observemos que el clculo de la matriz inversa resuelve el problema de calcular vectores ortogonales a uno dado (o variables incorreladas con una dada). Por ejemplo, el espacio ortogonal al vector a1 puede calcularse construyendo una matriz que tenga a este vector como primera la y calculando la inversa de la matriz. Si llamamos b2 , ...bn a los vectores columna de la matriz inversa, estos vectores forman el espacio nulo del vector a1 . Como ilustracin, dada la matriz 2 1 A= , 0 4 es fcil comprobar que la inversa es A
!1

.5 !.125 0 .25

y el primer (segundo) vector columna de la inversa dene el espacio ortogonal al segundo (primer) vector la de la matriz original. La necesidad de calcular la inversa de una matriz aparece de manera natural al resolver sistemas de ecuaciones lineales Ax = b donde A es una matriz conocida cuadrada de orden n, b un vector de constantes y x un vector de n incgnitas. Para que este sistema tenga solucin nica las n ecuaciones deben de ser distintas, lo que supone que no existe una la de A que sea combinacin lineal de las dems. Entonces A es no singular y la solucin se obtiene mediante: x = A!1 b. El clculo de la matriz inversa de una matriz dada es engorroso y debe realizarse mediante un ordenador si la dimensin de A es alta. Se demuestra que la inversa de una matriz puede calcularse por las tres operaciones siguientes: 1. Se sustituye cada elemento por su adjunto. 2. Se transpone la matriz resultante. Se obtiene una matriz que llamaremos adjunta de la matriz A. 3. Se divide cada trmino de la matriz adjunta por el determinante de la matriz original. Como ejemplo, calcularemos la inversa de la ! 1 " ! 1 A= 0 matriz # 1 0 2 1 $ 0 3

2.3. MATRICES

43

comenzaremos sustituyendo cada elemento por su adjunto. Por ejemplo, para el elemento (1, 1) su adjunto es (!1)2 [2 3 ! 1 0] = 6. Para el (1, 2), (!13 ) [!1 3 ! 1 0] = 3, etc. As obtenemos la matriz ! # 6 3 0 " !3 3 0 $ , !1 !1 3 y al transponerla resulta la matriz adjunta : ! # 6 !3 !1 Adj (A) = " 3 3 !1 $ . 0 0 3 |A| = 6 + 3 = 9, se obtiene la expresin de la inversa A!1 # 1 !1 ! 3 9 1 $ !1 =" 3 9 1 0 0 3
2 3 1 3

Si dividimos ahora por el determinante de la matriz A

y podemos comprobar que A A!1 = I. La inversa de una matriz A tiene las propiedades siguientes: 1. (AB)!1 = B!1 A!1 para matrices cuadradas no singulares. 2. (A0 )!1 = (A!1 )0 3. |A!1 | = |A|!1 4. si A es simtrica tambin lo es A!1 . La matriz inversa de una matriz de varianzas y covarianzas tiene una interesante interpretacin en Estadstica, como veremos en el siguiente captulo. La matriz inversa recoge la informacin de la dependencia conjunta de todas las variables de manera ms completa que la matriz de varianzas y covarianzas. Inversas de sumas de matrices Es muy til poder calcular la inversa de una suma de matrices en funcin de las inversas de los sumandos. La forma general es la siguiente: supongamos que las matrices A y C son matrices cuadradas no singulares de orden n y p respectivamente, y B y D son matrices rectangulares (n p) y (p n), se comprueba por multiplicacin directa que (A + BCD)!1 = A!1 ! A!1 B(DA!1 B + C )!1 DA!1.
!1

(2.1)

44

CAPTULO 2. LGEBRA MATRICIAL

Si tomamos en esta expresin C =1 y las matrices B y D son vectores, que llamaremos b y d0 , se obtiene que (A + bd0 )!1 = A!1 ! A!1 b(d A!1 b+1)!1 d0 A!1 Cuando A y C tienen el mismo orden, se comprueba que la expresin de la inversa puede escribirse como: (A + C)!1 = C!1(A!1 + C )!1 A!1 .
!1 0

(2.2)

Veremos que estas frmulas son muy tiles para estudiar el cambio de la matriz de varianzas y covarianzas, y otros estadsticos relevantes, al eliminar observaciones o variables. Matrices ortogonales Llamaremos matriz ortogonal, C, a una matriz cuadrada, que representa un giro en el espacio. Para caracterizar estas matrices, supongamos que dado un vector x le aplicamos una matriz no singular C y obtenemos un nuevo vector y = Cx. Si esta operacin es un giro, la norma de y debe ser idntica a la de x, lo que implica la condicin : y0 y = x0 C0 Cx = x0 x, es decir, deber vericarse que : C0 C = I. De la denicin y = Cx deducimos que x = C!1 y. Por otro lado, multiplicando por C0 tenemos que C0 y = C0 Cx = x. De estas dos condiciones concluimos que la matriz inversa debe ser igual a su traspuesta. Esta es la condicin de ortogonalidad: C0 = C!1 . Una matriz ortogonal debe tener las (o columnas) que son vectores ortogonales entre s y de longitud unidad, ya que: ! # ! # ! # c01 c01 c1 . . . c01 cn 1 ... 0 % . & % . & % . & . . . . " . . $ [c1 . . . cn ] = " . . . $=" . . . $ c0n c0n c1 . . . c0n cn 0 ... 1 adems: |C| = |C0 | =1, donde |C| es el determinante de C. Por ejemplo, en <2 , la matriz cos # !sen # C= sen # cos #

es ortogonal, ya que CC0 = I. Los vectores de una matriz ortogonal de orden n forman una base ortonormal de <n ya que son ortogonales y de norma uno.

2.3. MATRICES

45

2.3.5

Matrices Particionadas

Una matriz puede subdividirse en elementos que sean a su vez matrices y a los que se aplican las reglas anteriores. Esta operacin es importante cuando queremos dividir las variables en bloques distintos. Por ejemplo, la matriz ! # 2 3 4 A = " 5 6 1 $, 0 2 3 puede escribirse tambin como una matriz 2 2 particionada: A11 A12 , A= A21 A22 donde: A11 = 2 5 3 4 6 1 (2.3)

, A12 =

, A21 = 0, A22 = [2 3] .

Podemos obtener la inversa y el determinante de una matriz particionada en otra 2 2 de manera que los trminos diagonales A11 y A22 sean matrices cuadradas no singulares. La inversa de la matriz A dada por (2.3) se calcula mediante: 1 B!1 !B!1 A12 A! !1 22 A = 1 1 !1 !1 !1 !1 !A! A! 22 A21 B 22 + A22 A21 B A12 A22 donde
1 B = (A11 ! A12 A! 22 A21 )

como puede comprobarse por multiplicacin directa. El determinante se obtiene mediante:


1 !1 |A| = |A22 ||A11 ! A12 A! 22 A21 | = |A11 ||A22 ! A21 A11 A12 | = |A22 | |B|

Observemos que si la matriz diagonalpor bloques y A12 = 0, A21 = 0, entonces A!1 es !1 An 0 se obtiene simplemente como y |A| = |A11 | |A12 | . 1 0 A! 22

Ejercicios 2.3
2.3.1 Calcular el determinante de la matriz formada por los tres vectores del ejercicio 2.2.2, a = (1, 0, 2)0 , b = (1, 1, 2)0 , c = (2, 1, 6)0 .Qu conclusiones podemos extraer de este resultado respecto a la independencia lineal de estos ! vectores? # 1 1 2.3.2 Dada la matriz rectangular A = " 0 1 $ , calcular la matriz A0 A y su determinante 2 2 y traza. Hacer lo mismo para la matriz AA0 .

46

CAPTULO 2. LGEBRA MATRICIAL

2.3.3 Calcular la inversa de la matriz A0 A del ejercicio anterior. Dibujar en el plano los vectores que forman esta matriz y su inversa y sobre el resultado obtenido. " "comentar 2/2 ! " 2/2 es ortogonal. Aplicarla al vector 1 y 2.3.4 Demostrar que la matriz " 1 2/2 2/2 dibujar el resultado. Qu giro produce esta matriz? 2.3.5 Se miden tres dimensiones fsicas en un grupo de 10 personas y estos datos se disponen en una matriz rectangular A, de dimensiones (10 3), justicar las siguientes armaciones: a) El rango mximo de esta matriz es 3. b) La operacin A0 110 , donde 110 es un vector (10 1) con todas sus componentes iguales a uno proporciona un vector (3 1) cuyos componentes son la suma de los valores de cada variable. 1 c) La operacin 10 A0 110 , proporciona un vector cuyos componentes son las medias de las variables. 1 1 d) La operacin 110 ( 10 A0 110 )0 = 10 110 1010 A, proporciona una matriz rectangular de dimensiones (10 3), cuyas columnas contienen la media de cada variable. e = A! 1 110 10 A proporciona una matriz rectangular de dimensiones (10 e) La matriz A 10 10 3), cuyas columnas contienen las desviaciones de cada variable con respecto a su media. e 0A e proporciona una matriz cuadrada de dimensiones (3 3), cuyos trf) La matriz A minos diagonales son las sumas de las desviaciones a la media de cada variable al cuadrado. 2.3.6 Con la matriz de datos de EUROALI del apndice de datos calcular las varianzas y covarianzas de las variables y colocarlas en una matriz cuadrada y simtrica de orden nueve, donde en la diagonal estn las varianzas y fuera de la diagonal las covarianzas. Calcular la traza y el determinante y pensar en su interpretacin. Repetirlo para las variables estandarizadas. Qu anlisis le parece ms informativo? 2.3.7 Calcule una base del espacio ortogonal al vector a01 =(1 0 0 0 -1) de la forma siguiente: (1) construya una matriz arbitraria cuadrada de dimension 5 que tenga como primera la el vector a01 ; (2) calcule la inversa de la matriz y tome el espacio generado por las columnas 2 a la 5. Justique el resultado obtenido. !1 2.3.8 Demuestre por multiplicacin directa la frmula (2.2). (Nota, utilice que (A!1 + C )!1 A!1 !1 !1 puede escribirse como (I + AC ) ). 2.3.9 Demuestre por multiplicacin directa que (I + C)!1 = I ! (I + C!1 )!1 . 2.3.10 Demuestre por multiplicacin directa la frmula (2.1). (Nota, al sacar factor comn !1 !1 utilice que (DA!1 B + C )!1 puede escribirse como C(I + DA!1 BC) .

2.4

VECTORES Y VALORES PROPIOS

Dada una matriz cuadrada hay determinadas propiedades que esperamos sean invariantes ante ciertas transformaciones lineales que preservan la informacin existente en la matriz. Por ejemplo, si transponemos la matriz las propiedades bsicas de los vectores que la forman no varan, y hemos visto que ni la traza ni el determinante se modican. Si giramos los vectores que la forman, es decir multiplicamos la matriz por una ortogonal, no se alteran ni sus magnitudes ni sus posiciones relativas, por lo que esperamos que las propiedades bsicas

2.4. VECTORES Y VALORES PROPIOS

47

de la matriz se mantengan. Por ejemplo, si en lugar de trabajar con los ingresos y los costes decidimos trabajar con los benecios, construidos como ingresos-costes, y el volumen de actividad, denido como ingresos ms costes, hemos aplicado una transformacin ortogonal. Aunque la matriz cuadrada que representa las varianzas y covarianzas de las nuevas variables sea distinta de la original, la esencia del problema es la misma, y esperamos que la matriz de las nuevas variables tenga caractersticas idnticas a las de las variables originales. Para precisar esta idea aparece el concepto de valores y vectores propios de una matriz cuadrada. Los valores propios son las medidas bsicas de tamao de una matriz, que no se ven alteradas si hacemos un cambio de coordenadas que equivale a una rotacin de los ejes. Se demuestra que las medidas globales de tamao de la matriz, como la traza o el determinante, son slo funcin de los valores propios y, en consecuencia, sern tambin invariantes ante las transformaciones que preservan los valores propios. Los vectores propios representan las direcciones caractersticas de la matriz y no son invariantes. Al aplicar una matriz cuadrada de orden n a un vector de dimensin n este se transforma en direccin y magnitud. Sin embargo, para cada matriz cuadrada existen ciertos vectores que al transformarlos por la matriz slo se modica su longitud (norma) y no su posicin en el espacio. Estos vectores se denominan vectores propios de la matriz.

2.4.1

Denicin

Llamaremos vectores propios de una matriz cuadrada de orden n a aquellos vectores cuya direccin no se modica al transformarlos mediante la matriz. Por tanto u es un vector propio de la matriz A si verica que : Au = "u. (2.4)

donde " es un escalar, que se denomina valor propio de la matriz. En esta relacin suponemos u 6= 0, ya que si no es trivialmente cierta. Si u es un vector propio de A y multiplicamos (2.4) por cualquier a 6= 0, resulta que au ser tambin un vector propio de A. Para evitar esta indeterminacin suponemos que los vectores propios estn normalizados de manera que kuk = 1. Sin embargo, el signo queda indeterminado: si u es un vector propio tambin lo es !u. Para calcular el vector propio podemos escribir la ecuacin anterior como: (A!"I)u = 0, y este es un sistema homogneo de ecuaciones que tendr solucin no nula si y solo si la matriz del sistema, (A!"I), es singular. En efecto, si esta matriz fuese invertible multiplicando por la inversa tendramos que la nica solucin es u = 0. Por tanto, este sistema tiene solucin no nula si se verica que | A ! "I | = 0 . Esta ecuacin se denomina la ecuacin caracterstica de la matriz. Es una ecuacin polinmica en " de orden n y sus n races se denominan valores propios de la matriz. Es

48

CAPTULO 2. LGEBRA MATRICIAL

inmediato de la denicin que si una matriz es diagonal los valores propios son los elementos de la diagonal principal. En efecto, tendremos: ! # ! # ! # a1 . . . 0 ... 0 " ... 0 a1 ! " % . & % & % & . . . . . . . . . . . |A ! "I| = " . a2 . $ ! " . " . $ = " $ . a ! " . 2 0 ... an 0 ... " 0 ... an ! " |A!"I| = (a1 ! ")...(an ! "), y las soluciones de esta ecuacin polinmica son a1 , ..., an . Aunque una matriz de orden n tiene siempre n valores propios, estos pueden aparecer repetidos. En general, una matriz tiene h # n valores propios distintos. Si un valor propio aparece repetido r veces se dice que tiene multiplicidad r. Por ejemplo, la matriz diagonal: ! # 2 0 0 0 % 0 3 0 0 & & A =% " 0 0 0 0 $ 0 0 0 0

tiene como valores propios 2, 3 y 0, este ltimo valor con multiplicidad dos (aparece dos veces). A cada valor propio distinto de una matriz cuadrada podemos asociarle un nico vector propio que satisface (2.4). En efecto, dado " podemos resolver el sistema y obtener u. Como la matriz del sistema es singular, existen innitas soluciones, ya que si u es una solucin tambin lo es au, lo que resolvemos tomando el vector de norma uno. Si un valor propio es mltiple, es decir, la matriz no tiene n valores propios distintos, los vectores propios asociados a valores propios con multiplicidad mayor de uno no estn denidos en general de manera nica. Para ilustrar esta idea, consideremos la matriz ! # 1 0 0 A =" 0 1 0 $ 0 0 2

que tiene el valor propio 1 con multiplicidad 2. Los vectores u1 = (1, 0, 0)0 y u2 = (0, 1, 0)0 son vectores propios asociados al valor 1, pero tambin lo es u3 = $ u1 + (1 ! $ ) u2 , para cualquier valor de $ . Los vectores propios estn en un espacio igual a la multiplicidad del valor propio, 2, y cualquier vector normalizado de este espacio de dimensin 2 es un vector propio de A. Cuando la matriz tiene n valores propios distintos, a cada valor propio le podemos asociar un vector propio bien denido y se demuestra que el conjunto de los n vectores propios es linealmente independiente. Los valores propios de una matriz tienen las propiedades siguientes: 1. Si " es un valor propio de A, "r es un valor propio de Ar . En particular , si A!1 existe, "!1 es un valor propio de A!1 .

2.4. VECTORES Y VALORES PROPIOS 2. Los valores propios de una matriz y su transpuesta son los mismos. 3. La suma de los valores propios de A es igual a la traza. X tr(A) = "i .

49

5. Las matrices A y P!1 AP tiene los mismos valores propios.

4. El producto de los valores propios de A es igual al determinante Y | A| = "i .

6. Las matrices A y A I tienen los mismos vectores propios y si " es un valor propio de A, " 1 es un valor propio de A I y la 7. Las matrices cuadradas ABC, BCA y CAB, donde las matrices A, B, y C son generales con la condicin de que los productos existan, tienen los mismos valores propios no nulos. 8. Si A es triangular los valores propios son los elementos diagonales. 9. Si A y B son cuadradas de rdenes n y p los np vectores propios de su producto de Kronecker, A( B, son el producto de Kronecker de los vectores propios de A y B. La propiedad 1 se demuestra fcilmente ya que si Au = "u, multiplicando esta ecuacin por A!1 , resulta u ="A!1 u, es decir A!1 u ="!1 u. Para comprobar la segunda escribiendo Au = "u y A0 v = v y multiplicando la primera por v0 y la segunda por u0 se tiene v0 Au = "v0 u y u0 A0 v = u0 v y como el primer miembro de ambas es el mismo (un escalar es igual a su transpuesto) el segundo lo ser y "=. Las propiedades 3 y 4 son consecuencia de las propiedades de diagonalizacin de matrices que comentamos a continuacin. La 5 se comprueba fcilmente ya que si Au ="u, multiplicando ambos miembros por P!1 por la derecha y P por la izquierda, se obtiene que P!1 A P u = " u y las matrices tienen los mismos valores propios. Los vectores propios de la matriz P!1 AP son P!1 u, siendo u un vector propio de la matriz A. La propiedad 6 es consecuencia de que si Au = "u, entonces Au + Iu = "u + u, es decir, (A + I)u = (1 + ")u. Por otro lado si |A ! "I| = 0, entonces tambin |A + I ! I ! "I| = |A + I ! (1 + !)I| = 0. La 9 resulta de la denicin de producto de Kronecker.

2.4.2

Valores y vectores propios de matrices simtricas

En este libro vamos a obtener vectores y valores propios principalmente de matrices simtricas. En estas matrices: (1) los valores propios son siempre reales; (2) los vectores propios son ortogonales. Para comprobar esta segunda propiedad observemos que si Aui = "i ui y Auj = "j uj son dos valores y vectores propios distintos, multiplicando la primera ecuacin por u0j y la

50

CAPTULO 2. LGEBRA MATRICIAL

segunda por u0j los primeros miembros son iguales y los segundos como "i 6= "j slo sern iguales si u0j ui = 0.

Para interpretar el signicado de los valores y vectores propios de estas matrices consideremos matrices simtricas de orden 2 cuyos vectores pueden dibujarse en un plano. Por ejemplo la matriz simtrica

A1 =

a b b a

es fcil comprobar que sus valores propios se obtienen de (a ! ")2 = b2 y que sus vectores propios estn en las direcciones (1,1) y (1,-1), y normalizados a norma uno son los vectores (0.7071, 0.7071) y ( 0.7071,- 0.7071) . Por ejemplo, si a = 3 y b = 1, de manera que la matriz est formada por los dos vectores columna (3, 1)0 y (1, 3)0 , los valores propios son (4 y 2). Supongamos que construimos una elipse con centro en el origen y que pase por los extremos de los dos vectores que forman la matriz, como indica la gura 2.3. Entonces los valores propios representan la distancia del extremo de cada eje de la elipse al origen. Por ejemplo el valor 4 indica que el eje principal de la elipse mide 4 unidades desde el origen, o 8 en total. Analogamente, el valor 2 indica la longitud del otro semieje de la elipse. Los vectores propios asociados a estos valores propios representan las direcciones de los ejes: el asociado al mayor valor propio es un vector unitario en la direccin de la diagonal principal y el segundo es perpendicular a el, como indica la gura 2.3. Si modicamos los valores de a y b los vectores propios no se modican pero s los valores propios. Si aumentamos a manteniendo jo b alejamos los extremos de los vectores y la elipse tiene cada vez los ejes ms similares. Por ejemplo, la matriz formada por los vectores columna (100, 1)0 y (1, 100)0 tiene valores propios (101 y 99) y los mismos vectores propios. Por el contrario si aumentamos b manteniendo jo a acercamos los extremos de los vectores y apuntamos ms la elipse, lo que aumentar la diferencia entre sus ejes. Por ejemplo, la matriz formada por los vectores columna (1.2, 1)0 y (1, 1.2)0 tiene valores propios (2.2, 0,2) y los mismos vectores propios.

2.4. VECTORES Y VALORES PROPIOS

51

1 1 3

Figura 2.3: Representacin de los valores y vectores propios de una matriz simtrica A1

En la matriz anterior al ser los elementos diagonales idnticos la orientacin de la elipse era segn las bisectrices de los ejes. Esto no ocurrir si los elementos diagonales son distintos. Por ejemplo, la matriz

A2 =

4 1 1 2

se encuentre representada en la gura 2.4. Ahora el eje mayor de la elipse esta mucho ms cerca del vector de mdulo mayor y puede comprobarse que los vectores propios son (0.9239 0.3827) y (-0.3827 0.9239), y los valores propios (4.41, 1.59). Generalizando este ejemplo, los valores propios de una matriz simtrica representan las magnitudes de los ejes del elipsoide con centro el origen y determinado por los extremos de los vectores. Los vectores propios indican las direcciones de estos ejes principales.

52

CAPTULO 2. LGEBRA MATRICIAL

Figura 2.4: Representacin de los valores y vectores propios de una matriz simtrica A2

2.4.3

Diagonalizacin de Matrices Simtricas

Una propiedad muy importante de las matrices simtricas es que pueden convertirse en una matriz diagonal mediante una transformacin ortogonal. Sea A una matriz cuadrada y simtrica de orden n. Hemos visto que esta matriz tiene valores propios reales y vectores propios ortogonales. Entonces los vectores propios, u1 , . . . , un, son linealmente independientes y forman una base en <n . Podemos escribir A [u1 , . . . , un ] = ["1 u1 , . . . , "n un ] . donde "1 , . . . "n son los valores propios que son nmeros reales y que pueden no ser todos distintos. En particular, algunos de estos valores propios pueden ser nulos. Esta ecuacin puede escribirse, llamando D a la matriz diagonal con trminos "i , como AU = UD donde la matriz U es ortogonal. Multiplicando por U0 = U!1 , tenemos que U0 AU = D (2.5)

y hemos transformado la matriz original en una matriz diagonal, D, mediante una matriz U ortogonal. La ecuacin (2.5) tiene una interesante interpretacion geomtrica. Observemos que U0 A es una rotacin de los vectores que forman la matriz, y esta ecuacin nos dice que estos vectores rotados son iguales a DU0 , que es el resultado de multiplicar por los trminos de D a una base de vectores ortonormales. En otros trminos, como A = UDU0 vemos como se genera siempre una matriz simtrica: se parte de una base ortonormal de vectores, U0 ,se modica la norma de cada vector de esta base, multiplicandolo por una matriz diagonal, y luego se rotan de nuevo los vectores as obtenidos. Diagonalizar una matriz simtrica

2.4. VECTORES Y VALORES PROPIOS

53

consiste en recuperar esta operacin y los valores propios representan las constantes por las que se han multiplicado los vectores ortonormales iniciales y los vectores propios indican el giro realizado. Si tomamos determinantes en (2.5): y como |U| = |U0 | = 1, el determinante de A ser el producto de sus races caractersticas. Por lo tanto, si una de las races caractersticas es nula, el determinante ser 0 y la matriz singular. Por otro lado, como en (2.5) las matrices U0 y U son no singulares, el rango de A ser igual al de D, que al ser diagonal ser igual al nmero de trminos diagonales no nulos, que son los valores propios de A. Por tanto: El rango de una matriz simtrica es igual al nmero de races caractersticas distintas de cero. Al diagonalizar una matriz simtrica obtenemos su rango, observando el nmero de elementos no nulos en la diagonal principal de la matriz transformada D. Descomposicin espectral Es interesante poder descomponer una matriz cuadrada simtrica en sus fuentes de variacin intrnsecas, es decir en las direcciones de los vectores propios con coecientes que dependen de los valores propios. Esto es lo que consigue la descomposin espectral. Premultiplicando (2.5) por U y postmultiplicando por U0 se obtiene A = UDU0 que, como hemos comentado en la seccin anterior indica cmo se genera una matriz simtrica a partir de una base ortonormal. Esta descomposicin puede escribirse: ! # "1 u01 % . & A = [u1,... , un ] " . . $ "n u0n de donde resulta: A=
n X i=1

|U0 ||A||U| = |D|,

"i ui u0i

(2.6)

que descompone la matriz A como suma de n matrices de rango uno ui u0i con coecientes "i . Si la matriz A tiene rango r la descomposicin espectral (2.6) indica que puede expresarse como suma de r matrices de rango unidad. La importancia de esta descomposicin es que si algunos valores propios son muy pequeos, podemos reconstruir aproximadamente A utilizando los restantes valores y valores propios. Observemos que la descomposicin espectral de A!1 es n X 1 !1 0 A = "! i ui ui
i=1 1 ya que A!1 tiene los mismos vectores propios que A y valores propios "! i .

54

CAPTULO 2. LGEBRA MATRICIAL

2.4.4

Raiz cuadrada de una matriz semidenida positiva

Una matriz cuadrada, simtrica y semidenida positiva puede siempre descomponerse como producto de una matriz por su transpuesta: A = H H0 , en efecto, por la descomposicin espectral de una matriz simtrica A = U D1/2 D1/2 U0

y tomando H = U D1/2 se obtiene la descomposicin. A la matriz H se la denomina una raiz cuadrada de la matriz A. La raz cuadrada de una matriz no es nica, ya que si A = H H0 tambin A = H$ H0$ donde H$ = HC para cualquier matriz ortogonal C. Una forma de denir la raz de manera nica es exigir que la matriz H sea simtrica, con lo que A = H H. Esto puede hacerse tomando H = U D1/2 U0 Otra forma de hacer la descomposicin de manera nica es la descomposicin de Cholesky que estudiamos a continuacin. Descomposicin de Cholesky (*) Puede demostrarse que la raz cuadrada de una matriz cuadrada, simtrica y denida positiva puede obtenerse de manera que H = T sea triangular (T0 ser tambin triangular) con trminos diagonales positivos. Entonces la descomposicin es nica y se denomina descomposicin de Cholesky. Tenemos A = TT0 Demostraremos la existencia de esta matriz por induccin, que tiene la ventaja de propor" cionar adems un mtodo para su clculo. Si la matriz es un escalar a trivialmente T = a. Supongamos que hemos encontrado esta descomposicin para dimensin p y veamos como obtenerla para dimensin p + 1. Sea Ap = Tp T0p y vamos a obtener la descomposicin para Ap+1 = Ap a12 a012 a22 (2.7)

donde a12 es un vector p 1 y a22 un escalar. Vamos a demostrar que esta matriz puede escribirse como Tp+1 T0p+1 donde, tomando Tp+1 como triangular inferior: Tp 0 Tp+1 = . t tp+1

2.4. VECTORES Y VALORES PROPIOS Entonces, la condicin Ap+1 = Tp+1 T0p+1 equivale a las condiciones: a12 = Tp t, y a22 = t0 t+t2 p+1 , conjuntamente con (2.7). Como Tp es no singular, podemos obtener
1 t = T! p a12

55

y utilizando (2.7) podemos escribir tp+1 =

que debe ser positivo si la matriz es denida positiva. Esta descomposicin se utiliza mucho en anlisis numrico ya que puede calcularse iterativamente con el mtodo propuesto. Por ejemplo, supongamos que A es una matriz de la forma 2 s1 s12 A= s12 s2 2 con las varianzas y covarianzas de dos variables. Entonces Ap = a1 = s2 1 , Tp = s1 ; t =s12 /s1 0 s1 p T= 2 2 s12 /s1 s2 ! s2 12 /s1

1 a22 ! a012 A! p a12 ,

y contiene en la diagonal las desviaciones tpicas de la primera variable y de la regresin de la segunda dada la primera. Esta propiedad es general. La descomposicin de Cholesky proporciona un mtodo eciente de calcular el determiP 0 0 t2 nante de una matriz ya que si A = TT entonces |A| = |T| |T | = ii , siendo tii los 0 elementos diagonales de T o T . Diagonalizacin de dos matrices simtricas (*) Supongamos que A y B son dos matrices simtricas de la misma dimensin y A es adems denida positiva. Entonces la matriz H = A!1/2 C, donde C contiene los vectores propios de la matriz simtrica A!1/2 BA!1/2 verica H0 AH = I y H0 BH = D donde la matriz D es diagonal. Para comprobar esta propiedad observemos que como la matriz A!1/2 BA!1/2 es simtrica la matriz C es ortogonal. Por tanto H0 AH = C0 A!1/2 AA!1/2 C = I y H0 BH = C0 A!1/2 BA!1/2 C = D donde la matriz D diagonal contiene los valores propios de la matriz A!1/2 BA!1/2 .

56

CAPTULO 2. LGEBRA MATRICIAL

2.4.5

Descomposicin en valores singulares

Para matrices rectangulares generales puede conseguirse una descomposicin similar a la descomposicin espectral de una matriz simtrica. Como en el caso de matrices cuadradas y simtricas, toda matriz rectangular A de dimensiones (n p) y de rango r puede expresarse como producto de tres matrices, dos con vectores ortogonales y una diagonal. La descomposicin es
0 A = U1 D1/2 V1 0 donde U1 es (n r), D es (r r) y V1 es (r p). La matriz diagonal D1/2 contiene las races cuadradas de los valores propios no nulos de las matrices A A0 o A0 A, que son positivos. Estos trminos diagonales de D se denominan los valores singulares de la matriz A. La matriz U1 contiene en columnas los vectores propios unidos a valores propios no nulos de A A0 y V1 contiene en columnas los vectores propios unidos a valores propios no nulos de A0 A. Las columnas de U1 son ortogonales entre s y tambin lo sern las de V1 . Los elementos diagonales de D1/2 se denominan los valores singulares de la matriz A.

2.4.6

(*)Diagonalizacin de Matrices generales

Sea A una matriz cuadrada de orden n. Esta matriz es diagonalizable si, y slo si, sus vectores propios son linealmente independientes. En efecto, supongamos que los vectores propios, u1 , . . . , un , son linealmente independientes y forman una base en <n . Podemos escribir A [u1 , . . . , un ] = ["1 u1 , . . . , "n un ] . donde "1 , . . . "n son los valores propios que pueden no ser distintos. En particular, algunos de estos valores propios pueden ser nulos. Esta ecuacin puede escribirse, llamando D a la matriz diagonal con trminos "i , como AU = UD Como la matriz U es no singular si los vectores propios son linealmente independientes, multiplicando por la inversa se obtiene U!1 A U = D y hemos diagonalizado la matriz A. Podemos tambin escribir A = U D U!1 . (2.8)

Hemos comprobado que una matriz es diagonalizable si tiene n vectores propios linealmente independientes. Entonces puede escribirse como (2.8), donde U contienen los vectores propios y la matriz diagonal, D, los valores propios. Se demuestra que una condicin suciente para que una matriz sea diagonalizable es que tenga valores propios distintos.

2.4. VECTORES Y VALORES PROPIOS

57

Consideremos ahora el caso general de P una matriz cuadrada de orden n con p valores propios "1 , . . . "p , con multiplicidad mi , p i=1 mi = n. Puede demostrarse que la condicin para que A tenga n vectores propios linealmente independientes es que el rango de la matriz (A ! !i I) = n! mi , y que esta condicin se cumple si la matriz tiene valores propios distintos. En efecto, los valores propios se obtienen de |A ! "I| = 0, lo que implica que, si todos son distintos, el rango de la matriz (A ! !i I) es n ! 1.

2.4.7

(*)Inversas Generalizadas

Se denomina matriz inversa generalizada de una matriz rectangular Anp a una matriz A! de dimensiones p n que verica: AA! A = A. En general existen muchas matrices que verican esta condicin. Si adems imponemos las condiciones: A! AA! = simtrica A! A = simtrica AA! = simtrica entonces A! es nica y se denomina la matriz inversa generalizada Moore-Penrose (MP) de A. Si n > p y A tiene rango completo, rg (A) = p, la matriz inversa MP es: A ! = (A 0 A )
!1

A0 .

(2.9)

El lector puede comprobar que esta matriz verica las propiedades anteriores. Si p > n y rg (A) = n, esta matriz es: A! = A0 (AA0 )
!1

.
!1

Si A no tiene rango completo esta expresin no es vlida ya que ni (A0 A)!1 ni (AA0 ) existen. La inversa MP se construye a partir de la descomposicin espectral de la matriz A0 A (supuesto n > p). Si "1 , . . . "r , r < p, son los valores propios no nulos de A0 A y u1 , . . . ur sus vectores propios asociados podemos escribir: A0 A = Ur Dr U0r , donde Ur es rectangular p r con los vectores ui en columnas y Dr es diagonal r r e incluye los valores propios no nulos. Entonces es fcil comprobar que
1 0 0 A! = Ur D! r Ur A

que es la generalizacin de (2.9) para matrices de rango no completo.

Ejercicios 2.4
2.4.1 Calcular los vectores y valores propios de la matriz A = grcamente.

2 1 1 2

y representarlos

58

CAPTULO 2. LGEBRA MATRICIAL

2.4.2 Escribir la representacin espectral de la matriz A de 2.4.1 2.4.3 Calcular los vectores y valores propios de la matriz A!1 y su representacin espectral. 2.4.4 Demostrar que 0 es un valor propio de una matriz A si y solo si esta matriz es singular. 2.4.5 Demostrar que los valores ! propios # de una matriz son iguales a los de su transpuesta. 1 1 2 2.4.6 Dada la matriz A = " 1 0 2 $ calcular la matriz inversa generalizada. 1 1 2 ! # 1 0 2.4.7 Calcular la descomposicin en valores singulares de la matriz A = " 0 1 $ . 1 0 0 0 !1 0 2.4.8 Demostrar que |A + vv | = |A| (1 + v A v ), donde A es una matriz cuadrada no singular y v un vector. Para ello utilizar que siQ llamamos "1 al valor propio no nulo de la !1 0 !1 0 matriz de rango uno A vv , |(I + A vv )| = (1 + "i ) = 1 + "1 = 1 + tr(v0 A!1 v). 2.4.5 Calcular la decomposicin de Cholesky de la matriz denida positiva A0 A, donde A es la matriz del ejercicio 2.4.6

2.5
2.5.1

(*)PROYECCIN ORTOGONAL
Matrices Idempotentes

En un modelo lineal la estimacin por mnimos cuadrados equivale a la proyeccin ortogonal del vector de datos sobre el espacio generado por las variables explicativas. La proyeccin ortogonal tiene una importancia capital en los mtodos de estimacin lineal y se realiza multiplicando el vector que se desea proyectar por una matriz idempotente. Vamos a denir formalmente estas matrices. Llamaremos matriz idempotente1 a una matriz cuadrada, simtrica, y que verica la propiedad: AA = A = A0 A. Es inmediato comprobar que una matriz idempotente o bien es singular (|A| = 0), con rango r menor que el orden n de la matriz, o bien es la matriz identidad. En efecto, como A es idempotente: AA = A si |A| 6= 0, existir la matriz inversa A!1 , y multiplicando por A!1 A!1 AA = A = I.
Una matriz idempotente puede no ser simtrica, pero todas las matrices idempotentes que utilicemos lo sern; por lo tanto, en adelante idempotente ser simtrica e idempotente, sin que detallemos que es simtrica.
1

2.5. (*)PROYECCIN ORTOGONAL

59

Por tanto, una matriz idempotente que no es la matriz I ser singular. Comprobaremos que las races caractersticas de una matriz idempotente son cero o la unidad. Llamemos " a sus races caractersticas y u a sus vectores caractersticos. Entonces: Au = "u, multiplicando por A, el primer miembro es: AAu = Au ="u y el segundo: "Au ="2 u, es decir, "u = "2 u de donde resulta: "2 ! " u = 0.

Para que " sea una raz caracterstica el vector u debe ser distinto de cero, entonces: "2 ! " = " (" ! 1) = 0 que tiene como soluciones " = 1 " = 0. Por lo tanto, si se diagonaliza una matriz idempotente lo que siempre puede hacerse al ser simtrica obtendremos en la diagonal principal un nmero de unos igual al rango de la matriz y el resto de los elementos sern cero. Una conclusin inmediata de este resultado es que una matriz idempotente A es siempre semidenida positiva. En efecto: x0 Ax = x0 A0 Ax = (Ax)0 Ax ) 0. Finalmente, si A es idempotente tambin lo es I ! A ya que: (I ! A)(I ! A) = I ! A ! A + AA = I ! A De las propiedades anteriores se deduce que si A es una matriz idempotente simtrica, su rango es igual a su traza.

2.5.2

Proyeccin Ortogonal

Dado un vector y de n componentes diremos que v es la proyeccin ortogonal de y sobre un subespacio Ep contenido en <n y de dimensin p, p < n si: 1. y = v + w con v $Ep

60 2. v0 w = 0 para todo v $Ep .

CAPTULO 2. LGEBRA MATRICIAL

Esta denicin indica que y puede descomponerse como suma de dos vectores perpendiculares: el primero, v, es la proyeccin ortogonal de y sobre Ep y pertenece, por tanto, a Ep ; el segundo, w, es ortogonal a todos los vectores de Ep (y por tanto a Ep ), y pertenece, en consecuencia, al espacio En!p , complemento ortogonal al Ep . Es fcil demostrar que esta descomposicin es nica. La gura 2.5 ilustra esta situacin.

y v E

Figura 2.5: Proyeccin ortogonal del vector y sobre el plano E Como ilustracin, sea Ep un espacio de dimensin uno engendrado por el vector x. Entonces la proyeccin del vector y sobre la direccin del vector x ser: v = cx donde c es un escalar. Para determinar c, impondremos la condicin de que la diferencia w = y ! v debe ser ortogonal a v, y por tanto a x: x0 (y ! v) = 0, es decir, x0 y = x0 xc, que implica: c = (x0 x)
!1

x0 y.

Sustituyendo este valor de c en la expresin de v, la proyeccin ser: v = x(x0 x)!1 x0 y = Ay

2.5. (*)PROYECCIN ORTOGONAL

61

es decir, la proyeccin de un vector y sobre otro x se obtiene multiplicando el vector por la matriz A = x(x0 x)!1 x0 . Esta matriz A, es cuadrada (n n), idempotente y de rango igual a la dimensin del espacio sobre el que proyectamos, que es, en este caso, uno. Comprobemos que es idempotente: !1 !1 !1 x (x0 x) x0 x (x0 x) x0 = x (x0 x) x0 , y que es de rango uno: rg (A) = tr(A) = tr (x x)
0 !1

x x = tr(1) = 1

Observemos que en el caso particular en que el vector x tiene norma unitaria, (x0 x) = 1, y la expresin del vector proyeccin es v = xx0 y que tiene una interpretacin inmediata: el vector proyeccin estar en la direccin de x (lo que implica es de la forma cx) y su norma viene dada por la longitud de la proyeccin que es x0 y, (ya que x tiene norma unitaria). A continuacin generalizamos estos resultados a proyecciones ms generales. Teorema 2.1 Sea y $<n y sea X una matriz (n p) cuyas columnas son una base de un cierto subespacio Ep . Entonces la proyeccin del vector y sobre el espacio Ep es Ay, donde la matriz cuadrada A es simtrica, idempotente, de rango p, y tal que A = X(X0 X)!1 X0 . Demostracin La proyeccin de y sobre un subespacio debe ser siempre del tipo v = Ay, donde A es idempotente. En efecto la proyeccin de v sobre dicho espacio, dada por Av, tendr que ser igual a v, ya que v pertenece al subespacio. Por tanto, si Av = v , resuta que: A(Ay) = Ay para todo vector y, lo que requiere A = A2 , es decir, la matriz proyeccin debe ser idempotente. Demostraremos ahora que la matriz idempotente A que proyecta sobre el espacio generado por las columnas de una matriz X, Ep , viene dada por: A = X(X0 X)!1 X0 . Probemos primero que A depende del subespacio Ep , pero no de la base elegida. En efecto, si consideramos otra base B generadora del subespacio dada por: B = XC donde C es (p p) y no singular, como (GP)!1 = P!1 G!1 para G y P matrices cuadradas no singulares, tendremos que: B(B0 B)!1 B0 = XC(C0 X0 XC)!1 C0 X0 = X(X0 X)!1 X0 = A

62

CAPTULO 2. LGEBRA MATRICIAL

por tanto, A no depende de la base escogida. A continuacin veremos que el vector v denido por: v = X(X0 X)!1 X0 y, verica las condiciones de una proyeccin. Demostraremos, en primer lugar, que v est contenido en Ep . Llamemos " = (X0 X)!1 X0 y a los coecientes de la proyeccin de y sobre el espacio de las columnas de X, que representaremos por x1 , ..., xp . Entonces v = X" = % 1 x1 + % 2 x2 + ... + % p xp , y al ser v una combinacin lineal de las columnas de X pertenece a Ep . Demostraremos ahora que y ! v es ortogonal a Ep . Todo vector de Ep puede expresarse como: u = #1 x1 + ... + #p xp = X# y por tanto, u0 (y ! v) = u0 (I ! X(X0 X)!1 X0 )y = #0 (X0 ! X0 X(X0 X)!1 X0 )y = 0 es decir, y ! v es ortogonal a cualquier vector de Ep , lo que demuestra el teorema. Teorema 2.2 La condicin necesaria y suciente para que v = Ay, donde A es una matriz cuadrada, sea la proyeccin ortogonal de y $ <n sobre un cierto espacio Ep , es que A sea idempotente (A = A0 , A2 = A) de rango p. Demostracin La condicin es necesaria: si A dene una proyeccin, segn el teorema anterior puede expresarse como A = X(X0 X)!1 X0 , siendo X una matriz que contiene, en columnas, una base del espacio, por lo que A es simtrica e idempotente. La condicin es suciente: supongamos que A es idempotente y hagamos y = Ay + (I ! A)y Vamos a demostrar que el vector (I ! A)y es ortogonal a todo vector que pertenezca a Ep . Sea Ac un vector cualquiera que pertenece a Ep . (Ac)0 (I ! A)y = c0 (A0 ! A)y = 0 por tanto, si A es idempotente, Ay es la proyeccin de y sobre el espacio generado por las columnas de A. Teorema 2.3 Si y $<n , v es su proyeccin sobre Ep y z es cualquier otro vector de Ep , se verica, llamando kyk a la norma del vector y: kyk2 = kvk2 + ky ! vk2 ky ! zk2 = kv ! zk2 + ky ! vk2 .

2.5. (*)PROYECCIN ORTOGONAL

63

Demostracin Estas expresiones representan el teorema de Pitgoras en un espacio general. Como, por denicin de proyeccin, v0 (y ! v) = 0, entonces v0 y = v0 v. Por otro lado: (y ! v)0 (y ! v) = y0 y ! v0 y ! y0 v + v0 v = y0 y ! v0 v, y0 y = v0 v + (y ! v)0 (y ! v) que es la primera igualdad. Para demostrar la segunda, partamos de la identidad y!z= y!v+v!z y multiplicando por el vector transpuesto y utilizando que y ! v debe ser ortogonal a v ! z, por serlo a todos los vectores de Ep , el teorema queda demostrado. Una consecuencia de este teorema es que podemos denir la proyeccin ortogonal de un vector y sobre un espacio Ep como aquel vector v de Ep tal que ky ! vk es mnimo. En este sentido el vector proyeccin es, el ms prximo al original. En efecto, como, para cualquier vector z del plano: ky ! zk ) ky ! vk el vector v, proyeccin ortogonal, minimiza las distancias entre el espacio Ep y el vector y. Teorema 2.4 Si y $ <n , el cuadrado de la norma de su proyeccin sobre un espacio Ep denido por las columnas de la matriz X vendr dado por y0 Ay, donde A es idempotente. Demostracin El vector proyectado ser Ay, donde A es idempotente, y su norma ser: (Ay)0 (Ay) = y0 Ay. que escribiremos

Teorema 2.5 Si y $ <n y proyectamos este vector sobre espacios ortogonales, E1 , ..., Eh , denidos por matrices de proyeccin , A1 , ...Ah , donde: n= se verica:
h X i=1

rg (Ai )

y0 y = y0 A1 y + y0 A2 y + ... + y0 Ahy.

Ejercicios 2.5
2.5.1 Calcule la proyeccin ortogonal del vector (1,1 3) sobre el espacio generado por las dos variables (1 ,1,1) y (0, 1,2). 2.5.2 Exprese al vector anterior como combinacin lineal de las dos variables. 2.5.3 Obtener el vector ortogonal al vector proyeccin. 2.5.4 Demuestre que el resultado anterior es equivalente a realizar la regresin simple entre la variable (1,1 3) y la variable (0, 1,2). 2.5.5 Demostrar, utilizando el Teorema 2.1, que para calcular los coecientes de regresin mltiple entre una variable y un conjunto de variables incorreladas basta con calcular los coecientes de las regresiones simples.

64

CAPTULO 2. LGEBRA MATRICIAL

2.6

(*)DERIVADAS MATRICIALES

Denicin 2.1 Dada un funcin f que depende de n variables, x1 , ..., xn , que pueden considerarse componentes de un vector x, la derivada de f respecto a x es un vector cuyos componentes son la derivada de f respecto a cada componente de x. Ejemplo 2.1 Si f = 5x1 + 2x2 + 3x3 # 5 &f =" 2 $ &x 3 !

Los siguientes resultados son consecuencia de la denicin Corolario 2.1 Si f = a0 x tendremos que: & (a0 x) =a &x Corolario 2.2 Si f = x0 Ax, donde A es cuadrada y simtrica: & (x0 Ax) = 2Ax &x Demostracin Resulta de aplicar la denicin anterior, como: x0 Ax = tendremos que: & (xAx) = 2a11 x1 + 2a12 x2 + ... + 2a1n xn = 2a01 x & x1 donde a01 es la primera la de la matriz. Por tanto: ! # 2a01 x 0 & & (xAx) % % 2a2 x & =% . & = 2Ax &x " . . $ 2a0n x Denicin 2.2 Dada un funcin f que depende de np variables, x11 , ..., xnp , que son los componentes de una matriz rectangular n p, X , la derivada de f respecto a X se dene como la matriz cuyos componentes son la derivada de f respecto a cada componente de X0 . La derivada es pues una matriz p n con las dimensiones de X0 .
n X i=1

aii x2 i +2

X
j>i

aij xi xj

2.6. (*)DERIVADAS MATRICIALES Los siguientes resultados se comprueban aplicando la denicin Corolario 2.3 Corolario 2.4 Si f = a0 Xb & (a0 Xb) = ba0 &X Denicin 2.3 Ejemplo 2.2 Corolario 2.5 Si f = a0 X0 Xb & (a0 X0 Xb) = (ab0 + ba0 )X0 &X

65

Denicin 2.4 Dado un vector y cuyos componentes son funciones fi de un vector de variables x0 = (x1 , ..., xn ), denimos la derivada de y respecto a x como la matriz cuyas columnas son las derivadas de los componentes fi respecto a x. Es decir, si: y0 = (f1 (x), ..., fn (x)) entonces: !
! f1 ! x1 ! fn ! x1

Corolario 2.6 Si y = Ax, donde A es una matriz cualquiera. & (Ax) = A0 &x

&y & f1 & fn % . = ,... , =" . . &x &x &x ! f1

... ...

! xn

! fn ! xn

& . . . $

Demostracin Para deducir este resultado de la denicin anterior, escribamos la matriz A como: # ! a01 % . & A=" . . $ a0n donde cada a01 es una la de la matriz. Entonces: ! con lo que: # a01 x % . & y = Ax = " . . $ 0 an x & fi & (a0i x) = = ai &x &x por tanto, segn lo anterior: &y = [a1 , . . . , an ] = A0 &x

66 Otras propiedades

CAPTULO 2. LGEBRA MATRICIAL

Puede deducirse, extendiendo las deniciones anteriores, que, si los elementos de la matriz cuadrada y no singular X son distintos: & ln |X| = (X0 )!1 &X & |X| b) = |X| (X0 )!1 &X BXC) c) ! tr(! = B0 C0 X a) adems, si X es simtrica: & tr (XB) = B0 &X & tr (X0 AXB) e) = BX0 A + B0 X0 A0 & X ! tr(BX!1 ) f) = ! X!1 BX!1 !X d)

El lector interesado puede encontrar las demostraciones de estos resultados en Bibby y Toutenterg (1977), Graybill (1983) y Pollock (1979).

& tr(XB) = B + B0 !diag (B) &X & |X| = |X| 2X!1 ! diag X!1 &X

Ejercicios 2.6
2.6.1 Calcular la derivada con respecto al vector x =(x1 , x2 )0 de las funciones siguientes a) f1 (x) = 2x1 + 3x2 , b) f2 (x) = 4x2 1 ! 3x1 x2 , 3 2 2 3 c) f3 (x) = 3x4 1 x2 + 2x1 x2 ! 7x1 x2 + 6 2.6.2 Calcular la derivada con respecto al vector x =(x1 , x2 )0 de las funciones vectoriales siguientes, construidas con la notacin de 2.6.1 a)f1 (x) = (f1 (x), f2 (x), f3 (x))0 , 0 b)f2 (x) = (2f1 (x) + 5f2 (x), !6f3 (x)) , & ln |X| x1 x2 0 4 2.6.3 Si x =(x1 , x2 , x3 , x4 ) y X = , comprobar que = x1 x4x y !x2 x3 x3 x4 & x1 & ln |X| utilizar este resultado para conrmar la expresin de . & X & |X| x4 !x3 = 2.6.4 En el ejercicio anterior comprobar que . Utilizar esta expre!x2 x1 &X sin para vericar la ecuacin dada de la derivada del determinante de unamatriz cuadrada. & |X| x1 x2 x3 !2x2 0 , comprobar que , 2.6.5 Si x =(x1 , x2 , x3 ) y X = = x2 x3 !2x2 x1 &X Utilizar este resultado para conrmar la expresin general de la derivada del determinante de una matriz cuadrada.

Captulo 3 DESCRIPCIN DE DATOS MULTIVARIANTES


3.1 INTRODUCCIN

En este captulo y en el siguiente vamos a estudiar como describir un conjunto de datos multivariantes. Supondremos que hemos observado un conjunto de variables en un conjunto de elementos de una poblacin y en este captulo presentaremos mtodos para resumir los valores de las variables y describir su estructura de dependencia. En el captulo siguiente completaremos el anlisis descriptivo analizando como representar los datos grcamente y decidir respecto a posibles transformaciones de las variables originales que conduzcan a una descripcin ms simple. Tambin comentaremos el problema de limpiar los datos de valores atpicos, que son observaciones debidas a errores de medida o otras causas de heterogeneidad. El anlisis descriptivo que presentamos en este captulo debe siempre aplicarse como primer paso para comprender la estructura de los datos y extraer la informacin que contienen, antes de pasar a los mtodos ms complejos de los captulos siguientes. Las herramientas simples que describimos en estos dos captulos pueden, en ocasiones, resolver el problema que ha motivado la recogida de los datos. En particular, cuando el inters se centra en la relacin entre las variables o en la comparacin de dos conjuntos de datos, los mtodos descriptivos pueden ser de gran ayuda antes de emprender estudios ms complejos.

3.2
3.2.1

DATOS MULTIVARIANTES
Tipos de variables

La informacin de partida para los mtodos estudiados en este libro puede ser de varios tipos. La ms habitual es una tabla donde aparecen los valores de p variables observadas sobre n elementos. Las variables pueden ser cuantitativas, cuando su valor se exprese numricamente, como la edad de una persona, su estatura o su renta, o cualitativas, cuando su valor sea un atributo o categora, como el gnero, el color de los ojos o el municipio de nacimiento. Las variables cuantitativas pueden a su vez clasicarse en continuas o de intervalo, cuando pueden tomar cualquier valor real en un intervalo, como la estatura, o discretas, cuando slo toman 67

68

CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES CO A V C N x1 1 0 0 0 x2 0 1 0 0 x3 0 0 1 0

Tabla 3.1: Codicacin de variables categricas valores enteros, como el nmero de hermanos. Las variables cualitativas pueden clasicarse en binarias, cuando toman nicamente dos valores posibles, como el gnero (mujer, hombre) o generales, cuando toman muchos valores posibles, como el municipio de residencia. Supondremos en adelante que las variables binarias se han codicado como numricas (Por ejemplo, la variable gnero se convierte en numrica asignando el cero al varn y el uno a mujer). Las variables cualitativas pueden tambin codicarse numricamente, pero requieren un tratamiento distinto. Si los valores de las categoras no tienen relacin entre s, la forma ms til de codicarlas es convirtindolas en variables binarias. Por ejemplo, supongamos la variable color de los ojos, CO, y para simplicar supongamos que las categoras posibles son azules (A), verdes (V), castaos (C) y negros (N). Tenemos p = 4 categoras que podemos representar con p ! 1 = 3 variables binarias denidas como: a) x1 = 1 si CO=A, x1 = 0 en otro caso. b) x2 = 1 si CO=V, x2 = 0 en otro caso. c) x3 = 1 si CO=C, x3 = 0 en otro caso. La tabla 3.1 presenta la codicacin de la variable atributo CO en las tres variables binarias cuantitativas, x1 , x2 , x3 Si el nmero de clases posibles de una variable cualitativa es muy grande este procedimiento siempre puede aplicarse pero puede lgicamente dar lugar a muchas variables. Conviene entonces ver si podemos agrupar las clases o categoras para evitar tener variables que casi siempre toman el mismo valor (cero si la categora es poco frecuente o uno si lo es mucho). Naturalmente la variable CO podra tambin haberse codicado dando valores numricos arbitrarios a las categoras, por ejemplo, A=1, V=2, C=3, N=4, pero esta codicacin tiene el inconveniente de sugerir una graduacin de valores que puede no existir. Sin embargo, cuando los atributos pueden interpretarse en funcin de los valores de una variable contina tiene ms sentido codicarla con nmeros que indiquen el orden de las categoras. Por ejemplo, si tenemos empresas pequeas, medianas y grandes, en funcin del nmero de trabajadores, tienen sentido codicarlas con los nmeros 1, 2, y 3, aunque conviene siempre recordar que estos nmeros slo tienen un sentido de orden.

3.2.2

La matriz de datos

Supondremos en adelante que hemos observado p variables numricas en un conjunto de n elementos. Cada una de estas p variables se denomina una variable escalar o univariante y el conjunto de las p variables forman una variable vectorial o multivariante. Los valores de las p variables escalares en cada uno de los n elementos pueden representarse en una matriz, X, de dimensiones (n p), que llamaremos matriz de datos. Denotaremos por xij

3.2. DATOS MULTIVARIANTES

69

al elemento genrico de esta matriz, que representa el valor de la variable escalar j sobre el individuo i. Es decir: datos xij donde i = 1, ..., n representa el individuo; j = 1, ..., p representa la variable Algunos ejemplos de datos que se utilizan en el anlisis multivariante son: 1. En 100 estudiantes de una universidad medimos la edad, el gnero (1 mujer, 0 hombre), la calicacin media, el municipio de residencia (que se codica en 4 categoras en funcin del tamao) y el curso ms alto en que se encuentra matriculado. Los datos iniciales se representan en una tabla de 100 las, cada una de ellas correspondiente a los datos de un estudiante. La tabla tendr 5 columnas, cada una de ellas conteniendo los valores de una de las 5 variables denidas. De estas 5 variables 3 son cuantitativas, una binaria (el gnero) y otra cualitativa general (municipio de residencia, que tomar los valores 1, 2, 3, y 4). Alternativamente podramos codicar el municipio de residencia con tres variables binarias, y entonces, la matriz de datos tendr n =100 las y p = 7 columnas correspondientes a las tres cuantitativas, el gnero, y las tres variables binarias adicionales para describir el tamao del municipio de residencia. 2. En cada una de las 138 empresas de una zona medimos el nmero de trabajadores, la facturacin, el sector industrial y la cantidad recibida en ayudas ociales. Si clasicamos el sector en ocho clases con siete variables binarias la matriz de datos ser de dimensiones 138 10 con tres variables cuantitativas y siete binarias (que describen el sector industrial). 3. En 400 puntos de una ciudad instalamos controles que proporcionan cada hora las medidas de 30 variables ambientales y de contaminacin atmosfrica en dicho punto. Cada hora tendremos una matriz de datos con 400 las, los puntos de observacin, y 30 columnas, las 30 variables observadas. La matriz de datos, X, puede representarse de dos formas distintas. Por las, como: ! x11 x12 . . . x1p x21 . . . . . . x2p . . . xn1 . . . . . . xnp # ! x01 . . . . . . x0n # & & & $

donde cada variable x0i es un vector la, p 1, que representa los valores de las p variables sobre el individuo i. Alternativamente, podemos representar la matriz X por columnas: X = x(1) . . . x(p)

% % X=% "

& % & % &=% $ "

donde ahora cada variable x(j ) es un vector columna, n 1, que representa la variable escalar xj medida en los n elementos de la poblacin. Llamaremos x = (x1 , ..., xp )0 a la variable multivariante formada por las p variables escalares que toma los valores particulares x1 , ..., xn , en los n elementos observados.

70

CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES

3.2.3

Anlisis univariante

Describir datos multivariantes supone estudiar cada variable aisladamente y adems las relaciones entre ellas. Supondremos que el lector est familiarizado con el anlisis descriptivo de una variable, y aqu expondremos nicamente las frmulas que utilizaremos en otras partes del libro. El estudio univariante de la variable escalar xj implica calcular su media : 1X xj = xij n i=1 que para una variable binaria es la frecuencia relativa de aparicin del atributo y para una numrica es el centro de gravedad o geomtrico de los datos. Se calcula una medida de variabilidad con relacin a la media, promediando las desviaciones entre los datos y su media. Si denimos las desviaciones mediante dij = (xij ! xj )2 , donde el cuadrado se toma para prescindir del signo, se dene la desviacin tpica por: r Pn r Pn 2 d ij i=1 i=1 (xij ! xj ) sj = = (3.1) n n Pn y su cuadrado es la varianza, s2 j = i=1 dij /n . Para comparar la variabilidad de distintas variables conviene construir medidas de variabilidad relativa que no dependan de las unidades de medida. Una de estas medidas es el coeciente de variacin s s2 j CVj = x2 j donde de nuevo se toman los cuadrados para prescindir del signo y suponemos que xj es distinto de cero. En tercer lugar, conviene calcular los coecientes de asimetra, que miden la simetra de los datos respecto a su centro, y que se calculan como: P 1 (xij ! xj )3 Aj = . n s3 j Este coeciente es cero para una variable simtrica. Cuando el valor absoluto del coeciente es aproximadamente mayor que uno podemos concluir que los datos tienen una distribucin claramente asimtrica. Una caracterstica importante de un conjunto de datos es su homogeneidad. Si las desviaciones dij son muy distintas, esto sugiere que hay datos que se separan mucho de la media y que tenemos por tanto alta heterogeneidad. Una posible medida de homogeneidad es la varianza de las dij , dada por: 1X 2 (dij ! s2 j) n i=1 ya que, segn (3.1), la media de las desviaciones dj = s2 . Se calcula una medida adimensional anloga al coeciente de variacin dividiendo la varianza de las desviaciones por el cuadrado
n n

3.2. DATOS MULTIVARIANTES de la media, s4 , con lo que tenemos el coeciente de homogeneidad, que puede escribirse Pn 1 2 2 i=1 (dij ! sj ) n Hj = . s4 j

71

Este coe siempre o igual a cero. Desarrollando el cuadrado del numerador P ciente es Pn mayor P n 2 2 2 4 2 como n ( d ! s ) = d + ns ! 2 s j j j i=1 ij i=1 ij i=1 dij este coeciente puede escribirse tambin como: P 1 (xij ! xj )4 Hj = ! 1 = Kj ! 1. n s4 j El primer miembro de esta expresin, Kj , es una forma alternativa de medir la homogeneidad y se conoce como coeciente de kurtosis. Como Hj ) 0, el coeciente de kurtosis ser igual o mayor que uno. Ambos coecientes miden la relacin entre la variabilidad de las desviaciones y la desviacin media. Es fcil comprobar que : 1. Si hay unos pocos datos atpicos muy alejados del resto, la variabilidad de las desviaciones ser grande, debido a estos valores y los coecientes de kurtosis o de homogeneidad sern altos. 2. Si los datos se separan en dos mitades correspondientes a dos distribuciones muy alejadas entre s, es decir, tenemos dos conjuntos separados de datos distintos, la media de los datos estar equidistante de los dos grupos de datos y las desviaciones de todos los datos sern similares, con lo que el coeciente Hj ser muy pequeo (cero en el caso extremo en que la mitad de los datos son iguales a cualquier nmero, !a , y la otra mitad igual a a). Un objetivo central de la descripcin de datos es decidir si los datos son una muestra homognea de una poblacin o corresponden a una mezcla de poblaciones distintas que deben estudiarse separadamente. Como veremos en el captulo siguiente, un caso especialmente importante de heterogeneidad es la presencia de una pequea proporcin de observaciones atpicas (outliers), que corresponden a datos heterogneos con el resto. La deteccin de estas observaciones es fundamental para una correcta descripcin de la mayora de los datos, ya que. como veremos, estos valores extremos distorsionan los valores descriptivos del conjunto. El coeciente de kurtosis puede ayudar en este objetivo, ya que tomar un valor alto, mayor que 7 u 8. Por ejemplo, si contaminamos datos que provienen de una distribucin normal con un 1% de atpicos generados por otra distribucin normal con la misma media, pero una varianza 20 veces mayor, el coeciente de kurtosis ser alrededor de 10. Siempre que observemos un valor alto de la kurtosis para una variable esto implica heterogeneidad por uno pocos atpicos muy alejados del resto. Aparece un tipo distinto de heterogeneidad cuando tenemos una mezcla de dos poblaciones, de manera que una proporcin importante de los datos, entre el 25% y el 50%, son heterogeneos con el resto. En este caso, el coeciente de kurtosis es pequeo, menor de dos, y es fcil comprobar que si mezclamos a partes iguales dos distribuciones muy distintas, la kurtosis de la distribucin resultante tiende a uno, el valor mnimo del coeciente, cuando aumenta la separacin entre las poblaciones La presencia posible de datos atpicos recomienda calcular junto a los estadsticos tradicionales medidas robustas de centralizacin y dispersin de los datos. Para centralizacin

72

CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES

conviene calcular la mediana, que es el valor que se encuentra en la posicin central al ordenar los datos. Para la dispersin, la MEDA, que es la mediana de las desviaciones absolutas respecto a la mediana. Finalmente siempre conviene representar grcamente las variables continuas mediante un histograma o un diagrama de caja (vase por ejemplo Pea, 2001). En el anlisis inicial de los datos conviene siempre calcular la media y la mediana de cada variable. Si ambas son similares, la media es un buen indicador del centro de los datos. Sin embargo, si dieren mucho, la media puede no ser una buena medida del centro de los datos debido a: (1) una distribucin asimtrica, (2) la presencia de valores atpicos (que afectaran mucho a la media y poco a la mediana) (3) heterogeneidad en los datos. A continuacin pasaremos al anlisis multivariante de las observaciones. En este captulo presentaremos como obtener medidas conjuntas de centralizacin y dispersin para el conjunto de variables y medidas de dependencia lineal entre pares de variables y entre todas ellas.

3.3

MEDIDAS DE CENTRALIZACIN: EL VECTOR DE MEDIAS

La medida de centralizacin ms utilizada para describir datos multivariantes es el vector de medias, que es un vector de dimensin p cuyos componentes son las medias de cada una de las p variables. Puede calcularse, como el caso escalar, promediando las medidas de cada elemento, que ahora son vectores: 1 n
n X i=1

x=

Su expresin a partir de la matriz de datos es : x=

# x1 % . & xi = " . . $ xp

(3.2)

1 0 (3.3) X 1, n donde 1 representar siempre un vector de unos de la dimensin adecuada. En efecto, escribiendo la matriz X en trminos de sus vectores la, que son vectores de dimensin 1 p que contienen los valores de las p variables en cada elemento de la muestra, estos vectores son las columnas de X0 , y tendremos que: # 1 1 % . & x = [x1 . . . xn ] " . . $, n 1 !

(3.4)

que conduce a (3.2). El vector de medias se encuentra en el centro de los datos, en el sentido de hacer cero la suma de desviaciones: n X (xi ! x) = 0.
i=1

3.3. MEDIDAS DE CENTRALIZACIN: EL VECTOR DE MEDIAS

73

P ya que esta suma es n i=1 xi ! nx, y aplicando la denicin (3.2) es inmediato que esta suma es cero. Las medidas de centralizacin escalares basadas en el orden de las observaciones no pueden generalizarse fcilmente al caso multivariante. Por ejemplo, podemos calcular el vector de medianas, pero este punto no tiene necesariamente una situacin como centro de los datos. Esta dicultad proviene de la falta de un orden natural de los datos multivariantes. Ejemplo 3.1 La tabla A.5 del Apndice de Datos, MEDIFIS, presenta ocho variables fsicas tomadas en un grupo de 27 estudiantes. Las variables son sexo (sex con 0 para mujer, 1 para varn), estatura (est, en cm.), peso (pes, en kgr.), longitud de pie (lpie, en cm), longitud de brazo (lbra, en cm), anchura de la espalda (aes, en cm), dimetro de crneo (dcr, en cm) y longitud entre la rodilla y el tobillo (lrt, en cm). La tabla 3.2 presenta las medias y desviaciones tpicas de las variables, as como otras medidas de la distribucin univariante de cada variable. sex est pes lpie lbr aes dcr lrt Medias .44 168.8 63.9 39.0 73.5 45.9 57.2 43.1 D. Tpicas .53 10.0 12.6 2.8 4.9 3.9 1.8 3.1 Coef. asimetra .22 .15 .17 .27 .37 -.22 .16 .56 Coef. kurtosis 1.06 1.8 2.1 1.9 2.1 2.4 2.0 3.4 Coef. variacin 1.2 .06 .20 .07 .07 .09 .03 .07 Tabla 3.2: Anlisis descriptivo de las medidas fsicas En la variable binaria p sexo la media es la proporcin de unos (hombres) en los datos, la desviacin tpica es p(1 ! p), donde p es la media. El lector puede comprobar que para variables binarias el coeciente de kurtosis es p3 + (1 ! p)3 p(1 ! p) y en este caso, como p = .44 el coeciente de kurtosis es 1.06. Para las variables continuas las medias describen los valores centrales. Si miramos los coecientes de variacin se observa que en las medidas de longitudes, como la estatura, la longitud del pie y las extremidades, que vienen determinadas ms por la herencia gentica que por nuestros hbitos, la variabilidad relativa es del orden del 7% . El dimetro del crneo es mucho ms constante, con una variabilidad relativa de menos de la mitad, el 3%. La variabilidad relativa de las variables que dependen ms de nuestros hbitos, como el peso, es mucho mayor, del 20%. Las distribuciones son aproximadamente simtricas, a juzgar por los bajos valores de los coecientes de asimetra. Los coecientes de kurtosis son bajos, menores o iguales a dos para tres de las variables, lo que puede indicar la presencia de dos poblaciones mezcladas, como veremos en la seccin 3.6. Ninguna variable tiene alta kurtosis, por lo que podemos descartar la presencia de unos pocos valores atpicos grandes. La tabla 3.3 presenta dos medidas robustas, las mediana (valor central de los datos) y la MEDA o mediana de las desviacin absolutas para cada variable. Estas medidas conrman los comentarios anteriores.

74

CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES est pes lpie lbr aes dcr lrt medianas 168 65 39 73 46 57 43 medas 8.51 10.50 2.38 3.96 3.26 1.52 2.39 meda/mediana .05 .16 .05 .05 .07 .03 .06 Tabla 3.3: Anlisis descriptivo robusto de las medidas fsicas

Se observa que las medianas son muy similares a las medias y las medas a las desviaciones tpicas, lo que sugiere falta de valores extremos. Los coecientes de variacin robustos, calculados como ratio entre la meda y la mediana son tambin bsicamente similares a los anteriores. Hay que sealar que, en general, la meda es ms pequea que la desviacin tpica, y que, por tanto, estos coecientes de variacin sern ms pequeos que los originales. Lo importante es que la estructura es similar entre las variables. La gura 3.1 muestra el histograma de la variable estatura donde se aprecia que los datos parecen ser la mezcla de dos distribuciones. Esto es esperable, ya que tenemos juntos hombres y mujeres.

Figura 3.1: Histograma de las estaturas donde se observa una distribucin mezclada

3.4

LA MATRIZ DE VARIANZAS Y COVARIANZAS

Como hemos comentado, para variables escalares la variabilidad respecto a la media se mide habitualmente por la varianza, o su raz cuadrada, la desviacin tpica. La relacin lineal entre dos variables se mide por la covarianza. La covarianza entre dos variables (xj , xk ) se

3.4. LA MATRIZ DE VARIANZAS Y COVARIANZAS calcula con: sjk 1X = (xij ! xj )(xik ! xk ) n i=1
n

75

y mide su dependencia lineal. Esta informacin para una variable multivariante puede presentarse de forma compacta en la matriz de varianzas y covarianzas . Denimos esta matriz como: 1X (xi ! x)(xi ! x)0 n i=1
n

S=

(3.5)

que es una matriz cuadrada y simtrica que contiene en la diagonal las varianzas y fuera de la diagonal las covarianzas entre las variables. En efecto, al multiplicar los vectores : ! # ! # xi1 ! x1 (xi1 ! x1 )2 . . . (xi1 ! x1 )(xip ! xp ) % & % & . . . . . . " $ [xi1 ! x1 , . . . , xip ! xp ] = " $ . . . 2 (xip ! xp )(xi1 ! x1 ) . . . (xip ! xp ) xip ! xp

se obtiene la matriz de cuadrados y productos cruzados de las p variables en el elemento i. Al sumar para todos los elementos y dividir por n se obtienen las varianzas y covarianzas entre las variables. La matriz de varianzas y covarianzas, que llamaremos para simplicar matriz de covarianzas, es la matriz simtrica de orden p con forma: # ... s1p s2 1 & % . . . S=" . . . $. sp1 . . . s2 p !

3.4.1

Clculo a partir de la matriz de datos centrados

e , que La matriz S puede obtenerse directamente a partir de la matriz de datos centrados X se dene como la matriz resultado de restar a cada dato su media: Sustituyendo el vector de medias por su expresin (3.3): e = X ! 1 110 X = PX, X n P=I! 1 0 11 n e = X ! 1x0 . X

(3.6)

donde la matriz cuadrada P est denida por

76

CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES

y es simtrica e idempotente (compruebe el lector que PP = P). La matriz P tiene rango n ! 1 (es ortogonal al espacio denido por el vector 1, ya que P1 = 0) y proyecta los datos ortogonalmente al espacio denido por el vector constante (con todas las coordenadas iguales). Entonces la matriz S puede escribirse: 1 e0 e 1 X X = X0 PX. n n

S=

(3.7)

Algunos autores denen la matriz de covarianzas dividiendo por n ! 1 en lugar de n para tener un estimador insesgado de la matriz de la poblacin. Este divisor aparece, como en el caso univariante, porque para calcular la variabilidad no tenemos n desviaciones independientes sino solamente n ! 1. En efecto, los n vectores de desviaciones (xi ! x) estn ligados por la ecuacin
n X (xi ! x) = 0 i=1

y slo podemos calcular n ! 1 desviaciones independientes. Si dividimos la suma por ese nmero se obtiene una estimacin insesgada de la varianza. En este libro llamaremos matriz b al estimador insesgado dado por de varianzas corregida, S Ejemplo 3.2 La tabla A.7 del apndice de datos ACCIONES presenta tres medidas de rentabilidad de 34 acciones en bolsa durante un perodo de tiempo. La primera, x1 es la rentabilidad efectiva por dividendos (dividendos repartidos por accin divididos por precio de la accin), x2 es la proporcin de benecios que va a dividendos (benecios repartidos en dividendos sobre benecios totales) y x3 es el cociente entre precio por accin y benecios. La tabla 3.4 presenta las medidas descriptivas de las tres variables. Medias D. Tpicas Coef. asimetra Coef. kurtosis x1 (rentab.) x2 (benef.) x3 (precio) 9.421 69.53 9.097 5.394 24.00 4.750 0.37 0.05 2.71 1.38 1.40 12.44 b= S 1 e0 e XX n!1

Tabla 3.4: Anlisis descriptivo de la rentabilidad de las acciones Las medidas de asimetra y kurtosis indican un alejamiento de la distribucin normal para las tres variables: las dos primeras tienen valores muy bajos de la kurtosis, lo que indica alta heterogeneidad, posiblemente por la presencia de dos grupos de datos distintos, y la tercera tiene alta kurtosis, lo que sugiere la presencia de valores atpicos. Estas caractersticas son muy claras en los histogramas de las variables. La primera variable, rentabilidad efectiva por dividendos, x1 , muestra dos grupos de acciones con comportamiento distinto. El histograma de la segunda variable, x2 , muestra tambin dos grupos

3.4. LA MATRIZ DE VARIANZAS Y COVARIANZAS

77

de acciones. Finalmente, la distribucin de la tercera variable es muy asimtrica, con un valor atpico muy destacado. La evidencia disponible indica que las acciones pueden probablemente dividirse en dos grupos ms homogneos. Sin embargo, vamos a ilustrar el anlisis de todos los datos.

Histograma de la rentabilidad por dividendos.

Figura 3.2: Histograma de la proporcin de benecios que va a dividendos

78

CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES

Figura 3.3: Histograma del precio por accin con relacin a los benecios (per) La matriz de varianzas y covarianzas de estas tres variables se presenta en la tabla 3.5 X1 X2 X3 29.1 100.4 -15.7 100.4 576 -18.5 -15.7 -18.5 22.6 Tabla 3.5: Matriz de covarianzas de las acciones Los elementos diagonales de esta matriz son los cuadrados de las desviaciones tpicas de la tabla 3.4. Como las dimensiones de las variables son distintas, no tiene sentido calcular medidas promedio. Los histogramas de las tres variables han mostrado una clara falta de normalidad. Una posibilidad, que estudiaremos con ms detalle en el captulo siguiente, es transformar las variables para facilitar su interpretacin. Tomando logaritmos, la matriz de covarianzas de las variables transformadas, se indica en la tabla 3.6 logx1 .35 .15 -.19 logx2 .15 .13 -.03 logx3 -.19 -.03 .16

Tabla 3.6: Matriz de covarianzas de las acciones Se observa que los logaritmos modican mucho los resultados. Los datos ahora son ms homogneos y la variable de mayor varianza pasa a ser la primera, el logaritmo de la rentabilidad efectiva, mientras que la menor es la segunda, el logaritmo de la proporcin de benecios que va a dividendos. La relacin entre el logaritmo del ratio precio/benecios (X3 ) y

3.4. LA MATRIZ DE VARIANZAS Y COVARIANZAS

79

la rentabilidad efectiva es negativa. Las otras relaciones son dbiles. Una ventaja adicional de los logaritmos es que hace las variables independientes de la escala de medida: Si multiplicamos las variables por una constante al tomar logaritmos esto es equivalente a sumar una cantidad y sumar una constante a los datos no altera su variabilidad. Por tanto, al tomar logaritmos en las variables las varianzas pueden compararse aunque los datos tengan distintas dimensiones. La varianza media de las tres variables es V ar = .35 + .13 + .16 = .213 3

y parece describir razonablemente la variabilidad de las variables.

3.4.2

Propiedades

As como la varianza es siempre un nmero no negativo, la matriz de varianzas y covarianzas tiene una propiedad similar: es semidenida positiva. Esta propiedad asegura que si y es cualquier vector, y0 Sy ) 0. Tambin la traza, el determinante y los valores propios de esta matriz son no negativos. Demostracin Sea w cualquier vector de dimensin p, denamos la variable escalar:

vi = w0 (xi ! x). La media de esta variable ser: 1X 1 X v= vi = w 0 (xi ! x) = 0, n i=1 n i=1 y la varianza debe ser forzosamente no negativa, con lo que: 1X 2 1X 0 v = [w (xi ! x)][(xi ! x)0 w] ) 0 n i=1 i n i=1
n n n n

(3.8)

V ar(v ) =

= w0 Sw ) 0.

Como la ecuacin anterior es vlida para cualquier vector w, concluimos que S es semidenida positiva. Esta condicin tambin implica que si Swi = "i wi, , entonces "i ) 0. Finalmente, todos los menores principales son no negativos (en particular |S| ) 0).

80

CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES

3.4.3

Variables redundantes: El caso con Matriz S singular

Vamos a analizar las consecuencias de que la matriz S sea singular. Observemos que si existe algn vector w tal que w0 Sw = 0, entonces la variable (3.8) tiene varianza nula y al tener media cero esta variable siempre toma el valor cero. Por tanto para cualquier i:
p X j =1

wj (xij ! xj ) = 0

' i.

Esta ecuacin implica que las p variables no son independientes, ya que podemos despejar una cualquiera en funcin de las dems: xi1 = x1 ! w2 wp (xi2 ! x2 ) ! ... ! (xip ! xp ). w1 w1

Por tanto, si existe algn vector w que haga w0 Sw = 0, existe una relacin lineal exacta entre las variables. Lo contrario es tambin cierto. Si existe una relacin lineal entre las variables podemos escribir w0 (xi ! x) = 0, para todo elemento, es decir e = 0, Xw

e 0 y dividiendo por n: multiplicando esta expresin por la derecha por la matriz X

1 e0 e X Xw = Sw = 0. (3.9) n Esta condicin implica la matriz S tiene una raz caracterstica o autovalor igual a cero y w es el vector caracterstico asociado a la raz caracterstica cero. Multiplicado en (3.9) por e )0 (Xw e ) = 0, que implica Xw e = 0, y concluimos que una variable es una w0 se obtiene (Xw combinacin lineal exacta de las otras. En consecuencia, es posible reducir la dimensionalidad del sistema eliminando esta variable. Observemos, adems, que las coordenadas del vector w indican la combinacin lineal redundante. Ejemplo 3.3 La matriz de covarianzas siguiente corresponde a cuatro variables simuladas de manera que tres de ellas son linealmente independientes, pero la cuarta es el promedio de las dos primeras. ! # .0947 .0242 .0054 .0594 % .0242 .0740 .0285 .0491 & & S=% " .0054 .0285 .0838 .0170 $ .0594 .0491 .0170 .0543

Los autovalores de esta matriz calculados con Matlab son (0, 172 97; 0, 08 762, 0, 04 617 y 0, 00005). El menor valor propio es prcticamente cero comparado con los otros tres, por lo que la matriz tiene, muy aproximadamente, rango 3. El vector propio asociado a este valor propio nulo es ( .408 .408 .000 -.816 ). Dividiendo por el trmino mayor este vector propio puede escribirse como (.5 .5 0 -1), que revela que la falta de rango completo de la matriz de covarianzas es debido a que la cuarta variable es el promedio de las dos primeras.

3.4. LA MATRIZ DE VARIANZAS Y COVARIANZAS

81

Ejemplo 3.4 En la tabla A.2 del anexo de datos gura una base de datos denominada EUROSEC compuesta por 26 pases en los que se ha medido el porcentaje de poblacin que se dedica a cada uno de 9 sectores econmicos. El clculo de los autovalores de la matriz de varianzas covarianzas correspondiente a estos datos se presenta a continuacin y se observa que hay un autovalor muy prximo a 0 (.0019). Si este autovalor no es exactamente cero es debido a que en la tabla de datos la suma de las las no es exactamente 100% en todos los casos por errores de redondeo (vara entre 99,8% y 102%) 0.0019 0.0649 0.4208 1.0460 2.4434 5.6394 15.207 43.7017 303.458 Sin embargo, este autovalor tan pequeo dene una variable escalar que no tiene prcticamente variabilidad. Para determinarla, obtenemos el vector propio ligado a este valor propio, que es el vector (.335, .324, .337, .339, .325, .337, .334, .332, .334). Este vector es aproximadamente el vector constante, lo que indica que la suma de todas las variables da lugar a una variable escalar aproximadamente constante. El segundo valor propio es tambin bastante pequeo. El vector propio correspondiente es (-0.07, -0.29, -0.07, 0.91, 0.00, -0.10, -0.12, -0.05, -0.22). Este vector propio est determinado por la variable cuarta, que tiene mucho ms peso que las dems. Esto sugiere que la variable cuarta, sector de la energa, debe tener un peso muy similar en todos los pases. La matriz ! de varianzas y covarianzas de las variables es: # 241.6 % 0.53 & 0.94 % & % !73.11 3.02 49.10 & % & % !2.33 0.14 & 1 . 01 0 . 14 % & % !13.77 !0.04 5.70 0.03 2.70 & % & % !52.42 1.76 & 6 . 53 0 . 34 2 . 68 20 . 93 % & % 9.59 !1.20 !3.06 0.11 0.07 4.69 7.87 & % & " !79.29 !1.86 7.37 0.34 1.77 17.87 2.06 46.64 $ !12.22 0.21 3.41 0.19 0.88 1.19 !0.96 5.39 1.93 Se observa como la cuarta variable tiene mucha menor variabilidad que las dems. Generalizacin Este procedimiento puede extenderse para cualquier nmero de valores propios nulos: si S tiene rango h < p, existen p ! h variables redundantes que pueden eliminarse. Los vectores asociados a autovalores nulos indican la composicin de estas variables redundantes. En efecto, si S tiene rango h ese ser el nmero de valores propios no nulos, y existirn r = p ! h vectores que verican : Sw1 = 0 . . . . . . Swr = 0 o lo que es equivalente, existen r relaciones del tipo (xi ! x)0 wj = 0, j = 1, ..., r

82

CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES

que implica la existencia de r combinaciones lineales exactas entre las variables. Podemos pues representar las observaciones con h = p !r variables. Existen muchas posibles representaciones, ya que cualquier vector del subespacio denido por (w1 , ..., wr ) puede expresarse como una combinacin lineal de estos vectores y verica: S(a1 w1 + ... + ar wr ) = 0 Los r vectores propios de S asociados a valores propios nulos constituyen una base ortonormal (vectores perpendiculares y de mdulo unitario) en dicho espacio. Observemos que cuando hay ms de una raz nula, las relaciones lineales entre las variables no estn denidas unvocamente, ya que dadas dos relaciones lineales nulas cualquier nueva relacin que resulte combinando estas dos tendr la misma propiedad. Una forma alternativa de analizar el problema es la siguiente. Como S= 1 e0 e X X, n

e , ya que para cualquier matriz A, si llamamos rg (A) el rango de S coincide con la matriz X al rango de A, se verica siempre que: rg (A) = rg (A0 ) = rg (A0 A) = rg (AA0 ). e tiene rango p, ste ser tambin el rango de S. Sin embargo, si Por tanto si la matriz X e ser p! h, y existen h combinaciones lineales entre las variables X, el rango de la matriz X ste ser tambin el rango de la matriz S. Ejemplo 3.5 Calculemos los vectores propios de la matriz de varianzas y covarianzas para los datos de ACCIONES de la tabla A.7, que fueron analizados en el ejemplo 3.2. Los valores propios de la matriz de las variables originales son (594.86, 29.82, 3.22) y vemos que existe un valor propio muy grande y dos pequeos, en particular el valor ms pequeo esta ligado al vector propio ( 0.82, -0.13, 0.55). Para las variables en logaritmos los valores propios son (0, 5208; 0, 1127 y 0.0065). Ahora existe un valor propio mucho ms pequeo que los otros dos, y su vector propio es (57,-.55,.60). Para interpretar la variable denida por este vector propio escribamos su expresin en funcin de las variables originales. Recordando la denicin de las variables y llamando d a los dividendos, p al precio, B al benecio y N al nmero de acciones, suponiendo que la gran mayora de los benecios que se reparten van a dividendos (lo que es slo una aproximacin) podemos escribir, y =.57log(d/p) ! .55 log(dN/B ) + .60 log(p/B/N ) y, redondeando, esta variable ser, aproximadamente, y = .6 log(d/p)(B/dN )(pN/B ) = .6 log 1 = 0 Es decir, llamando Xi a las variables en logaritmos, la variable denida por la combinacin X1 ! X2 + X3 debe tomar valores pequeos. Si construimos esta variable a partir de los datos, su media es .01 y su varianza .03, que es mucho menor que la de las variables originales. Comprobamos que esta variable tiene poca variabilidad pero, al no ser constante,

3.5. MEDIDAS GLOBALES DE VARIABILIDAD

83

no hay una relacin determinista entre las tres variables en logaritmos. Los benecios repartidos aparte de los dividendos aunque pequeos en promedio, no son despreciables para algunas acciones. Observemos que esta informacin, que es revelada por el anlisis de los vectores propios de la matriz de covarianzas, puede pasar fcilmente desapercibida al lector no experto que trabaja directamente con estas medidas de rentabilidad.

3.5

MEDIDAS GLOBALES DE VARIABILIDAD

Cuando las variables se miden en las mismas unidades (euros, km) o son adimensionales (porcentajes, proporciones, etc) interesa encontrar medidas de la variabilidad promedio que permitan comparar distintos conjuntos de variables. Vamos a obtener primero estas medidas globales como resumen de la matriz de varianzas y covarianzas y, en segundo lugar, interpretaremos estas medidas mediante el concepto de distancias entre puntos.

3.5.1

La variabilidad total y la varianza promedio

Una forma de resumir la variabilidad de un conjunto de variables es mediante la traza de su matriz de varianzas y covarianzas y se dene la variabilidad total de los datos por: T = tr(S) = y la varianza promedio por 1X 2 s= s. p i=1 i
2 p p X i=1

s2 i

(3.10)

El inconveniente de esta medida es que no tienen en cuenta la estructura de dependencia entre las variables. Para ilustrar el problema supongamos p = 2 y el caso extremo en que ambas variables son la misma, pero en unidades distintas. Entonces, la variabilidad conjunta de las dos variables en el espacio es nula, porque los puntos estn siempre forzados a estar sobre la recta que dene la relacin lineal entre las dos variables, y, sin embargo, s2 puede ser alta. En general, si la dependencia entre las variables es muy alta, intuitivamente la variabilidad conjunta es pequea, ya que conocida una variable podemos determinar aproximadamente los valores de las dems. Este aspecto no queda recogido en esta medida, que prescinde de las relaciones de dependencia existentes.

3.5.2

La Varianza Generalizada

Una medida mejor de la variabilidad global es la varianza generalizada, que es el determinante de la matriz de varianzas y covarianzas, es decir V G = |S| Su raz cuadrada se denomina desviacin tpica generalizada, y tiene las propiedades siguientes:

84

CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES a) Est bien denida, ya que el determinante de la matriz de varianzas y covarianzas es siempre no negativo. b) Es una medida del rea (para p = 2), volumen (para p = 3) o hipervolumen (para p > 3) ocupado por el conjunto de datos. Para aclarar estas ideas, supongamos el caso p = 2. Entonces, S puede escribirse: s2 rs s x y x S= rsx sy s2 y

y la desviacin tpica generalizada es: " |S|1/2 = sx sy 1 ! r2 (3.11)

Si las variables son independientes, la mayora de sus valores estarn dentro de un rectngulo de lados 6sx , 6sy ya que, por el teorema de Tchebychev, entre la media y 3 desviaciones tpicas deben estar, aproximadamente, al menos el 90% de los datos. En consecuencia, el rea ocupada por ambas variables es directamente proporcional al producto de las desviaciones tpicas. Si las variables estn relacionadas linealmente y el coeciente de correlacin es distinto de cero, la mayora de los puntos tendern a situarse en una franja alrededor de la recta de regresin y habr una reduccin del rea tanto mayor cuanto mayor sea r2 . En el lmite, si r2 = 1, todos los puntos estn en una lnea recta, hay una relacin lineal exacta entre las variables y el rea ocupada es cero. La frmula (3.11) describe esta contraccin del rea ocupada por los puntos al aumentar el coeciente de correlacin. Un inconveniente de la varianza generalizada es que no sirve para comparar conjuntos de datos con distinto nmero de variables, ya que tiene las dimensiones del producto de las variables incluidas. Si aadimos a un conjunto de p variables que tiene una varianza generalizada |Sp | una variable adicional, incorrelada con el resto y varianza s2 p+1 , es fcil comprobar, con los resultados del clculo del determinante de una matriz particionada presentados en 2.3.5, que |Sp+1 | = |Sp | s2 p+1 y eligiendo las unidades de medida de la variable p + 1 podemos hacer que la varianza generalizada aumente o disminuya a voluntad. Supongamos el caso ms simple donde la matriz S es diagonal y las variables van expresadas en las mismas unidades, por ejemplo euros. Entonces
2 |Sp | = s2 1 ....sp

Supongamos que todas las varianzas en euros son mayores que la unidad. Entonces, si aadimos una variable p + 1 , la nueva varianza generalizada ser
2 2 2 |Sp+1 | = s2 1 ....sp sp+1 = |Sp | sp+1 > |Sp |

3.5. MEDIDAS GLOBALES DE VARIABILIDAD

85

ya que s2 p+1 > 1. En este caso la varianza generalizada aumenta monotonamente al considerar nuevas variables, es decir, llamando |Sj | a la varianza generalizada de las primeras j variables, tenemos que |Sp | > |Sp!1 | .... > |S2 | > s2 1 Supongamos ahora que expresamos las variables en miles de euros y con este cambio todas las varianzas son ahora menores que la unidad. Entonces la varianza generalizada disminuye monotonamente al incluir variables.

3.5.3

La variabilidad promedio

Para evitar estos inconvenientes, Pea y Rodrguez (2000) han propuesto como medida global de variabilidad la variabilidad promedio, dada por V P = |S|1/p (3.12)

que tiene la ventaja de que cuando todas las variables van en las mismas dimensiones esta medida tiene las unidades de la varianza. Para matrices diagonales esta medida es simplemente la media geomtrica de las varianzas. Observemos que, como el determinante es el producto de los valores propios, la variabilidad promedio es la media geomtrica de los valores propios de la matriz S, que por ser semidenida positiva sern siempre no negativos. Como la media geomtrica de un conjunto de nmeros es siempre menor que su media aritmtica esta medida ser siempre menor que la varianza media. La variabilidad promedio tiene en cuenta la dependencia conjunta, ya que si una variable fuese combinacin lineal de las dems al existir un valor propio nulo, la medida (3.12) es nula, mientras que la varianza media, dada por (3.10) no lo ser. Veremos en los captulos siguientes que la variabilidad promedio y la varianza media tienen una gran importancia en los procedimientos multivariantes. Anlogamente podemos denir la desviacin promedio mediante DP = |S|1/2p . Ejemplo 3.6 Partiendo de la matriz de covarianzas S para los logaritmos de las acciones, datos A.7, ACCIONES, del ejemplo 3.5, obtenemos que |S | = 0.000382 La variabilidad promedio es V P = |S |1/3 = .0726 que podemos comparar con la media aritmtica de las tres varianzas que calculamos en el ejemplo 3.2: tr(S)/3 = .2133

86

CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES

Como vemos, la fuerte dependencia entre las variables hace que la variabilidad real promedio, cuando se tienen en cuenta las covarianzas, sea mucho menor que cuando se prescinde de ellas y se calcula el promedio de las varianzas. Para las desviaciones tpicas DP = |S |1/6 = .269 que podemos tomar como medida global de variabilidad en los datos originales. Ejemplo 3.7 La matriz de varianzas y covarianzas para los datos de las medidas fsicas es 100.24 104.49 26.12 44.22 33.20 10.64 26.19 104.49 158.02 30.04 50.19 41.67 14.08 27.99 26.12 30.04 7.91 11.66 8.86 2.79 7.42 S = 44.22 50.19 11.66 23.69 15.4 4.18 11.55 33.20 41.67 8.86 15.4 15.59 4.48 7.72 10.64 14.08 2.79 4.18 4.48 3.27 3.11 26.19 27.99 7.42 11.55 7.72 3.11 9.61 y la medida promedio V P = |S |1/7 =5.7783 y V P 1/2 =2.4038. Como existe bastante dependencia estas medidas son mucho menores de los promedios de las varianzas. Por ejemplo tr(S)/7=45.48. Observemos que esta medida no tiene, en este ejemplo, clara interpretacin, al estar las variables en distintas unidades.

3.6

VARIABILIDAD Y DISTANCIAS

Un procedimiento alternativo para estudiar la variabilidad de las observaciones es utilizar el concepto de distancias entre puntos. En el caso escalar, la distancia entre el valor de una variable x en un punto, xi , y la media de la variable, x, se mide de manera natural mediante p (xi ! x)2 , o, lo que es equivalente, por el valor absoluto de la diferencia, |xi ! x| . La desviacin tpica es un promedio de estas distancias entre los puntos y su media. Cuando disponemos de una variable vectorial, cada dato es un punto en <p , y podemos pensar en construir medidas de variabilidad promediando las distancias entre cada punto y el vector de medias. Esto requiere generalizar el concepto de distancia a espacios de cualquier dimensin. El concepto de distancia entre puntos ser importante en los captulos siguientes.

3.6.1

El concepto de distancia

Dados dos puntos xi , xj pertenecientes a <p , diremos que hemos establecido una distancia, o una mtrica, entre ellos si hemos denido una funcin d con las propiedades siguientes: 1. d : <p <p * <+ , es decir, dados dos puntos en el espacio de dimensin p su distancia con esta funcin es un nmero no negativo, d(xi , xj ) ) 0; 2. d(xi , xi ) = 0 'i, la distancia entre un elemento y s mismo es cero. 3. d(xi , xj ) = d(xj , xi ), la distancia es una funcin simtrica en sus argumentos.

3.6. VARIABILIDAD Y DISTANCIAS

87

4. d(xi , xj ) # d(xi , xp ) + d(xp , xj ), la distancia debe vericar que si tenemos tres puntos, la suma de las longitudes de dos lados cualesquiera del tringulo formado por los tres puntos debe siempre ser mayor que el tercer lado. Esta propiedad se conoce como la propiedad triangular. Estas propiedades generalizan la nocin intuitiva de distancia entre dos puntos sobre una recta. Una familia de medidas de distancia muy habituales en <p es la familia de mtricas o distancias de Minkowski, que se dene en funcin de un parmetro r por
(r) dij

p !1/r X = (xis ! xjs )r


s=1

(3.13)

y las potencias ms utilizadas son r = 2, que conduce a la distancia eucldea, o en L2 , p !1/2 X 2 dij = (xis ! xjs ) = (xi ! xj )0 (xi ! xj )1/2 ,
s=1

y r = 1, que se denomina distancia en L1 : dij = |xi ! xj |0 1, donde 10 = (1, . . . , 1). La distancia ms utilizada es la eucldea pero tiene el inconveniente de depender de las unidades de medida de las variables. Por ejemplo, sea x la estatura de una persona en metros e y su peso en kilogramos. Compararemos la distancia entre tres personas: A(1.80, 80), B (1.70, 72) y C (1.65, 81). El cuadrado de la distancia eucldea del individuo A al B ser: d2 (A, B ) = (1.80 ! 1.70)2 + (80 ! 72)2 = .12 + 82 = 64.01 y, anlogamente d2 (A, C ) = .152 +1 = 1.225. Por tanto, con la distancia eucldea el individuo A estar mucho ms cerca del individuo C que del B. Supongamos que, para hacer los nmeros ms similares, decidimos medir la estatura en centmetros, en lugar de metros. Las nuevas coordenadas de los individuos son ahora A(180, 80), B (170, 72) y C (165, 81), y las distancias eucldeas entre los individuos se transforman en d2 (A, B ) = 102 + 82 = 164 y d2 (A, C ) = 152 + 1 = 226. Con el cambio de unidades, el individuo A est con la distancia eucldea ms cerca del B que del C. La distancia eucldea depende mucho de las unidades de medida, y cuando no existe una unidad ja natural, como en este ejemplo, no est justicado utilizarla. Una manera de evitar el problema de las unidades es dividir cada variable por un trmino que elimine el efecto de la escala. Esto conduce a la familia de mtricas eucldeas ponderadas, que se denen por 1/2 dij = (xi ! xj )0 M!1 (xi ! xj ) (3.14)

88

CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES

donde M es una matriz diagonal que se utiliza para estandarizar las variables y hacer la medida invariante ante cambios de escala. Por ejemplo, si colocamos en la diagonal de M las desviaciones tpicas de las variables, la expresin (3.14) se convierte en p !1/2 p !1/2 X xis ! xjs X 2 2 dij = ( )2 = s! s (xis ! xjs ) s s s=1 s=1 que puede verse como una distancia eucldea donde cada coordenada se pondera inversamente proporcional a la varianza. Por ejemplo, si suponemos que las desviaciones tpicas de las variables altura y peso son 10 cm y 10 kgr, las distancias estandarizadas al cuadrado entre los individuos anteriores son d2 (A, B ) = (1 + 0, 82 ) = 1, 64 y d2 (A, C ) = (1, 52 + 0, 12 ) = 2, 26. Con esta mtrica, que es ms razonable, A est ms prximo a B que a C. En general la matriz M puede no ser diagonal, pero siempre debe ser una matriz no singular y denida positiva para que dij ) 0. En el caso particular en que tomemos M = I se obtiene de nuevo la distancia eucldea. Si tomamos M = S se obtiene la distancia de Mahalanobis que estudiamos a continuacin.

3.6.2

La Distancia de Mahalanobis

Es frecuente referirse al valor d2 i tambin como distancia de Mahalanobis, en lugar de como cuadrado de la distancia, y en este libro, para simplicar, utilizaremos a veces esta licencia, aunque estrictamente la distancia es di . Vamos a interpretar esta distancia y comprobar que es una medida muy razonable de distancia entre variables correladas. Consideremos el caso p = 2. Entonces, escribiendo s12 = rs1 s2 , tenemos que 2 1 !1 1 s! !rs! !1 1 1 s2 S = !1 !1 2 s! (1 ! r2 ) !rs1 s2 2 y la distancia de Mahalanobis (al cuadrado) entre dos puntos (x1 , y1 ), (x2 , y2 ) puede escribirse : d2 M 1 (x1 ! x2 )2 (y1 ! y2 )2 (x1 ! x2 )(y1 ! y2 ) = + ! 2r (1 ! r2 ) s2 s2 s1 s2 1 2

Se dene la distancia de Mahalanobis entre un punto y su vector de medias por 1/2 di = (xi ! x)0 S!1 (xi ! x)

Si r = 0, esta distancia se reduce a la distancia eucldea estandarizando las variables por sus desviaciones tpicas. Cuando r 6= 0 la distancia de Mahalanobis aade un trmino adicional

3.6. VARIABILIDAD Y DISTANCIAS

89

que es positivo (y por lo tanto separa los puntos) cuando las diferencias entre las variables tienen el mismo signo, cuando r > 0, o distinto cuando r < 0. Por ejemplo, entre el peso y la altura hay correlacin positiva: al aumentar la estatura de una persona en promedio tambin lo hace su peso. Si consideramos las tres personas anteriores A(180, 80), B (170, 72) y C (165, 81) con desviaciones tpicas 10 cm y 10 kgr y el coeciente de correlacin 0,7, los cuadrados de las distancias de Mahalanobis sern d2 M (A, B ) = y d2 M (A, C ) = 1 1 + 0, 82 ! 1, 4 0, 8 = 1.02 0, 51

concluimos que el individuo A est ms cerca del B que del C con esta distancia. La distancia de Mahalanobis tiene en cuenta que, aunque el individuo B es ms bajo que el A, como hay correlacin entre el peso y la altura si su peso tambin disminuye proporcionalmente, el aspecto fsico de ambos es similar porque aunque cambia el tamao global no cambia la forma del cuerpo. Sin embargo, el individuo C es todava ms bajo que el A y adems pesa ms, lo que implica que su aspecto fsico es muy distinto del de A. Como consecuencia, la distancia de A a C es mayor que a B. La capacidad de esta distancia para tener en cuenta la forma de un elemento a partir de su estructura de correlacin explica su introduccin por P. C. Mahalanobis, un eminente estadstico indio, en los aos 30 para comparar medidas fsicas de razas en la India.

1 2 1, 5 + 0, 12 + 1, 4 1, 5 0, 1 = 4.84, 0, 51

3.6.3

La distancia promedio

Podramos plantearnos construir una medida global de la variabilidad respecto a la media de una variable vectorial escogiendo promediando las distancias entre los puntos y la media. Por ejemplo, si todas las variables van en las mismas unidades, podemos tomar la distancia eucldea al cuadrado y promediar por el nmero de trminos en la suma: 1X (xi ! x)0 (xi ! x). Vm = n i=1 Como un escalar es igual a su traza, podemos escribir X n n X 1 1 0 0 Vm = tr (xi ! x) (xi ! x) = tr (xi ! x)(xi ! x) = tr(S) n n i=1 i=1 y el promedio de distancias es la variabilidad total. Si promediamos las distancias tambin por la dimensin del vector, tenemos que: Vm,p 1 X = (xi ! x)0 (xi ! x) = s2 np i=1
n n

(3.15)

(3.16)

90

CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES

y el promedio estandarizado de las distancias eucldeas entre los puntos y la media es el promedio de las varianzas de las variables. No tiene sentido denir una medida de distancia promediando las distancias de Mahalanobis, ya que es fcil comprobar (vase ejercicio 3.12) que el promedio de las distancias de Mahalanobis es siempre p, y el promedio estandarizado por la dimensin del vector es uno . Ejemplo 3.8 La tabla adjunta presenta para los datos de las medidas fsicas, MEDIFIS, las distancias eucldeas al cuadrado de cada dato a su media, d2 e , las distancias de Mahalanobis 2 de cada dato a su media, DM , la mxima distancia eucldea entre cada punto y otro de la muestra, d2 em , el orden del dato ms alejado con esta distancia, Ie , la mxima distancia de 2 Mahalanobis entre cada punto y otro de la muestra, DMm , y el orden del dato ms alejado con esta distancia, IM . 2 2 orden d2 DM d2 Ie DMm IM e em 1.0000 3.8048 0.0226 29.0200 24.0000 29.0200 24.0000 2.0000 0.3588 0.0494 15.4800 24.0000 15.4800 24.0000 3.0000 0.2096 0.0447 10.0600 20.0000 10.0600 20.0000 4.0000 1.6899 0.0783 20.5925 24.0000 20.5925 24.0000 5.0000 2.2580 0.0759 23.8825 24.0000 23.8825 24.0000 6.0000 0.8336 0.0419 15.6000 24.0000 15.6000 24.0000 7.0000 2.8505 0.0830 23.5550 24.0000 23.5550 24.0000 8.0000 3.0814 0.0858 20.3300 20.0000 20.3300 20.0000 9.0000 3.6233 0.0739 21.7750 20.0000 21.7750 20.0000 10.0000 3.5045 0.0348 28.1125 24.0000 28.1125 24.0000 11.0000 2.0822 0.0956 20.2900 24.0000 20.2900 24.0000 12.0000 0.6997 0.1037 11.5425 20.0000 11.5425 20.0000 13.0000 6.2114 0.0504 34.7900 24.0000 34.7900 24.0000 14.0000 2.2270 0.0349 18.2700 20.0000 18.2700 20.0000 15.0000 4.2974 0.1304 23.2200 20.0000 23.2200 20.0000 16.0000 10.5907 0.1454 35.6400 20.0000 35.6400 20.0000 17.0000 1.7370 0.0264 16.9000 20.0000 16.9000 20.0000 18.0000 0.7270 0.0853 14.1100 24.0000 14.1100 24.0000 19.0000 4.5825 0.1183 30.5500 24.0000 30.5500 24.0000 20.0000 7.8399 0.0332 39.1100 24.0000 39.1100 24.0000 21.0000 4.4996 0.0764 23.9600 20.0000 23.9600 20.0000 22.0000 0.5529 0.0398 12.3100 20.0000 12.3100 20.0000 23.0000 3.9466 0.0387 29.3900 24.0000 29.3900 24.0000 24.0000 11.9674 0.0998 39.1100 20.0000 39.1100 20.0000 25.0000 0.4229 0.0745 10.6500 20.0000 10.6500 20.0000 26.0000 0.2770 0.0358 10.5850 20.0000 10.5850 20.0000 27.0000 0.9561 0.1114 17.6050 24.0000 17.6050 24.0000 Se observa que con la distancia eucldea los puntos ms alejados de la media son el 24 y el 16, seguidos del 20. El punto ms extremo para cada uno es el 24 o el 20, lo que dene a estos puntos como extremos en el espacio con esta medida. Con las distancias de Mahalanobis los ms alejados de la media son los 15 y 16 pero, sin embargo, los puntos que

3.7. MEDIDAS DE DEPENDENCIA LINEAL

91

aparecen como extremos de la muestra son de nuevo los 20 y 24. Observando estos datos, el 24 correponde a un hombre muy alto, el mayor de la muestra, y el 20 a una mujer de baja estatura y delgada, que constituye el extremo opuesto de los datos.

3.7

MEDIDAS DE DEPENDENCIA LINEAL

Un objetivo fundamental de la descripcin de los datos multivariantes es comprender la estructura de dependencias entre las variables. Estas dependencias pueden estudiarse: (1) entre pares de variables; (2) entre una variable y todas las dems; (3) entre pares de variables pero eliminando el efecto de las dems variables; (4) entre el conjunto de todas las variables. Vamos a analizar estos cuatro aspectos.

3.7.1

Dependencia por pares: La matriz de correlacin

La dependencia lineal entre dos variables se estudia mediante el coeciente de correlacin lineal o simple. Este coeciente para las variables xj , xk es: sjk rjk = sj sk y tiene las propiedades siguientes: (1) 0 # |rjk | # 1; (2) si existe una relacin lineal exacta entre las variables, xij = a + bxik , entonces |rjk | = 1; (3) rjk es invariante ante transformaciones lineales de las variables. La dependencia por pares entre las variables se mide por la matriz de correlacin. Llamaremos matriz de correlacin, R, a la matriz cuadrada y simtrica que tiene unos en la diagonal principal y fuera de ella los coecientes de correlacin lineal entre pares de variables, escribiremos: ! # 1 r12 . . . r1p % . . . & . R=" . . . ... . . $ rp1 rp2 . . . 1 Esta matriz es tambin semidenida positiva. Para demostrarlo, llamemos D = D(S) a la matriz diagonal de orden p formada por los elementos de la diagonal principal de S, que son las varianzas de las variables. La matriz D1/2 contendr las desviaciones tpicas y la matriz R esta relacionada con la matriz de covarianzas, S, mediante: R = D!1/2 SD!1/2 , que implica S = D1/2 RD1/2 . La condicin w0 Sw ) 0 equivale a: (3.18) (3.17)

w0 D1/2 RD1/2 w = z0 Rz ) 0

llamando z = D1/2 w al nuevo vector transformado por D1/2 . Por tanto, la matriz R es, como la matriz S, semidenida positiva.

92

CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES

3.7.2

Dependencia de cada variable y el resto: Regresin Mltiple

Adems de estudiar la relacin entre pares de variables podemos estudiar la relacin entre una variable y todas las dems. Hemos visto que si una variable es combinacin lineal de las dems, y por lo tanto puede predecirse sin error con el resto, debemos eliminarla de consideracin. Es posible que, sin llegar a esta situacin extrema, haya variables que sean muy dependientes de las dems y conviene medir su grado de dependencia. Supongamos que xj es la variable de inters y para simplicar la notacion la llamaremos variable explicativa o respuesta y la denotaremos por y . A continuacin, consideremos su mejor predictor lineal a partir de las restantes variables, que llamaremos variables explicativas o regresores. Este predictor lineal tendr la forma: b (xi1 ! x1 ) + ... + % b (xip ! xp ), y bi = y + % 1 p i = 1, ..., n (3.19)

y se comprueba que cuando las variables explicativas toman un valor igual a su media la b , para k = 1, ..., p variable respuesta es tambin igual a su media. Los p ! 1 coecientes % k con k 6= j, se determinan de manera que la ecuacin proporcione, en promedio, la mejor prediccin posible de los valores de yi . Llamando residuos a los errores de prediccin, ei = yi ! y bi , es inmediato, sumando para los n datos en (3.19), que la suma de los residuos para todos los puntos muestrales es cero. Esto indica que cualquiera que sean los coecientes b la ecuacin (3.19) va a compensar los errores de prediccin positivos con los negativos. % j Como queremos minimizar los errores con independencia del signo, los elevamos al cuadrado bj minimizando: y calculamos los % M=
n X i=1

e2 i,

b , se obtiene el sistema de p ! 1 ecuaDerivando esta expresin respecto a los parmetros % j ciones, para k = 1, ..., p con k 6= j,:
n h i X b (xi1 ! x1 ) + ... + % b (xi,p ! xp ) (xik ! xk ) yi ! y + % 2 1 p i=1

que puede escribirse:

que tiene una clara interpretacin intuitiva. Indica que los residuos, o errores de prediccin, deben de estar incorrelados con las variables explicativas, de manera que la covarianza entre ambas variables sea cero. En efecto, si existiese relacin entre ambas variables podra utilizarse para prever los errores de prediccin y reducirlos, con lo que la ecuacin de prediccin no podra ser ptima. Geometricamente este sistema establece que el vector de residuos debe ser ortogonal al espacio generado por las variables explicativas. Deniendo una matriz XR de datos para la regresin de dimensiones (n p ! 1) que se obtiene de la matriz de e , eliminando la columna de esta matriz que corresponde a la variable que datos centrada, X

ei xik = 0

k = 1, ..., p; k 6= j,

3.7. MEDIDAS DE DEPENDENCIA LINEAL

93

queremos prever, que llamaremos y, el sistema de ecuaciones para obtener los parmetros es: b X0R y = X0R XR " b = (X0 XR )!1 X0 y = S!1 Sxy . " R R p!1

que conduce a :

donde Sp!1 es la matriz de covarianzas de las p ! 1 variables explicativas y Sxy la columna de la matriz de covarianzas correspondiente a las covarianzas de la variable seleccionada como y con el resto. La ecuacin obtenida con estos coecientes se conoce como la ecuacin de regresin mltiple entre la variable y = xj y las variables, xk , con k = 1, ..., p;y k 6= j. El promedio de los residuos al cuadrado con la ecuacin de regresin mltiple para explicar xj es: P 2 ei 2 sr (j ) = (3.20) n y es una medida de la precisin de la regresin para prever la variable y = xj . Una medida adimensional de la dependencia se construye partiendo de la identidad bi ! y + ei yi ! y = y V T = V E + V NE P donde la variabilidad total o inicial de los datos, V T (yi ! y )2 , se expresa como suma P= de la variabilidad explicada P por la regresin, V E = (y bi ! y )2 , y la residual o no explicada por la regresin, V NE = e2 i . Una medida descriptiva de la capacidad predictiva del modelo es el cociente entre la variabilidad explicada por la regresin y la variabilidad total. Esta medida se llama coeciente de determinacin, o coeciente de correlacin mltiple al cuadrado, y se dene por:
2 Rj. 1,...,p =

y elevando al cuadrado y sumando para todos los puntos se obtiene la descomposicin bsica del anlisis de la varianza, que podemos escribir como:

VE V NE = 1! VT VT

(3.21)

donde el subndice indica la variable que estamos explicando y los regresores. Utilizando (3.20) podemos escribir
2 Rj. 1,...,p = 1 !

s2 r (j ) s2 j

(3.22)

Es immediato comprobar que en el caso de una nica variable explicativa R2 es el cuadrado del coeciente de correlacin simple entre las dos variables. Tambin se comprueba que es el cuadrado del coeciente de correlacin simple entre las variables y y y b. El coeciente de

94

CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES

correlacin mltiple al cuadrado puede ser mayor, menor o igual que la suma de los cuadrados de las correlaciones simples entre la variable y y cada una de las variables explicativas (vase Cuadras, 1993). Segn la ecuacin (3.22) podemos calcular el coeciente de correlacin mltiple entre cualquier variable xi y las restantes si conocemos su varianza y la varianza residual de una regresin de esta variable sobre las dems. Se demuestra en el apndice 3.1 que los trminos diagonales de la inversa de la matriz de covarianzas, S!1 , son precisamente las inversas de las varianzas residuales de la regresin de cada variable con el resto. Por tanto podemos calcular fcilmente el coeciente de correlacin mltiple al cuadrado entre la variable xj y las restantes como sigue: (1) Tomar el elemento diagonal j de la matriz S, sjj que es la varianza s2 j de la variable. (2) Invertir la matriz S y tomar el elemento diagonal j de la matriz S!1 que llamaremos sjj . Este trmino es 1/s2 r (j ), la varianza residual de una regresin entre la variable j y el resto. 2 (3) Calcular Rj , la correlacin mltiple como
2 Rj =1!

1 sjj sjj

Esta expresin permite obtener inmediatamente todos los coecientes de correlacin mltiple a partir de las matrices S y S!1 . Ejemplo 3.9 La matriz de correlacin para las 7 variables fsicas, tabla A.5, MEDIFIS, del ejemplo 1.1. se presenta en la tabla 1.5. Las variables aparecen en el orden del ejemplo 1.1 ! # 1 0.83 0.93 0.91 0.84 0.59 0.84 % 0.83 1 0.85 0.82 0.84 0.62 0.72 & & % % 0.93 0.85 1 0.85 0.80 0.55 0.85 & & % & 0 . 91 0 . 82 0 . 85 1 0 . 80 0 . 48 0 . 76 R=% % & % 0.84 0.84 0.80 0.80 1 0.63 0.63 & % & " 0.59 0.62 0.55 0.48 0.63 1 0.56 $ 0.84 0.72 0.85 0.76 0.63 0.56 1

Se observa que la mxima correlacin aparece entre la primera y la tercera variable (estatura y longitud del pie) y es 0,93. La mnima es entre la longitud del brazo y el dimetro del crneo (0,48). En general las correlaciones ms bajas aparecen entre el dimetro del crneo y el resto de las variables. La matriz S!1 es: 0.14 0.01 !0.21 !0.11 !0.07 !0.05 !0.07 0.01 0.04 !0.08 !0.03 !0.04 !0.04 !0.00 !0.21 !0.08 1.26 0.06 !0.05 0.18 !0.29 !0.11 !0.03 0.06 0.29 !0.04 0.13 !0.04 !0.07 !0.04 !0.05 !0.04 0.34 !0.13 0.15 !0.05 !0.04 0.18 0.13 !0.13 0.64 !0.15 !0.07 !0.00 !0.29 !0.04 0.15 !0.15 0.50 y utilizando los elementos diagonales de esta matriz y de la matriz S podemos calcular las correlaciones mltiples al cuadrado de cada variable con el resto como sigue: (1) multiplicamos los elementos diagonales de las matrices S y S !1 . El resultado de esta operacion es el

3.7. MEDIDAS DE DEPENDENCIA LINEAL

95

vector (14.3672, 5.5415, 9.9898, 6.8536, 5.3549, 2.0784, 4.7560). (2) A continuacin, calculamos las inversas de estos elementos, para obtener (0.0696 0.1805 0.1001 0.1459 0.1867 0.4811 0.2103). Finalmente, restamos a uno estos coecientes para obtener (0.9304, 0.8195, 0.8999, 0.8541, 0.8133, 0.5189, 0.7897) y estos son los coecientes de correlacin mltiple entre cada variable y el resto. Vemos que la variable ms previsible por las restantes es la estatura,(R2 = 0.9304) , despues el pi (R2 = 0.8999) y luego la longitud del brazo (R2 = 0.8541). La menos predecible es dcr, que tiene un coeciente de correlacin mltiple con el resto de 0.5189, o en otros trminos, el resto de las variables explica el 52% de la variabilidad de esta variable. La ecuacin para prever la estatura en funcin del resto de las variables se obtiene facilmente con cualquier programa de regresin. El resultado es est = 0.9 - 0.094 peso+ 1.43pie + 0.733 lbr + 0.494 aes + 0.347 dcr + 0.506 lrt que es la ecuacin que permite prever con menor error la estatura de una persona dadas el resto de las medidas. El R2 de esta regresin es = 0,93, resultado que habamos obtenido anteriormente. La ecuacin para prever la longitud del pi es: pie = 8.14 + 0.162 est + 0.0617 pes - 0.051 lbr + 0.037 aes - 0.144 dcr + 0.229lrt que indica que para prever el pie las variables ms relevantes parecen ser la estatura y l alongitud rodilla tobillo. Podemos hacer regresiones tomando como variable explicativa el sexo, entonces: sexo = - 3.54 - 0.0191 est - 0.0013 pes + 0.141 pie + 0.0291 lbr + 0.0268 aes - 0.0439 dcr + 0.0219 lrt La variable ms importante para prever el sexo de una persona parece ser el pie que es la que tiene un coeciente ms alto.

3.7.3

Dependencia directa entre pares: Correlaciones parciales

La dependencia directa entre dos variables controlando el efecto de las restantes se mide por el coeciente de correlacin parcial. Se dene el coeciente de correlacin parcial entre dos variables, (x1 , x2 ), dadas las variables (x3 , ..., xp ), y se denota por r12.3..p , como el coeciente de correlacin entre las partes de x1 y x2 que estn libres de los efectos de las variables (x3 , ..., xp ). Este coeciente se obtiene en dos etapas. Primero, hay que obtener la parte de cada variable que no es explicada por (o est libre de los efectos de) el grupo de variables que se controlan. Esta parte es el residuo de la regresin sobre el conjunto de variables (x3 , ..., xp ), ya que, por construccin, el residuo es la parte de la respuesta que no puede preverse o es independiente de los regresores. Segundo, se calcula el coeciente de correlacin simple entre estos dos residuos. Se demuestra en el apndice 3.3 que los coecientes de correlacin parcial entre cada par de variables se obtienen estandarizando los elementos de la matriz S!1 . En concreto, si llamamos sij los elementos de S!1 , el coeciente de correlacion parcial entre las variables xj xk se obtiene como sij rjk.12,...,p = ! " sii sjj (3.23)

96

CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES

Los coecientes de correlacin parcial pueden calcularse a partir de los coecientes de correlacin mltiple mediante la relacin, que se demuestra en el apndice 3.3: 1!
2 r12 .3..p 2 1 ! R1 .2,...,.p = , 2 1 ! R1.3,...,p

2 donde r12 .3..p es el cuadrado del coeciente de correlacin parcial entre las variables (x1 , x2 ) 2 cuando se controlan las variables (x3 , ..., xp ) , R1 .2,...,p es el coeciente de determinacin o coeciente de correlacin mltiple al cuadrado en la regresin de x1 con respecto a (x2 , x3 , ..., xp ) 2 y R1 .3,...,p es el coeciente de determinacin o coeciente de correlacin mltiple al cuadrado en la regresin de x1 con respecto a (x3 , ..., xp ). (El resultado es equivalente si intercambiamos x1 por x2 ). Esta expresin indica una relacin simple entre trminos del tipo 1 ! r2 , que, segn la expresin (3.21), representan la proporcin relativa de variabilidad no explicada. Se dene la matriz de correlaciones parciales, P, como aquella que contiene los coecientes de correlacin parcial entre pares de variables eliminando el efecto de las restantes. Por ejemplo, para cuatro variables, la matriz de correlaciones parciales, : ! # 1 r12.34 r13.24 r14.23 % r21.34 1 r23.14 r24.13 & & P4 = % " r31.24 r32.14 1 r34.12 $ r41.23 r42.13 r43.12 1

donde, por ejemplo, r12.34 es la correlacin entre las variables 1 y 2 cuando eliminamos el efecto de la 3 y la 4, o cuando las variables 3 y 4 permanecen constantes. De acuerdo con (3.23) est matriz se obtiene como P = (!1)diag D(S!1 )!1/2 S!1 D(S!1 )!1/2

donde D(S!1 ) es la matriz diagonal obtenida seleccionando los elementos diagonales de la matriz S!1 y el trmino (!1)diag indica que cambiamos el signo de todos los elementos de la matriz menos de los elementos diagonales que sern la unidad. La expresin (3.23) es similar a la (3.17), pero utilizando la matriz S!1 en lugar de S. Observemos que D(S!1 )!1/2 no es la inversa de D(S)!1/2 = D!1/2 , y que, en consecuencia, P no es la matriz inversa de R.

3.7.4

El coeciente de Dependencia

Para obtener una medida conjunta de la dependencia entre las variables podemos utilizar el determinante de la matriz de correlacin, que mide el alejamiento del conjunto de variables de la situacin de perfecta dependencia lineal. Se demuestra en el apndice 3.2 que 0 # |R| # 1 y: (1) Si las variables estn todas incorreladas R es una matriz diagonal con unos en la diagonal y |R| = 1. (2) Si una variable es combinacin lineal del resto hemos visto que S y R son singulares y |R| = 0 (3) En el caso general, se demuestra en el apndice 3.3 que: 2 2 2 |Rp | = 1 ! Rp. 1 ! Rp (3.24) 1...p!1 !1.1p!2 ... 1 ! R2.1 .

3.7. MEDIDAS DE DEPENDENCIA LINEAL

97

es decir, el determinante de la matriz de correlacin es el producto de p ! 1 trminos. El primero representa la proporcin de variabilidad no explicada en una regresin mltiple entre la variable p y las restantes variables, p ! 1, p ! 2, ..., 1. El segundo la proporcin de variabilidad no explicada en una regresin mltiple entre la variable p ! 1 y las variables restantes siguientes, p ! 2, p ! 3, ..., 1. El ltimo representa la proporcin de variabilidad no explicada en una regresin simple entre las variables dos y uno. De acuerdo con la propiedad anterior |Rp |1/p!1 representa la media geomtrica de la proporcin de variabilidad explicada por todas las regresiones anteriores. Observemos que tambin es la media geomtrica de los valores propios de la matriz Rp , teniendo en cuenta P que slo tenemos p ! 1 valores propios independientes ya que estn ligados por "i = p . A partir de estas propiedades Pea y Rodrguez (2000) han propuesto como medida de dependencia lineal global la Dependencia, denida por : D(Rp ) = 1 ! |Rp |1/(p!1) (3.25)

2 Por ejemplo, para p = 2 como |R2 | = 1 ! r12 , esta medida coincide con el cuadrado del coeciente de correlacin lineal entre las dos variables. Para p > 2 podemos escribir de (3.24) y (3.25): 1/(p!1) 2 2 2 1 ! D(Rp ) = 1 ! Rp. 1 ! Rp 1...p!1 !1.1p!2 ... 1 ! R2.1

En el caso particular en que p = 2, el coeciente de correlacin promedio coincide con el valor absoluto del coeciente de correlacin simple.

y vemos que la dependencia es el coeciente de correlacin necesario para que la variabilidad no explicada en el problema sea igual a la media geomtrica de todas las posibles variabilidades no explicadas. El coeciente de correlacin promedio estar dado por q 1/2 '(Rp ) = D(Rp ) = 1 ! |Rp |1/(p!1) .

Ejemplo 3.10 Vamos a construir la matriz de correlaciones parciales para las 7 variables fsicas, tabla A.5, MEDIFIS. Podemos construir la matriz de correlaciones parciales a partir de S!1 estandarizandola por los elementos diagonales para obtener: 1.00 !0.19 0.48 0.52 0.32 0.17 0.27 !0.19 1.00 0.37 0.30 0.34 0.26 0.00 0.48 0.37 1.00 !0.11 0.07 0.20 0.37 0.30 !0.11 1.00 0.13 !0.31 0.10 P = 0.52 0.32 0.34 0.07 0.13 1.00 0.29 !0.37 0.17 0.26 0.20 !0.31 0.29 1.00 0.27 0.27 0.00 0.37 0.10 !0.37 0.27 1.00 Esta matriz muestra que las relaciones parciales ms fuertes se dan entre la estatura y las longitudes del pie (0,48) y del brazo (0,52). Por ejemplo este coeciente se interpreta que si consideramos personas con el mismo peso, pie, anchura de espalda, dimetro del crneo y longitud rodilla tobillo, hay una correlacin positiva entre la estatura y la longitud del brazo de 0,52. La tabla muestra que para personas de la misma estatura, peso y dems medidas fsicas, la correlacin entre la anchura de la espalda y la longitud rodilla tobillo es negativa.

98

CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES

Para obtener una medida de dependencia global, como el determinante de R es 1.42 10!4 y el coeciente global de dependencia es " 6 D = 1 ! |R|1/6 = 1 ! 1.42 10!4 = 0.771 Podemos concluir que, globalmente, la dependencia lineal explica 77% de la variabilidad de este conjunto de datos. Ejemplo 3.11 Calcularemos el coeciente global de dependencia para los datos del Anexo de Datos en las unidades originales en que se presentan, EUROALI EU ROSEC EP F INV EST MU N DODES ACCION D . 51 . 80 . 62 .998 .82 .61 Se observa que en INVEST la dependencia conjunta es muy fuerte. Esto sugiere que puede reducirse el nmero de variables necesarias para describir la informacin que contienen.

3.8

La matriz de precisin

Se denomina matriz de precisin a la inversa de la matriz de varianzas y covarianzas. Esta matriz juega un papel importante en muchos procedimientos estadsticos, como veremos en captulos sucesivos. Un resultado importante es que la matriz de precisin contiene la informacin sobre la relacin multivariante entre cada una de las variable y el resto. Este resultado es a primera vista sorprendente, ya que la matriz de varianzas y covarianzas slo contiene la informacin sobre las relaciones por pares de las variables, pero se explica por las propiedades de la matriz inversa (vase 2.3.4). Puede demostrarse, (vase el apndice 3.1) que la inversa de la matriz de covarianzas contiene : (1) Por las, y fuera de la diagonal trminos proporcionales a los coecientes de regresin mltiple de la variable correspondiente a esa la explicada por todas las dems. Los trminos de la matriz son estos coecientes cambiados de signo y multiplicados por la inversa de la varianza residual en esa regresin. Es decir, si llamamos sij a los elementos de la matriz de precisin: b /s2 (i) sij = !% ij r

b es el coeciente de regresin de la variable j para explicar la variable i, y s2 (i) la donde % ij r varianza residual de la regresin. (2) En la diagonal las inversas de las varianzas residuales de cada variable en su regresin con el resto. Es decir: sii = 1/s2 r (i) (3) Si estandarizamos los elementos de esta matriz para que tenga unos en la diagonal, los elementos fuera de la diagonal son los coecientes de correlacin parcial entre estas variables. Es decir sij rij.R = ! " sii sjj

3.9. COEFICIENTES DE ASIMETRA Y KURTOSIS

99

donde R se reere al resto de las variables, es decir el conjunto de p ! 2 variables xk con k = 1, ..., p y k 6= i, j. Por ejemplo, con cuatro variables, la primera la de la matriz inversa de varianzas y covarianzas es
2 !2 !2 !2 b b b s! R (1), !sR (1)% 12 , !sR (1)% 13 , !sR (1)% 14

donde s2 R (1) es la varianza residual de una regresin entre la primera variable y las otras tres b b b son los coecientes de regresin en la ecuacin y % 12 , % 13 , % 14 donde hemos supuesto, sin prdida de generalidad, que las variables tienen media cero. Por tanto, la matriz S!1 contiene toda la informacin de las regresiones de cada variable en las dems. Ejemplo 3.12 Calculemos e interpretemos la matriz de precisin de los datos de los logaritmos de las acciones, tabla A: ACCIONES, del ejemplo 3.5. Esta matriz es ! # 52.0942 !47.9058 52.8796 S !1 = " !47.9058 52.0942 !47.1204 $ 52.8796 !47.1204 60.2094 Por ejemplo, la primera la de esta matriz puede escribirse como 52.0942(1.0000, !0.9196, 1.0151) que indica que la varianza residual de una regresin entre la primera variables y las otras dos es 1/52.0942 = .0192, y los coecientes de regresin de las variables X2 y X3 en una regresin para explicar X1 son !0.9196 y 1.0151 respectivamente. Observemos que, de nuevo, aparece que la relacin z = X1 ! X2 + X3 tiene poca variabilidad. La varianza de la regresin , 0.019, es menor que la de la variable z, ya que representa una variabilidad condicionada cuando se conocen las variables X2 y X3 . b x2 + % b x3 + % b x4 x b1 = % 12 13 14

3.9

COEFICIENTES DE ASIMETRA Y KURTOSIS

La generalizacin de los coecientes de asimetra y kurtosis al caso multivariante no es inmediata. Una de las propuestas ms utilizadas es debida a Mardia (1970), que propone calcular las distancias de Mahalanobis para cada par de elementos muestrales (i, j ) : dij = (xi ! x)0 S!1 (xj ! x) . y dene el coeciente de asimetra multivariante en la distribucin conjunta de las p variables como
n n 1 XX 3 Ap = 2 d , n i=1 j =1 ij

100 y el de kurtosis

CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES

1X 2 d . Kp = n i=1 ii
n

Estos coecientes tienen las propiedades siguientes: 1. Para variables escalares Ap = A2 . En efecto, entonces P n n 3 2 ( n 1 XX 3 3 6 i=1 (xi ! x) ) Ap = 2 (xi ! x) (xj ! x) /s = = A2 n i=1 j =1 n2 s6 2. El coeciente de asimetra es no negativo y ser cero si los datos estn distribuidos homogneamente en una esfera. 3. Para variables escalares K = Kp . El resultado es inmediato porque entonces d2 ii = 4 4 (xi ! x) /s . 4. Los coecientes son invariantes ante transformaciones lineales de los datos. Si y = Ax + b, los coecientes de asimetra y kurtosis de y y de x son idnticos. Ejemplo 3.13 Calcularemos los coecientes de asimetra y kurtosis multivariantes para los datos sobre de rentabilidad de las acciones . Se comprueba que si tomamos los datos en su mtrica original, el coeciente de asimetra multivariante es: Ap = 16.76.. Este valor ser, en general, mayor que los coecientes univariantes, que son, respectivamente, 0,37, 0,04, y 2,71. Si tomamos logaritmos a los datos Ap = 7.5629 , mientras que los univariantes son 0,08, -0,25 y 1,02. Podemos concluir que , efectivamente, la transformacin logartmica ha servido para simetrizar ms estos datos. El coeciente de kurtosis multivariante es Kp = 31.26, que debe compararse con los valores univariantes de 1,38, 1,40, y 12,44. Al tomar logaritmos el coeciente multivariante es Kp = 21.35, mientras que los univariantes son 1,43, 1,75, y 4,11, con lo que vemos que tambin se reduce la kurtosis tomando logaritmos. EJERCICIOS Ejercicio 3.1 Calcular el vector de medias y el de medianas para las tres variables de las ACCIONES, tabla A.7. Comparar sus ventajas como medidas de centralizacin de estas variables. Ejercicio 3.2 Se dispone de 3 indicadores econmicos X1 , X2 , X3 , que se miden en cuatro pases, con los resultados siguientes: X1 2 1 2 2 X2 3 5 2 3 X3 -1 -2 1 1

Calcular el vector de medias, la matriz de varianzas y covarianzas, la varianza generalizada, la matriz de correlacin y la raz y vector caracterstico mayor de dichas matrices.

3.9. COEFICIENTES DE ASIMETRA Y KURTOSIS

101

Ejercicio 3.3 A partir de los tres indicadores econmicos X1 , X2 , X3 del problema 1 se construyen dos nuevos indicadores y1 = (1/3)x1 + (1/3)x2 + (1/3)x3 y2 = x1 ! 0, 5x2 ! 0, 5x3 Calcular el vector de medias para y0 = (y1 , y2 ), su matriz de varianzas y covarianzas, la matriz de correlacin y la varianza generalizada. 1 r Ejercicio 3.4 Demostrar que la matriz tiene autovalores 1+ r y 1 ! r y autovectores r 1 (1, 1) y (1, !1). A 0 Ejercicio 3.5 Demostrar que si una matriz es de la forma C = los autovectores 0 B son de la forma (u1 , 0) y (0, u2 ), donde u1 y u2 son autovectores de A y B, respectivamente. Ejercicio 3.6 Cul es la relacin entre los autovalores de C y los de A y B en el ejercicio 5?. Ejercicio 3.7 Demostrar que si Y = XA donde Y es n m y X es n p las matriz de covarianzas de Y est relacionada con la de X por Sy = A0 Sx A. Ejercicio 3.8 Calcular los coecientes de correlacin mltiple entre cada variable y todas las dems para los datos de INVES. Ejercicio 3.9 Calcular la matriz de correlaciones parciales para los datos de INVES. Ejercicio 3.10 Demostrar que la varianza residual de una regresin mltiple entre una vari2 2 able y y un conjunto de x puede escribirse como s2 y (1 ! R ) donde sy es la varianza de la variable y y R2 el coeciente de correlacin mltiple. Ejercicio 3.11 Calcular los coecientes de correlacin parcial entre las variables del conjunto de acciones mediante regresiones y utilizando los elementos de la matriz S !1 y comprobar la equivalencia. Ejercicio 3.12 Calcular el coeciente de asimetra multivariante para un vector de dos variables incorreladas entre si. Cul es la relacin entre el coeciente de asimetra multivariante y los univariantes? Ejercicio 3.13 Repetir el ejercicio anterior para los coecientes de kurtosis. Pn 1 0 !1 Ejercicio 3.14 Demostrar que para un conjunto de datos np S (xi ! x) = 1 i=1 (xi ! x) P Pn n 0 !1 !1 0 (sugerencia, tome trazas y utilice que tr[ i=1 (xi ! x) S (xi ! x)] = tr [S i=1 (xi ! x)(xi ! x) ]).

102

CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES

Ejercicio 3.15 Demostrar que podemos calcular la matriz de distancias eucldeas entre los puntos con la operacin diag (XX0)1 + 1diag (XX0) ! 2X0 X, donde X es la matriz de datos, diag (XX0) el vector que tiene por componentes los elementos diagonales y 1 es un vector de unos. Ejercicio 3.16 Demostrar que podemos calcular la matriz de distancias de Mahalanobis entre los puntos con la operacin diag (XS!1 X0)1 + 1diag (XS!1 X0) ! 2X0 S !1 X, donde X es la matriz de datos, diag (XS!1 X0) el vector que tiene por componentes los elementos diagonales de la matriz XS!1 X0, y 1 es un vector de unos.

APNDICE 3.1: LA ESTRUCTURA DE LA MATRIZ DE PRECISIN


Particionemos la matriz S separando las variables en dos bloques: la variable 1 que llamaremos y , y el resto, que llamaremos R. Entonces: 2 s1 c01R S= c1R SR donde s2 1 es la varianza de la primera variable, c1R el vector de covarianzas entre la primera y el resto y SR la matriz de varianzas y covarianzas del resto. Su inversa, utilizando los resultados del captulo anterior sobre la inversa de una matriz particionada, ser: !1 1 s2 ! c01R S! c1R A12 !1 1 R S = . A21 A22 Supongamos para simplicar que la media de todas las variables es cero. Entonces la regresin de la primera variable sobre el resto tiene de coecientes: b = S!1 c1R , " 1R R

Para encontrar la relacin que buscamos, utilizaremos la identidad bsica del anlisis de la varianza (ADEVA): 1 1 1 V T = V E + V NE n n n Apliquemos esta descomposicin a la primera variable. El primer trmino es s2 1 , la varianza b b = XR "1R , puede escribirse: de la primera variable, y el segundo, como y P 2 y el tercero, V N E/n = e1R /n = s2 r (1), donde hemos llamado e1R a los residuos de la regresin de la primera variable respecto a las dems, y s2 r (1) a la varianza residual, sin 1 1 0 b 0 SR " b by b) = " VE = (y 1R 1R n n 1 !1 0 !1 = c01R S! R SR SR c1R = c1R SR c1R ,

3.9. COEFICIENTES DE ASIMETRA Y KURTOSIS

103

corregir por grados de libertad, de esta regresin. Sustituyendo estos trminos en la identidad bsica de ADEVA, obtenemos que la varianza residual puede calcularse como:
0 !1 2 s2 r (1) = s1 ! c1R SR c1R .

Si comparamos esta expresin con el primer trmino de la matriz S!1 concluimos que el trmino diagonal primero de S!1 es la inversa de la varianza de los residuos (dividida por n y sin correccin por grados de libertad) en una regresin entre la primera variable y el resto. Como este anlisis puede hacerse para cualquiera de las variables, concluimos que los trminos diagonales de S!1 son las inversas de las varianzas residuales en las regresiones entre cada variable y el resto. Para obtener la expresin de los trminos de fuera de la diagonal en S!1 aplicaremos la frmula para la inversa de una matriz particionada: !1 0 !1 !1 0 b , A12 = ! s2 c1R SR = ! s2 " r (1) r (1) 1R

b representa el vector de coecientes de regresin al explicar la variable j por las donde " jR restantes. Observemos que en esta matriz el subndice R se reere al conjunto de p ! 1 variables que queda al tomar como variable respuesta la que ocupa el lugar de la al b 0 es el vector de coecientes de regresin entre correspondiente ne la matriz. Por ejemplo, " pR la p y las (1, ...p ! 1). Vamos a obtener expresiones para los determinantes de la matriz de varianzas y covarianzas y de correlacin, utilizando los resultados para matrices particionadas del captulo 2. Escribamos la matriz de varianzas y covarianzas como: 2 s1 c01R Sp = c1R Sp!1

y, por tanto, las las de la matriz S!1 contienen los coecientes de regresin (cambiados de signo) de cada variable con relacin a las restantes divididos por la varianza residual de la regresin (sin corregir por grados de libertad). En resumen, S!1 puede escribirse: ! # 0 !2 !2 b sr (1) !sr (1)"1R % & . . . ... % & S!1 = % &, ... ... " $ 0 !2 ! 2 b !sr (p)" sr (p) pR

APNDICE 3.2 LOS DETERMINANTES DE S Y R.

0 donde s2 1 es la varianza de la primera variable, c1R contiene las covarianzas entre la primera y utilizamos ahora la notacin Sp para referirnos a la matriz de varianzas y covarianzas de las correspondientes p variables. Aplicando la frmula para el determinante de una matriz particionada, podemos escribir 2 |Sp | = |Sp!1 | s2 1 1 ! R1.2...p

104

CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES

2 donde R1 .2...p es el coeciente de correlacin mltiple entre la primera variable y el resto que viene dado, utilizando los resultados del apndice 3.1, por

R2 1.2...p =

1 0 c1R Sp!1 c1R s2 1

Anlogamente si escribimos la matriz de correlacin particionada como 1 r01R Rp = r1R Rp!1 donde r1R y Rp!1 son, respectivamente, el vector de correlaciones de la primera variable con el resto y la matriz de correlacin entre el resto de las variables. Entonces, |Rp | = |Rp!1 | 1 ! R2 (3.26) 1.2...p , ya que, tambin
0 2 R1 .2...p = r1R Rp!1 r1R .

Para demostrar esta igualdad, observemos que la relacin entre los vectores de correla!1/2 !1/2 ciones y covarianzas es r1R = Dp!1 c1R /s1 , donde Dp!1 contiene las inversas de las desvia!1/2 !1/2 ciones tpicas de las p ! 1 variables. Como Rp!1 = Dp!1 Sp!1 Dp!1 , tenemos que
1 r01R Rp!1 r1R = (c01R /s1 )Dp!1 Dp!1 S! p!1 Dp!1 Dp!1 (c1R /s1 ) = !1/2 1/2 1/2 !1/2

1 0 !1 2 c1R Sp!1 c1R = R1 .2...p s2 1

Aplicando sucesivamente la ecuacin (3.26), se obtiene que 2 2 |Rp | = 1 ! R1 1 ! R2 .2...p 2.3p ... 1 ! rp!1.p .

APNDICE 3.3 CORRELACIONES PARCIALES


El coeciente de correlacin parcial es el coeciente de correlacin simple en una regresin entre residuos. Su cuadrado puede interpretarse de la forma habitual como la proporcin de variacin explicada respecto al total, siendo en este caso la variacin total la no explicada por otra regresin previa. Vamos a utilizar esta interpretacin para obtener la relacin entre los coecientes de correlacin parcial y mltiple. Supongamos p variables y vamos a obtener el coeciente de correlacin parcial entre las variables x1 , y x2 , cuando se controlan x3 , ..., xp . Para ello haremos una regresin simple entre dos variables: la primera es e1.3..p , los residuos de una regresin entre x1 y x3 , ..., xp , y la segunda e2.3..p , los residuos de una regresin entre x2 y x3 , ..., xp . El coeciente de correlacin simple de esta regresin entre residuos, r12.3...p , es el coeciente de correlacin parcial. Por construccin este coeciente es simtrico entre el par de variables, pero suponiendo que tomamos la primera variable como dependiente en la regresin, la ecuacin estimada entre los residuos es e1.3,...,p = b12.3,...,p e2.3,..,.p

3.9. COEFICIENTES DE ASIMETRA Y KURTOSIS y el coeciente de correlacin de esta regresin, que es el de correlacin parcial, ser r12.3...p = b12.3,...,p s(e1.3,...,p ) s(e2.3,..,.p )

105

Vamos a comprobar que estos trminos los podemos obtener de la matriz S!1 . En esta matriz 2 2 21 b b s12 = !s! = !s! r (1)% 12.3,...,p = s r (2)% 12.3,...,p ya que la matriz es simtrica. dividiendo 11 22 por la raiz de los elementos s y s . Se obtiene !
2 b s! s12 sr (2) r (1)% 12.3,...,p b = =% 12.3,...,p ! 1 ! 1 22 11 s s sr (1)sr (2) sr (1)

y puede comprobarse que esta expresin es r12.3...p , el coeciente de correlacin parcial. En la regresin entre los residuos el cociente entre la variabilidad no explicada y la total es uno menos el cuadrado del coeciente de correlacin. La variabilidad no explicada en esta regresin es la variabilidad no explicada de la primera variable respecto a todas, que llamaremos V N E1.23...p (e1.3..p contena la parte no explicada por las variables 3, .., p y ahora hemos aadido la x2 ). La variabilidad total de la regresin es la de los residuos, e1.3..p , es decir la no explicada en la regresin de x1 respecto a x2 , ..., xp . Por tanto, podemos escribir:
2 1 ! r12 .3...p =

V N E1.2,3,...,p V N E1.3...p

Vamos a expresar estas V N E en funcin de los coecientes de correlacin mltiple de las 2 correspondientes regresiones. Llamando R1 .3...p al coeciente de determinacin en la regresin mltiple de x1 respecto a x3 , ..., xp :
2 1 ! R1 .3...p =

V N E1.3,..,.p V T1

donde V T1 es la variabilidad de la primera variable. Analogamente, en la regresin mltiple entre la primera variable y todas las dems, x2 , x3 , ..., xp tenemos que
2 1 ! R1 .23...p =

V NE1.2,3,...,p . V T1

De estas tres ecuaciones deducimos que


2 1 ! r12 .3...p = 2 1 ! R1 .23...p 2 1 ! R1 .3...p

(3.27)

que permite calcular los coecientes de correlacin parcial en funcin de los coecientes de correlacin mltiple. Aplicando reiteradamente esta expresin podemos tambin escribir 2 2 2 2 2 1 ! R1 = 1 ! r 1 ! r ... 1 ! r 1 ! r .23...p 12.3...p 13.4...p 1p!1.p 1p

Tambin puede demostrarse (vase Pea, 2002) que el coeciente de correlacin parcial entre las variables (x1 , x2 ) cuando se controlan las variables (x3 , ..., xp ) puede expresarse en

106

CAPTULO 3. DESCRIPCIN DE DATOS MULTIVARIANTES

funcin del coeciente de regresin de la variable x2 en la regresin de x1 con respecto a (x2 , x3 , ..., xp ), y su varianza. La expresin es: ! r h i 2 b b b r12.3...p = % % + (n ! p ! 1)s2 % )
12.3...p 12.3...p 12.3...p

h i 2 b b donde % y su varianza, s % 12.3...p 12.3...p se obtienen en la regresin entre variables de media cero: b b b x b1 = % 12.3...p x2 + % 13.2...p x3 + ... + % 1p.2...p!1 xp

Captulo 4 ANALISIS GRAFICO Y DATOS ATIPICOS


4.1 INTRODUCCIN

En este captulo vamos a continuar la descripcin de datos multivariantes, estudiando su representacin grca y posibles transformaciones de las variables que conduzcan a una descripcin ms simple de los datos. Tambin introduciremos un anlisis inicial de la homogeneidad de la muestra mediante el estudio de los posibles valores atpicos, debidos a errores de medida, o otras causas de heterogeneidad. Obtener buenas representaciones grcas de datos multivariantes es un problema difcil, y en este captulo introduciremos los mtodos ms simples que se complementarn con los anlisis grcos presentados en captulos posteriores. Recordemos que las correlaciones miden las relaciones lineales entre las variables, y pueden ser m interpretadas cuando las relaciones son no lineales. Por esa razn se intenta transformar las variables para que las variables transformadas tengan relaciones aproximadamente lineales, y veremos como generalizar las transformaciones univariantes para conseguir este objetivo. Por ltimo, los datos multivariantes contienen con freuencia observaciones que son heterogeneas con el resto y, que si no son detectadas, pueden alterar completamente el anlisis descriptivo de las variables originales. En este captulo presentaremos mtodos para detectar los datos atpicos.

4.2
4.2.1

REPRESENTACIONES GRFICAS
Histogramas y diagramas de dispersin

El primer paso de cualquier anlisis multivariante es representar grcamente las variables individualmente, mediante un histograma o un diagrama de caja. Estas representaciones son muy tiles para detectar asmetras, heterogeneidad, datos atpicos etc. En segundo lugar conviene construir los diagramas de dispersin de las variables por pares, y esta posibilidad se incluye ya en muchos programas de ordenador. Con p variables existen p(p ! 1)/2 grcos posibles que pueden disponerse en forma de matriz y son muy tiles para entender el tipo de relacin existente entre pares de variables, e identicar puntos atpicos en la relacin 107

108

CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS

bivariante. En particular, estos grcos son importantes para apreciar si existen relaciones no lineales, en cuyo caso la matriz de covarianzas puede no ser un buen resumen de la dependencia entre las variables. Podemos simular grcos de tres variables presentando en la pantalla de un ordenador proyecciones adecuadas de esta relacin girando el punto de vista del observador para dar idea del espacio tridimensional. Estas representaciones grcas se conocen con el nombre de Gran Tour de los datos y pueden ser muy tiles, utilizados interactivamente con un ordenador, pero no pueden construirse para dimensiones superiores a tres. Tambin para variables discretas podemos construir diagramas de barras tridimensionales y para variables continuas podemos construir los equivalentes multidimensionales de los histogramas. La gura 4.3 presenta un ejemplo de estas representaciones. Ejemplo 4.1 La gura muestra los grcos de dispersin de los datos de medidas de desarrollo del mundo, MUNDODES, del Anexo I.
5 10 15 20 25 40 50 60 70 0 10000 30000 10 20 30 40 50

TasaNat.

20

5 10

TasaMort

MortInf

60

70

40

50

EspHom

EspMuj
30000

0 10000

PNB

10

20

30

40

50

50

100

150

40

50

60

70

80

Figura 4.1: Matriz de dispersin para los datos MUNDOES. La gura 4.1 ilustra claramente que existen relaciones de dependencia fuerte entre las variables, muchas de carcter no lineal. Por ejemplo, la relacin entre las variables primera y segunda, tasa de natalidad y de mortalidad, es claramente no lineal y se observa un valor atpico muy destacado en la relacin. En toda la primera la (o columna) que indica las relaciones de la primera variable (tasa de natalidad) con las restantes las relaciones parecen no lineales y , en algunos casos, heterocedstica. Comentarios similares se aplican a la segunda variable. En otros casos parece que la relacin entre dos variables es diferente para distintos grupos de pases. Por ejemplo, en prcticamente todas las relaciones en que aparece la sexta variable, riqueza del pas medida por el PNB, parecen existir dos tipos de pases. En unos parece no existir relacin entre la variable demogrca y el PNB, mientras que en los otros parece existir una clara relacin positiva (como con la tasa de mortalidad) o negativa (como con la mortalidad infantil) entre las variables demogrcas y el PNB.

40 50 60 70 80

50 100

4.2. REPRESENTACIONES GRFICAS

109

Esta gura muestra adems que algunas de las relaciones son heterocedsticas, es decir, que la variabilidad de la relacin aumenta al aumentar los niveles de las variables. Por ejemplo, en la relacin entre tasa de natalidad y mortalidad infantil, donde adems se aprecia claramente un valor atpico. Este punto aparece muy claramente en la relacin entre las dos primeras variables (posiciones 1,2 y 2,1 de la matriz) y en los grcos de la segunda la y columna, indicando que el punto es atpico en las dos primeras variables. Finalmente algunas relaciones son muy fuertes y lineales como entre las esperanzas de vida y la mortalidad infantil. Ejemplo 4.2 El grco siguiente presenta los diagramas de dispersin para los datos de las ACCIONES.
30 40 50 60 70 80 90 100 17.0 14.5 12.0 X1 9.5 7.0

34

4.5 2.0

100 90 80 70 60 50 40 30

X2

34 1 1

30 25 20 X3 15 10 5

2.0

4.5

7.0

9.5 12.0 14.5 17.0

10

15

20

25

30

Figura 4.2: Matriz de dispersin de los datos de ACCIONES En la gura 4.2 se observa como la primera observacin aparece como un valor atpico en todos los diagramas de dispersin. En los grcos con la tercera variable este punto es un valor muy extremo en la relacin, mientras que en los grco de las otras dos variables aparece como atpico, pero no parece muy inuyente en la relacin lineal entre ambas variables. La accin 34 aparece, al igual que la 1, como una observacin aislada heterognea con el resto. En este caso podemos hacer una representacin en tres dimensiones de las tres variables. En la gura 4.3 se observa que la relacin entre las variables x1 y x2 depende del nivel de la x3 . El grco ilustra tambin con claridad el carcter claramente atpico de las observaciones 1 y 34 que aparecen muy separadas del resto. Por otro lado, se observa en el grco tridimendional que las observaciones se agrupan en dos conjuntos distintos. Esta caracterstica, que se apunta en los grcos bidimensionales, aparece claramente de maniesto en la representacin tridimendional, ilustrando las ventajas de construir estas representaciones cuando sea posible.

110

CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS

34

Figura 4.3: Representacion Tridimensional de los datos de ACCIONES En la gura 4.4 se presenta la matriz de datos de dispersin para los datos de las acciones ahora en los logaritmos de las variables. Se observa que la transformacin en logaritmos aporta mayor linealidad a las relaciones entre variables dos a dos y reduce algo el efecto de la primera observacin que es atpica.
3.4 3.6 3.8 4.0 4.2 4.4 4.6

X1

4.2

4.6

X2
3.4 3.8

X3

1.5

2.0

2.5

1.5

2.0

2.5

3.0

Figura 4.4: Matriz de dispersin para los logartimos de los datos de ACCIONES. Ejemplo 4.3 La gura 4.5 representa los datos A.4, INVEST, para las publicaciones cientcas. Se observa que existe una fuerte relacin entre todas las variables. Las relaciones son aproximadamente lineales, si bien en algunos casos se observa cierta curvatura que podra

1.5

2.0

2.5

3.0

1.5

2.0

2.5

4.2. REPRESENTACIONES GRFICAS resolverse tomando logaritmos. No hay valores atpicos muy destacados.
6 8 10 12 6 7 8 9 10 4 6 8 10 6 7 8 9 10 12 9 11 13

111

INTER.A

8 10

INTER.F

AGRIC.
10

BIOLO.

MEDIC.
12

QUIMI.

10 12

FISICA
7 8 9 11 13 6 7 8 9 10 7 8 9 11 6 7 8 9 10

Figura 4.5: Representacin como matriz de dispersin de los datos de INVES Ejemplo 4.4 La gura 4.6 presenta los grcos de dispersin para los datos de medidas sicas del banco de datos MEDIFIS. Las relaciones son aproximadamente lineales y no se detecta la presencia de datos atpicos destacados.

4.2.2

Representacin mediante guras

Para ms de tres variables se utilizan principalmente dos tipos de mtodos grcos. El primero, es mostrar los datos mediante guras planas, asociando cada variable a una caracterstica del grco. El segundo, es buscar conjuntos de proyecciones en una y dos dimensiones que revelen aspectos caractersticos de los datos. Vamos a presentar en esta seccin el primer enfoque, en la seccin siguiente hablaremos del segundo. Existen muchas alternativas posibles para representar los datos mediante guras. Cherno! ha propuesto la utilizacin de caras, que tienen la ventaja de nuestra facilidad para reconocer patrones en este formato y el inconveniente de que la representacin es muy dependiente de las variables escogidas para representar cada rasgo. Por ejemplo, la boca y la forma de la cabeza son rasgos ms llamativos que las orejas o la longitud de la nariz, y el mismo conjunto de datos puede sugerir distintos patrones de similitud entre las observaciones segn la asociacin elegida entre rasgos y variables. La gura 4.7 presenta un ejemplo. Si asociamos cada variable a un rasgo de una gura plana, podemos representar cada elemento en la muestra por una gura geomtrica. En estas representaciones las similitudes

INGEN.

10

11

10

112

CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS

entre guras indican las similitudes entre los elementos, y los valores atpicos aparecern como guras discordantes con el resto. Una gura muy utilizada es la estrella. Por ejemplo, para representar cinco variables, podemos escoger una estrella de cinco radios y asociar cada variable a cada uno de estos radios o ejes. Cada observacin dar lugar a una estrella. Normalmente las variables se estandarizan de manera que tengan media cero y desviacin tpica unitaria. Entonces, se marca el cero sobre cada eje y se representa el valor de la variable en unidades de desviaciones tpicas. La gura 4.8 presenta un ejemplo de su uso. Ejemplo 4.5 La gura 4.7 presenta una representacin grca de los datos de investigacin, INVEST, con las Caras de Cherno!. Cada observacin es convertida en una cara, y cada variable es asignada a una caracterstica de la misma. Para el siguiente ejemplo se ha utilizado el programa Splus, que asigna las variables a las siguientes caractersticas: (1) rea de la cara; (2) forma de la cara; (3) longitud de la nariz; (4) localizacin de la boca; (5) curva de la sonrisa; (6) grosor de la boca; (7a 11) localizacin, separacin, ngulo, forma y grosor de los ojos, etc. Se puede representar ms de 15 caractersticas, y, originalmente, Cherno! logr representar 18 variables en una cara. En la gura 4.7 se han representado los pases contenidos en la base de datos INVEST pero eliminado EEUU, ya que este pas distorsionara la representacin grca por tomar un valor muy extremo en todas las variables. En este tipo de grcos podemos o bien ver el comportamiento por separado de cada variable o bien la similitud global de cada dato multivariado. Por ejemplo, la variable MEDIC se ha asignado a la curva de la sonrisa y vemos que los primeros cuatro pases son claramente diferentes en cuanto a esta caracterstica. Sin embargo, juzgando globalmente, notamos que el comportamiento ms parecido lo presentan los cinco primeros pases. La representacin de las caras de Cherno! nos permite observar las diferencias entre los pases en cuanto al volumen de publicaciones. Para observar las diferencias entre los patrones de publicacin de los distintos pases deberamos aplicar logaritmos a los datos para reducir la asimetra en las distribuciones univariantes, observada en la gura 4.10, y para linealizar ms las relaciones. Ejemplo 4.6 Para representar los pases con las variables en logaritmos se ha optado por un grco de estrellas. Como se explic anteriormente, cada radio de la estrella est asociado a una variable, en el ejemplo que trataremos fue utilizado Splus, este programa comienza a asignar variables desde la derecha en el sentido opuesto a las agujas del reloj. En la gura 4.8 se presenta cmo es esta asignacin para las variables de la base INVEST.En la gura 4.9 se siguen observando diferencias de tamao entre los primeros cinco pases y el resto, pero se aprecian ciertos patrones en los que se distinguen pases con tendencia a la investigacin en algunas reas frente a otras.

4.2.3

(*)Representacin de Proyecciones

En lugar de intentar representar las variables originales por pares podramos intentar representar parejas de variables que resuman en algn sentido el conjunto de variables. Esperamos as obtener una mayor intuicin visual de las propiedades de los datos. Una forma simple de resumir un vector de variables es construir una variable escalar como combinacin lineal de

4.2. REPRESENTACIONES GRFICAS

113

sus valores. Por ejemplo, si x0 = (x1 , ..., xp ) representa el precio de un conjunto de productos en un mercado, una medida resumen de estos precios es: y =ax=
0 p X j =1

aj xj .

(4.1)

/p, la combinacin lineal resultante es la media de los precios. Si aj 6= 1/p, pero Si aj = 1P aj ) 0 y aj = 1 la nueva variable es una media ponderada de las variables originales con pesos aj . En general (4.1) dene una nueva variable que informa globalmente del conjunto de variables X. La variable escalar obtenida mediante una combinacin lineal puede siempre interpretarse geomtricamente como una proyeccin. El producto escalar del vector x, en <p , por otro vector a de <p viene dado por: a0 x = |a||x| cos # (4.2) y si el vector de ponderacin, a, se toma de manera que su norma sea uno, |a| = 1, el producto escalar es directamente la proyeccin del vector x sobre la direccin del vector a. En consecuencia, si elegimos una direccin con |a| = 1, la nueva variable escalar yi = a0 xi (4.3) que tomar valores (y1 , ..., yn ), puede interpretarse como la proyeccin de los datos X sobre la direccin indicada por el vector a. El conjunto de los n valores de la nueva variable y pueden englobarse en un vector y (n 1) que vendr dado por y = Xa, (4.4) donde X es la matriz de datos n p. Como construir un indicador a partir de variables multivariantes puede interpretarse como proyectar los datos sobre cierta direccin, es natural preguntarse por direcciones de proyeccin que sean informativas para revelarnos la disposicin de los puntos en el espacio. Para ello tenemos que denir un criterio de proyeccin y encontrar la direccin donde ese criterio se maximiza. Las tcnicas diseadas con este objetivo se conocen como bsqueda de proyecciones (projection pursuit), y se aplican como sigue: 1. Escoger la dimensin del espacio sobre el que vamos a proyectar (normalmente 2), y el criterio que se desea maximizar. 2. Encontrar la direccin que maximiza el criterio analiticamente. Si no es posible encontrar la direccin de forma analtica hacerlo de manera aproximada, por ejemplo seleccionando un nmero grande de direcciones (a1 , ..., aN ), evaluando el criterio en cada una y seleccionando la direccin de este conjunto donde el criterio toma el valor mximo. 3. Encontrar una direccin ortogonal a la primera que maximice el criterio. Esto puede hacerse por ejemplo proyectando los datos sobre el espacio ortogonal a la primera direccin, a, lo que supone transformales con Y = (I ! aa0)X y aplicar el algortimo del punto 2 a los nuevos datos Y.

114

CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS

4. Representar los datos sobre el plano denido por las dos direcciones de proyeccin. Se suelen considerar interesantes las proyecciones que muestren relaciones no lineales entre las variables, o distribuciones multimodales que pueden indicar la presencia de clusters o grupos de observaciones. Inicialmente las funciones objetivo utilizadas se basaban en la teora de la informacin. Por ejemplo, una medida de diversidad o heterogeneidad es la entropa de Shannon Z I (x) = log f (x)f (x)dx que, entre las distribuciones continuas, se minimiza con la distribucin normal. Si maximizamos esta funcin esperamos obtener proyecciones donde la distribucin resultante se aparte ms de la normal, en cierto sentido, lo que puede resultar en combinaciones interesantes y estructuras inesperadas entre las variables. Naturalmente otros muchos criterios son posibles, y en la seccin 4.5 utilizaremos otro criterio para buscar direcciones que muestren la presencia de atpicos. En el captulo siguiente utilizaremos estas ideas para obtener proyeciones que mantengan lo ms posible las distancias entre los puntos en el espacio. Los captulos 5, 6 y 7 presentan ms ejemplos de estas tcnicas grcas.

4.3
4.3.1

TRANSFORMACIONES LINEALES
Consecuencias

Muchas propiedades importantes de los datos son independientes de las unidades de medida de las variables y no cambiarn si pasamos de euros a dlares o de centmetros a metros. Vamos a estudiar como afectan cambios en las unidades de medida a los estadsticos estudiados en el captulo 3. Por ejemplo, supongamos que en lugar de medir una variable bidimensional x =(x1 , x2 )0 en euros y en unidades lo hacemos en dlares y en miles de unidades, y = (y1 , y2 )0 . La relacin entre ambas variables ser: y = Ax (4.5)

donde A es una matriz diagonal que tiene como trminos diagonales los factores de conversin de euros a dlares y de unidades a miles de unidades (1/1000). Para el conjunto de las n observaciones la relacin ser: Y=XA (4.6)

donde X e Y son n p, y A es una matriz diagonal p p. Aplicando la denicin de vector de medias y=


0 1 0 1 Y 1 = A0 X0 1 =A x n n

(4.7)

y como A = A0 , el vector de medias se transforma de la misma forma que los hacen las variables.

4.3. TRANSFORMACIONES LINEALES Las matrices de varianzas y covarianzas estarn relacionadas por: Sy = 1 0 1 0 Y PY = A0 ( X0 PX)A =A Sx A. n n

115

(4.8)

El cambio de unidades es un caso particular de una transformacin lineal de las variables para simplicar su interpretacin. Una transformacin lineal importante es la estandarizacin de las variables, que puede hacerse de dos formas distintas, como veremos a continuacin.

4.3.2

Estandarizacin univariante
y = D!1/2 (x!x)

Llamando x al vector p 1 de la variable vectorial, la transformacin lineal

donde la matriz D!1/2 es cuadrada y diagonal con trminos: ! !1 # s1 0 ... 0 1 ... 0 $, D!1/2 = " 0 s! 2 1 0 0 . . . s! p

convierte las variables originales, x, en otras nuevas variables, y, de media cero y varianza unidad. Cada componente del vector x, xj para j = 1, ..., p, se transforma con yj = (xj ! xj )/sj . La matriz de varianzas y covarianzas de las nuevas variables ser la matriz de correlacin de las variables primitivas. Esta transformacin es la estandarizacin univariante de las variables.

4.3.3

(*)Estandarizacin multivariante
1/2

Dada una matriz denida positiva, Sx , puede denirse su raz cuadrada Sx , por la condicin
/2 1/2 0 Sx = S1 x (Sx ) 1/2 1/2

(4.9)

La matriz Sx no es nica (vase 2.4.2). En efecto si Sx verica la condicin (4.9) 1/2 1/2 tambin la verica Sx M, donde M es cualquier matriz ortogonal. La matriz Sx puede construirse a partir de la descomposicin espectral Sx = ADA0 donde D es diagonal y contiene los valores propios de Sx y A es ortogonal y contiene los vectores propios. Sea D1/2 la matriz diagonal cuyos trminos son las races cuadradas de los trminos de D, que son positivos. Deniendo la raiz cuadrada por la matriz simtrica:
1/2 0 /2 S1 A x = AD

(4.10)

116 la variable

CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS

1/2 y = S! (x!x) x

tiene media cero y matriz de varianzas y covarianzas identidad, ya que


1/2 1/2 Sx S! =I Sy = S! x x

Con esta transformacin pasamos de variables correladas, con matriz de covarianza Sx, a variable incorreladas, con matriz de varianzas identidad. El nuevo conjunto de variables viene dado por
!1/2 0 e e !1/2 = XAD A Y = XS x

Esta estandarizacin se denomina multivariante, ya que utiliza todas las covarianzas para estandarizar cada variable. Observemos que la estandarizacin univariante utiliza slo los trminos diagonales de Sx para construir D!1/2 , y no tiene en cuenta las covarianzas, mientras que la multivariante utiliza toda la matriz. Ejemplo 4.7 La tabla A.4 de los daos de INVEST presenta el nmero de publicaciones recogidas en un trienio en 8 bases de datos de produccin cientca para los pases de la OCDE. (La descripcin de las fuentes se encuentra en el apndice de datos). En la gura 4.10 se presenta un diagrama de cajas mltiple (Boxplot) que permite, adems de la exploracin de cada una de las variables, comparar los rangos de todas ellas de forma conjunta.

200000

400000

600000

800000

INTER.A INTER.F AGRIC.

BIOLO.

MEDIC.

QUIMI.

INGEN.

FISICA

Figura 4.10: Diagrama de cajas de las variables de INVEST. En el grco se observa la existencia de un atpico en todas las variables (EEUU) y una asimetra en la distribucin de todas las variables que puede estar producida por ste dato.

4.4. TRANSFORMACIONES NO LINEALES


INTER.A 4.2223 0.4845 0.1627 0.2375 0.0782 -0.0269 -0.1975 -0.2363 -0.2719 -0.2796 -0.2914 -0.3490 -0.3440 -0.3590 -0.3803 -0.3800 -0.3911 -0.4162 -0.4217 -0.4042 -0.4360 INTER.F 4.0650 0.5640 0.4247 0.3930 0.5000 0.0698 -0.1687 -0.2594 -0.3102 -0.3325 -0.3527 -0.3854 -0.3857 -0.5216 -0.3692 -0.4502 -0.4626 -0.4925 -0.4950 -0.5257 -0.5050 AGRIC. 3.9773 1.2398 0.1562 0.1480 0.0417 0.1594 -0.1545 0.0765 -0.2232 -0.3551 -0.3861 -0.4009 -0.3932 -0.4241 -0.4856 -0.4552 -0.4667 -0.4550 -0.5235 -0.5368 -0.5391 BIOLO. 3.5825 1.4429 0.4567 0.0406 0.7273 0.4540 0.2062 -0.0645 -0.2395 -0.0918 -0.5353 -0.5092 -0.5069 -0.3817 -0.6308 -0.4506 -0.5608 -0.7199 -0.7124 -0.7256 -0.7810 MEDIC. 4.1091 0.5513 0.4788 0.3755 0.2177 -0.1104 0.0336 -0.3089 -0.2811 -0.2606 -0.3287 -0.3994 -0.3831 -0.3782 -0.4224 -0.4260 -0.4428 -0.4971 -0.5024 -0.5053 -0.5197 QUIMI. 3.3889 0.2697 2.2109 0.5152 0.0305 0.3521 -0.2367 -0.3865 -0.3561 -0.3982 -0.3895 -0.4237 -0.4554 -0.4348 -0.5026 -0.5032 -0.5150 -0.4996 -0.5412 -0.5620 -0.5627 INGEN. 4.1696 -0.1532 0.9060 -0.0054 0.0491 0.0793 -0.1770 -0.2156 -0.2611 -0.3194 -0.3124 -0.3660 -0.3448 -0.3686 -0.3636 -0.3767 -0.3803 -0.3849 -0.3810 -0.3964 -0.3976 FISICA 4.0846 0.4831 0.6573 0.5237 0.1381 -0.0716 -0.1643 -0.3065 -0.2931 -0.3839 -0.3210 -0.4081 -0.3877 -0.4276 -0.4197 -0.4369 -0.4598 -0.4315 -0.4454 -0.4574 -0.4722

117

EE.UU UK JP F G C I A H S CH E B D AU FI N Y GR IR P

Tabla 4.1: Estandarizacin univariante de INVEST Vamos a estudiar para estos datos las dos estandarizaciones propuestas: Se observa que la estandarizacin univariante resalta el valor atpico de EEUU, pero mantiene sin cambios importantes las variables, que sufren solamente un cambio de escala. La estandarizacin multivariante transforma totalmente las variables originales. En la primera variable EEUU sigue siendo atpico, pero en las siguientes esta caracterstica desaparece. En el captulo siguiente, componentes principales, interpretaremos las propiedades de estas nuevas variables transformadas.

4.4
4.4.1

TRANSFORMACIONES NO LINEALES
Simplicidad en las distribuciones

El anlisis de un conjunto de datos multivariante es ms simple cuando su distribucin es simtrica y las relaciones entre las variables son lineales, y la mayora de los mtodos multivariantes hacen estas hiptesis. En estas condiciones, la matriz de varianzas y covarianzas es un buen resumen de las relaciones de dependencia existentes. Al elegir las variables conviene tener en cuenta que la misma variable puede medirse de muchas formas, en principio igualmente vlidas. Por ejemplo, el consumo de gasolina de un automvil se expresa en Europa en litros cada 100 kilmetros (x) mientras que en EE.UU

118 y1
EE.UU UK JP F G C I A H S CH E B D AU FI N Y GR IR P

CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS y2


-0.36 -2.14 3.81 0.58 -0.70 0.18 -0.48 -0.66 -0.23 -0.35 0.08 0.01 -0.05 -0.07 0.05 -0.12 -0.03 0.14 0.12 0.09 0.15

y3 .
1.53 -2.70 -1.77 0.02 -1.11 -1.40 -0.61 -0.28 0.05 -0.28 0.62 0.40 0.48 0.12 0.73 0.31 0.51 0.77 0.81 0.86 0.93

y4
-0.22 2.18 0.18 1.78 -2.88 -0.64 -1.33 0.52 -0.03 -1.14 0.32 0.18 0.12 -0.19 -0.02 -0.32 -0.04 0.68 0.23 0.26 0.36

y5
-0.46 0.00 -0.43 3.29 1.90 -1.47 0.34 -1.76 -0.42 -0.06 0.24 -0.01 -0.04 -0.48 0.34 -0.17 -0.20 -0.27 -0.11 -0.14 -0.09

y6
-0.12 -0.25 -0.34 0.11 1.81 1.72 -2.79 0.92 -0.29 -1.25 -0.06 0.34 0.14 -1.67 0.80 -0.33 -0.07 0.47 0.33 -0.00 0.52

y7
0.12 0.18 -0.60 0.32 -0.65 1.96 -1.84 -2.36 -0.66 1.71 0.22 0.36 -0.18 1.41 -0.50 0.65 0.26 -0.59 -0.17 0.70 -0.35

y8
0.05 0.44 0.25 -0.81 -0.57 -0.36 0.19 -0.56 -1.06 0.94 0.92 2.03 0.91 -1.15 2.10 -0.96 0.90 -0.62 -1.38 -1.31 0.06

4.15 0.64 0.70 0.29 0.23 0.11 -0.11 -0.22 -0.29 -0.32 -0.38 -0.42 -0.42 -0.43 -0.47 -0.46 -0.48 -0.51 -0.53 -0.54 -0.55

Tabla 4.2: Estandarizacin multivariante de INVEST se expresa en km recorridos con 1 litro (o galn) de gasolina (y ). La relacin entre ambas medidas es no lineal, ya que y = 100/x. Como segundo ejemplo, para medir el crecimiento de una variable Ct en el tiempo podemos calcular las diferencias Ct ! Ct!1 , pero en general resulta ms relevante considerar las diferencias relativas (Ct ! Ct!1 )/Ct!1 o (Ct ! Ct!1 )/Ct . Si expresamos la variable en logaritmos, sus diferencias en dicha escala son una buena medida del crecimiento relativo, ya que: Ct Ct ! Ct!1 Ct ! Ct!1 ln Ct ! ln Ct!1 = ln = ln 1 + ' Ct!1 Ct!1 Ct!1 utilizando que ln(1 + x) es aproximadamente x, si x es pequeo. Adems, es fcil demostrar que, supuesto Ct ) Ct!1 : Ct ! Ct!1 Ct Ct ! Ct!1 # ln # Ct Ct!1 Ct!1 y las diferencias de las variables en logaritmos son una medida promedio de las dos formas posibles de medir el crecimiento relativo. El logaritmo es una de las transformaciones ms utilizadas para datos positivos ya que: (1) Las distribuciones que describen el tamao de las cosas (renta de pases o familias habitantes en las principales ciudades del mundo, tamao de empresas, consumo de energa

4.4. TRANSFORMACIONES NO LINEALES

119

en hogares, etc), son generalmente muy asimtricas, pero se convierten en aproximadamente simtricas al expresar la variable en logaritmos. (2) Cuando las diferencias relativas entre los valores de la variable sean importantes, conviene expresar las variables en logaritmos, ya que las diferencias entre logaritmos equivalen a diferencias relativas en la escala original. (3) La variabilidad de las variable transformada es independiente de las unidades de medida. Para comprobar esta ltima propiedad, supongamos una variable escalar x que transformamos con y = log x y la variable transformada tiene media y y varianza s2 y . Si cambiamos las unidades de medida de x multiplicando por una constante, z = kx, entonces la variable logz tiene media y + log k y la misma varianza que la variable log x.

4.4.2

Simplicidad en las relaciones

Es frecuente con datos econmicos observar fuertes relaciones no lineales entre las variables. En estos casos, el anlisis de los datos se simplica mucho si transformamos las variables de manera que las nuevas variables tengan relaciones lineales. Por ejemplo, una relacin frecuente es del tipo proporcional y = kxb (4.11)

que implica que si la variable x aumenta en una unidad la variable y aumenta (supuesto b > 0) una cantidad que depende del valor de x, pero el incremento proporcional de y cuando x aumenta un 1% es constante e igual al b%. Esta relacin suele ir unida a heterocedasticidad en la relacin, manifestada en una mayor variabilidad en el grco de dispersin cuando las variables toman valores altos que en la zona de valores bajos. La relacin puede convertirse en lineal y homocedstica (varianza constante) transformando las variables en logaritmos. En efecto, tomando logaritmos en (4.11) y llamando y $ = log y, x$ = log x tenemos una relacin lineal entre las nuevas variables (x$ y $ ). A la hora de decidir si transformar o no las variables es importante tener en cuenta la interpretacin de las nuevas variables. Las transformaciones habituales de las variables individuales pueden escribirse mediante la familia potencial de Box-Cox: y (") = y (") x" ! 1 , para " 6= 0 " = log x, para " = 0.

Un estudio ms detallado de esta transformacin incluyendo la estimacin del parmetro " se realizar en el captulo 10. La transformacin puede extenderse para tratar de transformar conjuntamente el vector de variables para que todas las distribuciones conjuntas de grupos de variables sean simtricas. (vease Gnanadesikan, 1997). Ejemplo 4.8 La gura 4.11 presenta los diagramas de dispersin de las variables de INVES en logaritmos con los histogramas de las variables en la diagonal principal. Este grco se ha hecho con Matlab. Se observa que la transformacin logartmica hace las relaciones ms lineales y los histogramas de todas las variables ms simtricos.

120

CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS

Ejemplo 4.9 La gura 4.12 muestra la representacin de los datos de EPF en logaritmos. Se observa que las relaciones son aproximadamente lineales y los histogramas simtricos.

4.5
4.5.1

DATOS ATPICOS
Denicin

Llamaremos datos atpicos a aquellas observaciones que parecen haberse generado de forma distinta al resto de los datos. Pueden ser causadas por errores de medicin o transcripcin, cambios en el instrumento de medicin o a heterogeneidad intrnseca de los elementos observados. Por ejemplo, supongamos que estamos estudiando las caractersticas de las viviendas en una zona urbana donde la gran mayora son pisos, pero se ha incluido en la muestra una gran vivienda unifamiliar con jardn. Esta observacin ser atpica y corresponde a una heterogeneidad real de los datos. Es importante detectarla ya que obtendremos una mejor descripcin de los datos separando ambos tipos de viviendas. Los anlisis efectuados sobre datos recogidos en condiciones de estrecho control, revelan que es frecuente que aparezcan entre un 1% y un 3% de observaciones atpicas respecto al resto de la muestra. Cuando los datos se han recogido sin un cuidado especial, la proporcin de datos atpicos puede llegar al 5% y ser incluso mayor. La caracterizacin de un slo valor atpico es simple ya que, por denicin, debe estar alejado del resto, con lo que la distancia entre el atpico y el resto de las observaciones ser grande. Alternativamente, podemos denir una atpico como aquel punto que se encuentra lejos del centro de los datos. Llamando x al vector de medias y utilizando como medida de distancia la distancia eucldea, una observacin xi ser atpica en esta mtrica si 1/2 dE (xi ,x) = (xi !x)0 (xi !x)

es grande. Para identicar las observaciones atpicas podramos hacer un histograma de estas distancias y ver si existen puntos mucho ms alejados que los dems. Sin embargo, como hemos visto, esta medida de distancia no es razonable cuando exista dependencia entre las observaciones. La gura 4.13 ilustra una situacin donde el punto + es claramente atpico y, sin embargo, ni est a una distancia eucldea grande del centro de los datos, ni aparecer como atpico al analizar cada variable aisladamente. El problema es que, como vimos, la distancia eucldea no tiene en cuenta la estructura de correlacin de los datos, y una posibilidad mejor es estandarizar previamente los datos de forma multivariante. De esta manera los datos transformados tienen media cero y matriz de covarianzas identidad, y podemos buscar atpicos con la distancia eucldea, eliminando el problema de la correlacin entre las variables. Deniendo, como antes, las variables estandarizadas multivariantemente por:
1/2 y = S! (x!x) x

La distancia eucldea al cuadrado entre una observacin, yi , y su media, cero, ser


0 !1 0 2 d2 E (yi , 0) = yi yi = (xi !x) Sx (xi !x) = dM (xi ,x)

4.5. DATOS ATPICOS

121

y la distancia eucldea entre las variables incorreladas equivale a la distancia de Mahalanobis entre las variables originales. Podramos entonces identicar datos atpicos calculando las distancias de Mahalanobis para todos ellos y viendo si existe algn punto con una distancia mucho mayor que el resto.

4.5.2

Los efectos de los atpicos

Las consecuencias de una sola observacin atpica pueden ser graves: distorsionar las medias y desviaciones tpicas de las variables y destruir las relaciones existentes entre ellas. Para ilustrar este problema, supongamos que en una muestra multivariante de tamao n se introduce un valor atpico, xa , donde xa es un vector de falsas observaciones. Llamando x y S al vector de medias y matriz de covarianzas sin la observacin xa , y xc y Sc a los de la muestra contaminada con este dato atpico, es fcil comprobar (vese ejercicio 4.4) que xc = x + y Sc = n (xa !x)(xa !x)0 n S+ ( ). n+1 n+1 (n + 1) (4.13) (xa !x) n+1 (4.12)

Estas frmulas indican que un solo dato atpico puede afectar mucho al vector de medias y a todas las varianzas y covarianzas entre las variables. El efecto del atpico depende de su tamao, medido por su distancia eucldea al centro del resto de las observaciones, pero tambin de su posicin, ya que los trminos ms afectados de la matriz S dependen de la posicin del atpico en el espacio. En general, si el tamao del atpico es grande, lo que supone |xa !x| grande, la media, varianzas y covarianzas de las variables pueden estar muy distorsionadas. Para analizar con ms detalle la distorsin de los coecientes de correlacin, consideremos el caso ms simple de p = 2 y supongamos que x = 0, S = I, y n no muy pequeo de manera que, para simplicar la presentacin, tomaremos n w n + 1. Sea xa = (a1 , a2 )0 y supongamos para simplicar que xc w x = 0. Llamando sc ij a los elementos de Sc y tomando n w n + 1, en (4.13) tendremos que sc ii w 1 + y sc ij w ai aj , n i 6= j a2 i , n i = 1, 2 (4.14)

con lo que el coeciente de correlacin entre las dos variables ser: rc w (n + a1 a2 2 1/2 a1 ) (n
1/2 + a2 2)

" Esta expresin muestra que si a1 y a2 tienen el mismo signo y son grandes con relacin a n el coeciente tiende a uno, mientras que si tienen signos opuestos, el coeciente tiende hacia

122

CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS

menos uno. Vemos que la distorsin que produce el atpico depende no slo de su tamao sino tambin de su posicin en el espacio. La conclusin de este ejercicio es que una sola observacin puede distorsionar arbitrariamente los coecientes de correlacin entre las variables. En la gura 4.14 hemos aadido a dos variables incorreladas una observacin atpica, marcada por a, con a = (9, 9)0 . Como indica la teora que hemos visto, esta nica observacin introduce una alta correlacin entre las variables, creando una relacin inexistente. La gura 4.15 ilustra cmo una nica observacin puede ocultar una relacin existente: la observacin atpica a destruye la fuerte correlacin existente entre las variables. Cuando existe ms de un atpico en los datos, puede producirse el efecto conocido como enmascaramiento, que consiste en que observaciones atpicas similares se ocultan entre s. Por ejemplo, supongamos que en la gura 4.13 en la posicin del atpico hay tres puntos idnticos. Aunque eliminemos el primero, los otros dos continuarn distorsionando el clculo de las medias y varianzas, haciendo muy difcil su identicacin, ya que cada punto enmascara a los otros.

4.5.3

(*)Identicacin de grupos de atpicos

Hay dos losofas para tratar con la heterogeneidad. La primera es utilizar estimadores robustos, que son estimadores diseados para verse poco afectados por cierta contaminacin de atpicos. Comentaremos estos estimadores en el captulo 11. La segunda es detectar los atpicos, y aplicar el clculo de los estimadores a las muestras limpias de atpicos. Ambos enfoques son complementarios, y en esta seccin introduciremos el segundo. El procedimiento para detectar grupos de atpicos es eliminar de la muestra todos los puntos sospechosos, de manera que evitemos el enmascaramiento y podamos calcular el vector de medias y la matriz de covarianzas sin distorsiones. A continuacin identicaremos con estos estimadores la distancia de cada punto sospechoso respecto al centro de los datos, y consideraremos atpicos a los muy alejados. El primer paso para identicar las observaciones sospechosas es detectar aquellas que lo sean claramente respecto a una variable. Para ello podemos utilizar el histograma o los diagramas de caja, como hemos visto en los ejemplos anteriores. Una regla simple y automtica es considerar sospechosas aquellas observaciones tales que |xi ! med(x)| > 4, 5, Meda(x) donde med(x) es la mediana de las observaciones, que es un estimador robusto del centro de los datos, y M eda(x) es la mediana de las desviaciones absolutas |xi ! med(x)| , que es una medida robusta de la dispersin. Este mtodo puede verse como una estandarizacin robusta de los datos. Esta deteccin univariante no identicar muchos atpicos multivariantes. Por ejemplo, el punto (-1,1) marcado con + en el grco 4.13 es claramente atpico, pero no aparecer como tal en los anlisis univariantes. Con frecuencia los atpicos multivariantes corresponden a situaciones con efectos pequeos sobre todas las variables, como un error sistemtico de observacin en todas ellas, en lugar de un efecto importante sobre una variable. Si el nmero

4.5. DATOS ATPICOS

123

de variables no es muy grande, los diagramas de dispersin pueden ayudar visualmente a determinar datos atpicos en dos dimensiones. Para dimensiones mayores no es recomendable utilizar la distancia de Mahalanobis, ya que si existen grupos de atpicos, pueden distorsionar la estimacin del centro y la dispersin de los datos enmascarando los atpicos y quizs sealando como atpicos a puntos que no lo son. Para evitar este problema podemos buscar proyecciones de los datos que muestren las observaciones atpicas. Observemos que cualquier observacin atpica multivariante debe aparecer como atpica al menos en una direccin de proyeccin: la denida por la recta que une el centro de los datos con el dato atpico. En base a esta idea, Stahel (1981) y Donoho (1982) propusieron generar muchas direcciones al azar, proyectar los puntos sobre estas direcciones y marcar como datos atpicos a aquellas observaciones que aparecen como extremas en estas proyecciones. Para generar direcciones al azar pueden tomarse muestras al azar de p puntos, calcular el plano que las contiene y tomar como direccin el vector ortogonal al plano. Este mtodo funciona bien con pocas variables, pero al aumentar la dimensin del problema el nmero de direcciones que necesitamos generar para cubrir razonablemente el espacio y tener garantas de xito aumenta exponencialmente. Una solucin propuesta por Pea y Prieto (2001), es proyectar los datos sobre ciertas direcciones especcas, escogidas de manera que tengan alta probabilidad de mostrar los atipicos cuando existan. Hemos comentado que en muestras univariantes una pequea proporcin de atpicos hace aumentar el coeciente de kurtosis, lo que sugiere investigar las direcciones donde los puntos proyectados tengan mxima kurtosis univariante. Por otro lado, un grupo grande de atpicos puede producir bimodalidad y baja kurtosis, por lo que conviene tambin explorar las direcciones donde los puntos proyectados tengan mnima kurtosis. La idea del procedimiento es buscar p direcciones ortogonales de mxima kurtosis y p direcciones ortogonales de mnima kurtosis, eliminar provisionalmente los datos extremos en estas direcciones, calcular la media y la matriz de covarianzas con los datos no sospechosos y despus identicar los datos atpicos como aquellos que son extremos con la distancia de Mahalanobis calculada con las estimaciones no contaminadas. Dada la muestra multivariante (x1 , ..., xn ), el proceso se realiza como sigue: 1. Sean x y S el vector de medias y la matriz de covarianzas de los datos. Estandarizar !1/2 los datos de forma multivariante y sean zi = Sx (xi ! x) los datos estandarizados (1) con media cero y matriz de covarianzas identidad. Tomar j = 1 y zi = zi . 2. Calcular la direccin dj con norma unidad que maximiza el coeciente de kurtosis (j ) (j ) univariante de los datos proyectados. Llamando yi = d0j zi , a las datos proyectado sobre la direccin dj , esta direccin se obtiene como solucin de: X (j ) max (yi ! y (j ) )4 + "(d d ! 1) que puede resolverse como se indica en el apndice 4.1. 3. Proyectar los datos sobre un espacio de dimensin p ! j denido como el espacio ortogonal a la direccin dj . Para ello tomar z(j +1) = (I ! dj d0j )z(j ) . Hacer j = j + 1. 4. Repetir (2) y (3) hasta obtener las p direcciones, d1 , ..., dp .

124

CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS

5. Repetir (2) y (3) pero ahora minimizando la kurtosis en lugar de maximizarla para obtener otras p direcciones, dp+1 , ..., d2p 6. Considerar como sospechosos aquellos puntos que en alguna de estas 2p direcciones estn claramente alejados del resto, es decir, verican (j ) (j ) yi ! med(y ) >5 M eda(y (j ) ) A continuacin se eliminan todos los valores sospechosos detectados y se vuelve a 2 para analizar los datos restantes. La estandarizacin multivariante ahora se realizar con la nueva media y matriz de covarianzas de los datos restantes. Los pasos 2 a 6 se repiten hasta que no se detecten ms datos atpicos o se haya eliminado una proporcin de datos prejada, por ejemplo un mximo del 40% de los datos. Una vez que la muestra no contenga ms valores sospechosos con el criterio anterior se calcula el vector de medias, xR , y la matriz de covarianzas, SR , de los datos no sospechosos, y las distancias de Mahalanobis para los sospechosos como:
0 !1 d2 R (xi ,xR ) = (xi !xR )SR (xi !xR )

Por razones que veremos ms adelante al "estudiar contrastes de valores atpicos en el captulo 10, aquellos valores mayores que p + 3 2p se consideran atpicos (recordemos que el valor promedio de la distancia de Mahalanobis es p). Algunos puntos del conjunto de sospechosos sern atpicos y otros no. Los atpicos son desechados, y los buenos incoporados al conjunto de puntos. Finalmente, se calcular un vector de medias, xf , y una matriz de covarianzas, Sf , con los puntos no atpicos, que sern las estimaciones nales obtenidas de los datos. En el captulo 11 presentaremos mtodos formales para contrastar si unos datos son atpicos respecto a un modelo. En el apndice 4.1 se detalla el clculo de las direcciones que maximizan la kurtosis. El procedimiento converge rpidamente en general. Un programa de ordenador en Matlab para ejecutar este algoritmo puede bajarse de la direccin http:/****** Los datos detectados como potencialmente atpicos deben ser estudiadas con detalle para determinar las causas de la heterogeneidad. Si estos datos no tienen un error detectable, conviene, cuando sea posible, investigar las causas de su tamao anmalo ya que puede llevar a importantes descubrimientos. Si no hay un error en el dato y, sin embargo, es muy distinto de los dems, hay que sospechar que sobre esa observacin ha actuado alguna causa que no ha estado activa en el resto de las observaciones. Por ejemplo, una variable no includa en el estudio ha tomado un valor distinto en esa observacin y es responsable del cambio observado. El descubrimiento de esta variable insospechada puede ser el resultado ms importante del estudio estadstico. Muchos descubrimientos cientcos importantes, (por ejemplo la penicilina) y muchas patentes industriales, han surgido de la investigacin para determinar las razones de un dato anmalo. Ejemplo 4.10 Buscaremos datos atpicos en los datos de la EPF. En primer lugar calculamos las distancias de Mahalanobis de cada dato al centro de todos ellos. Estas distancias se presentan en el histograma de la gura 4.16. Las provincias ms alejadas del centro de

4.6. LECTURAS COMPLEMENTARIAS

125

los datos son, por este orden, Madrid (D=4.29), Gerona (D=3.98) y Navarra (3.97). Si aplicamos ahora el procedimiento de buscar direcciones extremas en la kurtosis, obtenemos los grcos de las guras 4.17, 4.18, 4.19 y 4.20. Si eliminamos estos nueve posibles datos extremos y calculamos las distancias de Mahalanobis con las medias y covarianzas calculadas sin estos datos obtenemos el histograma de la gura 4.21 . Las dos observaciones claramente extremas corresponden a Madrid y Barcelona. Observemos que en el anlisis inicial Barcelona quedaba oculta (enmascarada) por la presencia de Madrid, pero aparece claramente como atpica cuando se elimina el efecto de Madrid. Ejemplo 4.11 Vamos analizar los datos de los sectores industriales en Europa. EUROSEC. Como las variables suman 100 aproximadamente eliminaremos la ltima y trabajaremos por tanto con ocho variables. La gura 4.22 presenta el histograma de estas distancias. Hay tres pases muy alejados del resto que son Yugoeslavia (D = 4.17), Luxemburgo (D = 4.16) y Turqua (D = 4.02). Estos tres pases estn separados del resto y son atpicos en su estructura de empleo. Para entender la razn dividiremos los valores de cada uno de estos tres pases por la media. La tabla siguiente presenta los valores medios, el pas ms prximo en la distancia de Mahalanobis a esta estructura media (Francia, D = 1.4) y los cocientes entre los valores del pas ms extremo y los valores medios. Media 19.1 1.25 27.00 0.91 8.16 12.95 4.00 20.02 Francia /Med 0.56 0.64 1.01 .99 1.09 1.30 1.50 1.13 Yugoes/Med 2.54 1.19 0.62 1.21 0.60 0.49 2.82 0.26 En esta tabla aparece claramente el carcter atpico de Yugoslavia: tiene ms del doble de poblacin empleada en Agricultura y nanzas que el pas medio y la mitad de empleo en los servicios. Vamos a comparar este resultado con el que se obtendra buscando posibles grupos de atpicos. Las guras 4.23, 4.24, y ?? presentan las proyecciones sobre la direccin que maximiza la kurtosis de los datos y dos direcciones ortogonales a ella. En la primera direccin aparece como extremo el punto 7 (Luxemburgo), en la segunda el 26 (Yugoeslavia) y en la tercera el 15 (Espaa) y el 18 (Turqua). Es interesante que si eliminamos estos cuatro puntos y calculamos las distancias de Mahalanobis del resto a estos cuatro pases, Espaa aparece ms alejada que Luxemburgo.

4.6

Lecturas complementarias

El libro de Gnanadesikan (1997) ampla el material de este captulo incluyendo otros mtodos grcos para los datos, como las curvas de Andrews, donde cada observacin se representa for una funcin f (t). Este libro tambin considera con detalle la transformacin Box- Cox multivariante, que ha sido estudiada, entre otros por Velilla (1993,1995) y Atkinson (19 ). La deteccin de atpicos multivariantes ha sido objeto de numeros trabajos. Algunas referencias recientes son Rousseeuw y van Zomeren (1990), Atkinson (1994), Maronna y Yohai (1995), , Rocke y Woodru! (1996) y Juan y Prieto (2001). Volveremos sobre este tema al presentar los estimadores robustos en el captulo 11. EJERCICIOS 4.1 Construir los diagramas de dispersin con un programa de ordenador como Matlab, Minitab o Spss para los datos de EUROSEC. 4.2 Demostrar que un cambio de medida de las variables que equivale a una transformacin lineal no modica su matriz de correlacin. 4.3 Demostrar que la estandarizacin univariante no modica la matriz de correlacin de las variables. 4.3 Demostrar que la estandarizacin multivariante hace cero los coecientes de correlacin parcial entre las nuevas variables. 4.4 Demostrar que si introducimos un dato atpico en una muestra con vector de medias

126

CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS

50

60

70

80

90

70

75

80

54

56

58

60 180

est
90 160 70

pes

50

70 75 80

lbr

aes

54 56 58 60

dcr

drt
160 170 180 190 34 36 38 40 42 44 40 45 50 38 42 46 50

Figura 4.6: Matriz de dispersin para los datos de la medidas fsicas (MEDIFIS)

38 42 46 50

40 45 50

34

38

pie

42

4.6. LECTURAS COMPLEMENTARIAS

127

UK

JP

GR

AU

IR

CH

FI

Figura 4.7: Representacin de las contribuciones cientcas de los pases de INVEST en caras de Cherno!

AGRIC.

LO

MEDIC.

Q U IM I.

Figura 4.8: Esquema de asignacin de los radios de la estrella a la variables para los datos de la investigacin de los pases de la OCEDE

IN TE R .F

BI

INTER.A

FI SI C

INGEN.

128

CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS

UK

JP

CH

AU

GR

FI

IR

Figura 4.9: Representacin mediante estrellas de los pases de INVEST en logaritmos una vez eliminado EEUU.

Figura 4.11: Distribuciones conjuntas y marginales de las variables de INVES en logaritmos.

4.6. LECTURAS COMPLEMENTARIAS

129

Figura 4.12: Los datos de EPF en logaritmos. Representaciones bivariantes e histogramas.

Figura 4.13: Una observacin atpica multivariante que no aparece como tal en los anlisis univariantes.

130

CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS

Figura 4.14: En esta gura las variables estaban originalmente casi incorreladas (r = !.11), pero la presencia del valor atpico ha creado una fuerte correlacin positiva (r = .71).

Figura 4.15: En esta gura el coeciente de correlacin sin el dato atipico es de 0,91 y disminuye hasta 0,41 por la presencia del atpico marcado con a.

4.6. LECTURAS COMPLEMENTARIAS

131

0 1.5

2.5

3.5

4.5

Figura 4.16: Distribucin de las distancias de Mahalanobis entre cada dato y el centro para los datos de la EPF

14

x 10

Navarra 12

10

0 Ceuta 0 10 20 30 40 50 60

-2

Figura 4.17: Primera proyeccin en la direccin de mxima kurtosis para los datos de la EPF

132

CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS

-2

x 10

-4

-6

-8

-10 M adrid Huelva -12 Cantabria -14 0 10 20 30 40 50 60

Figura 4.18: Segunda proyeccin en la direccin de mxima curtosis para los datos de la EPF

x 10

-2

-4

-6 Gerona 0 10 20 30 40 50 60

-8

Figura 4.19: Tercera proyeccin en la direccin de mxima curtosis para los datos de la EPF

4.6. LECTURAS COMPLEMENTARIAS

133

x 10

B arc elona

Las P alm as Tenerife 0

-2

-4

-6

-8

10

20

30

40

50

60

Figura 4.20: Cuarta proyeccin sobre la direccin de mxima curtosis para los datos de la EPF

18 16 14 12 10 8 6 4 2 0

Figura 4.21: Distancias de Mahalanobis para los datos de la EPF calculadas de manera robusta, eliminando los datos extremos.

134

CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS

3.5

2.5

1.5

0.5

1.5

2.5

3.5

4.5

Figura 4.22: Distancias de Mahalanobis de cada dato al centro de la muestra para los datos de EUROSEC.

1.5

0.5

-0.5

10

15

20

25

30

Figura 4.23: Proyeccin sobre la direccin de mxima curtosis

4.6. LECTURAS COMPLEMENTARIAS

135

34

32

30

28

26

24

22

10

15

20

25

30

Figura 4.24: Proyeccin sobre la segunda direccin de mxima curtosis ortogonal a la primera

136

CAPTULO 4. ANALISIS GRAFICO Y DATOS ATIPICOS

Captulo 5 COMPONENTES PRINCIPALES


5.1 INTRODUCCIN

Un problema central en el anlisis de datos multivariantes es la reduccin de la dimensionalidad: si es posible describir con precisin los valores de p variables por un pequeo subconjunto r < p de ellas, se habr reducido la dimensin del problema a costa de una pequea prdida de informacin. El anlisis de componentes principales tiene este objetivo: dadas n observaciones de p variables, se analiza si es posible representar adecuadamente esta informacin con un nmero menor de variables construidas como combinaciones lineales de las originales. Por ejemplo, con variables con alta dependencia es frecuente que un pequeo nmero de nuevas variables (menos del 20% de las originales ) expliquen la mayor parte (ms del 80%) de la variabilidad original. La tcnica de componentes principales es debida a Hotelling (1933), aunque sus orgenes se encuentran en los ajustes ortogonales por mnimos cuadrados introducidos por K. Pearson (1901). Su utilidad es doble:

1. Permite representar ptimamente en un espacio de dimensin pequea, observaciones de un espacio general p-dimensional. En este sentido componentes principales es el primer paso para identicar posibles variables latentes o no observadas, que estn generando la variabilidad de los datos. 2. Permite transformar las variables originales, en general correladas, en nuevas variables incorreladas, facilitando la interpretacin de los datos.

En este captulo presentamos nicamente esta tcnica como una herramienta exploratoria para facilitar la descripcin e interpretacin de los datos. El problema de inferir si las propiedades de reduccin de la dimensin encontradas en los datos puede extenderse a una poblacin se estudiara en el captulo de anlisis factorial. 137

138

CAPTULO 5. COMPONENTES PRINCIPALES

5.2

PLANTEAMIENTO DEL PROBLEMA

Supongamos que se dispone de los valores de p-variables en n elementos de una poblacin dispuestos en una matriz X de dimensiones n p, donde las columnas contienen las variables y las las los elementos. Supondremos en este captulo que previamente hemos restado a cada variable su media, de manera que las variables de la matriz X tienen media cero y su matriz de covarianzas vendr dada por 1/n X0 X. El problema que se desea resolver es cmo encontrar un espacio de dimensin ms reducida que represente adecuadamente los datos. El problema puede abordarse desde tres perspectivas equivalentes.

a) Enfoque descriptivo Se desea encontrar un subespacio de dimensin menor que p tal que al proyectar sobre l los puntos conserven su estructura con la menor distorsin posible. Veamos cmo convertir esta nocin intuitiva en un criterio matemtico operativo. Consideremos primero un subespacio de dimensin uno, una recta. Se desea que las proyecciones de los puntos sobre esta recta mantengan, lo ms posible, sus posiciones relativas. Para concretar, consideremos el caso de dos dimensiones (p = 2). La gura 5.1 indica el diagrama de dispersin y una recta que, intuitivamente, proporciona un buen resumen de los datos, ya que las proyecciones de los puntos sobre ella indican aproximadamente la situacin de los puntos en el plano. La representacin es buena porque la recta pasa cerca de todos los puntos y estos se deforman poco al proyectarlos. Esta propiedad puede concretarse exigiendo que las distancias entre los puntos originales y sus proyecciones sobre la recta sean lo ms pequeas posibles. En consecuencia, si consideramos un punto xi y una direccin a1 = (a11 , ..., a1p )0 , denida por un vector a1 de norma unidad, la proyeccin del punto xi sobre esta direccin es el escalar: zi = a11 xi1 + . . . + a1p xip = a01 xi

(5.1)

y el vector que representa esta proyeccin ser zi a1 . Llamando ri a la distancia entre el punto xi , y su proyeccin sobre la direccin a1 , este criterio implica:
n X i=1 n X i=1

minimizar

2 ri

|xi ! zi a1 |2 ,

(5.2)

donde |u| es la norma eucldea o mdulo del vector u.

5.2. PLANTEAMIENTO DEL PROBLEMA


2.5 2 1.5 1 0.5 0 -0.5 -1 -1.5 -2 -2.5 -2.5

139

x1 z1 r1

-2

-1.5

-1

-0.5

0.5

1.5

2.5

Figura 5.1: Ejemplo de la recta que minimiza las distancias ortogonales de los puntos a ella. La gura (5.1) muestra que al proyectar cada punto sobre la recta se forma un tringulo rectngulo donde la hipotenusa es la distancia al origen del punto al origen, (x0i xi )1/2 , y los catetos la proyeccion del punto sobre la recta (zi ) y la distancia entre el punto y su proyeccin (ri ). Por el teorema de Pitgoras, podemos escribir:
2 x0i xi = zi 2 + ri ,

(5.3)

y sumando esta expresin para todos los puntos, se obtiene:


n X i=1

x0i xi =

P 2 Como el primer miembro es constante, minimizar n i , la suma de las distancias a i=1 Pr n 2 la recta de todos los puntos, es equivalente a maximizar i=1 zi , la suma al cuadrado de los valores de las proyecciones. Como las proyecciones zi son, por (9.21) variables de media cero, maximizar la suma de sus cuadrados equivale a mazimizar su varianza. Este resultado es intuitivo: la recta de la gura 5.1 parece adecuada porque conserva lo ms posible la variabilidad original de los puntos. El lector puede convencerse considerando una direccin de proyeccin perpendicular a la de la recta en esta gura: los puntos tendran muy poca variabilidad y perderiamos la informacin sobre sus distancias en el espacio. El objetivo de proyectar los puntos con mnima deformacin puede abordarse desde otro punto de vista que conduce al mismo resultado nal. En el espacio de p-dimensiones, lo caracterstico de la nube de puntos son sus distancias relativas. Tratemos de encontrar un subespacio de dimensin 1, es decir, un recta tal que los puntos proyectados conserven lo 0 ms posible sus distancias relativas. Si llamamos d2 ij = xi xj a los cuadrados de las distancias b2 = (zi ! zj )2 a las distancias entre los puntos proyectados originales entre los puntos y d ij

n X i=1

zi2 +

n X i=1

2 ri .

(5.4)

140 sobre una recta, deseamos que D=

CAPTULO 5. COMPONENTES PRINCIPALES

sea mnima. Como la suma de las distancias originales es ja, minimizar D require maximizar P P b2 i j dij , las distancias entre los puntos proyectados. Se demuestra en el apndice 5.1 que la direccin es la misma que proporciona una variable escalar de varianza mxima. b) Enfoque estadstico: Representar puntos p dimensionales con la mnima prdida de informacin en un espacio de dimensin uno es equivalente a sustituir las p variables originales por una nueva variable, z1 , que resuma ptimamente la informacin. Esto supone que la nueva variable debe tener globalmente mxima correlacin con las originales o, en otros trminos, debe permitir prever las variables originales con la mxima precisin. Esto no ser posible si la nueva variable toma un valor semejante en todos los elementos, y, se demuestra en el apndice 5.2, que la condicin para que podamos prever con la mnima prdida de informacin los datos observados, es utilizar la variable de mxima variabilidad. Volviendo a la gura 5.1 se observa que la variable escalar obtenida al proyectar los puntos sobre la recta sirve para prever bien el conjunto de los datos. La recta indicada en la gura no es la lnea de regresin de ninguna de las variables con respecto a la otra, que se obtienen minimizando las distancias verticales u horizontales, sino que al minimizar las distancias ortogonales o de proyeccin se encuentra entre ambas rectas de regresin. Este enfoque puede extenderse para obtener el mejor subespacio resumen de los datos de dimensin 2. Para ello calcularemos el plano que mejor aproxima a los puntos. El problema se reduce a encontrar una nueva direccin denida por un vector unitario, a2 , que, sin prdida de generalidad, puede tomarse ortogonal a a1 , y que verique la condicin de que la proyeccin de un punto sobre este eje maximice las distancias entre los puntos proyectados. Estadsticamente esto equivale a encontrar una segunda variable z2 , incorrelada con la anterior, y que tenga varianza mxima. En general, la componente zr (r < p) tendr varianza mxima entre todas las combinaciones lineales de las p variables X originales, con la condicin de estar incorrelada con las z1 , ..., zr!1 previamente obtenidas. c) enfoque geomtrico El problema puede abordarse desde un punto de vista geomtrico con el mismo resultado nal. Si consideramos la nube de puntos de la gura 5.1 vemos que los puntos se sitan siguiendo una elipse y podemos describir su orientacin dando la direccin del eje mayor de la elipse y la posicin de los punto por su proyeccin sobre esta direccin. Puede demostrarse que este eje es la recta que minimiza las distancias ortogonales y volvemos al problema que ya hemos resuelto. En varias dimensiones tendremos elipsoides y la mejor aproximacin a los datos es la proporcionada por el eje mayor del elipsoide. Considerar los ejes del elipsoide como nuevas variables originales supone pasar de variables correladas a variables ortogonales, como veremos a continuacin.

XX b2 (d2 ij ! dij )
i j

5.3. CALCULO DE LOS COMPONENTES

141

5.3
5.3.1

CALCULO DE LOS COMPONENTES


Clculo del primer componente

El primer componente principal ser la combinacin lineal de las variables originales que tenga varianza mxima. Los valores de este primer componente en los n individuos se representarn por un vector z1 , dado por z1 = Xa1 . Como las variables originales tienen media cero tambin z1 tendr media nula. Su varianza ser: V ar(z1 ) = 1 0 1 z1 z1 = a01 X0 Xa1 = a01 Sa1 n n (5.5)

donde S es la matriz de varianzas y covarianzas de las observaciones. Es obvio que podemos maximizar la varianza sin limite aumentando el mdulo del vector a1 . Para que la maximizacin de (5.5) tenga solucin debemos imponer una restriccin al mdulo del vector a1 , y, sin prdida de generalidad, impondremos que a01 a1 = 1 . Introduciremos esta restriccin mediante el multiplicador de Lagrange: M = a01 Sa1 ! "(a01 a1 ! 1) y maximizaremos esta expresin de la forma habitual derivando respecto a los componentes de a1 e igualando a cero. Entonces &M = 2Sa1 ! 2"a1 = 0 & a1 cuya solucin es: Sa1 = "a1 , (5.6)

que implica que a1 es un vector propio de la matriz S, y " su correspondiente valor propio. Para determinar qu valor propio de S es la solucin de la ecuacin (5.6) tendremos en cuenta que, multiplicando por la izquierda por a01 esta ecuacin, a01Sa1 = "a01a1 = " y concluimos, por (5.5), que " es la varianza de z1 . Como esta es la cantidad que queremos maximizar, " ser el mayor valor propio de la matriz S. Su vector asociado, a1 , dene los coecientes de cada variable en el primer componente principal. Ejemplo 5.1 Ilustraremos con detalle el clculo de la primera componente principal con los datos de los logaritmos de las ACCIONES, tabla A.7. Los paquetes estadsticos habituales (Minitab, SPSS, Statgraphics, etc) proporcionan directamente los componentes principales, pero vamos a indicar con detalle como se realizan los clculos para el lector interesado.

142

CAPTULO 5. COMPONENTES PRINCIPALES

Para el clculo de los autovalores tenemos que calcular las races de la ecuacin: 0 = |S ! !I| = ! # ! # 0.35 0 . 15 ! 0 . 19 ! 0 0 " $ " $ 0.13 !0.03 ! 0 ! 0 = 0.15 = !0.19 !0.03 0.16 0 0 ! = 0, 000382 ! 0, 0628" + 0, 64"2 ! "3

La matriz de varianzas y covarianzas de estos datos en logaritmos, que ya utilizamos en el ejemplo 3.5, es, ! # 0.35 0.15 !0.19 0.13 !0.03 $ S = " 0.15 !0.19 !0.03 0.16

Las races del polinomio, obtenidas con MATLAB son "1 = 0.521, "2 = 0.113, "3 = 6.51 10!3 . El autovector asociado a "1 nos da los pesos de la primera componente principal. Para calcular el primer autovector resolvemos el sistema Sa1 = "1 a1 que conduce a: !

el sistema es compatible indeterminado. Para encontrar una de las innitas soluciones tomemos la primera variable como parmetro, x, y resolvamos el sistema en funcin de x. La solucin es, {a11 = x, a12 = 0.427x, a13 = !0.562x} El valor de x se obtiene ahora imponiendo que el vector tenga norma unidad, con lo que resulta: ! # !0.817 a1 = " !0.349 $ 0.459 y el primer componente es Z1 = !0.817X1 ! 0.349X2 + 0.459X3

#! 0.35 0.15 !0.19 a11 " 0.15 $ " 0.13 !0.03 a12 !0.19 !0.03 0.16 a13 ! !0.171a11 + 0.15a12 ! 0.19a13 " 0.15a11 ! 0.391a12 ! 0.03a13 !0.19a11 ! 0.03a12 ! 0.361a13

# a11 $ = 0.521 " a12 $ a13 # ! # 0 $ = " 0 $ 0

5.3. CALCULO DE LOS COMPONENTES

143

donde X1 , X2 y X3 son las variables en logaritmos. Por ejemplo, el valor de esta nueva variable, la primera componente principal, para la primera observacin (la primera accin) es z1 = !0.817 log(3.4) ! 0.349 log(89.7) + 0.459 log(30.2) = !1.0049 El primer componente principal puede aproximadamente escribirse Z1 + = !0.82X1 + 0.35(X3 ! X2 ) + 0.11X3 y utilizando la denicin de las variables originales este componente puede escribirse Z1 + = !0.82 log(d/p) + 0.35 log(p/d) + 0.11 log(pN/b) es decir, Z1 + = !1.17 log(d/p) + 0.11 log(pN/b) que indica que este primer componente depende basicamente de la variable X1 , la rentabilidad por dividendos. Llamando z1 = log Z1 este primer componente puede escribirse tambin como z1 = p1.27 N .09 ( ) d1.16 B

que es, aproximadamente, de nuevo la variable x1 , el cociente entre el precio de la accin y los dividendos recibidos. Esta variable es la que explica mejor la variabilidad conjunta de las acciones. Ejemplo 5.2 La encuesta de presupuestos familiares en Espaa (Tabla A.3 ) presenta los gastos medios de las familias espaolas en nueve epgrafes: X1 = alimentacin, X2 = vestido y calzado, X3 = vivienda, X4 = mobiliario domstico, X5 = gastos sanitarios, X6 = transportes, X7 = enseanza y cultura, X8 = turismo y ocio, X9 = otros gastos, para las 51 provincias espaolas (Ceuta y Melilla aparecen unidas como una provincia). La matriz de covarianzas resume la variabilidad de estas 9 variables en los 51 elementos observados. Como las distribuciones de los gastos son muy asimtricas, las variables se han expresado en logaritmos. El vector propio asociado al mayor valor propio, 0,348, dene la siguiente variable: z1 = 0, 12x1 + 0, 18x2 + 0, 30x3 + 0, 31x4 + 0, 46x5 + 0, 34x6 +0, 50x7 + 0, 31x8 + 0, 31x9 Se observa que z1 es una suma ponderada de todos los gastos con mayor peso en los gastos en enseanza y cultura (x7 ) y gastos sanitarios (x5 ). El menor peso lo tiene el gasto en alimentacin (x1 ). Si calculamos las coordenadas z1 para las provincias espaolas y las ordenamos por esta nueva variable las provincias quedan prcticamente ordenadas por su renta. La primera componente principal tiene pues en este caso una explicacin inmediata: redescubre la renta de cada provincia.

144

CAPTULO 5. COMPONENTES PRINCIPALES

5.3.2

Clculo del segundo componente

Vamos a obtener el mejor plano de proyeccin de las variables X. Lo calcularemos estableciendo como funcin objetivo que la suma de las varianzas de z1 = Xa1 y z2 = Xa2 sea mxima, donde a1 y a2 son los vectores que denen el plano. La funcin objetivo ser: ( = a01 Sa1 + a02 Sa2 ! "1 (a01 a1 ! 1) ! "2 (a02a2 ! 1) (5.7)

que incorpora las restricciones de que las direcciones deben de tener mdulo unitario (a0i ai ) = 1, i = 1, 2. Derivando e igualando a cero: &( = 2Sa1 ! 2"1 a1 = 0 & a1 &( = 2Sa2 ! 2"2 a2 = 0 & a2 La solucin de este sistema es: Sa1 = "1 a1 , Sa2 = "2 a2 (5.8) (5.9)

que indica que a1 y a2 deben ser vectores propios de S. Tomando los vectores propios de norma uno y sustituyendo en (5.7), se obtiene que, en el mximo, la funcin objetivo es ( = "1 + "2 (5.10)

es claro que "1 y "2 deben ser los dos autovalores mayores de la matriz S y a1 y a2 sus correspondientes autovectores. Observemos que la covarianza entre z1 y z2 , dada por a01 S a2 es cero ya que a01 a2 = 0, y las variables z1 y z2 estarn incorreladas. Puede demostrarse (vase el ejercicio 5.7) que si en lugar de maximizar la suma de varianzas, que es la traza de la matriz de covarianzas de la proyeccin, se maximiza la varianza generalizada (el determinante de la matriz de covarianzas) se obtiene el mismo resultado. Ejemplo 5.3 El segundo componente principal para las variables de gastos de la EPF denidas en el ejemplo 5.1 es el asociado al segundo valor propio mayor que es 0,032. El vector propio asociado a este valor propio dene la nueva variable: z2 = 0, 05x1 + 0, 16x2 ! 0, 17x3 + 0, 07x4 ! 0, 21x5 + 0, 29x6 ! 0, 40x7 ! 0, 17x8 + 0, 78x9 = (0, 05x1 + 0, 16x2 + 0, 07x4 + 0, 29x6 + 0, 78x9 ) ! (0, 17x3 + 0, 21x5 + 0, 40x7 + 0, 17x8 ) Esta variable puede verse como la diferencia entre dos medias ponderadas de los gastos. La primera da sobre todo peso a otros gastos (x9 ), y transporte (x6 ). En la variable otros gastos

5.3. CALCULO DE LOS COMPONENTES

145

estn incluidas las transferencias fuera de la provincia a miembros de la familia mayores de 14 aos que no residan en ella, podemos conjeturar esta variable separa las provincias que reciben transferencias de las que las envian. Es tambin signicativo que estas provincias tienen altos gastos en transporte. La primera media ponderada puede considerarse un indicador de como esta provincia enva recursos a otras. La segunda media da mayor peso a las variables enseanza y cultura (x7 ) y gastos sanitarios (x5 ). Este segundo componente va a separar a provincias que envian recursos a otras (alto valor de x9 ) y que tienen tambin altos gastos de transporte, respecto a las que transeren relativamente poco y tienen altos gastos de educacin y sanidad. Las provincias con valores ms altos de este componente son Zamora, Len, Lugo, Toledo, Huesca, Lrida, Segovia, Soria y Palencia. Estas provincias no han tenido tradicionalmente universidad, por lo que tienen que enviar los estudiantes fuera y tienen bajos costes de educacin. Por el contrario, las provincias con valores bajos de este componente z2 incluyen a Madrid y Barcelona, centros receptores netos de estudiantes de otras provincias, as como a Salamanca, Zaragoza y Tenerife. La Tabla 5.1 presenta la ordenacin de las provincias segn el primer y segundo componente. La gura ?? representa cada provincia en el plano de las dos primeras componentes principales. Cada punto aparece representado por sus coordenadas respecto a los ejes denidos por las componentes principales y puede interpretarse como la proyeccin de los puntos, que estn en un espacio de dimensin 9, tantos como variables, sobre el plano que mejor mantiene sus distancias relativas, que es el denido por las dos primeras componentes.

Proyeccin de los datos de la EPF sobre el plano denido por las dos primeras componentes principales

5.3.3

Generalizacin

Puede demostrarse anlogamente que el espacio de dimensin r que mejor representa a los puntos viene denido por los vectores propios asociados a los r mayores autovalores de S. Estas direcciones se denominan direcciones principales de los datos y a las nuevas variables por ellas denidas componentes principales. En general, la matriz X ( y por tanto la S) tiene

146

CAPTULO 5. COMPONENTES PRINCIPALES


Comp. 1 Navarra Madrid Barcelona Lrida Vizcaya Gerona Baleares Tarragona Guipuzcoa Las Palmas Comp. 2 Zamora Len Lugo Toledo Huesca Murcia Navarra Lrida Segovia Soria

. . .
Ciudad Real Cuenca vila Teruel Castelln Orense Zamora Badajoz Ceuta y Melilla Salamanca Jan

. . .
Mlaga Salamanca Cdiz Madrid Badajoz Jan Ceuta y Melilla Zaragoza Huelva Tenerife Barcelona

Tabla 5.1: Ordenacin de las provincias de la EPF, segn los dos primeros componentes rango p, existiendo entonces tantas componentes principales como variables que se obtendrn calculando los valores propios o races caractersticas, "1 , . . . , "p , de la matriz de varianzas y covarianzas de las variables, S, mediante: |S ! "I| = 0 y sus vectores asociados son: (S ! "i I)ai = 0. (5.12) (5.11)

Los trminos "i son reales, al ser la matriz S simtrica, y positivos, ya que S es denida positiva. Por ser S simtrica si "j y "h son dos races distintas sus vectores asociados son ortogonales. En efecto: a0h Saj = (a0h Saj )0 = a0j Sah a0h Saj = a0j "h ah y si "j 6= "h, a0haj = a0j ah = 0 y son ortogonales. Si S fuese semidenida positiva de rango p < p, lo que ocurrira si p ! p variables fuesen combinacin lineal de las dems, habra solamente p races caractersticas positivas y el resto seran ceros.

5.3. CALCULO DE LOS COMPONENTES

147

Llamando Z a la matriz cuyas columnas son los valores de los p componentes en los n individuos, estas nuevas variables estn relacionadas con las originales mediante: Z = XA donde A0 A = I. Calcular los componentes principales equivale a aplicar una transformacin ortogonal A a las variables X (ejes originales) para obtener unas nuevas variables Z incorreladas entre s. Esta operacin puede interpretarse como elegir unos nuevos ejes coordenados, que coincidan con los ejes naturales de los datos. Ejemplo 5.4 Los restantes valores propios de la matriz de covarianzas de los datos de la EPF son 0.027, 0.0175, 0.0126, 0.0107, 0.010, 0.0059, y 0.00526. A partir del tercero son muy pequeos y de valor similar. El tercer componente principal es z3 = 0, 12x1 + 0, 05x2 + 0, 34x3 + 0, 11x4 ! 0, 85x5 + 0, 04x6 ! 0, 30x7 + 0, 20x8 + 0, 003x9 = (0, 12x1 + 0, 05x2 + 0, 34x3 + 0, 11x4 + 0, 04x6 + 0, 20x8 ) ! (0, 85x5 + 0, 30x7 ) y puede de nuevo interpretarse como la diferencia entre dos medias ponderadas. La primera da sobre todo peso a las variables 3, vivienda, 8, turismo y ocio, 1, alimentacin y 4 , mobiliario domstico. La segunda a la 5, gastos sanitarios, y a la 7, enseanza y cultura. Separ provincias con bajos costes en sanidad y altos en vivienda y ocio de las que tengan la estructura opuesta. La gura ?? representa las observaciones proyectadas sobre el plano de las componentes primera y tercera. Se observa que la tercera dimensin es independiente de la primera (riqueza o renta) y separa provincias con altos gastos en sanidad, como Salamanca y Palencia, de otras de aquellas con gastos relativamente bajos en esta magnitud y ms en vivienda y ocio.

Representacin de los datos de la EPF em el plano denido por loso componentes primero y tercero.

148

CAPTULO 5. COMPONENTES PRINCIPALES

Ejemplo 5.5 La tabla 5.2 presenta la matriz de varianzas y covarianzas entre nueve indicadores econmicos medidos en distintas empresas. x1 x2 x3 x4 x5 x6 x7 x8 177 179 95 96 53 32 -7 -4 419 245 131 181 127 -2 1 302 60 109 142 4 .4 158 102 42 4 3 137 96 4 5 128 2 2 34 31 39 x9 -3 4 11 2 6 8 33 39 48

Tabla 5.2: Matriz de varianzas covarianzas de los nueve indicadores Las races caractersticas de esta matriz se presentan en la tabla 5.3. Componente 1 2 3 4 5 6 7 8 9 "i 878,5 196,1 128,6 103,4 81,2 37,8 7,0 5,7 3,5 Tabla 5.3: Autovalores de la matriz tabla 5.2 La suma de los valores propios de la matriz es 1441, 8, prcticamente igual, salvo por errores de redondeo, a la suma de las varianzas de las variables, que es 1442. Ya veremos que esta concordancia ocurre siempre. Los vectores propios de los tres primeros componentes se indican en la tabla 5.4. Se observa que el primer componente principal es una media ponderada de las primeras seis variables. El segundo contrapone la primera, la segunda y la cuarta a la tercera y la sexta. El tercer componente contrapone las tres primeras al resto de las variables. Estos resultados son consistentes con la matriz de la tabla 5.2. El rasgo ms caracterstico de esta tabla es la distinta magnitud de las seis primeras variables respecto al resto. Esto lo recoge el primer componente principal. El segundo rasgo es la presencia de covarianzas negativas en las las de las dos primeras variables y esto se recoge en el segundo componente. El tercero incorpora por un lado las tres ltimas variables y, por otro, contrapone las tres primeras variables frente al resto. Componente x1 x2 x3 x4 x5 x6 x7 x8 x9 1 0.30 0.66 0.48 0.26 0.32 0.27 0.00 0.00 0.01 2 -0.48 -0.15 0.58 -0.49 -0.04 0.37 0.06 0.04 0.08 3 -0.41 -0.18 -0.23 0.45 0.49 0.27 0.26 0.28 0.29 Tabla 5.4: Vectores propios de la matriz tabla 5.2

5.4. PROPIEDADES DE LOS COMPONENTES

149

5.4

PROPIEDADES DE LOS COMPONENTES

Los componentes principales como nuevas variables tienen las propiedades siguientes: 1. Conservan la variabilidad inicial: la suma de las varianzas de los componentes es igual a la suma de las varianzas de las variables originales, y la varianza generalizada de los componentes es igual a la original. Comprobemos el primer punto. Como V ar (zh ) = "h y la suma de las races caractersticas es la traza de la matriz: tr(S) = V ar (x1 ) + . . . + V ar (xp ) = "1 + . . . + "p P P P por tanto p "i = p i=1 V ar(xi ) = i=1 V ar (zi ). Las nuevas variables zi tienen conjuntamente la misma variabilidad que las variables originales, la suma de varianzas es la misma, pero su distribucin es muy distinta en los dos conjuntos. Para comprobar que los componentes principales tambin conservan la Varianza generalizada, valor del determinante de varianzas y covarianzas de las variables, como el determinante es el producto de las races caractersticas, tenemos que, llamando Sz a la matriz de covarianzas de los componentes, que es diagonal con trminos "i : |Sx | = "1 . . . "p = !p i=1 V ar(zi ) = |Sz | . 2. La proporcin de variabilidad explicada por un componente es el cociente entre su varianza, el valor propio asociado al vector propio que lo dene, y la suma de los valores propios de la matriz. En efecto, como la varianza del componente h es "h , el valor propio P que dene el componente, y la suma de todas las varianzas de las variables originales es p i=1 "i , igual como acabamos de ver a la suma de las varianzas de los componentes, la proporcin P de variabilidad total explicada por el componente h es "h / "i .

3. Las covarianzas entre cada componente principal y las variables X vienen dadas por el producto de las coordenadas del vector propio que dene el componente por el valor propio: Cov (zi ; x1 , . . . xp ) = "i ai = ("i ai1 , . . . , "i aip ) donde ai es el vector de coecientes de la componente zi . Para justicar este resultado, vamos a calcular la matriz p p de covarianzas entre los componentes y las variables originales. Esta matriz es: Cov (z, x) = 1/nZ0 X y su primera la proporciona las covarianzas entre la primera componente y las p variables originales. Como Z = XA, sustituyendo Cov (z, x) = 1/nA0 X0 X = A0 S = DA0 ,

150

CAPTULO 5. COMPONENTES PRINCIPALES donde A contiene en columnas los vectores propios de S y D es la matriz diagonal de los valores propios. En consecuencia, la covarianza entre, por ejemplo, el primer componente principal y las p variables vendr dada por la primera la de A0 S, es decir a01 S o tambin "1 a01 , donde a01 es el vector de coecientes de la primera componente principal.

4. Las correlacin entre un componente principal y una variable X es proporcional al coeciente de esa variable en la denicin del componente, y el coeciente de proporcionalidad es el cociente entre la desviacin tpica del componente y la desviacin tpica de la variable. Para comprobarlo: " "i aij Cov (zi xj ) "i Corr(zi ; xj ) = p =q = aij sj V ar(zi )V ar(xj ) "i s2 j 5. Las r componentes principales (r < p) proporcionan la prediccin lineal ptima con r variables del conjunto de variables X. Esta armacin puede expresarse de dos formas. La primera demostrando que la mejor prediccin lineal con r variables de las variables originales se obtiene utilizando las r primeras componentes principales. La segunda demostrando que la mejor aproximacin de la matriz de datos que puede construirse con una matriz de rango r se obtiene construyendo esta matriz con los valores de los r primeros componentes principales. La demostracin de estas propiedades puede verse en el apndice 5.1. 6. Si estandarizamos los componentes principales, dividiendo cada uno por su desviacin tpica, se obtiene la estandarizacin multivariante de los datos originales. Estandarizando los componentes Z por sus desviacines tpicas, se obtienen las nuevas variables Yc = ZD!1/2 = XAD!1/2 donde D!1/2 es la matriz que contienen las inversas de las desviacines tpicas de las componentes. Hemos visto en el captulo anterior que la estandarizacin multivariante de una matriz de variables X de media cero viene dada por se dene como: Ys = XAD!1/2 A0 y ambas variables estn incorreladas y tienen matriz de covarianzas identidad. Se diferencian en que unas pueden ser una rotacin de las otras, lo que es indiferente al tener todas las mismas varianzas. Por tanto,la estandarizacin multivariante puede interpretarse como : (1) obtener los componentes principales; (2) estandarizarlos para que tengan todos la misma varianza. Esta relacin se presenta grcamente en la gura 5.2. La transformacin mediante componentes principales conduce a variables incorreladas pero con distinta varianza, puede

5.5. ANLISIS NORMADO O CON CORRELACIONES

151

interpretarse como rotar los ejes de la elipse que denen los puntos para que coincidan con sus ejes naturales. La estandarizacin multivariane produce variables incorreladas con varianza unidad, lo que supone buscar los ejes naturales y luego estandarizarlos. En consecuencia, si estandarizamos los componentes se obtiene las variables estandarizadas de forma multivariante.

X
(0,0)

Z=XA

Y=XS-1/2

Z
(0,0)

Y
(0,0)

Y=ZD

-1/2

Figura 5.2: Representacin grca de la relacin entre componentes principales y estandarizacin multivariante.

5.5

ANLISIS NORMADO O CON CORRELACIONES

Los componentes principales se obtienen maximizando la varianza de la proyeccin. En trminos de las variables originales esto supone maximizar: M=
p X i=1 2 a2 i si + 2 p p X X

ai aj sij

(5.13)

i=1 j =i+1

con la restriccin a0 a = 1. Si alguna de las variables, por ejemplo la primera, tiene una varianza s2 1 , mayor que las dems, la manera de aumentar M es hacer tan grande como podamos la coordenada a1 asociada a esta variable. En el lmite si una variable tiene una varianza mucho mayor que las dems el primer componente principal coincidir muy aproximadamente con esta variable. Cuando las variables tienen unidades distintas esta propiedad no es conveniente: si disminuimos la escala de medida de una variable cualquiera, de manera que aumenten en

152

CAPTULO 5. COMPONENTES PRINCIPALES

magnitud sus valores numricos (pasamos por ejemplo de medir en km. a medir en metros), el peso de esa variable en el anlisis aumentar, ya que en (5.13): (1) su varianza ser mayor y aumentar su coeciente en el componente, a2 i , ya que contribuye ms a aumentar M ; (2) sus covarianzas con todas las variables aumentarn, con el consiguiente efecto de incrementar ai . En resumen, cuando las escalas de medida de las variables son muy distintas, la maximizacin de (5.13) depender decisivamente de estas escalas de medida y las variables con valores ms grandes tendrn ms peso en el anlisis. Si queremos evitar este problema, conviene estandarizar las variables antes de calcular los componentes, de manera que las magnitudes de los valores numricos de las variables X sean similares. La estandarizacin resuelve otro posible problema. Si las variabilidades de las X son muy distintas, las variables con mayor varianza van a inuir ms en la determinacin de la primera componente. Este problema se evita al estandarizar las variables, ya que entonces las varianzas son la unidad, y las covarianzas son los coecientes de correlacin. La ecuacin a maximizar se transforma en: M =1+2
0 p p X X

ai aj rij

(5.14)

i=1 j =i+1

siendo rij el coeciente de correlacin lineal entre las variables ij. En consecuencia la solucin depende de la correlaciones y no de las varianzas. Los componentes principales normados se obtiene calculando los vectores y valores propios de la matriz R, de coecientes de correlacin. Llamando "R p a las races caractersticas de esa matriz, que suponemos no singular, se verica que:
p X i=1

"R i = traza(R) = p

(5.15)

Las propiedades de los componentes extrados de R son: 1. La proporcin de variacin explicada por "R p ser: "R p p (5.16)

Estas propiedades son consecuencia inmediata de los resultados de la seccin 5.4. Cuando las variables X originales estn en distintas unidades conviene aplicar el anlisis de la matriz de correlaciones o anlisis normado. Cuando las variables tienen las mismas

2. Las correlaciones entre p cada componente zj y las variables X originales vienen dados directamente por a0j "j siendo zj = Xaj .

5.5. ANLISIS NORMADO O CON CORRELACIONES

153

unidades, ambas alternativas son posibles. Si las diferencias entre las varianzas de las variables son informativas y queremos tenerlas en cuenta en el anlisis no debemos estandarizar las variables: por ejemplo, supongamos dos ndices con la misma base pero uno uctua mucho y el otro es casi constante. Este hecho es informativo, y para tenerlo en cuenta en el anlisis, no se deben estandarizar las variables, de manera que el ndice de mayor variabilidad tenga ms peso. Por el contrario, si las diferencias de variabilidad no son relevantes podemos eliminarlas con el anlisis normado. En caso de duda, conviene realizar ambos anlisis, y seleccionar aquel que conduzca a conclusiones ms informativas. Ejemplo 5.6 La matriz de correlacin de los es ! 1 .66 .41 .57 .34 % 1 .69 .51 .76 % % 1 .28 .54 % % 1 .69 % 1 R =% % % % % % " Los valores propios son: "i nueve indicadores econmicos del ejemplo5.4 .21 !.09 !.05 !.03 .55 !.01 .01 .03 .72 .04 .00 .09 .30 .05 .03 .02 .73 .06 .07 .07 1 .03 .03 .10 1 .85 .82 1 .90 1 # & & & & & & & & & & & & $

3.70 2.72 1.06 .70 .30 .23 .16 .09 .03

y los vectores propios asociados a los tres primeros valores propios son: " x1 x2 x3 x4 x5 x6 x7 x8 x9 3.7 .34 .46 .41 .36 .46 .40 .06 .06 .08 2.72 -.11 -.07 -.03 -.04 -.02 -.01 .56 .58 .57 1.06 -.54 -.05 .38 -.52 .07 .53 -.04 -.07 .00 Tabla 5.5: Vectores propios de la matriz de correlaciones Si comparamos estos resultados con los del ejemplo 5.4 vemos que el primer vector propio cambia apreciablemente. Con la matriz de varianzas las variables con ms peso en el componente eran las que tenan una mayor varianza: la 2, luego la 3 y nalmente las 1,4,5 y 6 con un peso parecido. Estos pesos siguen estrechamente la relacin relativa entre las varianzas de las variables. Sin embargo, al utilizar la matriz de correlaciones este efecto desaparece, y el peso de las variables est ms relacionado con las correlaciones. La proporcin de variabilidad explicada por el primer componente cambia mucho: de 878, 5/1441, 8 = 60, 9% a 3.7/9 = 41% El segundo componente cambia completamente: ahora est prcticamente asociado a las tres ltimas variables. La proporcin de variabilidad que explica ha aumentado considerablemente, del 196/1441, 8 = 13, 6% a 2.72/9 = 30% . El tercer vector propio es tambin distinto en ambas matrices.

154

CAPTULO 5. COMPONENTES PRINCIPALES

Ejemplo 5.7 Consideremos los datos de INVEST publicaciones cientcas en los pases de la OCDE. Los datos tienen magnitudes muy distintas (unos bancos de datos tienen muchos ms trabajos que otros). Si deseamos conservar esta propiedad, que esta asociada a que en algunos campos cientcos se publica mucho ms que en otros, haremos el anlisis sobre la matriz de covarianzas. Si no queremos dar ms peso a unos campos que a otros, es conveniente realizar el anlisis normado o sobre la matriz de correlacin. Los resultados en este ltimo caso se indican en la tabla 5.6 Ph Comp. "h Ph i=1 Ph 1 7.630 0.954 0.954 2 0.207 0.026 0.980 3 0.121 0.015 0.995 4 0.019 0.002 0.997 5 0.017 0.002 0.999 6 0.004 0.001 1.000 7 0.001 0.000 1.000 8 0.000 0.000 1.000 Tabla 5.6: Variabilidad explicada por los componentes principales Se observa que el primer componente principal explica una proporcin muy alta de la variabilidad, el 95,4%. Con los tres primeros componentes se explica el 99,5% de la variabilidad. Adems, despus del tercer vector propio la variabilidad explicada disminuye claramente, (vase la tabla 5.6 y la gura 5.3 )lo que indica que slo debemos preocuparnos de los tres primeros componentes ya que los siguientes tienen poca capacidad explicativa. En la tabla 5.7 se indican los valores de los componentes para estos tres vectores propios. INTER.A INTER.F AGRIC. BIOLO. MEDIC. QUIMI. INGEN. FISICA Comp. 1 Comp. 2 Comp. 3 0.358 -0.173 0.36 0.360 -0.098 0.08 0.355 -0.366 -0.10 0.346 -0.359 -0.69 0.361 -0.070 0.15 0.334 0.786 -0.41 0.354 0.268 0.40 0.361 0.054 0.17

Tabla 5.7: Vectores propios de los tres primeros componentes

Ejemplo 5.8 Para interpretar los componentes consideramos sus coordenadas en las variables. Estas se indican en la tabla 5.7 y en la gura 5.4. Se observa que el primer componente es un factor de tamao, ya que es una media ponderada de todas las variables con mayor peso de los bancos interdisciplinarios y del banco mdico. El segundo componente es un factor de forma y contrapone la investigacin en Qumica e Ingeniera frente a la realizada en

5.6. INTERPRETACIN DE LOS COMPONENTES

155

Figura 5.3: Grco para la seleccin del nmero de componentes. Agricultura y Biologa. El tercero contrapone ingeniera, fsica y el banco interA con respecto a Biologa y Qumica.

5.6

INTERPRETACIN DE LOS COMPONENTES

Componentes de tamao y forma Cuando existe una alta correlacin positiva entre todas las variables, el primer componente principal tiene todas sus coordenadas del mismo signo y puede interpretarse como un promedio ponderado de todas las variables (vase el ejercicio 5.2). Se interpreta entonces como un factor global de tamao. Los restantes componentes se interpretan como factores de forma y tpicamente tienen coordenadas positivas y negativas, que implica que contraponen unos grupos de variables frente a otros. Estos factores de forma pueden frecuentemente escribirse como medias ponderadas de dos grupos de variables con distinto signo y contraponen las variables de un signo a las del otro. Por ejemplo el segundo componente principal de los datos de la EPF del ejercicio 5.3 puede escribirse aproximadamente, despreciando los coeciente pequeos (menores que 0,1): z2 = (0, 05x1 + 0, 16x2 + 0, 07x4 + 0, 29x6 + 0, 78x9 ) ! (0, 17x3 + 0, 21x5 + 0, 40x7 + 0, 17x8 ) ' I0 ! IS

156

CAPTULO 5. COMPONENTES PRINCIPALES

Figura 5.4: Representacin de los pesos de las dos componentes. donde I0 = 0, 16x2 + 0, 29x6 + 0, 78x9 es un indicador de los gastos de transporte y transferencias a otras provincias y IS = 0, 17x3 + 0, 21x5 + 0, 40x7 + 0, 17x8 es un indicador de gastos en servicios (educacin y sanidad). Adems, cuando las variables van en logaritmos, los componentes suelen poder escribirse como ratios de promedios geomtricos de las variables. Por ejemplo, supongamos que un componente tiene la expresin z1 = !0.5 log x1 + 0.3 log x2 + 0.2 log x3 este componente puede escribirse tambin como z1 = 0.3 log x2 x3 + 0.2 log x1 x1

que indica que es un promedio de estos dos ratios (vase el ejemplo 5.1). La interpretacin de los componentes se simplica suponiendo que los coecientes pequeos son cero y redondeando los coecientes grandes para expresar el componente como cocientes, diferencias o sumas entre variables. Estas aproximaciones son razonables si modican poco la estructura del componente y mejoran su interpretacin. Una medida del cambio introducido al modicar un vector propio de ai a aiM es el cambio en la proporcin de variabilidad explicada por el componente. Si el valor propio asociado a ai es "i , el componente explica el

5.6. INTERPRETACIN DE LOS COMPONENTES

157

P "i / "j de la variabilidad. Si ahora modicamos el vector a aiM , la varianza de la proyece iM )0 (Xa e iM )/n, la varianza cin de los datos sobre este componente es "iM = a0iM SaiM = (Xa P del componente, y la proporcin de variabilidad explicada ser "iM / "j . El cambio relativo ser ("i ! "iM )/"i , ya que siempre "i ) "iM , y si este cambio es pequeo, esta justicada la modicacin si favorece la interpretacin. Ejemplo 5.9 Vamos a calcular el cambio relativo que experimenta el segundo componente principal de los datos de la EPF si despreciamos los coecientes ms pequeos, la varianza del segundo componente modicado es 0,0319. La varianza del componente original es 0,0320, por lo que el cambio de explicacin por tomar el coeciente simplicado es slo de (0,03200,0319)/0,0320=1/320=0,0031. Ejemplo 5.10 Supongamos 6 observaciones x1 , . . . , x6 en dos dimensiones, cada observacin corresponde a un rectngulo y las variables son longitud de la base y altura del rectngulo. Grcamente las observaciones son,

1 2 3

4 5 6

que corresponden a la matriz de datos, ! % % % X=% % % "

2 1.5 0.7 0.5 0.5 0.7

2 0.5 0.5 1.5 0.7 0.7

# & & & & & & $

cuya matriz de varianzas covarianzas es, 6.39 1.41 S= .10!2 1.41 6.39

aplicamos logaritmos a estos datos para facilitar la ! 0.301 % 0.176 % % !0.155 log(X ) = % % !0.301 % " !0.301 !0.155

interpretacin de las componentes, # 0.301 !0.301 & & !0.301 & & 0.176 & & !0.155 $ !0.155

Los autovalores y autovectores de la descomposicin espectral de esta matriz son, "1 = 0.78 " = 0, 0498 2 0.707 0.707 a1 = a2 = 0.707 !0.707

158 las dos primeras componentes son

CAPTULO 5. COMPONENTES PRINCIPALES

Z1

Z2

Si ordenamos los rectngulos segn el valor de la primera y segunda componente obtenemos,

0.426 % !0.088 % % !0.322 = Xa1 = 0.707 log(X1 ) + 0.707 log(X2 ) = 0.707 log(X1 X2 ) = % % !0.088 % " !0.322 !0.219 ! # 0 % 0.337 & % & % 0.103 & X1 & = Xa2 = 0.707 log(X1 ) ! 0.707 log(X2 ) = 0.707 log( ) = % % !0.337 & X2 % & " !0.103 $ 0

# & & & & & & $

1 4 2 1 2 3 6 5 6 3 5

La primera ordenacin coincide con la inducida por el volumen de los rectngulos, es una transformacin creciente del producto de la base por la altura, y el primer componente describe el tamao. El segundo componente relaciona la base con la altura y ordena las observaciones en funcin de su forma.

5.6.1

Seleccin del nmero de componentes

Se han sugerido distintas reglas para seleccionar el nmero de componentes a mantener: (1) Realizar un grco de "i frente a i. Comenzar seleccionando componentes hasta que los restantes tengan aproximadamente el mismo valor de "i . La idea es buscar un codo en el grco, es decir, un punto a partir del cual los valores propios son aproximadamente iguales. El criterio es quedarse con un nmero de componentes que excluya los asociados a valores pequeos y aproximadamente del mismo tamao. (2) Seleccionar componentes hasta cubrir una proporcin determinada de varianza, como el 80% o el 90%. Esta regla es arbitraria y debe aplicarse con cierto cuidado. Por ejemplo,

5.6. INTERPRETACIN DE LOS COMPONENTES

159

es posible que un nico componente de tamao recoja el 90% de la variabilidad y sin embargo pueden existir otros componentes que sean muy adecuados para explicar la forma de las variables. (3) Desechar aquellos componentes asociados P a valores propios inferiores a una cota, que suele jarse como la varianza media, "i /p. En particular, cuando se trabaja con la matriz de correlacin, el valor medio de los componentes es 1, y esta regla lleva a seleccionar los valores propios mayores que la unidad. De nuevo esta regla es arbitraria: una variable que sea independiente del resto suele llevarse un componente principal (vase ejercicio 5.8) y puede tener un valor propio mayor que la unidad. Sin embargo, si esta incorrelada con el resto puede ser una variable poco relevante para el anlisis, y no aportar mucho a la comprensin del fenmeno global.

5.6.2

Representacin grca

La interpretacin de los componentes principales se favore representando las proyecciones de las observaciones sobre un espacio de dimensin dos, denido por parejas de los componentes principales ms importantes. Este punto se ha ilustrado en los ejemplos anteriores, donde se ha indicado que la proyeccin de cualquier observacin sobre un componente es directamente el valor del componente para esa observacin. La representacin habitual es tomar dos ejes ortogonales que representen los dos componentes considerados, y situar cada punto sobre ese plano por sus coordendas con relacin a estos ejes, que son los valores de los dos componentes para esa observacin. Por ejemplo, en el plano de los dos primeros componentes, las coordenadas del punto xi son z1i = a01 xi y z2i = a02 xi . La interpretacin se favorece representando en el mismo plano adems de las observaciones las variables originales. Esto puede hacerse utilizando como coordenadas su coeciente de correlacin con cada uno de los ejes. El vector de correlaciones entre el primer compo1/2 nente y las variables originales viene dado por "1 a01 D, donde D es una matriz diagonal cuyos trminos son las inversas de las desviaciones tpicas de cada variable. La matriz de correlaciones Rcv entre los p componentes y las p variables tendr como las los trminos 1/2 "j a0j D y puede escribirse Rcv = "1/2 AD " donde A es la matriz de vectores propios, "1/2 es la matriz diagonal con trminos "i y En el anlisis normado como las variables se estandarizan a varianza unidad las correlaciones ser simplemente "1/2 A. Una representacin equivalente es el biplot que presentamos en la seccin siguiente. Tiene la ventaja de representar al mismo tiempo las variables y las observaciones en un mismo grco. Conviene investigar si transformando las variables se obtiene una interpretacin ms simple. Como regla general, cuando al tomar logaritmos las variables X tienen una distribucin aproximadamente simtrica, conviene realizar el anlisis de componentes principales sobre los logaritmos de las variables.

160

CAPTULO 5. COMPONENTES PRINCIPALES

Es importante recordar que las covarianzas (o correlaciones) miden nicamente las relaciones lineales entre las variables. Cuando entre ellas existan relaciones fuertes no lineales el anlisis de componentes principales puede dar una informacin muy parcial de las variables. Ejemplo 5.11 La gura 5.5 presenta la proyeccin de los datos de INVEST, los pases de la OCDE, sobre el plano formado por los dos primeros componentes principales extrados de la matriz de correlacin, que se estudiaron en el ejemplo 5.6. Se observa que el primer eje ordena a los pases por su cantidad de investigacin, mientras que el segundo tiene en cuenta sus caractersticas: separa a Japn, con gran nfasis en investigacin tecnolgica, del Reino Unido, que tiene ms nfasis en la investigacin biomdica

Figura 5.5: Proyeccin de las observaciones en las dos primeras componentes principales. Como indicamos en el Captulo la observacin de EEUU es atpica y existe una marcada asimetra en las distribuciones de las variables. Vamos a presentar los datos excluyendo a EEUU y con una transformacin logartmica de las variables para reducir la asimetra. La gura 5.6 muestra el nuevo diagrama de cajas mltiple.Como la varianza de las nuevas variables transformadas es similar, el anlisis de componentes principales se realizar directamente sobre la matriz de varianzas covarianzas. Los resultados obtenidos guran en las tablas 5.8 y5.9 Los tres primeros componentes explican el 97% de la variabilidad y tienen la siguiente interpretacin. El primero es una media ponderada de todos los bancos con mayo peso del

5.6. INTERPRETACIN DE LOS COMPONENTES

161

10

12

INTER.A

INTER.F

AGRIC.

BIOLO.

MEDIC.

QUIMI.

INGEN.

FISICA

Figura 5.6: Diagrama de cajas de los logaritmos de las variables de INVEST una vez eliminado EEUU.

Comp. Comp. Comp. Comp. Comp. Comp. Comp. Comp.

1 2 3 4 5 6 7 8

"h 14.98 0.83 0.50 0.21 0.10 0.08 0.02 0.02

Ph 0.90 0.05 0.03 0.01 0.01 0.00 0.00 0.00

Ph

i=1

Ph 0.90 0.94 0.97 0.99 0.99 1.00 1.00 1.00

Tabla 5.8: Variabilidad explicada por los componentes principales

162

CAPTULO 5. COMPONENTES PRINCIPALES

banco qumico. El segundo, contrapone la investigacin en Qumica frente a la general del banco INTER.F y a la de ingeniera y fsica. El tercero contrapone el banco INTER.F y Qumica al resto. Comp. 1 Comp. 2 Comp. 3 0,31 0,05 -0,40 0,37 0,63 0,63 0,30 0,07 -0,14 0,27 -0,06 -0,30 0,32 0,01 -0,25 0,56 -0,70 0,41 0,28 0,25 -0,18 0,32 0,21 -0,26

INTER.A INTER.F AGRIC. BIOLO. MEDIC. QUIMI. INGEN. FSICA

Tabla 5.9: Pesos de las tres primeras componentes principales Los pases proyectados en estos tres componentes se presentan en la gura 5.7. Se ha aadido tambin la proyeccin sobre el cuarto componente, que separa completamente a UK de Japn.

5.6.3

Datos atpicos

Antes de obtener los componentes principales conviene asegurarse de que no existen datos atpicos, ya que, como hemos visto en el captulo anterior, los atpicos pueden distorsionar totalmente la matriz de covarianzas. Para ilustrar su efecto sobre los componentes, supongamos el caso ms simple en que un error de medida en una variable introduce un valor atpico grande en la primera variable. Su efecto ser aumentar mucho la varianza de esta variable y disminuir las covarianzas con las restantes, con lo que, si hacemos el atpico muy grande, la matriz S ser, aproximadamente: 2 ) 1 . . . 00 0 S22 donde 00 = (0, 0, ..., 0). Esta matriz tiene un vector propio (1, 0, . . . , 0) unido al valor propio 2 )2 1 y si ) 1 es muy grande este ser el primer componente principal. Por tanto, un valor atpico sucientemente grande distorsiona todos los componentes que podemos obtener de la matriz afectada (vase el ejemplo 5.9). El resultado anterior sugiere que las componentes principales podran utilizarse para detectar datos atpicos multivariantes, ya que un valor muy extremo se llevara un componente principal y aparecer como extremo sobre esta componente. Desgraciadamente, aunque los componentes pueden identicar atpicos aislados, no hay garanta de que funcionen cuando existen grupos de atpicos, debido al problema de enmascaramiento. Por esta razn conviene utilizar para detectarlos el mtodo presentado en el captulo anterior, basado en proyecciones sobre las direcciones extremas de kurtosis, que al ser capaz de identicar todos los posibles atpicos permite calcular una la matriz de covarianzas libre de distorsiones graves.

5.6. INTERPRETACIN DE LOS COMPONENTES


1.0 P 2 Y AU E N FI BCH SH A I

163

GR P

Comp. 3 -1.0 0.0

Comp. 2 0 1

IR

GR Y

-1

A I AU H BCH S NFI E

G UK F JP

C JP GF UK

D IR -5 Comp. 1 0 5

-2

D -5 Comp. 1 N FI E B CH GR Y S A H I G C F UK 0 5

1.0

-2.0

Comp. 3 -1.0 0.0

Comp. 4 -0.5 0.0

P IR

D AU

AU GR E N B FI CH SH C JP F IA G UK

0.5

D IR 0 Comp. 2 UK

-1.0

JP -5 Comp. 1 N FI S E UK 0 5

-2.0 -2

-1

0.5

0.5

S A I G H P C F

FI B CH

N E AU

Comp. 4 -0.5 0.0

Comp. 4 -0.5 0.0

A B I H G AU C CH IR F

D IR

GR JP 0 Comp. 2

Y GR

-1.0

-1.0

-2

-1

-2.0

JP -1.0 0.0 Comp. 3

0.5

1.0

Figura 5.7: Representacin de las observaciones de INVEST en losplanos denidos por las cuatro primeras componentes.

5.6.4

Distribucin de los componentes

Los componentes principales pueden verse como un conjunto nuevo de variables y estudiar su distribucin individual y conjunta. Por construccin estarn incorrelados, pero pueden exitir fuertes relaciones no lineales entre ellos. Ejemplo 5.12 Vamos a calcular los componentes principales de la matriz de correlacin de las 27 medidas fsicas, MEDIFIS. Aunque todas las variables van en centmetros, los tamaos de las variables son muy distintos, lo que aconseja utilizar la matriz de correlacin. La proporcin de varianza que explica cada vector propio se indica en la tabla 5.10 Para decidir cuntos componentes tomar utilizaremos la gura 5.8 que indica que a partir del tercer componente hay una cada en la capacidad predictiva. Los tres primeros componentes explican conjuntamente el 93.5% de la variabilidad.

164

CAPTULO 5. COMPONENTES PRINCIPALES "h 5.56 0.62 0.39 0.17 0.14 0.10 0.05 Ph % 78.96 8.87 5.65 2.48 1.98 1.37 0.68 Tabla 5.10: Variabilidad explicada por las componentes

Figura 5.8: Grco para seleccionar el nmero de componentes. Los tres primeros vectores propios son: est pes pie lbr aes dcr drt Comp. 1 .41 .39 .40 .39 .38 .29 .37 Comp. 2 -.16 .04 -.20 -.30 .11 .89 -.15 Comp. 3 .04 -.29 .13 -.15 -.57 .20 .71 El primer componente es una media de todas las medidas fsicas, y por tanto una medida del tamao del cuerpo, siendo la variable con menor peso el dimetro del crneo. La segunda variable es de forma, y esta dominada por el dimetro del crneo. Observemos que esta variable est poco correlada con el resto y, por lo tanto, arrastra ella sola un componente principal, ya que no puede explicarse como combinacin de otras. El tercer componente principal diferencia longitud frente a anchura: da mayor peso a la longitud de la pierna (drt) y lo contrapone al peso y a la anchura de la espalda. La gura 5.9 presenta un grco de las observaciones sobre el plano de los dos primeros componentes principales. Las coordenadas son las puntuaciones estandarizadas zi$ = X $ ai , i = 1, 2, donde X $ es la matriz de variables estandarizadas (de media cero y varianza uno). En este grco cada punto se indica con un 1, cuando la observacin corresponde a un varn y un 0 cuando es mujer. Puede verse que la primera componente de tamao separa casi perfectamente los hombres de las mujeres. El segundo componente no parece reejar ningn efecto del sexo. Observemos que la primera componente es capaz, por si misma, de explicar casi el 80% de variabilidad. Dado que el dimetro del crneo est poco correlado con el resto

5.6. INTERPRETACIN DE LOS COMPONENTES

165

de las variables, siendo casi en exclusiva responsable de una dimensin, vamos a repetir el anlisis eliminando esta variable.

Figura 5.9: Proyeccin de las observaciones en las dos primeras componentes principales. Los resultados de eliminar la variable dimetro del crneo del anlisis se presentan en la tabla siguiente. Se incluyen los dos primeros valores y vectores propios que explican por s mismos el 92% de la variabilidad. "h Ph % 5.1 85 .4 7 Corr(z1 xi ) Corr(z2 xi ) est pes pie lbr aes drt .43 .41 .42 .41 .39 .38 .08 -.32 .17 -.04 -.60 .71 .97 .93 .95 .93 .88 .86 .05 -.20 .11 -.030 -.38 .45

El primer componente es de nuevo una media ponderada que indica el tamao de las personas, dando el mayor peso a la estatura de la persona. El segundo es de forma, ya que contrapone la longitud de la pierna a la anchura de la espalda y tiene peso positivo en las longitudes (del pie y estatura), y negativo en el peso. La proyeccin de los datos sobre el plano denido por los dos componentes se presenta en la gura 5.10. Se observa que el primer componente de tamao separa como antes los hombres de las mujeres, y que el segundo componente al ser

166

CAPTULO 5. COMPONENTES PRINCIPALES

ortogonal al tamao no parece depender del sexo. Este componente separa para ambos sexos pesonas con constitucin delgada de gruesa. La gura 5.11 presenta de forma grca p las correlaciones entre el primer y segundo componente y cada variable, calculadas como "h ahj . Se observa que el primer componente est correlado con la altura y las restantes longitudes, mientras que el segundo est especialmente relacionado con la longitud de la pierna y la anchura de la espalda.

Figura 5.10: Proyeccin de las observaciones en las dos primeras componentes principales. Ejemplo 5.13 Vamos a analizar la base de datos de MUNDODES (tabla A.6 del Anxo). Esta matriz de datos est constituida por 91 pases en los que se han observado 9 variables: X1 : ratio de natalidad, X2 : ratio de mortalidad, X3 : mortalidad infantil, X4 : esperanza de vida en hombres X5 : esperanza de vida de mujeres y X6 : PNB per capita. La representacin grca de las variables dos a dos, presentada en el captulo anterior, muestra relaciones claramente no lineales. Aplicando transformaciones logartmicas a las variables mejoramos la linealidad en estas relaciones dos a dos. Como las variables estn medidas en distintas unidades se debe realizar un anlisis de componentes principales normado (basado en la matriz de correlaciones), los resultados se presentan en la gura 5.12. La gura 5.13 presenta el grco en forma de codo para seleccionar el nmero de componentes. El primer valor propio es 4.7278, y explica el 78,8% de la variabilidad. El segundo es 0.7261, y explica el 12%. Hay un valor propio de 0,002 que corresponde a una variable que es practicamente constante. Los vectores propios se presentan a continuacin.

5.6. INTERPRETACIN DE LOS COMPONENTES

167

Figura 5.11: Correlacin de las variables con las componentes principales.

variable PC1 X1 X2 X3 X4 X5 X6

PC2

PC3 PC4 PC5 PC6

-0.454 0.034 -0.130 0.159 0.378 0.780 0.416 0.196 0.513 0.683 0.233 0.067 0.341 -0.680 -0.524 0.307 0.225 -0.031 0.440 -0.052 0.222 -0.632 0.578 0.145 -0.452 0.085 -0.029 0.114 0.639 -0.605 -0.326 -0.699 0.628 -0.039 -0.100 0.002

168
0.796

CAPTULO 5. COMPONENTES PRINCIPALES


p p p

Variances

0.923 0.967 0.988 0.997 Comp. 5

1 Comp. 6

Comp. 1

Comp. 2

Comp. 3

Comp. 4

Figura 5.12: Proporcin de variabilidad explicada por cada componente para los datos de MUNDODES.

Figura 5.13: El primer componente explica el 79% de la variabilidad, el segundo corresponde a un valor propio inferior a 1, pero lo incluiremos para interpretarlo. La primera componente se puede interpretar como una medida de desarrollo de un pas, dado que las variables con peso

5.6. INTERPRETACIN DE LOS COMPONENTES

169

positivo son las esperanzas de vida de hombres y mujeres y la renta, mientras que las de peso negativo son la mortalidad infantil y las tasas de natalidad y mortalidad, que son bajas en los pases ms desarrollados. El segundo componente esta asociado a la mortalidad infantil y a la renta, con lo que resulta de dicil interpretacin ya que mide una dimensin que est incorrelada con el primer trmino de desarrollo. Para interpretarla, la gura 5.14 muestra los paises en el plano de los dos componentes. Se observa que existe una fuerte relacin no lineal entre ambos y aunque los componentes estn incorrelados no son claramente independientes. El primer componente podemos suponer que ordena a los pases por desarrollo y el segundo tiene en cuanta la mortalidad infantil y tiene una relacin no lineal con la renta.

Figura 5.14: Representacion de los dos primeros componentes para los datos de Mundodes En los diagramas de dispersin vimos que relaciones entre las variables eran no lineales, por lo que vamos a repetir el anlisis para las variables en logaritmos. Los valores propios de la matriz de correlaciones de las variables en logaritmos no cambian mucho, pero los vectores propios s lo hacen. Son ahora: PC1 PC2 PC3 PC4 PC5 PC6 0.403 0.435 -0.376 -0.436 -0.562 0.033 0.307 -0.831 0.011 -0.457 -0.077 -0.020 0.433 0.267 -0.023 -0.331 0.793 0.051 -0.441 0.147 0.224 -0.531 0.019 -0.672 -0.446 0.071 0.213 -0.454 -0.012 0.738 -0.403 -0.149 -0.873 -0.057 0.223 -0.008 El primero sigue siendo una medida de desarrollo pero ahora el segundo esta sobre todo ligado a la tasa de mortalidad. Separa paises con alta tasa de mortalidad de los de baja. Vemos que el ltimo vector propio tambin tiene una interesante interpretacin. Nos dice que la diferencia en logaritmos entre las esperanzas de vida de hombres y mujeres es prcticamente constante en todos los pases, ya que el valor propio que corresponde a este vector

170

CAPTULO 5. COMPONENTES PRINCIPALES

propio es muy pequeo (0,015). Los pesos asociados a cada una de las variables se presentan en la gura 5.15

Comp. 1
0.2 -0.4

EspMuj

EspHom

MortInf

Comp. 2

PNB

TasaNat.

TasaMort

-0.4

0.4

TasaMort

TasaNat.

MortInf

PNB

EspHom

EspMuj

Figura 5.15: Pesos de las variables en los dos primeros componentes para los datos de MUNDODES La gura 5.16 presenta la representacin de los paises en los dos primeros componentes. El primero es una medida del desarrollo y el segundo depende principalmente de la tasa de mortalidad, y separa paises que tienen alto (o bajo) valor aparente de desarrollo de otros que tienen una mortalidad mucho mayor de la que correspondera de acuerdo a su nivel de desarrollo. Ambas dimensiones estan incorreladas pero no son independientes, como se observa en la gura. Sin embargo, el grado de dependencia entre las variables es menor que con las variables sin transformar.

Figura 5.16: Graco de los datos de Mundodes sobre los dos primeros componentes principales de los datos en logaritmos.

5.7. GENERALIZACIONES

171

5.7

Generalizaciones

La idea de componentes principales puede extenderse para buscar representaciones no lineales de los datos que expliquen su estructura. Este enfoque es especialmente interesante si sospechamos que los datos pueden disponerse siguiendo una determinada supercie en el espacio. Como hemos visto los vectores propios ligados a valores propios prximos a cero sonmuy importantes porque revelan relaciones de poca variabilidad de los datos. Por ejemplo, supongamos para simplicar una variable bidimensional donde, aproximadamente, f (x1 ) + f (x2 ) = c. Entonces, si hacemos componentes principales de las cuatro variables (x1 , x2 , f (x1 ), f (x2 ), ) encontraremos un valor propio muy prximo a cero con un vector propio de la forma (0,0, 1,1). Generalizando esta idea, si existe una relacin cualquiera no lineal entre las variables, como esta relacin podemos aproximarla por una relacin polinmica f (x1 , ..., xp ) = X ai xi + X bij xi xj + X cijk xi xj xk + ...

2 si incluimos nuevas variables adicionales como x2 1 , ..., xp o productos de variables x1 x2 etc y extraemos los componentes principales de la matriz de correlaciones entre todas estas variables, si los puntos tienen una relacin no lineal esta se detectar ligada a un valor propio prximo a cero. Este enfoque se conoce a veces como componentes principales generalizados, y el lector interesado puede encontrar ejemplos de su aplicacin en Gnandesikan (1977). El inconveniente de introducir nuevas variables, transformaciones de las iniciales, es que inmediatamente aumenta mucho la dimensin del problema con lo que si la muestra no es muy grande podemos tener una matriz de correlaciones singular. Por otro lado la interpretacin de los resultados de este anlisis, salvo en casos muy especiales, no suele ser fcil, con lo que esta herramienta no suele ayuda mucho en para la exploracin de datos multivariantes.

5.8

Lecturas complementarias

Todos los textos generales de anlisis multivariante que se indican en las referencias estudian componentes principales. Johnson y Wichern (1998) y Rechner (1998) son buenas presentaciones con similar losofa a la utilizada en el libro mientras que Flury (1997) presenta un enfoque distinto al aqu expuesto. Componentes principales es un caso particular de los mtodos de proyeccin introducidos en la seccin 4.2.3 que se conocen como Projection Pursuit (Bsqueda de la Proyeccin). Vase Krzanowski y Marriot (1994) para ms detalles. Un excelente tratado sobre componentes principales y sus extensiones es el libro de Jackson (1991), que contiene numerosas referencias. La idea de componentes principales puede extenderse al caso no lineal, y Gnanadesikan (1997) es una buena referencia. Los componentes principales puede aplicarse para investigar si varios grupos de datos tienen componentes comunes. Este aspecto ha sido investigado por Krzanowski (1979) y Flury (1984, 1986). Cuadras, C.M. (1991) y Aluja, T. y Morineau, A. (1999) son buenas referencias en espaol.

EJERCICIOS

172

CAPTULO 5. COMPONENTES PRINCIPALES

encontrar los componentes principales. Calcular la proporcin de variabilidad explicada por cada uno y las correlaciones entre los componentes y las variables. Interpretar los componentes en funcin del tamao de d. Ejercicio 5.2 Dada la matriz de correlacin: ! 1 d % d 1 S=% " d d d d

Ejercicio 5.1 Dada la matriz de covarianzas ! # 1+d 1 1 S=" 1 1+d 1 $ 1 1 1+d

d d 1 d

# d d & & d $ 1

encontrar la primera componente principal. (Nota, utilizar que encontrar los componentes y discutir su interpretacin).

= [d.1.10 + (1 ! d)I ] para

Ejercicio 5.3 Supongamos que Z, X1 , ..., Xp tienen una distribucin normal (p + 1) dimensional. Sean Y1 , ..., Yp los componentes principales de X1 , ..., Xp . Demostrar que el coeciente de correlacin mltiple de las regresiones: X Z = ai Xi X Z = bi Yi es idntico. A 0 Ejercicio 5.4 Demostrar que si S = , donde A y B son no singulares de rango 0 B rA y rB los vectores propios de S son de la forma (u1 , 0) y (0, u2 ), donde u1 es un vector propio de A y u2 un vector propio de B . Ejercicio 5.5 Indicar las implicaciones del resultado del ejercicio 5.4 para calcular componentes principales. Ejercicio 5.6 Demostrar que si S = los de B . A 0 0 B los valores propios de S son los de A ms

Ejercicio 5.7 Demostrar que el espacio que maximiza la varianza generalizada de la proyeccin es el denido por z1 = Xa1 y z2 = Xa2 donde z1 y z2 son los dos primeros componentes principales.

5.8. LECTURAS COMPLEMENTARIAS

173

Ejercicio 5.8 Demostrar que si una variable x1 est incorrelada con el resto de manera que 0 s2 0 1 la matriz S tiene la forma S = donde 0 y 00 son vectores de ceros, la matriz S 0 S2 tiene un componente principal asociado nicamente a la primera variable, es decir, el vector (1, 0...0) es un vector propio de S. Ejercicio 5.9 Demostrar que la direccin donde la variabilidad de la proyeccin es mnima es la dada por el vector propio ligado al menor valor propio de la matriz de covarianzas. Ejercicio 5.10 Demostrar la siguiente acotacin para formas cuadrticas : "min w0 w # w0 Bw # "max w0 w, donde "min y "max son el menor y el mayor valor propio de la matriz B. (Sugerencia, maximizar la forma cuadrtica como se hizo para obtener el primer componente principal)

APNDICE 5.1. DISTANCIAS ENTRE PUNTOS Y PROYECCIONES


Vamos a demostrar que maximizar las distancias al cuadrado entre los puntos proyectados equivale a maximizar la varianza de la variable denida por las proyecciones de los puntos. 0 a1 = Sea zi = a01 xi la proyeccin de una observacin sobre la direccin a1 , donde Pn suponemos Pn a1 0 1. La P variable zi tendr media cero ya que si las x tienen media cero i=1 zi = i=1 a1 xi = a01 n i=1 xi = 0. La suma de las distancias al cuadrado entre los puntos proyectados es Dp =
n n X X i=1 h=i+1

(zi ! zh )2 .

Para interpretar este sumatorio observemos que cada trmino zi aparece al cuadrado n ! 1, veces ya que cada punto se comparacon los otros n ! 1, y que habr tantos dobles n productos como parejas de puntos, es decir 2 = n(n ! 1)/2. Por tanto: Dp = (n ! 1) siendo B :
n X i=1 n n X X n X i=1

zi2

!2

n n X X

zi zh = n

i=1 h=i+1

2 zi !B

B= que puede escribirse,

zi2

+2

zi zh

i=1 h=i+1

B = z1 (z1 + z2 + . . . zn ) + z2 (z1 + . . . + zn ) + . . . zn (z1 + . . . + zn ) n n X X = zi zi = 0.


i=1 i=1

174

CAPTULO 5. COMPONENTES PRINCIPALES

Por tanto, maximizar las distancias entre los puntos equivale a maximizar: A=n X
2 zi

que es el criterio de maximizar la varianza de la nueva variable, obtenida anteriormente. Algunos autores han propuesta minimizar XX bij )2 wij (dij ! d

donde wij es una funcin de ponderacin. El problema as planteado no tiene una solucin simple y debe resolverse mediante un algoritmo iterativo no lineal. Vese por ejemplo Krzanowski (1990, cap2).

APNDICE 5.2. LOS COMPONENTES COMO PREDICTORES PTIMOS


Demostraremos que los componentes principales son predictores ptimos de las X. Comencebr mos demostrando que si queremos aproximar la matriz X, de rango p, por otra matriz X de rango r < p, la aproximacin ptima es XAr A0r = Zr A0r , donde la matriz Ar es p r y sus columnas son los vectores propios asociados a los r mayores valores propios de la matriz S. El problema de aproximar la matriz X puede establecerse as: Consideremos un espacio de dimensin r denido por una base Ur ortonormal, donde Ur es p r y U0r Ur = I. Se desea encontrar una aproximacin de la matriz X utilizando una base de ese espacio, es decir, queremos prever cada una de las las (x1 , ..., xn ) de la matriz, donde xi es el vector p 1 de observaciones en el elemento i de la muestra, mediante los vectores Ur . La prediccin de la variable xi ser la proyeccin ortogonal sobre el espacio generado por estos vectores que es x bi = Ur U0r xi

y queremos determinar los vectores Ur tal que el error cuadrtico de aproximacin total para todas las las de la matriz, dado por
p n n X X X 2 bi )0 (xi ! x bi ) (xij ! x bij ) = (xi ! x E= j =1 i=1 i=1 n X i=1 0 n X i=1

(5.17)

sea mnimo. El error puede escribirse E=

xi xi !

xi 0 Ur U0r xi

(5.18)

y minimizar el error equivale el P segundo trmino. Utilizando que un esPn a 0maximizar Pn n 0 0 0 calar es igual tr( i=1 xi Ur Ur xi ) = i=1 tr(Ur U0r xiP xi 0 ) = Pn a su 0 traza, i=1 xi Ur Ur xi = P n 0 0 0 0 tr(Ur Ur i=1 xi xi ). Introduciendo que S = i=1 xi xi /n y sustituyendo en tr(Ur Ur n i=1 xi xi ), tenemos que esta expresin es ntr(Ur U0r S) = ntr(U0r SUr ). Por tanto:
n X i=1

xi 0 Ur U0r xi = ntr(U0r SUr )

(5.19)

5.8. LECTURAS COMPLEMENTARIAS

175

Segn esta expresin, minimizar el error (5.18) implica encontrar un conjunto de vectores 0 U 1 , ..., ur ] que maximicen la suma de los elementos diagonales de Ur SUr , es decir, Prr = [u 0 j =1 uj Suj . Si r = 1, este es el problema que se ha resuelto para encontrar el primer componente. Si r = 2, como el nuevo vector debe ser ortogonal al primero, obtenemos el segundo componente, y as sucesivamente. Por tanto, Ur = Ar , y la aproximacin ptima a b r = XAr A0 . Adems, como en (5.18) el primer trmino es la matriz X vendr dada por X r
i=1 n X i=1 n X

xi x = tr(

n X i=1

xi x) = X
i=1 p

n X i=1

tr(xi 0 x) =

tr

(xxi 0 ) = ntr(S) =n

"i

Pr y el segundo es, segn (5.19), igual a n i=1 "i , tenemos que el error de la aproximacin Pp ser n i=r+1 "i . Es interesante sealar que esta aproximacin a una matriz es la que proporciona la descomposicin en valores singulares, es decir la mejor aproximacin a la matriz X por otra b r de rango r < p es matriz X donde Ur es la matriz de los r mayores vectores propios de XX0 , Dr contiene los r mayores valores propios y Vr contiene los vectores propios de X0 X. . En efecto, segn hemos visto en b r = Zr A0 , que es el resultado anterior. la seccin 5.7 X r El problema puede enfocarse desde otro punto de vista. Busquemos unas variables [z1 , ..., zr ] que sean combinaciones lineales de las originales y que tengan la propiedad de preverlas de manera ptima. Por ejemplo, si r = 1, buscamos un vector a1 de manera que la nueva variable: z1 = Xa1 permita prever con mnimo error los valores observados para el conjunto de variables que forman las columnas de la matriz X. Por ejemplo, el valor previsto para la variable xj en el individuo i, x bij , conocido el valor de la variable z1 para ese individuo, z1i ser: y el error de prediccin ser eij = xij ! x bij . Vamos a demostrarlo para simplicar en el caso r = 1. Calcularemos el vector a1 para que minimice estos errores de prediccin. Es conocido que el coeciente de regresin bj viene dado por: Pn =1 xij z1i bj = iP 2 z1 i (5.20) x bij = bj z1i b r = Ur D1/2 V0 = X r r
r X i=1 0 "1 ui vi 1/2 1/2

176

CAPTULO 5. COMPONENTES PRINCIPALES

P 2 0 0 0 como 1/n z1 i = 1/na X Xa = a Sa, la varianza de z1 puede crecer indenidamente si no imponemos ninguna restriccin. Exigiremos que sea unitaria, es decir que: a0 Sa = 1 = (1/n) Entonces: bj = 1/n X X
2 z1 i

(5.21)

0 xij z1i = 1/nX0j Xa1 = Vj a1

(5.22)

donde Vj es el vector la j de la matriz S de varianzas y covarianzas. Impongamos la condicin mnimo cuadrtica para obtener a1 : 2 1X 2 1 X 0 eij = M nimo = xij ! Vj a1 z1i n i=1 n i=1 y el segundo miembro puede escribirse: X X 1 1X 2 0 0 1 2 xij + a01 Vj Vj a1 z1 ! 2 V a xij z1i j i n i=1 n n i=1 i=1 utilizando ahora (5.21) y (5.22), se obtiene 1X 2 1X 2 0 eij = x ! a01 Vj Vj a1 . n i=1 n i=1 ij Aplicando este mismo razonamiento a las otras variables X y sumando para todas ellas: 1 XX 2 1 XX 2 X 0 0 M= eij = x ! a Vj Vj a1 n i=1 j =1 n i=1 j =1 ij j =1 1 como el primer miembro es la traza de S que es ja, maximizar M equivale a minimizar:
p X j =1 n p n p p n n n n n n n

a01

0 Vj Vj a1 = a01 SS0 a01 = a01 S2 a1

(5.23)

ya que S es simtrica. Por lo tanto, el problema es minimizar la expresin (9.14) con la restriccin (5.21): L = a01 S2 a1 ! "(a1 Sa1 ! 1)

5.8. LECTURAS COMPLEMENTARIAS

177

&L = 2S2 a!"2Sa = 0 &a

S2 a = "Sa de donde incluimos que a debe de ser un vector propio de S y " un valor propio, ya que si: Sa = "a multiplicando por S S2 a = "Sa Con lo que naliza la demostracin. Es interesante resaltar que este resultado es simplemente la implicacin estadstica de la propiedad que tienen los vectores y races caractersticos de generar la matriz de base.

178

CAPTULO 5. COMPONENTES PRINCIPALES

Captulo 6 ESCALADO MULTIDIMENSIONAL


6.1 INTRODUCCIN

Las tcnicas de escalado multidimensional son una generalizacin de la idea de componentes principales cuando en lugar de disponer de una matriz de observaciones por variables, como en componentes principales, se dispone de una matriz, D, cuadrada n n de distancias o disimilaridades entre los n elementos de un conjunto. Por ejemplo, esta matriz puede representar las similitudes o distancias entre n productos fabricados por una empresa, las distancias percibidas entre n candidatos polticos, las diferencias entre n preguntas de un cuestionario o las distancias o similitudes entre n sectores industriales. Estas distancias pueden haberse obtenido a partir de ciertas variables, o pueden ser el resultado de una estimacin directa, por ejemplo preguntando a un grupo de jueces por sus opiniones sobre las similaridades entre los elementos considerados. El objetivo que se pretende es representar esta matriz mediante un conjunto de variables ortogonales y1 , . . . , yp , donde p < n , de manera que las distancias eucldeas entre las coordenadas de los elementos respecto a estas variables sean iguales (o lo ms prximas posibles) a las distancias o disimilaridades de la matriz original. Es decir, a partir de la matriz D se pretende obtener una matriz X, de dimensiones n p, que pueda interpretarse como la matriz de p variables en los n individuos, y donde la distancia eucldea entre los elementos reproduzca, aproximadamente, la matriz de distancias D inicial. Cuando p > 2, las variables pueden ordenarse en importancia y suelen hacerse representaciones grcas en dos y tres dimensiones para entender la estructura existente. Este planteamiento presenta dos interrogantes: Es siempre posible encontrar estas variables? Cmo construirlas? En general no es posible encontrar p variables que reproduzcan exactamente las distancias iniciales, sin embargo es frecuente encontrar variables que reproduzcan aproximadamente las distancia iniciales. Por otro lado, si la matriz de distancias se ha generado calculando las distancias eucldeas entre las observaciones denidas por ciertas variables, recupereraremos las componentes principales de estas variables. El escalado multidimensional comparte con componentes principales el objetivo de describir e interpretar los datos. Si existen muchos elementos, la matriz de similaridades ser muy grande y la representacin por unas pocas variables de los elementos nos permitir entender su estructura: qu elementos tienen propiedades similares, si aparecen grupos entre 179

180

CAPTULO 6. ESCALADO MULTIDIMENSIONAL

los elementos, si hay elementos atpicos, etc. Adems, si podemos interpretar las variables aumentar nuestro conocimiento del problema, al entender cmo se han generado los datos. Por ejemplo, supongamos que se realiza una encuesta para determinar que similitudes encuentran los consumidores entre n productos o servicios, y que la informacin se resume en una matriz cuadrada de similitudes entre los productos. Supongamos que descubrimos que estas similitudes pueden generarse por dos variables. Entonces, es razonable suponer que los consumidores han estimado la similitud entre los productos utilizando estas dos variables. El escalado multidimensional representa un enfoque complementario a componentes principales en el sentido siguiente. Componentes principales considera la matriz p p de correlaciones (o covarianzas) entre variables, e investiga su estructura. El escalado multidimensional considera la matriz n n de correlaciones (o covarianzas) entre individuos, e investiga su estructura. Ambos enfoques estn claramente relacionados, y existen tcnicas grcas, como el biplot que estudiaremos en este captulo, que aprovechan esta dualidad para representar conjuntamente las variables y los individuos en un mismo grco. El escalado multidimensional (Multidimensional Scaling) tiene sus orgenes en los estudios de psicologa experimental, en los aos 50, para descubrir la similaridad entre estmulos aplicados a distintos individuos. Su desarrollo actual es debido a las investigaciones de Torgerson, Shepard, Kruskal y Gower, entre otros, y se han aplicado, preferentemente, en las ciencias sociales. Los mtodos existentes se dividen en mtricos, cuando la matriz inicial es propiamente de distancias, y no mtricos, cuando la matriz es de similaridades. Los mtodos mtricos, tambin llamados coordenadas principales, utilizan las diferencias entre similitudes mientras que los no mtricos parten de que si A es ms similar a B que a C, entonces A esta ms cerca de B que de C, pero las diferencias entre las similitudes AB y AC no tienen interpretacin.

6.2
6.2.1

ESCALADOS MTRICOS: COORDENADAS PRINCIPALES


Construccin de variables a partir de las distancias

Vimos en el Captulo 3 que dada una matriz X de individuos por variables obtenemos variables con media cero mediante la operacin:

e , de variables con media cero y dimensiones n p, podemos construir A partir de esta matriz X dos tipos de matrices cuadradas y semidenidas positivas: la matriz de covarianzas, S, e 0X e /n y la matriz de productos cruzados, Q = X eX e 0 , que vamos a ver que denida por X puede interpretarse como una matriz de similitud (covarianzas) entre los n elementos. En efecto, los trminos de esta matriz, qij , contienen el producto escalar por pares de elementos:

e = (I ! 1 110 )X = PX X n

6.2. ESCALADOS MTRICOS: COORDENADAS PRINCIPALES

181

qij =

p X s=1

xis xjs = x0i xj ,

(6.1)

e . Por la expresin del producto escalar, donde hemos llamado x0i a la la i de la matriz X qij = |xi | |xj | cos !ij , si los dos elementos tienen coordenadas similares, cos !ij ' 1 y qij ser grande. Por el contrario, si los dos elementos son muy distintos, cos !ij ' 0 y qij ser eX e 0 como la matriz de similitud pequeo. En este sentido podemos interpretar la matriz X entre elementos. Las distancias entre las observaciones se deducen inmediatamente de esta matriz de similitud. La distancia eucldea al cuadrado entre dos elementos es:
p p p p X X X X 2 2 2 = (xis ! xjs ) = xis + xjs ! 2 xis xjs s=1 s=1 s=1 s=1

d2 ij

(6.2)

que puede calcularse en funcin de los trminos de la matriz Q, por la expresin d2 ij = qii + qjj ! 2qij . (6.3)

e podemos construir la matriz de similitud Q = X eX e 0 y, a Por tanto, dada la matriz X partir de ella, la matriz D de distancias al cuadrado entre elementos con ayuda de (6.3). Llamando diag (Q) al vector que contiene los trminos diagonales de la matriz Q, y 1 al vector de unos, la matriz D viene dada por D =diag (Q)10 + 1diag (Q)0 ! 2Q e a partir de una El problema que vamos a abordar es el inverso: reconstruir la matriz X 2 matriz de distancias al cuadrado, D, con elementos dij . Para ello, obtendremos primero la e. matriz Q, y a continuacin la X Comencemos estudiando cmo obtener la matriz Q dada la matriz D. En primer lugar, observemos que no hay prdida de generalidad en suponer que las variables tienen media cero. Esto es consecuencia de que las distancias entre dos puntos, d2 ij no varan si expresamos las variables en desviaciones a la media, ya que
p p X X 2 = (xis ! xjs ) = [(xis ! xs ) ! (xjs ! xs )]2 . s=1 s=1

d2 ij

(6.4)

Dado que estamos suponiendo que la nica informacin existente son las distancias entre e con variables de elementos, para resolver esta indeterminacin vamos a buscar una matriz X 0 e 1 = 0 tambin Q1 = 0, es decir, la suma de todos los media cero. En consecuencia, como X elementos de una la de la matriz de similitudes, Q, (y de una columna ya que la matriz es simtrica) debe de ser cero. Para imponer estas restricciones, sumemos en (6.3) por las:

182

CAPTULO 6. ESCALADO MULTIDIMENSIONAL

donde t = i=1 qii = traza (Q), y hemos utilizado que la condicin Q1 = 0 implica Pn i=1 qij = 0. Sumando (6.3) por columnas
n X j =1

Pn

n X i=1

d2 ij

n X i=1

qii + nqjj = t + nqjj

(6.5)

d2 ij = t + nqii

(6.6)

y sumando ahora (6.5) por las de nuevo


n n X X i=1 j =1

d2 ij = 2nt.

(6.7)

Sustituyendo en (6.3) qjj obtenida en (6.5) y qii en (6.6), tenemos que 1X 2 t t 1X 2 = dij ! + dij ! ! 2qij , n i=1 n n j =1 n
1 n n n

d2 ij

(6.8)

Pn 1 2 2 y llamando d2 i. = n j =1 dij y d.j = utilizando (6.7), tenemos que

Pn

i=1

d2 ij , a las medias por las y por columnas y

2 2 2 d2 ij = di. + d.j ! d.. ! 2qij .

(6.9)

donde d2 .. es la media de todos los elementos de D, dada por d2 .. = Finalmente, de (6.9) resulta que 1 XX 2 dij , n2

1 2 2 qij = ! (d2 ! d2 i. ! d.j + d.. ) 2 ij

(6.10)

expresin que indica cmo construir la matriz de similitud Q a partir de la matriz D de distancias. Pasemos ahora al problema de obtener la matriz X dada la matriz Q. Suponiendo que la matriz de similitud es denida positiva de rango p, puede representarse por Q = V "V 0

6.3. MATRICES COMPATIBLES CON MTRICAS EUCLDEAS

183

donde V es n p y contiene los vectores propios correspondientes a valores propios no nulos de Q, " es diagonal p p y contiene los valores propios y V0 es p n. Escribiendo: Q = (V"1/2 )("1/2 V0 ) y tomando Y = V"1/2 hemos obtenido una matriz n p con p variables incorreladas que reproducen la mtrica inicial. Observemos que si partimos de unas variables X y calculamos a partir de estas variables la matriz de distancias con (6.2) y luego aplicamos el mtodo descrito a esta matriz de distancias no obtendremos las variables originales, X, sino sus componentes principales. Esto es inevitable, ya que existe una indeterminacin en el problema cuando la nica informacin disponible son las distancias. En efecto, las distancias entre elementos no varan si: (1) modicamos las medias de las variables (2) rotamos los puntos, es decir multiplicamos por una matriz ortogonal. Las distancias son funcin, por (6.3) de los trminos de la matriz de similitud, Q, y esta matriz es invariante ante rotaciones de las variables. En efecto:
0 e0 eX e 0 = XAA e Q=X X

(6.11)

para cualquier matriz A ortogonal. La matriz Q slo contiene informacin sobre el espacio generado por las variables X. Cualquier rotacin preserva las distancias. En consecuencia, cualquier rotacin de las variables originales podra ser solucin.

6.3

Matrices compatibles con mtricas eucldeas

Para poder calcular la raz cuadrada de la matriz de similitud mediante (6.11) es necesario que los valores propios de la matriz Q, que construimos a partir de la matriz D original, sean no negativos. Dada una matriz de distancias, D, diremos que sta matriz es compatible con una mtrica eucldea si la matriz de similitud que se obtiene a partir de ella 1 Q = ! PDP 2
1 es semidenida positiva, donde P = I ! n 110 . Vamos a demostrar que esta condicin es necesaria y suciente, es decir, si D se ha construido a partir de una mtrica eucldea Q es no negativa y si Q es no negativa es posible encontrar una mtrica eucldea que reproduzca D.

Demostracin

184

CAPTULO 6. ESCALADO MULTIDIMENSIONAL

Demostraremos primero que si D se ha construido a partir de una mtrica eucldea Q PDP tiene los es no negativa. Para ello comprobaremos en primer lugar que la matriz ! 1 2 trminos (6.10). En efecto, los trminos de la matriz Q sern 1 1 1 1 1 1 1 Q = ! (I ! 110 )D(I ! 110 ) = ! (D ! 110 D ! D110 + 2 110 D110 ) 2 n n 2 n n n y llamando qij a los elementos de Q: 1 2 2 qij = ! (d2 ! d2 i. ! d.j + d.. ). 2 ij (6.12)

(6.13)

eX e 0 y por tanto es semideniVamos a comprobar ahora que Q puede expresarse como X da positiva. Como ahora, por hiptesis, los trminos d2 ij son los cuadrados de distancias eucldeas, por (6.2), podemos escribir 1 XX 2 X 2 2 XX xis + xjs ! xis xjs n i s n i s s X
s

d2 .j =

d2 i. =

x2 is +

1 XX 2 2 XX xjs ! xis xjs n j s n j s

d2 .. = ! Como

1 XX 2 1 XX 2 1 XXX xis + xjs ! 2 xis xjs . n i s n j s n i j s

X 1XX ( xis )xjs = xs xjs n s i s X X 1 XX ( x )( x ) = x2 is js s 2 n s s i j se verica que X


p

(6.14)

(6.15)

qij =

xpi xpj !

X
p

xp xpj !

X
p

xp xpi +

X
p

0 x2 p = (xi ! x) (xj ! x)

(6.16)

y, por tanto, en general

6.3. MATRICES COMPATIBLES CON MTRICAS EUCLDEAS

185

que es siempre semidenida positiva, de rango p. Vamos a demostrar ahora que si Q es semidenida positiva podemos encontrar ciertas variables, y1 , . . . , yp , que reproduzcan las distancias observadas. Si Q es semidenida positiva de rango p podemos expresarla como:
p X

# (x1 ! x)0 % & . X 0, . Q=" $ [(x1 ! x) . . . (xn ! x)] = X . (xn ! x)0

(6.17)

Q=

0 "i vi vi

" donde "i son sus valores propios y vi los vectores propios. Llamando yi = "i vi a la estandarizacin de los vectores propios para que tengan varianza unidad, podemos escribir Q= X
0 yi yi

(6.18)

Las variables yi representan la solucin buscada: son un conjunto de p variables ndimensionales incorreladas entre s y tales que el cuadrado de la distancia eucldea que inducen entre dos puntos es:
0 *2 ij = (zi ! zj ) (zi ! zj )

(6.19)

donde z0i = (yi1 , . . . , yip ) es igual a las distancias originales observadas d2 ij . Para demostrarlo observemos que (6.18) implica que la matriz cuadrada de similitud Q puede tambin escribirse: # ! 0 y1 % . & % Q = [y1 , . . . , yp ] " . . $=" 0 yp ! # z01 & . . . $ [z1 , . . . , zn ] z0n

donde estamos llamando y a las p variables n-dimensionales y z al vector de dimensin p formado por los valores de estas variables en un individuo de la poblacin. Entonces: qij = z0i zj La distancia al cuadrado entre dos puntos es, por (6.19)
0 0 0 *2 ij = zi zi + zj zj ! 2zi zj

(6.20)

186 y, por (6.20)

CAPTULO 6. ESCALADO MULTIDIMENSIONAL

*2 ij = qii + qjj ! 2qij , y como esta expresin es idntica a (6.3), concluimos que:
2 *2 ij = dij

y las nuevas variables reproducen exactamente las distancias eucldeas.

6.3.1

Construccin de las Coordenadas Principales

En general la matriz de distancias no ser compatible con una mtrica eucldea, pero es frecuente que la matriz de similitud obtenida a partir de ella tenga p valores propios positivos y ms grandes que el resto. Si los restantes n ! p valores propios no nulos son mucho menores que los dems, podemos obtener una representacin aproximada de los puntos utilizando los p vectores propios asociados a valores propios positivos de la matriz de similitud. En este caso, las representaciones grcas conservarn slo aproximadamente la distancia entre los puntos. Supongamos que tenemos una matriz de distancias al cuadrado D. El procedimiento para obtener las coordenadas principales es: 1. Construir la matriz Q = ! 1 PDP, de productos cruzados. 2 2. Obtener los valores propios de Q. Tomar los r mayores valores propios, donde r se escoge de manera que los restantes n ! r valores propios sean prximos a cero. Observemos que como P1 = 0, donde 1 es un vector de unos, la matriz Q tiene rango mximo n ! 1 y siempre tendr el vector propio 1 unido al valor propio cero. " 3. Obtener las coordenadas de los puntos en las variables mediante vi "i , donde "i es un valor propio de Q y vi su vector propio asociado. Esto implica aproximar Q por
/2 1/2 0 Q ,(Vr "1 r )("r Vr )

y tomar como coordenadas de los puntos las variables


/2 Yr = Vr "1 r .

El mtodo puede tambin aplicarse si la informacin de partida es directamente la matriz de similitud entre elementos. Diremos que se ha denido una funcin de similitud entre elementos si existe una funcin, sij , con las propiedades siguientes: (1) sii = 1, (2) 0 # sij # 1, (3) sij = sji .

6.3. MATRICES COMPATIBLES CON MTRICAS EUCLDEAS

187

La similaridad es pues una funcin no negativa y simtrica. Si la matriz de partida, Q, es una matriz de similitud, entonces qii = 1, qij = qji y 0 # qij # 1. La matriz de distancias asociadas ser, por (6.3), d2 ij = qii + qjj ! 2qij = 2(1 ! qij )

p y puede comprobarse que 2(1 ! qij ) es una distancia y verica la desigualdad triangular al corresponder a la distancia eucldea para cierta conguracin de puntos. Pueden obtenerse medidas de la precisin conseguida mediante la aproximacin a partir de los p valores propios positivos de la matriz de similitud. Mardia ha propuesto el coeciente: Pp "i = 100 Pp 1 |"i |

m1,p

Ejemplo 6.1 Las distancias en kilomtros por carretera entre las ciudades espaolas siguientes se encuentran en el cuadro adjunto, que llamaremos matriz M, donde las ciudades se han representado por las letras siguientes: M es Madrid, B Barcelona, V Valencia, S Sevilla, SS San Sebastin y LC La Corua. M B V S SS LC M 0 627 351 550 488 603 B 627 0 361 1043 565 1113 V 351 361 0 567 564 954 S 550 1043 567 0 971 950 SS 488 565 564 971 0 713 LC 603 1113 954 950 713 0 Llamando D a esta matriz de distancias, la matriz de similitud es Q = !.5PDP y dividiendo cada trmino por 10,000 se obtiene la matriz: 0.1176 -0.3908 -0.1795 0.3856 -0.3180 0.3852 -0.3908 3.0321 1.2421 -2.0839 0.7338 -2.5333 -0.1795 1.2421 0.7553 0.6095 -0.3989 -2.0285 0.3856 -2.0839 0.6095 3.6786 -2.0610 -0.5288 -0.3180 0.7338 -0.3989 -2.0610 1.6277 0.4165 0.3852 -2.5333 -2.0285 -0.5288 0.4165 4.2889 que tiene los siguientes vectores propios, por columnas: -0.0960 -0.0443 -0.2569 0.1496 0.8566 0.4082 0.6270 0.1400 -0.4155 -0.4717 -0.1593 0.4082 0.2832 -0.2584 -0.0094 0.7670 -0.3130 0.4082 -0.2934 -0.7216 0.2205 -0.4017 -0.1285 0.4082 0.1241 0.4417 0.7812 -0.0687 0.0885 0.4082 -0.6449 0.4426 -0.3198 0.0255 -0.3443 0.4082 ligados a los siguientes valores propios: 7.3792 5.9106 0.5947 -0.3945 0.0104 0.0000 La matriz Q tiene dos valores propios grandes y los otros tres son muy pequeos. Adems tenemos el autovalor cero ligado al vector propio unidad. Esto sugiere que las distancias

188

CAPTULO 6. ESCALADO MULTIDIMENSIONAL

pueden explicarse aproximadamente mediante dos variables. Tomando los dos vectores propios asociados a los mayores valores propios, y estandarizndoles por la raz de su valor propio, resultan las siguientes coordenadas para cada ciudad Madrid -82.44 -34.05 Barcelona 538.61 107.67 Valencia 243.29 -198.62 Sevilla -252.04 -554.79 San Sebastin 106.60 339.55 La Corua -554.02 340.25 Si representamos estas coordenadas se obtiene la gura 6.1. Se observa que las coordenadas de las ciudades reproducen, con cierta aproximacin, el mapa de Espaa.

Figura 6.1: Representacin de las coordenadas principales de seis ciudades espaolas El grado de bondad de esta representacin puede medirse por el coeciente 7.3792 + 5.9106 = 93% m = 100 7.3792 + 5.9106 + 0.5947 + 0.3945 + 0.0104 y vemos que la representacion en dos dimensiones es muy adecuada para estos datos. Ejemplo 6.2 La matriz adjunta indica las similitudes encontradas por un grupo de consumidores entre 7 productos de consumo. A B C D E F G A 0 7 5 9 5 7 9 B 7 0 4 6 4 6 7 C 5 4 0 3 4 5 6 D 9 6 3 0 3 2 2 E 5 4 4 3 0 5 4 F 7 6 5 2 5 0 4 G 9 7 6 2 4 4 0

6.4. RELACIN ENTRE COORDENADAS Y COMPONENTES PRINCIPALES

189

Aplicando la transformacion a la matriz Q, los valores propios son 6.24, 3.37, 2.44, 2.04, 1.25, -.06, 0. La representacion de los productos correspondiente a los dos vectores principales se presenta en el gura 6.2. El grado de ajuste de esta representacin es 9.61 m = 100 = 62.4% 15.4
0.6 A 0.4 F 0.2 G

0 E -0.2 C

-0.4

-0.6 B -0.8 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6

Figura 6.2: Representacin de los productos en el plano de las dos primeras coordenadas principales. Podemos concluir que los consumidores parecen utilizar dos dimensiones de valoracin que explican el 62.4% de la variabilidad, aunque existen otras dimensiones que se tienen en cuenta con menor peso.

6.4

RELACIN ENTRE COORDENADAS Y COMPONENTES PRINCIPALES

e de individuos por variables y construimos Cuando los datos originales forman una matriz X la matriz D de distancias utilizando las distancias eucldeas entre los puntos a partir de dichas variables originales, las coordenadas principales obtenidas de la matriz D son equivalentes a los componentes principales de las variables. En efecto, con variables de media cero los componentes principales son los autovectores 1 e0 e de n X X, mientras que, como hemos visto en la seccin 6.3 (ecuacin 6.18), las coordenadas " eX e 0. principales son los vectores propios estandarizados por "i de los autovalores de Q = X e 0X e y X eX e 0 tienen el mismo rango y los mismos autovalores no Vamos a comprobar que X 0e nulos. Si ai es un autovector de X X con autovalor "i , e 0 Xa e i = "i a i X (6.21)

190

CAPTULO 6. ESCALADO MULTIDIMENSIONAL

e ambos miembros, y multiplicando por X

e i es un autovector de X eX e 0 con el mismo valor propio "i . Si n > p y la matriz es decir, Xa e 0X e tiene rango completo tendr p autovalores no nulos que ser los autovalores no nulos X eX e 0 . Los vectores propios de X eX e 0 son las proyecciones de la matriz X e sobre la direccin de X 0e e de los vectores propios de X X. Por otro lado, la matriz n p que proporciona los valores de los p componentes principales en los n individuos es: e Z = XA (6.23)

e i = "i Xa e i eX e 0 Xa X

(6.22)

donde Z es n p y tiene por columnas los componentes principales y A es p p y contiene e . La matriz n p de coordenadas principales viene e 0X en columnas los vectores propios de X dada por: ! " "1 % ... Y = [v1 , . . . , vp ] " # "p & $ = VL (6.24)

eX e 0 , la matriz V es n p y contiene los p autovectores no donde vi es un vector propio de X e 0X e , y L es p p y diagonal. Como V = X e , es claro que, aparte de un factor de nulos de X escala, ambos procedimientos conducen al mismo resultado. El anlisis en coordenadas principales o escalado multidimensional, est muy relacionado con componentes principales. En ambos casos tratamos de reducir la dimensionalidad de e 0X e , obtenemos sus valores propios, los datos. En componentes partimos de la matriz X y luego proyectamos las variables sobre estas direcciones para obtener los valores de los componentes, que son idnticas a las coordenadas principales, que se obtienen directamente eX e 0 . Si la matriz de similaridades proviene de una como vectores propios de la matriz X mtrica eucldea ambos mtodos conducirn al mismo resultado. Sin embargo, el concepto de coordenadas principales o escalado multidimensional puede aplicarse a una gama ms amplia de problemas que componentes, ya que las coordenadas principales pueden obtenerse siempre, aunque las distancias de partida no hayan sido exactamente generadas a partir de variables, como veremos en el caso de escalado no mtrico.

6.5

BIPLOTS

Se conocen como biplots a las representaciones grcas conjuntas en un plano de las las y de las columnas de una matriz. En el caso de una matriz de datos, el biplot es un grco conjunto de las observaciones y las variables. La representacin se obtiene a partir de la

6.5. BIPLOTS

191

descomposicin en valores singulares de una matriz (vese la seccin 2.4.2). Una matriz X de dimensiones n p puede siempre descomponerse como X = VD1/2 A0 o grcamente ! x11 % . % % . % % . % " . xn1

. x1p . . . . . . . . . xnp

donde V es n p y contiene en columnas los vectores propios asociados a valores propios no nulos de la matriz XX0 , D es una matriz diagonal de orden p que contiene las raices cuadradas de los valores propios no nulos de XX0 o X0 X y A0 es una matriz ortogonal de orden p y contiene por las los vectores propios de X0 X. Las matrices de vectores propios verican V0 V = I, A0 A = I. La descomposicin en valores singulares tiene gran importancia prctica porque, como se demuestr en el apndice 5.2, la mejor aproximacin de rango r < p a la matriz X se obtiene tomando los r mayores valores propios de X0 X y los correspondientes vectores propios de XX0 y X0 X y construyendo b = Vr D1/2 A0 X r r

& % & % & % &=% & % & % $ "

v11 . . . . vnp

# . v1p ! #! # . . & & "1/2 . 0 a11 . a1p & . . &" 0 . 0 $" . . . $ . . & & ap1 . app 0 . "1/2 . . $ . vnp

donde Vr es n r y contiene las primeras r columnas de V correspondientes a los r mayores 1/2 valores propios de XX0 , Dr es diagonal de orden r y contiene estos r valores propios y A0r es r p y contiene las r primeras las de A0 que corresponden a los r vectores propios de X0 X ligados a los r mayores valores propios. La representacin biplot de una matriz X consiste en aproximarla mediante la descomposicin en valores singulares de rango dos, tomando r = 2 :
/2 0 1/2!c/2 2 0 X , V2 D1 )(Dc/ 2 A2 = (V2 D2 2 A2 ) = FC

donde V2 es n 2, D2 es diagonal de orden 2 y A02 es 2 p . Tomando 0 # c # 1 se obtienen distintas descomposiciones de la matriz X en dos matrices. La primera, F representa las n las de la matriz X en un espacio de dos dimensiones y la segunda, C, representa en el mismo espacio las columnas de la matriz. Segn el valor de c se obtienen distintos biplots. Los ms utilizados son para c = 0, 0, 5, y 1. Vamos a interpretar el biplot cuando c = 1, que es el caso ms interesante. Entonces representaremos las observaciones, las de X, por las las de la matriz V2 , y las variables, 1/2 columnas de X, por las columnas de la matriz D2 A02 . Para distinguir ambas representaciones las observaciones se dibujan como puntos y las variables como vectores en el plano. Se verica que:

1/2

192

CAPTULO 6. ESCALADO MULTIDIMENSIONAL

(1) La representacin de las observaciones como puntos en un plano mediante las las de V2 , equivale a proyectar las observaciones sobre el plano de las dos componentes principales estandarizadas para que tengan varianza unidad. (2) Las distancias eucldeas entre los puntos en el plano equivale, aproximadamente, a las distancias de Mahalanobis entre las observaciones originales. (3) La representacin de las variables mediante vectores de dos coordenadas es tal que el ngulo entre los vectores equivale, aproximadamente, a la correlacin entre las variables. Para demostrar estas propiedades utilizaremos la relacin entre los componentes y los vectores propios de XX0 . Las coordenadas de los componentes principales son Z = XA, y, como hemos visto en la seccin anterior, los vectores que forman las columnas de Z son vectores propios sin normalizar de XX0 . En efecto, los vectores propios de X0 X verican X0 Xai = "i ai y multiplicando por X tenemos que XX0 (Xai ) = "i (Xai ) por tanto, zi = Xai es un vector propio de la matriz XX0 , pero no esta normalizado a norma unidad. El vector propio normalizado ser 1 vi = " zi . "i Generalizando, la matriz de vectores propios de XX0 normalizados a norma unidad ser 1 1 V = [v1 , ..., vp ] = " z1 , ..., " zp = ZD!1/2 "i "i y es inmediato que con esta normalizacin V0 V = D!1/2 Z ZD!1/2 = D!1/2 DD!1/2 =I. Por tanto si representamos los puntos por V2 tenemos las proyecciones estandarizadas a varianza uno de las observaciones sobre los dos primeros componentes. Vamos a comprobar la segunda propiedad. Una observacin se representa por los componentes principales por x0i A, y si estandarizamos los componentes a varianza uno x0i AD!1/2 . Las distancias eucldeas al cuadrado entre dos observaciones en trminos de sus coordenadas en los componentes estandarizados sern: 2 0 0 0 xi AD!1/2 !xj AD!1/2 = (xi ! xj )0 AD!1 A (xi ! xj )0
0 0

y como S = ADA0 entonces S!1 = AD!1 A y obtenemos la distancia de Mahalanobis entre las observaciones originales. Si en lugar de tomar los p componentes tomamos slo los dos ms importantes esta relacin ser aproximada y no exacta. Comprobaremos por ltimo que si representamos las variables como vectores con co1/2 ordenadas D2 A02 = C los ngulos entre los vectores representan, aproximadamente, la correlacin entre las variables. Para ello escribiremos ! 0 # c1 S ' A2D2 A02 = CC = " ... $ c1 ... cp c0p

6.6. ESCALADO NO MTRICO

193

donde c1 es un vector 2 1 correspondiente a la primera columna de la matriz C. De esta expresin es inmediato que c0i ci = s2 i y c0i cj = sij y nalmente rij = c0i cj = cos(ci cj ) kci k kcj k

Por tanto, aproximadamente el ngulo entre estos vectores es el coeciente de correlacin entre las variables. La precisin de la representacin del biplot depende de la importancia de los dos primeros valores propios respecto al total. Si ("1 + "2 )/tr(S) es prximo a uno la representacin ser muy buena. Si este valor es pequeo el biplot no proporciona una representacin able de los datos. Ejemplo 6.3 Vamos a utilizar la base de datos de MUNDODES (tabla A.6 del Anxo), cuyos componentes principales se obtuvieron en el captulo anterior (vae el ejemplo ***). Esta matriz de datos est constituida por 91 pases en los que se han observado 9 variables: X1 : ratio de natalidad, X2 : ratio de mortalidad, X3 : mortalidad infantil, X4 : esperanza de vida en hombres X5 : esperanza de vida de mujeres y X6 : PNB per capita. La gura 6.3 es un biplot donde se han representado conjuntamente las observaciones por su proyeccin estandarizada en el plano de los dos componentes principales. El lector debe observar que ahora la variabilidad en ambos componentes es la misma como consecuencia de la estandarizacin, lo que no ocurra en los grcos anteriores donde las escalas eran muy diferentes. Se han representado tambin las variables como vectores de manera que el ngulo entre las variables sea aproximadamente igual a sus correlaciones. En el biplot se observa una separacin de los pases en dos grupos y, por otro lado, una divisin de las variables en tres grupos: en el primero estn las tasas de mortalidad infantil y natalidad que estn muy correladas entre s, por otro la tasa de mortalidad, que tiene baja correlacin con el resto de variables, y por otro la renta y las esperanzas de vida de hombres y mujeres que estn muy correladas con la renta. En el grco 6.4 se muestra la misma representacin conjunta que en la guras 6.3 en el caso de realizar el anlisis normado de componentes principales en las variables originales. Se aprecia una relacin no lineal entre las dos primeras componentes.

6.6

ESCALADO NO MTRICO

En los problemas de escalado no mtrico se parte de una matriz de diferencias o disimilitudes entre objetos que se ha obtenido generalmente por consultas a jueces, o a partir de

194
-15 0.2

CAPTULO 6. ESCALADO MULTIDIMENSIONAL


-10 -5 0 5 10 10 -15 Kuwait -0.3 -0.2 -0.1 Comp. 1 0.0 0.1 0.2 -10 -5 0 5

Mexico Hungary Denmark Malawi Germany U.K. Belgium Sweden Sierra_Leone TasaMort Norway Finland Bulgaria Czechoslovaki Italy Gambia Switzerland Ukrainian_SSR Greece Angola Portugal France Ethiopia Afghanistan Somalia Spain Netherlands Ireland Romania Poland Gabon Bolivia Mozambique Byelorussian_SSR Japan USSR Sudan U.S.A. Congo Canada Uruguay Austria Nigeria PNB Nepal Uganda Bangladesh Zaire Swaziland Zambia Ghana EspMuj Argentina Botswana Tanzania EspHom Iran India South_Africa Namibia Hong_Kong MortInf Thailand Indonesia Kenya Zimbabwe Israel Morocco Egypt Singapore TasaNat. Libya Turkey Brazil Algeria Peru China Sri_Lanka Philippines Pakistan Oman Mongolia Chile Tunisia Guyana Saudi_Arabia Ecuador Iraq Columbia Paraguay Albania Malaysia Jordan United_Arab_Emirates Venezuela Bahrain

Comp. 2

Figura 6.3: Representacin de observaciones y variables en el plano de las dos primeras componentes, variables en logaritmos. procedimientos de ordenacin de los elementos. Por ejemplo, el escalado no mtrico se ha aplicado para estudiar las semejanzas entre las actitudes, preferencias o percepciones de personas sobre asuntos polticos o sociales o para evaluar preferencias respecto a productos y servicios en marketing y en calidad. Los valores de una tabla de similaridades o distancias se obtienen habitualmente por alguno de los procedimientos siguientes: 1. Estimacin directa. Un juez, o un conjunto de jueces, estiman directamente las distancias entre los elementos. Una escala muy utilizada es la escala 0-100, de manera que la distancia o disimilaridad entre un elemento y s mismo sea cero y la distancia entre dos elementos distintos reeje la percepcin de sus diferencias. Con n elementos esto requiere n(n ! 1)/2 evaluaciones. 2. Estimacin de rangos. Se selecciona un elemento y se pide al juez, o grupo de jueces, que ordene los n ! 1 restantes por mayor o menor proximidad al seleccionado. A continuacin se selecciona el siguiente y se ordenan los n ! 2 restantes, y as sucesivamente. Existen algoritmos de clculo que transforman estas ordenaciones en una matriz de distancias (vase Green y Rao, 1972). 3. Rangos por pares. Se presentan al juez los n(n ! 1)/2 pares posibles y se le pide que los ordene de mayor a menor distancia. Por ejemplo, con cuatro objetos supongamos que se obtienen los resultados en orden de distancia: (3,4), (2,3), (2,4), (1,4), (1,2) y (1,3). Entonces, los ms prximos son los objetos 3 y 4, y a esta pareja se le asigna el rango 1.

-0.3

-0.2

-0.1

0.0

0.1

6.6. ESCALADO NO MTRICO


-5 0.3 0 5 Switzerland Finland Denmark Sweden Norway Germany 5 10 10

195

Malawi Sierra_Leone 0.2

Mexico

Gambia Japan PNB TasaMort U.K. France Ethiopia U.S.A. Angola Afghanistan Belgium Somalia Italy Canada Netherlands Mozambique Bolivia Austria Gabon Sudan Hungary Nepal United_Arab_Emirates Nigeria Bangladesh Spain Ireland Portugal Uganda MortInf Congo Bulgaria Greece Zaire Czechoslovaki EspMuj Hong_Kong Tanzania Swaziland EspHom Ukrainian_SSR Zambia Ghana Iran Romania Namibia Israel Singapore TasaNat. USSR Poland Botswana South_Africa Libya Byelorussian_SSR India Uruguay Kuwait Saudi_Arabia Kenya Indonesia Argentina Morocco Zimbabwe Brazil Turkey Peru Egypt Oman Algeria Pakistan Mongolia Iraq Thailand Tunisia Guyana Philippines Ecuador China Bahrain Columbia Chile Sri_Lanka Paraguay Malaysia Jordan Albania Venezuela

Comp. 2

0.0

0.1

-0.1

-0.2

-0.2

-0.1

0.0 Comp. 1

0.1

0.2

0.3

Figura 6.4: Representacin de observaciones y variables en el plano de las dos primeras componentes, variables originales. A la pareja siguiente, (2,3), se le asigna rango dos y as sucesivamente hasta la pareja de los elementos ms alejados, el 1 y el 3, que reciben rango n(n ! 1)/2, que es 6 en este caso. A continuacin se calcula un rango medio para cada objeto, promediando los rangos de los pares donde aparece. Por ejemplo, el objeto 1 aparece en pares que tienen rango 4, 5 y 6, con lo que el rango del objeto 1 es : rango(1) = 4+5+6 = 5. 3

Igualmente obtenemos que rango(2)= (2 + 3 + 5)/2 = 3, 3; rango(3)= (1 + 2 + 6)/3 = 3 y rango(4) = (1 + 3 + 4)/3 = 2, 7. Las diferencias entre los rangos se toman ahora como medidas de distancia entre los objetos. Se supone que la matriz de similaridades est relacionada con un matriz de distancias, pero de una manera compleja. Es decir, se acepta que los jueces utilizan en las valoraciones ciertas variables o dimensiones, pero que, adems, los datos incluyen elementos de error y variabilidad personal. Por tanto, las variables que explican las similitudes entre los elementos comparados determinarn una distancias eucldeas entre ellos, dij , que estn relacionadas con las similitudes dadas, *ij , mediante una funcin desconocida * ij = f (dij )

-5

196

CAPTULO 6. ESCALADO MULTIDIMENSIONAL

donde la nica condicin que se impone es que f es una funcin montona, es decir, si * ij > * ih - dij > dih . El objetivo que se pretende es encontrar unas coordenadas que sean capaces de reproducir estas distancias a partir nicamente de la condicin de monotona. Para ello hay que denir: (1) Un criterio de bondad del ajuste que sea invariante ante transformaciones montonas de los datos. (2) Un algoritmo para obtener las coordenadas, optimizando el criterio establecido. Estos problemas no tienen solucin nica y se han presentado muchos procedimientos alternativos. El ms utilizado es minimizar las diferencias entre las distancias derivadas bij , y las similitudes de partida * ij , es decir minimizar de las coordenadas principales, d PP bij )2 para todos los trminos de la matriz. Esta cantidad se estandariza para (* ij ! d favorecer las comparaciones, con lo que se obtiene el criterio de ajuste denominado STRESS, dado por: S2 = P
i<j (* ij

Un criterio alternativo es minimizar las distancias al cuadrado, con lo que se obtiene el criterio S-STRESS. Se han propuesto otros criterios que el lector puede consultar en Cox bij se determinarn encontrando p coordendas principales y Cox (1994). Las distancias d que se utilizan como variables implicitas yij , i = 1, ..., n, j = 1, ...p, que determinarn unas distancias eucldeas entre dos elementos: b2 = d ij
p X (yis ! yjs )2 s=1

i<j

bij )2 !d *2 ij

(6.25)

(6.26)

El mtodo de clculo es partir de la solucin proporcionada por las coordenadas principales e iterar para mejorar esta solucin minimizando el criterio (6.25). Normalmente se toma p = 2 para facilitar la representacin grca de los datos, pero el nmero de dimensiones necesario para una buena representacin de los datos puede estimarse probando distintos valores de p y estudiando la evolucin del criterio de forma similar a como se determina el nmero de componentes principales. Fijado p el problema es minimizar (6.25) donde las distancias se calculan por (6.26). Derivando respecto a los valores de las coordenadas en los individuos (vase apndice 6.1) se obtiene un sistema de ecuaciones no lineales en las variables y cuya solucin requiere un algoritmo de optimizacin no lineal. Suele tomarse como solucin inicial la obtenida con las coordenadas principales. Remitimos al lector interesado en los detalles de los algoritmos a Cox y Cox (1994). Ejemplo 6.4 Utilizaremos la matriz de similitudes entre productos. Con el programa SPSS se obtiene la solucin indicada en la gura 6.5. Los productos A, B, C, etc se han representado en el grco como m1, m2, m3,... Como puede verse la solucin es similar a la obtenida con coordenadas principales, pero no idntica.

6.6. ESCALADO NO MTRICO


Configuracin de estmulos derivada Modelo de distancia eucldea
2.0 m2 1.5 1.0 .5 0.0 m6 m4 m5

197

m3

Dimensin 2

-.5 m7 -1.0 -1.5 -1.5 m1 -1.0 -.5 0.0 .5 1.0 1.5 2.0

Dimensin 1

Figura 6.5: Representacin de los productos con el escalado no mtrico

El valor del coeciente al nalizar la estimacin no lineal es Stress = .14134 y la proporcin de variabilidad explicada, RSQ = .87957. La gura 6.6 presenta la relacin entre las distancias obtenidas y las observaciones. Se aprecia que la relacin es montona, aunque no lineal.

Grfico Transformacin Modelo de distancia eucldea


3.5 3.0

2.5

2.0

1.5

Distancias

1.0 .5 0 2 4 6 8 10

Observaciones

Figura 6.6: Relacin entre las distancias originales y las calculadas por el escalado multidimensional

198

CAPTULO 6. ESCALADO MULTIDIMENSIONAL

6.7

Lecturas complementarias

Los captulos 11 y 12 de Jackson (1991) contienen ampliaciones sobre este tema y muchas referencias. El libro de Dillon y Goldstein (1984) presenta una introduccin clara y simple del escalado multidimensional no mtrico. Gnanadesikan (1997) presenta tambin una buena introduccin al tema. Libros dedicados al escalado multidimensional son los de Schi!man et al (1981), Coxon (1982), Davidson (1983), Kruskal y Wish (1978), Green et al (1989) y Cox y Cox (1994). Young (1987) contiene muchos ejemplos de aplicacin. Gower y Hand (1996) esta integramente dedicado a los biplots. EJERCICIOS
0 Ejercicio 6.1 Si la distancia eucldea entre dos elementos se dene por d2 ij = (xi ! xj ) (xi ! 2 xj ) demostrar que puede escribirse como dij = qii + qjj ! 2qij donde los qij son elementos de la matriz XX0 . 0 2 Ejercicio 6.2 Demostrar que d2 ij = (xi ! xj ) (xi ! xj ) puede escribirse como dij = qii + qjj ! 0 2qij donde ahora los qij son elementos de la matriz XPX , siendo P la matriz proyeccin que elimina las medias denida en 6.12

Ejercicio 6.3 Demostrar que si tenemos una solucin Yr de coordenadas principales tambin es solucin Zr = Yr C + b, donde C es una matriz ortogonal y b cualquier vector. Ejercicio 6.4 Demostrar que si la matriz Q es semidenida positiva se verica que qii + qjj ! 2qij ) 0. (Ayuda: utilice que si Q es denida positiva u0 Qu ) 0 para cualquier vector u y tome u = (0, ..., 1, !1, 0, ..., 0)0 ) Ejercicio 6.5 Demostrar que si Q es semidenida positiva las magnitudes d2 ij = qii +qjj !2qij verican las propiedades de una distancia. (Ayuda: para comprobar la propiedad triangular utilice que para tres puntos u0 Qu ) 0 con u = (1, !1, !1)0 implica q11 + q22 + q33 ! 2q12 ! 2q13 + 2q32 ) 0) Ejercicio 6.6 Demostrar que se verica la relacin Q = PQP. Ejercicio 6.7 Demostrar que la descomposicin biplot puede escribirse como Yr A0r donde el primer trmino contiene las coordenadas principales y el segundo las componentes principales.

Apndice 6.1Maximizacin del STRESS


El procedimiento de optimizacin del criterio se obtiene derivando el STRESS respecto a cada trmino, yip , que nos indica como se modica el criterio si modicamos el valor de la variable p en el elemeto i, lo que conduce a las ecuaciones
n X b &S2 bij ) & dij = 0 =2 (* ij ! d & yip & yip j =1

(6.27)

6.7. LECTURAS COMPLEMENTARIAS

199

El cambio en las distancias del punto i a todos los dems cuando cambiamos la coordenada p de este punto es, por (6.26): bij &d (yip ! yjp ) = bij & yip d

y sustituyendo en (6.27) tenemos que la ecuacin a resolver es


n n X bij ) X bij ) (* ij ! d (* ij ! d yip ! yjp = 0. bij bij d d j =1 j =1

Si derivamos para los np valores de las coordenadas principales, el sistema de ecuaciones resultante puede escribirse conjuntamente como FX = 0 donde F es una matriz cuadrada y simtrica de orden n con coecientes fij = ! fii = bij ) (* ij ! d , bij d fij , i 6= j

j =1,j 6=i

n X

i=j

200

CAPTULO 6. ESCALADO MULTIDIMENSIONAL

Captulo 7 ANLISIS DE CORRESPONDENCIAS


7.1 INTRODUCCIN

El anlisis de correspondencias es una tcnica descriptiva para representar tablas de contingencia, es decir, tablas donde recogemos las frecuencias de aparicin de dos o ms variables cualitativas en un conjunto de elementos. Constituye el equivalente de componentes principales y coordenadas principales para variables cualitativas. La informacin de partida ahora es una matriz de dimensiones I J, que representa las frecuencias absolutas observadas de dos variables cualitativas en n elementos. La primera variable se representa por las, y suponemos que toma I valores posibles, y la segunda se representa por columnas, y toma J valores posibles. Por ejemplo, la tabla 7.1 presenta la clasicacin de n = 5387 escolares escoceses por el color de sus ojos, que tiene cuatro categoras posibles y I = 4, y el color de su cabello, que tiene cinco categoras posibles y J = 5. Esta tabla tiene inters histrico ya que fu utilizada por Fisher en 1940 para ilustrar un mtodo de anlisis de tablas de contingencia que est muy relacionado con el que aqu presentamos. En general, una tabla de contingencia es un conjunto de nmeros positivos dispuestos en una matriz, donde el nmero en cada casilla representa la frecuencia absoluta observada para esa combinacin de las dos variables. Una manera de llegar a una tabla de contingencia I J es denir I variables binarias para Color C. ojos rubio pelirrojo claros 688 116 azules 326 38 castaos 343 84 oscuros 98 48 total 1455 286 del castao 584 241 909 403 2137 pelo oscuro 188 110 412 618 1391 negro 4 3 26 85 118 total 1580 718 1774 1315 5387

Tabla 7.1: Tabla de Contingencia del color de los ojos y el color del pelo de escolares escoceses. Recogida por Fisher en 1940 201

202

CAPTULO 7. ANLISIS DE CORRESPONDENCIAS

donde hemos tamado las categoras para el color de ojos en el mismo orden que aparecen en las las de la tabla 7.1. Por ejemplo, el primer dato corresponde a una persona de ojos claros, ya que tiene un uno en la primera columna. El segundo dato tiene un uno en la cuarta categora, que corresponde a ojos oscuros. Finalmente, el ltimo elemento de la matriz corresponde a una persona de ojos azules. De la misma forma, la matriz Xb tendr dimensiones 5387 5 y las columnas indicarn el color del cabello de cada persona. Observemos que estas matrices X de variables binarias tienen tantas columnas como categoras y sus variables son linealmente dependientes, ya que siempre la suma de los valores de una la es uno, al ser las categoras Xb sumaremos todas las personas que excluyentes y exhaustivas. Al realizar el producto Xa tienen cada par de caractersticas y se obtiene la tabla de contingencia. El anlisis de correspondencias es un procedimiento para resumir la informacin contenida en una tabla de contingencia. Puede interpretarse de dos formas equivalentes. La primera, como una manera de representar las variables en un espacio de dimensin menor, de forma anloga a componentes principales, pero deniendo la distancia entre los puntos de manera coherente con la interpretacin de los datos y en lugar de utilizar la distancia eucldea utilizamos la distancia ji-cuadrado. Desde este enfoque, el anlisis de correspondencias es el equivalente de componentes principales para datos cualitativos. La segunda interpretacin est ms prxima al escalado multidimensional: es un procedimiento objetivo de asignar valores numricos a variables cualitativas. Vamos a analizar estos dos aspectos.

las categoras de las las y J para las de las columnas y diponer estas variables en matrices Xa para las las y Xb para las columnas. Por ejemplo, la matriz Xa para la variable color de los ojos contendr 4 variables en columnas correspondientes a las 4 categoras consideradas para indicar el color de ojos, y en cada la slo una columna tomar el valor uno, la que corresponda al color de ojos de la persona. La matriz tendr 5387 las correpondientes a las personas incluidas en la muestra. Por tanto, la matriz Xa de dimensiones 5387 4 ser de la forma: ! # 1 0 0 0 % 0 0 0 1 & % & & . . . . Xa = % % & " 0 0 0 1 $ 0 1 0 0

7.2

BSQUEDA DE LA MEJOR PROYECCIN

En adelante trabajaremos con la matriz F de frecuencias relativas obtenida dividiendo cada casilla por n, el total de elementos observados. Llamaremos fij a las frecuencias relativas que verican
J I X X i=1 j =1

fij = 1

La matriz F puede considerarse por las o por columnas. Cualquier anlisis lgico de esta matriz debe de ser equivalente al aplicado a su transpuesta, ya que la eleccin de la variable

7.2. BSQUEDA DE LA MEJOR PROYECCIN Sobre. Not. Aprob. Sus. Total Zona A 0,03 0,06 0,15 0,06 0,3 Zona B 0,07 0,14 0,35 0,14 0,7 Total 0,1 0,2 0,5 0,2 1 Tabla 7.2: Clasicacin de estudiantes por zona geogrca y calicacin obtenida

203

que se coloca en las, en lugar de en columnas, es arbitraria, y no debe inuir en el anlisis. Vamos a presentar primero el anlisis por las de esta matriz, que ser simtrico al anlisis por columnas, que estudiaremos a continuacin.

7.2.1

Proyeccin de las Filas

Vamos a analizar la matriz de frecuencias relativas, F, por las. Entonces las I las pueden tomarse como I puntos en el espacio <J . Vamos a buscar una representacin de estos I puntos en un espacio de dimensin menor que nos permita apreciar sus distancias relativas. El objetivo es el mismo que con componentes principales, pero ahora tendremos en cuenta las peculiaridades de este tipo de datos. Estas peculiaridades provienen de que la frecuencia relativa de cada la es distinta, lo que implica que: (1) Todos las las (puntos en <J ) no tienen el mismo peso, ya que algunas continen ms datos que otras. Al representar el conjunto de las las (puntos) debemos dar ms peso a aquellas las que contienen ms datos. (2) La distancia eucldea entre puntos no es una buena medida de su proximidad y debemos modicar esta distancia, como veremos a continuacin. Comenzando con el primer punto, cada la de la matriz F tiene una frecuencia relativa P fi. = J f , y el conjunto de estas frecuencias relativas se calcula con: j =1 ij f = F0 1 debemos dar a cada la un peso proporcional a su frecuencia relativa y los trminos del vector f pueden directamente considerarse como pesos, ya que son nmeros positivos que suman uno. Con relacin a la medida de distancia a utilizar entre las las, observemos que la distancia eucldea no es una buena medida de las diferencias reales entre las estructuras de las las. Por ejemplo, supongamos la tabla 7.2 donde se presentan las frecuencias relativas de estudiantes clasicados por su procedencia geogrca, (A B) y sus calicaciones. Aunque las frecuencias relativas de las dos las son muy distintas, las dos las tienen exactamente la misma estructura relativa: simplemente, hay ms del doble de estudiantes de la zona B que de la A, pero la distribucin de calicaciones es idntica en ambas zonas. Si calculamos la distancia eucldea entre las zonas obtendremos un valor alto, que no reeja una estructura distinta de las las sino slo que tienen distinta frecuencia relativa. Suponganos que dividimos cada casilla por la frecuencia relativa de la la, fi. . Con esto se obtiene la tabla 7.3 donde los nmeros que aparecen en las las representan la frecuencia relativa de la variable columna condicionada a la variable la. Ahora las dos las son idnticas, y esto es coherente con una distancia eucldea cero entre ambas.

204

CAPTULO 7. ANLISIS DE CORRESPONDENCIAS Sobre. Not. Aprob. Sus. Total Zona A 0,1 0,2 0,5 0,2 1 Zona B 0,1 0,2 0,5 0,2 1 Tabla 7.3: Clasicacin de estudiantes por zona geogrca y calicacin obtenida C. ojos claros azules castaos oscuros rubio 0.435 0.454 0.193 0.075 Color pelirrojo 0.073 0.053 0.047 0.037 del castao 0.369 0.336 0.512 0.307 cabello oscuro 0.119 0.153 0.232 0.518 negro 0.003 0.004 0.015 0.065 total 1 1 1 1

Tabla 7.4: Tabla de frecuencias relativas del color del cabello condicionada al color de los ojos para los escolares escoceses Para analizar que medida de distancia debemos utilizar, llamaremos R a la matriz de frecuencias relativas condicionadas al total de la la, que se obtiene con: R = Df !1 F (7.1)

donde Df es una matriz diagonal I I con los trminos del vector f , fi. , frecuencias relativas de las las, en la diagonal principal. Esta operacin transforma la matriz original de frecuencias relativas, F, en otra matriz cuyas casillas por las suman uno. Cada la de esta matriz representa la distribucin de la variable en columnas condicionada al atributo que representa la la. Por ejemplo, la tabla 7.4 presenta las frecuencias relativas condicionadas para la tabla 7.1. En este caso I = 4 , J = 5. Esta tabla permite apreciar mejor la asociacin entre las caractersticas estudiadas. Llamaremos r0i a la la i de la matriz R de frecuencias relativas condicionadas por las, que puede considerarse un punto (o un vector) en el espacio <J . Como la suma de los componentes de r0i es uno, todos los puntos estn en un espacio de dimensin J ! 1. Queremos proyectar estos puntos en un espacio de dimensin menor de manera que las las que tengan la misma estructura estn prximas, y las que tengan una estructura muy diferente, alejadas. Para ello, debemos denir una medida de distancia entre dos las ra , rb . Una posibilidad es utilizar la distancia eucldea, pero esta distancia tiene el inconveniente de tratar igual a todos los componentes de estos vectores. Por ejemplo, en la tabla 7.1 las personas de cabello rubio tienen una diferencia en frecuencia relativa entre los ojos azules y claros de 0,454-0,435= 0,019, y las personas de cabello negro tienen un diferencia en frecuencia relativa entre los ojos castaos y azules de 0,015 - 0,004=0,011. Hay una diferencia mayor en el primer caso que en el segundo y, sin embargo, intuitivamente vemos que la segunda diferencia es mayor que la primera. La razn es que en el primer caso el cambio relativo es pequeo, del orden del 4% ( 0,019/0,454), mientras que en el segundo caso el cambio relativo es muy grande: las personas de cabello negro tienen ojos castaos casi cuatro veces ms frecuentemente ( 0,015/0,004=3,75 veces) que ojos azules. Como los componentes representan frecuencias relativas, no parece adecuado que una diferencia de 0,01 se considere igual en un atributo

7.2. BSQUEDA DE LA MEJOR PROYECCIN

205

de alta frecuencia (por ejemplo, pasar de 0,60 a 0,61) que en un atributo de baja frecuencia (por ejemplo, pasar de 0,0001 a 0,0101). Para obtener comparaciones razonables entre estas frecuencias relativas tenemos que tener en cuenta la frecuencia relativa de aparicin del atributo que estudiamos. En atributos raros, pequeas diferencias absolutas pueden ser grandes diferencias relativas, mientras que en atributos con gran frecuencia, la misma diferencia ser poco importante. Una manera intuitiva de construir las comparaciones es ponderar las diferencias en frecuencia relativa entre dos atributos inversamente proporcional a la frecuencia de este atributo. Es decir, en lugar de sumar los trminos (raj ! rbj )2 = (faj /fa. ! fbj /fb. )2 que miden la diferencia que las P las a y b tienen en la columna j sumaremos los trminos (raj ! rbj )2 /f.j donde f.j. = I i=1 fij es la frecuencia relativa de la columna j . La expresin de la distancia entre dos las, ra y rb de R vendr dada en esta mtrica por
J J X X (raj ! rbj )2 faj fbj 2 1 D (ra , rb ) = ( ! ) = fa. fb. f.j. f.j. j =1 j =1 2

(7.2)

que puede escribirse matricialmente como


1 D2 (ra , rb ) = (ra ! rb )0 D! c (ra ! rb )

(7.3)

donde Dc es una matriz diagonal con trminos f.j. . A la distancia (7.2) (7.3) se la conoce como distancia +2 , y se analizar con ms detalle en la seccin siguiente. Observemos que est distancia equivale a la distancia eucldea entre los vectores trans!1/2 formados yi = Dc ri . Podemos pues simplicar el problema deniendo una matriz de datos transformada, sobre la que tiene sentido considerar la distancia eucldea entre las. Llamando:
!1/2 1 Y = R Dc !1/2 = D! f F Dc

(7.4)

obtenemos una matriz Y que contiene trminos del tipo ( fij fi. f. j
1/2

yij =

(7.5)

que ya no suman uno ni por las ni por columnas. Las casillas de esta matriz representan las frecuencias relativas condicionadas por las, fij /fi. , pero estandarizadas por su variabilidad, que depende de la raz cuadrada de la frecuencia relativa de la columna. De esta manera las casillas son directamente comparables entre s. La tabla 7.5 indica esta matriz resultado de estandarizar las frecuencias relativas de la tabla 7.1 dividiendo cada casilla por la raz cuadrada de la frecuencia relativa de la columna correspondiente, que se obtiene de la tabla p 7.1. Por ejemplo, el primer elemento de la tabla 7.5 se obtiene como 0.435/ (1455/5387) =

206

CAPTULO 7. ANLISIS DE CORRESPONDENCIAS . 83 7 . 873 . 374 . 14 7 . 31 6 . 228 . 205 . 161 . 587 . 235 .015 . 536 . 301 .02 9 . 815 . 455 .09 5 . 484 1. 022 . 440

Tabla 7.5: Matriz estandarizada por la y por variabilidad del color de los ojos y el color del pelo de escolares 0.0114. En esta tabla la estructura de las columnas es similar a la de la tabla 7.1 de frecuencias relativas, ya que hemos dividido todas las casillas de cada columna por la misma cantidad. Podramos tratar a esta matriz como una matriz de datos estndar, con observaciones en las y variables en columnas, y preguntarnos como proyectarla de manera que se preserven las distancias relativas entre las las, es decir, las las con estructura similar aparezcan prximas en la proyeccin. Esto implica encontrar una direccin a de norma unidad, a0 a = 1 tal que el vector de puntos proyectados sobre esta direccin, yp (a) = Y a (7.7) (7.6)

tenga variabilidad mxima. El vector a se encontrar maximizando yp (a)0 yp (a) = a0 Y0 Y a con la condicin (7.6), y este problema se ha resuelto en el captulo 5 al estudiar componentes principales: el vector a es un vector propio de la matriz Y 0 Y . Sin embargo, este tratamiento de la matriz Y como una matriz de variables continuas no es del todo correcto porque las las tienen una distinta frecuencia relativa, fi. , y por tanto deben tener distinto peso. Aquellas las con mayor frecuencia relativa deben de tener ms peso en la representacin que aquellas otras con frecuencia relativa muy baja, de manera que las las con gran nmero de individuos estn bien representadas, aunque esto sea a costa de representar peor las las con pocos elementos. En consecuencia, daremos a cada la un peso proporcional al nmero de datos que contiene. Esto puede hacerse maximizando la suma de cuadrados ponderada. m = a0 Y0 Df Y a sujeto a (7.6), que equivale a
1/2 1/2 0 !1 m = a0 D! F Df FD! a. c c

(7.8)

(7.9)

Alternativamente, podemos construir una matriz de datos Z denida por Z = Df cuyos componentes son zij = ( f p ij fi. f.j )
!1/2 1/2 FD! c

(7.10)

7.2. BSQUEDA DE LA MEJOR PROYECCIN

207

y que estandariza las frecuencias relativas en cada casilla por el producto de las races cuadradas de las frecuancias relativas totales de la la y la columna, y escribir el problema de encontrar el vector a como el problema de maximizar m = a0 Z0 Za sujeto a la restriccin (7.6). Este es el problema resuelto en componentes principales, cuya solucin es
1/2 1/2 0 !1 D! F Df FD! a ="a c c

(7.11)

y a debe ser un vector propio de la matriz Z0 Z donde Z est dado por (7.9) y " su valor propio. Vamos a comprobar que la matriz Z0 Z tiene como mayor valor propio siempre el 1 y como !1/2 1/2 vector propio Dc . Multiplicando por la izquierda en (7.11) por Dc se obtiene:
!1/2 1/2 1 0 !1 D! a) ="(D! a) c F Df F(Dc c !1 1 Las matrices D! representan matrices de frecuencias relativas por las y por f F y FDc 1 columnas y su suma por las y columnas respectivamente es uno. Por tanto D! f F1 = 1 1 0 !1 0 !1 y D! c F 1 = 1, que implica que la matriz Dc F Df F tiene un valor propio 1 unido a un 1/2 a) = 1 concluimos que la matriz Z0 Z tiene vector propio 1. En consecuencia, haciendo (D! c 1/2 un valor propio igual a uno con vector propio Dc . Olvidando esta solucin trivial, que no da informacin sobre la estructura de las las, tomaremos el valor propio mayor menor que la unidad y su vector propio asociado a. Entonces, proyectando la matriz Y sobre la direccin a encontrada:

1 !1/2 yf (a) = Ya = D! a f FDc

(7.12)

y el vector yf (a) es la mejor representacin de las las de la tabla de contingencia en una dimensin. Anlogamente, si extraemos el vector propio ligado al siguiente mayor valor propio obtenemos una segunda coordenada y podemos representar las las en un espacio de dimensin dos. Las coordenadas de la representacin de cada la vendrn dadas por las las de la matriz
1 !1/2 Cf = YA2 = D! A2 f FDc

donde A2 = [a1 a2 ] contiene en columnas los dos vectores propios Z0 Z. La matriz Cf es I 2 y las dos coordenadas de cada la proporcionan la mejor representacin de las las de la matriz F en un espacio de dos dimensiones. El procedimiento se extiende sin dicultad para representaciones en ms dimensiones, calculando vectores propios adicionales de la matriz Z0 Z. En resumen el procedimiento que hemos presentado para buscar una buena representacin de las las de la tabla de contingencia es: (1) Caracterizar las las por sus frecuencias relativas condicionadas, y considerarlas como puntos en el espacio. (2) Denir la distancia entre los puntos por la distancia +2 , que tiene en cuenta que cada coordenada de las las tiene distinta precisin.

208

CAPTULO 7. ANLISIS DE CORRESPONDENCIAS

(3) Proyectar los puntos sobre las direccines de mxima variabilidad, teniendo en cuenta que cada la tiene un peso distinto e igual a su frecuencia relativa. El procedimiento operativo para obtener la mejor representacin bidimensional de las las de la tabla de contingencia es: (1) Calcular la matriz Z0 Z y obtener sus vectores y valores propios. (2) Tomar los dos vectores propios, a1 , a2 , ligados a los mayores valores propios menores que la unidad de esta matriz. !1/2 1 (3) Calcular las proyecciones D! ai , i = 1, 2, y representarlas grcamente en un f FDc espacio bidimensional. Ejemplo 7.1 Aplicaremos este anlisis a la matriz de la tabla 7.1. La matriz de frecuencias relativas estandarizada por las, R, se presenta en la tabla 7.4. La variable transformada, Y, se calcula como ! 1455 % 286 1 % !1/2 % 2137 Y = R Dc = R( 5387 % " 1391 . 83 7 . 873 Y= . 374 . 14 7 . 31 6 . 228 . 205 . 161 . 587 . 235 . 536 . 301 . 815 . 455 . 484 1. 022 .015 .02 9 .09 5 . 440 # 118

dando lugar a

& & !1/2 &) & $

Esta matriz puede interpretarse como una matriz de datos donde por las tenemos observaciones y por columnas variables. Para obtener la mejor representacin de las las en un espacio de dimensin dos, vamos a obtener los vectores propios de la matriz Y Df Y . Los tres primeros valores y vectores propios de esta matriz se presentan en la tabla siguiente por las: valor propio vector propio 1 -0.5197 -0.2304 -0.6298 -0.5081 -0.1480 0.1992 -0.6334 -0.1204 -0.0593 0.6702 0.3629 0.0301 -0.5209 -0.0641 0.7564 -0.3045 -0.2444 Los otros dos valores propios de esta matriz son 0,0009 0,0000. La proyeccin de los puntos sobre el espacio denido por los valores propios .1992 y .0301 se presenta en la gura 7.1 El eje de abscisas contiene la primera dimensin que explica el .1992/( .1992+ .0301+.0009)=.8653. Vemos que se separan claramente los ojos claros y azules frente a castaos y oscuros. La primera dimensin es pues claro frente a oscuro. La segunda dimensin separa las caractersticas puras, ojos claros o azules y negros, frente a la mezclada, castaos. Ejemplo 7.2 En un estudio de mercado 4 evaluadores han indicado que caractersticas consideran importantes en un tipo de producto. El resultado es la matriz F donde en columnas se representan los evaluadores y en las los productos.

7.2. BSQUEDA DE LA MEJOR PROYECCIN

209

Figura 7.1: Proyeccin de las las de la matriz de los colores de ojos y pelo sobre el mejor espacio de dimensin 2.

c1 c2 F = c3 c4 c5 c6

1 0 1 0 0 0 1

2 0 1 1 0 1 1

3 1 0 0 0 0 1

4 0 0 1 1 0 0

Esta matriz es una tabla de contingencia muy simple donde las frecuencias posibles son cero o uno. La matriz Z es ! 0 .5 0 0 0 .408 0 .35 .35 0 .5 .289 .707 0 0 0 0 .408 0 0 .50 .707 0 0 # & & & & & & $

y los valores propios de Z0 Z son (1, 0.75, 0.50, 0.17). El vector propio asociado al mayor valor propio menor que uno es v = (0.27, 0, 0.53, !0.80). La proyeccin de las las de Y sobre las dos direcciones principales conduce a la gura 7.2 Se observa que las caractersticas ms prximas son la 2 y la 5. Las elecciones de los evaluadores parecen ser debidas a dos dimensiones. La primera explica el 0,75/(0,75+0,50+0,17)=52,83% de la variabilidad y la segunda el 35%. La primera dimensin tiene en cuenta las similitudes

% % % Z=% % % "

210

CAPTULO 7. ANLISIS DE CORRESPONDENCIAS

Figura 7.2: Proyeccin de las caractersticas de los productos aparentes por las elecciones de las personas: las caractersticas c3 y c4 son elegidas por la misma persona y por nadie ms, por lo que estas caractersticas aparecen juntas en un extremo. En el lado opuesto aparecen la c1 y c6, que son elegidas por la misma persona, y las c2 y c5 que son elegidas por personas que tambin eligen la c6. En la segunda dimensin las caractersticas extremas son las c1 y c2.

7.2.2

Proyeccin de las columnas

Podemos aplicar a las columnas de la matriz F un anlisis equivalente al de las las. Las columnas sern ahora puntos en <I . Llamando c = F0 1 al vector de frecuencias relativas de las columnas y Dc a la matriz diagonal que contiene estas frecuencias relativas en la diagonal principal, de acuerdo con la seccin anterior la mejor representacin de los J puntos (columnas) en un espacio de dimensin menor, con la 1 0 !1/2 mtrica +2 conducir, por simetra, a estudiar la matriz D! . Observemos que, si c F Df ahora consideramos la matriz F0 y volvemos al problema de representarla por las (que es equivalente a representar F por columnas), el problema es idntico al que hemos resuelto en la seccin anterior. Ahora la matriz que contiene las frecuencias relativas de las las F0 es Dc y la que contiene la de las columnas es Df . Intercambiando el papel de estas matrices, las direcciones de proyeccin son los vectores propios de la matriz Z Z0 = Df
!1/2 1 0 FD! c F Df !1/2

(7.13)

donde Z es la matriz I J denida por (7.10). Como Z0 Z y ZZ0 tienen los mismos valores propios no nulos, esa matriz tendr tambin un valor propio unidad ligado al vector propio 1. Esta solucin trivial no se considera. Llamando b al vector propio ligado al mayor valor

7.2. BSQUEDA DE LA MEJOR PROYECCIN

211

propio distinto de la unidad de ZZ0 , la mejor representacin de las columnas de la matriz en un espacio de dimensin uno vendr dada por
1 0 yc (b)= Y 0 b = D! c F Df !1/2

(7.14)

y, anlogamente, la mejor representacin en dimensin dos de las columnas de la matriz vendr dada por las coordenadas denidas por las las de la matriz
1 0 Cc = Y 0 B2 = D! c F Df !1/2

B2

donde B2 = [b1 b2 ] contiene en columnas los dos vectores propios ligados a los valores propios mayores de ZZ0 y menores que la unidad. La matriz Cc es J 2 y cada la es la mejor representacin de las columnas de la matriz F en un espacio de dos dimensiones.

7.2.3

Anlisis Conjunto

Dada la simetra del problema conviene representar conjuntamente las las y las columnas de la matriz. Observemos que las matrices Z0 Z y Z Z0 tienen los mismos valores propios no nulos y que los vectores propios de ambas matrices que corresponden al mismo valor propio estn relacionados. En efecto, si ai es un vector propio de Z0 Z ligado al valor propio "i : Z0 Zai = "i ai entonces, multiplicando por Z ZZ0 (Zai ) = "i (Zai ) y obtenemos que bi = Zai es un vector propio de ZZ0 ligado al valor propio "i . Una manera rpida de obtener estos vectores propios es calcular directamente los vectores propios de la matriz de dimensin ms pequea, Z0 Z o ZZ0 , y obtener los otros vectores propios como Zai o Z0 bi . Alternativamente podemos utilizar la descomposicin en valores singulares de la matriz Z o Z0 , estudiada al introducir los biplots en el captulo anterior. Esta descomposicin aplicada a Z es
r X i=1 1/2

Z=

Br Dr A0r =

"i bi a0i

donde Br contiene en columnas los vectores propios de ZZ0 , Ar los de Z0 Z y Dr es digonal y 1/2 contiene los valores singulares, "i , o races de los valores propios no nulos y r = min(I, J ). Entonces la representacin de las las se obtiene con (7.12) y la de las columnas con (7.14). La representacin de la matriz Z con h dimensiones (habitualmente h = 2) implica aproximar b h = Bh Dh A0 . Esto es equivalente, por (7.10), a una aproximacin a esta matriz mediante Z h la tabla de contingencia observada mediante: b h= D1/2 Z b h D1/2 , F c f (7.15)

212

CAPTULO 7. ANLISIS DE CORRESPONDENCIAS

y una forma de juzgar la aproximacin que estamos utilizando es reconstruir la tabla de contingencia con esta expresin. Si deseamos eliminar el valor propio unidad desde el principio, dado que no aparta inb e es la matriz de b e , donde F formacin de inters, podemos reemplazar la matriz F por F!F frecuencias esperadas que viene dada por b e = 1 rc0 . F n

b e tiene rango r ! 1, y ya no tiene el valor propio igual Puede comprobarse que la matriz F!F a la unidad. La proporcin de variabilidad explicada por cada dimensin se calcula como en componentes principales descartando el valor propio igual a uno y tomando la proporcin que representa cada valor propio con relacin al resto. En resumen, el anlisis de correspondencias de una tabla de contingencia de dimensiones I J se realiza en los pasos siguientes (1) Se calcula la tabla de frecuencias relativas, F. (1) Se calcula la tabla estandarizada Z, de frecuencias relativas las mismas dimensiones de la tabla original, I J, dividiendo cada celda de F por la raz de los totales de su la y p columna, zij = fij / fi. f.j . (2) Se calculan los h (normalmente h = 2) vectores propios ligados a valores propios mayores, pero distintos de la unidad, de las matriz de menor dimensin de las ZZ0 y Z0 Z. Si obtenemos lo vectores propios ai de Z0 Z, los bi de ZZ0 se obtienen por bi = Zai . Analogamente si se obtienen los bi de ZZ0 ai = Z0 bi . Las I las de la matriz se presentarn como I puntos en <h y las coordenadas de cada la vienen dadas por Cf = Df
!1/2

ZA2

donde A2 tiene en columnas los dos vectores propios de Z0 Z. Las J columnas se representarn como J puntos en <h y las coordenadas de cada columna son
1/2 0 Z B2 Cc = D! c

Ejemplo 7.3 Vamos a representar conjuntamente las las y las columnas de la matriz de los colores. La gura 7.3 presenta esta representacin. Se observa que el grco describe de manera clara la relacin entre ambas variables. La dimensin principal grada la tonalidad de claro a oscuro y la segunda separa los castaos de los casos ms extremos. Es importante calcular conjuntamente los vectores propios para evitar problemas de signos, ya sea calculando los vectores propios de una matriz y obteniendo los otros como producto por la matriz Z o bien a travs de la descomposicin en valores singulares. La razn es que si v es un vector propio tambin lo es -v y al calcular separadamente las coordenadas y superponerlas podemos obtener un resultado como el que se presenta en la gura 7.4 . En esta gura se han calculado separadamente las dos representaciones y luego se han superpuesto. El lector puede comprobar que si cambiamos de signo las coordenadas del eje de ordenadas se obtiene la representacin de la gura (7.3). Estos problemas de signos se evitan calculado los vectores conjuntamente.

7.2. BSQUEDA DE LA MEJOR PROYECCIN

213

Figura 7.3: Representacin de los colores de ojos y cabello para los escolares escoceses.

Figura 7.4:

214

CAPTULO 7. ANLISIS DE CORRESPONDENCIAS

7.3

LA DISTANCIA JI-CUADRADO

El contraste de independencia entre las variables la y columna en una tabla de contingencia I J se realiza con la estadstico X2 = X (fr. observadas - fr. esperadas)2 fr. esperadas

que, en la hiptesis de independencia, sigue una distribucin +2 con (I ! 1) (J ! 1) grados de libertad. De acuerdo con la notacin anterior, la frecuencia esperada en cada celda de la la i, suponiendo independencia de las y columnas, se obtendr repartiendo el total de la la, nfi. , porporcionalmente a la frecuencia relativa de cada columna, f.j . Por ejemplo, la frecuencia esperada de la primera casilla de la tabla 5.1 se obtendr multiplicando el nmero total de elementos de la la, 1580, por la proporcin de personas rubias sobre el total, 1455/5387. Por tanto, el estadstico X 2 para contrastar la independencia puede escribirse:
J I X X (nfij ! nfi. f.j )2 X = nfi. f.j i=1 j =1 2

(7.16) PI fij la de columna j.

donde fi. = Como

PJ

j =1

fij es la frecuencia relativa de la la i y fj. = (nfij ! nfi. f.j )2 nfi. (fij ! fi. f.j )2 = nfi. f.j f.j fi. 2

i=1

la expresin del estadstico X 2 puede tambin escribirse como :


I X i=1 J X fij 1 ( ! f.j )2 . fi. f.j j =1

X2 = n

fi.

(7.17)

donde los wi son coecientes de ponderacion. La media aritmtica se obtiene con wi = 1, dando a todas las las el mismo peso. Sin embargo, en este caso esta poderacin no es

En n esta o representacin la distribucin condicionada de las frecuencias relativas de cada fij la, fi. , se compara con la distribucin media de las las {f.j } , y cada coordenada se pondera inversamente a la frecuencia relativa que existe en esa columna. Se suman luego todas las las, pero dando a cada la un peso tanto mayor cuanto mayor es su frecuencia, nfi. . Vamos a ver que esta representacin es equivalente a calcular las distancias entre los vectores de la matriz de frecuencias relativas por las, R , denida en (7.1) si medimos la distancia con la mtrica +2 . Consideremos los vectores r0i , las de la matriz R . La media de estos vectores es PI i=1 wi ri r= P I i=1 wi

7.3. LA DISTANCIA JI-CUADRADO

215

conveniente, porque debemos dar ms peso a las las que contengan datos. Podemos P ms P ponderar por la frecuencia relativa de cada la, wi = fi. , y entonces wi = fi. = 1. Como las frecuencias relativas de las las vienen dadas por el vector columna Df 1, tenemos que r = R0 Df 1 y utilizando (7.1)
0 1 r = F0 D! f Df 1 = F 1 = c

y el valor medio de las las viene dado por el vector cuyos componentes son las frecuencias relativas de las columnas. La distancia de cualquier vector de la, ri , a su media, c, con la mtrica +2 ser
1 (ri ! c)0 D! c (ri ! c) 1 2 donde la matriz D! c se obtuvo en (7.3) para construir la distancia + . La suma de todas estas distancias, ponderadas por su importancia, que se conoce como inercia total de la tabla, es I X i=1

IT =

1 fi. (ri ! c)0 D! c (ri ! c)

y esta expresin puede escribirse como IT =


I X i=1

fi.

J X fij j =1

fi.

! f.j

/f.j

y si comparamos con (7.17) vemos que la inercia total es igual a X 2 /n. Se demuestra que la inercia total es la suma de los valores propios de la matriz Z0 Z eliminado el uno. Por tanto, el anlisis de las las (o de las columnas ya que el problema es simtrico) puede verse como una descomposicin de los componentes del estadstico X 2 en sus fuentes de variacin. La distancia +2 tiene una propiedad importante que se conoce como el principio de equivalencia distribucional. Esta propiedad es que si dos las tienen la misma estructura relativa, fij /fi. y las unimos en una nueva la nica, las distancias entre las restantes las permanecen invariables. Esta misma propiedad por simetra se aplica a las columnas. Esta propiedad es importante, porque asegura una cierta invarianza del procedimiento ante agregaciones o desagregaciones irrelevantes de las categoras. Para demostrarlo, consideremos la distancia +2 entre las las a y b
J X faj fbj 2 1 ( ! ) f f f.j. a. b. j =1

es claro que esta distancia no se modica si unimos dos las en una, ya que esta unin no va a afectar a las frecuencias fij /fi. ni tampoco a f.j. . Vamos a comprobar que si unimos dos las con la misma estructura la distancia de la nueva la al resto es la misma que las

216

CAPTULO 7. ANLISIS DE CORRESPONDENCIAS

de las las originales. En efecto, supongamos que para las las 1 y 2, se verica que para j = 1, ..., J f1j f2j = = gj f1. f2. entonces, si unimos estas dos las en una nueva la, se obtiene que, para la nueva la f1j + f2j = gj f1. + f2. y su distancia a cualquier otra la permanecer invariable. Esta propiedad garantiza que no perdemos nada al agregar categora homogneas ni podemos ganar nada por desagregar una categora homognea. Ejemplo 7.4 Se han contabilizado los pesos y las alturas de 100 estudiantes universitarios y se han formado 4 categorias tanto para el peso como para la altura. Para el peso, las categorias se denotan P1, de 51 a 60 k., P2, de 61 a 70 k., P3, de 71 a 80 k. y P4, de 81 a 90 k. Para la altura se denotan A1, de 151 a 160 cm., A2, de 161 a 170 cm., A3, de 171 a 180 cm. y A4, de 181 a 190 cm. La siguiente tabla de contingencia muestra las frecuencias de cada grupo: Peso/Altura P1 P2 P3 P4 A1 15 10 2 0 A2 8 15 7 2 A3 3 7 17 3 A4 0 2 3 6

Realizar proyecciones por las, por columnas y conjunta de las y columnas. Comprobar como las proyecciones por las y por columnas separan claramente las categorias, pero que la proyeccin conjunta asocia claramente cada categora de un peso con la de una altura. Para la proyeccin por las, la variable Y queda: 0.1110 % 0.0566 =% " 0.0133 0 ! 0.0544 0.0780 0.0427 0.0321 0.0211 0.0376 0.1070 0.0498 # 0 0.0177 & & 0.0312 $ 0.1645

Y = RDc

!1 2

Los tres valores propios y vectores propios diferentes de uno de esta matriz son: valor propio vector propio 0.3717 -0.6260 -0.1713 0.3673 0.6662 0.1401 -0.2974 -0.0064 0.6890 -0.6610 0.0261 0.4997 -0.8066 0.3007 0.0964

7.3. LA DISTANCIA JI-CUADRADO La proyeccin por las es:


0.06

217

0.04

P3

0.02

0 P2 -0.02 P1 -0.04

-0.06

P4

-0.08 -0.1

-0.05

0.05

0.1

0.15

Para las columnas, los tres valores propios y vectores propios diferentes de uno de esta matriz son: valor propio vector propio 0.3717 -0.5945 -0.2216 0.3929 0.6656 0.1401 -0.2568 -0.0492 0.7034 -0.6609 0.0261 0.5662 -0.7801 0.2466 0.1005 La proyeccin por columnas es:
0.04 A3 0.02

-0.02 A1 -0.04

A2

-0.06

-0.08 A4 0 0.02 0.04 0.06 0.08 0.1 0.12

-0.1 -0.08 -0.06 -0.04 -0.02

218

CAPTULO 7. ANLISIS DE CORRESPONDENCIAS

El resultado de la proyeccin conjunta es el siguiente donde alturas y pesos quedan asociados:


0.1

A4

0.08 P4

0.06

0.04 A1 0.02 P1 0 P2 A2

-0.02

A3

-0.04 P3 -0.05 0 0.05 0.1 0.15

-0.06 -0.1

Ejemplo 7.5 Del conjunto de datos MUNDODES, se ha tomado la esperanza de vida de hombres y de mujeres. Se han formado 4 categorias tanto para la mujer como para el hombre. Se denotan por M1 y H1, a las esperanzas entre menos de 41 a 50 aos, M2 y H2, de 51 a 60 aos, M3 y H3, de 61 a 70, y M4 y H4, para entre 71 a ms de 80. La siguiente tabla de contingencia muestra las frecuencias de cada grupo: Mujer/Hombre M1 M2 M3 M4 H1 10 7 0 0 H2 0 12 5 0 H3 0 0 15 23 H4 0 0 0 19

Realizar proyecciones por las, por columnas y conjunta de las y columnas. Comprobar que en la proyeccin por las las categorias estn claramente separadas y que en el caso del hombre, las dos ltimas categoras estn muy cercanas. Comprobar en la proyeccin conjunta la cercania de las categoras H3 con M3 y M4. Para la proyeccin por las, la variable Y queda: 0.2425 % 0.0894 =% " 0 0 ! 0 0.1532 0.0606 0 0 0 0.1217 0.0888 # 0 & 0 & $ 0 0.1038

Y = RDc

!1 2

7.3. LA DISTANCIA JI-CUADRADO Los tres valores propios y vectores propios diferentes de uno de esta matriz son:

219

valor propio vector propio 0.8678 0.7221 0.3551 -0.4343 -0.4048 0.3585 -0.5249 0.7699 0.0856 -0.3528 0.1129 -0.1274 0.3072 -0.6217 0.7091

La proyeccin por las es:

0.1

M3 0.05 M2

M1 -0.05

-0.1

M4 -0.15 -0.1 -0.05 0 0.05 0.1 0.15 0.2 0.25

Para las columnas, los tres valores propios y vectores propios diferentes de uno de esta matriz son:

valor propio vector propio 0.8678 -0.5945 -0.5564 0.1503 0.5606 0.3585 -0.6723 0.5172 0.4265 -0.3141 0.1129 -0.2908 0.4628 -0.7588 0.3543

220 La proyeccin por columnas es:


0.15

CAPTULO 7. ANLISIS DE CORRESPONDENCIAS

0.1

H2

0.05 H3

-0.05

H4

-0.1 H1 -0.15

-0.2 -0.2

-0.15

-0.1

-0.05

0.05

0.1

0.15

El resultado de la proyeccin conjunta es:


0.15 M1

0.1 H1

0.05

H4 M4

0 M3

-0.05

M2

H3

-0.1 H2 -0.15

-0.2 -0.2

-0.15

-0.1

-0.05

0.05

0.1

0.15

7.4

ASIGNACIN DE PUNTUACIONES

El anlisis de correspondencias puede aplicarse tambin para resolver el siguiente problema. Supongamos que se desea asignar valores numricos yc (1), ..., yc (J ) a las columnas de una matriz F de observaciones, o, en otros trminos, convertir la variable en columnas en una

7.4. ASIGNACIN DE PUNTUACIONES

221

variable numrica. Por ejemplo, en la tabla (7.3) el color del cabello puede considerarse una variable contina y es interesante cuanticar las clases de color denidas. Una asignacin de valores numricos a las columnas de la tabla inducir automticamente unos valores numricos para las categoras de la variable en las. En efecto, podemos asociar a la la i el promedio de la variable yc en esa la, dado por: PJ
j =1 fij yc (j ) PJ j =1 fij J X j =1

yi =

rij yc (j )

(7.18)

donde rij = fij /fi. es la frecuencia relativa condicionada a la la. El vector de valores as obtenido para todas las las ser un vector I 1 dado por:
1 yf = Ryc = D! r Fyc

(7.19)

Anlogamente, dadas unas puntuaciones yf para las las, las puntuaciones de las columnas pueden estimarse igualmente por sus valores medios en cada columna, obteniendo el vector J 1:
1 0 yc = D! c F yf

(7.20)

Escribiendo conjuntamente (7.19) y (7.20) resultan las ecuaciones:


1 !1 0 yf = D! f F Dc F yf

(7.21)

1 0 !1 yc = D! c F Df Fyc

(7.22)

que indican que las puntuaciones yf , y yc se obtienen como vectores propios de estas matrices. Observemos que estas puntuaciones admiten una solucin trivial tomando yc = (1, ..., 1)0J , !1 1 0 yf = (1, ..., 1)0I . En efecto, las matrices D! c F y Df F suman uno por las, ya que son de frecuencias relativas. Esta solucin equivale en (7.21) y (7.22) al valor propio 1 de la correspondiente matriz. Para encontrar una solucin no trivial al problema, vamos a exigir que ambas ecuaciones se cumplan aproximadamente introduciendo un coeciente de proporcionalidad, " < 1, pero que queremos sea tan prximo a uno como sea posible. Multiplicando 1/2 1/2 (7.19) por Df y (7.20) por Dc e introduciendo este coeciente de proporcionalidad tenemos que "(Df yf ) = Df
1/2 !1/2 1/2 /2 F D! (D1 c yc ) c

(7.23)

!1/2 0 /2 "(D1 F Df c yc ) = Dc

!1/2

(Df yf )

1/2

(7.24)

222

CAPTULO 7. ANLISIS DE CORRESPONDENCIAS


1/2 !1/2

1/2 /2 Para resolver estas ecuaciones, llamemos b = Df yf , a = D1 F D! . c c yc y Z = Df Sustituyendo estas deniciones en (7.23) y (7.24), obtenemos "b = Za y "a = Z0 b y sustiuyendo una de estas ecuacione en la otra se obtiene

"2 b = ZZ0 b

(7.25)

"2 a = Z0 Za

(7.26)

Estas ecuaciones muestran que b y a son vectores propios ligados al valor propio "2 de las matrices ZZ0 y Z0 Z. Los vectores de puntuaciones se obtendrn despus a partir de la 1/2 denicin de b = Df yf , con lo que resulta: yf = Df
/2 y como a = D1 c yc , !1/2

(7.27)

1/2 a yc = D! c

(7.28)

Las matrices ZZ0 o Z0 Z siempre admite el valor propio 1 ligado a un vector propio (1, ..., 1)0 . Tomando como a y b los vectores propios ligados al segundo mayor valor propio, " < 1, de estas matrices obtenemos las puntuaciones ptimas de las y columnas. Podemos obtener una representacin grca de las las y columnas de la matriz de la forma siguiente: si sustituimos las puntuaciones yc dadas por (7.28), que se denominan a veces factores asociados a las columnas, en la ecuacin (7.19) y escribimos
!1/2 1 a yf (a) = D! f FDc

obtenemos las proyecciones de las las encontradas en (7.12). Anlogamente, sustituyendo los factores yf asociados a las las en (7.20) y escribiendo
1 0 yc (b)= D! c F Df !1/2

encontramos las proyecciones de las columnas de (7.14). Concluimos que el problema de asignar puntaciones de una forma consistente a las las y a las columnas de una tabla de contingencia, es equivalente al problema de encontrar una representacin ptima en una dimensin de las las y las columnas de la matriz. En otros trminos, el anlisis de correspondencia proporciona en la primera coordenada de las las y columnas una forma consistente de asignar puntuaciones numricas a las las y a las columnas de la tabla de contingencia.

7.4. ASIGNACIN DE PUNTUACIONES

223

Ejemplo 7.6 La tabla adjunta indica las puntuaciones alta (A), media (M) y baja (B) obtenidas por 4 profesores P1 , ..., P4 , que han sido evaluados por un total de 49 estudiantes. Qu puntuaciones habra que asignar a las categoras alta, media y baja? y a los profesores? P1 P2 P3 P4 Entonces la matriz Z = Df
!1/2

A M B 2 6 2 4 4 4 1 10 4 7 5 0 14 25 10

10 12 15 12 49

1/2 F D! es c

Vamos a obtener la descomposicin en valores singulares de esta matriz. Es : .452 % .495 Z =% " .553 .495 ! .166 . ! 004 .581 !.797 # #! # !.249 ! 1 . 534 ! . 816 . 221 .869 & &" $ " .714 .296 .45 !.634 $ !.317 $ .22 .452 .497 .741 !.288 ! .052 !.001 .150 !.230 # !.079 .251 & & !.082 $ !.083

.169 % .309 Z =% " .069 .540

.380 .230 .516 .288

# .200 .365 & & .327 $ 0

que conduce a las variables

.143 % .143 !1/2 y = Df bi = % " .143 .143 !

La mejor puntuacin -en el sentido de la mxima discriminacin- corresponde a (multiplicando por -1 el segundo vector propio para que los nmeros ms altos correpondan a puntuaciones altas y favorecer la interpretacin) 218, -059, -157 y a los profesores (multiplicando por -1 el segundo vector propio, para ser consistentes con el cambio anterior) 230 -150 001 -052. Si queremos trasladar estas puntuaciones a una escala entre cero y diez, escribiremos x ! xmin y= 10 xmax ! xmin

# .143 !.218 .059 1/2 !.127 $ z = D! a = " .143 .059 c .143 .157 .234

224
0.16

CAPTULO 7. ANLISIS DE CORRESPONDENCIAS

P2 0.14 0.12 P4 0.1 0.08 0.06 0.04 0.02 0 -0.02 M edio -0.04 -0.1 -0.05 0 0.05 0.1 0.15 P3 P1

A lto

B aja

Figura 7.5: Proyeccin de los profesores y de las puntuaciones y las puntuaciones se convierten en 10, 7.4 y 0 y. Las evaluaciones de los profesores al pasarlas a la escala de cero a diez se convierten en 10, 0, 3.98, 2.57. La gura 7.5 presenta la proyeccin de los profesores y de las categoras sobre el plano de mejor representacin.

Ejemplo 7.7 La tabla de contingencia siguiente indica las puntuaciones, muy buena (MB), buena (B), regular (R) o mala (M) obtenidas por las 5 pelculas nominadas a los Oscars a la mejor pelcula del ao 2001 que han sido evaluadas por un total de 100 crticos de cine de todo el mundo. Que puntuaciones habra que asignar a las categoras? y a las pelculas? Pelculas/Puntuacin P1 P2 P3 P4 P5 M 1 0 2 0 1 4 R 7 3 7 1 3 21 B 2 2 2 3 3 12 MB 10 15 9 16 13 63

20 20 20 20 20 100

La matriz P es: ! % % % % " 0.1118 0 0.2236 0 0.1118 0.3416 0.1464 0.3416 0.0488 0.1464 0.1291 0.1291 0.1291 0.1936 0.1936 0.2817 0.4226 0.2535 0.4507 0.3662 # & & & & $

7.5. LECTURAS COMPLEMENTARIAS Las variables que se obtienen son: ! 0.1000 % 0.1000 % 1 y = Dr! 2 b = % % 0.1000 " 0.1000 0.1000 !

225

-0.0934 0.0721 -0.1356 0.1304 0.0266

-0.1124 -0.1208 0.0707 0.0334 0.1291

0.1365 -0.1234 -0.1078 0.0435 0.0512

0.0000 0.0707 -0.0707 -0.1414 0.1414

# & & & & $

La mejor puntuacin para las categoras corresponde a -0.2382, -0.1580, 0.0369 y 0.0608. Para las pelculas (multiplicando por -1 el segundo vector propio) a -0.0934, 0.0721, -0.1356, 0.1304 y 0.0266. Si trasladamos todas las puntuaciones entre cero y diez, obtenemos para las categorias los valores 0, 2.6823, 9.2007 y 10. Para las cinco pelculas tenemos 1.5864, 7.8082, 0, 10 y 6.0977. La proyeccin conjunta muestra como la pelicula ms cercana a la puntuacin muy buena (MB) es P4:

0.1000 % 1 0.1000 z = Dc! 2 a = % " 0.1000 0.1000

-0.2382 -0.1580 0.0369 0.0608

0.3739 -0.1053 0.1282 -0.0130

# -0.2085 0.0396 & & 0.2357 $ -0.0448

7.5

Lecturas complementarias

El anlisis de correspondencias puede extenderse para estudiar tablas de cualquier dimensin con el nombre de anlisis de correspondencias mltiple. En este enfoque se utiliza la descomposicin en valores singulares para aproximar simultaneamente todas las tablas bidimensionales que pueden obtenerse de una tabla multidimensional. Una buena introduccin

226

CAPTULO 7. ANLISIS DE CORRESPONDENCIAS

desde el punto de vista de componentes principales con la mtrica ji-cuadrado se encuentra en Gower y Hand (1995). Presentaciones de esta tcnica como extensin del anlisis de correspondencias presentado en este captulo se encuentran en Greenacre (1984) y Lebart et al (1984). La literatura sobre anlisis de correspondencias est sobre todo en francs, vase Lebart et al (1997) y Saporta (1990). En espaol Cuadras (1990) y Escoer y Pages (1990). Jackon (1991) contiene una sucinta descripcin del mtodo con bastantes referencias histricas y actuales. Lebart, Salem y Bcue (2000) presenta interesantes aplicaciones del anlisis de correspondencias para el estudio de textos. Ejercicios 7 7.1 Demostrar que la traza de las matrices Z0 Z y ZZ0 es la misma. 7.2 Demostrar que el centro de los vectores ri de las las, donde cada la tiene un peso P f es el vector c de las frecuencias relativas de las columnas (calcule r = fi. ri = R0 Df 1) 7.3 Demostrar que dada una matriz de datos X donde cada la tiene un peso W la e = (I ! 110 W)X. operacin que convierte a esta matriz en otra de media cero es X 7.4 Demostrar que la suma de las distancias de Mahalanobis ponderadas de las las es P 1 igual a la de las columnas, donde la suma de las las es fi. (ri ! c)0 D! c (ri ! c). 7.5 Supongamos que estudiamos dos caractersticas en los elementos de un conjunto que pueden darse en los niveles alto, medio y bajo en ambos casos. Si las frecuencias relativas con las que aparecen estos niveles son las mismas para las dos caractersticas, indicar la expresin de la representacin de las las y columnas en el plano bidimensional. 7.6 En el ejemplo 7.5 qu podemos decir de la puntuacin ptima para cuanticar las las y columnas? 7.7 Indicar cmo afecta a la representacin de las y columnas que la tabla de contingencias sea simtrica, es decir, fij = fji . (fij !ri cj /n) 7.8 Justicar que la variable " es aproximadamente una variable normal estndar. ri cj /n p 7.9 Demostrar que si denimos la matriz X con elemento genrico xij = (fij !fi. f.j )/ fi. f.j p la matriz X0 X tiene los mismos valores vectores propios que la Z0 Z, donde zij = fij / fi. f.j salvo el valor propio 1 que aparece en Z0 Z, y no en X0 X .

Captulo 8 ANLISIS DE CONGLOMERADOS


8.1 FUNDAMENTOS

El anlisis de conglomerados (clusters) tiene por objeto agrupar elementos en grupos homogneos en funcin de las similitudes o similaridades entre ellos. Normalmente se agrupan las observaciones, pero el anlisis de conglomerados puede tambin aplicarse para agrupar variables. Estos mtodos se conocen tambin con el nombre de mtodos de clasicacin automtica o no supervisada, o de reconocimiento de patrones sin supervisin. El nombre de no supervisados se aplica para distinguirlos del anlisis discriminante, que estudiaremos en el captulo 13. El anlisis de conglomerados estudia tres tipos de problemas: Particin de los datos. Disponemos de datos que sospechamos son heterogneos y se desea dividirlos en un nmero de grupos prejado, de manera que: (1) cada elemento pertenezca a uno y solo uno de los grupos; (2) todo elemento quede clasicado; (3) cada grupo sea internamente homogneo. Por ejemplo, se dispone de una base de datos de compras de clientes y se desea hacer una tipologa de estos clientes en funcin de sus pautas de consumo. Construccin de jerarquas. Deseamos estructurar los elementos de un conjunto de forma jerrquica por su similitud. Por ejemplo, tenemos una encuesta de atributos de distintas profesiones y queremos ordenarlas por similitud. Una clasicacin jerrquica implica que los datos se ordenan en niveles, de manera que los niveles superiores contienen a los inferiores. Este tipo de clasicacin es muy frecuentes en biologa, al clasicar animales, plantas etc. Estrictamente, estos mtodos no denen grupos, sino la estructura de asociacin en cadena que pueda existir entre los elementos. Sin embargo, como veremos, la jerarqua construida permite obtener tambin una particin de los datos en grupos. Clasicacin de variables. En problemas con muchas variables es interesante hacer un estudio exploratorio inicial para dividir las variables en grupos. Este estudio puede orientarnos para plantear los modelos formales para reducir la dimensin que estudiaremos ms adelante. Las variables pueden clasicarse en grupos o estructurarse en una jerarqua. Los mtodos de particin utilizan la matriz de datos, pero los algoritmos jerrquicos utilizan la matriz de distancias o similitudes entre elementos. Para agrupar variables se parte de la matriz de relacin entre variables: para variables continuas suele ser la matriz de 227

228

CAPTULO 8. ANLISIS DE CONGLOMERADOS

correlacin, y para variables discretas, se construye, como veremos, a partir de la distancia ji-cuadrado. Vamos a estudiar en primer lugar los mtodos de particin

8.2
8.2.1

MTODOS CLSICOS DE PARTICIN


Fundamentos del algoritmo de k-medias

Supongamos una muestra de n elementos con p variables. El objetivo es dividir esta muestra en un nmero de grupos prejado, G. El algoritmo de k-medias (que con nuestra notacin debera ser de G!medias) requiere las cuatro etapas siguientes : (1) Seleccionar G puntos como centros de los grupos iniciales. Esto puede hacerse: a) asignando aleatoriamente los objetos a los grupos y tomando los centros de los grupos as formados; b) tomando como centros los G puntos ms alejados entre s ; c) construyendo los grupos con informacin a priori, o bien seleccionando los centros a priori. (2) Calcular las distancias eucldeas de cada elementoa al centro de los G grupos, y asignar cada elemento al grupo ms prximo. La asignacin se realiza secuencialmente y al introducir un nuevo elemento en un grupo se recalculan las coordenadas de la nueva media de grupo. (3) Denir un criterio de optimalidad y comprobar si reasignando uno a uno cada elemento de un grupo a otro mejora el criterio. (4) Si no es posible mejorar el criterio de optimalidad, terminar el proceso.

8.2.2

Implementacin del algoritmo

El criterio de homogeneidad que se utiliza en el algoritmo de k-medias es la suma de cuadrados dentro de los grupos (SCDG) para todas las variables, que es equivalente a la suma ponderada de las varianzas de las variables en los grupos:
ng p G X X X SCDG= (xijg ! xjg )2 g =1 j =1 i=1

(8.1)

donde xijg es el valor de la variable j en el elemento i del grupo g y xjg la media de esta variable en el grupo. El criterio se escribe min SCDG = min
p G X X g =1 j =1

ng s2 jg

(8.2)

8.2. MTODOS CLSICOS DE PARTICIN

229

donde ng es el nmero de elementos del grupo g y s2 jg es la varianza de la variable j en dicho grupo. La varianza de cada variable en cada grupo es claramente una medida de la heterogeneidad del grupo y al minimizar las varianzas de todas las variables en los grupos obtendremos grupos ms homogneos. Un posible criterio alternativo de homogeneidad sera minimizar las distancias al cuadrado entre los centros de los grupos y los puntos que pertenecen a ese grupo. Si medimos las distancias con la norma eucldea, este criterio se escribe:
ng ng G X G X X X 0 min (xig ! xg ) (xig ! xg ) = d2 (i, g ) g =1 i=1 g =1 i=1

donde d2 (i, g ) es el cuadrado de la distancia eucldea entre el elemento i del grupo g y su media de grupo. Es fcil comprobar que ambos criterios son idnticos. Como un escalar es igual a su traza, podemos escribir este ltimo criterio como " G ng # ng G X X XX 2 min tr d (i, g ) = min tr (xig ! xg )(xig ! xg )0
g =1 i=1 g =1 i=1

y llamando W a la matriz de suma de cuadrados dentro de los grupos,


ng G X X W= (xig ! xg )(xig ! xg )0 g =1 i=1

teenmos que min tr(W) = min SCDG Como la traza es la suma de los elementos de la diagonal principal ambos criterios coinciden. Este criterio se denomina criterio de la traza, y fue propuesto por Ward (1963). La maximizacin de este criterio requerira calcularlo para todas las posibles particiones, labor claramente imposible, salvo para valores de n muy pequeos. El algoritmo de k !medias busca la particin ptima con la restriccin de que en cada iteracin slo se permite mover un elemento de un grupo a otro. El algoritmo funciona como sigue (1) Partir de una asignacin inicial (2) Comprobar si moviendo algn elemento se reduce W. (3) Si es posible reducir W mover el elemento, recalcular las medias de los dos grupos afectados por el cambio y volver a (2). Si no es posible reducir W terminar. En consecuencia, el resultado del algortimo puede depender de la asignacin inicial y del orden de los elementos. Conviene siempre repetir el algoritmo desde distintos valores iniciales y permutando los elemento de la muestra. El efecto del orden de las observaciones suele ser pequeo, pero conviene asegurarse en cada caso de que no esta afectando. El criterio de la traza tiene dos propiedades importantes. La primera es que no es invariante ante cambios de medida en las variables. Cuando las variables vayan en unidades distintas conviene estandarizarlas, para evitar que el resultado del algoritmo de k-medias dependa de cambios irrelevantes en la escala de medida. Cuando vayan en las mismas

230

CAPTULO 8. ANLISIS DE CONGLOMERADOS

unidades suele ser mejor no estandarizar, ya que es posible que una varianza mucho mayor que el resto sea precisamente debida a que existen dos grupos de observaciones en esa variable, y si estandarizamos podemos ocultar la presencia de los grupos. Por ejemplo, la gura 8.1 muestra un ejemplo donde la estandarizacin puede hacer ms difcil la identicacin de los grupos.

Figura 8.1: La estandarizacin puede dicultar la identicacin de los grupos. La segunda propiedad del criterio de la traza es que minimizar la distancia eucldea produce grupos aproximadamente esfricos. Las razones para este hecho se estudiarn en el captulo 15. Por otro lado este criterio esta pensado para variables cuantitativas y, aunque puede aplicarse si existe un pequeo nmero de variables binarias, si una parte importante de las variables son atributos, es mejor utilizar los mtodos jerrquicos que se describen a continuacin.

8.2.3

Nmero de grupos

En la aplicacin habitual del algoritmo de k-medias hay que jar el nmero de grupos, G. Es claro que este nmero no puede estimarse con un criterio de homogeneidad ya que la forma de conseguir grupos muy homogneos y minimizar la SCDG es hacer tantos grupos como observaciones, con lo que siempre SCDG=0. Se han propuesto distintos mtodos para seleccionar el nmero de grupos. Un procedimiento aproximado que se utiliza bastante, aunque puede no estar justicado en unos datos concretos, es realizar un test F aproximado de reduccin de variabilidad, comparando la SCDG con G grupos con la de G+1, y calculando la reduccin proporcional de variabilidad que se obtiene aumentando un grupo adicional. El test es: F = SCDG(G) ! SCDG(G + 1) SCDG(G + 1)/(n ! G ! 1) (8.3)

8.2. MTODOS CLSICOS DE PARTICIN

231

y compara la disminucin de variabilidad al aumentar un grupo con la varianza promedio. El valor de F suele compararse con una F con p, p(n ! G ! 1) grados de libertad, pero esta regla no esta muy justicada porque los datos no tienen porque vericar las hiptesis necesarias para aplicar la distribucin F . Una regla emprica que da resultados razonables, sugerida por Hartigan (1975), e implantada en algunos programas informticos, es introducir un grupo ms si este cociente es mayor que 10. Ejemplo 8.1 La gura 8.2 presenta los datos de ruspini (chero ruspini.dat) que incluye 75 datos de dos variables y que se han utilizado para comparar distintos algoritmos de clasicacin. El grco muestra claramente cuatro grupos de datos en dos dimensiones.

Figura 8.2: Datos de Ruspini La tabla 8.1 muestra el resultado de aplicar el programa de k-medias en Minitab para distinto nmero de grupos a los datos sin estandarizar. De acuerdo con el criterio F existen tres grupos en los datos. Las guras 8.3, 8.4, 8.5 y 8.6 muestran los grupos obtenidos con este programa. La tabla se ha construido a partir de la informacin proporcionada por el programa. Al pasar de 2 a 3 grupos hay una reduccin de variabilidad muy signicativa dada por F = 89247 ! 51154 = 52. 87 51154/(75 ! 4) 51154 ! 50017 = 1. 59. 50017/(75 ! 5)

Sin embargo al pasar de 3 a 4 grupos la reduccin no es signicativa F =

El algortimo de k-medias implantado en minitab llevara a dividir los datos en los tras grupos indicados en la gura 8.4. Si aplicamos el algoritmo a los datos estandarizados se

232

CAPTULO 8. ANLISIS DE CONGLOMERADOS Nmero de grupos tamao 2 34 40 3 20 40 15 4 4 16 15 40 5 4 5 11 40 15 SCDG(i) 43238 46009 3689 46009 1456 170 2381 1456 46009 170 292 857 46009 1456 SCDG F 89247

51154

52.8

50017

1.59

48784

Tabla 8.1: Tabla con la informacin para seleccionar el nmero de grupos con el algoritmo de k.medias. obtienen de nuevo tres grupos, pero distintos: el primero esta formado por los dos conjuntos de puntos situados en la parte superior del grco y los otros dos grupos por los dos inferiores.

Figura 8.3: Divisin de los datos de Ruspini en dos grupos con Minitab. Para estudiar el funcionamiento de distintos programas hemos aplicado el mismo anlisis a estos datos con el programa de k-medias de SPSS. La particin en dos grupos es la misma con ambos programas, pero la particin en tres y cuatro grupos es distinta como muestran las guras 8.7, 8.8 y 8.9. El programa SPSS produce mejores resultados que Minitab. Este ejemplo sugiere que antes de aceptar los resultados de un anlisis de conglomerados mediante

8.2. MTODOS CLSICOS DE PARTICIN

233

Figura 8.4: Divisin de los datos de Ruspini en tres grupos con Minitab

Figura 8.5: Divisin de los datos de Ruspini en cuatro grupos con Minitab

234

CAPTULO 8. ANLISIS DE CONGLOMERADOS G=2 eh 30 em 35 mi 509 tm 15 tn 64 Total=MS(G) 653 F G=3 G=4 20 14 22 13 230 129 11 9 58 37 341 202 82.4 61.5 G=5 15 16 76 9 35 151 30.4 G=6 14 12 83 9 26 144 6.2

Tabla 8.2: Tabla con la informacin para seleccionar el nmero de grupos con el algoritmo de k.medias. el algoritmo de K-medias conviene probar distintos puntos de partida y distintos algoritmos.

Ejemplo 8.2 Vamos a aplicar el algoritmo de k-medias a los datos de los pases. Se van a utilizar nicamente las 5 variables demogrcas de MUNDODES. Comenzaremos comentando los resultados obtenidos al utilizar el programa k-medias con el programa SPSS. Para decidir el nmero de grupos este programa nos proporciona la varianza promedio dentro de los grupos para cada variable. Por ejemplo, si G = 2, dos grupos, la segunda columna de la tabla 15.1 indica que la varianza promedio dentro de los dos grupos o no explicada para la variable eh es 30, para la variable em es 35, y as sucesivamente. Este trmino se calcula como sigue: para cada variable hacemos la descomposicin del anlisis de su P P de la varianza 2 suma de cuadrados total (xij ! x)2 en la variabilidad explicada, ( x ! x ) , donde xi es i P 2 la media de la variable en cada grupo, y la no explicada, (xij ! xi ) . Este ltimo trmino dividido por sus grados de libertad, que son n ! G proporciona la varianza promedio dentro de los grupos o no explicada. Segn la denicin La suma de estas varianzas multiplicada por n ! G proporciona el estadstico SCDG, como indica la frmula (15.5). La tabla 15.1 resume esta informacin La tabla muestra que, como es de esperar, las varianzas promedio de las variables disminuyen al hacer ms grupos. La tabla muestra que la variable mi tiene mucha ms varianza que las dems, y por tanto va a tener un peso muy importante en la construccin de los grupos, que van a hacerse principalmente por los valores de esta variable. La tabla de las varianzas muestra que el nmero de grupos es cinco, ya que al aumentar a seis la disminucin de las varianzas es muy pequea. Podemos contrastar esta intuicin calculando el estadstico F dado por (8.3). Llamando MS(G) a la la de totales que ser igual a SCDG(G)/(n-G), tenemos que este estadistico se calcula como F = (n ! G)M S (G) ! (n ! G ! 1)M S (G + 1) M S (G + 1)

donde n = 91 y G es el nmero de grupos indicado por columnas. Por ejemplo, el contraste para ver si conviene pasar de dos grupos a tres ser F = 89.653 ! 88.341 = 82.45 341

8.2. MTODOS CLSICOS DE PARTICIN

235

Figura 8.6: Divisin de los datos de Ruspini en 5 grupos con Minitab

Figura 8.7: Divisin en tres grupos de los datos de Ruspini con SPSS

236

CAPTULO 8. ANLISIS DE CONGLOMERADOS

Figura 8.8: Divisin en cuatro grupos de los datos de Ruspini con SPSS

Figura 8.9: Divisin en cinco grupos de los datos de Ruspini con SPSS

8.2. MTODOS CLSICOS DE PARTICIN


30

237

20

10

0 0.0 10.0 20.0 30.0 40.0 50.0 60.0 70.0 80.0 90.0 100.0 110.0 120.0 140.0 160.0 180.0 130.0 150.0 170.0

Desv. tp. = 46.30 Media = 55.3 N = 91.00

mortalidad infantil

Figura 8.10: Histograma de la variable mortalidad infantil indicando la presencia de entre cuatro y cinco grupos de paises

As se obtiene la la de F de la tabla, y, de acuerdo con el criterio de Hartigan, escogeramos cinco grupos.

Como hemos visto que la variable mi es muy importante en la construccin de los grupos, la gura 15.1 presenta un histograma de esta variable. Se observa que esta variable, que va a tener un peso dominante en la formacin de los grupos, indica claramente la heterogeneidad de la muestra. En los grupos construidos el grupo con menor mortalidad infantil es el tres, que incluye los paises de Europa menos Albania, y el de mayor mortalidad, el dos, que incluye a los pases ms pobres de Africa.

La gura 8.11 ilustra la posicin de los 5 grupos en el grco de las dos variables ms inuyentes y la gura 8.12 la composicin de los grupos. Se observa que el grupo 3 esta formado por la mayora de los pases europeos, japn y norte amrica, el grupo1 incluye los pases europeos ms pobres, los ms ricos de latinoamrica y otros pases como China y Egipto. El grupo 4 engloba pases de desarrollo medio africanos (como surfrica o Zaire) lationamericanos (Brasil) y de Asia como Arabia Saudita, India e Indonesia. Finalmente los grupos 5 y 2 incluye los pases menos desarrollos.

238

CAPTULO 8. ANLISIS DE CONGLOMERADOS

Figura 8.11: Representacin de los grupos en el grco de dispersin de las variables mortalidad infantil y tasa de natalidad

Figura 8.12: Indicacin de los pases que pertenecen a cada uno de los grupos. Hemos repetido el anlisis utilizando el programa Minitab para cinco grupos. Este programa propociona la suma de cuadrados dentro de los grupos por clusters (grupos) en lugar de por variables, como se indica: Number of Within cluster Average distance Maximum distance observations sum of squares from centroid from centroid

8.2. MTODOS CLSICOS DE PARTICIN Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 21 14 28 9 19 10855.985 833.119 960.586 864.347 3126.014 20.220 7.357 5.415 8.977 12.110 58.275 10.902 9.925 15.250 21.066

239

Ejemplo 8.3 Los resultados para datos sin estandarizar son parecidos, pero no idnticos, como puede verse en la gura 8.13, donde se han representado los grupos en el plano de las dos variables con mayor varianza y que van a tener ms peso en la determinacin de los grupso. Al estandarizar las variables los resultados cambian sustancialmente, al tener un peso mayor el resto de las variables, los grupos son ms homogneos por continentes y en Europa se separan los pases occidentales y los orientales. Los resultados se presentan en la gura 8.14 donde de nuevo se han utilizado las dos variables ms importantes.

Figura 8.13: Resultados de k-medias con minitab para los datos de MUNDODES sin estandarizar. Se forman cinco grupos. En ordenadas la mortalidad infantil(C4) y en abcisas la tasa de natalidad (C2)

240

CAPTULO 8. ANLISIS DE CONGLOMERADOS

Figura 8.14: Resultados de k-medias para datos estandarizados de MUNDODES con el programa Minitab. En ordenadas la mortalidad infantil(C4) y en abcisas la tasa de natalidad (C2)

8.3
8.3.1

MTODOS JERRQUICOS
Distancias y Similaridades

Distancias Eucldeas

Los mtodos jerrquicos parten de una matriz de distancias o similaridades entre los elementos de la muestra y construyen una jerarqua basada en una distancia. Si todas las variables son continuas, la distancia ms utilizada es la distancia eucldea entre las variables estandarizadas. No es, en general, recomendable utilizar las distancias de Mahalanobis, ya que la nica matriz de covarianzas disponible es la de toda la muestra, que puede mostrar unas correlaciones muy distintas de las que existen entre las variables dentro de los grupos. Por ejemplo, la gura 8.15 se ha generado con dos grupos de variables normales independientes de medias (0,0) y (5,5) y varianza unidad. La posicin de los grupos genera en el conjunto de puntos una correlacin positiva fuerte, que desaparece si consideramos cada uno de los grupos por separado.

8.3. MTODOS JERRQUICOS

241

Figura 8.15: Dos grupos con variables incorreladas pueden dar lugar a alta correlacin entre las variables. Para decidir si estandarizar las variables o no antes del anlisis conviene tener en cuenta los comentarios anteriores y el objetivo del estudio. Si no estandarizamos, la distancia eucldea depender sobre todo de las variables con valores ms grandes, y el resultado del anlisis puede cambiar completamente al modicar su escala de medida. Si estandarizamos, estamos dando a priori un peso semejante a las variables, con independencia de su variabilidad original, lo que puede no ser siempre adecuado. Cuando en la muestra existen variables continuas y atributos el problema se complica. Supongamos que la variable x1 es binaria. La distancia eucldea entre dos elementos de la muestra en funcin de esta variable es (xi1 ! xh1 )2 que tomar el valor cero si xi1 = xh1 , es decir cuando el atributo est, o no est, en ambos elementos, y uno si el atributo est en un elemento y no en el otro. Sin embargo, la distancia entre dos elementos correspondiente a una variable continua estandarizada, (xi1 ! xh1 )2 /s2 1 , puede ser mucho mayor que uno, con lo que las variables continuas van en general a pesar mucho ms que las binarias. Esto puede ser aceptable en muchos casos, pero cuando, por la naturaleza del problema, esta situacin no sea deseable, la solucin es trabajar con similaridades.

Similaridades El coeciente de similaridad segn la variable j = 1, ..., p entre dos elementos muestrales (i, h), se dene como una funcin, sjih , no negativa y simtrica: (1) sjii = 1 (2) 0 # sjih # 1 (3) sjih = sjhi Si obtenemos las similaridades para cada variable entre dos elementos podemos combinarlas en un coeciente de similaridad global entre los dos elementos. El coeciente propuesto

242 por Gower es

CAPTULO 8. ANLISIS DE CONGLOMERADOS

donde wjih es una variable cticia que es igual a uno si la comparacin de estos dos elementos mediante la variable j tiene sentido, y ser cero si no queremos incluir esa variable en la comparacin entre los elementos. Por ejemplo, si la variable x1 es si una persona ha pedido (x1 = 1) o no (x1 = 0) un crdito y la x2 si lo ha devuelto o no, si una persona no ha pedido crdito, tiene x1 = 0, no tienen sentido preocuparse de x2 . En este caso al comparar individuos (i, j ) si uno cualquiera de los dos tiene un valor cero en x1 , asignaremos a la variable w2ij el valor cero Las similaridades entre elementos en funcin de las variables cualitativas pueden construirse individualmente o por bloques. La similaridad entre dos elementos por una variable binaria ser uno, si ambos tienen el atributo, y cero en caso contrario. Alternativamente, podemos agrupar las variables binarias en grupos homogneos y tratarlas conjuntamente. Si suponemos que todos los atributos tienen el mismo peso, podemos construir una medida de similaridad entre dos elementos A y B respecto a todos estos atributos contando el nmero de atributos que estn presentes: (1) en ambos (a); (2) en A y no en B, (b); (3) en B y no en A, (c); (4) en ninguno de los dos elementos, (d). Estas cuatro cantidades forman una tabla de asociacin entre elementos, y servirn para construir medidas de similitud o similaridad entre los dos elementos comparados. En esta tabla se verica que na = a + b + c + d, donde na es el nmero de atributos. Elementos A B C . variables (atributos) x1 x2 x3 x4 x5 x6 0 1 1 0 0 0 1 0 1 1 1 1 1 0 0 1 1 1 . . . . . .

Pp j =1 wjih sjih sih = Pp j =1 wjih

(8.4)

x7 1 0 1

Tabla 8.3: Matriz de datos cuando las variables son atributos binarios Por ejemplo, la tabla 8.3 presenta una posible matriz de datos con siete atributos binarios y con ella se ha construido la tabla 8.4 de asociacin que presenta la distribucin conjunta de los valores 0 y 1 para los elementos A y B. El elemento A tiene 3 valores 1 en el conjunto de variables binarias y de estos tres casos, en una ocasin tambin el elemento B tiene el valor 1, y en otras dos tiene el valor 0. El elemento A toma 4 veces el valor 0, ninguna coincidiendo con B y las cuatro con B tomando el valor uno. La suma de los totales de las y columnas debe ser siempre el nmero de atributos binarios considerados. Para calcular un coeciente de similitud entre dos individuos a partir de su tabla de asociacin se utilizan los dos criterios principales siguientes:

8.3. MTODOS JERRQUICOS B 1 A 1 1 (a) 0 4 (c) Suma 5

243

0 2 (b) 3 0 (d) 4 2 7

Tabla 8.4: Tabla de asociacin correspondiente a los elementos A y B

1. Proporcin de coincidencias. Se calcula como el nmero total de coincidencias sobre el nmero de atributos totales: sij = a+d . na (8.5)

por ejemplo la similitud de Ay B es 1/7, y la de B y C es 5/7. 2. Proporcin de apariciones. Cuando la ausencia de un atributo no es relevante, podemos excluir las ausencias y calcular slo la proporcin de veces donde el atributo aparece en ambos elementos. El coeciente se dene por: sij = a a+b+c (8.6)

Por ejemplo con este criterio en la tabla 8.3 la similitud entre A y B es tambin 1/7 , y la de B y C es 4/6. Aunque las dos propuestas anteriores son las ms utilizadas puede haber situaciones donde sean recomendables otras medidas. Por ejemplo, podemos querer dar peso doble a las coincidencias, con lo que resulta sij = 2(a + d)/(2(a + d) + b + c), o tener slo en cuenta las coincidencias y tomar sij = a/(b + c). Finalmente los coecientes de similitud o similaridad para una variable continua se construye mediante sjih = 1 ! |xij ! xhj | rango(xj )

de esta manera el coeciente resultante estar siempre entre cero y uno. Cuando tenemos varias variables estos coecientes pueden combinarse como indica la expresin (8.4). Una vez obtenida la similaridad global entre los elementos, podemos transformar los coecientes en distancias. Lo ms simple es denir la distancia mediante dij = 1 ! sij , pero est relacin puede no vericar la propiedad triangular. Puede demostrarse que si la matriz de similaridades es denida positiva (lo que ocurrir si calculamos las similitudes por (8.5) o (8.6), y denimos la distancia por: dij = q 2(1 ! sij )

entonces s se verica la propiedad triangular (vase el ejercicio 6.5)

244

CAPTULO 8. ANLISIS DE CONGLOMERADOS

8.3.2

Algoritmos Jerrquicos

Dada una matriz de distancias o de similitudes se desea clasicar los elementos en una jerarqua. Los algoritmos existentes funcionan de manera que los elementos son sucesivamente asignados a los grupos, pero la asignacin es irrevocable, es decir, una vez hecha, no se cuestiona nunca ms. Los algoritmos son de dos tipos: 1. De aglomeracin. Parten de los elementos individuales y los van agregando en grupos. 2. De divisin. Parten del conjunto de elementos y lo van dividiendo sucesivamente hasta llegar a los elementos individuales. Los algoritmos de aglomeracin requieren menos tiempo de clculo y son los ms utilizados. El lector puede consultar los algoritmos de divisin en Seber (1984).

8.3.3

Mtodos Aglomerativos

Los algoritmos aglomerativo que se utilizan tienen siempre la misma estructura y slo se diferencian en la forma de calcular las distancias entre grupos. Su estructura es: 1. Comenzar con tantas clases como elementos, n. Las distancias entre clases son las distancias entre elementos originales. 2. Seleccionar los dos elementos ms prximos en la matriz de distancias y formar con ellos una clase. 3. Sustituir los dos elementos utilizados en (2) para denir la clase por un nuevo elemento que represente la clase construida. Las distancias entre este nuevo elemento y los anteriores se calculan con uno de los criterios que comentamos a continuacin. 4. Volver a (2) y repetir (2) y (3) hasta que tengamos todos los elementos agrupados en una clase nica. Criterios para denir distancias entre grupos Supongamos que tenemos un grupo A con na elementos, y un grupo B con nb elementos, y que ambos se fusionan para crear un grupo (AB) con na + nb elementos. La distancia del nuevo grupo, (AB), a otro grupo C con nc elementos, se calcula habitualmente por alguna de las cinco reglas siguientes: 1. Encadenamiento simple o vecino ms prximo. La distancia entre los dos nuevos grupos es la menor de las distancias entre grupos antes de la fusin. Es decir: d(C ; AB ) = min (dCA , dCB ) Una forma simple de calcular con un ordenador el mnimo entre las dos distancias es utilizar que min (dCA , dCB ) = 1/2 (dCA + dCB ! |dCA ! dCB |)

8.3. MTODOS JERRQUICOS

245

En efecto, si dCB > dCA el trmino en valor absoluto es dCB ! dCA y el resultado de la operacin es dCA , la menor de las distancias. Si dCA > dCB el segundo trmino es dCA ! dCB y se obtiene dCB .

Como este criterio slo depende del orden de las distancias ser invariante ante transformaciones montonas: obtendremos la misma jerarqua aunque las distancias sean numricamente distintas. Se ha comprobado que este criterio tiende a producir grupos alargados, que pueden incluir elementos muy distintos en los extremos.

2. Encadenamiento completo o vecino ms alejado. La distancia entre los dos nuevos grupos es la mayor de las distancias entre grupos antes de la fusin. Es decir: d(C ; AB ) = ma x (dCA , dCB ) y puede comprobarse que ma x (dCA , dCB ) = 1/2 (dCA + dCB + |dCA ! dCB |) . Este criterio ser tambin invariante ante transformaciones montonas de las distancias al depender, como el anterior, del orden de las distancias. Tiende a producir grupos esfricos. 3. Media de grupos. La distancia entre los dos nuevos grupos es la media ponderada entre las distancias entre grupos antes de la fusin. Es decir: d(C ; AB ) = nb na dCA + dCB na + nb na + nb

Como se ponderan los valores de las distancias, este criterio no es invariante ante transformaciones montonas de las distancias. 4. Mtodo del centroide. Se aplica generalmente slo con variables continuas. La distancia entre dos grupos se hace igual a la distancia eucldea entre sus centros, donde se toman como centros los vectores de medias de las observaciones que pertenecen al grupo. Cuando se unen dos grupos se pueden calcular las nuevas distancias entre ellos sin utilizar los elementos originales. Puede demostrarse (vase ejercicio 8.5) que el cuadrado de la distancia eucldea de un grupo C a la unin de los grupos A, con na elementos y B con nb es d2 (C ; AB ) = El mtodo de Ward Un proceso algo diferente de construir el agrupamiento jerrquico ha sido propuesto por Ward y Wishart. La diferencia con los mtodos anteriores es que ahora se parte de los elementos directamente, en lugar de utilizar la matriz de distancias, y se dene una medida global de la heterogeneidad de una agrupacin de observaciones en grupos. Esta medida es na nb na nb d2 d2 d2 CA + CB ! 2 na + nb na + nb (na + nb ) AB

246

CAPTULO 8. ANLISIS DE CONGLOMERADOS

W, ya utilizada en la seccin 8.2, la suma de las distancias eucldeas al cuadrado entre cada elemento y la media de su grupo: XX W= (xig ! xg )0 (xig ! xg ) (8.7)
g i%g

donde xg es la media del grupo g. El criterio comienza suponiendo que cada dato forma un grupo, g = n y por tanto W (8.7) es cero. A continuacin se unen los elementos que produzcan el incremento minimo de W. Obviamente esto implica tomar los ms prximos con la distancia eucldea. En la siguiente etapa tenemos n ! 1 grupos, n ! 2 de un elemento y uno de dos elementos. Decidimos de nuevo que dos grupos unir para que W crezca lo menos posible, con lo que pasamos a n ! 2 grupos y as sucesivamente hasta tener un nico grupo. Los valores de W van indicando el crecimiento del criterio al formar grupos y pueden utilizarse para decidir cuantos grupos naturales contienen nuestros datos. Puede demostrarse que, en cada etapa, los grupos que debe unirse para minimizar W son aquellos tales que: min Comparacin Es difcil dar reglas generales que justiquen un criterio sobre otro, aunque los ms utilizados son los tres ltimos. Nuestra recomendacin es analizar que criterio es ms razonable para los datos que se quieren agrupar y , en caso de duda, probar con varios y comparar los resultados. El dendrograma El dendrograma, o rbol jerrquico, es una representacin grca del resultado del proceso de agrupamiento en forma de rbol. Los criterios para denir distancias que hemos presentado tienen la propiedad de que, si consideramos tres grupos, A, B, C, se verica que d(A, C ) # max {d(A, B ), D(B, C )} y una medida de distancia que tiene esta propiedad se denomina ultramtrica. Esta propiedad es ms fuerte que la propiedad triangular, ya que una ultramtrica es siempre una distancia. En efecto si d2 (A, C ) es menor o igual que el mximo de d2 (A, B ), d2 (B, C ) forzosamente ser menor o igual que la suma d2 (A, B ) + d2 (B, C ). El dendrograma es la repreentacin de una ultramtrica, y se contruye como sigue: 1. En la parte inferior del grco se disponen los n elementos iniciales. 2. Las uniones entre elementos se representan por tres lineas rectas. Dos dirigidas a los elementos que se unen y que son perpendiculares al eje de los elementos y una paralela a este eje que se sita al nivel en que se unen. 3. El proceso se repite hasta que todos los elementos estn concetados por lineas rectas. na nb (xa ! xb )0 (xa ! xb ) na + nb

8.3. MTODOS JERRQUICOS

247

Si cortamos el dendrograma a un nivel de distancia dado, obtenemos una clasicacin del nmero de grupos existentes a ese nivel y los elementos que los forman. El dendrograma es til cuando los puntos tienen claramente una estructura jerrquica, pero puede ser engaoso cuando se aplica ciegamente, ya que dos puntos pueden parecer prximos cuando no lo estn, y pueden aparecer alejados cuando estn prximos. Ejemplo 8.4 Aplicaremos los algoritmos cias entre elementos A B C D A 0 1 4 2, 5 0 1 4 B 1 0 2 3 = 0 2 C 2 2 0 4 0 D 2, 5 3 4 0 estudiados a la siguiente matriz inicial de distan2,5 3 4 0

Mtodo 1 encadenamiento simple o vecino ms prximo. El valor mnimo fuera de la diagonal de la matriz de distancias es 1, y corresponde a la distancia entre los elementos Ay B. Los unimos para formar un grupo y calcularemos la nueva distancias de un elemento al grupo (AB) como la mnima de las distancias de ese elemento a A y a B. Es decir: d(AB, C ) = min(4; 2) = 2; d(AB, D) = min(2, 5; 3) = 2, 5. La nueva tabla de distancias se obtiene de la anterior tachando las las y columnas de A y B y aadiendo una nueva columna y una nueva la correspondiente al grupo AB que contiene las nuevas distancias. El resultado es : AB C D AB 0 2 2,5 C 2 0 4 D 2,5 4 0 El valor mnimo fuera de la diagonal de la tabla es ahora 2, que corresponde a la distancia entre AB y C. Uniendo estos dos grupos en uno y calculando las distancias al nuevo grupo :

d(ABC, D) = min(2, 5; 4) = 2, 5. y nalmente se unen los dos grupos nales ABC y D. Este proceso se representa en el dendrograma de la gura 8.16 El dendrograma indica que primero se unen los dos elementos A y B a distancia uno, ese grupo se une al C con distancia 2 y el ABC al D a distancia 2,5.

248

CAPTULO 8. ANLISIS DE CONGLOMERADOS

2.5

1.5

0.5

Figura 8.16: Dendrograma del mtodo de encadenamiento simple Mtodo 2. Encadenamiento completo o vecino ms alejado. La primera unin se hace igual que en el caso anterior entre A y B a distancia uno. Sin embargo, ahora las nuevas distancias son:

d(AB, C ) = ma x(4; 2) = 4; d(AB, D) = ma x(2, 5; 3) = 3 y la siguiente unin ser entre AB y D a distancia tres. La distancia de C al grupo ABD es 4 y esa ser la siguiente unin. La gura 8.17 resume el proceso. Mtodo 3 . El inicio es, como en los mtodos anteriores, la unin de los elementos ms prximos, AB. Las nuevas distancias son d(AB,C)=3; d(AB,D)=2,75. Por tanto, la siguiente unin ser entre AB y D a distancia 2,75. Este grupo ABD se unir a C a su distancia que es d(ABC,D) = 1/2(4+2,75) = 3,375. La gura 8.18 resume el proceso. Mtodo 4 . El inicio es, como en los mtodos anteriores. Las nuevas distancias se calculan d2 + 1 d2 ! 1 d2 = 8 + 2 ! 0, 25 = 9, 75" . Anlogamente d2 (D; AB ) = como d2 (C ; AB ) = 1 2 CA 2 CB 4 AB 2, 52 /2 + 9/2 ! 1/4 = 7, 375. La unin ser con D a distancia 7, 375 = 2.72. La distancia 9, 75 + 1 16 ! 1 7, 375 = 3.162 , y C se unir al grupo de C al nuevo grupo ser d2 (C ; ABD) = 1 3 2 4 a la distancia 3.16. La gura 8.19 presenta el dendograma.

Ejemplo 8.5 La gura 8.20 presenta el dendrograma hecho con MINITAB para los paises de MUNDODES con el mtodo de la disminucin de la suma de cuadrados (Ward). El grco sugiere la presencia de cuatro o cinco grupos de paises.

8.3. MTODOS JERRQUICOS

249

3.5

2.5

1.5

0.5 A 0 B D C

Figura 8.17: Dendrograma del mtodo de encadenamiento completo

3.5

2.5

1.5

0.5 C

A 0

Figura 8.18: Dendrograma del mtodo de la media de los grupos

250

CAPTULO 8. ANLISIS DE CONGLOMERADOS

2.5

1.5

0.5

Figura 8.19: Dendrograma del mtodo del centroide.

Figura 8.20: Resultados de un agrupamiento jerrquico de los paises de MUNDODES por las variables de natalidad

La gura muestra el resultado del encadenamiento simple, que es mucho ms confuso.

8.3. MTODOS JERRQUICOS

251

Figura 8.21: Resultados de una aglomeracin jerrquica para los paises de MUNDODES con encadenamiento simple.

Para comparar los resultados del agrupamiento jerrquico y el de particin la gura 8.22 presenta los grupos obtenidos para los datos estandarizados y con el criterio de Ward en el grco de las variables tasa de natalidad y mortalidad infantil.

Figura 8.22: Resultado del agrupamiento jerrquico cortado en cinco grupos para variables estandarizadas de MUNDODES

252

CAPTULO 8. ANLISIS DE CONGLOMERADOS

8.4

CONGLOMERADOS POR VARIABLES

El anlisis de conglomerados de variables es un procedimiento exploratorio que puede sugerir procedimientos de reduccin de la dimensin, como el anlisis factorial o los mtodos de correlacin cannica que estudiaremos en la segunda parte del libro. La idea es construir una matriz de distancias o similitudes entre variables y aplicar a esta matriz un algoritmo jerrquico de clasicacin.

8.4.1

Medidas de distancia y similitud entre variables

Las medidas habituales de asociacin entre variables continuas son la covarianza y la correlacin. Estas medidas tienen en cuenta nicamente las relaciones lineales. Alternativamente, podramos construir una medida de distancia entre dos variables xj y xh representando cada variable como un punto en <n y calculando la distancia eucldea entre los dos puntos. Esta medida es:
n X = (xij ! xih )2

d2 jh

(8.8) X xij xih . (8.9)

Para que la distancia no dependa de las unidades, las variables deben estar estandarizadas. En otro caso la distancia entre dos variables podra alterarse arbitrariamente mediante transformaciones lineales de stas. (Por ejemplo, midiendo las estaturas en metros, en lugar de en cm. y en desviaciones respecto a la media poblacional en lugar de con carcter absoluto). Suponiendo, por tanto, que trabajamos con variables estandarizadas de media cero y varianza uno, se obtiene que (8.8) se reduce a: d2 jh = 2n(1 ! rjh ). Observemos que: (a) si rjh = 1, la distancia es cero, indicando que las dos variables son idnticas. " (b) si rjh = 0, las dos variables estn incorreladas y la distancia es djh = 2n. , las dos variables tienen correlacin negativa, y la distancia tomar su valor (c) si rjh < 0" mximo, 4n, cuando las dos variables tengan correlacin !1. Esta medida de distancia puede estandarizarse para p que sus valores estn entre cero y uno prescindiendo de la constante n y tomando djh = (1 ! rjh ) /2. Para variables cualitativas binarias se puede construir una medida de similitud de forma similar a como se hizo con los elementos construyendo una tabla de asociacin entre variables. Para ello se cuenta el nmero de elementos donde estn presentes ambas caractersticas (a), donde esta slo una de ellas (b) y (c), y donde no lo estn ninguna de las dos (d). En estas

i=1

x2 ij +

x2 ih ! 2

8.5. LECTURAS COMPLEMENTARIAS

253

tablas se verica que si n es el nmero de individuos n = a + b + c + d, y podemos construir coecientes de similitud como se hizo con los elementos. Alternativamente, esta tabla de asociacin entre variables es una tabla de contingencia (vase el captulo 7) y una medida de distancia es el valor de la ji-cuadrado (vese el Apndice 8.1) +2 = (ad ! bc)2 n . (a + b)(a + c)(c + d)(b + d)

Es ms habitual denir la distancia por el coeciente de contingencia r +2 . n

dij = 1 !

8.5

Lecturas complementarias

Un libro pionero sobre mtodos de agrupamiento en espaol es Escudero (1977), que presenta una visin muy amplia de distintas tcnicas de agrupacin. La literatura sobre cluster en ingls es extensa: Anderberg (1973), Everitt (1993), Gordon (1981), Hartigan (1975), Mirkin (1996) , Spath y Bull (1980) y Spath (1985), estn dedicados a este tema. La mayora de los libros generales dedican tambin un captulo a estos mtodos. Ejemplo 8.6 La gura8.23 muestra el dendrograma del agrupamiento de las variables de los datos de EUROSEC. El criterio utilizado es el de Ward. Se observa que la agrupacin de las variables coincide con lo esperado: primero se unen minera y energa, sevicios y servicions industriales, e industria y construccin. En un segundo nivel tenemos servicios (que engloba las tres variables servicios, servicios industriales y nanzas), agricultura, que esta sla e industria, que recoge el resto de las variables industriales.

Figura 8.23: Agrupamiento por variables de los datos de EUROSEC

254

CAPTULO 8. ANLISIS DE CONGLOMERADOS

Ejemplo 8.7 El dendrograma de la gura8.24 muestra la agrupacin de las variables para las medidas fsicas, MEDIFIS. La correlacin ms estrecha se da entre longitud del pie y estatura, y la variable dimetro del crneo esta poco relacionada con el resto como obtuvimos anteriormente. Si quisisemos hacer grupos a un primer nivel tenemos tres grupos de variables, de longitud, con 4 variables, de anchura, con dos, y el dimetro de la cabeza. A un nivel superior quedan todas las variables en un lado y el dimetro de la cabeza en el otro.

Figura 8.24: Dendrograma de las medidas fsicas con el criterio de Ward.

Ejemplo 8.8 La gura 8.25 presenta los resultados para las variables de INVES. A un nivel bajo tenemos cuatro grupos de variables: qumica, ingeniera, agricultura y biologa y el resto, que incluye 4 variables. A un nivel superior los dos ltimos grupos se unen y la distancia mayor se da entre el banco de datos qumicos y el resto.

8.5. LECTURAS COMPLEMENTARIAS

255

Figura 8.25: Dendrograma de las variables de INVES EJERCICIOS Ejercicio 8.1 Aplicar el algoritmo de k-medias a los datos de los presupuestos familiares. Cuntos grupos hay en lso datos? Ejercicio 8.2 Aplicar un agrupamiento jerrquico a los datos de los presupuestos familiares. Comparar el resultado con distintos mtodos de agrupacin. Compararlos con los resultados de k-medias Ejercicio 8.3 Demostrar que el criterio de Hartigan para el algoritmo de k-medias equivale a continuar aadiendo grupos hasta que tr(WG ) < tr(WG+1 )(n ! G + 9)/(n ! G ! 1) (Sugerencia utilizar que tr(W) = SCDG, e imponer la condicin de que el valor de F sea mayor que 10) P Png 0 Ejercicio 8.4 Demostrar que si denimos T = G i=1 (xig ! x)(xig ! x) a la suma de g =1 cuadrados totales podemos escribir T = B + W, donde W se ha denido en la seccin 8.2 y B es la matriz de suma de cuadrados entre grupos. Ejercicio 8.5 Demostrar que las distancias entre grupos con encadenamiento simple, completo y media de grupos pueden calcularse con #dCA + #dCB + % |dCA ! dCB | y obtener los valores de # y % que dan lugar a estas distancias. Ejercicio 8.6 Demostrar que en aglomeramiento jerrquico podemos calcular las distancias eucldeas al cuadrado entre un grupo C a la unin de los grupos A, con na elementos y B na nb a b con nb mediante d2 (C ; AB ) = nan d2 + nan d2 ! (na d2 . +nb CA +nb CB +nb )2 AB (sugerencia: La media de la unin de los grupos A y B tendr de coordenadas xAB = na b x + nan x , sustituir esa expresin en la distancia de C a ese punto (xC ! xAB )0 (xC ! na +nb A +nb B xAB ) y desarrollar.

256

CAPTULO 8. ANLISIS DE CONGLOMERADOS

1 En la tabla de contingencia {a, b, c, d} las frecuencias esperadas son n {(a + c)(a + b), (a + 2 b)(b + d), (b + d)(c + d)} y el valor de la + denida en la seccion 7.3 es:

APNDICE 8.1. CLCULO DEL ESTADISTICO JI-CUADRADO EN TABLAS 22


ad ! bc n 2 n n n n + + + (a + c)(a + b) (a + b)(b + d) (a + c)(c + d) (b + d)(c + d)

+ =

En efecto, como la tabla tiene un grado de libertad, las discrepancias entre las frecuencias observadas y esperadas deben de ser iguales, por ejemplo para la primera casilla (a + c) (a + b) a! n 2 na ! a(a + b + c) ! bc n 2 ad ! bc n 2

y lo mismo se obtiene en las restantes. Como: (b + d)(d + c) + (a + c)(c + d) + (a + b)(b + d) + (a + c)(a + b) =

(b + d)n + (a + c)n = (a + b + c + d)n = n2 resulta nalmente que: (ab ! bc)2 n . (a + b)(a + c)(b + d)(c + d)

+2 =

Captulo 9 DISTRIBUCIONES MULTIVARIANTES


9.1 CONCEPTOS BSICOS.

El problema central en la anlisis de datos es decidir si las propiedades encontradas en una muestra pueden generalizarse a la poblacin de la que proviene. Para poder realizar esta extrapolacin necesitamos construir un modelo del sistema generador de los datos, es decir, suponer una distribucin de probabilidad para la variable aleatoria en la poblacin. Este captulo repasa los conceptos bsicos para construir modelos estadsticos multivariantes y presenta las distribuciones que se utilizarn para la inferencia en los captulos siguientes.

9.1.1

Variables aleatorias vectoriales.

Una variable aleatoria vectorial es el resultado de observar p caractersticas en un elemento de una poblacin. Por ejemplo, si observamos la edad y el peso de los estudiantes de una universidad tendremos valores de una variable aleatoria bidimensional; si observamos el nmero de trabajadores, las ventas y los benecios de las empresas de un sector, tendremos una variable aleatoria tridimensional. Diremos que se ha denido la distribucin conjunta de una variable aleatoria vectorial cuando se especique: 1. El espacio muestral o conjunto de sus valores posibles. Representando cada valor por un punto en el espacio de dimensin p, <p , de los nmeros reales, el espacio muestral es, en general, un subconjunto de este espacio. 2. Las probabilidades de cada posible resultado (subconjunto de puntos) del espacio muestral. Diremos que la variable vectorial p!dimensional es discreta, cuando lo es cada una de las p!variables escalares que la componen. Por ejemplo, el color de los ojos y del cabello forman una variable bidimensional discreta. Anlogamente, diremos que la variable es continua si sus componentes lo son. Cuando algunos de sus componentes sean discretos y otros continuos 257

258

CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES

diremos que la variable vectorial es mixta. Por ejemplo, la variable: gnero (0=hombre, 1=mujer), estatura y peso de personas, es tridimensional mixta. En este captulo, para simplicar la exposicin, y salvo indicacin en otro sentido, supondremos que la variable vectorial es continua.

9.1.2

Distribucin conjunta

La funcin de distribucin conjunta de una variable aleatoria vectorial F (x) se dene en un 0 punto x0 = (x0 1 , ..., xp ) mediante:
0 F (x0 ) = P (x # x0 ) = P (x1 # x0 1 , ..., xp # xp )

donde P (x # x0 ) representa la probabilidad de que la variable tome valores menores o iguales al valor particular considerado, x0 . Por tanto, la funcin de distribucin acumula las probabilidades de todos los valores menores o iguales al punto considerado, y ser no decreciente. Aunque la funcin de distribucin tiene un gran inters terico, es ms cmodo en la prctica trabajar con la funcin de densidad para variables continuas, o con la funcin de probabilidades para las discretas. Llamaremos funcin de probabilidad de una variable discreta a la funcin p(x0 ) denida por
0 p(x0 ) = P (x = x0 ) = P (x1 = x0 1 , ..., xp = xp ).

Diremos que el vector x es absolutamente continuo si existe una funcin de densidad, f (x), que satisface: Z x0 0 F (x ) = f (x)dx, (9.1)
!&

donde dx = dx1 ....dxp y la integral es una integral mltiple en dimensin p. La densidad de probabilidad tiene la interpretacin habitual de una densidad: masa por unidad de volumen. Por tanto la funcin de densidad conjunta debe vericar a) f (x) = f (x1 ....., xp ) ) 0. La densidad es siempre no negativa. R& R& R& b) !& f (x)dx = !& ...... !& f (x1 , .....xp ) dx1 ....dxp = 1. Si multiplicamos la densidad en cada punto por el elemento de volumen en p dimensiones (que, si p = 2, ser el rea de un rectngulo, si p = 3 el volumen de un paraleppedo, etc) y sumamos (integramos) para todos los puntos con densidad no nula, obtenemos la masa de probabilidad total, que se estandariza al valor unidad. Las probabilidades de sucesos denidos como subconjuntos del espacio muestral sern iguales a la masa de probabilidad correspondiente al subconjunto. Estas probabilidades se calcularn integrando la funcin de densidad sobre el subconjunto. Por ejemplo, para una variable bidimensional y sucesos A del tipo A = (a < x1 # b; c < x2 # d): Z bZ d P (A) = f (x1 , x2 )dx1 dx2
a c

9.1. CONCEPTOS BSICOS. mientras que, en general, P (A) = Z f (x)dx.


A

259

En este captulo, y para simplicar la notacin, utilizaremos la letra f para referirnos a la funcin de densidad de cualquier variable e indicaremos la variable por el argumento de la funcin, de manera que f (x1 ) es la funcin de densidad de la variable x1 , y f (x1 , x2 ) es la funcin de densidad de la variable bidimensional (x1 , x2 ).

9.1.3

Distribuciones marginales y condicionadas

Dada una variable aleatoria vectorial p!dimensional (x1 , ...., xp ) llamaremos distribucin marginal de cada componente xi a la distribucin univariante de dicho componente, considerado individualmente, e ignorando los valores del resto de los componentes. Por ejemplo, para variables bidimensionales continuas las distribuciones marginales se obtienen como: Z & f (x1 , x2 )dx2 , (9.2) f (x1 ) =
!& &

f (x2 ) =

f (x1 , x2 )dx1 ,

(9.3)

!&

y representan la funcin de densidad de cada variable ignorando los valores que toma la otra. Como hemos indicado antes, la letra f se reere genericamente a una funcin de densidad. Por ejemplo, la ecuacin (9.2) indica que si integramos una funcin de densidad en dos variables, f (x1 , x2 ), respecto a la variable x2 se obtiene una funcin que es de nuevo una funcin de densidad, y de ah el smbolo f, pero que es ahora la funcin de densidad de la variable x1 . Las funciones f (x1 ) y f (x1 , x2 ) sern en general totalmente distintas y slo tienen en comn ser ambas funciones de densidad, por tanto f (.) ) 0, y Z & f (x1 )dx1 = 1
!&

& !&

&

f (x1 , x2 )dx1 dx2 = 1.

!&

Para justicar (9.2), calcularemos la probabilidad de que la variable x1 pertenezca a un intervalo (a, b] a partir de la distribucin conjunta. Entonces: P (a < x1 # b) = P (a < x1 # b; !. < x2 # .) = Z b = f (x1 )dx1
a

dx1

& !&

f (x1 , x2 )dx2 =

260

CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES

que justica (9.2). Observemos que en esta ecuacin x1 es un valor concreto cualquiera. Supongamos que la precisin de la medida de x1 es #x1 , es decir, diremos que ha ocurrido el valor x1 si se observa un valor en el intervalo x1 #x1 /2. La probabilidad de este valor ser el valor de la densidad en el centro del intervalo, f (x1 ) por la longitud de la base #x1 . Si multiplicamos ambos miembros de la ecuacin (9.2) por la constante #x1 , tenemos en el primer miembro f (x1 )#x1 , que es la probabilidad de ese valor concreto de x1 calculada con su distribucin univariante. En el segundo miembro tendremos la suma (integral) de todas las probabilidades de los pares de valores posibles (x1 , x2 ), cuando x1 es jo y x2 toma todos los valores posibles. En efecto, estas probabilidades vienen dadas por f (x1 , x2 )dx2 #x1 , y sumando para todos los valores posibles de x2 de nuevo obtenemos la probabilidad del valor x1 . Si x = (x1 , x2 ), donde x1 y x2 son a su vez variables vectoriales, se dene la distribucin condicionada de x1 , para un valor concreto de la variable x2 = x0 2 , por: f (x1 |x0 2) = f (x1 , x0 2) 0 f (x2 ) (9.4)

supuesto que f (x0 2 ) 6= 0. Esta denicin es consistente con el concepto de probabilidad condicionada y con el de funcin de densidad para una variable. En efecto, supongamos para simplicar que ambas variables son escalares. Entonces multiplicando por #x1 ambos miembros tendremos f (x1 |x0 2 )#x1 f (x1 , x0 2 )#x1 #x2 = f (x0 2 )#x2

y el primer miembro representa la probabilidad condicionada que se expresa como cociente de la probabilidad conjunta y la marginal. De esta denicin se deduce: f (x1 , x2 ) = f (x2 |x1 )f (x1 ). (9.5)

La distribucin marginal de x2 , puede calcularse en funcin de (9.3) y (9.5) como: Z f (x2 ) = f (x2 |x1 )f (x1 )dx1 , (9.6) que tiene una clara interpretacin intuitiva. Si multiplicamos ambos miembros por #x2 , el elemento de volumen, tenemos en la izquierda f (x2 )#x2 , la probabilidad del valor concreto de x2 considerado. La frmula (9.6) nos dice que esta probabilidad puede calcularse obteniendo primero la probabilidad del valor x2 para cada posible valor de x1 , dada por f (x2 |x1 )#x2 , y luego multiplicando cada uno de estos valores por las probabilidades de x1 , f (x1 )dx1 , lo que equivale a promedir las probabilidades condicionadas por x1 respecto a la distribucin de esta variable. Como resultado de (9.5) y (9.6) la distribucin condicionada f (x1 |x2 ) puede entonces escribirse como: f (x1 |x2 ) = R f (x2 |x1 )f (x1 ) f (x2 |x1 )f (x1 )dx1 (9.7)

9.1. CONCEPTOS BSICOS.

261

que es el teorema de Bayes para funciones de densidad, y constituye la herramienta fundamental de la inferencia Bayesiana que estudiaremos en el captulo 11. Para variables discretas los conceptos son similares, pero las integrales se sustituyen por sumas, como se indica en el siguiente ejemplo. Ejemplo 9.1 La tabla 9.1 presenta al distribucin conjunta de las variables aleatorias discretas: x1 : votar a uno de cuatro posibles partidos polticos, que toma los cuatro valores posibles P1 , P2 , P3 y P4 y x2 : nivel de ingresos de los votantes, que toma los tres valores A (alto), M (medio), B (bajo). Calcular las distribuciones marginales, la distribucin condicionada de los votos para las personas con ingresos bajos y la distribucin condicionada de los ingresos para los votantes del partido P4 . A M B P1 .1 .05 .01 P2 .05 .20 .04 P3 .04 .25 .07 P4 .01 .1 .08 Tabla 9.1. Distribucin conjunta de votos e ingresos en una poblacin Para calcular la distribucin marginal aadimos a la tabla una la y una columna y colocamos all el resultado de sumar las las y las columnas de la tabla. Con esto se obtiene la tabla 9.2. Por ejemplo, la distribucin marginal de los ingresos indica que la probabilidad de ingresos altos es .2, de medios .6 y de bajos .2. Observemos que las distribuciones marginales son el resultado que se obtiene en los mrgenes de la tabla (lo que justica su nombre) al sumar las probabilidades conjuntas por las y por columnas. P1 P2 P3 P4 Marginal de ingresos Tabla 9.2. Distribucin conjunta y A M .1 .05 .05 .20 .04 .25 .01 .1 .2 .6 marginales B Marginal de votos .01 .16 .04 .29 .07 .36 .08 .19 .2 de votos e ingresos en una poblacin

Para calcular la distribucin condicionada de los votos para las personas de ingresos bajos, dividimos cada casilla de la columna de ingresos bajos por el total de la columna. La distribucin resultante se indica en el tabla 9.3 P1 P2 P3 P4 .05 .20 .35 .40 Tabla 9.3 distribucin condicionada de los votos para personas con ingresos medios. Por ejemplo, el valor .05 es el resultado de dividir .01, la probabilidad conjunta de ingresos bajos y votar a P1 por la probabilidad marginal de ingresos bajos, .1. Esta tabla indica que el partido preferido para las personas de ingresos bajos es el P4 con un 40% de los votos, seguido del P3 con el 35%. La tabla 9.4 indica la distribucin condicionada de los ingresos para los votantes del partido P4 . El grupo ms numeroso de votantes de este partido es de ingresos medios (52,63%) seguido de ingresos bajos (42,11%) y altos (5,26%).

262

CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES A M B Total .0526 .5263 .4211 1

P4

Tabla 9.4 distribucin condicionada de los ingresos para personas que votan a P1 .

9.1.4

Independencia

El concepto fundamental en el estudio conjunto de varias variables aleatorias es el concepto de independencia. Diremos que dos vectores aleatorios x1 , x2 son independientes si el conocimiento de uno de ellos no aporta informacin respecto a los valores del otro. En otros trminos, la distribucin de valores concretos de x2 no depende de x1 y es la misma cualquiera que sea el valor de x1 . Esto se expresa matemticamente: f (x2 |x1 ) = f (x2 ) (9.8)

que indica que la distribucin condicionada es idntica a la marginal. Utilizando (9.5), una denicin equivalente de independencia entre dos vectores aleatorios x1 , x2 es: f (x1 , x2 ) = f (x1 )f (x2 ) (9.9)

es decir, dos vectores aleatorios son independientes si su distribucin conjunta (su probabilidad conjunta) es el producto de las distribuciones marginales ( de las probabilidades individuales). En general, diremos que las variables aleatorias x1 , ..., xp , con densidad conjunta f (x1 , ..., xp ) son independientes, si se verica: f (x1 , ......, xp ) = f (x1 )f (x2 )....f (xp ) (9.10)

La independencia conjunta es una condicin muy fuerte: al ser x1 , ..., xp independientes tambin lo sern cualquier subconjunto de variables (x1 , ...., xh ) con h # p, as como cualquier conjunto de funciones de las variables individuales, g1 (x1 )....g1 (xp ), o de conjuntos disjuntos de ellas. Cuando las variables son independientes no ganamos nada con su estudio conjunto y conviene estudiarlas individualmente. Es fcil comprobar que si las variables x1 y x2 son independientes y construimos nuevas variables y1 = g1 (x1 ), y2 = g2 (x2 ), donde la primera variable es slo funcin de x1 y la segunda slo de x2 , las variables y1 , y2 son tambin independientes.

9.1.5

La maldicin de la dimensin

La maldicin de la dimensin es un trmino acuado por el matemtico R. Bellman para describir como aumenta la complejidad de un problema al aumentar la dimensin de las variables involucradas. En el anlisis estadstico multivariante la maldicin de la dimensin se maniesta de varias formas. En primer lugar, al aumentar la dimensin, el espacio est cada vez ms vaco, haciendo ms difcil cualquier proceso de inferencia a partir de los datos. Esto es consecuencia de que, al aumentar la dimensin del espacio aumenta su volumen (o su hipervolumen en general), y como la masa total de probabilidad es la unidad, la densidad de la variable aleatoria

9.2. PROPIEDADES DE VARIABLES VECTORIALES

263

debe disminuir. En consecuencia, la densidad de probabilidad de una variable aleatoria de dimensin alta es muy baja en todo el espacio, o, lo que es equivalente, el espacio esta progresivamente ms vaco. Para ilustrar el problema, supongamos que la densidad de una variable p!dimensional es uniforme en el hipercubo [0,1]p y que todos los componentes son independientes. Por ejemplo, pueden generarse muestras de esta variable tomando conjuntos de p nmeros aleatorios entre cero y uno. Consideremos la probabilidad de que un valor al azar de esta variable est dentro del hipercubo [0; 0, 9]p . Para p = 1, el caso escalar, esta probabilidad es 0, 9, para p = 10, este valor baja a 0, 910 = 0, 35, y para p = 30 es 0, 930 = 0, 04. Vemos que, a medida que aumenta la dimensin del espacio, cualquier conjunto va, progresivamente, quedndose vaco. Un segundo problema es que el nmero de parmetros necesario para describir los datos aumenta rpidamente con la dimensin. Para representar en dimensin p la media y la matriz de covarianzas necesitamos p + p(p + 1)/2 = p(p + 3)/2 que es de orden p2 . Por tanto, la complejidad de los datos, medida por el nmero de parmetros necesarios para representarlos, crece, en este caso, con el cuadrado de la dimensin del espacio. Por ejemplo, 100 datos es una muestra grande para una variable unidimensional, pero es muy pequea para una variable vectorial con p = 14 : para estimar las medias, varianzas y covarianzas se requieren ms de 14(17)/2 = 119 observaciones. Como norma general, los procedimientos multivariantes necesita un ratio n/p > 10 y es deseable que este ratio sea mayor de 20. La consecuencia del aumento de la dimensin es un aumento de la incertidumbre del problema: la previsin conjunta de los valores de la variable va siendo cada vez ms difcil. En la prctica, este problema disminuye si las variables son muy dependientes entre s, ya que entonces, la densidad de probabilidad se concentra en determinadas zonas del espacio, denidas por la relacin de dependencia, en lugar de repartirse por todo el espacio muestral. Esta dependencia puede usarse, extendiendo los mtodos que como hemos visto en captulos anteriores, para reducir la dimensin del espacio de variables y evitar la maldicin de la dimensionalidad.

9.2
9.2.1

PROPIEDADES DE VARIABLES VECTORIALES


Vector de medias

Llamaremos esperanza, o vector de medias, , de una variable multidimensional, x, al vector cuyos componentes son las esperanzas, o medias, de los componentes de la variable aleatoria. Escribiremos el vector de medias como: = E [x] (9.11)

donde debe entenderse que la esperanza operando sobre un vector o una matriz es el resultado de aplicar este operador (tomar medias) a cada uno de los componentes. Si la variable es

264 continua:

CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES

= E [x] =

xf (x)dx

La esperanza es una funcin lineal, es decir, para cualquier matriz, A, y vector b, tenemos: E [Ax + b] = AE [x1 ] + b. Si x = (x1 , x2 )0 tenemos tambin que, para escalares a y b : E [ax1 + bx2 ] = aE [x1 ] + bE [x2 ] . y si x1 y x2 son independientes: E [x1 x2 ] = E [x1 ]E [x2 ] .

9.2.2

Esperanza de una funcin

Generalizando la idea de esperanza, si disponemos de una funcin escalar y = g (x) de un vector de variables aleatorias, el valor medio de esta funcin se calcula: Z Z Z (9.12) E [y ] = yf (y )dy = ... g (x)f (x1 , ...., xn )dx1 , ...., dxn La primera integral tiene en cuenta que y es escalar y si conocemos su funcin de densidad, f (y ), su esperanza se calcula de la forma habitual. La segunda, muestra que no es necesario calcular f (y ) para determinar el valor promedio de g (x): basta ponderar sus valores posibles por las probabilidades que dan lugar a estos valores. Esta denicin es consistente, y es fcil comprobar que ambos mtodos conducen al mismo resultado. Si x = (x1 , x2 )0 , y denimos y1 = g1 (x1 ), y2 = g2 (x2 ), si x1 e x2 son independientes E [y1 y2 ] = E (g1 (x1 ))E (g2 (x2 ))

9.2.3

Matriz de varianzas y covarianzas

Llamaremos matriz de varianzas y covarianzas (o simplemente matriz de covarianzas) de un vector aleatorio x = (x1 , ..., xp )0 , de <p , con vector de medias 0 = (1 , ...., p ), a la matriz cuadrada de orden p obtenida por : Vx = E [(x ! )(x ! )0 ] (9.13)

La matriz Vx contiene en la diagonal las varianzas de los componentes, que representaremos por ) 2 i , y fuera de ella las covarianzas entre los pares de variables, que representaremos por ) ij . La matriz de covarianzas es simtrica y semidenida positiva. Es decir, dado un vector cualquiera, $ , se vericar: $ 0 Vx $ ) 0.

9.2. PROPIEDADES DE VARIABLES VECTORIALES Para demostrar esta propiedad denamos una variable unidimensional por: y = (x ! )0 $ donde $ es un vector arbitrario de <p . La variable y tiene esperanza cero ya que E (y ) = E [(x ! )]0 $ =0 y su varianza debe ser no negativa: var(y ) = E y 2 = $ 0 E [(x ! )(x ! )0 ] $ = $ 0 Vx$ ) 0

265

Llamaremos varianza media al promedio de las varianzas dado por tr(Vx )/p, varianza generalizada a |Vx | y variabilidad promedio a V P = |Vx |1/p que es una medida global de la variabilidad conjunta para todas las variables que tiene en cuenta su estructura de dependencia. La interpretacin de estas medidas es similar a la estudiada en el captulo 3 para distribuciones de datos.

9.2.4

Transformaciones de vectores aleatorios.

Al trabajar con funciones de densidad de vectores aleatorios es importante recordar que, como en el caso univariante, la funcin de densidad tiene dimensiones: si p = 1, caso univariante, probabilidad por unidad de longitud, si p = 2, probabilidad por unidad de supercie, si p = 3 por unidad de volumen y si p > 3) de hipervolumen. Por lo tanto, si cambiamos las unidades de medida de las variables, la funcin de densidad debe modicarse tambin. En general, sea x un vector de <p con funcin de densidad fx (x) y sea otro vector aleatorio y de <p , denido mediante la transformacin uno a uno: y1 = g1 (x1 , ....., xp ) . . . . . . yp = gp (x1 , ...., xp ), donde suponemos que existen las funciones inversas x1 = h1 (y1 , ..., yp ), ..., xp = hp (y1 , ..., yp ), y que todas las funciones implicadas son diferenciables. Entonces, puede demostrarse que la funcin de densidad del vector y viene dada por: dx fy (y) = fx (x) (9.14) dy , donde aqu hemos utilizado fy y fx para representar las funciones de densidad de las variables y, y x, para evitar confusiones. El trmino |dx/dy| representa el jacobiano de la

266

CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES

transformacin, (que ajusta la probabilidad por el cambio de escala de medida) dado por el determinante: & x1 & x1 ... & y1 & yp dx . . = . . . dy . & xp & x p ... &y &y
1 p

que suponemos es distinto de cero en el rango de la transformacin. Un caso importante es el de transformaciones lineales de la variable. Si hacemos y = Ax

donde A es una matriz cuadrada no singular, las derivadas de los componentes de x respecto a y se obtendrn de x = A!1 y, y sern, por tanto, los elementos de la matriz A!1 . El Jacobiano de la transformacin ser |A!1 | = |A|!1 y la funcin de densidad de la nueva variable y, ser fy (y) = fx (A!1 y) |A|!1 (9.15)

expresin que indica que para obtener la funcin de densidad de la variable y sustituimos en la funcin de densidad de la variable x el argumento por A!1 y y dividimos el resultado por el determinante de la matriz A.

9.2.5

Esperanzas de transformaciones lineales

Sea x un vector aleatorio de dimensin p y denamos un nuevo vector aleatorio y de dimensin m, (m # p), con y = Ax, (9.16) donde A es una matriz rectangular de dimensiones m p. Llamando x , y , a sus vectores de medias y Vx , Vy a las matrices de covarianzas, se verica la relacin: y = Ax que es inmediata tomando esperanzas en (9.16). Adems: Vy = AVx A0 (9.18) (9.17)

Ejemplo 9.2 Las valoraciones de los clientes de la puntualidad (x1 ), rapidez (x2 ) y limpieza (x3 ) de un servicio de transporte tienen unas medias, en una escala de cero a diez, de 7, 8 y 8,5 respectivamente con una matriz de varianzas y covarianzas

donde A0 es la matriz transpuesta de A. En efecto, aplicando la denicin de covarianzas y las relaciones (9.16) y (9.18) Vy = E (y ! y )(y ! y )0 = E [A(x ! x)(x ! x )0 A0 ] = AVx A0

9.3. DEPENDENCIA ENTRE VARIABLES ALEATORIAS # 1 .5 .7 Vx = " .5 .64 .6 $ .7 .6 1.44 !

267

Se construyen dos indicadores de la calidad del servicio. El primero es el promedio de las tres puntuaciones y el segundo es la diferencia entre el promedio de la puntualidad y la rapidez, que indica la abilidad del servicio y la limpieza, que indica la comodidad del mismo. Calcular el vector de medias y la matriz de covarianzas para estos dos indicadores. La expresin del primer indicador es x1 + x2 + x3 y1 = 3 y la del segundo x1 + x2 y2 = ! x3 2 Estas dos ecuaciones pueden escribirse matricialmente ! # x1 y1 1/3 1/3 1/3 " x2 $ = y2 1/2 1/2 !1 x3 El vector de medias ser ! # 7 1/3 1/3 1/3 " 7 , 83 1 8 $= = 2 1/2 1/2 !1 !1 8, 5

y el valor 7,83 es una medida global de la calidad promedio del servicio y el menos uno de la relacin abilidad comodidad. La matriz de varianzas covarianzas es: ! #! # 1 .5 .7 1/3 1/2 1/3 1/3 1/3 " .5 .64 .6 $ " 1/3 1/2 $ = Vy = 1/2 1/2 !1 .7 .6 1.44 1/3 !1 . 742 22 !. 256 67 = !. 256 67 .8 que indica que la variabilidad de ambos indicadores es similar y que estn relacionados negativamente, ya que la covarianza es negativa.

9.3
9.3.1

Dependencia entre variables aleatorias


Esperanzas condicionadas

La esperanza de un vector x1 condicionada a un valor concreto de otro vector x2 es la esperanza de la distribucin de x1 condicionada a x2 y viene dada por: Z E [x1 |x2 ] = x1 f (x1 |x2 ) dx1 .

268

CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES

En general esta expresin ser una funcin del valor x2 . Cuando x2 es un valor jo, la esperanza condicionada ser una constante. Si x2 es una variable aleatoria, la esperanza condicionada ser tambin una variable aleatoria. La esperanza de un vector aleatorio x1 puede calcularse a partir de las esperanzas condicionales en dos etapas: en la primera calculamos la esperanza de x1 condicionada a x2 . El resultado es una funcin aleatoria que depende de la variable aleatoria x2 . En la segunda, calculamos la esperanza de esta funcin con relacin a la distribucin de x2 . Entonces: E (x1 ) = E [E (x1 |x2 )] . (9.19)

Esta expresin indica que la esperanza de una variable aleatoria puede obtenerse promediando las esperanzas condicionadas por sus probabilidades de aparicin o, en otros trminos, que la esperanza de la media condicionada es la esperanza marginal o incondicional. Demostracin Z ZZ ZZ E (x1 ) = x1 f (x1 )dx1 = x1 f (x1 x2 )dx1 dx2 = x1 f (x1 |x2 )f (x2 )dx1 dx2 Z Z Z = f (x2 ) x1 f (x1 |x2 )dx1 dx2 = E [x1 |x2 ] f (x2 )dx2 = E [E (x1 |x2 )] .

9.3.2

Varianzas condicionadas

La varianza de x1 condicionada a x2 se dene como la varianza de la distribucin de x1 condicionada a x2 . Utilizaremos la notacin V ar(x1 |x2 ) = V1/2 y esta matriz tendr las propiedades ya estudiadas de una matriz de covarianzas. Si x1 es escalar, su varianza puede calcularse tambin a partir de las propiedades de la distribucin condicionada. En concreto, puede expresarse como suma de dos trminos: el primero asociado a las medias condicionadas y el segundo a las varianzas condicionadas. Para obtener esta expresin partimos de la descomposicin: x1 ! 1 = x1 ! E (x1 /x2 ) + E (x1 /x2 ) ! 1 donde x2 es un vector aleatorio cualquiera para el que la esperanza condicionada E (x1 /x2 ) es nita. Elevando al cuadrado esta expresin y tomando esperanzas en ambos miembros: var(x1 ) = E (x1 ! E (x1 /x2 ))2 + E (E (x1 /x2 ) ! 1 )2 + 2E [(x1 ! E (x1 /x2 )(E (x1 /x2 ) ! 1 )] el doble producto se anula, ya que E [(x1 ! E (x1 /x2 ))(E (x1 /x2 ) ! 1 )] =

9.3. DEPENDENCIA ENTRE VARIABLES ALEATORIAS = Z (E (x1 /x2 ) ! 1 ) Z (x1 ! E (x1 /x2 ))f (x1 /x2 )dx1 f (x2 )dx2 = 0

269

al ser nula la integral entre corchetes. Por otro lado, como por (9.19): E [E (x1 /x2 )] = E (x1 ) = 1 , el segundo trmino es la esperanza de la diferencia al cuadrado entre la variable aleatoria E (x1 /x2 ), que depender del vector aleatorio x2 y su media 1 . Por tanto: var(x1 ) = E [var(x1 /x2 )] + var [E (x1 /x2 )] (9.20)

Esta expresin se conoce como descomposicin de la varianza, ya que descompone la variabilidad de la variable en dos fuentes principales de variacin. Por un lado, hay variabilidad porque las varianzas de las distribuciones condicionadas, var(x1 /x2 ), pueden ser distintas, y el primer trmino promedia estas varianzas. Por otro, hay tambin variabilidad porque las medias de las distribuciones condicionadas pueden ser distintas, y el segundo trmino recoge las diferencias entre las medias condicionadas, E (x1 /x2 ), y la media total, 1 , mediante el trmino var [E (x1 /x2 )] . Observemos que la varianza de la variable x1 es, en general, mayor que el promedio de las varianzas de las distribuciones condicionadas, debido a que en las condicionadas la variabilidad se calcula respecto a las medias condicionadas, E (x1 /x2 ), mientras que var(x1 ) mide la variabilidad respecto a la media global, 1 . Si todas las medias condicionadas son iguales a 1 , los que ocurrir por ejemplo si x1 e x2 son independientes, entonces el trmino var [E (x1 /x2 )] es cero y la varianza es la media ponderada de las varianzas condicionadas. Si E (x1 /x2 ) no es constante, entonces la varianza de x1 ser tanto mayor cuanto mayor sea la variabilidad de las medias condicionadas. Esta descomposicin de la varianza aparece en el anlisis de la varianza de los modelos lineales univariantes: X X X (xi ! x)2 /n = (xi ! x bi )2 /n + (x bi ! x)2 /n donde, en esta expresin, x bi es la estimacin de la media condicionada en el modelo lineal. La variabilidad total, que equivale a var(x1 ), se descompone en dos trminos incorrelados. Por un lado, el promedio de las estimaciones de var(x1 /x2 ), que se calculan promediando las diferencias entre la variable y la media condicionada. Por el otro, la variabilidad de las esperanzas condicionales respecto a la media global, que se estiman en los modelos lineales por las diferencias x bi ! x.

9.3.3

Matriz de correlacin

Se dene la matriz de correlacin de un vector aleatorio x con matriz de covarianzas Vx , por Rx = D!1/2 Vx D!1/2 donde
2 D = diag() 2 1 , ..., ) p )

270

CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES

es la matriz diagonal que contiene las varianzas de las variables. La matriz de correlacin ser pues una matriz cuadrada y simtrica con unos en la diagonal y los coecientes de correlacion entre los pares de variables fuera de la diagonal. Los coecientes de correlacin simple o coecientes de correlacin lineal, vienen dados por 'ij = ) ij )i)j

La matriz de correlacin es tambin semidenida positiva. Una medida global de las correlaciones lineales existentes en el conjunto de variables es la dependencia, denida por Dx = 1 ! |Rx|1/(p!1) cuya interpretacin para variables aleatorias es anloga a la presentada en el captulo 3 para variables estadsticas. Para p = 2 la matriz Rx tiene unos en la diagonal y el coeciente '12 2 2 fuera, |Rx | = 1 ! '2 12 , y la dependencia Dx = 1 ! (1 ! '12 ) = '12 coincide con el coeciente de determinacin. Se demuestra de la misma forma que se hizo en el captulo 3 que en el caso general, p > 2, la dependencia es un promedio geomtrico de coecientes de determinacin.

9.3.4

Correlaciones Mltiples

Se denomina correlacin mltiple de una variable escalar, y, y un vector de variables x a una medida de la capacidad de prever y mediante una funcin lineal de las variables x. Suponiendo, sin prdida de generalidad, que las variables tienen media cero, denimos la mejor prediccin lineal de y como la funcin " 0 x que minimiza E (y ! " 0 x)2 . Puede demostrarse que 1 " = V! x Vxy siendo Vx la matriz de covarianzas de x y Vxy el vector de covarianzas entre y y x. El coeciente de correlacin simple entre las variables escalares y y "0 x se denomina coeciente de correlacin mltiple. Puede demostrarse que si llamamos ) ij a los trminos de la matriz de covarianzas V de un vector de variables y ) ij a los trminos de la matriz V!1 , el coeciente de correlacin mltiple, Ri.R entre cada variable (i) y todas las dems (R) se calcula como:
2 Ri.R =1!

1 ) ij ) ij

2 En particular, si E (y |x) es una funcin lineal de x entonces E (y |x) = "0 x y Ri.R puede 2 2 2 tambin calcularse como 1!) y|x /) y , donde ) y|x es la varianza de la distribucin condicionada, y |x y ) 2 y la varianza marginal de y.

9.3.5

Correlaciones Parciales

Supongamos que obtenemos la mejor aproximacin lineal a un vector de variables x1 de dimensiones p1 1 a partir de otro vector de variables x2 de dimensiones p2 1. Suponiendo que las variables tienen media cero, esto implica calcular un Bx2 donde B es una maPvector p1 triz de coecientes de dimensiones p1 p2 de manera que j =1 E (x1j ! " 0j x2 )2 sea mnima, donde x1j es el componente j del vector x1 y " 0j la la j de la matriz B. Llamemos V1/2 a la

9.4. LA DISTRIBUCIN MULTINOMIAL

271

matriz de covarianzas de la variable x1 ! Bx2 . Si estandarizamos esta matriz de covarianzas para pasarla a correlaciones, los coecientes de correlacin resultantes se denominan coecientes de correlacin parcial entre los componentes de x1 dadas las variables x2 . La matriz cuadrada y simtrica de orden p1 R1/2 = D1/2 V1/2 D1/2
!1/2 !1/2

se denomina matriz de correlaciones parciales entre los componentes del vector x1 cuando 2 2 controlamos (o condicionado a) el vector x2 , donde D1/2 = diag() 2 1/2 , ..., ) k/2 ) y ) j/2 es la 0 varianza de la variable x1j ! "j x2 . En particular si E (x1 |x2 ) es lineal en x2 , entonces E (x1 |x2 ) = Bx2 y V1/2 es la matriz de covarianzas de la distribucin condicionada de x1 |x2 .

9.4

LA DISTRIBUCIN MULTINOMIAL

Supongamos que observamos elementos que clasicamos en dos clases, A y A. Por ejemplo, clasicamos los recin nacidos en un hospital como hombre (A) o mujer (A), los dias de un mes como lluviosos (A) o no (A), o los elementos fabricados por una mquina como buenos (A) o defectuosos (A). Suponemos que el proceso que genera elementos es estable, existiendo un probabilidad constante de aparicin de los elementos de cada clase, P (A) = p = cte, y que el proceso no tiene memoria, es decir P (A|A) = P (A|A). Supongamos que observamos elementos al azar de este proceso y denimos la variable 1, si la observacin pertenece a la clase A x= 0, en otro caso esta variable sigue una distribucin binomial puntual, con P (x = 1) = p y P (x = 0) = 1 ! p. P Si observamos n elementos en lugar de uno y denimos la variable y = n i=1 xi , es decir, contamos el nmero de elementos en n que pertenece a la primera clase, la variable y sigue una distribucin binomial con n! pr (1 ! p)n!r . P (y = r) = r!(n ! r)! Podemos generalizar esta distribucin permitiendo G clases en lugar de dos, y llamamos p P pj = 1. al vector de probabilidades de pertenencia a las clases, p =(p1 , ..., pG )0 , donde Deniremos ahora las G variables aleatorias: 1, si la observacin pertenece al grupo j xj = j = 1, ..., G 0, en otro caso

y el resultado de una observacin es un valor del vector de G-variables x = (x1 , ..., xG )0 , que ser siempre de la forma x = (0, ..., 1, ...0)0 , ya que slamente una de las G componentes puede tomar el valor uno, el asociado a la clase observada para ese elemento. En consecuencia, los componentes de esta variable aleatoria no son independientes, ya que estn ligadas por la ecuacin
G X j =1

xj = 1.

272

CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES

Para describir el resultado de la observacin bastara con denir G ! 1 variables, como se hace en la distribucin binomial donde slo se dene una variable cuando hay dos clases, ya que el valor de la ltima variable queda jada al conocer las restantes. Sin embargo, con ms de dos clases es constumbre trabajar con las G variables y la distribucin de la variable multivariante as denida se denomina multinomial puntual. Tiene como funcin de probabilidades Y x xG 1 P (x1 , .., xG ) = px ...p = pj j 1 G

En efecto, como slo una de las xj es distinta de cero, la probabilidad de que la j-sima sea uno es precisamente pj , la probabilidad de que el elemento observado pertenezca a la clase j. Generalizando esta distribucin, sea (x1 , ..., xn ) una muestra de n valores de esta variable multinomial puntual que resulta al clasicar n elementos de una muestra en las G clases. Se denomina distribucin multinomial a la de la variable suma: n X y= xi
i=1

que indica el nmero de elementos en la muestra que corresponden a cada una de las clases. Los componentes de esta variable, y =(y1 , ..., yG )0 , representan las frecuencias observadas de cada clase y podrn tomar los valores yi = 0, 1, ...n, pero estn sujetos a la restriccin: X yi = n, (9.21)

y su funcin de probabilidad ser:

P (y1 = n1 , .., yG = nG ) =

P donde ni = n. El trmino combinatorio tiene en cuenta las permutaciones de n elementos cuando hay n1 , ..., nG repetidos. Se comprueba que E (y) =np = y y 1 V ar(y) =n diag (p) ! pp0 = diag (y )! y y 0 n donde diag (p) es una matriz cuadrada con los elementos de p en la diagonal y ceros fuera de ella. Esta matriz es singular ya que los elementos de y estn ligados por la ecuacin de restriccin (9.21). Es fcil comprobar que las distribuciones marginales son binomiales, con: E [yj ] = npj , DT [yj ] = q pj (1 ! pj ).

n! nG 1 pn 1 ...pG n1 !...nG !

Adems, cualquier distribucin condicionada es multinomial. Por ejemplo, la de G ! 1 variables cuando yG toma el valor jo nG es una multinomial en las G ! 1 variables restantes con tamao muestral n0 = n ! nG . La distribucin condicionada de y1 , y2 cuando y3 = n3 , ..., yG = nG es una binomial, con n0 = n ! n3 ! n4 ! ... ! nG , etc.

9.5. LA DISTRIBUCIN DE DIRICHLET

273

Ejemplo 9.3 En un proceso de control de calidad los elementos pueden tener tres tipos de defectos: leves (A1 ), medios (A2 ), graves (A3 ) y se conoce que entre los elementos con defectos la probabilidad de estos errores es p1 = P (A1 ) = 0, 7; p2 = P (A2 ) = 0, 2; y p3 = P (A3 ) = 0, 1. Calcular la probabilidad de que en los prximos tres elementos defectuosos haya exactamente uno con un defecto grave. Los defectos posibles en los tres siguientes elementos son, sin tener en cuenta el orden de aparicin : A1 A1 A3 ; A1 A2 A3 ; A2 A2 A3 y sus probabilidades segn la distribucin multinomial sern: 3! 0, 72 0, 20 0, 1 = 0, 147 2!0!1! 3! P (x1 = 1, x2 = 1, x3 = 1) = 0, 7 0, 2 0, 1 = 0, 084 1!1!1! 3! P (x1 = 0, x2 = 2, x3 = 1) = 0, 70 0, 22 0, 1 = 0, 012 0!2!1! P (x1 = 2, x2 = 0, x3 = 1) = Luego:

P (x3 = 1) = 0, 147 + 0, 084 + 0, 012 = 0, 243 Este resultado puede tambin obtenerse considerando la Binomial (A3 A3 ) con probabilidades (0, 9; 0, 1) y: 3 1 0, 1 + 0, 92 = 0, 243

P (x3 = 1) =

9.5

LA DISTRIBUCIN DE DIRICHLET

La distribucin de Dirichlet se introduce para representar variables que toman valores entre cero y uno y cuya suma es igual a la unidad. Estos datos se conocen como datos de proporciones (compositional data en ingls). Por ejemplo, supongamos que investigamos el peso relativo que los consumidores asignan a un conjunto de atributos de calidad, y que las evaluaciones de la importancia de los atributos se realizan en una escala de cero a uno. Por ejemplo, con tres atributos un cliente puede dar las valoraciones (0.6, 0,3, 01) indicando que el primer atributo tiene el 60% del peso, el segundo el 30% y el tercero el 10%. Otros ejemplos de este tipo de datos son la proporcin de tiempo invertido en ciertas actividades o la composicin en % de las distintas sustancias que contienen un grupo de productos. En todos estos casos los datos son vectores de variables continuas x =(x1 , ..., xG )0 tales que, por construccin, 0 # xj # 1 y existe la ecuacin de restriccin:
G X j =1

xj = 1.

274

CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES

Una distribucin apropiada para representar este tipo de situaciones es la distribucin de Dirichlet, cuya funcin de densidad es: f (x1 , ..., xG ) = $(#0 ) #G !1 1 !1 x# ...xG 1 $(#1 )$(#2 )...$(#G )

donde $(.) es la funcin gamma y # = (#1 , ..., #G )0 es el vector de parmetros que caracteriza la distribucin, y #0 = #0 1 = Se demuestra que E (x) = #/#0 = x , por tanto, los parmetros #j indican la esperanza relativa de cada componente y V ar(x) = 1 1 1 ( diag (#)! 2 ##0 ). (#0 + 1) #0 #0 #j (#0 ! #j ) . #2 0 (#0 + 1)
G X j =1

#j .

Esta expresin indica que la varianza de cada componente es: var(xj ) =

y vemos que el parmetro #0 determina la varianza de los componentes y que estas varianzas decrecen rpidamente con #0 . Las variables de Dirichlet, al igual que las multinomiales, estn ligadas por una ecuacin de restriccin, con lo que no son linealmente independientes y su matriz de covarianzas ser singular. Las covarianzas entre dos componentes son: #j #i cov (xi xj ) = ! 2 , #0 (#0 + 1) y las covarianzas tambin disminuyen con #0 , pero son mayores cuanto mayores sean las esperanzas de las variables. El lector puede apreciar la similitud entre las frmulas de las probabilidades, medias y varianzas para la multinomial y la Dirichlet. Esta similitud proviene de que en ambos casos clasicamos el resultado en G grupos. La diferencia es que en el caso multinomial contamos cuantas observaciones de n aparecen de cada grupo, mientras que en el de Dirichlet medimos la proporcin que un elemento contiene de la cada clase. En la distribucin de Dirichlet el parmetro #0 tiene un papel similar al tamao muestral y los cocientes #j / #0 a las probabilidades.

9.6

LA NORMAL k-DIMENSIONAL

La distribucin normal escalar tiene como funcin de densidad: f (x) = () 2 )!1/2 (2,)!1/2 exp !(1/2)(x ! )2 ) !2 .

9.6. LA NORMAL K-DIMENSIONAL

275

Figura 9.1: Representacin de la distribucin Normal bivariante y sus marginales. y escribimos x + N (, ) 2 ) para expresar que x tiene distribucin normal con media y varianza ) 2 . Generalizando esta funcin, diremos que un vector x sigue una distribucin normal p!dimensional si su funcin de densidad es: (9.22) f (x) = |V|!1/2 (2, )!p/2 exp !(1/2)(x ! )0 V!1 (x ! ) 9.1 se muestra el aspecto de una Normal bivariante con = (0, 0) y V = " En la gura 1 " 1/ 3 , y sus distribuciones marginales. 1/ 3 1 Escribiremos que x +Np (, V). Las propiedades principales de la normal multivariante son: 1. La distribucin es simtrica alrededor de . La simetria se comprueba sustituyendo en la densidad x por a y observando que f ( + a) =f ( ! a). 2. La distribucin tiene un nico mximo en . Al ser V denida positiva el trmino del exponente (x ! )0 V!1 (x ! ) es siempre positivo, y la densidad f (x) ser mxima cuando dicho trmino sea cero, lo que ocurre para x = . 3. La media del vector aleatorio normal es y su matriz de varianzas y covarianzas es V. Estas propiedades, que pueden demostrarse rigurosamente, se deducen de la comporacin de las densidades univariante y multivariante. 4. Si p variables aleatorias tienen distribucin conjunta normal y estn incorreladas son independientes. La comprobacin de esta propiedad consiste en tomar en (9.22) la matriz V diagonal y comprobar que entonces f (x) = f (x1 ), ..., f (xp ).

276

CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES

5. Cualquier vector x normal p!dimensional con matriz V no singular puede convertirse mediante una transformacin lineal en un vector z normal p!dimensional con vector de medias 0 y matriz de varianzas y covarianzas igual a la identidad (I). Llamaremos normal p!dimensional estndar a la densidad de z, que vendr dada por: 1 1 1 0 1 2 p (9.23) f (z) = exp ! z z = !i=1 exp ! zi (2, )p/2 2 (2, )1/2 2 La demostracin de esta propiedad es la siguiente: al ser V denida positiva existe una matriz cuadrada A simtrica que consideramos su raz cuadrada y verica: V = AA Deniendo una nueva variable: z = A!1 (x ! ) entonces x = + Az y segn (9.14) la funcin de densidad de z es fz (z) = fx ( + Az) |A| y utilizando AV!1 A = I, se obtiene (??) Por tanto, cualquier vector de variables normales x en <p puede transformarse en otro vector de <p de variables normales independientes y de varianza unidad. 6. Las distribuciones marginales son normales. Si las variables son independientes la comprobacin de esta propiedad es inmediata. La demostracin general puede verse, por ejemplo, en Mardia et al (1979). 7. Cualquier subconjunto de h < p variables es normal h!dimensional. (9.25) (9.24)

Es una extensin del la propiedad anterior y se demuestra analogamente.

8. Si y es (k 1), k # p, el vector y = Ax, donde A es una matriz (k p), es normal k !dimensional. En particular, cualquier variable escalar y = a0 x, (siendo a0 un vector 1 p no nulo) tiene distribucin normal. La demostracin puede verse, por ejemplo, en Mardia et al (1979). 9. Al cortar con hiperplanos paralelos al denido por las p variables que forman la variable vectorial, x, se obtienen las curvas de nivel, cuya ecuacin es: (x ! )0 V!1 (x ! ) = cte. Las curvas de nivel son, por tanto, elipsoides, y denen una medida de la distancia de un punto al centro de la distribucin. Esta medida ha aparecido ya en la descripcin de datos del captulo 3 donde estudiamos su interpretacin. Se denomina distancia de Mahalanobis y la representaremos por : D2 = (x ! )0 V!1 (x ! ) (9.26)

9.6. LA NORMAL K-DIMENSIONAL

277

Como ilustracin, consideremos el caso ms simple de dos distribuciones univariantes indicado en la gura 13.3. La observacin x=3, indicada con una X, en el grco, esta con la distancia euclidea ms cerca del centro de la distribucin A, que es cero, que del centro de la B que es diez. Sin embargo, con la distancia de Mahalanobis la distancia del punto X a la distribucin A que tiene desviacin tpica uno es (3 ! 0)2 /1, mientras que la distancia al centro de la B, que tiene desviacin tpica diez, es (3 ! 10)2 /102 = 0, 72 y el punto X est mucho ms cerca, con esta distancia, de la distribucin B. Esto es consecuencia de que es mucho ms probable que este punto provenga de la distribucin B que de la A. 10. La distancia de Mahalanobis se distribuye como una +2 con p grados de libertad. Para comprobarlo, hagamos la transformacin (9.25) y como V!1 = A!1 A!1 se obtiene que X D 2 = z0 z = z2 i donde cada zi es N (0, 1). Por tanto D2 + +2 p.
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -20 X B -15 -10 -5 0 5 10 15 20 25 30 A

Figura 9.2: El punto X esta ms cerca, con la distancia euclidea del centro de la distribucin A pero con la distancia de Mahalanobis lo est de la B

9.6.1

Distribuciones condicionadas

Particionemos el vector aleatorio en dos partes, x = (x1 , x2 )0 , donde x1 es un vector de dimensin p1 y x2 de dimensin p2 , siendo p1 + p2 = p. Particionemos tambin la matriz de covarianzas del vector x en bloques asociados a estos dos vectores, como: V11 V12 V= (9.27) V21 V22

278

CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES

donde, por ejemplo, V11 , la matriz de covarianzas del vector x1 , es cuadrada de orden p1 , V12 , la matriz de covarianzas entre los vectores x1 y x2 tiene dimensiones p1 p2 , y V22 , la matriz de covarianzas del vector x2 , es cuadrada de orden p2 . Queremos calcular la distribucin condicionada del vector x1 dados los valores del vector x2 . Vamos a demostrar que esta distribucin es normal, con media:
!1 E [x1 |x2 ] = 1 + V12 V22 (x2 ! 2 )

(9.28)

y matriz de varianzas y covarianzas:


!1 V ar [x1 |x2 ] = V11 !V12 V22 V21

(9.29)

Para interpretar estas expresiones supongamos primero el caso bivariante donde ambas variables son escalares de media cero. Entonces la media se reduce a
1 E [x1 |x2 ] = ) 12 ) ! 22 x2

que es la expresin habitual de la recta de regresin con pendiente % = ) 12 /) 22 . La expresin de la varianza condicionada alrededor de la recta de regresin es
2 2 var [x1 |x2 ] = ) 11 !) 2 12 /) 22 = ) 1 (1 ! ' ) /2 1/2 donde ' = ) 12 /) 1 22 ) 11 es el coeciente de correlacin entre las variables. Esta expresin indica que la variabilidad de la distribucin condicionada es siempre menor que la de la marginal y la reduccin de variabilidad es tanto mayor cuanto mayor sea '2 . Supongamos ahora que x1 es escalar pero x2 es un vector. La expresin de la media condicionada proporciona la ecuacin de regresin mltiple

E [x1 |x2 ] = 1 + " 0 (x2 ! 2 )


!1 donde " = V22 V21 siendo V21 el vector de covarianzas entre x1 y los componentes de x2 . La varianza de esta distribucin condicionada es 2 var [x1 |x2 ] = ) 2 1 (1 ! R ) !1 donde R2 = V12 V22 V21 /) 2 1 es el coeciente de correlacin mltiple. En el caso general, estas expresiones corresponden al conjunto de regresiones mltiples de los componentes de x1 sobre las variables x2 , que se conoce como regresin multivariante. Demostracin La expresin de la distribucin condicionada es

f (x1 |x2 ) =

f (x1 , x2 ) f (x2 )

Como las distribuciones f (x1 , x2 ) y f (x2 ) son normales multivariantes al hacer el cociente quedar un cociente entre determinantes y la diferencia entre los exponentes de las normales. Comencemos calculando el exponente resultante. Ser
!1 (x ! )0 V!1 (x ! ) ! (x2 ! 2 )0 V22 (x2 ! 2 )

(9.30)

9.6. LA NORMAL K-DIMENSIONAL

279

Vamos a descomponer la primera forma cuadrtica en los trminos correspondientes a x1 y x2 . Para ello particionaremos (x ! ) como (x1 ! 1 , x2 ! 2 )0 , particionaremos V como en (9.27), y utilizaremos la expresin de la inversa de una matriz particionada (vase la seccin 2.2.3). Realizando el producto se obtiene.
!1 (x2 ! 2 ) ! (x ! )0 V!1 (x ! ) = (x1 ! 1 )0 B!1 (x1 ! 1 ) ! (x1 ! 1 )0 B!1 V12 V12 !1 !1 !1 ! (x2 ! 2 ) V22 V21 B (x1 ! 1 ) + (x2 ! 2 ) V22 (x2 ! 2 ) ! 1 !1 !1 + (x2 ! 2 )0 A! 22 A21 B A12 A22 (x2 ! 2 ) !1 donde B = V11 !V12 V22 V21 , que es la expresin utilizada en (9.29). El cuarto trmino de esta expresin se cancela en la diferencia (9.30), y los otros cuatro pueden agruparse como 0 !1 !1 x1 ! 1 ! V12 V22 (x2 ! 2 ) B!1 x1 ! 1 ! V12 V22 (x2 ! 2 ) .

Esta expresin muestra que el exponente de la distribucin corresponde a una variable normal con vector de medias y matriz de covarianzas igules a los indicados en (9.28) y (9.29). Vamos a comprobar que el cociente de determinantes conduce tambin matriz a la misma !1 de covarianzas. Utilizando que, segn la seccin 2.3.5, |V| = |V22 | V11 !V12 V22 V21 = |V22 | |B|. Como en el denominador tenemos |V22 | , el cociente proporciona el trmino nico |B| . Finalmente, quedar en trmino (2, )p/2!p2 /2 =(2, )p1 /2 . En conclusin, la expresin resultante ser la de la funcin de densidad normal multivariante de orden p1 , con vector de medias dado por (9.28) y matriz de covarianzas dada por (9.29). Ejemplo 9.4 La distribucin de los gastos en dos productos (x, y ) de un grupo de consumidores sigue una distribucin normal bivariante con medias respectivas 2 y 3 euros y matriz de varianzas y covarianzas 1 0, 8 0, 8 2 Calcular la distribucin condicionada de los gastos en el producto y para los consumidores que gastan 4 euros en el producto x. La distribucin condicionada f (y/x = 4) = f (4, y ) /fx (4). La distribucin marginal de x es normal, N (2, 1). Los trminos de la distribucin conjunta f (x, y ) sern: p 2 2 1/2 ) 1 ) 2 1 ! %2 = ) 1 ) 2 1 ! %2 1 )2 !%) 2 ) 1 !1 2 V = 2 2 2 ) !%) ) ) )2 ) (1 ! % 2 1 1 1 2 " 2 donde en este ejemplo ) 2 1 = 1, ) 2 = 2, y % = 0, 8/ 2 = 0, 566. El exponente de la normal bivariante f (x, y ) ser: |V|1/2 = 1 ! 2 (1 ! %2 ) ( x ! 1 )1 2 y ! 2 )2 2 (x ! 1 ) (y ! 2 ) ! 2% )1 )2 ) A 2

=!

280 En consecuencia, tendremos:

CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES

donde el trmino resultante en el exponente, que llamaremos B , ser: 1 B = 1 ! %2 " x ! 1 )1 2

(2,)!1 exp ! A 2 f (y | x) = = 2 !1 !1 1 x!1 ) 1 (2, ) exp ! 2 $1 1 1 1 p " exp ! B = 2 ) 2 1 ! %2 2, )1)2 1 ! %2

!1

# 2 2 y ! 2 (x ! 1 ) (y ! 2 ) x ! 1 + ! 2% ! 1 ! %2 )2 )1 )2 )1 " # 2 1 x ! 1 2 y ! 2 2 !% = 1 ! %2 )2 )1 2 1 )2 B = y ! 2 + % (x ! 1 ) 2 )2 )1 2 (1 ! % )

Este exponente corresponde a una distribucin normal con media: E [y | x] = 2 + % que es la recta de regresin, y desviacin tpica: DT [y | x] = ) 2 Para x = 4. 0, 8 " 2 p 1 ! %2 )2 (x ! 1 ) )1

E [y | 4] = 3 +

" 2 (4 ! 2) = 4, 6. 1

Como hay una correlacin positiva de 0,566 entre los gastos en ambos productos los consumidores que gastan ms en uno tambin en promedio tienen gastos medios ms altos en el otro. La variabilidad de la disribucin condicionada ser: 2 V ar [y | 4] = ) 2 = 2 (1 ! 0, 32) = 1, 36 2 1!%

y ser menor que la varianza de la marginal porque cuando condicionamos tenemos ms informacin.

9.7. DISTRIBUCIONES ELPTICAS

281

9.7

DISTRIBUCIONES ELPTICAS

La distribucin normal multivariante es un caso particular de una familia de distribuciones muy utilizadas en el anlisis multivariante: las distribuciones elpticas. Para introducirlas, consideremos primero el caso ms simple de las distribuciones esfricas

9.7.1

Distribuciones esfricas

Diremos que una variable vectorial x = (x1 , ..., xp )0 sigue una distribucin esfrica funP si su 2 cin de densidad depende de la variable slo por la distancia eucldea x0 x = p x . Esta i=1 i propiedad implica que: 1. Los contornos de equiprobabilidad de la distribucin son esferas con centro en el origen. 2. La distribucin es invariante ante rotaciones. En efecto, si denimos una nueva variables y = Cx, donde C es una matriz ortogonal, la densidad de la variable y es la misma que la de la variable x. Un ejemplo de distribucin esfrica, estudiado en la seccin anterior, es la funcin de densidad Normal estndar multivariante, cuya densidad es f (x) = 1 1 1 1 exp(! x0 x) = !p exp(! x2 ) i=1 p/ 2 1 / 2 (2, ) 2 (2, ) 2 i

Figura 9.3: Densidad de la normal estandar bivariante Esta densidad est representada en la gura 9.3, y las dos variables escalares que forman el vector son independientes. Este propiedad es caracterstica de la normal, ya que, habitualmente, los componentes de las distribuciones esfricas son dependientes. Por ejemplo, la

282

CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES

distribucin multivariante de Cauchy, dada por $ p+1 2 f (x) = (p+1) (1 + x0 x)!(p+1)/2 /2 ,

(9.31)

tiene colas ms pesadas que la normal, como en el caso univariante, y es fcil comprobar que esta funcin no puede escribirse como producto de distribuciones univariantes de Cauchy, por lo que sus componentes aunque estn incorrelados no son independientes. Otra distribucin esfrica importante es la doble exponencial. En el caso bivariante esta distribucin tiene funcin de densidad f (x) = " 1 exp(! x0 x) 2,

y aunque la funcin de densidad puede parecer similar a la normal tiene colas mucho ms pesadas. La gura 9.4 muestra esta distribucin.

Figura 9.4: Dendidad de la doble exponencial bivariante

9.7.2

Distribuciones elpticas

Si la variable x sigue una distribucin esfrica y A es una matriz cuadrada de dimensin p y m un vector de dimensin p, la variable y = m + Ax (9.32)

se dice que sigue una distribucin elptica. Como una variable esfrica tiene media cero y matriz de covarianzas cI, es inmediato que una variable elptica tiene media m y matriz de covarianzas V =cAA0 . Las distribuciones elpticas tienen las propiedades siguientes:

9.8. (*)LA DISTRIBUCIN DE WISHART

283

1. Su funcin de densidad depende de la variable a travs de la distancia de Mahalanobis: (y ! m)0 V!1 (y ! m) 2. Los contornos de equiprobabilidad de la distribucin son elipsoides con centro en el punto m. La distribucin normal multivariante general es el miembro ms conocido de las distribuciones elpticas. Otro miembro de esta familia es la distribucin t multivariante. Aunque existen distintas versiones de esta distribucin, la ms habitual se construye dividiendo cada componente de un vector de variables normales multivariantes Np (m, V) por la misma variable escalar: la raiz cuadrada de una +2 dividida por sus grados de libertad. Es obvio, por construccin, que las marginales sern t de Student, y se obtiene que la funcin de densidad de la variable multivariante resultante es f (y ) =
p) !(v+p)/2 $( (v+ ) !1/2 2 1 + (y ! m)0 V!1 (y ! m) v |V | p/ 2 (, v ) $( 2 )

(9.33)

donde el escalar v se denomina grados de libertad. Observemos que si hacemos v = 1, m = 0, V = I, obtenemos la distribucin de Cauchy multivariante (9.31) que tiene simetra esfrica. Para v > 2 la media de la distribucin es m y la varianza v/(v ! 2)V. Las distribuciones elpticas comparten muchas propiedades de la normal: las distribuciones marginales y condicionadas son tambin elpticas, y las medias condicionadas son funcin lineal de las variables condicionantes. Sin embargo, la normal tiene la propiedad de que es el nico miembro de la familia donde si la matriz de covarianzas es diagonal todas las variables componentes son independientes. El lector interesado en la demostracin de este resultado puede encontrarlo en Muirhead (1982).

9.8
9.8.1

(*)LA DISTRIBUCIN DE WISHART


Concepto

La distribucin de Wishart se utiliza para representar la incertidumbre respecto a una matriz de varianzas y covarianzas de variables normales multivariantes. En el caso escalar, la distribucin que representa esta incertidumbre es la ji-cuadrado de Pearson, +2 , y la distribucin de Wishart estndar puede considerarse como una generalizacin multivariante de esta distribucin. Recordemos los resultados univariantes: Si (x1 , ...xm ) es un conjunto de variables aleatoP m !2 2 2 rias normales independientes N (0, ) ), la suma estandarizada de sus cuadrados, ) i=1 xi , P m 2 2 2 2 sigue una distribucin +m . Tambin decimos que w = i=1 xi sigue una distribucin ) +m . La de una distribucin +2 m es un caso particular de la Gamma con parmetros 1 densidad m , y tiene funcin de densidad dada por 2 2 1 2 !1 2 2 m 2 f (+ ) = k (+ ) exp ! + , (9.34) 2

284

CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES Pm


i=1

donde k es una constante. Por otro 1 lado, la distribucin de la variable w = m Gamma con parmetros 2$ ; , y su densidad tendr la forma: 2 2 2 ! m m 1 ! 1 ! 2 2 f (w) = k ) w 2 exp ! ) w . 2

x2 i ser la

(9.35)

Consideremos ahora un conjunto de m vectores aleatorios, (x1 , ..., xm ), de dimensin p con la misma distribucin Np (0, I). La estimacin de su matriz de varianzas y covarianzas 0 se obtendr de %m i=1 xi xi /m, y el numerador de esta expresin
0 W = %m i=1 xi xi

(9.36)

que es una matriz cuadrada p p, simtrica y denida positiva, decimos que sigue una distribucin Wishart con m grados de libertad. Esta armacin debe interpretarse en el sentido de que la distribucin conjunta de los 1 p(p + 1) elementos distintos de W es 2 f (w11 , ....., wpp ) = c|W|
(m!p!1)/2

1 exp ! trW 2

(9.37)

donde c es una constante para que la funcin integre a uno (vase Seber, 1984). Observemos que para p = 1 se obtiene (9.34). Escribiremos W + Wp (m), donde p indica que se trata de la distribucin de los elementos de una matriz cuadrada y simtrica de orden p, y m son los grados de libertad. Observemos que esta distribucin depende nicamente de las dos medidas escalares del tamao de la matriz: la traza y el determinante. Por tanto, todas las combinaciones de elementos de la matriz que conduzcan a los mismos valores de estas medidas de tamao tienen la misma probabilidad. Consideremos ahora m vectores aleatorios (x1 , ..., xm ) de una distribucin Np (0, %), donde hemos utilizado el smbolo % en lugar de V para representar la matriz de covarianzas para evitar confusiones cuando esta distribucin se utilice en el anlisis bayesiano del captulo siguiente. La distribucin de los elementos de la matriz
0 W = %m i=1 xi xi

(9.38)

es la distribucin Wishart con m grados de libertad y matriz de parmetros %, dada por f (w11 , ....., wpp ) = c|%|
!m/2

|W|

(m!p!1)/2

1 !1 exp ! tr% W . 2

(9.39)

En general, si una matriz cuadrada y simtrica sigue la distribucin (9.39), donde % es una matriz simtrica (p p) no singular denida positiva de componentes constantes, diremos que sigue la distribucin Wishart con m grados de libertad y matriz de parmetros %, y escribiremos W + Wp (m, %). Observemos que para p = 1 esta expresin se reduce (9.35), y si hacemos % = 1, la densidad (9.39) se reduce a (9.34). La gura 9.5 presenta un ejemplo de esta distribucin

9.8. (*)LA DISTRIBUCIN DE WISHART

285

9.8.2

Propiedades de la distribucin

La distribucin de Wishart tiene las propiedades siguientes: 1. La esperanza de la distribucin es: E [W] = m% lo que implica que W/m tiene esperanza %. 2. La suma de dos distribuciones +2 independientes es otra distribucin +2 con grados de libertad la suma de ambas. Anlogamente, si W1 + Wp (m1 , %) y W2 + Wp (m2 , %) son independientes, entonces W1 +W2 + Wp (m1 + m2 , %). Este resultado es consecuencia inmediata de la denicin de la distribucin por (9.34). 3. Si A es una matriz h p de constantes, y W + Wp (m, %), la distribucin de AWA0 + Wh(m, A!1 %A0!1 ). En efecto, por (9.38) la variable AW0 A ser A
m X i=1

xi x0i A0

m X i=1

0 yi yi

donde ahora yi es N (0, A%A0 ), y aplicando la denicin de la distribucin Wishart se obtiene el resultado. 4. Si S es la matriz de varianzas y covarianzas muestral S= 1 0 X PX n

1 110 es idempotente, entonces donde P = I ! n

nS +Wp (n ! 1, %). Esta expresin indica que si denimos el estimador b= S 1 n 0 X PX = S (n ! 1) (n ! 1)

b ser un estimador centrado para la matriz de varianzas. su esperanza ser %, y S b + Wp (n ! 1, %). Este resultado es anlogo al del Podemos escribir que (n ! 1)S 2 caso escalar: (n ! 1)s b , donde s b2 es el estimador centrado de la varianza, sigue una distribucin ) 2 +2 n!1 .

286

CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES

9.9

LA T 2 DE HOTELLING

Si x es un vector aleatorio Np (, V), la variable (x ! )0 V!1 (x ! ) es una +2 con p b , la matriz de varianzas muestral grados de libertad. Si sustituimos V por su estimacin S dividiendo por n ! 1, la distribucin que se obtiene se denomina T 2 de Hotelling. En general, b + Wp (n ! 1, V), la distribucin de la variable escalar: si x + Np (, V) y (n ! 1)S b !1 (x ! ) T 2 = (x ! )0 S

(9.40)

que representa la distancia de Mahalanobis entre una variable y su media poblacional, pero calculada con la matriz de covarianzas estimada, se denomina distribucin T 2 de Hotelling con p y n ! 1 grados de libertad. Diremos que T 2 + T 2 (p, n ! 1). Asintticamente, como b * V, T 2 converge a la distancia de Mahalanobis y la distribucin de Hotelling a la disS tribucin +2 p . Por tanto, para n grande, la distribucin de Hotelling es muy similar a una 2 +p . Para tamaos muestrales ms pequeos tiene una mayor variabilidad que la +2 p , como b , en lugar de la consecuencia de la mayor incertidumbre al utilizar la matriz estimada, S matriz de covarianzas verdadera, V. 1 Si x es la media muestral, como x + Np (, n V), la distribucin de !!1 b S b !1 (x (x ! ) (x ! ) = n(x ! )0 S ! ) n
0

es tambin una T 2 de Hotelling. Observemos que si p = 1, la T 2 se reduce a: T2 = n(x ! )2 = t2 s b2 (9.41)

y coincide con el estadstico t de Student. Por tanto T 2 (1, m) = t2 m. La distribucin de Hotelling no se tabula, ya que con una simple transformacin se reduce a la distribucin F del anlisis de la varianza de Fisher. Se demuestra (vase Seber, 1984 o Muirhead, 1982) que: Fp,n!p = n!p 2 T (p, n ! 1) p(n ! 1) (9.42)

lo que permite calcular la distribucin de T 2 en funcin de las tablas de la distribucin F . Este resultado es consistente con (9.42), ya que, asintticamente, pFp,n!p tiende a una distribucin +2 p . La gura (??) muestra un ejemplo de la distribucin de Hotelling comparada con la +2 . Vemos que para tamao muestral muy pequeo, n = 15, las colas de la distribucin p son ms planas que las de la ji-cuadrado indicando la mayor incertidumbre existente, pero para n=50, ambas son ya muy similares. La aproximacin depende del cociente n/p, y si este es grande, mayor de 25, podemos aproximar bien la distribucin de Hotelling mediante la ji-cuadrado.

9.9. LA T 2 DE HOTELLING

287

Figura 9.5: Distribucin Wishart dibujada en funcin de la traza y el determinante

0.25 X2(3) T(3,49) 0.2

T(3,14) 0.15

0.1

0.05

T(3,14 0 0 2 4 6 8 10 12 14

Figura 9.6: La distribucin de Hotelling para dos valores del tamao muestral y la distribucin ji-cuadrado.

288

CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES

9.10

DISTRIBUCIONES MEZCLADAS

Los datos multivariantes son frecuentemente heterogneos. Por ejemplo, si observamos el gasto en distintos productos en una muestra de consumidores, es esperable que haya grupos de consumidores con patrones de gasto distintos: los consumidores sin hijos respecto a que las que los tienen, o los jvenes respecto a los ancianos. En general, si una poblacin donde hemos denido una variable aleatoria vectorial, x, puede subdividirse en G estratos ms P homogneos y llamamos , i a la proporcin de elementos en el estrato i ( G i=1 , i = 1) y fi (x) a la funcin de densidad de la variable en el estrato i, la funcin de densidad en toda la poblacin vendr dada por la mezcla de densidades

f (x) =

G X i=1

, i fi (x).

(9.43)

Para justicar esta distribucin, ntese que observar un elemento al azar de esa poblacin puede plantearse en dos etapas. En la primera, seleccionamos el estrato al azar mediante una variable escalar, g, que toma los valores 1, ..., G con probabilidades , 1 , ..., , G . En la segunda, seleccionamos aleatoriamente el elemento de la poblacin seleccionada, fi (x). La probabilidad de que el elemento seleccionado tome un valor x $ A ser

P (x $ A) =

G X i=1

P (x $ A/g = i)P (g = i)

y llamando , i = P (g = i), la distribucin marginal de la variable x cuando no se conoce la variable g viene dada por (9.43). Las guras 9.7 y ?? presentan ejemplos de distribuciones obtenidas como mezclas de dos distribuciones univariantes con proporcion de mezcla 50% (, 1 = , 2 = .5). En la gura 9.7 las dos distribuciones de partida son normales con la misma media y diferente varianza. La distribucin resultante tiene la misma media y una varianza que es el promedio de las varianzas de las distribuciones. Observemos que la distribucin mezclada no es normal. En la gura ?? las distribuciones tienen distinta media y varianza. Como comprobaremos ahora la media es en este caso el promedio de las medias pero la varianza tiene una expresin ms complicada porque adems de la variabilidad de las distribuciones con respecto a sus medias se aade la variabilidad debida a las diferencias entre las medias.

9.10. DISTRIBUCIONES MEZCLADAS


0.4

289

0.35

N(0,1)

0.3

0.25

0.2

0.15

M ez cla n(2,2)

0.1

0.05

0 -10

-8

-6

-4

-2

10

Mezcla al 50% de dos distribuciones normales con distinta media y varianza Los parmetros de la distribucin de la variable mezclada (, V), o marginal, se obtienen fcilmente conocidos las medias i y matrices de varianzas Vi de las distribuciones que generan la mezcla, o condicionadas. 1. La media de la distribucin mezclada o media de la distribucin marginal es =
G X i=1

, i i

(9.44)

La demostracin de este resultado es inmediato aplicando las propiedades de la esperanza condicional (9.19). Introduciendo la variable de clasicacin g, tenemos que, como E (x/g =i) = i E (x) =Eg Ex/g (x) =Eg (i ) =
G X i=1

, i i

2. La matriz de varianzas y covarianzas de la distribucin marginal viene dada por V=


G X i=1

, i Vi +

Para demostrar este resultado, introduciendo que V =E (x ! )(x ! )0 = E (x ! i + i ! )(x ! i + i ! )0

G X i=1

, i (i ! )(i ! )0

(9.45)

y aplicando de nuevo las propiedades de la esperanza condicional (9.19), obtenemos que Ex/y (x ! i + i ! )(x ! i + i ! )0 = Vi + (i ! )(i ! )0

y tomando ahora la esperanza de esta cantidad respecto a la distribucin de g se obtiene el resultado deseado.

290

CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES

La expresin (9.45) puede interpretarse como una descomposicin de la variabilidad similar a la del anlisis de la varianza. La variabilidad total, que es la matriz P de varianzas y covarianzas de la marginal, V, se descompone en una variabilidad explicada, G i=1 , i (i ! )(i ! de las distribuciones condicionadas )0 , que tiene en cuenta las diferencias entre las medias PG i y la marginal, , y una variabilidad no explicada i=1 , i Vi , que es la variabilidad con respecto a las distribuciones condicionadas. Por ejemplo, en el caso escalar representado en la gura ??, esta expresin se reduce a : )2 =
G X i=1

,i)2 i +

G X i=1

, i (i ! )2

y descompone la varianza de los datos en sus fuentes de variabilidad. En la gura ?? las medias son cero y dos y las varianzas uno y cuatro, y tenemos que ) 2 = .5(1) + .5(4)+.5(0 ! 1)2 + .5(2 ! 1)2 = 3.5 que corresponde a una desviacin tpica de 1.87, que est de acuerdo con la distribucin de la gura ??. En el caso multivariante las mezclas de distribuciones normales pueden representar una gama muy amplia de distribuciones. La gura 9.8 presenta un ejemplo.

9.11

Lecturas complementarias

El lector puede encontrar exposiciones ms detalladas y ms ejemplos de la teora aqu expuesta en la mayora de los textos bsicos de estadstica y en los primeros captulos de la mayora de los textos multivariantes. En ingls, Flury (1997), Johnson y Wichern (1998) y Mardia et al (1979) son buenas exposiciones en orden creciente de complejidad matemtica. Existen otras distribuciones ms exibles que la Dirichlet para modelar datos multivariantes de proporciones. Aitchinson (1986) es una buena referencia de distintas distribuciones que pueden usarse para este objetivo. El lector interesado en ampliar las propiedades de las propiedades elpticas puede acudir a Flury (1997), que es una excelente introduccin, y a Muirhead (1982). Otras buenas referencias sobre las distribuciones aqu expuestas son Anderson (1984), Seber (1984) y Johnson y Kotz (1970). Patel y Read (1982) se concentran en la distribucin normal. Las distribuciones mezcladas han ido teniendo un papel cada vez mayor en Estadstica, tanto desde el punto de vista clsico como Bayesiano. Un referencia bsica es Titterington at al (1987). Muchos de los textos de cluster, que comentaremos en el captulo 14, incluyen el estudio de estas distribuciones.

9.11. LECTURAS COMPLEMENTARIAS

291

0.4

0.35 N(0,1) 0.3

0.25

0.2 M ezc la

0.15

0.1

0.05 N(0,3) 0 -10 -8 -6 -4 -2 0 2 4 6 8 10

Figura 9.7: Mezcla al 50% de dos distribuciones normales con la misma media y distinta varianza

Figura 9.8: Mezcla de dos normales bivariantes en la proporcin 50% con medias (0,0) y (3,3) y distintas matrices de covarianzas.

292

CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES

Ejercicios
Ejercicio 9.1 Dada la funcin de densidad conjunta f (x, y ) = 6x denida en 0 < x < 1, 0 < y < 1 ! x, comprobar que las densidades marginales de ambas variables son f (x) = 6x(1 ! x), 0 < x < 1 y f (y ) = 3(1 ! y )2 , 0 < y < 1. Ejercicio 9.2 Comprobar que las densidades condicionadas en el ejemplo anterior son f (y |x) = 1 2x , 0 < y < 1 ! x y f (x|y ) = (1! , 0 < x < 1 ! y. (1!x) y )2 Ejercicio 9.3 Utilizar la frmula de transformaciones lineales de variables vectoriales para demostrar que si denimos la variable normal estndar como la que tiene funcin de densidad f (z) = (2, )!p/2 exp(!z0 z/2) y hacemos la transformacin x = m + Az se obtiene la expresin de la normal general. Ejercicio 9.4 Obtener las distribuciones condicionadas en la normal bivariante de media 1 ' cero y matriz de covarianzas . ' 1 Ejercicio 9.5 Demostrar en el ejercicio anterior que si ' > 1 tanto la matriz de covarianzas como la de correlacin no son denidas positivas Ejercicio 9.6 Comprobar las frmulas (9.19) y (9.20) para las esperanzas y varianzas globales de las variables del ejercicio 4.3 Ejercicio 9.7 Sea x un vector bidimensional de variables aleatorias normales incorreladas. y Pm 2 Pm 2 Escribir la funcin de densidad conjunta del vector de variables a = i=1 xi , b i=1 yi , Pm c = i=1 xi yi . Ejercicio 9.8 Calcular en el ejercicio anterior la densidad condicionada f (c|ab). Ejercicio 9.9 Demostrar que la distancia de Mahalanobis entre multinomial y P la variable 0 !1 2 su media, (y!np) Var(y) (y!np) es la distancia ji-cuadrado (yi ! npi ) /npi . Ejercicio 9.10 En la normal bivariante , demostrar que existe una matriz triangular (de l11 0 scomposicin de Cholesky) L = tal que LL0 = V. Encontrar los parmetros l21 l22 l11 , l21 , l22 como funcin de las varianzas y covarianzas de las variables. Interpretar el resultado como parmetros de las distribuciones marginales y condicionadas de las variables. Ejercicio 9.11 la descomposicin de Cholesky del ejercicio anterior a la matriz de Aplicar 9 3 covarianzas 3 4 Ejercicio 9.12 Generar muestras de una distribucin normal bivariante por el mtodo siguiente: (1) generar un valor al azar de la distribucin marginal de la primera variable; (2) generar un valor al azar de la distribucin univariante de la segunda variable dada la primera. Aplicarlo para generar valores al azar de una variable aleatoria con vector de medias = (0, 5)0 desviaciones tpicas (2,3) y correlacin 0,5.

9.11. LECTURAS COMPLEMENTARIAS

293

Ejercicio 9.13 Demostrar que el mtodo anterior es equivalente a generar dos variables aleatorias independientes de media cero y desviacin tpica unidad , z = (z1 , z2 )0 , y obtener los valores al azar de las variables mediante la transformacin x = + Lz , donde L es al matriz triangular de la descomposicin de Cholesky. Ejercicio 9.14 Demostrar que si particionamos el vector de variables y la matriz de covariV11 V12 anzas como V = , y llamamos L11 , L12 , L22 a las matrices correspondientes a la V21 V22 !1/2 descomposicin de Cholesky de esta matriz se verica que L2 V12 , L2 11 = V11 , L12 = V11 22 = !1 V22 ! V21 V11 V12 e interpretar estos resultados de acuerdo con la seccin 5.3.1 con medias i y matrices de covarEjercicio 9.15 Demostrar que si x1 , ..., xh son vectores P Ph P h 2 ianzas Vi la variable y = h c x tiene media c y covarianza i i I =1 I =1 I =1 c Vi .

Ejercicio 9.16 Cuando aumenta la dimensin del vector de datos la maldicin de la dimensin se maniesta en que cada vez hay menos densidad en una regin del espacio. Para ilustrar este problema, considere la normal estndar y calcule con tablas de la +2 la probabilidad de encontrar un valor en la esfera unidad denida por la relacin x0x # 1, cuando la dimensin de x, es p = 2, 4, 8, 16. Qu pasar al aumentar p? Ejercicio 9.17 Considere una variable normal Np (0, I), donde p = 10. Tomemos un valor al azar, x0 y construyamos la direccin que une ese punto con el centro de la distribucin. Cul es el valor esperado de la distancia entre ese punto y el centro de la distribucin?. Supongamos que ahora tomamos una muestra de 100 valores de la variable aleatoria y los proyectamos sobre la direccin anterior. Cul ser la distribucin que observamos? Cul ser la distancia esperada entre el centro de esos datos y el punto x0 ? Ejercicio 9.18 La funcin generatriz de momentos de una variable aleatoria multivariante 0 viene dada por -(t) = E (et x ), donde t es un vector de parmetros. Comprobar que para una variable normal multivariante esta funcin es -(t) = exp(t0 + t0 Vt).

Si W es Wp (m, %), la distribucin de U = W!1 se denomina distribucin Wishart invertida, escribiremos U + IWp (m, %). Su funcin de densidad es f (U) = C |%|!m/2 |U|!(m+p+1)/2 exp(!1/2 tr%!1 U!1 ) y se verica que E [U] = %!1 . m!p!1

APNDICE 9.1 La distribucin Wishart invertida

La distribucin Wishart invertida es utilizada por muchos autores para la estimacin bayesiana de matrices de covarianzas. Como es equivalente decir que si U es Wishart invertida, U + IWp (m, %) y que U!1 = W sigue una distribucin Wishart, U!1 + Wp (m, %), en este libro para simplicar, hemos optado por no utilizarla y se incluye aqu nicamente como referencia para el lector que consulte otra bibliografa.

294

CAPTULO 9. DISTRIBUCIONES MULTIVARIANTES

Captulo 10 INFERENCIA CON DATOS MULTIVARIANTES


10.1 INTRODUCCIN

En este captulo vamos a presentar una introduccin a la inferencia en modelos multivariantes. Suponemos al lector familiarizado con los conceptos bsicos de inferencia al nivel de Pea (2001). El objetivo de este captulo es repasar los resultados de estimacin y contrastes principales que sern necesarios en los temas posteriores. El lector puede encontrar en Anderson (1984), Mardia et al. (1979) o Seber (1983) presentaciones ms completas de lo aqu expuesto. Se estudia primero la estimacin de los parmetros en modelos normales multivariantes por mxima verosimilitud. En segundo lugar se presenta el mtodo de la razn de verosimilitudes, como procedimiento general para obtener contrastes con buenas propiedades en muestras grandes. Existen otros procedimientos para construir contrastes multivariantes que no revisaremos aqu, y que el lector puede encontrar en Anderson (1984). A continuacin, se presenta un contraste sobre el valor del vector de medias en una poblacin normal multivariante. Este contraste se generaliza para comprobar la igualdad de los vectores de medias de varias poblaciones normales multivariantes con la misma matriz de covarianzas, que es la herramienta principal del anlisis de la varianza multivariante. Un caso particular de este contraste es el test de valores atpicos, que puede formularse como una prueba de que una observacin proviene de una distribucin con media distinta a la del resto de los datos. Finalmente, se presentan los contrastes de normalidad conjunta de los datos y transformaciones posibles para llevarlos a la normalidad.

10.2

Fundamentos de la Estimacin Mximo Verosimil

El mtodo de mxima verosimilitud, debido a Fisher, escoge como estimadores de los parmetros aquellos valores que hacen mxima la probabilidad de que el modelo a estimar genere la muestra observada. Para precisar esta idea, supongamos que se dispone de una muestra 295

296

CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES

aleatoria simple de n elementos de una variable aleatoria p!dimensional, x, con funcin de densidad f (x | %), donde % = (!1 , ..., !r )0 es un vector de parmetros que supondremos tiene dimensin r # pn. Llamando X = (x1 , ..., xn ), a los datos muestrales, la funcin de densidad conjunta de la muestra ser, por la independencia de las observaciones: f (X | % ) =
n Y i=1

f (xi | %).

Cuando el parmetro % es conocido, esta funcin determina la probabilidad de aparicin de cada muestra. En el problema de estimacin se dispone de la muestra, pero % es desconocido. Considerando en la expresin de la densidad conjunta a % como una variable y particularizando esta funcin para los datos observados, se obtiene una funcin que llamaremos funcin de verosimilitud, `(%|X), o `(%): `(%|X) = `(%) =
n Y i=1

f (xi | %)

X fijo; % variable

(10.1)

El estimador de mxima verosimilitud, o estimador MV, es el valor de % que hace mxima la probabilidad de aparicin de los valores muestrales efectivamente observados y se obtiene calculando el valor mximo de la funcin `(%). Suponiendo que esta funcin es diferenciable y que su mximo no ocurre en un extremo de su dominio de denicin, el mximo se obtendr resolviendo el sistema de ecuaciones: & `(%) = 0 &!1 : & `(%) = 0 &!r b que satisface este sistema de ecuaciones corresponder a un mximo si la El vector % b, es denida negativa: matriz hessiana de segundas derivadas H , evaluada en % b) = H (% & 2 ` (%) &! i &!j denida negativa.
b % =%

b es el estimador de mxima verosimilitud o estimador MV de %. En la prcEn ese caso % tica suele ser ms cmodo obtener el mximo del logaritmo de la funcin de verosimilitud: L (%) = ln ` (% ) (10.2)

que llamaremos funcin soporte. Como el logaritmo es una transformacin montona, ambas funciones tienen el mismo mximo, pero trabajar con el soporte tiene dos ventajas principales. En primer lugar pasamos del producto de densidades (10.1) a la suma de sus logaritmos y la expresin resultante suele ser ms simple que la verosimilitud, con lo que resulta ms cmodo

10.3. ESTIMACIN DE LOS PARMETROS DE VARIABLES NORMALES P-DIMENSIONALES.2 obtener el mximo. En segundo lugar, al tomar logaritmos las constantes multiplicativas de la funcin de densidad, que son irrelevante para el mximo, se hacen aditivas y desaparecen al derivar, con lo que la derivada del soporte tiene siempre la misma expresin y no depende de constantes arbitrarias. En tercer lugar, el doble de la funcin soporte cambiada de signo proporciona un mtodo general para juzgar el ajuste de un modelo a los datos que se denomina desviacin : D(%) = !2L (%) y la desviacin D(%) mide la discrepancia entre el modelo y los datos. Cuanto mayor sea el soporte, L (%) , mayor es la concordancia entre el valor del parmetro y los datos y menor la desviacin. La desviacin aparecer de manera natural en el contraste de hiptesis y es una medida global de ajuste de un modelo a los datos. Para distribuciones cuyo rango de valores posibles es conocido a priori y no depende de ningn parmetro, puede demostrarse (vese por ejemplo Casella y Berger, 1990) que, en condiciones muy generales respecto al modelo de distribucin de probabilidad, el mtodo de mxima verosimilitud (MV) proporciona estimadores que son: 1. Asintticamente centrados. 2. Con distribucin asintticamente normal. 3. Asintticamente de varianza mnima (ecientes). 4. Si existe un estadstico suciente para el parmetro, el estimador MV es suciente. b es el estimador MV de %, y g (%) es una funcin 5. Invariantes en el sentido siguiente: si % b) es el estimador MV de g (%). cualquiera del vector de parmetros, entonces g (%

10.3

Estimacin de los parmetros de variables normales p-dimensionales.

Sea x1 , ..., xn una muestra aleatoria simple donde xi + Np (, V). Vamos a obtener los estimadores MV de los parmetros desconocidos y V. El primer paso es construir la funcin de densidad conjunta de las observaciones, que es, utilizando la expresin de la normal multivariante estudiada en el captulo 8: f (X | , V) =
n Y i=1

|V|!1/2 (2, )!p/2 exp !(1/2)(x ! )0 V!1 (x ! )


n

y la funcin soporte ser, despreciando las constantes: n 1X L(, V|X) = ! log |V| ! (x ! )0 V!1 (x ! ). 2 2 i=1

298

CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES

Observemos que la funcin soporte as escrita es siempre negativa, ya que tanto el determinante como la forma cuadrtica son positivos por ser denida positiva la matriz V. sta funcin nos indica el apoyo o soporte que reciben los posibles valores de los parmetros dados los valores muestrales observados. Cuanto mayor sea esta funcin (menos negativa) para unos valores de los parmetros, mayor ser la concordancia entre estos parmetros los datos. Py n Vamos a expresar esta funcin de una forma ms conveniente. Llamando x = i=1 xi /n al vector de medias muestral y escribiendo (xi ! ) = (xi ! x +x ! ) y desarrollando la forma cuadrtica n n X X 0 !1 (x ! ) V (x ! ) = (x ! x )0 V!1 (x ! x ) + n(x ! )0 V!1 (x ! ) ya que i=1 (x ! x ) = 0. Concentrandonos en el primer trmino de esta descomposicin, como un escalar es igual a su traza: n ! n X X 0 !1 (x ! x ) V (x ! x ) = tr (x ! x )0 V!1 (x ! x ) = tr
i=1 i=1

Pn

i=1

i=1

= y llamando:

n X i=1

! n X tr V!1 (x ! x )(x ! x ) = tr V!1 (x ! x )(x ! x )0 , 0


i=1

a la matriz de covarianzas muestral, y sustituyendo en la funcin soporte: n n n L(, V|x) = ! log |V| ! trV!1 S ! (x ! )0 V!1 (x ! ) (10.4) 2 2 2 Esta es la expresin que utilizaremos para el soporte de los parmetros en muestras de una normal multivariante. Observemos que esta funcin slo depende de la muestra a travs de los valores x y S, que sern, por tanto, estimadores sucientes de y V. Todas la muestras que proporcionen los mismos valores de x y S darn lugar a las mismas inferencias respecto a los parmetros. Para obtener el estimador del vector de medias en la poblacin, utilizamos que, por ser !1 V denida positiva, (x ! )0 V!1 (x ! ) ) 0 . Como este trmino aparece con signo menos, el valor de que maximiza la funcin soporte es aquel que hace este trmino lo menor posible, y se har cero tomando: b =x (10.5)

1X S= (xi ! x)(xi ! x)0 , n i=1

(10.3)

por lo que concluimos que x es el estimador mximo verosmil de . Sustituyendo este estimador en la funcin soporte este trmino desaparece. Para obtener el mximo de la funcin respecto a V, sumaremos la constante n log |S| , y escribiremos el soporte como: 2 n n L(V|X) = log |V!1 S| ! trV!1 S (10.6) 2 2

10.4. EL MTODO DE LA RAZN DE VEROSIMILITUDES

299

Esta expresin es til porque el valor de la verosimilitud escrita de esta forma no depende de las unidades de medida de las variables. Tambin es fcil comprobar (vese ejercicio 10.1) que el valor de la verosimilitud es invariante ante transformaciones lineales no singulares de las variables. Llamemos "i a los valores propios de la matriz V!1 S, entonces: nX nX nX L(V|X) = log "i ! "i = (log "i ! "i ). 2 2 2 Esta expresin indica que la verosimilitud es una suma de funciones del tipo log x ! x. Derivando respecto a x es inmediato que una funcin de este tipo tiene un mximo para x = 1. Por tanto, L(V|X) ser mxima si todos los valores propios de V!1 S son iguales a la unidad, lo que implica que V!1S = I. Esto se consigue tomando como estimador de mxima verosimilitud de V: b =S V (10.7)

Los estimadores MV de y V son pues x y S. Se demuestra, como en el caso univariante, que x +Np (, 1/nV). Adems nS se distribuye como la distribucin de Wishart, n Wp (n ! 1, V). El estimador S es sesgado, pero n! S es un estimador centrado de V. Es1 tos estimadores tienen las buenas propiedades asintticas de los estimadores de mxima verosimilitud: consistencia, eciencia y normalidad asinttica. En el ejercicio 10.2 se presenta una deduccin alternativa, ms clsica, de estos estimadores derivando la funcin soporte.

10.4

El mtodo de la razn de verosimilitudes

En esta seccin repasamos la metodologa general para construir contrastes utilizando la razn de verosimilitides y la aplicaremos al caso de poblaciones normales. Con frecuencia se desea comprobar si una muestra dada puede provenir de una distribucin con ciertos parmetros conocidos. Por ejemplo, en el control de calidad de ciertos procesos se toman muestras de elementos, se mide una variable multivariante y se desea contrastar si el proceso est en estado de control, lo que supone que las muestras provienen de una poblacin normal con ciertos valores de los parmetros. En otros casos, interesa comprobar si varias muestras multivariantes provienen o no de la misma poblacin. Por ejemplo, queremos comprobar si ciertos mercados son igualmente rentables o si varios medicamentos producen efectos similares. Finalmente, si hemos basado nuestra inferencia en la hiptesis de normalidad conviene realizar un contraste para ver si esta hiptesis no es rechazada por los datos observados. Para realizar contrastes de parmetros vectoriales podemos aplicar la teora del contraste de verosimilitudes. Esta teora proporciona pruebas estadsticas que, como veremos, tienen ciertas propiedades ptimas para tamaos muestrales grandes. Dado un parmetro vectorial, %, p!dimensional, que toma valores en & (donde & es un subconjunto de <p ), suponemos que se desea contrastar la hiptesis: H0 : % $ &0 , que establece que % est contenido en una regin &0 del espacio paramtrico, frente a una hiptesis alternativa: H1 : % $ & ! &0 ,

300

CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES

que supone que % no est restringida a la regin &0 . Para comparar estas hiptesis, analizaremos su capacidad de prever los datos observados, y, para ello, compararemos las probabilidades de obtenerlos bajo ambas hiptesis. Calcular estas probabilidades requiere el valor del vector de parmetros, que es desconocido. El mtodo de razn de verosimilitudes resuelve este problema tomando el valor que hace ms probable obtener la muestra observada y que es compatible con la hiptesis. En concreto: 1. La mxima probabilidad de obtener la muestra observada bajo H0 se obtiene como sigue. Si &0 determina un valor nico para los parmetros, % = %0 , entonces se calcula la probabilidad de los datos supuesto %0 . Si &0 permite muchos valores, elegiremos entre ellos el valor del parmetro que haga mxima la probabilidad de obtener la muestra. Como la probabilidad de la muestra observada es proporcional a la distribucin conjunta de las observaciones, sustituyendo en esta funcin los datos disponibles resulta la funcin de verosimilitud. Calculando el mximo de esta funcin en &0 , se obtiene el mximo valor de la verosimilitud compatible con H0 , que representaremos por f (H0 ) . 2. La mxima probabilidad de obtener la muestra observada bajo H1 se calcula obteniendo el mximo absoluto de la funcin sobre todo el espacio paramtrico. Estrictamente debera calcularse en el conjunto & ! &0 , pero es ms simple hacerlo sobre todo el espacio, ya que en general se obtiene el mismo resultado. La razn es que, habitualmente, H0 impone restricciones en el espacio paramtrico mientras que H1 supone que estas restricciones no existen. Particularizando la funcin de verosimilitud en su mximo, que corresponde al estimador MV de los parmetros, se obtiene una cantidad que representaremos como f (H1 ) . A continuacin compararemos f (H0 ) y f (H1 ). Para eliminar las constantes y hacer la comparacin invariante ante cambios de escala de las variables, construimos su cociente, que llamaremos razn de verosimilitudes (RV ) : RV = f (H0 ) f (H1 ) (10.8)

Por construccin RV # 1 y rechazaremos H0 cuando RV sea sucientemente pequeo. La regin de rechazo de H0 vendr, en consecuencia, denida por: RV # a, donde a se determinar imponiendo que el nivel de signicacin del test sea #. Para calcular el valor a es necesario conocer la distribucin de RV cuando H0 es cierta, lo que suele ser difcil en la prctica. Sin embargo, cuando el tamao muestral es grande, el doble de la diferencia de soportes entre la alternativa y la nula, cuando H0 es cierta, denida por: " = !2 ln RV = 2 (L(H1 ) ! L(H0 )) , donde L(Hi ) = log f (Hi ), i = 0, 1. se distribuye asintticamente como una +2 con un nmero de grados de libertad igual a la diferencia de dimensin entre los espacios &, y &0 . Intuitivamente rechazamos H0 cuando el soporte de los datos para H1 es signicativamente mayor

10.5. CONTRASTE SOBRE LA MEDIA DE UNA POBLACIN NORMAL

301

que para H0 . La diferencia se juzga, para muestras grandes, con la distribucin +2 . Utilizando la denicin de la desviacin, este contraste puede interpretarse como la diferencia entre las desviacines para H0 y para H1 : " = D(H0 ) ! D(H1 ) Es frecuente que la dimensin de & sea p y la dimensin de &0 sea p ! r, siendo r el nmero de restricciones lineales sobre el vector de parmetros. Entonces, el nmero de grados de libertad de la diferencia de soportes, ", es: g = gl(") = dim(&) ! dim(&0 ) = p ! (p ! r) = r igual al nmero de restricciones lineales impuestas por H0 .

10.5

Contraste sobre la media de una poblacin normal

Consideremos una muestra (x1 , ..., xn ) de una poblacin Np (, V). Se desea realizar el contraste de la hiptesis: H0 : = 0 , V =cualquiera frente a la alternativa: H1 : 6= 0 , V =cualquiera. Para construir un contraste de razn de verosimilitudes, calcularemos el mximo de la funcin de verosimilitud bajo H0 y bajo H1 . La funcin soporte es: n 1X L(, V|X) = ! log |V| ! (x ! )0 V!1 (x ! ). 2 2 i=1 Se requiere obtener los estimadores M V de y V bajo H0 y bajo H1 . Por la seccin 10.2 sabemos que, bajo H1 , estos estimadores son x y S, y sustituyendo en (10.4) tenemos que el soporte para H1 es: n np L(H1 ) = ! log |S| ! 2 2 Bajo H0 el estimador de es directamente 0 , y operando en la forma cuadratica como vimos en la seccin 10.2.2 (tomando trazas y utilizando las propiedades lineales de la traza) podemos escribir esta funcin como: n n L(V|X) = ! log |V| ! trV!1 S0 2 2 donde 1X S0 = (xi ! 0 )(xi ! 0 )0 . n i=1
n n

(10.9)

(10.10)

302

CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES

Si sumamos en la expresin (10.9) la constante n log |S0 | obtenemos una expresin anloga 2 a (10.6), con lo que concluimos que S0 es el estimador MV de V bajo H0 . Sustituyendo V por S0 en (10.9) el soporte para H0 ser n np L(H0 ) = ! log |S0 | ! 2 2 y la diferencia de soportes ser " = 2(L(H1 ) ! L(H0 )) = n log |S0 | |S| (10.11)

y rechazaremos H0 cuando el soporte para H1 sea signicativamente mayor que para H0 . Esta condicin equivale a que la varianza generalizada bajo H0 , (|S0 |) sea signicativamente mayor que bajo H1 . La distribucin de " es una +2 , con grados de libertad igual a la diferencia de las dimensiones del espacio en que se mueven los parmetros bajo ambas hiptesis. La dimensin del espacio paramtrico bajo H0 es p + p(p ! 1)/2 = p(p + 1)/2, el nmero de trminos distintos en V, y la dimensin del espacio parmetro bajo H1 es p + p(p + 1)/2. La diferencia es p que sern los grados de libertad del estadstico +2 . En este caso, podemos obtener la distribucin exacta del ratio de verosimilitudes, no siendo necesaria la distribucin asinttica. Se demuestra en el apndice 10.2 que: |S0 | T2 =1+ |S| n!1 donde el estadstico T 2 = (n ! 1)(x ! 0 )0 S!1 (x ! 0 ), sigue la distribucin T 2 de Hotelling con p y n ! 1 grados de libertad. Utilizando la relacin entre el estadstico T 2 y la distribucin F, podemos calcular los percentiles de T 2 . Como la diferencia de soportes es una funcin montona de T 2 , podemos utilizar directamente este estadstico en lugar de la razn de verosimilitudes, y rechazaremos H0 cuando T 2 sea sucientemente grande. Observemos que de (10.11) y (10.12) podemos escribir " = n log(1 + T2 ) n!1 (10.12)

que es consistente con la distribucin asinttica, ya que, para n grande, log(1 + a/n) , a/n, y entonces " , T 2 , que sabemos tiene una distribucin asinttica +2 p. Ejemplo 10.1 Un proceso industrial fabrica elementos cuyas caractersticas de calidad se miden por un vector de tres variables, x. Cuando el proceso est en estado de control, los valores medios de las variables deben ser (12, 4, 2). Para comprobar si el proceso funciona adecuadamente, se toma una muestra de 20 elementos y se miden las tres caractersticas. La media muestral es x = (11.5, 4.3, 1.2)

10.6. CONTRASTES SOBRE LA MATRIZ DE VARIANZAS DE UNA POBLACIN NORMAL303 y la matriz de covarianzas entre estas tres ! 10 S=" 4 !5 variables es # 4 !5 12 !3 $ !3 4

es una t de Student con n ! 1 grados de las t para " pde libertad, obtendramos unos valores " p cada variable de t1 = (11.5 ! 12) p 20/ 20 10/19 = !.68; t2 = (4.3 ! 4) 20/ 20 12/19 " = .88; y t3 = (1.2 ! 2) 20/ 20 4/19 = .85. Aparentemente, mirando cada variable separadamente no hay diferencias signicativas entre las medias muestrales y las del proceso bajo control y concluiramos que no hay evidencia de que el proceso est fuera de control. Si calculamos ahora el estadstico de Hotelling T 2 = 19(x ! 0 )0 S!1 (x ! 0 ) = 14.52 Para juzgar el tamao de esta discrepancia lo llevamos a la distribucin F F3,17 = ((20 ! 3)/3)(T 2 /19) = 4.33 y como el valor F3,17 (.001) = 3.4, rechazamos sin ninguna duda que el proceso esta en estado de control. Para entender la razones de esta discrepancia entre el contraste multivariante y los univariantes, observemos que el contraste multivariante tiene en cuenta las correlaciones entre las discrepancias individuales. La matriz de correlaciones de los datos muestrales obtenida a partir de la matriz de covarianzas es ! # 1 .37 !0.79 R = " .37 1 !0.43 $ !0.79 !0.43 1

(Los valores numricos se han simplicado para facilitar los clculos) Observemos que si miramos cada variable aisladamente como " t = (x ! ) n/s b

la correlacin entre la primera variable y la tercera es negativa. Esto quiere decir que si observamos un valor por debajo de la media en la primera variable, esperamos que aparezca un valor por encima de la media en la tercera. En la muestra ocurre lo contrario, y esto contribuye a sugerir un desplazamiento de la media del proceso.

10.6

Contrastes sobre la matriz de varianzas de una poblacin normal

El contraste de la razn de verosimilitudes se aplica para hacer contrastes de matrices de varianzas de forma similar a la estudiada para vectores de medias en la seccin anterior. Vamos a ver cuatro contrastes sobre la matriz de covarianzas de variables normales. En el

304

CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES

primer caso la hiptesis nula es que esta matriz toma un valor jo dado. En el segundo, que la matriz es diagonal y las variables estn incorreladas. En el tercero las variables adems tienen la misma varianza, es el contraste de esfericidad donde suponemos que la matriz de covarianzas es ) 2 I. En el cuarto caso suponemos una esfericidad parcial: la matriz de covarianzas puede descomponerse como una matriz de rango m < p ms ) 2 I . Si m = 0 este contraste se reduce al de esfericidad.

10.6.1

Contraste de un valor particular

Supongamos que se desea realizar el contraste de la hiptesis: H0 : V = V0 , frente a la alternativa: H1 : , y V =cualquiera. Para construir un contraste de razn de verosimilitudes, calcularemos el mximo de la funcin de soporte bajo H0 y bajo H1 . Utilizando la expresin del soporte: n n n L(, V|x) = ! log |V| ! trV!1 S ! (x ! )0 V!1 (x ! ) 2 2 2 , con lo que : Bajo H0 , el valor de V queda especicado, V0 , y se estimar mediante x n n !1 L(H0 ) = ! log |V0 | ! trV0 S 2 2 mientras que bajo H1 , los estimadores son x y S, con lo que, como vimos en la seccin anterior: n np L(H1 ) = ! log |S| ! 2 2 y la diferencia de soportes ser " = 2(L(H1 ) ! L(H0 )) = n log |V0 | !1 + ntrV0 S!np |S| (10.13) cualquiera

Vemos que el contraste consiste en comparar V0 , el valor terico y S, el estimado con la mtrica del determinante y con la de la traza. La distribucin del estadstico " es una +2 , con grados de libertad igual a la diferencia de las dimensiones del espacio en que se mueven los parmetros bajo ambas hiptesis que es p(p + 1)/2, el nmero de trminos distintos en V. En particular este test sirve para contrastar si V0 = I. Entonces el estadstico (10.13) se reduce a " = !n log |S| + ntrS!np.

10.6. CONTRASTES SOBRE LA MATRIZ DE VARIANZAS DE UNA POBLACIN NORMAL305

10.6.2

Contraste de independencia

Otro contraste de inters es el de independencia, donde suponemos que la matriz V0 es diagonal. Es decir: H0 : V =diagonal frente a la alternativa: H1 : , y V =cualquiera. c Entonces la estimacin mximo verosmil de V0 es V 0 =diag(S), donde diag(S) es una matriz diagonal con trminos sii iguales a los de S, y el estadstico (10.13) se reduce a Q sii !1 b0 " = n log + ntrV S!np |S|
!1/2 b !1/2 !1 b0 b0 y como trV S =trV SV0 = trR =p, el contraste se reduce a:

cualquiera

" = !n log |R|

(10.14)

que suele escribirse en trminos de los valores propios de R, llamando "i a estos valores propios una forma equivalente del contraste es " = !n
p X i=1

log "i

y su distribucin asinttica ser una +2 , con grados de libertad igual p(p + 1)/2 ! p = p(p ! 1)/2.

10.6.3

Contraste de esfericidad

Un caso particular importante del contraste anterior es suponer que todas las variables tienen la misma varianza y estn incorreladas. En este caso no ganamos nada por analizarlas conjuntamente, ya que no hay informacin comn. Este contraste equivale a suponer que la matriz V0 es escalar, es decir V =) 2 I, y se denomina de esfericidad, ya que entonces la distribucin de las variables tiene curvas de nivel que son esferas: hay una total simetra en todas las direcciones en el espacio. El contraste es H0 : V =) 2 I, frente a: H1 : , y V =cualquiera Sustituyendo V0 =) 2 I en (10.13), la funcin soporte bajo H0 es L(H0 ) = ! np n log ) 2 ! 2 trS 2 2) cualquiera

306

CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES

y derivando respecto a ) 2 es inmediato comprobar que el estimador MV es ) b2 = trS/p, .el promedio de las varianzas. La funcin soporte L(H1 ) es la misma que en el contraste anterior y la diferencia de soportes es " = n log ) b2p + ntrS/) b2 !np |S| (10.15)

y sustituyendo ) b2 = trS/p el contraste se reduce a:

y se distribuir asintoticamente como una +2 con p(p + 1)/2 ! 1 = (p + 2)(p ! 1)/2 grados de libertad.

" = np log ) b2 ! n log |S|

10.6.4

(*)Contraste de esfericidad parcial

El cuarto contraste que estudiaremos se denomina de esfericidad parcial porque supone que la matriz de covarianzas tiene dependencias en un espacio de dimensin m, pero en el espacio complementario de dimensin p ! m se da la situacin de esfericidad. Esto supone que toda la estructura de dependencias entre las variables puede explicarse en funcin de m variables, como veremos al estudiar el modelo factorial. Observemos que no tiene sentido contrastar que una matriz cuadrada de orden p tiene rango m < p, porque, en este caso, la matriz debe tener exactamente p ! m valores propios nulos. Si es as, lo comprobaremos al calcular sus valores propios, ya que si se da esta condicin en la poblacin tiene que darse tambin en todas las muestras. Sin embargo, s tiene sentido contrastar que la matriz tiene m valores propios relativamente grandes, que coresponden a m direcciones informativas, y p ! m valores propios pequeos e iguales, que corresponden a las no informativas. Esta es la esfericidad parcial. El contraste ser: H0 : V = B+) 2 I, frente a: H1 : , y V =cualquiera Puede demostrarse utilizando los mismos principios (vase Anderson, 1963) que, llamando "i a los valores propios de S, el contraste es: Pp p X j =m+1 "j " = !n log "i + n(p ! m) log (10.16) p!m i=m+1 y sigue asintticamente una distribucin +2 con (p ! m + 2)(p ! m ! 1)/2 grados de libertad. Observemos que si las variables estn estandarizadas y m P = 0, este contraste se reduce a (10.15). Tambin si las variables estan estandarizadas p j =1 "j = p, el segundo trmino se anula y este contraste se reduce (10.14). Concluimos que cuando m = 0 este contraste coincide con el general de esfericidad presentado en la seccin anterior. cualquiera y rango(B) = m

10.7. CONTRASTE DE IGUALDAD DE VARIAS MEDIAS: EL ANLISIS DE LA VARIANZA MULT

10.6.5

Ajustes en la distribucin

La aproximacin de la distribucin del estadstico " a la +2 cuando el tamao muestral no es muy grande puede mejorarse introduciendo factores de correccin. Box (1949) y Bartlett (1954) han demostrado que las aproximaciones mejoran si sutituimos en los estadsticos anteriores n por nc donde nc es menor que n y dependen de p y del contraste. Por ejemplo, Box (1949) demostr que el contraste de independencia mejora si sutituimos n por nc = n ! (2p + 11)/2. Estas correciones pueden ser importantes si el tamao muestral es pequeo, p es grande y el estadstico obtenido esta cerca del valor crtico, pero no van a ser importantes si p/n es pequeo y el estadstico resultante es claramente conluyente en cualquiera de las direcciones. El lector interesado puede acudir a Muirhead (1982). Ejemplo 10.2 Contrastar si podemos admitir que la matriz de covarianzas de las medidas de calidad del ejercicio 10.1 es de la forma ) 2 I. Si no es as contrastar si las variables aunque tengan distinta varianza son independientes. La estimacin de ) b2 bajo la nula es trS/p = (10 + 12 + 4)/3 = 8, 67. Por otro lado se comprueba que |S| = 146. Entonces " = 60 log 8, 67 ! 20 log 146 = 29.92 que debe compararse con una +2 con (3 + 2)(3 ! 1)/2 = 5 grados de libertad, y el valor obtenido es claramente signicativo, por lo que rechazamos que las variables tengan la misma varianza y estn incorreladas. Para realizar el contraste de independencia transformemos las variables dividiendo cada " una" de ellas por " su varianza. Es decir, pasamos a nuevas variables z1 = x1 / 10, z2 = x2 / 12, z3 = x3 / " 4, que " tendrn "matriz de covarianzas, llamando D a la matriz diagonal con elementos (1/ 10, 1/ 12, 1/ 4), tendremos: ! # 1 0.3651 !0.7906 1 !0.4330 $ = Rx Vz = DVx D0 = " 0.3651 !0.7906 !0.4330 1 y el contraste ahora es " = !20 log 0, 304 = 23.8 que debe compararse ahora con +2 con 3 grados de libertad, con lo que se rechaza sin duda la hiptesis de independencia.

10.7

Contraste de igualdad de varias medias: el Anlisis de la Varianza Multivariante

Supongamos que hemos observado una muestra de tamao n de una variable p dimensional que puede estraticarse en G clases o grupos, de manera que existen n1 observaciones del grupo 1, ...., nG del grupo G. Un problema importante es contrastar que las medias de las

308

CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES

G clases o grupos son iguales. Vamos a resolverlo aplicando el contraste de la razn de verosimilitudes. La hiptesis a contrastar es: H0 : 1 = 2 = ... = G = ; donde, adems, V es denida positiva, e idntica en los grupos. La hiptesis alternativa es: H1 : no todas las i son iguales; con las mismas condiciones para V. La funcin de verosimilitud bajo H0 de una muestra normal homognea se ha calculado b = S. Sustituyendo b=xyV en la seccin 10.2 y sabemos que su mximo se alcanza para estas estimaciones en la funcin soporte tenemos que np n L(H0 ) = ! log |S| ! . 2 2 (10.17)

Bajo H1 , los n vectores de observaciones se subdividen en n1 del grupo 1, ...., nG del grupo G. La funcin de verosimilitud bajo H1 ser: ( ) ng G X X 1 f (1 , ..., p , V |X ) = |V|!n/2 (2, )!np/2 exp ! (xhg ! g )0 V!1 (xhg ! g ) , 2 g=1
h=1

donde xhg es el h vector de variables del grupo g, y g su media. La maximizacin de esta funcin en el espacio paramtrico denido por H1 se realiza por el procedimiento estudiado b g = xg , y la en 10.2. La estimacin de la media de cada grupo ser la media muestral, estimacin de la matriz de covarianzas comn se obtiene utilizando que: G ng ! ng G X X XX (xhg ! xg )0 V!1 (xhg ! xg ) = tr (xhg ! xg )0 V!1 (xhg ! xg )
g =1 h=1 g =1 h=1 ng G X X g =1 h=1

tr V!1 (xhg ! x g )(xhg ! x g )0 = tr V!1 W


ng G X X W= (xhg ! x g )(xhg ! x g )0 g =1 h=1

donde (10.18)

es la matriz de suma de cuadrados dentro de los grupos. Sustituyendo en la funcin de verosimilitud y tomando logaritmos se obtiene L(V|X) = n n log |V!1 | ! trV!1 W/n 2 2

10.7. CONTRASTE DE IGUALDAD DE VARIAS MEDIAS: EL ANLISIS DE LA VARIANZA MULT y, segn los resultados de 10.2, la varianza comn a los grupos cuando estos tienen distinta media se estima por: b = Sw = 1 W V n (10.19)

donde W est dada por (10.18). Sustituyendo estas expresiones en la funcin soporte tendremos que n np L(H1 ) = ! log |Sw | ! . 2 2 La diferencia de soportes ser: " = n log |S| |Sw | (10.21) (10.20)

y rechazaremos H0 cuando esta diferencia sera grande, es decir, cuando la variabilidad suponiendo H0 cierta, medida por |S|, sea mucho mayor que la variabilidad cuando permitimos que las medias de los grupos sean distintas, medida por |Sw |. Su distribucin es, asintoticamente, una +2 g donde los grados de libertad, g, se obtienen como por la diferencia entre ambos espacio paramtricos. H0 determina una regin &0 donde hay que estimar los p componentes del vector de medias comn y la matriz de covarianzas, en total p + p(p + 1)/2 parmetros. Bajo la hiptesis H1 hay que estimar G vectores de medias ms la matriz de covarianzas lo que supone Gp + p(p + 1)/2 parmetros. La diferencia es g : g = dim(&) ! dim(&0 ) = p(G ! 1) (10.22)

que sern los grados de libertad de la distribucin asinttica. La aproximacin a la distribucin +2 g del cociente de verosimilitudes puede mejorarse para tamaos muestrales pequeos. Se demuestra que el estadstico : "0 = m log log donde m = (n ! 1) ! (p + G)/2, sigue asintticamente una distribucin +2 g , donde g viene dada por (10.22), y la aproximacin es mejor que tomando m = n en pequeas muestras. El anlisis de la varianza multivariante Este contraste es la generalizacin multivariante del anlisis de la varianza y puede deducirse alternativamente como sigue. Llamemos variabilidad total de los datos a:
n X T= (xi ! x )(xi ! x )0 , i=1

|S| , |Sw |

(10.23)

(10.24)

310

CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES

que mide las desviaciones respecto a una media comn. Vamos a descomponer la matriz T como suma de dos matrices. La primera, W, es la matriz de las desviaciones respecto a las medias de cada grupo y viene dada por (10.18). La segunda medir la variabilidad explicada por las diferencias entre las medias y la llamaremos B. Esta descomposicin generaliza al caso vectorial la descomposicin clsica de anlisis de la varianza. Para obtenerla sumaremos y restaremos las medias de grupo en la expresin de T, como:
ng G X X T= (xgh ! x +x g ! x g )(xgh ! x +x g ! x g )0 g =1 h=1

y desarrollando se comprueba que el doble producto se anula y resulta: T = B + W, (10.25)

donde T viene dado por (10.24), W por (10.18) y B, la matriz de variabilidad explicada o de sumas de cuadrados entre grupos, se calcula por: B=
G X g =1

ng (x g ! x )(x g ! x )0 .

La descomposicin (10.25) puede expresarse como Variabilidad Total (T) = Variabilidad Explicada (B) + Variabilidad Residual (W) que es la descomposicin habitual del anlisis de la varianza. Para hacer un contraste de que las medias son iguales podemos comparar el tamao de las matrices T y B. La medida de tamao adecuada es el determinante, con lo que concluimos que el contraste debe basarse en el cociente |T|/|W|. La distribucin exacta de este cociente fue estudiada por Wilks. Para tamaos moderados el contraste es similar al de la razn de verosimilitudes (10.23), que puede escribirse tambin como: "0 = m log |T| |W + B| = m log = m log |I + W!1 B| |W | |W| (10.26)

Desde el punto de vista del clculo de (10.26) como |I + A| = !(1 + "i ) donde "i son los vectores propios de A, este estadstico se reduce a X "0 = m log(1 + "i ) donde "i son los vectores propios de la matriz W!1 B. Ejemplo 10.3 Vamos a aplicar este contraste para ver si se observan diferencias detectables en pequeas muestras en los datos de Medis, entre las medidas fsicas de hombres y mujeres de la tabla A.5. En la muestra hay 15 mujeres (variable sexo = 0) y 12 hombres (sexo = 1). El primer paso del anlisis es calcular las medias y matrices de covarianzas en cada grupo,

10.7. CONTRASTE DE IGUALDAD DE VARIAS MEDIAS: EL ANLISIS DE LA VARIANZA MULT por separado, y para el conjunto de los datos. En la tabla siguiente se presentan las medias para cada variable, para toda la muestra, y para los grupos de mujeres y hombres est pes pie lbr aes dcr lrt total 168.78 63.89 38.98 73.46 45.85 57.24 43.09 mujeres 161.73 55.60 36.83 70.03 43.33 56.63 41.06 hom bres 177.58 74.25 41.67 77.75 49.00 58.00 45.62 Las matrices de covarianzas dividiendo por n ! 1 para toda la muestra, mujeres y hombres son Para las ! mujeres: # 37.64 % 22.10 80.40 & % & % 6.38 7.36 1.92 & % & b % & SM = % 15.65 12.94 3.06 7.41 & % 9.49 14.39 1.49 3.99 9.42 & % & " 2.75 7.20 0.76 1.17 2.559 2.94 $ 9.02 9.31 1.98 4.53 1.12 0.95 3.78 Para los hombres ! # 45.53 % 48.84 74.20 & % & % 9.48 9.63 2.79 & % & % & b SH = % 14.34 19.34 2.09 12.57 & % 14.86 19.77 3.23 6.18 6.77 & % & " 9.45 9.90 1.86 2.36 3.02 3.13 $ 8.92 5.23 2.31 1.21 1.84 2.63 6.14 y para el conjunto de hombres y mujeres, se calcula como media ponderada de estas dos matrices bT = (14S c c S M + 11SH )/25

con lo ! que se obtiene # 41.11 % 33.86 77.67 & % & % 7.476 8.36 2.30 & % & bT = % 15.07 15.76 2.63 9.68 & S % & % 11.85 16.76 2.25 4.95 8.25 & % & " 5.70 8.390 1.24 1.70 2.76 3.03 $ 8.98 7.52 2.13 3.07 1.44 1.70 4.82 Vamos a calcular el ratio de verosimilitudes como cociente de las variabilidades promedio ante ambas hiptesis. Bajo H0 se obtiene que la matriz de varianzas y covarianzas cuando suponemos la misma media, S conduce a la variabilidad promedio V P (H0 ) = |S|1/7 = 5.77 mientras que V P (H1 ) = |Sw |1/7 = 4.67

312

CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES

con lo que el contraste es 27((27 ! 1) ! (7 + 7)/2) log(5.77/4.67) = 108.5 que debe compararse con una +2 con 7 grados de libertad, y no hay ninguna duda de que las diferencias son signicativas.

10.8

Contrastes de datos atpicos

El contraste de igualdad de medias puede aplicarse, como caso particular, para contrastar si una observacin de una muestra de datos normales es atpica. La hiptesis nula ser que todos los datos vienen de la misma poblacin normal. La hiptesis alternativa ser que el dato sospechoso ha sido generado por otra poblacin desconocida. Para caracterizar la poblacin alternativa podemos suponer que la media es distinta y la varianza la misma, o que la media es la misma y la varianza distinta. Si supusiesemos que tanto la media como la matriz de covarianzas tendramos un problema de identicacin, porque no es posible con un solo dato estimar la media y la variabilidad. Puede comprobarse que los contrastes suponiendo la media distinta o la varianza distinta son similares (vase Pea y Guttman, 1993) y aqu consideraremos el caso ms simple de media distinta pero misma matriz de covarianzas. Para aplicar este contraste a un dato sospechoso, xi , estableceremos: H0 : E (xi ) = ; frente a H1 : E (xi ) = i 6= ; La funcin de verosimilitud bajo H0 es (10.17). Bajo H1 , como la estimacin i es xi , la estimacin de la varianza ser S(i) = donde W(i) =
n X

1 W(i) , n!1

h=1,j 6=i

(xh ! x (i) )(xh ! x (i) )0 ,

es la estimacin de la suma de cuadrados de los residuos, y x (i) es la media de las observaciones, en ambos casos eliminando la observacin xi . La diferencia de soportes es, particularizando (10.26): " = n log |T| |W(i) |

y, se demuestra en el apndice 10.3, que se verica la relacin: |T| 1 (i) ) = 1 + D2 (xi , x |W(i) | n

10.9.

CONTRASTES DE NORMALIDAD

313

donde D2 (xi , x (i) ) es:


1 D2 (xi , x (i) ) = (xi ! x (i) )0 S! (i) ). (i) (xi ! x

(10.27)

la distancia de Mahalanobis entre el dato y la media sin incluirle. Por tanto, para realizar el test calcularemos la distancia de Mahalanobis (10.27), que se distribuir, si H0 es cierta, para muestras grandes como una +2 p . En la prctica, para detectar atpicos se calcula el mximo de las distancias D2 (xi , x (i) ) y este valor se compara con el percentil 0,95 o 0,99 de las tablas de percentiles del mximo de una +2 p . El problema, entonces, es que si existe ms de un atpico, la potencia del contraste puede ser muy baja, al estar contaminadas las estimaciones de los parmetros. Un procedimiento ms recomendable siempre que se trabaje con muestras que pueden ser heterogneas es identicar primero todas las observaciones sospechosas, con los procedimientos indicados en el captulo 3, y despus ir contrastando una por una si las observaciones se aceptan. Es decir, ordenamos todos los datos sospechosos por D2 (xi , x (i) ) y contrastamos si el ms prximo puede incorporarse a la muestra. Si se rechaza esta incorporacin el procedimiento termina y todos los datos sospechosos son declarados atpicos. En caso contrario, el dato se incorpora a la muestra y se recalculan los parmetros y las distancias de Mahalanobis, y se vuelve a aplicar el procedimiento a las restantes excluidas.

10.9

Contrastes de Normalidad

Los mtodos ms utilizados en anlisis multivariante suponen normalidad conjunta de las observaciones y conviene, cuando dispongamos de datos sucientes, contrastar esta hiptesis. Normalidad unidimensional La normalidad de las distribuciones univariantes puede contrastarse con los contrastes +2 , Kolmogorov-Smirnov, Shapiro y Wilks, o con los contrastes basados en coecientes de asimetra y curtosis, que pueden consultarse en Pea (2001). Llamando m3 m4 A = 3/2 ; K = 2 , m2 m2 donde 1X (xi ! x)h . n Se demuestra que, asintticamente, con datos normales: mh = A + N (0; 6/n); y por tanto la variable nA2 n (K ! 3)2 X = + 6 24
2

K + N (3; 24/n)

se distribuir, si la hiptesis de normalidad es cierta, como una +2 con 2 grados de libertad. Rechazaremos la hiptesis de normalidad si X 2 > +2 2 (#).

314

CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES

Normalidad multivariante La normalidad multivariante implica la normalidad de distribuciones marginales unidimensionales, pero la existencia de esta propiedad no garantiza la normalidad multivariante de los datos. Para contrastar la normalidad conjunta existen varios contrastes posibles, y aqu slo comentaremos la generalizacin multivariante de los contrastes de asimetra y curtosis. (Vase Justel, Pea y Zamar (1997) para una generalizacin del contraste de KolmogorovSmirnov al caso multivariante). Deniendo los coecientes de asimetra y curtosis multivariantes como en la seccin 3.6:
n n 1 XX 3 Ap = 2 d n i=1 j =1 ij

1X 2 Kp = d n i=1 ii
n

donde dij = (xi ! x)0 S!1 (xi ! x), se verica asintticamente: 1 nAp /6 + +2 f con f = p(p + 1)(p + 2) 6 Kp + N (p(p + 2); 8p(p + 2)/n) La potencia de este contraste no es muy alta a no ser que tengamos una muestra muy grande. Dos casos frecuentes en la prctica en que se rechaza la hiptesis de normalidad conjunta son: (1) Las distribuciones marginales son aproximadamente simtricas, y las relaciones entre las variables son lineales, pero existen valores atpicos que no pueden explicarse por la hiptesis de normalidad. En este caso si eliminamos (o descontamos con un estimador robusto) los valores atpicos, la normalidad conjunta no se rechaza y los mtodos basados en la normalidad suelen dar buenos resultados. (2) Algunas (o todas) las distribuciones marginales son asimtricas y existen relaciones no lineales entre las variables. Una solucin simple y que funciona bien en muchos casos es transformar las variables para conseguir simetra y relaciones lineales.

10.9.1

Transformaciones

Para variables escalares Box y Cox (1964) han sugerido la siguiente familia de transformaciones para conseguir la normalidad: x
(")

(x+m)! !1 "

ln (x + m)

(" 6= 0) (" = 0)

(x > !m) (m > 0)

donde " es el parmetro de la transformacin que se estima a partir de los datos y la constante m se elige de forma que x + m sea siempre positiva. Por lo tanto, m ser cero si

10.9.

CONTRASTES DE NORMALIDAD

315

trabajamos con datos positivos e igual en valor absoluto al valor ms negativo observado, en otro caso. Suponiendo m = 0 esta familia incluye como casos particulares la transformacin logartmica, la raz cuadrada y la inversa. Cuando " > 1, la transformacin produce una mayor separacin o dispersin de los valores grandes de x, tanto ms acusada cuanto mayor sea el valor de " mientras que cuando " < 1 el efecto es el contrario: los valores de x grandes tienden a concentrarse y los valores pequeos (x < 1) a dispersarse. Estas transformaciones son muy tiles para las distribuciones marginales. Para estudiar cmo determinar el valor del parmetro con una variable escalar, supongamos que m = 0 y que existe un valor de " que transforma la variable en normal. La relacin entre el modelo para los datos originales, x, y para los transformados, x(") , ser: (") dx f (x) = f (x(") ) (10.28) dx , y como: "x"!1 dx(") = = x"!1 dx " y suponiendo que x(") es N (, ) 2 ), para cierto valor de ", la funcin de densidad de las variables originales ser:
! 12 1 f (x) = " e 2" ) 2,
x! !1 ! !

x"!1

Por tanto, la funcin de densidad conjunta de X = (xi , ..., xn ) ser, por la independencia de las observaciones: n ! 2 ! 1 P xi !1 Y ! ! 1 2 ! !1 e 2" f (X) = x" (10.29) " n i n ) 2, i=1 y la funcin soporte es: L "; , )
2

Al sustituir estos valores en la verosimilitud obtenemos lo que se denomina la funcin de verosimilitud concentrada en ". Su expresin es, prescindiendo de constantes: X n L (") = ! ln ) b (")2 + (" ! 1) ln xi (10.30) 2

Para obtener el mximo de esta funcin utilizaremos que, para " jo, los valores de ) 2 y que maximizan la verosimilitud (o el soporte) son, derivando e igualando a cero: 2 1 X (") ) b2 (") = x ! b (") , n X x(") 1 X x" i !1 i (") b (") = x = = . n n "

2 X n 1 X x" n i !1 2 ln xi ! 2 ! . = ! ln ) ! ln 2, + (" ! 1) 2 2 2) "

316

CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES

El procedimiento para obtener b " consiste en calcular L (") para distintos valores de ". El valor que maximice esta funcin es el estimador M V de la transformacin. Para conseguir normalidad multivariante supondremos que existe un vector de parmetros ! = ("1 , ..., "p ) que produce normalidad multivariante, donde "j es la transformacin aplicada al componente j del vector. Aplicando un anlisis similar al caso univariante, la funcin soporte multivariante concentrada en el vector de parmetros de la transformacin es: " # p n X X n b L(!) = ! ln % ("j ! 1) ln xij , + 2 j =1 i=1 donde los parmetros se han estimado aplicando las formulas habituales a los datos transformados: b=
n

1 X (") x , n i=1 i

La estimacin MV del parmetro vectorial ! no suele aportar mejoras importantes respecto a transformar individualmente cada variable para que las marginales sean normales. Vase Johnson y Wichern (1998).

X (") (") b= 1 b )(xi b )0 . (xi ! ! % n i=1

10.10

Lecturas recomendadas

En este captulo hemos resumido un tema muy amplio sobre el que existe abundante bibliografa. El lector puede encontrar una buena introduccin en ingls a los mtodos de estimacin y contraste basados en la funcin de verosimilitud en Casella y Berger (1990). En espaol vease Pea (2001) y las referencias all indicadas. La estimacin MV de la normal multivariante se trata con detalle en Anderson (1984), Mardia et al (1979) y Muirhead (1982). Los contrastes de matrices de covarianzas se presentan claramente en Mardia et al (1979) y Rechner (1998). El anlisis de la varianza multivariante es un tema muy amplio y puede ampliarse en Johnson y Wichern (1998), Morrison (1976), Seber (1984) y Rechner (1998). Mtodos tradicionales para el contraste de datos atpicos pueden encontrarse en Barnett y Lewis (1994), y referencias a mtodos ms recientes en Pea y Prieto (2001). Para la transformacin multivariante de Box-Cox vase Gnanadesikan (1997) y Velilla (1993). Por razones de espacio no hemos incluido la aplicacin de nuevos mtodos de estimacin, como la estimacin autosuciente de Efron, al caso multivariante. El lector puede consultarla en Efron (1982) and Efron y Tibshirani (1993). 10.1 Demostrar que la verosimilitud L(V|X) = n log |V!1 S| ! n trV!1 S es invariante 2 2 ante trasnformaciones de las variables y = Ax, con A cuadrada no singular.

Ejercicios

10.10. LECTURAS RECOMENDADAS

317

10.3 Demostrar que la funcin soporte de la seccin 10.2 puede escribirse como L(V|X) = Pn n !1 log |V| ! 2 trV S(), donde S() = i=1 (xi ! )(xi ! )0 /n y utilizar esta expresin para demostrar que el estimador MV de V cuando restringimos los valores de a una regin P 0 !1 b ), donde b es el valor que maximiza n A es es S( i=1 (x ! ) V (x ! ) sobre A. 10.4 Demostrar que la funcin de verosimilitud del ejercicio anterior 10.1 puede escribirse como L(V|X) = np (log "g ! "), donde "g y " son la media geomtrica y aritmtica de los 2 valores propios de la matriz V!1 S. 10.5 Demostrar que el contraste del anlisis de la varianza multivariante equivale a comparar las medias geomtricas de los valores propios de las matrices de variabilidad total y no explicada. 10.6 Demostrar que el contraste del anlisis de la varianza multivariante no se modica si en lugar de trabajar con las variables originales lo hacemos con las componentes principales. 10.7 Demostrar que el contraste multivariante de que una muestra viene de una poblacin es invariante ante transformaciones lineales no singulares de las variables. Cmo sera el contraste si en lugar de las variables utilizamo sus componentes principales? 10.8 Demostrar que el estimador MV del parmetro ) 2 en el modelo x ! Np (,) 2 I) es 2 ) b = trS/p. 10.9 Demostrar que el contraste H0 : x ! Np (,) 2 V0 ) frente a H1 : x ! Np (, V) !1 depende slo de la media aritmtica y geomtrica de los valores propios V0 S. !n 2

10.2 Obtener los estimadores mximos verosmiles de los parmetros en la normal multivariante derivando en la funcin de verosimilitud (10.4). Para la varianza escribir la funcin ! log |V!1 | V!1 S como funcin de V!1 y utilizar que ! V!1 = V, y ! tr = S. Comprobar entonces que ! V!1 ! 1 ! log |V | ! L(V!1 |X) V!1 S) =n ! ! tr!(V =n (V ! S) = 0. !1 ! V!1 2 ! V!1 2

para p ) 3

APNDICE 10.1: Inadmisibilidad de la media muestral

es sesgado para , pero puede demostrarse que tiene un error cuadrtico medio menor que x . b s es mejor estimador que la media muestral y en consecuencia la Por tanto, con este criterio, b s tiene media muestral se dice que es un estimador inadmisible si p ) 3, ya que el estimador b s contrae (shrinkage) el valor siempre menor error cuadrtico medio. Observemos que b s | # |x|. Este resultado ha despertado un gran inters por los estimadores de x , ya que | shrinkage que mejoran el error cuadrtico medio de los estimadores MV tradicionales.

donde M es una cierta matriz que sirve para denir como se mide la distancia entre el b y el parmetro . Eligiendo M = I, el estimador: estimador (p ! 2) b s = 1 ! 0 !1 x , x S x

Stein (1956) demostr que para p ) 3 la media muestral no es necesariamente el estimador ptimo de la media poblacional de una normal multivariante. Este resultado es consecuencia de que si tomamos como criterio seleccionar como estimador de el que minimice el error cuadrtico medio de estimacin, dado por b )0 M!1 ( ! b) , E ( !

318

CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES

APNDICE 10.2: RAZN DE VEROSIMILITUDES Y LA T DE HOTELLING


Para demostrar la relacin entre la razn de verosimilitudes y la T de Hotelling utilizaremos el siguiente Lemma 1 Si A es una matriz no singular y b un vector, |I + Abb0 | = 1 + b0 Ab. En efecto, observemos que la matriz bb0 tiene rango uno y tambin tendr rango uno Abb0 . Por tanto, Abb0 tiene un nico valor propio no nulo. Llamando " a este valor propio no nulo y v al vector propio, como Abb0 v = "v , multiplicando por b0 se obtiene que " = b0 Ab. Entonces la matriz I + Abb0 tendr un valor propio igual a 1+" y el resto sern la unidad . Como el determinante es el producto de los valores propios, queda demostrado el lema. Partiendo ahora de
n X nS0 = (xi ! x +x ! 0 )(xi ! x +x ! 0 )0 , i=1

y desarrollando en los trminos (xi ! x ) y (x ! 0 ), resulta: nS0 = nS + n(x ! 0 )(x ! 0 )0 . Por tanto |S0 | |S + (x ! 0 )(x ! 0 )0 | = , |S| |S| que puede escribirse |S0 | = |S!1 ||S + (x ! 0 )(x ! 0 )0 | = |I + S!1 (x ! 0 )(x ! 0 )0 |, |S| y aplicando el lema anterior tenemos que: |I + S!1 (x ! 0 )(x ! 0 )0 | = 1 + (x ! 0 )0 S!1 (x ! 0 ), con lo que, tenemos nalmente que : T2 |S0 | = 1 + (x ! 0 )0 S!1 (x ! 0 ) = 1 + . |S| n!1

APNDICE 10.3: CONTRASTE DE VALORES ATIPICOS


La relacin entre T y W(i) se obtiene restando y sumando x (i) :
n X T= (xj ! x (i) + x (i) ! x )(xj ! x (i) + x (i) ! x )0 , j =1

10.10. LECTURAS RECOMENDADAS que resulta en


n X (xj ! x (i) )(xj ! x (i) )0 + n(x (i) ! x )(x (i) ! x )0 + F + F 0 T= j =1

319

donde F =

Pn

j =1 (xj

!x (i) )(x (i) ! x )0 . El primer trmino puede escribirse

n X (xj ! x (i) )(xj ! x (i) )0 = W(i) + (xi ! x (i) )(xi ! x (i) )0 j =1

y utilizando que x (i) ! x =x (i) ! (n ! 1)x (i) + xi 1 = (x (i) ! xi ) n n

) por (x (i) ! xi )/n se obtiene nalmente que y reemplazando en todos los trminos (x (i) ! x T = W(i) + y, por tanto, n ! 1 !1 0 |T| = W(i) 1 + W(i) (xi ! x (i) )(xi ! x (i) ) n |T| 1 1 = 1 + (xi ! x (i) )0 S! (i) ) (i) (xi ! x |W(i) | n
1 !1 donde S! (i) = (n ! 1)W(i) . Finalmente

n!1 (i) )(xi ! x (i) )0 (xi ! x n

y aplicando el lema del apndice 10.2

1 1 DS = n log(1 + (xi ! x (i) )0 S! (i) )) (i) (xi ! x n y para n grande como log(1 + x/n) ' x/n , tenemos que la distancia de Mahalanobis
1 D2 (xi , x (i) ) = (xi ! x (i) )0 S! (i) ) + +2 p. (i) (xi ! x

320

CAPTULO 10. INFERENCIA CON DATOS MULTIVARIANTES

Captulo 11 METODOS DE INFERENCIA AVANZADA MULTIVARIANTE


11.1 INTRODUCCIN

En este captulo vamos a presentar mtodos ms avanzados de inferencia para datos multivariantes. En primer lugar presentamos un algoritmo para estimar por mxima verosimilitud muestras con datos incompletos. Este algoritmo, el EM, es muy til para estimar distribuciones mezcladas, que utilizaremos en el captulo 14 en problemas de clasicacin y tambin es til en la estimacin del modelo factorial que se presenta en el captulo 11. Adems este algoritmo tiene un inters general por s mismo para resolver la estimacin de valores ausentes en cualquier problema multivariante. A continuacin se presentan los mtodos robustos clsicos de estimacin, que pueden tambin considerarse como mtodos de estimacin de mezclas en un caso especial: hay una distribucin central, que genera la mayora de las observaciones, y una distribucin contaminante de forma desconocida que introduce una pequea proporcin de atpicos en la muestra. Se presentan brevemente los mtodos clsicos y se introduce un mtodo reciente basado en proyecciones que es fcil de implementar y que puede evitar el efecto perturbador de los datos atpicos en la estimacin de los parmetros. Se presenta tambin una breve introduccin a la inferencia bayesiana. Adems de su atractivo metodolgico, la inferencia bayesiana permite incorporar informacin a priori, que puede ser importante en problemas de clasicacin (captulo 12, anlisis discriminante) y construccin de conglomerados (captulo 14, clasicacin mediante mezclas). Los mtodos bayesianos son tambin tiles en anlisis factorial (captulo 11). Finalmente, los mtodos bayesianos de estimacin por Montecarlo son muy ecaces para la estimacin de mezclas, como veremos en el captulo 14. En este captulo se revisa brevemente el enfoque Bayesiano para la estimacin y el contraste de hiptesis y se deduce un criterio de comparacin de modelos a partir de este enfoque. Finalmente se presentan algunos mtodos clasicos y bayesianos para seleccin de modelos. Este captulo es ms avanzado que los anteriores y puede saltarse en una primera lectura sin prdida de continuidad, ya que la comprensin bsica de los mtodos que se presentan en los captulos siguientes no requiere el material de este captulo. Sin embargo este captulo ser necesario para el lector interesado en los detalles de aplicacin de los mtodos, y en 321

322

CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE

la comprensin de los algoritmos de estimacin actuales para el anlisis multivariante y los mtodos de data mining, que estn adquiriendo una popularidad creciente.

11.2

ESTIMACIN MV CON DATOS FALTANTES

La estimacin mximo verosmil con datos faltantes es importante por dos razones principales. En primer lugar, es posible que la muestra tenga observaciones faltantes en algunas variables. Por ejemplo, si tomamos una muestra de personas desempleadas y queremos relacionar sus caractersticas fsicas con la duracin de desempleo, es posible que para algunas personas no se consiga este dato. (En otros casos podemos tener informacin parcial, por ejemplo un valor superior o inferior de la duracin, y en estos casos decimos que el dato est censurado o truncado, no consideraremos estos casos en este libro). Como segundo ejemplo, si hacemos una encuesta de opinin, y representamos por x el vector de respuestas de un individuo, es posible que determinadas preguntas del cuestionario no sean respondidas por algunos individuos, dando lugar a un problema de datos faltantes. Si los datos faltantes ocurren en unos pocos elementos de la muestra, podemos eliminar las observaciones incompletas, pero si ocurren en una proporcin importante de observaciones, podemos mejorar la precisin de las estimaciones utilizando todos los datos, con el coste de un mayor esfuerzo computacional. En segundo lugar, la estimacin MV de muchos modelos de anlisis multivariante puede realizarse ms facilmente con este algoritmo. Por ejemplo, en el modelo factorial, que estudiaremos en el captulo 12, o en la estimacin de distribuciones mezcladas para clasicacin, que estudiaremos en el captulo 15. En el primer caso, podemos suponer que los factores son variables ausentes y en el segundo, que faltan los valores de las variables de clasicacin que nos indican de que poblacin proviene cada elemento. Intuitivamente, el procedimiento para estimar los parmetros de un modelo con una muestra que contiene datos faltantes podra ser: (1) estimar los parmetros del modelo con los datos que estn completos, maximizando la verosimilitud de la forma habitual; (2) Utilizar los parmetros estimados en (1) para predecir los valores ausentes; (3) Sustituir los datos ausentes por sus predicciones y obtener nuevos valores de los parmetros maximizando la verosimilitud de la muestra completada. Adicionalmente podramos iterar entre (2) y (3) hasta que se obtenga convergencia, es decir hasta que el valor de los parmetros no cambie de una iteracin a la siguiente. Veremos en la seccin siguiente que este procedimiento intuitivo es ptimo en muchos casos, pero no siempre. La razn es que no tiene en cuenta cmo se utilizan los datos ausentes para estimar los parmetros a partir de la verosimilitud. Por ejemplo, supongamos el caso ms simple de una variable escalar, x, y un nico P parmetro a estimar, ! . Supongamos que la funcin 2 soporte para ! es de la forma: ! ! 2! x2 i . Entonces, el estimador MV de ! es, derivando P b respecto a ! e igualando a cero, !MV = x2 i . Supongamos ahora que la observacin x1 falta. Para obtener entonces el estimador b !MV tendriamos que estimar P 2 el valor esperado 2 b de x1 a la vista de la informacin disponible y utilizarlo en !MV = xi . Si en lugar del 2 valor esperado de x1 calculamos el valor esperado de x1 y lo sustituimos en esta ecuacin

11.2. ESTIMACIN MV CON DATOS FALTANTES

323

2 elevado al cuadrado, como en general E (x2 1 ) 6= [E (x1 )] , este segundo procedimiento no es necesariamente ptimo. Por ejemplo, si la variable x1 tiene media cero dada la informacin disponible lo que necesitamos es calcular su varianza, E (x2 1 ), y sustituirlo en la ecuacin del parmetro. Esto no es lo mismo que calcular E (x1 ), que es cero, y sustituirlo como x1 , con lo que x2 1 ser cero. Un procedimiento eciente y general para maximizar la verosimilitud cuando tenemos datos faltantes es el algoritmo EM (Dempster, Laird y Rubin, 1977), que extiende el procedimiento intuitivo anterior, como describimos a continuacin

11.2.1

Estimacin MV con el algoritmo EM

Supongamos que tenemos una muestra de tamao n de una variable vectorial, x, pero en algunos de los n elementos observados faltan los valores de algunas variables. Por ejemplo, observamos el peso y la altura de personas y en algunos casos tenemos slo el dato de la estatura o slo el dato del peso. Vamos a suponer que estos datos ausentes aparecen al azar, es decir, que en el ejemplo anterior la falta del dato del peso no aparece con ms frecuencia en individuos de peso alto o bajo o con estatura ms alta o ms baja, sino que falta ese dato por razones no relacionadas con los valores de las variables. Para cada elemento no hay una relacin entre los valores observados y la aparicin o no de un dato ausente. Un ejemplo donde no se cumple esta condicin es una encuesta de opinin donde las personas que maniestan desacuerdo en un punto, por ejemplo con la pregunta diez, dejan de responder al cuestionario a continuacin. En este caso, los valores ausentes en la pregunta once no aparecen al azar, sino que son consecuencia del desacuerdo con la pregunta diez. Los dos casos ms importantes de aparicin de valores ausentes son: (1) Algunos elementos tienen datos faltantes: los elementos de la muestra x1 , ..., xn1 , estn completos, pero los restantes, xn1 +1 , ..., xn , carecen de los valores de algunas variables, o de todas ellas; (2) Algunas variables tienen datos faltantes: si dividimos el vector de variables en dos grupos y escribimos x = (y0 , z0 )0 , las variables y estn completas pero las z tienen datos ausentes. Para plantear el problema de manera que englobe estos dos casos, supondremos que tenemos una muestra con una matriz de datos observados Y = (y1 , ..., yn ), donde yi es un vector p1 1, y un conjunto de datos ausentes Z = (z1 , ..., zm ), donde zi es un vector p2 1. Esta formulacin cubre los dos casos anteriores, ya que en el primero tomamos z1 = xn1 +1 , ..., zm = xn y m = n ! n1 + 1. En el segundo m = n. Este conjunto de variables proviene de un modelo con parmetros %, y se desea estimar el vector de parmetros con la informacin disponible.La funcin de densidad conjunta de todas las variables (Y , Z) puede escribirse f (Y , Z|%) =f (Z|Y , %)f (Y|%) que implica log f (Y |%) = log f (Y, Z|%)! log f (Z|Y, %). En la estimacin MV el primer miembro de esta expresin, log f (Y|%), es la funcin soporte de los datos observados, cuya maximizacin sobre % nos proporcionar el estimador

324

CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE

MV de los parmetros. El trmino log f (Y , Z|%) es la funcin soporte si hubisemos observado la muestra completa, y el trmino log f (Z|Y, %) proporciona la densidad de los datos ausentes conocida la muestra y los parmetros. Podemos escribir L(%|Y) =LC (%|Y, Z)! log f (Z|Y, %). (11.1)

Es frecuente que la maximizacin del soporte supuesta la muestra completa, LC (%|Y , Z), sea fcil, mientras que la maximizacin del soporte con los datos observados, L(% |Y ), sea complicada. El algoritmo EM es un procedimiento iterativo para encontrar el estimador MV de % trabajando siempre con la funcin ms simple, LC (%|Y, Z), en lugar de la compleja, L(%|Y ). La estimacin se obtiene iterando en los dos pasos siguientes: b , (en la primera iteracin i = 1) se calcula 1. Partiendo de un estimador inicial, % la esperanza de las funciones de los valores ausentes que aparecen en la funcin de verosimilitud completa, LC (%|Y, Z), con respecto a la distribucin de Z dados el valor b(i) y los datos observados Y. Sea: % el resultado de esta operacin que se denomina el paso E (de tomar valores esperados) del algoritmo. Observemos que cuando LC (%|Y , Z) sea una funcin lineal de Z, este paso llevar a sustituir en esta funcin los valores ausentes por sus esperanzas dados los parmetros. Sin embargo, cuando en la verosimilitud aparezcan funciones g (Z ) calcularemos la esperanza de estas funciones dados el resto de los datos y la estimacin disponible de los parmetros. 2. A continuacin se maximiza la funcin L$ C (% |Y ) con respecto a % . Este es el paso M (maximizacin) del algoritmo. Este paso M equivale a maximizar la verosimilitud completa donde se han sustituido las observaciones faltantes por ciertas estimaciones de sus valores. b 3. Sea % el estimador obtenido en el paso M. Con este valor volvemos alpaso E. Se it b(i+1) b(i) era entre ellos hasta obtener convergencia, es decir hasta que la diferencia % !% sea sucientemente pequea. Puede demostrarse (Dempster, Laird y Rubin, 1977), vase el apndice 11.1, que este algoritmo maximiza L(%|Y ). Adems, la verosimilitud aumenta en cada iteracin, aunque la convergencia puede ser muy lenta. A continuacin presentamos dos ejemplos de utilizacin del algoritmo. En el primero, la funcin de verosimilitud completa es lineal en los datos ausentes, con lo que les sustituimos por sus estimaciones. En el segundo, los valores ausentes aparecen de forma no lineal en la verosimilitud, y sustituiremos estas funciones por sus estimaciones.
(i+1) (i)

L$ C (% |Y ) = EZ/% b (i) [LC (% |Y , Z)]

11.2. ESTIMACIN MV CON DATOS FALTANTES

325

11.2.2

Estimacin MV de mezclas

Para ilustrar el comportamiento del algoritmo EM vamos a considerar un problema simple de estimacin de mezclas que abordaremos con ms generalidad en el captulo 14. Supondremos que los datos de una muestra, x1 , ..., xn se generan mediante la distribucin , 1 f1 (x) + (1!, 1 )f2 (x) donde fi (x) es Np (i , Vi ), i = 1, 2. La funcin soporte para la muestra es L(%|X) =
n X i=1

log(, 1 f1 (xi ) + (1!, 1 )f2 (xi ))

donde % = (1 , 2 , V1 , V2 , , 1 ) es el vector de parmetros. La estimacin MV de los parmetros es complicada, porque tenemos que resolver las ecuaciones: & L(%|X) X f1 (xi ) ! f2 (xi ) = =0 &, 1 , f ( x ) + (1 ! , ) f ( x ) 1 1 i 1 2 i i=1 Para interpretar esta ecuacin llamemos , 1i = , 1 f1 (xi ) ,1 f1 (xi ) + (1!, 1 )f2 (xi )
n

(11.2)

a la probabilidad a posteriori de que la observacin i sea generada por la primera poblacin. Entonces 1 ! , 1i = y la ecuacin (11.2) puede escribirse:
n X , 1i 1 ! , 1i ( ! )=0 , (1 ! , ) 1 1 i=1

(1!, 1 )f2 (xi ) , 1 f1 (xi ) + (1!, 1 )f2 (xi )

que equivale a
n X (, 1i ! , 1 ) = 0 i=1

Es decir , b1 = Pn
i=1

Esta ecuacin indica que la probabilidad estimada de pertenencia a la primera poblacin debe ser igual al promedio de las probabilidades estimadas de que cada observacin pertenezca a esa poblacin. Desgraciadamente no puede aplicarse directamente porque para calcular las

, b1i

326

CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE

, b1i necesitamos todos los parmetros del modelo. Derivando la funcin soporte respecto a 1 :
!1 & L(%|X) X , 1 f1 (xi )V1 (xi ! 1 ) = =0 & 1 , f ( x ) + (1 ! , ) f ( x ) 1 1 i 1 2 i i=1 n X i=1 n

que puede escribirse como , b1i (xi ! 1 ) = 0 Pn


i=1 % b P n 1g x. b 1i i i=1 %

de donde obtenemos:

que indica que la media de la primera poblacin se estima dando un peso a cada observacin proporcional a la probabilidad relativa de pertenecer a esta poblacin. El mismo resultado se c obtiene por simetra para b1g por , b2g = 1 ! , b1g . Anlogamente, derivando 2 intercambiando , respecto a V1 puede demostrarse que el estimador es: que tiene un interpretacin similar, como promedio de desviaciones de los datos respecto a sus medias, con pesos proporcionales a las probabilidades a posteriori. Para resolver estas ecuaciones y obtener los estimadores necesitamos las probabilidades , b1i , y para calcular estas probabilidades con (15.10) necesitamos los parmetros del modelo. Por otro lado vemos que si las observaciones estuviesen clasicadas como viniendo de una u otra poblacin el problema es muy simple, porque entonces , b1i es uno, si la i proviene de la primera poblacin o cero, si viene de la segunda, y las frmulas (11.3) y (11.4) se reducen a aplicar las frmulas de estimacin habituales a las observaciones de cada grupo. Intuitivamente, podramos partir de una asignacin, estimar los parmetros y calcular las probabilidades , b1i e iterar entre ambas etapas y esta es la solucin que se obtiene con el algoritmo EM. Como la estimacin es muy simple si tenemos bien clasicadas las observaciones vamos a aplicar el algoritmo EM introduciendo 2n variables de clasicacin que van a indicar de que poblacin proviene cada dato muestral y que consideraremos como datos ausentes. Las primeras n variables z1i , i = 1, ..., n se denen mediante : z1i = 1, = 0, si xi proviene de f1 si xi proviene de f2 b 1 = Pn V i=1
% b P n 1g (xi b 1g i=1 %

b1 =

(11.3)

b 1 )(xi ! b 1 )0 !

(11.4)

y analogamente z2i se dene para que tome el valor uno si xi proviene de f2 , de manera que z1i + z2i = 1. Para escribir la verosimilitud completa de las variables x y de las z tenemos en cuenta que, llamando % al vector de parmetros, para una observacin cualquiera: f (x1 , z11 , z21 |%) =f (x1 /z11 , z21 %)p(z11 , z21 |%)

11.2. ESTIMACIN MV CON DATOS FALTANTES donde f (x1 |z11 , z21 %) =f1 (x1 )z11 f2 (x1 )z21

327

ya que si z11 = 1 la dato x1 proviene de f1 y entonces forzosamente z21 = 0 y viceversa. La probabilidad de los valores z es:
z21 11 p(z11 , z21 |%) =, z 1 (1!, 1 )

ya que la probabilidad de z11 = 1 (en cuyo caso z21 = 0 ) es , 1 . Uniendo ambas ecuaciones podemos escribir log f (x1 , z11 , z21 |%) =z11 log , 1 + z11 log f1 (x1 )+z21 log (1!, 1 ) + z21 log f2 (x1 ) y, para toda la muestra, llamando X = (x1 , ..., xn ) e incluyendo las variables de clasicacin Z = (z11 , ..., z1n , z21 , ..., z2n ) es X X X X z1i log f1 (xi )+ z2i log (1!, 1 ) + z2i log f2 (xi ) (11.5) L(X, Z|%) = z1i log , 1 +

Para aplicar el algoritmo EM primero necesitamos una estimacin inicial de los parmetros. Esto puede hacerse representando grcamente los datos en un diagrama de dispersin bivariante y diviendo en funcin de ese grco los datos en dos grupos. Supongamos que tomamos como grupo 1 el de menor dispersin aparente. Entonces denimos unos valores (1) iniciales para las variables z, que llamaremos z (1) de manera que z1i = 1 si la observacin (1) xi se clasica en la primera problacin (entonces z2i = 0) y cero si se clasica en la segunda (1) (entonces z2i = 1). Una vez denidas estas variables de clasicacin estimaremos las medias mediante P (1) z xi (1) b 1 = P 1i(1) (11.6) z1i b (1) = P 1 V 1 (1) z1i
n X i=1

b (1) y lo mismo para 2 . Analogamente, estimaremos la matriz de varianzas y covarianzas mediante b 1 )(xi ! b 1 )0 , z1i (xi !
(1) (1) (1)

(11.7)

A continuacin tomamos esperanzas en la distribucin conjunta (11.5) respecto a la distribub(1) de los parmetros. Como las variables z aparecen cin de los z supuesto este valor inicial % linealmente, esto se reduce a calcular sus esperanzas y sustituirlas en la ecuacin (11.5). Las

que es simplemente la matriz de covarianzas muestrales de las observaciones de ese grupo. Finalmente, estimaremos la probabilidad de que un dato pertenezca al grupo uno por la proporcin de datos en ese grupo: P (1) z1i (1) , b1 = (11.8) n

328

CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE 1 0.837 -0.655 11 2.408 2.992 2 -0.722 -1.081 12 0.595 1.310 3 -0.722 -0.048 13 6.925 4.634 4 -0.201 0.379 14 3.680 3.565 5 -0.021 -0.330 15 -1.265 0.264 6 0.279 -0.500 16 -0.538 1.052 7 2.143 3.530 17 6.351 3.896 8 4.382 5.355 18 5.289 2.549 9 4.219 2.324 19 4.868 2.556 10 0.337 1.623 20 -2.191 -0.414

Tabla 11.1: Datos simulados, los 6 primeros de una distribucin y los 14 siguientes de otra

variables z son binomiales puntuales, y su esperanza coincide con la probabilidad de que tomen el valor uno. Por tanto: b(1) b(1) z c 1i = E (z1i |% , xi ) = P (z1i = 1|% , xi )

y esta probabilidad se calcula mediante el teorema de Bayes

b(1) , xi ) = P (z1i = |1%

Una vez obtenidos los valores z c ji los sustituiremos en la funcin de verosimilitud (11.5) y la maximizaremos respecto a los parmetros. Esto conduce a resolver las ecuaciones (11.6), (1) por las estimaciones z c (11.7) y (11.8) pero sustituyendo ahora las zij ji . Observemos que ahora las z c ji ya no sern valores cero o uno, y la frmula (11.6) ya no calcula la media de las observaciones de un grupo sino que hace una media ponderada de todas las observaciones con peso proporcional a la probabilidad de pertenecer al grupo. Esto propocionar otro b(2) que, mediante (11.9) conducir a nuevos valores de las z nuevo estimador % c ji , y el proceso se itera hasta la convergencia.

b ) + (1!, b ) , b1 f1 (x1 |% b1 )f2 (x1 |%


(1) (1)

(1) b(1) ) , b1 f1 (x1 |% (1)

(1)

(11.9)

Ejemplo 11.1 Vamos a ilustrar el funcionamiento del algoritmo EM para estimar distribuciones normales con datos simulados. Hemos generado 20 observaciones de una variable bidi 2 2 mensional de acuerdo con el modelo .3N (0, I )+ .7N (, V ) donde = (2, 2)0 y V = . 2 4 Los datos generados, donde los seis primeros provienen de la primera mezcla y los 14 siguiente de la segunda se presentan en la tabla 11.1 Para obtener una estimacin inicial de los parmetros, consideramos el histograma de cada variable.

11.2. ESTIMACIN MV CON DATOS FALTANTES

329

Figura 11.1: Histograma de la primera variable de la mezcla de normales

El histograma de la primera variable representado en la gura (11.1) indica que los datos parecen ser mezcla de dos poblaciones con medias (0, 4) y similar variabilidad. Las desviaciones tpicas de las poblaciones sobre esta variable son del orden de uno. El histograma de la segunda, gura (11.2), parece de nuevo tambin una mezcla, aunque dadas las pocas observaciones no es muy claro. Las medias parecen ser (0,3) pero ahora parece haber mas variabilidad en la segunda variables que en la primera. El diagrama de dispersin de las variables de la gura (??) indica dos grupos y correlacin entre las variables. A primera vista este grco de dispersin sugiere dos poblaciones, la primera con 11 elementos y media prxima al punto (0,0) y la segunda con nueve elementos y media alrededor del punto (4,3). Uniendo la informacin univariante y bivariante vamos a tomar como estimacin (1) (1) (1) (1) b 1 = 1 .5 y V b2 b 2 = (4, 3)0 y matrices de covarianzas V b 1 = (0, 0)0 , = inicial .5 1 1 1 . Para las proporciones tomaremos la estimacin inicial ms simple ,1 = , 2 = .5. 1 4

Una asignacin mejor sera clasicar las varaibles en los grupos y estimar a partir de esa clasicacin los parmetros pero vamos a tomar una estimacin inicial rpida para ilustrar como funciona el algoritmo con estimaciones iniciales no muy precisas.

330

CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE

Figura 11.2: Histograma de la segunda variable en la mezcla de normales

Diagrama de dispersin de las dos variables. La aplicacin del algoritmo EM se resume en la tabla siguiente. Se indican las iteraciones, el valor de , 1 , y las medias estimadas de cada variable en cada iteracin. iter , b1 b11 b12 b21 b22 1 0.5551 !0.3021 0.1780 4.4961 3.4869 2 0.5488 !0.3289 0.1435 4.4614 3.4826 3 0.5479 !0.3308 0.1408 4.4551 3.4798 4 0.5478 !0.3311 0.1404 4.4536 3.4791 5 0.5477 !0.3311 0.1403 4.4533 3.4790 6 0.5477 !0.3311 0.1403 4.4532 3.4789 Se observa que la convergencia se alcanza bastante rpido, y que los resultados obtenidos son consistentes con los datos del grco de dispersin de las variables. En efecto, once

11.2. ESTIMACIN MV CON DATOS FALTANTES

331

observaciones son clasicadas en el primer grupo y nueve en el segundo. Las probabilidades a posterior de cada observacin de pertenecer al grupo 1 son ( 0.9999 1.0000 1.0000 0.9998 1.0000 1.0000 0.0003 0.0000 0.0000 0.9725 0.0008 0.9828 0.0000 0.0000 1.0000 0.9989 0.0000 0.0000 0.0000 1.0000). Esto es consecuencia de que algunas observaciones generadas por el grupo 2 han aparecido muy prximas a las del grupo uno y, en consecuencia, se han marcado como provenientes del grupo nal delas matrices de covarianzas es 1. La estimacin 0.7131 0.1717 2.3784 0.4209 V1 = y V2 = . 0.1717 0.6841 0.4209 0.9414 Se ha comprobado que esta solucin no parece depender de los valores iniciales. Comenzando con V1 = V2 = I se obtiene la misma solucin y si tomamos como valores iniciales los exactos utilizados para generar los datos se obtiene de nuevo este resultado. El problema es que esta estimacin es consistente con los datos, y dado el pequeo tamao muestral la precisin de los estimadores es baja. Si repetimos el problema con n = 100 los parmetros obtenidos se aproximan mucho ms a los verdaderos, pero la convergencia es muy lenta y hacen falta ms de 50 iteraciones para alcanzarla.

11.2.3

Estimacin de poblaciones normales con datos ausentes

Vamos a aplicar el algoritmo EM para estimar los parmetros de una distribucin normal multivariante cuando disponemos de observaciones ausentes. La funcin de verosimilitud para una muestra sin valores ausentes puede escribirse, segn (10.4), en funcin de las observaciones X X 0 1 n n L(, V|X) = ! log |V| ! tr(V!1 xi x0i ) ! 0 V!1 + V!1 xi 2 2 2 i=1 i=1
n n

(11.10)

P b = n y sabemos que la estimacin MV cuando tenemos toda la muestra es i=1 xi /n y Pn 0 0 b b b. V = S = i=1 xi xi /n ! Supongamos ahora que los vectores de observaciones x1 , ..., xm (m < n) estn completos, pero que los vectores xm+1 = z1 , ..., xn = zn!m carecen de los valores de algunas variables (o de todas ellas). Con la notacin de la seccin anterior, sea Y el conjunto de datos disponibles y Z las variables ausentes. La funcin de verosimilitud completa viene dada por (11.10). Para aplicar el algoritmo EM, comenzaremos calculando un estimador inicial con b (0) estos estimadores iniciales. Tomamos b (0) y V b (i) = b (0) y los datos disponibles, y sean b (i) = V b (0) y iteraremos entre los dos pasos siguientes: V 1. Paso E. Hay que calcular la esperanza de la funcin de verosimilitud completa (11.10) b(i) =( b (i) ) y b (i) , V respecto a la distribucin de los datos faltantes Z, dados los parmetros % los datos observados Pn Y . En esta funcin los datos faltantes aparecen en dos trminos. El 0 !1 primero es V simplemente i=1 xi , y all aparecen de forma lineal, por lo que tendremos P 0 que sustituir los datos ausentes por sus estimaciones. El segundo es tr(V!1 n i=1 xi xi ), y aqu tendremos que sustituir las expresiones xi x0i por sus estimaciones. Comencemos con el primer trmino, tomar esperanzas de dados los parmetros y los datos conocidos implica b(i) ). El calculo de esta esperanza se realiza como sustituir xi para i > m por E (xi /Y, % sigue:

332

CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE

(a) Si el vector xi es completamente inobservado, es decir, no se ha observado ninguna b(i) ) = b (i) , no depende de los datos obvariable para ese elemento, entonces E (xi /Y , % servados. Puede comprobarse que, nalmente, esta sustitucin es equivalente a desechar completamente esta observacin, lo que resulta intuitivo. Si no observamos en un elemento ninguna variable es equivalente a no tomarlo en la muestra. (b) Si el vector xi = [x01i x02i ]0 se observa parcialmente, de manera que no conocemos los valores de ciertas variables x1i , pero si hemos observado los valores de otras x2i ,entonces b(i) ) depende de los valores observados de x2i y ser igual a la esperanza condicionaE (xi /Y , % b(i) ). Esta esperanza se calcula, segn la seccin 8.5.1, por regresin mediante da E (x1i /x2i ,% : donde hemos particionado el vector de medias y la matriz de covarianzas con relacin a los dos bloques de variables. P 0 Para calcular la esperanza delP segundo termino, observemos primero que E [tr(V!1 n i=1 xi xi )] = P n n tr [E (V!1 i=1 xi x0i )] = tr [V!1 i=1 E (xi x0i )] . Por tanto tenemos que obtener las esperanb(i) ) para i > m. Consideremos, como antes, los dos casos siguientes: zas E (xi x0 /Y, % b(i) ) = V b (i) ! b (i) b (i)0 , y, de (a) Si el vector es completamente inobservado, E (xi x0i /Y , % nuevo, puede comprobarse que esto va a ser equivalente a desechar completamente esta observacin. (b) Si el vector xi se observa parcialmente y no conocemos los valores de x1i pero si los de x2i , utilizaremos la relacin
i) (i)0 b(i) ) = E (x1i x0 /x2i ,% b(i) ) = V b (i) + x b( b1i.2 E (x1i x01i /Y, % 11.2 1i.2 x 1i i i) (i) b (i) (i) (i) b(i) ) = E (x1i /x2i ,% b(i) ) = x b 12 b( c c E (x1i /Y , % +V V22 (x2i ! 1 2 ) 1i.2 =

(11.11)

(11.12)

b 11.2 es la matriz de varianzas de la variable x1i dado x2i . Segn la seccin 8.5.1 esta donde V varianza condicionada viene dada por
(i)

b (i) y sustituir en (11.12). que podemos calcular a partir de V 2. Paso M. En la funcin de verosimilitud completa (11.10) reemplazamos las funciones de los valores ausentes por sus estimaciones (11.11) y (11.12) y calculamos los nuevos estimadores de mxima verosimilitud, que vendrn dados por Pn b(i) x (i+1) b = i=1 i n
n X i=1 (i+1)

b (i) = V b (i) ! V b (i) V b (i)!1 V b (i) . V 11.2 11 12 22 21

(11.13)

i) b( donde en x i los valores observados no se modican y los no observados se han sustituido b (i+1) ser por sus esperanzas condicionales (11.11). La estimacin de V

b (i+1)

b(i) )/n E(xi x0i /Y ,%

b !

(i+1) 0

11.2. ESTIMACIN MV CON DATOS FALTANTES

333

donde las esperanzas de los valores observados son ellos mismos y las de los faltantes vienen dadas por (11.12) y (11.13). b (i) = b (i) = b (i+1) y V Con los valores estimados en el paso M volvemos al E, haciendo b (i+1) . El algoritmo naliza cuando el cambio en los parmetros de una iteracin a la siguiente V es menor que un valor pequeo, como .001. A continuacin, presentamos un ejemplo de su funcionamiento. Ejemplo 11.2 Vamos a ilustrar el funcionamiento del algoritmo EM con los diez primeros datos de las variables estatura y peso de la base de datos MEDIFIS. Supondremos que en las tres primeras personas en la muestra no se ha observado la variable peso. Llamando x1 a esta variable, la muestra es: x1 = (/, /, /, 52, 51, 67, 48, 74, 74, 50), donde el signo * indica que el valor est ausente. Sin embargo, suponemos que se han observado los diez valores de la variable estatura: x2 = (159, 164, 172, 167, 164, 161, 168, 181, 183, 158) Ejercicio 11.1 Para comenzar el algoritmo obtenemos una estimacin inicial del vector de b (0) = (59.43, medias con los diez datos de x2 y los siete de x1 . Este vector es 167.7). Con las 118 . 24 70 . 06 (0) b = . siete parejas de datos completos calculamos la matriz de covarianzas V 70.06 79.26 Con estos parmetros iniciamos el paso E, calculo de las esperanzas condicionadas. La esperanza condicionada (regresin) de la primera variable en la segunda es E (x1 /x2 ) = 59.43 + 70.06/79.26(x2 ! 167.7) es decir, el peso se prev con la recta de regresin entre peso y estatura cuyo coeciente de regresin es 70.06/79.26 = .8839. Aplicndolo a los valores faltantes ! # ! # ! # x11 159 ! 167.7 51.738 E " x12 $ = 59.43 + 70.06/79.26 " 164 ! 167.7 $ = " 56.158 $ 172 ! 167.7 x13 63.229 Despus de esta primera estimacin de los valores ausentes, estimaremos los productos cruzados. Los productos de la primera variable por la segunda son : b(i) ) = x2i E (x1i /x2i ,% b(i) ) E (x1i x2i /Y, %
i)2 b(i) b (i) b( E (x2 1i /Y , % ) = V11.2 + x 1i.2

que sern 159 51.738, para i=1, 164 56.158, para i=2, y 172 63.229, para i=3. Los cuadrados de la variable ausente se estima por

b donde V 11.2 es la varianza residual de la regresin entre el peso y la estatura dada por 118.24 ! 70.062 /79.26 = 56.31. Por tanto para i = 1, 2, 3 los valores sern 56.31 + 51.7382 = 2733.13, 56.31 + 56.1582 = 3210.03, 56.31 + 63.229 = 4.0542. Con estas estimaciones pasamos al paso M. En el calculo de la media, la nueva estimacin b (i) = (58.71, 167.7) donde ahora la primera componente se calcula con diez datos, ser
(i)

334

CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE Na 1 2 3 4 5 6 7 8 9 x b11 51.739 52.283 52.294 52.281 52.275 52.272 52.272 52.271 52.271 x b12 56.159 55.978 55.927 55.910 55.905 55.903 55.902 55.902 55.902 x b13 63.229 61.890 61.740 61.717 61.713 61.711 61.711 61.711 61.711 b1 58.713 58.615 58.596 58.591 58.589 58.589 58.588 58.588 58.588 s12 58.577 57.594 57.540 57.547 57.553 57.555 57.556 57.556 57.556 s2 ss2 1 1 107.582 90.686 108.300 89.012 108.865 88.929 109.070 88.941 109.135 88.948 109.156 88.9515 109.162 88.9525 109.164 88.953 109.164 88.953

Tabla 11.2: Estimaciones del algoritmo EM en las distintas iteraciones sustituyendo los ausentes por sus estimaciones. Para calcular la matriz de covarianzas se utiliza la expresin P 2 P 2 1 x b x b x 58 . 71 58 . 71 167 . 7 1 i 2 i ( i ) 1 i b = P P 2 V ! x b1i x2i x2i 58.71 167.7 167.72 10

donde los valores x b1i son los observados (para i=4,...,10) o las estimaciones de los ausentes (para i=1,2,3) y anlogamente para x b2 b2 1i . Observemos que la estimacin de x 1i NO es la estimacin de x b1i elevada al cuadrado sino que adems se le aade el valor de la varianza residual como hemos visto. La tabla 11.2siguiente indica la evolucin de las estimaciones proporcionadas por el algoritmo hasta la convergencia para los valores ausentes, la media de la primera variable, la covarianza y la varianza de la primera variable. El algoritmo converge en nueve iteraciones. Se ha aadido una columna adicional , ss2 1 ,varianza de la primera variable, para ilustrar las estimaciones que se obtendran si en lugar de utilizar el algoritmo EM utlizamos el mtodo ms simple de modicar el paso E sustituyendo cada observacin faltante por su media condicionada e iterando despus. Se observa que este segundo procedimiento al no tener en cuenta toda la incertidumbre subestima las varianzas: la varianza con este mtodo es siempre menor que la estimada por el algoritmo EM.

11.3

ESTIMACIN ROBUSTA

La estimacin MV depende de la hiptesis de normalidad en los datos. Esta es una hiptesis fuerte, y difcil de comprobar con muestras de tamao mediano. En particular, la estimacin MV de los parmetros suponiendo normalidad puede ser muy mala cuando los datos provengan de distribuciones con colas pesadas, que pueden generar valores atpicos. Supongamos por ejemplo que los datos provienen de una normal contaminada , 1 N1 (, V) + (1!,1 )N2 (,cV) donde la mayora de los datos, por ejemplo, , 1 = .95, se hab generado con la distribucin central, N1 (, V), pero una pequea proporcin (1!, 1 ), por ejemplo el 5%, provienen de la

11.3. ESTIMACIN ROBUSTA

335

distribucin alternativa, que tiene mayor variabilidad, tanto ms cuanto mayor sea c, que es siempre mayor que uno de manera que los elementos generados por ella pueden ser atpicos y estar mucho ms alejados del centro que los de la primera. Hemos visto en la seccin 11.2 , estimacin de mezclas, que los estimadores MV de los parmetros se calculan como: Pn b1i xi i=1 z b= P n b1i i=1 z y X b = P1 V z b1i (xi ! x)(xi ! x)0 , z b1i i=1
n

donde las variables z b1i son estimaciones de la probabilidad de que la observacin provenga de la primera poblacin (el dato no sea atpico). Los mtodos robustos parten de estas ecuaciones pero eligen los pesos z b1i que se aplican a las observaciones de manera que el estimador resultante tenga buenas propiedades de robustez ante un conjunto amplio de distribuciones contaminantes, no necesariamente normales. Maronna (1976) propuso estimar iterativamente los parametros de la normal multivariante con estas ecuaciones pero sustituyendo los z b1i por pesos wi (Di ) convenientemente elegidos en funcin de la distancia de Mahalanobis del punto al centro de los datos. Por ejemplo, wi (Di ) se toma igual a uno si la distancia es menor que una cierta constante y tiene a cero cuando la distancia crece. El proceso es iterativo y recuerda el algoritmo EM. Se parte de una estimacin inicial de los parmetros, con ella se calculan las distancias de Mahalanobis y los pesos wi (Di ). Con estas estimaciones se reestiman los parmetros con los nuevos pesos, lo que conducir a nuevas distancias de Mahalanobis, que determinarn nuevos pesos y as sucesivamente. Este mtodo de modicar las ecuaciones de verosimilitud mediante pesos se conoce como M-estimacin. Aunque este procedimiento es atractivo, no funciona bien en dimensiones altas. Puede demostrarse que el punto de ruptura de un M-estimador como el que hemos presentado, que descuenta las observaciones extremas, es, como mximo 1/(p + 1). Esta propiedad implica que en alta dimensin es necesario buscar un enfoque alternativo a los estimadores clsicos robustos. Hay dos enfoques al problema. El primero, buscar un estimador que se base slo en una fraccin de los datos, presumiblemente no contaminados. El segundo es eliminar los atpicos, y construir el estimador a partir de los datos limpios de atpicos. Con el primer enfoque un procedimiento simple es el introducido por Rousseeuw (1985), que propone calcular el elipsoide de mnimo volumen, o de mnimo determinante, que engloba al menos el 50% de los datos. La justicacin intuitiva del mtodo es la siguiente. Los datos atpicos estarn en los extremos de la distribucin, por lo que podemos buscar una zona de alta concentracin de puntos y determinar con ellos el centro de los datos y la matriz de covarianzas, ya que los puntos de esa zona sern presumiblemente puntos buenos. Para encontrar ese ncleo central con alta densidad de datos, exigimos que el ellipsoide que cubre al menos el 50% de los datos tenga volumen mnimo. Esta idea es una generalizacin de los resultados univariantes, donde se obtienen estimadores muy robustos a partir de la idea de mediana. Por ejemplo, la mediana es una medida de centralizacin que se ve poco afectada

336

CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE

por una alta contaminacin de los datos. Analogamente, para dispersin podemos utilizar la meda, o mediana de las desviaciones de los datos respcto a la mediana, que tiene tambin buenas propiedades. Generalizando estas ideas, podemos buscar el centro de la distribucin de los datos multivariantes y su variabilidad construyendo el intervalo mnimo alrededor de un punto central que englobe el 50% de los datos. El centro de este intervalo ser una estimacin de la media y la matriz de covarianzas estimada en este intervalo, convenientemente escalada, estimar la matriz de varianzas de la problacin. Para obtener este intervalo, el proceso se implementa como sigue. Tomamos una muestra b (1) . A esta mnima de tamao p +1 y calculamos su media, x(1) , y su matriz de covarianzas, V muestra se la llama mnima, porque tiene el nmero exacto de elementos que necesitamos para calcular un valor del vector de medias y de la matriz de covarianzas, donde suponemos que la matriz de covarianzas estimada resulta no singular (en otro caso se tomara otra muestra mnima). A continuacin, calculamos las distancias de Mahalanobis al centro de esta muestra mnima para todos los puntos de la muestra completa de n puntos: b (1)!1 (xi ! x(1) ), Di = (xi ! x(1) )0 V

y tomamos la mediana, m(1) , de estas n distancias. Entonces, por construccin, el elipsoide b (1)!1 (x ! x(1) ) # m(1) contiene el 50% de los datos, o, lo que es denido por (x ! x(1) )0 V b (1) )!1 (x ! x(1) ) # 1 contiene el 50% de equivalente, el elipsoide denido por (x ! x(1) )0 (m(1) V los datos. El volumen de un elipsoide de este tipo es proporcional a (1) b (1) 1/2 b (1) 1/2 (1) p/2 m V = V (m ) . (11.14)

El procedimiento de calcular el elipsoide de volumen mnimo que engloba el 50% de los datos es tomar N muestras mnimas, obteniendo centros, x(1) , ..., x(N ) , matrices de covarianzas, b (1) , ..., V b (N ) , y medianas, m(1) , ..., m(N ) , y calcular en cada muestra mnima el volumen V (11.14). La muestra mnima que proporcione un menor valor del criterio (11.14) se utiliza para calcular los estimadores robustos como sigue. Supongamos que la muestra de volumen mnimo es la muestra J. Entonces, el estimador robusto de la media de los datos es x(J ) , y b (J ) se expande para que corresponda a una la estimacin de la matriz de covarianzas m(J ) V estimacin de la matriz en la poblacin. Como la distancia de Mahalanobis con respecto al centro de la problacin con la matriz de la poblacin es una +2 p , tenemos que, para muestras (J ) 0 (J ) (J ) b (J ) !1 grandes (x ! x ) (m V ) (x ! x ) que contiene el 50% de los datos debe ser prximo a 2 la mediana de la +2 p , que representaremos por +p.50 . Una estimacin consistente de la matriz de covarianzas para datos normales es b = (+2 )!1 m(J ) V b (J ) . V p.50

Un procedimiento alternativo, ms rpido y eciente que el mtodo anterior, ha sido propuesto por Pea y Prieto (2001) basado en las ideas de proyecciones expuestas en el captulo 3. El mtodo consiste en tres etapas. En la primera se identican los posibles atpicos como datos extremos de las proyecciones de la muestra sobre las direcciones que maximizan o minimizan la kurtosis de los puntos proyectados. En segundo lugar, se eliminan todos los

11.4. ESTIMACIN BAYESIANA

337

atpicos potenciales o puntos sospechosos, y llamando U al conjunto de observaciones no sospechosas, la estimacin incial robusta de los parmetros se realiza con: m = 1 X xi , |U | i%U X 1 = S (xi ! m )(xi !m )0 , |U | ! 1 i%U

En tercer lugar, utilizando estos estimadores robustos se contrastan una por una las observaciones sospechosas para ver si son atpicas. Como vimos en la seccin 10.8 el contraste utiliza la distancia de Mahalanobis: !1 (x !m vi = (xi !m )T S ), i 'i 6$ U.

2 2 y aquellas observaciones i 6$ U tales que vi < T0 .99 (p, n ! 1), donde T0.99 (p, n ! 1) es el percentil .99 de la distribucin de Hotelling las consideramos como aceptables y las incluimos en U . Cuando una nueva observacin se incluye en U los parmetros se recalculan y el proceso se repite hasta que no se encuentran nuevas observaciones. Finalmente, una vez contrastados todos los puntos se estiman los parmetros utilizando los elementos que no se han considerado atpicos, y estos sern los estimadores robustos nales. Este mtodo se basa en los resultados de la seccin 4.5 donde justicamos que los atpicos aislados van a identicarse buscando la direccin de mxima kurtosis y los grupos numerosos de atpicos van a aparecer en las direcciones de mnima kurtosis asociada a distribuciones bimodales.

11.4
11.4.1

ESTIMACIN BAYESIANA
Concepto

En el enfoque bayesiano un parmetro es una variable aleatoria y la inferencia respecto a sus posibles valores se obtiene aplicando el clculo de probabilidades (teorema de Bayes) para obtener la distribucin del parmetro condicionada a la informacin disponible. Si se desea un estimador puntual, se tomar la media o la moda de dicha distribucin; si se desea un intervalo de conanza, se tomar la zona que encierre una probabilidad jada en dicha distribucin. En consecuencia, una vez obtenida la distribucin de probabilidad del parmetro, los problemas habituales de inferencia quedan resueltos con la distribucin a posteriori de manera automtica y simple. El enfoque bayesiano tiene dos ventajas principales. La primera es su generalidad y coherencia: conceptualmente todos los problemas de estimacin se resuelven con los principios del clculo de probabilidades. La segunda es la capacidad de incorporar informacin a priori con respecto al parmetro adicional a la muestral. Esta fortaleza es, sin embargo, tambin su debilidad, porque exige siempre representar la informacin inicial respecto al vector de parmetros mediante una distribucin inicial o a priori, p(%). Este es el aspecto ms controvertido del mtodo, ya que algunos cientcos rechazan que la informacin inicial -que

338

CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE

puede incluir los prejuicios del investigador- se incluya en un proceso de inferencia cientca. En principio esto podra evitarse estableciendo una distribucin neutra, de referencia o no informativa para el problema, pero, aunque esto es factible en casos simples, puede ser en si mismo un problema complejo en el caso multivariante, como veremos a continuacin. La distribucin nal o a posteriori se obtiene mediante el teorema de Bayes. Si llamamos X a la matriz de datos, con distribucin conjunta f (X|%), que proporciona las probabilidades de los valores muestrales conocido el vector de parmetros, la distribucin a posteriori p(%|X) ser: p(%|X) = R f (X|%)p(%) . f (X|%)p(%)d(%) (11.15)

El denominador de esta expresin puede escribirse como m(X) la distribucin marginal de los datos. Esta distribucin se denomina distribucin predictiva y se obtiene ponderando las distribuciones f (X|%) para cada posible valor del parmetro por las probabilidades que la distribucin a priori asigna a estos valores. En la prctica, el clculo de (11.15) se simplica observando que el denominador no depende de %, y acta nicamente como una constante normalizadora para que la integral de p(%|X) sea la unidad. Por tanto, podemos calcular la distribucin posterior escribiendo: p(%|X) = k`(%|X)p(%), (11.16) ya que, dada la muestra, X es constante y al considerar f (X|%) como funcin de % se convierte en la funcin de verosimilitud `(%|x). Multiplicando para cada valor de % las ordenadas de `(%|X) y p(%) resulta la distribucin posterior. Para la forma de la posterior la constante k es irrelevante, y siempre puede determinarse al nal con la condicin de que p(%|X) sea una funcin de densidad e integre a uno. Esta regla se resume en: Posterior 0 Prior Verosimilitud donde 0 indica proporcional. La distribucin a posteriori es un compromiso entre la prior y la verosimilitud. Cuando p(%) es aproximadamente constante sobre el rango de valores en los que la verosimilitud no es nula, diremos que p(%) es localmente uniforme o no informativa, y la posterior vendr determinada por la funcin de verosimilitud. Una ventaja adicional del enfoque bayesiano es su facilidad para procesar informacin secuencialmente. Supongamos que despus de calcular (11.16) observamos una nueva muestra de la misma poblacin Y, independiente de la primera. Entonces, la distribucin inicial ser ahora p(%|X) y la distribucin nal ser : p(%|XY) = k`(%|Y)p(%|X). Naturalmente este mismo resultado se obtendra considerando una muestra ampliada (X, Y ) y aplicando el teorema de Bayes sobre dicha muestra, ya que por la independencia de X e Y: p(%|XY) = k`(%|XY)p(%) = k`(%|X)p(%|Y )p(%) La estimacin bayesiana proporciona estimadores (la media de la distribucin a posteriori) que son admisibles con criterios clsicos.

11.4. ESTIMACIN BAYESIANA

339

11.4.2

Distribuciones a priori

distribucin de probabilidad, sino como una herramienta para calcular la posterior. En efecto, si podemos suponer que a priori un parmetro escalar debe estar en el intervalo (!h, h), donde h puede ser muy grande pero es un valor jo, la distribucin a priori p(! ) = 1/2h es propia, ya que integra a uno. La distribucin p (%) = c debe pues considerarse como una herramienta simple para obtener la posterior. Estas distribuciones se denominan impropias. En problemas simples trabajar con distribuciones a priori impropias no produce problemas, (aunque puede dar lugar a paradojas, vase por ejemplo Bernardo y Smith, 1994), pero en situaciones un poco ms complicadas la distribucin a posteriori correspondiente puede no existir. Las distribuciones constantes estn sujetas a una dicultad conceptual adicional: si suponemos que la distribucin a priori para un parmetro escalar ! es del tipo p(!) = c y hacemos una transformacin uno a uno del parmetro - = g (! ), como d! p(-) = p(!) d-

Una manera simple de introducir la informacin a priori en el anlisis es utilizar distribuciones a priori conjugadas, que se combinan con la verosimilitud para producir distribuciones a posteriori simples, como veremos en la seccin siguiente. Si no se dispone de informacin a priori, o se desea que los datos hablen por s mismos, se debe establecer una distribucin a priori no informativa o de referencia. Intuitivamente, una distribucin a priori no informativa para un vector de parmetros de localizacin es aquella que es localmente uniforme sobre la zona relevante del espacio paramtrico, y escribiremos p (% ) = c. Sin embargo, esta eleccin tiene el problema de que si el vector de parmetros Z puede tomar cualquier valor real
& !&

p(!)d! = ., y la prior no puede interpretarse como una

si la distribucin es constante para el parmetro !, no puede ser constante para el parmetro -. Por ejemplo, si p(! ) = c, y - = 1/!, entonces |d!/d-| = -!2 y p(-) = c-!2 , que no es uniforme. Nos encontramos con la paradoja de que si no sabemos nada sobre ! y ! > 0, no podemos decir que no sabemos nada (en el sentido de una distribucin uniforme) sobre log! 0 !2 . Una solucin es utilizar las propiedades de invarianza del problema para elegir que transformacin del parmetro es razonable suponer con distribucin constante, pero aunque esto suele ser claro en casos simples (para las medias y para los logartimos de las varianzas) , no es inmediato cmo hacerlo para parmetros ms complejos. Je!reys (1961), Box y Tiao (1973), Bernardo (1979) y Bernardo y Smith (1994), entre otros, han estudiado el problema de establecer distribuciones de referencia con propiedades razonables. Para distribuciones normales, y para los casos simples considerados en este libro, la distribucin de referencia para un vector de parmetros de localizacin podemos tomarla como localmente uniforme y suponer que en la zona relevante para la inferencia p (% ) = c. Para matrices de covarianza, Je!reys, por consideraciones de invarianza ante transformaciones, propuso tomar la distribucin de referencia proporcional al determinante de la matriz de covarianzas elevado a !(p + 1)/2, donde p es la dimensin de la matriz. Sealaremos por ltimo que el problema de la distribucin a priori, aunque de gran importancia conceptual, no es tan crucial en la prctica como puede parecer a primera vista

340

CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE

ya que : (1) Si tenemos muchos datos, la verosimilitud ser muy apuntada, y la posterior vendr determinada por la verosimilitud, ya que entonces cualquier priori razonable ser casi constante sobre la zona relevante para la inferencia. (2) Si tenemos poca informacin muestral, cualquier procedimiento estadstico va a ser muy sensible a las hiptesis que hagamos sobre el modelo de distribucin de probabilidad, que van a afectar tanto o ms que la prior al anlisis. Sin embargo, estas hiptesis no podremos comprobarlas con ecacia con muestras pequeas. Conviene en estos casos, sea cual sea la prior elegida, estudiar la sensibilidad de la solucin a cambios en el modelo y en la prior.

11.4.3

Clculo de la Posterior

Distribuciones Conjugadas El clculo de la distribucin posterior puede ser complicado y requerir mtodos numricos. El problema se simplica si podemos expresar aproximadamente nuestra informacin a priori con una distribucin que simplique el anlisis. Una familia de distribuciones a priori adecuada para este objetivo es aquella con la misma forma que la verosimilitud, de manera que la posterior pueda calcularse fcilmente y pertenezca a la misma familia que la priori. A estas familias se las denomina conjugadas. Una clase C de distribuciones a priori para un parmetro vectorial, %, es conjugada, si cuando la prior pertenece a esa clase, p(%) $ C entonces la posterior tambin pertence a la clase, p(%|X ) $ C . La distribucin conjugada puede elegirse tomando la distribucin a priori con la forma de la verosimilitud. Por ejemplo, supongamos que queremos hacer inferencia respecto al parmetro ! en un modelo de la familia exponencial f (X |! ) = g (X )h(!) exp {t(X )g (!)} . La verosimilitud de la muestra ser n o X l(!|X ) = k h(!)n exp g (!) t(X ) p(!) = k h(!)& exp {g (! )m} , con lo que se obtiene inmediatamente la posterior: n h io X p(!|X ) = k h(!)& +n exp g (X ) m + t(X ) .

y podemos tomar como familia conjugada :

En la seccin siguiente veremos ejemplos de su utilizacin para estimar los parmetros de una normal multivariante.

11.4. ESTIMACIN BAYESIANA Mtodos de Monte Carlo con Cadenas de Markov (MC2 )

341

Cuando no sea posible utilizar una distribucin a priori conjugada y el clculo de la posterior sea complejo, podemos utilizar el ordenador para generar muestras de la distribucin posterior. Existe una variedad de mtodos para realizar esta simulacin, que se conocen bajo el nombre comn de mtodos de Monte Carlo con Cadenas de Markov (o mtodos MC2 ) y el lector interesado puede acudir a Robert y Casella(1999) , Carlin y Louis (1996) y Gaberman (1997). En este libro slo presentaremos uno de estos mtodos, el muestreo de Gibbs o Gibbs sampling, que es especialmente til para la estimacin de las distribuciones mezcladas consideradas en el captulo 14. El muestro de Gibbs es apropiado para obtener muestras de una distribucin conjunta cuando es fcil muestrear de las distribuciones condicionadas. Supongamos que estamos interesados en obtener muestras de la distribucin conjunta de dos variables aleatorias, f (x, y ), y supongamos que conocemos las distribuciones condicionadas f (x/y ), y f (y/x). Este mtodo se implementa como sigue : 1. Fijar un valor arbitrario inicial y (0) y obtener un valor al azar para x de la distribucin f (x/y (0) ). Sea x(0) este valor. 2. Obtener un valor al azar para y de la distribucin f (y/x(0) ). Sea y (1) este valor. 3. Volver a 1 con y (1) en lugar de y (0) y alternar entre 1 y 2 para obtener parejas de valores (x(i) , y (i) ), para i = 1, ..., N. Se demuestra que, para N sucientemente grande, la pareja (x(N ) , y (N ) ) es un valor al azar de la distribucin conjunta f (x, y ). Un problema importante es investigar la convergencia de la secuencia. Puede demostrarse que, bajo ciertas condiciones generales, el algoritmo converge, pero la convergencia puede requerir un nmero enorme de iteraciones en algunos problemas (vase por ejemplo Justel y Pea, 1996).

11.4.4

Estimacin Bayesiana de referencia en el modelo normal

Supongamos que se desea estimar los parmetros de una normal multivariante sin introducir informacin a priori. Es ms simple tomar como parmetros , V!1 , donde V!1 es la matriz de precisin. La estimacin de referencia para este problema supone que, a priori, p(, V!1 ) = p()p(V!1 ), donde p() es constante en la regin donde la verosimilitud es no nula y p(V!1 ) se elige como no informativa en el sentido de Je!reys. Puede demostrarse que, entonces, una prior conveniente es proporcional a |V!1 |!1/2(p+1) , con lo que la prior resultante es p(, V!1 ) 0 |V|1/2(p+1) . (11.17)

La expresin de la verosimilitud es, segn lo expuesto en la seccin 10.2.2, y expresndola ahora en funcin de V!1 n n o !1 !1 n/2 !1 f (X|, V ) = C |V | exp ! trV S() , (11.18) 2

342

CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE

y multiplicando estas dos ecuaciones, (11.17) y (11.18), resulta la posterior 1 !1 !1 (n!p!1)/2 !1 p(, V |X) = C1 |V | exp ! trV S()n , 2

(11.19)

donde C1 es la constante necesaria para que la densidad integre a uno. Observemos que si el objetivo es obtener la moda de la posterior no necesitamos calcular esta constante. La marginal de se obtiene integrando respecto a V. Para ello, observamos que en esta integracin la matriz S() es una constante, ya que no depende de V, y la funcin a integrar es similar a la distribucin Wishart, siendo ahora V!1 la variable, en lugar de W, n = m, y S()n igual a la matriz de constantes %. El trmino que falta para tener la distribucin completa es |%|!m/2 , que equivale a |S()n|n/2 . Introduciendo esta constante, multiplicando y dividiendo para completar la integral y prescindiendo de constantes, obtenemos que la posterior ser p(|X) 0 |S()|!n/2 y, se demuestra en el Apndice 11.2, que este determinante puede escribirse como ! )| p(|X) 0 |1 + (x ! )0 S!1 (x
!n/2

(11.20)

Esta expresin indica que la densidad marginal del vector de medias es una t multivariante con n ! p grados de libertad (vase la seccin 9.6.2). La moda de la densidad se alcanza para =x , resultado anlogo al obtenido por MV. De la forma de la densidad (11.20) concluimos que este valor de minimiza el determinante de la matriz de sumas de cuadrados S(). Este criterio, minimizar el determinante de las sumas de cuadrados residuales, suele llamarse de mnimos cuadrados multivariante. La posterior de V se obtiene integrando (11.19) con respecto a . Se demuestra en el Apndice 11.2 que la distribucin a posteriori para V!1 es una distribucin Wishart Wp (n ! 1, S!1 /n). Puede comprobarse que la media de la distribucin a posteriori de V es nS/(n ! p ! 2), por lo que si tomamos este valor como estimador de V obtendremos un valor distinto que con el mtodo MV.

11.4.5

Estimacin con informacin a priori

Supongamos que disponemos de informacin a priori para estimar los parmetros de una distribucin Np (, V). La forma de la verosimilitud (11.18) sugiere (vase el apndice 11.2.) las siguientes distribuciones a priori. Para dada V!1 estableceremos que p(|V!1 ) + Np (0 , V|n0 ), y esta distribucin indica que, conocida V, la mejor estimacin a priori que podemos dar del valor de es 0 , y la incertidumbre que asignamos a esta estimacin a priori es V|n0 . En principio podramos reejar nuestra incertidumbre respecto con cualquier matriz de covarianzas, pero el anlisis se simplica si suponemos que esta incertidumbre es una fraccin de la incertidumbre del muestreo. Observemos que sta es la distribucin a priori para

11.4. ESTIMACIN BAYESIANA

343

condicionada a V, por lo que tiene sentido expresar la incertidumbre en funcin de la varianza muestral. Una vez que hayamos visto el papel que juega el parmetro n0 comentaremos cmo jarlo. Para la matriz de precisin estableceremos que: p(V!1 ) + Wp (m0 , M|m0 ) que escribimos de esta forma para que los parmetros tengan una interpretacin ms sencilla. As, a priori, el valor esperado de la matriz de precisin es M, y, como veremos, el parmetro m0 controla la precisin que queremos dar a esta estimacin inicial. Utilizando estas dos distribuciones, la distribucin a priori conjunta resultante es p(, V!1 ) = p(|V!1 )p(V!1 ). El apndice 11.2. calcula la distribucin a posteriori mediante p(, V|X) 0 `(X|, V)p(, V) y all se obtiene que, a posteriori, la distribucin de la media condicionada a la varianza es tambin normal: p(|V!1 , X) + Np (p , Vp ) donde la media a posteriori, que puede tomarse como el estimador bayesiano de , es: p = y la incertidumbre en esta estimacin es Vp = V n0 + n n0 0 + nx n0 + n

La media a posteriori es una media ponderada de la informacin a priori y la proporcionada por la muestra, y los coecientes de ponderacin son n0 y n. El parmetro n0 representa pues el peso que queremos dar a nuestra estimacin prior con relacin a la muestral. Vemos tambin que la incertidumbre asociada equivale a la de una muestra de tamao n0 + n. Podemos interpretar n0 como el nmero de observaciones equivalentes que asignamos a la informacin contenida en la prior. Por ejemplo, si n0 = 10 y tomamos una muestra de tamao 90, queremos que nuestra prior tenga un peso del 10% en el clculo de la posterior. La distribucin a posteriori de la matriz de precisin es p(V!1 |X) + Wp (n + m0 , Mp ), donde la matriz de la Wishart es
1 !1 M! + nS+ p = m0 M

nn0 (x ! 0 )(x ! 0 )0 . n + n0

344

CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE

Para interpretar este resultado, recordemos que la media de una distribucin de Wishart Wp (n + m0 ,M p ) es !1 m0 n nn0 !1 !1 0 E (V |X) = M + S+ (x ! 0 )(x ! 0 ) , n + m0 n + m0 (n + n0 )2 el trmino entre parntesis juega el papel de la matriz de varianzas y vemos que suma tres fuentes de incertidumbre: las dos que vienen de la distribucin prior y la muestral. El primer trmino es la matriz de covarianzas a priori, el segundo la matriz de covarianzas muestral y el tercero el incremento de covarianzas debido a la discordancia entre la media a priori y la muestral. El trmino m0 controla el peso que queremos dar a la estimacin prior de la varianza, frente a la varianza muestral, y el trmino n0 el peso de la discrepancia entre la media a prioiri y la estimada. Observemos tambin que si la informacin proporcionada por la muestra es grande con relacin a la prior, es decir, n es grande con relacin a m0 y n0 , de manera que m0 /n y n0 /n sean pequeos, la esperanza de la precisin posterior es, aproximadamente, la precisin muestral, S!1 .

11.5
11.5.1

CONTRASTES BAYESIANOS
Conceptos bsicos

En el enfoque bayesiano, la hiptesis nula no se acepta o rechaza, como en el enfoque clsico, sino que se determina su probabilidad a posteriori dados los datos. Supongamos el contraste general considerado en el captulo anterior: dado un parmetro vectorial, %, p!dimensional, que toma valores en & se desea contrastar la hiptesis: H0 : % $ &0 , frente a la hiptesis alternativa H1 : % $ & ! &0 . Suponemos que existen probabilidades a priori para cada una de las dos hiptesis. Estas probabilidades quedan automticamente determinadas si establecemos una distribucin a priori sobre %, ya que entonces: Z p0 = P (H0 ) = P (% $ &0 ) = p(%)d%
!0

p1 = P (H1 ) = P (% $ & ! &0 ) =

p(% )d%.

!!!0

Las probabilidades a posteriori de las hiptesis las calcularemos mediante el teorema de Bayes P (Hi |X) = P (X|Hi )P (Hi ) P (X) i = 0, 1

11.5. CONTRASTES BAYESIANOS log10 B01 0 !1 !2 !3 B01 1 10!1 10!2 10!3 P (H0 ) para (p0 /p1 = 1) 0, 5 0, 1 0, 01 0, 001 Interpretacin. indecisin dbil rechazo de H0 rechazo de H0 rechazo sin duda de H0

345

Tabla 11.3: Interpretacin del factor de Bayes segn Jefreys y de aqu se obtiene el resultado fundamental: P (H0 |X) f (X|H0 ) P (H0 ) = . P (H1 |X) f (X|H1 ) P (H1 ) que puede expresarse como Ratio de posteriores = R.Verosimilitudes x R. Prioris Esta expresin indica que la evidencia respecto a la hiptesis nula se obtiene multiplicando la evidencia proporcionada por los datos, con la evidencia a priori. Al cociente entre las verosimilitudes se denomina factor de Bayes, B , y si las probabilidades a prioiri de ambas hiptesis son las mismas, determina las probabilidades a posteriori de las hiptesis. Expresando las probabilidades a posteriori en trminos del parmetro, se obtiene P (Hi |X) = P (% $ &i /X) = Z p(%|X)d% i = 0, 1 (11.21)

!i

donde &1 = & ! &0 , y p(%|X) es la distribucin a posteriori para el vector de parmetros de inters dada por (11.15). Por tanto 1 p(Hi |X) = f (X) Z f (X|%)p(%)d% i = 0, 1

!i

donde &1 = & ! &0 . Sustituyendo en (11.21) se obtiene que el factor de Bayes de la primera hiptesis respecto a la segunda, B01 , es B01 = p1 !0 f (X|%)p(%)d% R p0 !!! f (X|%)p(%)d%
0

Je!reys ha dado la escala de evidencia para el factor de Bayes que se presenta en la Tabla 11.3. La primera columna presenta el factor de Bayes en una escala logaritmica, la segunda el factor de Bayes, la tercera la probabilidad de la hiptesis nula supuesto que las probabilidades a priori para las dos hiptesis son las mismas. La ltima columna propone la decisin a tomar respecto a H0 .

346

CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE

11.5.2

Comparacin entre los contraste bayesianos y los clsicos

Si suponemos que, a priori, las probabilidades de ambas hiptesis son las mismas, el factor de Bayes es comparable al ratio del contraste de verosimilitudes, pero existe una diferencia fundamental: en el constraste de verosimilitudes se toma el mximo de la verosimilitud, mientras que en el enfoque bayesiano se toma el promedio sobre la regin relevante, promediando con la distribucin a priori. Por tanto, el contraste tiene en cuenta al calcular la integral el tamao del espacio denido por &0 y por &1 . Por ejemplo, supongamos que % es un parmetro escalar 0 # ! # 1 y que contrastamos: H0 : ! = !0 frente a H1 : ! 6= !0 . Para que las probabilidades a priori de ambas hiptesis sean las mismas, supongamos que jamos p(! = !0 ) = 1/2 y que p(! ) = 1/2 si ! 6= !0 . Entonces, el factor de Bayes compara f (X|!0 ) con el valor promedio de la verosimilitud cuando ! 6= ! 0 , mientras que el contraste de verosimilitudes compara f (X|!0 ) con el valor mximo de la verosimilitud. Si el valor ! = ! 0 no es exactamente cierto, sino slo aproximadamente cierto, y el tamao de la muestra es muy grande: 1. Con el enfoque bayesiano, los valores alejados de !0 tendrn una verosimilitud muy pequea con muestras grandes y al promediar sobre todos los valores se tender a favorecer a H0 . Al aumentar n puede hacer muy difcil rechazar H0 . 2. Con el enfoque clsico, comparamos f (X|!0 ) con f (X|!MV ), donde !MV es el estimador MV que estar prximo al verdadero valor para muestras grandes, y esta diferencia aumentar con el tamao muestral, por lo que terminaremos siempre rechazando H0 . En resumen, con el enfoque clsico, cuando n * . se rechaza H0 en la prctica, mientras que con el enfoque bayesiano cuando n * . es ms difcil rechazar H0 en la prctica. Esto es consecuencia de que el enfoque bayesiano tiene en cuenta la verosimilitud de H0 y de H1 , mientras que el enfoque clsico mira slo a H0 . Es importante sealar que esta contradiccin desaparece en el momento en que reformulamos el problema como uno de estimacin. Entonces ambos mtodos coincidirn con muestras grandes en la estimacin del parmetro.

11.6
11.6.1

Seleccin de Modelos
El Criterio de Akaike

El mtodo de mxima verosimilitud supone que la forma del modelo es conocida y slo falta estimar los parmetros. Cuando no es as debe aplicarse con cuidado. Por ejemplo, supongamos que se desea estimar un vector de parmetros % = (!1 , ...!p )0 y admitimos en lugar de un modelo nico la secuencia de modelos M1 = (!1 , 0, ..., 0), ...., Mi = (!1 , ..., !i , 0, .., 0), ...,Mp = (!1 , ..., !p ), es decir el modelo Mi (i = 1, ..., p) indica que los primeros i parmetros son

11.6. SELECCIN DE MODELOS

347

distintos de cero y los restantes cero. Es claro que si estimamos los parmetros bajo cada modelo y calculamos el valor mximo del soporte sustituyendo los parmetros por sus estimaciones MV, el modelo con mayor soporte de los datos ser el modelo Mp con todos los parmetros libres. Este resultado es general: el mtodo de mxima verosimilitud siempre da mayor soporte al modelo con ms parmetros, ya que la verosimilud slo puedo aumentar si introduzco ms parmetros para explicar los datos. Esta limitacin del mtodo de mxima verosimilitud fue percibida por Fisher, que propuso el mtodo en 1936 para estimar los parmetros de un modelo, indicando sus limitaciones para comparar modelos distintos. La solucin habitula para seleccionar entre los modelos es hacer un contraste de hiptesis utilizando el contraste de verosimilitudes y elegiendo el modelo Mi frente al Mp mediante " = 2(L(Mp ) ! L(Mi )) = D(Mi ) ! D(Mp ) donde L(Mp ) es el soporte del modelo Mp al sustituir en el funcin soporte el parmetro % por su estimacin MV y L(Mi ) el soporte del modelo Mi al estimar los parmetros con la restriccion !i+1 = .. = !p = 0, y D(Mj ) = !2L(Mj ) es al desviacin. Suponiendo que el modelo ms simple, Mi , es correcto, el estadstico " se distribuye como una +2 con p ! i grados de libertad. Akaike propuso un enfoque alternativo para resolver el problema de seleccionar el modelo suponiendo que el objetivo es hacer predicciones tan precisas como sea posible. Sea f (y|Mi ) la densidad de una nueva observacion bajo el modelo Mi y sea f (y) la verdadera funcin de densidad que puede o no ser una de las consideradas, es decir, el modelo verdadero puede o no ser uno de los Mi. Queremos seleccionar el modelo de manera que f (y|Mi ) sea tan prxima como sea posible a f (y). Una manera razonable de medir la distancia entre estas dos funciones de densidad es mediante la distancia de Kullback-Leibler entre las dos densidades, que se calcula: Z f (y|Mi ) KL(f (y|Mi ), f (y)) = log f (y)dy (11.22) f (y) Para interpretar esta medida observemos que la diferencia de logaritmos equivale, cuando los valores de ambas funciones son similares, a la diferencia relativa, ya que log f (y|Mi ) f (y|Mi ) ! f (y) + f (y|Mi ) ! f (y) = log(1 + )= f (y) f (y) f (y)

y cuando las diferencias son grandes, el logaritmo es mejor medida de discrepancia que la diferencia relativa. Las discrepancias se promedian respecto a la verdadera distribucin de la observacin y la medida (11.22) puede demostrarse que es siempre positiva. Una manera alternativa de escribir esta medida es KL(f (y|Mi ), f (y)) = Ey log f (y|Mi ) ! Ey log f (y) donde Ey indica obtener la esperanza bajo la verdadera distribucin de y. Como esta cantidad es siempre positiva, minimizaremos la distancia entre la verdadera distribucin y

348

CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE

f (y|Mi ) haciendo el primer trmino lo ms pequeo posible. Puede demostrarse que (Akaike, 1985) que esto equivale a minimizar AIC = !2L(Mi ) + 2i = D(Mi ) + 2i (11.23)

es decir, minimizamos la suma de la desviacin del modelo, que disminuir si introducimos ms parmetros, y el nmero de parmetros en el modelo, que tiende a corregir por este efecto.

11.6.2

El criterio BIC

Una ventaja del enfoque bayesiano es que el problema de seleccin de modelos puede abordarse con los mismos principios que el contraste de hiptesis. Supongamos que en un problema estadstico dudamos entre un conjunto de m modelos posibles para los datos observados M1 , . . . , Mm . Si consideramos los modelos como posibles hiptesis sobre los datos, calcularemos sus probabilidades a posteriori, M1 , . . . , Mm y seleccionaremos el modelo con mxima probabilidad a posteriori. Estas probabilidades vienen dadas por : f (X|Mj ) P (Mj ) f (X)

P (Mj |X) =

j = 1, ..., m

(11.24)

donde P (Mj ) es la probabilidad a priori del modelo j. Esta ecuacin indica cmo pasamos de la probabilidad a priori a la posteriori para cada modelo: se calcula las verosimilitud marginal de los datos para ese modelo, f (X|Mj ) ,donde el nombre marginal proviene de que esta funcin no depende de los valores de los parmetros, y se compara con la verosimilitud marginal promedio para todos los modelos, f (X). En efecto, llamemos %j a los parmetros del modelo Mj . La distribucin f (X|Mj ) viene dada por f (X|Mj ) = = Z Z f (X|%j ,Mj ) p (%j |Mj ) d%j Lj (X|%j ) p (%j |Mj ) d%j

es decir, se obtiene promediando la verosimilitud del modelo, Lj (X|%) , por las probabilidades a priori de los parmetros, p (%j |Mj ) . Por lo tanto, esta funcin expresa la verosimilitud de los datos dado el modelo, sea cual sea el valor de los parmetros, lo que justica el nombre de verosimilitud marginal. El denominador de (11.24) es f (X) = X f (X|Mj ) P (Mj )

y puede interpretarse como una media ponderada de las verosimilitudes marginales, siendo los coecientes de la ponderacin las probabilidades a priori. La conclusin que se desprende de (11.24) es que seleccionar el modelo con mayor probabilidad a posteriori equivale a seleccionar el modelo donde el producto de la verosimilitud marginal f (X|Mj ) y de la prior del modelo P (Mj ) sea mxima.

11.6. SELECCIN DE MODELOS

349

bj es el estimador MV donde pj es la dimensin del vector de parmetros del modelo Mj , y % de %j y Sj la matriz de covarianzas de este estimador. Por el teorema de Bayes: p (%j |X, Mj ) = lj (%j |X) p (%j |Mj ) f (X|Mj )

Las expresiones anteriores se derivan de las reglas del clculo de probabilidades y son exactas. Es posible obtener una expresin aproximada de f (X|Mj ) si suponemos que la distribucin a posteriori del vector de parmetros es asintticamente normal multivariante. Supongamos que para el modelo j esta distribucin a posteriori es : 0 !pj /2 !1/2 ! 1 bj S bj p (%j |X, Mj ) = (2,) |Sj | exp !1/2 %j ! % %j ! % j

donde lj (%j |X) es la verosimilitud, p (%j |Mj ) la probabilidad a priori para los parmetros y f (X|Mj ) la verosimilitud marginal. Esta expresin es cierta para cualquier valor del bj . Tomando logaritmos y particularizando esta expreparmetro y en particular para %j = % bj , podemos escribir sin para % 1 bj |X + log p % bj |Mj ! !(pj /2) log 2, ! log |Sj | log f (X|Mj ) = Lj % (11.25) 2 1 Rj n

La matriz Sj de covarianzas del estimador de los parmetros tiene trminos habitualmente del tipo a/n. Escribiendo Sj 1

entonces |Sj | = n!pj |Rj | y sustituyendo en (11.25): log f (X|Mj ) = Lj

Vamos a aproximar esta expresin para n grande. Para ello vamos a mantener en esta expresin nicamente los trminos que crecen con n y despreciar los que tomen un valor acotado que no crece con n. El primer trmino es el valor del soporte en el mximo que es la suma de n trminos para las n observaciones y ser de orden n. El segundo es el valor de la prior y, para n grande, podemos suponer que va a ser aproximadamente constante con relacin a la verosimilitud. El tercer trmino, (pj /2) log 2, es de orden constante. El cuarto crece con n y el ltimo, por construccin, esta acotado. En consecuencia, para n grande podemos escribir: p j b log f (X|Mj ) ' Lj %j |X ! log n. 2 Esta expresin fue obtenida por primera vez por Schwarz (1978), que propuso escoger el modelo que conduzca a un valor mximo de esta cantidad. Una forma equivalente de

p pj 1 j b b %j |X + log p %j |Mj + log 2, ! log n + log |Rj | . 2 2 2

350

CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE

este criterio, llamada criterio BIC (Bayesian Information Criterion), es xalcular para cada modelo la cantidad: bj |X + pj log n BIC(Mj ) = !2Lj %

y seleccionar aquel modelo para el cual esta cantidad es mnima. De esta manera este criterio bj |X , con el nmero de parmetros. pondera la desviacin del modelo, medida por !2Lj % Si introducimos ms parmetros en el modelo mejorar el ajuste, con lo que aumentar el soporte o disminuir la desviacin, y este efecto queda compensado por el aumento del nmero de parmetros que aparece en pj log n.

11.6.3

Relacin entre el BIC y EL AIC


D(Mj ) + pj g (n)

La forma general de estos dos criterios de seleccin es bj |X , y pj el nmero de donde D(Mj ) es la desviacin del modelo medida por !2Lj % parmetros. La constante que multiplica al nmero de parmetros es distinta en ambos criterios En el criterio BIC esta constante es log n, mientras que en el AIC es 2. Por tanto, el criterio BIC seleccionar modelos ms parsimoniosos, es decir, con menor nmero de parmetros que el AIC. Otros autores han propuesto otros criterios que corresponden a distintas funciones g (n) La diferencia entre estos criterios se explica por su distinto objetivo El criterio BIC trata de seleccionar el modelo correcto, con mxima probabilidad a posteriori, y puede demostrarse que es un criterio consitente, de manera que la probabilidad de seleccionar el modelo correcto tiende a uno cuando crece el tamao muestral. El criterio AIC no pretende seleccionar el modelo correcto, ya que admite que este modelo verdadero puede no estar entre los estimados, y trata de obtener el modelo que proporcione mejores predicciones entre los existentes. Puede demostrarse que, en condiciones generales de que el modelo verdadero puede aproximarse arbitariamente bien con los estimados al crecer el tamao muestral, el criterio AIC es eciente, en el sentido de escoger el modelo que proporciona, en promedio, mejores predicciones. Sin embargo, en muestras pequeas o medianas, el criterio AIC tiende a seleccionar modelos con ms parmetros de los necesarios.

11.7

Lecturas complementarias

Una buena introduccin al algoritmo EM se encuentra en Tanner (1991) y con ejemplos multivariantes en Flury (1997). Versiones ms amplias se encuentran en Gelman et al (1995) y Little y Rubin (1987). El libro de Schafer (1997) contiene numerosos ejemplos de su aplicacin con datos multivariantes. La estimacin de mezclas se estudia con detalle en Titterington at al (1987), y varios de los textos de cluster, que comentaremos en el captulo 15, incluyen el estudio de estas distribuciones. La estimacin robusta puede consultarse en Hampel at al (1986) and

11.7. LECTURAS COMPLEMENTARIAS

351

Rousseew and Leroy (1987). La estimacin Bayesiana multivariante en Bernardo y Smith (1994), OHagan (1994) y Press (1989). Los algoritmos de cadenas de Markov (mtodos MC2 ) en Gamerman (1997), Carlin y Louis (1996) y Robert y Casella (1999). Los contrastes bayesianos en Berger (1985). La literatura de seleccin de modelos es muy amplia. Algunas referencias bsicas son Akaike(1974), Miller (1990) y McQuarrie y Tsai (1998), Chow (1981) y Lanterman (2001).

APNDICE 11.1.CONVERGENCIA DEL ALGORITMO EM


Sea b L$ C (% |% (i) ) h i b = E LC (%|Y, Z)|%(i) , Y

la funcin que maximizamos en el paso M del algoritmo. Vamos a demostrar que cuando b(i) = % b(i+1) = % bF entonces % & L(%|Y) =0 &% bF % =% bF es el estimador MV. Para ello observemos que y% Z $ b b(i) )dZ+L(%|Y) LC (% |%(i) ) = log f (Z|Y , % )f (Z|Y ,%

y si maximizamos esta expresin derivando e igualando a cero se obtiene: Z b b(i) ) & L$ & f (Z|Y , %) f (Z|Y ,% C (% |% (i) ) = dZ+L0 (%|Y ) =0, &% &% f (Z|Y, %) Z b(i) ) f (Z|Y,% b(i+1) |Y ) =0. dZ+L0 (% b(i+1) ) f (Z|Y, %

b(i+1) verica con lo que tendremos que % & f (Z|Y , %) &%


b (i+1) %

que es siempre cero, como se comprueba derivando en la ecuacin tanto tendr que vericarse que b(i+1) |Y) =0 L0 (%

b(i) = % b(i+1) = % bF el primer miembro es cero, ya que se reduce a Cuando % Z & f (Z|Y, %) dZ &% b (i+1) % R

f (Z|Y, %)dZ =1. Por

b(i+1) es el estimador MV. que implica que %

APENDICE 11.2: ESTIMACIN BAYESIANA

352

CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE

Demostraremos primero que la distribucin marginal a posteriori de V!1 con la prior de referencia es una Wishart invertida. Integrando en la conjunta Z 1 !1 !1 (n!p!1)/2 !1 p(V |X) = C1 |V | exp ! trV S()n d, 2 y utilizando S()n = nS + n(x ! )(x ! )0 , podemos escribir 1 !1 !1 (n!p!2)/2 !1 exp ! trV nS A p(V |X) = C1 |V | 2 donde A= Z n n o |V|!1/2 exp ! (x ! )0 V!1 (x ! ) d, 2

que con las constantes adecuadas integra a uno. Por tanto, podemos concluir que la distribucin a posteriori para V!1 es una distribucin Wishart Wp (n ! 1, S!1 /n). Obtendremos ahora las distribuciones en el caso de prioris informativas. La verosimilitud de los parmetros de la normal tiene la forma del producto de una normal por una Wishart, con lo que la prior conjugada a este problema debe ser de la forma: p(, V!1 ) 0 |V!1 |(m0 !p)/2 exp !(1/2) trV!1 M!1 m0 + n0 ( ! 0 )0 V!1 ( ! 0 ) . De acuerdo con esta distribucin a priori, p(|V!1 ) es una normal multivariante con media 0 y varianza V|n0 , p(|V!1 ) 0 |V!1 |1/2 exp !1/2 n0 ( ! 0 )0 V!1 ( ! 0 ) mientras que p(V!1 ) sigue una distribucin Wishart Wp (m0 ,M/m0 ) p(V!1 ) 0 |V!1 |(m0 !p!1)/2 exp !(1/2)trV!1 M!1 m0 . p(, V!1 |X) = C |V!1 |(n+m0 !p)/2 exp {!E/2} , donde el exponente, E, puede escribirse: E = tr(V!1 (M!1 m0 + nS)) + n(x ! )V!1 (x ! )0 + n0 ( ! 0 )0 V!1 ( ! 0 ). Vamos a expresar de otra forma las formas cuadrticas. Para ello utilizaremos el siguiente resultado general: Lemma 2 Si A y B son matrices no singulares, se verica que (z ! a)0 A(z ! a) + (z ! b)0 B(z ! b) = (z ! c)0 D(z ! c) + (a ! b)0 H(a ! b) donde c = (A + B)!1 (Aa + Bb), D = (A + B ) y H = (A!1 +B!1 )!1 . Adems se verica |A| 2 |B| 2 = |A + B| 2 |A!1 +B!1 |! 2
1 1 1 1

La distribucin posterior ser

11.7. LECTURAS COMPLEMENTARIAS

353

Comencemos demostrando que los dos miembros de las formas cuadrticas son idnticos. El primer miembro puede escribirse y llamando c = (A + B)!1 (Aa + Bb),tambin puede escribirse z0 (A + B)z ! 2z0 (Aa + Bb) + a0 Aa + b0 Bb

z0 (A + B)z ! 2z0 (A + B)c + c0 (A + B)c ! c0 (A + B)c + a0 Aa + b0 Bb que es igual a (z ! c)0 (A + B)(z ! c) + a0 Aa + b0 Bb ! (a0 A + b0 B)(A + B)!1 (Aa + Bb) La primera parte de esta expresin es la primera forma cuadrtica del segundo miembro del Lemma. Operando en la segunda parte, resulta a0 (A ! A(A + B)!1 A)a + b0 (B ! B(A + B)!1 B)b ! 2b0 B(A + B)!1 Aa y utilizando que, segn la seccin 2.3.4: (A!1 +B!1 )!1 = A ! A(A + B)!1 A = B ! B(A + B)!1 B = B(A + B)!1 A resulta que la segunda forma cuadrtica es Para comprobar la segunda parte, como (A!1 +B!1 )!1 = B(A + B)!1 A, tenemos que |A!1 +B!1 |!1 = |B||A + B|!1 |A| con lo que |A||B| = |A + B||A!1 +B!1 |!1 Utilizando este lema, la suma de (x ! )V!1 (x ! )0 y n0 ( ! 0 )0 V!1 ( ! 0 ) puede escribirse como: (n + n0 )( ! p )0 V!1 ( ! p ) + donde p = n0 0 + nx n0 + n nn0 (x ! 0 )V!1 (x ! 0 ) n + n0 (a ! b)0 (A!1 +B!1 )!1 (a ! b)

y la segunda es la distribucin marginal a posteriori de la matriz de precisin, p(V!1 |X), dada por 1 p(V!1 |X) = C |V!1 |(n+m0 !p!1)/2 exp !1/2(trV!1 M! p ) donde nn0 (x ! 0 )(x ! 0 )0 n + n0 y representa una distribucin de Wishart Wp (n + m0 ,M p ).
1 !1 M! p = M m0 + nS+

Con estos resultados la posterior puede descomponerse como producto de p(|V!1 X) por p(V!1 |X). La primera distribucin es la de la media a posteriori dada la varianza, que es normal multivariante p(|V!1 X) = c|V!1 |1/2 exp !1/2 (n + n0 )( ! p )0 V!1 ( ! p ) .

354

CAPTULO 11. METODOS DE INFERENCIA AVANZADA MULTIVARIANTE

Captulo 12 ANLISIS FACTORIAL


12.1 INTRODUCCIN

El anlisis factorial tiene por objeto explicar si un conjunto de variables observadas por un pequeo nmero de variables latentes, o no observadas, que llamaremos factores. Por ejemplo, supongamos que hemos tomado veinte medidas fsicas del cuerpo de una persona: estatura, longitud del tronco y de las extremidades, anchura de hombros, peso, etc. Es intuitivo que todas estas medidas no son independientes entre s, y que conocidas algunas de ellas podemos prever con poco error las restantes. Una explicacin de este hecho es que las dimensiones del cuerpo humano dependen de ciertos factores, y si estos fuesen conocidos podramos prever con pequeo error los valores de las variables observadas. Como segundo ejemplo, supongamos que estamos interesados en estudiar el desarrollo humano en los pases del mundo, y que disponemos de muchas variables econmicas, sociales y demogrcas, en general dependientes entre s, que estn relacionadas con el desarrollo. Podemos preguntarnos si el desarrollo de un pas depende de un pequeo nmero de factores tales que, conocidos sus valores, podramos prever el conjunto de las variables de cada pas. Como tercer ejemplo, supongamos que medimos con distintas pruebas la capacidad mental de un individuo para procesar informacin y resolver problemas. Podemos preguntarnos si existen unos factores, no directamente observables, que explican el conjunto de resultados observados. El conjunto de estos factores ser lo que llamamos inteligencia y es importante conocer cuntas dimensiones distintas tiene este concepto y cmo caracterizarlas y medirlas. El anlisis factorial surge impulsado por el inters de Karl Pearson y Charles Sperman en comprender las dimensiones de la inteligencia humana en los aos 30, y muchos de sus avances se han producido en el rea de la psicometra. El anlisis factorial esta relacionado con los componentes principales, pero existen ciertas diferencias. En primer lugar, los componentes principales se construyen para explicar las varianzas, mientras que los factores se construyen para explicar las covarianzas o correlaciones entre las variables. En segundo lugar, componentes principales es un herramienta descriptiva, mientras que el anlisis factorial presupone un modelo estadstico formal de generacin de la muestra dada. 355

356

CAPTULO 12. ANLISIS FACTORIAL

12.2
12.2.1

EL MODELO FACTORIAL
Hiptesis bsicas

Supondremos que observamos un vector de variables x, de dimensiones (p 1), en elementos de una poblacin. El modelo de anlisis factorial establece que este vector de datos observados se genera mediante la relacin: x = + "f + u donde: 1. f es un vector (m 1) de variables latentes o factores no observadas. Supondremos que sigue una distribucin Nm (0, I), es decir los factores son variables de media cero e independientes entre s y con distribucin normal. 2. " es una matriz (p m) de constantes desconocidas (m < p). Contiene los coecientes que describen como los factores, f , afectan a las variables observadas, x, y se denomina matriz de carga. 3. u es un vector (p 1) de perturbaciones no observadas. Recoge el efecto de todas las variables distintas de los factores que inuyen sobre x. Supondremos que u tiene distribucin Np (0, & ) donde & es diagonal, y que las perturbaciones estn incorreladas con los factores f . Con estas tres hiptesis deducimos que: (a) es la media de las variables x, ya que tanto los factores como las perturbaciones tienen media cero; (b) x tiene distribucin normal, al ser suma de variables normales, y llamando V a su matriz de covarianzas x +Np (, V). La ecuacin (12.1) implica que dada una muestra aleatoria simple de n elementos generada por el modelo factorial, cada dato xij puede escribirse como: xij = j + "j 1 f1i + ... + "jm fmi + uij i = 1, ..., n j = 1, ..., p (12.1)

que descompone xij , el valor observado en el individuo i de la variable j, como suma de m + 2 trminos. El primero es la media de la variable j, j , del segundo al m + 1 recogen el efecto de los m factores, y el ltimo es una perturbacin especca de cada observacin, uij . Los efectos de los factores sobre xij son el producto de los coecientes "j 1 , ..., "jm , que dependen de la relacin entre cada factor y la variable j , (y que son los mismos para todos los elementos de la muestra), por los valores de los m factores en el elemento muestral i, f1i , ..., fmi . Poniendo juntas las ecuaciones para todas las observaciones, la matriz de datos, X, (n p), puede escribirse como: X = 10 + F" +U
0

12.2. EL MODELO FACTORIAL

357

donde 1 es un vector n 1 de unos, F es una matriz (n m) que contiene los m factores para los n elementos de la poblacin, "0 es la transpuesta de la matriz de carga (m p) cuyos coecientes constantes relacionan las variables y los factores y U es una matriz (n p) de perturbaciones.

12.2.2

Propiedades

ya que, por hiptesis, los factores estn incorrelados (E [! 0 ] = I) y tienen media cero y estn incorrelados con las perturbaciones (E [uf 0 ] = 0). Esta ecuacin indica que los trminos "ij de la matriz de carga, ", representan la covarianza entre la variable xi y el factor fj , y, al tener los factores varianza unidad, son los coecientes de regresin cuando explicamos las variables observadas por los factores. En el caso particular en que las variables x estn estandarizadas, los trminos "ij coecientes son tambin las correlaciones entre las variables y los factores. La matriz de covarianzas entre las observaciones verica, segn (12.1): V = E (x ! )(x ! )0 = "E [! 0 ] "0 + E [uu0 ] ya que E [fu0 ] = 0 al estar incorrelados los factores y el ruido. Entonces, se obtiene la propiedad fundamental: V = ""0 + & , (12.2)

La matriz de carga " contiene las covarianzas entre los factores y las variables observadas. En efecto, la matriz de covarianzas (p m) entre las variables y los factores se obtiene multiplicando (12.1) por f 0 por la derecha y tomando esperanzas: E (x ! )f 0 = "E [! 0 ] + E [uf 0 ] = "

que establece que la matriz de covarianzas de los datos observados admite una descomposicin como suma de dos matrices: (1) La primera, ""0 , es una matriz simtrica de rango m < p. Esta matriz contiene la parte comn al conjunto de las variables y depende de las covarianzas entre las variables y los factores. (2) La segunda, & , es diagonal, y contiene la parte especca de cada variable, que es independiente del resto. Esta descomposicin implica que las varianzas de las variables observadas pueden descomponerse como: )2 i =
m X j =1 2 "2 ij + . i ,

i = 1, . . . , p.

donde el primer trmino es la suma de los efectos de los factores y el segundo el efecto de la perturbacin. Llamando h2 i =
m X j =1

"2 ij ,

358

CAPTULO 12. ANLISIS FACTORIAL

a la suma de los efectos de los factores que llamaremos comunalidad, tenemos que
2 2 )2 i = hi + . i ,

i = 1, . . . , p.

(12.3)

Esta igualdad puede interpretarse como una descomposicin de la varianza en: Varianza observada = Variabilidad comn + Variabilidad especca (Comunalidad) que es anloga a la descomposicin clsica de la variabilidad de los datos en una parte explicada y otra no explicada que se realiza en el anlisis de la varianza. En el modelo factorial la parte explicada es debida a los factores y la no explicada al ruido o componente aleatorio. Esta relacin es la base del anlisis que presentamos a continuacin. Ejemplo 12.1 Supongamos que tenemos tres variables generadas por dos factores. La matriz de covarianzas debe vericar ! ! # ! # # ) 11 ) 12 ) 13 . 11 0 "11 "12 0 " ) 21 ) 22 ) 23 $ = " "21 "22 $ "11 "21 "31 + " 0 . 22 0 $ "12 "22 "32 0 0 . 33 ) 31 ) 32 ) 33 "31 "32

Esta igualdad proporciona 6 ecuaciones distintas (recordemos que al ser V simtrica slo tiene 6 trminos distintos). La primera ser:
2 ) 11 = "2 11 + "12 + . 11

2 2 Llamando h2 1 = "11 + "12 a la contribucin de los dos factores en la variable 1. Las seis ecuaciones son : 2 ) ii = h2 i + .i ) ij = "i1 "j 1 + "i2 "j 2

i = 1, 2, 3 i = 1, 2, 3 i 6= j

12.2.3

Unicidad del modelo

En el modelo factorial ni la matriz de carga, ", ni los factores, f , son observables. Esto plantea un problema de indeterminacin: dos representaciones (", f ) y ("$ , f $ ) sern equivalentes si "f = "$ f $ Esta situacin conduce a dos tipos de indeterminacin. (1) Un conjunto de datos puede explicarse con la misma precisin con factores incorrelados o correlados. (2) Los factores no quedan determinados de manera nica. Vamos a analizar estas dos indeterminaciones. Para mostrar la primera, si H es cualquier matriz no singular, la representacin (12.1) puede tambin escribirse como x = + "HH!1 f + u (12.4)

12.2. EL MODELO FACTORIAL y llamando "$ = "H a la nueva matriz de carga, y f $ = H!1 f a los nuevos factores: x = + "$ f $ + u ,

359

(12.5)

donde los nuevos factores f $ tienen ahora una distribucin N 0, H!1 (H!1 )0 y, por lo tanto, estn correlados. Anlogamente, partiendo de factores correlados, f + N (0, Vf ), siempre podemos encontrar una expresin equivalente de las variables mediante un modelo con factores incorrelados. En efecto, sea A una matriz tal que Vf = AA0 . (Esta matriz siempre existe si Vf es denida positiva), entonces A!1 Vf (A!1 )0 = I, y escribiendo x = + "(A)(A!1 )f + u, y tomando "$ = "A como la nueva matriz de coecientes de los factores y f $ = A!1 f como los nuevos factores, el modelo es equivalente a otro con factores incorrelados. Esta indeterminacin se ha resuelto en las hiptesis del modelo tomando siempre los factores como incorrelados. En segundo lugar, si H es ortogonal, el modelo x = + "f +u y el x = + ("H)(H0 f ) + u son indistinguibles. Ambos contienen factores incorrelados, con matriz de covarianzas la identidad. En este sentido, decimos que el modelo factorial est indeterminado ante rotaciones. Esta indeterminacin se resuelve imponiendo restricciones sobre los componentes de la matriz de carga, como veremos en la seccin siguiente. Ejemplo 12.2 Supongamos x = (x1 , x2 , x3 )0 y el modelo factorial M1 siguiente: ! # ! # 1 1 u1 f1 x=" 0 1 $ + " u2 $ f2 1 0 u3

y los factores estn incorrelados. Vamos a escribirlo como otro modelo equivalente de factores 1 1 1 tambin incorrelados. Tomando H = # , esta matriz es ortogonal, ya que H!1 = 2 1 !1 H0 = H. Entonces ! # 1 1 1 1 1 1 1 1 f1 " $ " x= 0 1 " + [u] . f2 2 1 !1 2 1 !1 1 0 Llamando a este modelo, M2 , puede escribirse como: # ! 2 # 0 2 g % # & 1 1 1 + [u] x = " 2 ! #2 $ g2 1 1
# 2 # 2

y los nuevos factores, g, estn relacionados con los anteriores, f , por: " !1 1 1 g1 f1 = 2 g2 1 !1 f2

360

CAPTULO 12. ANLISIS FACTORIAL

y son por lo tanto una rotacin de los iniciales. Comprobemos que estos nuevos factores estn tambin incorrelados. Su matriz de varianzas es: " !1 1 1 1 1 " !1 2 2 Vf Vg = 1 !1 1 !1 y si Vf = I % Vg = I, de donde se deduce que los modelos M 1 y M 2 son indistinguibles.

12.2.4

Normalizacin del modelo factorial

Como el modelo factorial esta indeterminado ante rotaciones la matriz " no est identicada. Esto implica que aunque observemos toda la poblacin, y , y V sean conocidos, no podemos determinar " de manera nica. La solucin para poder estimar esta matriz es imponer restricciones sobre sus trminos. Los dos mtodos principales de estimacin que vamos a estudiar utilizan alguna de las dos siguientes normalizaciones: Criterio 1: Exigir: "0mp "pm = D = Diagonal

(12.6)

Con esta normalizacin los vectores que denen el efecto de cada factor sobre las p variables observadas son ortogonales. De esta manera, los factores adems de estar incorrelados producen efectos lo ms distintos posibles en las variables. Vamos a comprobar que esta normalizacin dene una matriz de carga de manera nica. Supongamos primero que tenemos una matriz " tal que el producto "0 " no es diagonal. Transformamos los factores con "$ = "H, donde H es la matriz que contiene en columnas los vectores propios de "0 ". Entonces: "0$ "$ = H0 "0 "H (12.7)

y como H diagonaliza "0 " la matriz "$ verica la condicin (12.6). Veamos ahora que esta es la nica matriz que lo verica. Supongamos que rotamos esta matriz y sea "$$ = "C donde C es ortogonal. Entonces la matriz "$$0 "$$ = C0 "0$ "$ C no ser diagonal. Analogamente, si partimos de una matriz que verica (12.6) si la rotamos dejar de vericar esta condicin. Cuando se verica esta normalizacin, postmultiplicando la ecuacin (12.2) por ", podemos escribir (V ! & ) " = "D, que implica que las columnas de " son vectores propios de la matriz V ! & , que tiene como valores propios los trminos diagonales de D. Esta propiedad se utiliza en la estimacin mediante el mtodo del factor principal.

12.2. EL MODELO FACTORIAL Criterio 2: Exigir: "0 . !1 " = D =Diagonal

361

(12.8)

y como "0 . !1 " es una matriz simtrica y denida no negativa, siempre puede diagonalizarse si escogemos como H la matriz que contiene en columnas los vectores propios de "0 . !1 ". Analogamente, si se verica de partida (12.8) y rotamos la matriz de carga esta condicin dejar de vericarse. Esta es la normalizacin que utiliza la estimacin mximo verosmil. Su justicacin es que de esta manera los factores son condicionalmente independientes dados los datos, como veremos en el apndice 12.4. Con esta normalizacin, postmultiplicando la ecuacin (12.2) por & !1 ", tenemos que V& !1 " ! " = " D y premultiplicando por & !1/2 , resulta: & !1/2 V& !1 " ! & !1/2 " = & que implica & !1/2 V& !1/2 & !1/2 " = & !1/2 " (D + I) y concluimos que la matriz & !1/2 V& !1/2 tiene vectores propios & !1/2 " con valores propios D + I. Esta propiedad se utiliza en la estimacin mximo verosmil.
!1/2

En esta normalizacin los efectos de los factores sobre las variables, ponderados por las varianzas de las perturbaciones de cada ecuacin, se hacen incorrelados. Como la anterior, esta normalizacin dene una matriz de carga de manera nica. En efecto, supongamos que ". !1 " no es diagonal, y transformamos con "$ = "H. Entonces: "0$ . !1 "$ = H0 "0 . !1 " H (12.9)

"D

12.2.5

Nmero mximo de factores

Si sustituimos en (12.2) la matriz terica de covarianzas, V, por la matriz muestral, S, el sistema estar identicado si es posible resolverlo de manera nica. Para ello existe una restriccin en el nmero de factores posibles. El nmero de ecuaciones que obtenemos de (12.2) es igual al conjunto de trminos de S, que es p + p(p ! 1)/2 = p(p +1)/2. El nmero de incgnitas en el segundo trmino es pm, los coecientes de la matriz ", ms los p trminos de la diagonal de & , menos las restricciones impuestas para identicar la matriz ". Suponiendo que "0 & !1 " debe ser diagonal, esto supone m(m ! 1)/2 restricciones sobre los trminos de ", . Para que el sistema este determinado debe haber un nmero de ecuaciones igual o mayor que el de incgnitas. En efecto, si existen menos ecuaciones que incgnitas no es posible

362

CAPTULO 12. ANLISIS FACTORIAL

encontrar una solucin nica y el modelo no est identicado. Si el nmero de ecuaciones es exactamente igual al de incgnitas existir una solucin nica. Si existen ms ecuaciones que incgnitas, podremos resolver el sistema en el sentido de los mnimos cuadrados y encontrar unos valores de los parmetros que minimicen los errores de estimacin. Por lo tanto: p + pm ! que supone: p + m # p2 ! 2pm + m2 , es decir (p ! m)2 1 p + m. El lector puede comprobar que esta ecuacin implica que, cuando p no es muy grande (menor de 10) aproximadamente el nmero mximo de factores debe ser menor que la mitad del nmero de variables menos uno. Por ejemplo, el nmero mximo de factores con 7 variables es 3. Esta es la regla que se obtiene si escribimos la desigualdad anterior despreciando el trmino de las restricciones sobre los elementos de ". p(p + 1) m(m ! 1) # 2 2

12.3

EL MTODO DEL FACTOR PRINCIPAL

El mtodo del factor principal es un mtodo para estimar la matriz de carga basado en componentes principales. Evita tener que resolver las ecuaciones de mxima verosimilitud, que son ms complejas. Tiene la ventaja de que la dimensin del sistema puede identicarse de forma aproximada. Se utiliza en muchos programas de ordenador por su simplicidad. Su base es la siguiente: supongamos que podemos obtener una estimacin inicial de la matriz b . Entonces, podemos escribir de varianzas de las perturbaciones & es simtrica, siempre puede descomponerse como: y como S ! & donde H es cuadrada de orden p y ortogonal, G es tambin de orden p, diagonal y contiene b . El modelo factorial establece que G debe ser diagonal las races caractersticas de S ! & del tipo: G1mm Om(p!m) G= O(p!m)m O(p!m)(p!m) b tiene rango m. Por tanto, si llamamos H1 a la matriz p m que contiene ya que S ! & los vectores propios asociados a los valores propios no nulos de G1 podemos tomar como estimador de " la matriz p m:
/2 b = H1 G1 " 1

b = ""0 , S!&

(12.10)

b = HGH0 = (HG1/2 )(HG1/2 )0 S!&

(12.11)

(12.12)

12.3. EL MTODO DEL FACTOR PRINCIPAL con lo que resolvemos el problema. Observemos que la normalizacin resultante es: b 0" b = G1/2 H0 H1 G1/2 = G1 = Diagonal " 1 1 1

363

(12.13)

ya que los vectores propios de matrices simtricas son ortogonales, por lo que H01 H1 = Im . b con columnas ortogonales Por tanto, con este mtodo se obtienen estimadores de la matriz " entre s. En la prctica la estimacin se lleva a cabo de forma iterativa como sigue: b i mediante & b i = diag S!" b" b0 . b i o de & 1. Partir de una estimacin inicial de " 3. Obtener la descomposicin espectral de Qi de forma b. 2. Calcular la matriz cuadrada y simtrica Qi = S!& i

Qi = H1i G1i H01i + H2i G2i H02i donde G1i contiene los m mayores valores propios de Qi y H1i sus valores propios. Elegiremos m de manera que los restantes vectores propios contenidos en G2i sean todos pequeos y de tamao similar. La matriz Qi puede no ser denida positiva y algunos de sus valores propios pueden ser negativos. Esto no es un problema grave si estos valores propios son muy pequeos y podemos suponerlos prximos a cero. b i+1 = H1i G y volver a (1). Iterar hasta convergencia, es decir hasta que 4. Tomar " 1i k"n+1 ! "n k < .
1/2

Los estimadores obtenidos sern consistentes pero no ecientes, como en el caso de Mxima verosimilitud. Tampoco son invariantes ante transformaciones lineales, como los MV, es decir, no se obtiene necesariamente el mismo resultado con la matriz de covarianzas y con la de correlaciones. Para llevar a la prctica esta idea, debemos especicar cmo obtener el estimador inicial b , problema que se conoce como la estimacin de las comunalidades. &

12.3.1

Estimacin de las comunalidades

0 2 Estimar los trminos . 2 i equivale a denir valores para los trminos diagonales, hi , de "" , 2 b2 ya que h2 i = si ! . i . Existen las siguientes alternativas:

b = 0. Esto equivale a extraer los componentes principales de S. Supone tomar 1. tomar . i 2 2 b hi = si (en el caso de correlaciones b h2 i = 1 ), que es claramente su valor mximo, por lo que podemos comenzar con un sesgo importante.
2

b = 1/s$ , donde s$ es el elemento diagonal j-simo de la matriz de precisin 2. tomar . j jj jj !1 S . Segn el apndice 3.2 esto equivale a tomar h2 j como:
2 2 2 2 2 b h2 j = sj ! sj (1 ! Rj ) = sj Rj ,

(12.14)

364

CAPTULO 12. ANLISIS FACTORIAL


2 donde Rj es el coeciente de correlacin mltiple entre xj y el resto de las variables. 2 Intuitivamente, cuanto mayor sea Rj mayor ser la comunalidad b h2 j . Con este mtodo 2 2 b comenzamos con una estimacin sesgada a la baja de hi , ya que h2 i # hi . En efecto, por ejemplo, suponemos que para la variable x1 el modelo verdadero es

x1 =

m X j =1

"1j fj + u1

(12.15)

2 2 que est asociado a la descomposicin ) 2 1 = h1 + . 1 . La proporcin de varianza 2 explicada es h2 1 /) 1 . Si escribimos la ecuacin de regresin

x1 = b2 x2 + . . . + bp xp + 1 sustituyendo cada variable por su expresin en trminos de los factores tenemos que: X X x1 = b2 "2j fj + u2 + . . . + bp "pj fj + up + . (12.16)

2 b2 b 2 b2 que conducir a una descomposicin de la varianza ) 2 1 = h1 + . 1 . Claramente h1 # h1 , ya que en (12.16) forzamos a que aparezcan como regresores adems de los factores, como en (12.15) los ruidos u1 , . . . , up de cada ecuacin. Adems, es posible que un factor afecte a x1 pero no al resto, con lo que no aparecer en la ecuacin (12.16). En resumen, la comunalidad estimada en (12.16) ser una cota inferior del valor real de la comunalidad.

Ejemplo 12.3 En este ejemplo mostraremos las iteraciones del algoritmo del factor principal de forma detallada para los datos de ACCIONES del Anexo I. La matriz de varianzas covarianzas de estos datos en logaritmos es, ! # 0.13 0.15 !0.19 S = " 0.15 0.13 !0.03 $ !0.19 !0.03 0.16

Para estimar la matriz de cargas realizamos los pasos del algoritmo del factor principal descritos anteriormente. Antes de empezar el algoritmo tenemos que jar la cota para decidir la convergencia . Fijaremos un / grande, 0.05, de forma que en pocas iteraciones el algoritmo converja a pesar de los errores acumulados por el redondeo. b2) = Paso 1. Tomando la segunda alternativa para la estimacin inicial de las comunalidades diag (. i $ !1 1/s$ . donde s es el elemento j-simo de la matriz S jj jj ! # 52.094 !47.906 52.88 S !1 = " !47.906 52.094 !47.12 $ 52.88 !47.12 60.209 # ! # 1 / 52 . 094 0 0 0 . 019 0 0 b2 = " $=" 0 0 1/52.094 0 0.019 0 $ . i 0 0 1/60.209 0 0 0.017 !

12.3. EL MTODO DEL FACTOR PRINCIPAL b Paso 2. Calculamos la matriz cuadrada y simtrica Qi = S!& i !

365

# ! # ! # 0.13 0.15 !0.19 0.019 0 0 0.111 0.15 !0.19 0.13 !0.03 $ ! " 0 0.019 0 $ = " 0.15 0.111 !0.03 $ Qi = " 0.15 !0.19 !0.03 0.16 0 0 0.017 !0.19 !0.03 0.143

Paso 3. Descomposicin espectral de Qi y separacin en dos trminos H1i G1i H01i y H2i G2i H02i . Los valores propios de Qi son 0.379, 0.094, y !0.108. Observemos que uno de ellos es negativo, con lo que la matriz no es denida positiva. Como hay un valor propio mucho mayor que los dems tomaremos un nico factor. Esto supone la descomposicin ! # ! 0.111 0.15 !0.19 " 0.15 0.111 !0.03 $ = " !0.19 !0.03 0.143 ! # !0.036 0.741 0.094 + " !0.783 !0.438 $ 0 !0.621 0.508 b i+1 = H1i G1/2 Paso 4. Calculamos " 1i b i+1 " # ! #0 !0.670 !0.670 !0.442 $ 0.379 " !0.442 $ + 0.596 0.596 ! #0 !0.036 0.741 0 " !0.783 !0.438 $ !0.108 !0.621 0.508

# ! # !0.670 !0.412 " = " !0.442 $ 0.379 = " !0.272 $ 0.596 0.367

Esta es la primera estimacin de la matriz de carga. Vamos a iterar para mejorar esta estimacin. Para ello volvemos al paso 1. 0 b mediante & b = diag S!" b b Paso 1. Estimamos los trminos de la diagonal de & " i i bi & '! ( = diag " ) ! 0.180 " 0 = 0

# ! # 0.13 0.15 !0.19 !0.412 0.15 0.13 !0.03 $ ! " !0.272 $ !0.412 !0.272 0.367 !0.19 !0.03 0.16 0.367 # 0 0 $ 0.056 0 0 0.0253

* + ,

bi Paso 2. Calculamos la matriz cuadrada y simtrica Qi = S!& !

# ! # ! # 0.13 0.15 !0.19 0.180 0 0 !0.05 0.15 !0.19 $ = " 0.15 0.074 !0.03 $ Qi = " 0.15 0.13 !0.03 $ ! " 0 0.056 0 !0.19 !0.03 0.16 0 0 0.0253 !0.19 !0.03 0.135

366

CAPTULO 12. ANLISIS FACTORIAL

Paso 3. Descomposicin espectral de Qi = H1i G1i H01i + H2i G2i H02i ! # ! # ! #0 !0.05 0.15 !0.19 !0.559 !0.559 " 0.15 0.074 !0.03 $ = " !0.450 $ 0.307 " !0.450 $ + !0.19 !0.03 0.135 0.696 0.696 ! # ! #0 0.081 0.825 0.081 0.825 0.067 0 " 0.806 !0.385 $ + " 0.806 !0.385 $ 0 !0.215 0.586 0.414 0.586 0.414
/2 b i+1 = H1i G1 Paso 4. Calculamos " 1i

volvemos al paso 1 hasta que se cumpla el criterio. 0 b b b Paso 1. Volvemos a estimar & i = diag S!"" bi & '! ( = diag " ) ! 0.254 " 0 = 0

comprobamos si se cumple el criterio de convergencia k"n+1 ! "n k < . ! # ! # !0.310 !0.412 " !0.249 $ ! " !0.272 $ = 0.106 ) = 0.05 0.386 0.367

b i+1 "

# ! # !0.559 ! 0 . 310 " = " !0.450 $ 0.307 = " !0.249 $ 0.696 0.386

# ! # 0.35 0.15 !0.19 !0.310 0.15 0.13 !0.03 $ ! " !0.249 $ !. 31 !. 249 . 386 !0.19 !0.03 0.16 0.386 # 0 0 0.068 0 $ 0 0.011

* + ,

b Paso 2. Calculamos la matriz cuadrada y simtrica Qi = S!& i ! # ! # ! # 0.13 0.15 !0.19 0.254 0 0 !0.124 0.15 !0.19 0.13 !0.03 $ ! " 0 0.068 0 $ = " 0.15 0.062 !0.03 $ Qi = " 0.15 !0.19 !0.03 0.16 0 0 0.011 !0.19 !0.03 0.149 Paso 3. Descomposicin espectral de Qi . Indicaremos slo el primer vector y valor propio ! # ! # ! #0 !0.124 0.15 !0.19 !0499 !0499 " 0.15 0.062 !0.03 $ = " !0.425 $ 0.291 " !0.425 $ + H2i G2i H02i !0.19 !0.03 0.149 0.755 0.755

12.3. EL MTODO DEL FACTOR PRINCIPAL


/2 b i+1 = H1i G1 Paso 4. Calculamos " 1i

367

Observemos que la expresin del factor obtenido es bastante distinta a la del primer componente principal que se obtuvo en el ejercicio 5.1 Ejemplo 12.4 Para la base de datos de INVEST se realiz un anlisis descriptivo en el captulo 4 en el que se propuso una transformacin logartmica en todas las variables y la eliminacin de EEUU. Sobre este conjunto de datos, una vez estandarizados, vamos a ilustrar el clculo de un nico factor mediante el mtodo del factor principal (en el ejemplo siguiente se consideran 2 factores). Vamos a comparar los dos mtodos propuestos para inicializar el algortimo con los datos estandarizados. En el primer caso comenzamos las iteraciones con b j = 0 =% b h2 . (0) = 1,

El criterio de convergencia se ha cumplido y el modelo con los parmetros estimados es: ! # ! # !0.269 u1 x = " !0.229 $ f1 + " u2 $ 0.407 u3 ! # -! # ! #/ u1 0 0.254 0 0 " u2 $ ! N3 ." 0 $ , " 0 0.068 0 $0 u3 0 0 0 0.011

# ! # !0499 !0.269 " b i+1 = " !0.425 $ 0.291 = " !0.229 $ " 0.755 0.407 comprobamos si se cumple el criterio de convergencia "n+1 ! "n < . ! # ! # !0.269 ! 0 . 310 " !0.229 $ ! " !0.249 $ = 0.05 ) = 0.05 0.407 0.386

y el nmero de iteraciones antes de converger es 6. El criterio de parada en el paso k del algoritmo es, en este caso, que la diferencia mxima entre las comunalidades en k y k-1 sea menor de 0.0001. En la siguiente tabla se presentan las estimaciones de las comunalidades para los pasos i=0,1,2,3,6. INTER.A INTER.B AGRIC. BIOLO. MEDIC. QUIMI. INGEN. FSICA 2 h (0) 1 1 1 1 1 1 1 1 2 h (1) 0.96 0.79 0.94 0.92 0.97 0.85 0.9 0.94 2 h (2) 0.96 0.76 0.94 0.91 0.97 0.83 0.88 0.93 2 h (3) 0.96 0.75 0.94 0.91 0.97 0.82 0.88 0.93 2 h (6) 0.96 0.75 0.94 0.91 0.97 0.82 0.88 0.93

368

CAPTULO 12. ANLISIS FACTORIAL

En negrilla gura el resultado nal una vez que ha convergido el algoritmo. Si inicializamos el algoritmo con el segundo mtodo,
2 b = 1 ! R2 =% b . h2 j j (0) = Rj ,

el nmero de iteraciones antes de converger es 5. En la siguiente tabla se presentan cmo varan la estimaciones de las comunalidades para los pasos i=0,1,2,3,5. 2 h (0) 0.98 0.82 0.95 0.97 0.98 0.85 0.93 0.97 2 h (1) 0.96 0.76 0.94 0.92 0.97 0.82 0.89 0.94 2 h (2) 0.96 0.75 0.94 0.91 0.97 0.82 0.88 0.93 2 h (3) 0.96 0.75 0.94 0.91 0.97 0.82 0.88 0.93 2 h (5) 0.96 0.75 0.94 0.91 0.97 0.82 0.88 0.93

INTER.A INTER.B AGRIC. BIOLO. MEDIC. QUIMI. INGEN. FSICA

En negrilla gura el resultado nal una vez que ha convergido el algoritmo. Al haber inicializado el algoritmo en un punto ms prximo al nal, la convergencia ha sido ms rpida, y ya en la segunda iteracin el resultado es muy prximo al nal. Se observa como la esti 2 , es cota superior de la estimacin nal, h 2 . En macin inicial de las comunalidades, h (0) (5) (0) de las que partimos en ambos mtodos la siguiente tabla presentamos la estimacin de " y la estimacin de las cargas nales obtenidas. bj = 0 . b j = 1 ! R2 . Final j Factor1 Factor1 Factor1 0.97 0.97 0.98 0.89 0.87 0.87 0.97 0.97 0.97 0.96 0.96 0.95 0.98 0.98 0.99 0.92 0.90 0.91 0.94 0.94 0.94 0.96 0.97 0.97

INTER.A INTER.B AGRIC. BIOLO. MEDIC. QUIMI. INGEN. FSICA

(0) ms prximo al resultado nal, sobre todo para aqueEl segundo mtodo proporciona un " llas variables donde la variabilidad especca es mayor.

12.3.2

Generalizaciones
2

El mtodo de estimacin del factor principal es un procedimiento de minimizar la funcin: F = tr (S ! ""0 ! & ) . (12.17)

12.3. EL MTODO DEL FACTOR PRINCIPAL En efecto, esta funcin puede escribirse F =
p p X X i=1 j =1

369

(sij ! vij )2

(12.18)

donde vij son los elementos de la matriz V = ""0 + & . Ahora bien, por la descomposicin espectral, dada una matriz S cuadrada simtrica y no negativa la mejor aproximacin en el sentido de mnimos cuadrados (12.18) mediante una matriz de rango m, AA0 se obtiene tomando A = HD1/2 , donde H contiene los vectores propios y D1/2 las races de los valores propios de S (vase el apndice 5.2), que es lo que hace el mtodo del factor principal. Harman (1976) ha desarrollado el algoritmo MINRES que minimiza (12.17) ms ecientemente que el mtodo del factor principal y Joreskog (1976) ha propuesto el algoritmo USL b como funcin de & (unweighted least squares), que se basa en derivar en (12.17), obtener " y luego minimizar la funcin resultante por un algoritmo no lineal tipo Newton-Raphson. Ejemplo 12.5 Con los datos de INVEST, utilizados en el ejemplo anterior, presentamos el anlisis factorial para dos factores realizado con un programa de ordenador con el mtodo del factor principal. La tabla 12.1 indica la variabilidad de ambos factores. El segundo factor explica poca variabilidad (2%) pero ha sido incluido por tener una clara interpretacin. Factor1 Factor2 Variabilidad 7.18 0.17 Ph 0.89 0.02 Ph P 0.89 0.91 i=1 h

Tabla 12.1: Variabilidad explicada por los dos primeros factores estimados por el mtodo del factor principal. b j = 1 ! R2 , y se han realizado 14 iteraEl algoritmo del factor principal se inicia con . j ciones antes de converger a los pesos que se presentan en la tabla 12.2. INTER.A INTER.B AGRIC. BIOLO. MEDIC. QUIMI. INGEN. FSICA Factor1 Factor2 .2 i 0.97 -0.06 0.04 0.87 0.16 0.22 0.97 -0.03 0.06 0.95 -0.24 0.02 0.99 -0.10 0.02 0.91 -0.09 0.17 0.94 0.21 0.06 0.97 0.17 0.03

Tabla 12.2: Matriz de cargas de los factores y comunalidades El primer factor es la suma de las publicaciones en todas las bases, nos da una idea de volumen. Segn este factor los pases quedaran ordenados en funcin de su produccin

370

CAPTULO 12. ANLISIS FACTORIAL

cientca. El segundo factor contrapone la investigacin en biomedicina con la investigacin en tecnologa. Este segundo componente separa a Japn y Reino Unido, pases con una gran produccin cientca. En la gura 12.1 se presenta un grco de los paises sobre estos dos factores. El lector debe comparar estos resultados con los obtenidos en el captulo 5 (ejercicios 5.6 y 5.10) con componentes principales.

1.5

JP

1.0

Y GR

F CH AU B C HA I E UK G

Factor2

0.0

0.5

-1.0

-0.5

IR

N -1.5

FI D

-2

-1 Factor1

Figura 12.1: Representacin de los pases en el plano formado por los dos primeros factores.

12.4
12.4.1

ESTIMACIN MXIMO VEROSMIL


Estimacin MV de los parmetros

Enfoque directo Las matrices de parmetros pueden estimarse formalmente mediante mxima verosimilitud. La funcin de densidad de las observaciones originales es Np (, V). Por tanto la verosimilitud es la estudiada en el captulo 10. Sustituyendo por su estimador, x, la funcin soporte para V es: n n log(V|X) = ! log |V| ! tr SV!1 , (12.19) 2 2 y sustituyendo V por (12.2) la funcin soporte de " y & es : n L(", & ) = ! log |""0 + & | + tr(S(""0 + & )!1 . (12.20) 2

12.4. ESTIMACIN MXIMO VEROSMIL

371

Los estimadores de mxima verosimilitud se obtienen maximizando (12.20) respecto a las matrices " y & . Derivando con respecto a estas matrices y tras ciertas manipulaciones algebraicas que se resumen en el Apndice 12.1, (vease Anderson, 1984, pp. 557-562) o Lawley y Maxwell, 1971), se obtienen las ecuaciones: b = diag (S ! " " 0) & (12.21)

donde D es la matriz resultado de la normalizacin

!1/2 !1/2 !1/2 b b !1/2 & b b b = & b D & (S ! I) & " " b !1 " b 0& b = D =diagonal. "

(12.22)

(12.23)

Estas tres ecuaciones permiten resolver el sistema utilizando un algoritmo iterativo tipo Newton-Raphson. La solucin numrica es a veces difcil porque puede no haber una solub sea denida positiva, y es necesario entonces acudir a la estimacin con cin en la cual & restricciones. Observemos que (12.22) conduce a una ecuacin de valores dice !1/2 propios: nos !1/2 !1/2 b b b b " contienen los vectores propios de la matriz simtrica & (S ! I) & que & y que D contiene los valores propios El algoritmo iterativo para resolver estas ecuaciones es: b i , (i = 1 la primera 1. Partir de una estimacin inicial. Si tenemos una estimacin " b vez), por ejemplo por el mtodo del factor principal, se calcula la matriz & i mediante b = diag S!" b directamente b i" b 0 . Alternativamente, podemos estimar la matriz & & i i i por el mtodo del factor principal. !1/2 b !1/2 S!& b & b b !1/2 S& b !1/2 ! =& 2. Se calcula la matriz cuadrada simtrica Ai = & i i i I. Esta matriz pondera los trminos de S por su importancia en trminos de los componentes especcos. 3. Se obtiene la descomposicin espectral de Ai de forma que Ai = H1i G1i H01i + H2i G2i H02i donde los m mayores valores propios de Ai estn en la matriz diagonal (m m), G1i y los p ! m menores de la G2i y H1i y H2i contienen los correspondientes vectores propios. b 1/2 H1i G1/2 y se sustituye en la funcin de verosimilitud, que se b i+1 = & 4. Se toma " i 1i maximiza respecto a & . Esta parte es fcil de hacer con un algortimo de optimizacin no lineal. Con el resultado obtenido se vuelve a (2), iterando hasta la convergencia. Puede ocurrir que este algoritmo converja a un mximo local donde algunos de los trminos de la matriz & sean negativos. Esta solucin impropia se denomina a veces una solucin

372

CAPTULO 12. ANLISIS FACTORIAL

de Heywood. Los programas existentes cambian entonces esos valores por nmeros positivos e intentan encontrar otro mximo local, aunque no siempre el algortimo converge. En el Apndice 12.1 se comprueba que la estimacin MV es invariante ante transformaciones lineales de las variables. En consecuencia, el resultado de la estimacin no depende como ocurre en componentes principales del uso de la matriz de covarianzas o de correlaciones. Una ventaja adicional del mtodo de mxima verosimilitud es que podemos obtener las varianzas asintticas de los estimadores mediante la matriz de informacin en el ptimo. b tiene los trminos diagonales aproximadamente Observemos que cuando la matriz & iguales, la estimacin MV conducir a resultados similares al mtodo del factor principal. b = k I, ambos mtodos utilizan En efecto, sustituyendo en las ecuaciones del estimador MV & la misma normalizacin y la ecuacin (12.22) es anloga a la (12.11), que se resuelve en el mtodo del factor principal. El algortimo EM Un procedimiento alternativo para maximizar la verosimilitud es considerar los factores como valores ausentes y aplicar el algoritmo EM. La funcin de verosimiltud conjunta de los datos y los factores puede escribirse f (x1 , ..., xn , f1 , ..., fn ) = f (x1 , ..., xn |f1 , ..., fn ) f (f1 , ..., fn ). El soporte para la muestra completa es n 1X 0 1X log(& , "|X, F) = ! log |& | ! (xi ! "f i )0 & !1 (xi ! "f i ) ! fi fi , (12.24) 2 2 2 donde suponemos que las variables xi tienen media cero, lo que equivale a sustituir la media por su estimador la media muestral. Observemos que, dados los factores, la estimacin de " podra hacerse como una regresin. Por otro lado, dados los parmetros podramos estimar los factores, como veremos en la seccin 12.7. Para aplicar el algoritmo EM necesitamos: (1) Paso M: maximizar la verosimilitud completa respecto a " y & supuesto conocidos los valores fi de los factores. Esto es fcil de hacer, ya que las las de " se obtienen haciendo regresiones entre cada variable y los factores, y los elementos diagonales de & son las varianzas residuales en estas regresiones. (2) Paso E: hay que calcular la esperanza de la verosimilitud completa respecto a la distribucin de los fi dados los parmetros. Desarrollando (12.24) se observa que las expresiones que aparecen en la verosimilitud son la matriz de covarianzas entre los factores y la matriz de covarianzas entre los factores y los datos. Los detalles de su estimacin pueden consultarse en Bartholomew y Knott (1999, p.49)

12.4.2

Otros mtodos de estimacin

Como el mtodo de mxima verosimilitud es complicado, se han propuesto otros mtodos aproximados para calcular estimadores con similares propiedades asintticas pero de clculo ms simple. Uno de ellos es el de mnimos cuadrados generalizados que exponemos a continuacin. Para justicarlo, observemos que la estimacin MV puede reinterpretarse como sigue: si no existiesen restricciones sobre V el estimador MV de esta matriz es S y, sustituyendo esta estimacin en (12.19) la funcin soporte en el mximo es: n n ! log |S| ! p. 2 2

12.4. ESTIMACIN MXIMO VEROSMIL

373

Maximizar la funcin soporte es equivalente a minimizar con respecto a V la funcin de discrepancia obtenida restando del mximo valor anterior el soporte (12.19). La funcin obtenida con esta diferencia es: n n F = tr SV!1 ! p ! log SV!1 2 2

que indica que se desea hacer V tan prximo a S como sea posible, midiendo la distancia entre ambas matrices por la traza y determinante del producto SV!1 . Observemos que como el ! 1 V se estima con restricciones SV # 1 y el logaritmo ser negativo o nulo. Centrndonos en los dos primeros trminos, y despreciando el determinante, la funcin a minimizar es: F1 = tr SV!1 ! p = tr SV!1 ! I = tr (S ! V) V!1 que minimiza las diferencias entre la matriz S observada y la estimada V, pero dando un peso a cada diferencia que depende del tamao de V!1 . Esto conduce a la idea de mnimos cuadrados generalizados, MCG (GLS en ingls), donde minimizamos 2 tr (S ! V) V!1 Ejemplo 12.6 Vamos a ilustrar la estimacin MV para los datos de INVEST. Suponiendo dos factores se obtienen los resultados de las tablas siguientes: Factor1 Factor2 Variabilidad 6.80 0.53 Ph 0.85 0.06 Ph 0.85 0.91 i=1 Ph

y puede demostrarse que si se itera el procedimiento de MCG se obtienen estimadores asintticamente ecientes

Tabla 12.3: Variabilidad explicada por los dos primeros factores estimados por mxima verosimilitud. Factor1 Factor2 .2 i 0.95 0.25 0.02 0.85 0.08 0.26 0.92 0.26 0.07 0.88 0.45 0.01 0.93 0.3 0.02 0.86 0.29 0.17 0.95 0.05 0.09 1 0 0

INTER.A INTER.B AGRIC. BIOLO. MEDIC. QUIMI. INGEN. FSICA

Tabla 12.4: Matriz de cargas de los factores Si comparamos estos resultados con los obtenidos por el mtodo del factor principal (ejercicio 12.5) vemos que el primer factor es similar, aunque aumenta el peso de la fsica y hay

374

CAPTULO 12. ANLISIS FACTORIAL

ms diferencias relativas entre los pesos de las variables. El segundo factor tiene ms cambios pero su interpretacin es tambin similar. Las varianzas de los componentes especcos presentan pocos cambios con ambos enfoques. Las guras 12.2 y 12.3 presentan los pesos y la proyeccin de los datos sobre el plano de los factores.
Factor1
1.0 0.0 0.2 0.4 0.6 0.8

FISICA

INTER.A

INGEN.

MEDIC.

AGRIC.

BIOLO.

QUIMI.

INTER.F

Factor2
0.4 0.0 0.1 0.2 0.3

BIOLO.

MEDIC.

QUIMI.

AGRIC.

INTER.A

INTER.F

INGEN.

FISICA

Figura 12.2: Pesos de los variables de INVEST en los dos factores estimados por MV.

12.5
12.5.1

DETERMINACIN DEL NMERO DE FACTORES


Contraste de verosimilitud

Supongamos que se ha estimado un modelo con m factores. El contraste de que la descomposicin es adecuada puede plantearse como un contraste de razn de verosimilitudes: H0 : V = ""0 +& H1 : V 6= ""0 +& . Este contraste recuerda al de esfericidad parcial que estudiamos en el captulo 10, aunque existen diferencias porque no exigimos que los componentes especcos tengan igual varianza. 0 El contraste se deduce con los mismos principios que estudiamos en el captulo 10. Sea V el valor de la matriz de varianzas y covarianzas de los datos estimados bajo H0 . Entonces,

12.5. DETERMINACIN DEL NMERO DE FACTORES

375

Factor2

-1

0 Factor1

376

CAPTULO 12. ANLISIS FACTORIAL

b !1 0 y e S en trminos del determinante, !n log y, por tanto, mide la distancia entre V SV 0 , que es el segundo trmino de la verosimilitud. El contraste rechaza H0 cuando " sea mayor que el percentil 1 ! # de una distribucin +2 con grados de libertad, g , dados por g = dim(H1 ) ! dim(H0 ). La dimensin del espacio g p paramtrico de H1 es p + = p(p + 1)/2, igual al nmero de elementos distintos de V. 2 La dimensin de H0 es pm por la matriz " ms los p elementos de & , menos m(m ! 1)/2 restricciones resultantes de la condicin que "0 & !1" debe ser diagonal. Por tanto: g = p + p(p ! 1)/2 ! pm ! p + m(m ! 1)/2 = = (1/2) (p ! m)2 ! (p + m) (12.28)

Bartlett (1954) ha demostrado que la aproximacin asinttica de la distribucin +2 mejora en muestras nitas introduciendo un factor de correccin. Con esta modicacin, el test es rechazar H0 si | " 0 + & 2p + 4m + 5 |" (n ! 1 ! ) ln > +2 [((p!m)2 !(p+m))/2] (1 ! #) 6 |S| (12.29)

Generalmente este contraste se aplica secuencialmente: Se estima el modelo con un valor pequeo, m = m1 (que puede ser m1 = 1) y se contrata H0 . Si se rechaza, se reestima con m = m1 + 1, continuando hasta aceptar H0 . Un procedimiento alternativo, propuesto por Joreskog (1993), que funciona mejor ante moderadas desviaciones de la normalidad es el siguiente: calcular el estadstico (12.29) para 2 2 m = 1, . . . , mmax . Sean X1 , . . . , Xm sus valores y g1 , . . . , gmmax sus grados de libertad. max 2 2 Calcularemos las diferencias Xm ! Xm +1 y consideramos estas diferencias como valores de 2 una + con gm ! gm+1 grados de libertad. Si el valor obtenido es signicativo aumentamos el nmero de factores y procedemos as hasta que no encontremos una mejora signicativa en el ajuste del modelo. El contraste (12.27) admite una interesante interpretacin. El modelo factorial establece que la diferencia entre la matriz de covarianzas, S (p p), y una matriz diagonal de rango p, & , es aproximadamente una matriz simtrica de rango m, ""0 , es decir: b '" b" b0. S!&
!1/2

b !1/2 se obtiene que la matriz A, dada por: Premultiplicando y postmultiplicando por & debe ser asintticamente igual a la matriz: b A=& b S&
!1/2

! I,

(12.30)

y tener asintticamente rango m, en lugar de rango p. Se demuestra en el apndice 12.2 que el contraste (12.27) equivale a comprobar si la matriz A tiene rango m, lo que debe ser

b !1/2 " b !1/2 , b" b 0& B=&

(12.31)

12.5. DETERMINACIN DEL NMERO DE FACTORES asintticamente cierto por (12.31), y que el test (12.27) puede escribirse " = !n
p X

377

log(1 + di )

(12.32)

m+1

donde di son las p ! m menores races caractersticas de la matriz A. La hiptesis nula se rechaza si " es demasiado grande comparada con la distribucin +2 con (1/2)((p!m)2 !p!m). En el Apndice 12.2 se demuestra que este contraste es un caso particular del contraste de verosimilitud sobre la esfericidad parcial de una matriz que presentamos en 10.6. Cuando el tamao muestral es grande y m es pequeo con relacin a p, si los datos no siguen una distribucin normal multivariante el contraste conduce generalmente a rechazar H0 . Este es un problema frecuente en contraste de hiptesis con muestras grandes, donde tendemos a rechazar H0 . Por tanto, es necesario a la hora de decidir el nmero de factores, diferenciar entre signicatividad prctica y signicatividad estadstica, como ocurre en todo contraste de hiptesis. Este contraste es muy sensible a desviaciones de la normalidad por lo que en la prctica el estadstico (12.27) se utiliza como medida de ajuste del modelo ms que como un test formal.

12.5.2

Criterios de seleccin

Una alternativa a los contrastes es plantear el problema como uno de seleccin de modelos. Entonces estimaremos el modelo factorial para distinto nmero de factores, calcularemos la funcin soporte en el mximo para cada modelo y, aplicando el criterio de Akaike, elegiremos aquel modelo donde AIC (m) = !2L(H0,m ) + 2np sea mnimo. En esta expresin 2L(H0,m ) es la funcin soporte para el modelo que establece m factores particularizada en los estimadores MV, que viene dada por (12.25), y np es el nmero de parmetros en el modelo. Observemos que esta expresin tiene en cuenta que al aumentar m la verosimilitud de L(H0,m ) aumenta, o la desviacin !2L(H0,m ) disminuye, pero este efecto se contrapesa con el nmero de parmetros que aperece penalizando la relacin anterior. Este mismo criterio de seleccin puede escribirse como minimizar las diferencias AIC (m) ! AIC (H1 ), donde en todos los modelos restamos la misma cantidad, AIC (H1 ), que es el valor del AIC para el modelo que supone que no existe estructura factorial y que estima la matriz de covarianzas sin restricciones. Entonces la funcin a minimizar es AIC $ (m) = 2(L(H1 ) ! L(H0,m )) ! 2g = "(m) ! 2g b 0 se estima con donde "(m) es la diferencia de soportes (12.27), donde en esta expresin V m factores, y g es el nmero de grados de libertad dado por (12.28). Un criterio alternativo es el BIC presentado en el captulo 11. Con este criterio en lugar de penalizar el nmero de parmetros con 2 lo hacemos con logn. Este criterio aplicado a la seleccion del modelo factorial mediante las diferencias de soporte es: BIC (m) = "(m) ! g log n

378

CAPTULO 12. ANLISIS FACTORIAL

Ejemplo 12.7 Aplicaremos el mtodo de mxima verosimilitud a los datos de INVEST, para realizar un contraste sobre el nmero de factores. Si basamos el contraste en la expresin (12.27) obtenemos la siguiente tabla, m 1 2 3 4 " 31.1 11.73 6.49 5.27 gm 20 13 7 2 p ! valor 0.053 0.55 0.484 0.072 AIC !8.9 !14.27 !7.51 1.27 BIC !29.79 !27.84 !14.82 !0, 73

por ejemplo, si m = 1 el nmero de grados de libertad es (1/2) ((7)2 ! (9)) = 20. Vemos que para # = 0.05 no podemos rechazar la hiptesis nula de que un factor es suciente. Sin embargo, el criterio de Akaike indica que el mnimo se obtiene con dos factores, y el criterio BIC conrma, por poca diferencia, la eleccin de un factor. Como el p!valor del contraste anterior est en el lmite vamos a comparar este test con el procedimiento propuesto por Joreskog. El primer paso es utilizar la correccin propuesta por Barlet, que realizamos multiplicando los estadsticos +2 m por (n ! 1 ! (2p + 4m + 5)/6)/n. Por ejemplo, el estadstico corregido para p = 1 es,
2 X1 = ((20 ! 1 ! (2 / 8 + 4 / 1 + 5)/6)/20) / 31.1 = 23.06

en la siguiente tabla presentamos los resultados. p 1 2 3 4


2 Xm 23.06 8.30 4.38 3.38 2 2 Xm ! Xm +1 14.76 3.92 1

gm ! gm+1 7 6 5

p ! valor 0.039 0.687 0.962

Este mtodo indica que rechazamos la hiptesis de un factor, pero no podemos rechazar la hiptesis de dos factores, con lo que concluimos que el nmero de factores, escogido con el mtodo de Joreskog, es igual a dos. Como vemos, en este ejemplo el criterio de Joreskov coindice con el criterio de Akaike Ejemplo 12.8 Para los datos EPF de la Encuesta de Presupuestos Familiares del Anexo A.3, aplicaremos la tcnica de anlisis factorial con la estimacin mximo verosmil. Los datos han sido transformados en logaritmos para mejorar la asimetra, al igual que se hizo en el anlisis de Componentes Principales presentado en los ejemplos 4.2 y 4.3. Para este anlisis tambin hemos estandarizado las observaciones. Aceptamos el contraste de un nico factor dado que el p-valor es 0.242. La estimacin de los pesos de este factor es aproximadamente una ponderacin con menor peso en los epgrafes de alimentacin, vestido y calzado, como se muestra en la tabla 12.5

12.6. ROTACIN DE LOS FACTORES X1 X2 X3 X4 X5 X6 X7 X8 X9 Factor 1 0.61 0.64 0.86 0.88 0.82 0.84 0.93 0.89 0.72 Tabla 12.5: Vector de cargas de los factores

379

12.6

ROTACIN DE LOS FACTORES

Como vimos en la seccin 12.2.3, la matriz de carga no esta identicada ante multiplicaciones por matrices ortogonales, que equivalen a rotaciones. En anlisis factorial est denido el espacio de las columnas de la matriz de carga, pero cualquier base de este espacio puede ser una solucin. Para elegir entre las posibles soluciones, se tienen en cuenta la interpretacin de los factores. Intuitivamente, ser ms fcil interpretar un factor cuando se asocia a un bloque de variables observadas. Esto ocurrir si las columnas de la matriz de carga, que representan el efecto de cada factor sobre las variables observadas, contienen valores altos para ciertas variables y pequeos para otras. Esta idea puede plantearse de distintas formas que dan lugar a distintos criterios para denir la rotacin. Los coecientes de la matriz ortogonal que dene la rotacin se obtendrn minimizando una funcin objetivo que expresa la simplicidad deseada en la representacin conseguida al rotar. El criterio ms utilizado es el Varimax, que exponemos a continuacin. Criterio Varimax La interpretacin de los factores se facilita si los que afectan a algunas variables no lo hacen a otras y al revs. Este objetivo conduce al criterio de maximizar la varianza de los coecientes que denen los efectos de cada factor sobre las variables observadas. Para precisar este criterio, llamemos * ij a los coecientes de la matriz de carga asociados al factor j en las i = 1, ..., p ecuaciones despus de la rotacin y ' j al vector que es la columna j de la matriz de carga despus de la rotacin. Se desea, que la varianza de los coecientes al cuadrado de este vector sea mxima. Se toman los coecientes alP cuadrado para prescindir *2 de los signos, ya que interesa su valor absoluto. Llamando * .j = ij /p a la media de los cuadrados de los componentes del vector ' j , la variabilidad para el factor j es:
p p p X 1X 2 1X 4 2 2 2 (* ij ! * .j ) = * ij ! (1/p) ( *2 ij ) , p i=1 p i=1 i=1

(12.33)

y el criterio es maximizar la suma de las varianzas para todos los factores, dada por: q = (1/p)
p m X X j =1 i=1

*4 ij

p m X X 2 ! (1/p) ( *2 ij ) . 2 j =1 i=1

(12.34)

Sea " la matriz de carga estimada inicialmente. El problema es encontrar una matriz ortogonal M tal que la matriz ' dada por ' = "M,

380 y cuyos coecientes * ij viene dados por

CAPTULO 12. ANLISIS FACTORIAL

* ij = !0i mj siendo !0i la la i de la matriz " y mj la columna j de la matriz M que buscamos, verique la condicin de que estos coeciente maximicen (12.34). Los trminos de la matriz M se obtendrn derivando (12.34) respecto a cada uno de sus trminos mij teniendo en cuenta las restricciones de ortogonalidad m0i mi = 1; m0i mj = 0 (i 6= j ). El resultado obtenido es la rotacin varimax. Ejemplo 12.9 Si aplicamos una rotacin varimax a la estimacin MV de los datos de INVEST del ejemplo 7.6 se obtiene el resultado presentado en la gura 12.4. Esta nueva matriz
Factor1
0.8 0.0 0.2 0.4 0.6

BIOLO.

MEDIC.

INTER.A

AGRIC.

QUIMI.

INGEN.

FISICA

INTER.F

Factor2
0.8 0.0 0.2 0.4 0.6

FISICA

INGEN.

INTER.F

INTER.A

AGRIC.

MEDIC.

QUIMI.

BIOLO.

Figura 12.4: Resultado de aplicar una rotacin varimax para los factores de INVES. de cargas resulta al multiplicar los coecientes de la matriz ortogonal que denen la rotacin, M, por la matriz de cargas obtenida en la estimacin MV y presentada en el ejemplo 12.6 !
"

% % % % % * =% % % % % "

0.95 0.85 0.92 0.88 0.93 0.86 0.95 1

0.25 0.08 0.26 0.45 0.3 0.29 0.05 0

& % & % & % M & % & 0.53 0.85 % & % = & 0.85 !0.53 % & % & % & % $ "

0.71 0.52 0.71 0.85 0.75 0.70 0.55 0.53

0.67 0.68 0.64 0.51 0.63 0.58 0.78 0.85

# & & & & & & & & & & $

12.7. ESTIMACIN DE LOS FACTORES Rotaciones oblicuas

381

El modelo factorial est indeterminado no slo ante rotaciones ortogonales sino ante rotaciones oblicuas. En efecto, como vimos en la seccin 6.1 el modelo puede establecerse con factores incorrelados o correlados. La solucin obtenida de la estimacin de " corresponde siempre a factores incorrelados, pero podemos preguntarnos si existe una solucin con factores correlados que tenga una interpretacin ms interesante. Matemticamente esto implica denir nuevos factores f $ = Hf , donde H es una matriz no singular que puede interpretarse, en general, como un giro oblicuo. La nueva matriz de varianzas y covarianzas de los factores $ ser Vf = HH0 . Existen diversos procedimientos para obtener rotaciones oblicuas, como el Quartmin, Oblimax, Promax, etc. que el lector puede consultar en la literatura especializada. El problema de las rotaciones oblicuas es que los factores, al estar correlados, no pueden interpretarse independientemente.

12.7

ESTIMACIN DE LOS FACTORES

En muchos problemas el inters del anlisis factorial es determinar la matriz de carga, y los valores particulares de los factores en los elementos de la muestra no tienen inters. Sin embargo, en otros casos se desean obtener los valores de las variables factores sobre los elementos observados. Existen dos procedimientos para estimar los factores: el primero, debido a Bartlett, supone que el vector de valores de los factores para cada observacin es un parmetro a estimar. El segundo, supone que son variables aleatorias. Vamos a revisar brevemente ambos procedimientos.

12.7.1

Los factores como parmetros

El vector (p 1) de valores de las variables en el individuo i, xi , tiene una distribucin normal con media "f i , donde fi es el vector (m 1) de factores para el elemento i en la muestra, y matriz de covarianzas & , es decir xi + Np ("fi , & ) Los parmetros fi pueden estimarse por mxima verosimilitud como se indica en el Apndice 12.3. El estimador resultante es el de mnimos cuadrados generalizados, dado por !1 0 b !1 b b b !1 xi . b b 0& fi = " & " " (12.35) xi = "f i + ui es un modelo de regresin con variable dependiente xi , variables explicativas las columnas de " y parmetros fi . Como la perturbacin, ui , no se distribuye como N (0, I) sino N (0, & ), tendremos que utilizar mnimos cuadrados generalizados, lo que conduce a (12.35).

que tiene una clara interpretacin intuitiva: si conocemos ", el modelo factorial

382

CAPTULO 12. ANLISIS FACTORIAL

12.7.2

Los factores como variables aleatorias

El segundo mtodo es suponer que los factores son variables aleatorias, y buscar un predictor lineal que minimice el error cuadrtico medio de prediccin. Llamando fi como antes a los valores de los factores en el individuo i y xi al vector de variables observadas, el vector (fi , xi ) tendr una distribucin normal multivariante y el objetivo es encontrar E [fi |xi ]. Por los resultados de la seccin 8.5.1 tenemos que: E [fi |xi ] = E [fi ] + Cov (fi , xi ) V ar (xi )!1 (xi ! E (xi )) Como E [fi ] = 0 y las covarianzas entre los factores y las variables son los trminos de la matriz de carga, podemos escribir, suponiendo variables de media cero y los parmetros conocidos: b fi = E [fi |xi ] = "0 V!1 xi (12.36)

que es el predictor regresin lineal de los factores sobre los datos. En efecto "0 representa las covarianzas entre factores y variables y V las covarianzas entre variables. Esta ecuacin puede tambin escribirse (vease el Apndice 12.3) como b fi = (I + "0 & !1 ")!1 "0 & !1 xi . (12.37)

Comparando (12.35) y (12.36) vemos que ste ltimo mtodo puede interpretarse como una regresin cresta (ridge regression). Supone sumar la unidad a los elementos diagonales de la matriz "0 & !1 ". Este estimador tiene tambin una interpretacin bayesiana que se presenta en el Apndice 12.4. Si en las ecuaciones (12.35) y (12.37) sustituimos los valores tericos por los estimados, obtenemos un vector b fi que representa la estimacin del valor de los m factores en el individuo i. Aplicando sucesivamente estas ecuaciones a los n datos muestrales, x1 , ..., xn , obtendremos los valores de los factores para los n individuos, f1 , ..., fn , donde cada fi es un vector (m 1). Ejemplo 12.10 Con los datos de ACCIONES estimaremos los valores del factor supuesta la matriz de carga estimada en ejemplo 12.3 para las variables en logaritmos. Vamos a detallar su obtencin para las primeras 5 acciones de dicho ejemplo. La matriz de datos X contendr estas 5 observaciones. ! # 1.22 4.5 3.41 % 1.63 4.02 2.29 & % & & 1 . 5 3 . 96 2 . 44 X=% % & " 1.25 3.85 2.42 $ 1.77 3.75 1.95 Comencemos por el primer mtodo, mnimos cuadrados generalizados. Los estimadores b !1 , obtenidos en el ejemplo 12.3 son, b de ", & ! # ! # !0.269 1.984 0 0 !1 b =" 0 b = " !0.229 $ ; 3.834 0 $ " & 0.407 0 0 9.534

12.8. DIAGNOSIS DEL MODELO y aplicando las frmulas obtenemos, ! #0 ! 0 . 55 !1 b !1 " b !1 = " !1.75 $ b 0& b b 0& " " 19.24 !1 !1 !1 0 0 b " b b& b b& Los 5 primeros valores del primer factor se calculan con b fi = X " " , !1 b !1 " b 0& b " = 0.5; ! % % b fi = % % " 1.22 1.63 1.5 1.25 1.77 4.5 4.02 3.96 3.85 3.75 3.41 2.29 2.44 2.42 1.95 # & !0.55 % & % & " !1.75 $ = % & % $ 19.24 " ! # ! 57.062 36.128 39.191 39.136 29.982 # & & & & $

383

Para estimar los valores por el segundo mtodo calcularemos : !1 b !1 " b b0& = 0.342; I+"

! #0 ! 0 . 36 !1 b !1 " b !1 = " !1.15 $ b0& b b 0& I+" " 12.65 !1 0 b !1 " b !1 , b0& b b 0& y los 5 primeros valores del primer factor se calculan con b fi = X I + " " ! # ! # 1.22 4.5 3.41 ! 37 . 52 # % 1.63 4.02 2.29 & !0.36 % 23.75 & % & % & b % & & " $ fi = % 1.5 3.96 2.44 & !1.15 = % 25 . 77 % & " 1.25 3.85 2.42 $ 12.65 " 25.73 $ 1.77 3.75 1.95 19.72

Observemos que ambas estimaciones presentan la misma estructura, pero el efecto de contraccin del segundo mtodo hace que los valores obtenidos sean menores.

12.8

DIAGNOSIS DEL MODELO

Residuos de los factores Para contrastar si el modelo es adecuado conviene calcular los factores b f y los residuos e y estudiar sus propiedades. De acuerdo con las hiptesis: u + Np (0, & ) Por tanto, si la matriz de covarianzas de los residuos no es diagonal debemos aumentar el nmero de factores hasta que los residuos estimados: b i = ei = xi ! "b fi u

veriquen las hiptesis. En concreto, contrastaremos si los residuos tienen una distribucin normal. Los residuos pueden indicarnos tambin la presencia de observaciones atpicas o de grupos de observaciones que no se ajustan bien al modelo construido.

384

CAPTULO 12. ANLISIS FACTORIAL

Ejemplo 12.11 Para los datos de EPF calculamos la matriz de varianzas covarianzas de los residuos del modelo estimado en el ejercicio 12.8, donde se estim un nico factor. ! 0.61 0.13 -0.04 -0.03 -0.06 -0.03 0.02 -0.11 0.05 0.13 0.57 -0.01 0.04 -0.01 0.01 -0.05 -0.13 0.04 -0.04 -0.01 0.22 -0.07 -0.07 -0.05 -0.01 0.01 -0.06 -0.03 0.04 -0.07 0.19 -0.03 -0.01 -0.05 -0.03 0.02 -0.06 -0.01 -0.07 -0.03 0.3 0 -0.02 -0.04 -0.01 -0.03 0.01 -0.05 -0.01 0 0.26 -0.06 -0.05 0.1 0.02 -0.05 -0.01 -0.05 -0.02 -0.06 0.1 -0.01 -0.1 # -0.11 0.05 -0.13 0.04 & & 0.01 -0.06 & & -0.03 0.02 & & -0.04 -0.01 & & -0.05 0.1 & & -0.01 -0.1 & & 0.18 -0.05 $ -0.05 0.45

% % % % % % =% & % % % % % "

En la diagonal gura la varianza especca, se aprecia que los trminos de fuera de la diagonal son relativamente pequeos. Compararemos esta matriz con la resultante de estimar dos factores, que en el contraste tiene un p-valor de 0.64, la nueva matriz de varianzas de los residuos es: % % % % % % =% & % % % % % " ! 0.6 0.12 -0.04 -0.04 -0.07 -0.06 0.02 -0.1 0.01 0.12 0.53 0.03 0.02 -0.01 -0.04 -0.01 -0.09 -0.08 -0.04 0.03 0.22 -0.04 -0.05 -0.01 -0.03 0.01 0 -0.04 0.02 -0.04 0.19 -0.02 -0.04 -0.02 0 -0.05 -0.07 -0.01 -0.05 -0.02 0.3 -0.01 -0.01 -0.02 -0.03 -0.06 -0.04 -0.01 -0.04 -0.01 0.18 -0.01 -0.01 -0.05 0.02 -0.01 -0.03 -0.02 -0.01 -0.01 0.03 -0.04 0 -0.1 -0.09 0.01 0 -0.02 -0.01 -0.04 0.19 0.01 0.01 -0.08 0 -0.05 -0.03 -0.05 0 0.01 0.17 # & & & & & & & & & & & & $

y la variabilidad especica ha disminuido en las variables X7 y X9 y fuera de la diagonal, en general, los valores son ms pequeos. Se poda incrementar el nmero de factores en uno ms, pero se corre el peligro de sobreajustar el modelo y que la interpretacin de los pesos est demasiado sujeta a los datos en concreto usados. En las guras 12.5 y 12.6 se presentan las cargas de los factores y la representacin de las distintas provincias en el espacio formado por estos dos factores.Las cargas del segundo factor permiten una interpretacin anloga a la descrita para el segundo componente principal. En la gura 12.7 presentamos los histogramas de las distribuciones marginales de los residuos. Algunos de estos histogramas no parecen seguir una distribucin normal.

Residuos del ajuste b . Frecuentemente es ms cmodo Se denen los residuos del ajuste como los trminos de S!V utilizar los residuos estandarizados, donde cada residuo se divide por su desviacin tpica asinttica.

12.8. DIAGNOSIS DEL MODELO


Factor1
0.8

385

0.0

0.2

0.4

0.6

X7

X8

X4

X3

X6

X5

X9

X2

Factor2

-0.1

0.1

0.3

X9

X6

X2

X7

X4

X3

X8

X1

Figura 12.5: Representacin de la matriz de cargas de los dos primeros factores estimados por mxima verosimilitud. Medidas de ajuste del modelo Podemos construir una medida del ajuste del modelo factorial para cada variable mediante $2 i = h2 .2 i i = 1 ! 2 s2 s i i

que suele denominarse coeciente de correlacin al cuadrado entre la variable y los factores. El coeciente de determinacin para todo el sistema puede construirse con 1/p b & R2 = 1 ! 1/p , b V b b donde & es el determinante de la matriz de varianzas residuales y V el estimado por el modelo. El estadstico +2 dado por (12.27) proporciona otra medida global de ajuste. Para calibrar su valor lo compararemos con sus grados de libertad. Cuando los datos no son normales la distribucin de (12.27) puede desviarse mucho de la +2 pero, en cualquier caso, su valor puede utilizarse como un criterio de ajuste. Ejemplo 12.12 Calculamos el coeciente de correlacin al cuadrado entre la variable y los factores para los datos el ejemplo 12.8 en el modelo con dos factores. Como las variables

386

CAPTULO 12. ANLISIS FACTORIAL

Lugo Zamora Toledo 1 Huesca Cuenca Avila Factor2 Segovia Ciudad-Real Teruel Castellon Jaen -1 Guadalajara Caceres Palencia Albacete 0 Murcia Soria Alicante Almeria Baleares Pontevedra Cantabria Asturias Burgos La-Rioja La-Coruna Vizcaya Leon Navarra Lerida

Badajoz

Las-Palmas Sevilla Valencia Gerona Tarragona Alava Orense Cadiz Zaragoza Granada Malaga Guipuzcoa Cordoba Huelva Valladolid Tenerife

Madrid

Salamanca Ceuta-Melilla -2 -1

Barcelona 0 Factor1 1 2

Figura 12.6: Representacin de las provincias en los dos primeros factores. originales estaban estandarizadas, s2 i = 1 para i = 1, . . . , 9, los coecientes se calculan como 1 menos la varianza especica. $2 i X1 0.4 X2 0.47 X3 0.78 X4 0.81 X5 X6 X7 X8 X9 0.7 0.82 0.97 0.81 0.83

El coeciente de determinacin es R2 = 1 ! ( 1.781499 10!8 1/9 ) = . 652 0.0002415762

y vemos que proporciona un valor promedio de las relaciones de dependencia en el sistema.

12.9

Anlisis Factorial Conrmatorio

El anlisis factorial puede aplicarse como una herramienta exploratoria o como un modelo para contrastar teoras. En este segundo caso, el nmero de factores se supone conocido a priori y se establecen restricciones sobre los elementos de la matriz de carga. Por ejemplo, algunos pueden ser cero o iguales entre s. Dada la existencia de informacin adicional,

12.9. ANLISIS FACTORIAL CONFIRMATORIO

387

0.6

0.4

0.4

0.0

0.2

0.0

0.2

-2

-1

0 X1

-2

-1 X2

0.0 -1.0

0.4

0.8

-0.5

0.0 X3

0.5

1.0

1.5

0.8

0.6

0.4

0.4

0.0

0.0

0.2

-1.0

-0.5

0.0 X4

0.5

1.0

1.5

-1.5

-1.0

-0.5 X5

0.0

0.5

1.0

0.0 -1.5

0.4

0.8

-0.5

0.0 X6

0.5

1.0

1.5

0.8

0.4

0.0

-0.2

0.0

0.2 X7

0.4

0.6

-1.5

-0.5

0.0 X8

0.5

1.0

1.5

0.0

0.4

0.8

-0.5

0.0 X9

0.5

1.0

Figura 12.7: Histograma de las distribuciones marginales de los residuos. se supone habitualmente que los factores tienen matriz de varianza y covarianzas Vf no necesariamente identidad, aunque con restricciones en sus trminos. La ecuacin fundamental se convierte en Vx = "V f "0 + & pero ahora las tres matrices desconocidas del sistema, ", Vf y & contienen numerosas restricciones de manera que el nmero total de parmetros libres, t, verica t# p (p + 1) 2

para que el modelo est identicado. La estimacin se realiza por mxima verosimilitud, pero la restriccin "0 & !1 " =diagonal no suele imponerse si no es necesaria para identicar el modelo. Los contrastes de bondad del modelo son anlogos a los estudiados, pero ahora el nmero +1) de grados de libertad ser p(p2 ! t, siendo t el nmero de parmetro libres estimados. Sin embargo, los efectos de no normalidad son aqu ms graves que cuando estimamos todos los parmetros, como ocurre en anlisis factorial exploratorio. Recomendamos que el anlisis factorial conrmatorio, se compare siempre con un anlisis exploratorio para conrmar que el modelo impuesto no est en contradiccin con los datos observados.

388

CAPTULO 12. ANLISIS FACTORIAL

12.10

Relacin con componentes principales

En componentes principales descomponemos la matriz de varianzas y covarianzas de las X como: ! # # ! "1 0 0 % 0 "2 0 & a1 % & &% . S = A$A0 = [a1 . . . an ] % . &" . $ . . . . . . " . . . $ 0 an 0 0 "n ! # "1 a01 % . & = [a1 . . . an ] " . . $ "n a0n = "1 a1 a01 + . . . + "n an a0n Si "j = 0 para j < h, podemos reconstruir S con los primeros j componentes. Llamando H = A$1/2 , tenemos que: S = HH0 . En Anlisis factorial descomponemos S como: S = ""0 + & , y como la matriz & es diagonal puede recoger las varianzas de las variables, mientras que la matriz de carga recoge las covarianzas de las variables. Esta es una diferencia importante entre ambos mtodos. El primero trata de explicar las varianzas, mientras que el segundo b ' 0, es lo mismo tomar m explica las covarianzas o correlaciones. Observemos que si & componentes principales que estimar m factores. La diferencia es tanto menor cuanto menor b. sea & Otra forma de estudiar la relacin entre ambos mtodos es la siguiente: sea X la matriz de datos original y Z la matriz de valores de los componentes. Entonces: Z = XA, o tambin, como A es ortogonal X = ZA0 , que permite reconstruir las variables originales a partir de los componentes. Escribiendo x1 = #11 z1 + . . . + #m1 zm + . . . + #pm zp . . . xp = #p1 z1 + . . . + #pm zm + . . . + #pp zp con m componentes tenemos: x1 = #11 z1 + . . . + #1m zm + v1 . . . xp = #p1 z1 + . . . + #mp zm + vp

12.11. LECTURAS RECOMENDADAS

389

Esta representacin es aparentemente anloga al modelo factorial, ya que v1 estar incorrelada con los factores (z1 , ..., zm ) al incluir nicamente las variables (zm+1 , ..., zp ) que son ortogonales a las anteriores. Sin embargo, la diferencia bsica es que en el modelo factorial los errores de las distintas ecuaciones estn incorrelados, mientras que en sta representacin no lo estarn. En efecto, como (v1 , ...vp ) contienen todas las variables comunes (zm+1 , ..., zp ) estarn correladas. Por esta razn, en general los resultados de ambos mtodos sern distintos. Estos resultados indican que si existen m componentes principales que explican una proporcin muy alta de la variabilidad, de manera que la variabilidad especca dada por los trminos diagonales de & sea pequea, el anlisis factorial y el anlisis de componentes principales sobre la matriz de correlaciones sern resultados similares. Tambin en este caso la estimacin mediante el mtodo de factores principales conducir a resultados similares al de mxima verosimilitud. Aparte de estas diferencias, ambas tcnicas tienen una interpretacin diferente: en componentes principales tratamos de representar gracamente los datos, mientras que en anlisis factorial suponemos que los factores generan las variables observadas.

12.11

Lecturas recomendadas

La mayora de los textos de anlisis multivariante incluyen un captulo de anlisis factorial. Buenos textos recomendables para complementar lo aqui expuesto son Cuadras (1991), que presenta una exposicin muy detallada y clara, Jobson (1992), Johnson and Wichern (1998), Mardia et al (1979), Rechner (1998) y Seber (1984). Presentaciones ms extensas se encuentran en Bartholomew y Knott (1999) y Harman (1980). La estimacin mximo verosimil se estudia con detalle en Joreskov (1963) y Lawley y Maxwell (1971), aunque no se incluyen mtodos ms modernos de estimacin basados en el algoritmo EM o en mtodos bayesianos. Bartholomew y Knott (1999) presentan de forma clara la estimacin mediante el algoritmo EM. Otra buena referencia sobre el tema es Schafer (1997). Para el tratamiento Bayesiano vase O Hagan (1994) EJERCICIOS Ejercicio 12.1 Dado el modelo factorial x = " f + u , donde x = (x1 , x2 , x3 , x4 ) tiene media cero y varianzas ( 1, 2, 1, 7), y donde " = (.8, 1, 0, 2)0 , y Var(f ) = 1, se pide: (1) Calcular las covarianzas entre las variables y el factor; (2) Calcular las correlaciones entre las variables y el factor; (3) Escribir el modelo como un modelo unifactorial con un factor de varianza igual a 5. Ejercicio 12.2 Indicar si es posible el siguiente modelo factorial x = " f + u , donde x = (x1 , x2 , x3 ) tiene media cero y varianzas (3, 1, 2), y donde " = (3, 0, 3)0 , y Var(f ) = 1. Ejercicio 12.3 Dado un modelo factorial con x = (x1 , x2 , x3 , x4 , x5, x6 ) de media ceroy 1 .5 " = (!1 !2 ) con !1 = (1, 1, 1, 0, 0, 0)0 , y !2 = (0, 1, 0, 1, 0, 1) y Var(f ) = , .5 2 escribirlo en forma estndar con la normalizacin "0 " = Diagonal

390

CAPTULO 12. ANLISIS FACTORIAL

Ejercicio 12.4 Demostrar utilizando la relacin fundamental que a. Si la varianza especca es igual a la varianza de una variable, la la de la matriz de carga correspondiente a dicha variable debe tener todos los elementos nulos. b. Si la covarianza entre dos variables es cero, las las correspondientes a estas variables en la matriz de carga son ortogonales. c. Si las variables estn estandarizadas la correlacin entre las variables i y j es el producto escalar de las las de la matriz de carga correspondientes a estas variables. d. Si las variables estn estandarizadas, la correlacin entre la variable i y el factor j es el trmino (ij ) de la matriz de carga. Ejercicio 12.5 Demostrar utilizando la relacin fundamental que si las varianzas de los componentes especcos son idnticos, las columnas de la matriz de carga son vectores propios de la matriz de covarianzas, y obtener los valores propios. Ejercicio 12.6 Indicar cul ser el nmero mximo de factores incorrelados que podemos estimar con diez variables. Y si los factores estn correlados? Ejercicio 12.7 Demostrar mediante un ejemplo que con el mtodo del factor principal no se obtiene la misma matriz de carga con variables estandarizadas y sin estandarizar. Ejercicio 12.8 Se dispone de 20 variables y antes de realizar un anlisis factorial se realizan componentes principales y se eligen los 5 primeros componentes. A continuacin se realiza un anlisis factorial sobre estos componentes. Cuntos factores esperaramos encontrar? Ejercicio 12.9 Demostrar que si cada columna de la matriz de carga tiene un nico elemento no nulo, el modelo factorial no est identicado. Ejercicio 12.10 Demostrar que si rotamos los factores la comunalidad total de cada variable no vara. Ejercicio 12.11 Si " = (1, 1, ..., 1)0 indicar la ecuacin para estimar el valor del factor en un individuo si a. diag(& ) = p(1, 1, .., 1), b. diag(& ) = (1, 2, .., p) Ejercicio 12.12 Demostrar que en el modelo unifactorial con & = ) 2 I , el determinante de b 0 es (("0 ") + ) 2 )() 2 )p!1 . V

Ejercicio 12.13 Demostrar que si todas las variables tienen perturbaciones con la misma varianza y & =. 0 I, y suponiendo "0 " = diagonal = D, las columnas de " son directamente vectores propios de la matriz V, con valores propios di + . 0 , donde di es el trmino diagonal de D

12.11. LECTURAS RECOMENDADAS

391

APNDICE 12.1:ESTIMACIN MXIMO-VEROSMIL DEL MODELO FACTORIAL


La estimacin MV de " y & requiere escribir la ecuacin de verosimilitud con la restriccin "& !1 " = D = diagonal, derivarla y obtener las condiciones de primer orden. Este proceso conduce al mismo resultado que resolver la ecuacin de estimacin por momentos b b" b0 + & S=" (12.38)

b mediante (12.39). b obtenemos la matriz & Supongamos que a partir de un valor inicial de " b =" b" b 0 . Este El nuevo estimador de " debe satisfacer aproximadamente la ecuacin S ! & sistema tiene p(p + 1)/2 ecuaciones y p m incgnitas y en general no tiene solucin nica. Para reducirlo a un sistema de p m ecuaciones post-multipliquemos la ecuacin (12.38) por b !1 " b . Reordenando trminos, se obtiene el sistema de ecuaciones: & b !1 es conocido prodonde Im es la matriz identidad de orden m. Esta ecuacin cuando & b, porciona un sistema no lineal de (p m) ecuaciones con (p m) incgnitas para obtener " !1 b , pero esta matriz no b puede obtenerse a partir de los vectores propios S& y sugiere que " !1/2 b es simtrica. Para resolver este problema, premultiplicando por & , podemos escribrir b !1/2 " b como vectores propios de la matriz simtrica que muestra que podemos obtener & !1/2 !1/2 b b b !1/2 S& b !1/2 ! Ip . & S& , o tambien, de la matriz simtrica & Los estimadores MV satisfacen dos propiedades importantes. La primera es b !1 = p tr SV 0 b !1/2 S& b !1/2 (& b !1/2 " b !1/2 " b ) = (& b )(D + Im ) & (12.41) b !1 " b !1 " b=" b (" b 0& b + I) =" b (D + Im ) S& (12.40)

b sea (p m) y . diagonal. Esta segunda condicin se satisface con las restricciones de que " tomando: b = diag S ! " b" b0 . & (12.39)

que indica que con la distancia de la traza la matriz estimada est tan cerca como es posible b 0 = S, entonces tr SS!1 = tr (Ip ) = p. de la matriz de covarianzas observada S. En efecto, V La segunda es que se obtiene el mismo resultado trabajando con variables estandarizadas o sin estandarizar, es decir si estimamos por MV la matriz de carga con las variables originales se obtiene el mismo resultado que si (1) estandarizamos las variables restando las medias y dividiendo por las desviaciones tpicas , (2) estimamos por MV la matriz de carga, que es entonces la matriz de correlacin entre las variables originales y los factores, (3) pasamos de esa matriz de correlacin a la matriz de covarianzas multiplicando por las desviaciones tpicas de las variables.

392

CAPTULO 12. ANLISIS FACTORIAL

b +" b0 = & b" b 0 es la estimacin MV de la matriz Demostremos la primera propiedad. Si V de covarianzas, entonces (vase la seccin 2.3.4): !1 !1 b +" b !1 ! & b !1 " b !1 " b !1 b !1 = & b" b0 b Im + " b 0& b b 0& V = & " 0

y multiplicando por S y tomando trazas : !1 !1 b b " b !1 b (Im + D)!1 " b 0& b !1 = tr S& tr SV ! tr S & 0 Utilizando la condicin (12.40) !1 b !1 b b !1 = tr S& b" b 0& tr SV ! tr "
0 0

y, por las propiedades lineales de la traza, h !1 i !1 b b b" b0 & b" b0 & b !1 = tr S ! " = tr diag S ! " . tr SV

donde el ltimo paso proviene de que el producto de dos matrices diagonales es diagonal y la traza es simplemente la suma de sus elementos diagonales. Por otro lado, la ecuacin (12.39) implica !1 b = Ip b" b0 & diag S ! " y tomando trazas en esta ecuacin !1 !1 b b0 b" b0 & tr SV = tr S ! " = tr (Ip ) = p

y hemos demostrado que el estimador MV verica (??). Para demostrar la segunda propiedad, supongamos que hacemos la transformacin y = DX, donde D es cualquier matriz diagonal (por ejemplo, estandarizamos las variables lo que equivale a trabajar con R, matriz de correlacin, en lugar de con S, matriz de covarianzas). Entonces Sy = DSx D y & y = D& x D. Al calcular la nueva matriz para obtener los valores y vectores propios, tendremos
1/2 1/2 &! Sy !1 & ! = (D& xD)!1/2 DSx D(D& x D)!1/2 y y 1/2 1/2 = &! Sx !1 & ! x x

y es idntica a la anterior.

APNDICE: 12.2 CONTRASTES SOBRE EL RANGO DE UNA MATRIZ


En este apndice vamos a demostrar que el contraste sobre el nmero de factores es un caso particular del contraste general de esfericidad parcial, estudiado en 10.6. Necesitamos para ello el Lema siguiente:

12.11. LECTURAS RECOMENDADAS

393

Lemma 3 |Im ! UU0 | = |Ip ! U0 U|. Esta igualdad se demuestra aplicando la frmula del determinante de una matriz particionada a los determinantes de la igualdad Im U Ip U0 = . U0 Ip U Im Vamos a utilizar este lema para demostrar que el contraste de la razn de verosimilitudes (12.27) tiene en cuenta nicamente los p ! m menores valores propios de la matriz b !1/2 S& b !1/2 . Partiendo del estimador MV de V b 0 , tenemos: & 1/2 b b b 0 b b 1/2 b !1/2 b b 0 b !1/2 b " + & = & & "" & + Ip & V0 = " b b 0 b !1/2 b !1/2 b = & & " + Im " & b !1 " b 0& b , se obtiene que, Llamando D = " m Y b b b V0 = & |D + Im | = & (1 + dj )
i=1

(12.42)

y utilizando (12.42) y (12.43) b V0

donde dj es el elemento diagonal j de D. Por otro lado, de la estimacin de los parmetros por el mtodo de MV del apndice 12.1, b !1/2 ! Ip tiene m valores propios b !1/2 S& hemos visto en la relacin (12.41), que la matriz & iguales a los trminos diagonales de D. En general esta matriz tendr rango p, y llamemos tambin di a sus restantes valores propios para i = m + 1, ..., p. En consecuencia, los valores b !1/2 S& b !1/2 sern 1 + di y podemos escribir: propios de la matriz & p !1/2 !1/2 Y b b b S& (1 + di ) (12.43) = |S| / & = &
i=1

con lo que se obtiene nalmente:

y el contraste de verosimilitud depende nicamente de los valores propios ms pequeos de b !1/2 S& b !1/2 . la matriz & Vamos a demostrar ahora que este contrate es un caso particular del contraste de esfericidad parcial, presentado en 10.6, cuyo estadstico es: Pp p Y i=m+1 "i "EP = n(p ! m) log ! n log "i (12.45) p!m i=m+1

p X b "F = n log V0 /|S| = !n log (1 + di ) i=m+1

Q b m & i=1 (1 + di ) 1 Q = = Qp p |S| b i=m+1 (1 + di ) & i=1 (1 + di )

(12.44)

394

CAPTULO 12. ANLISIS FACTORIAL

donde "i son los valores propios de S, y que el estadstico (12.44) resulta de aplicar este b !1/2 S& b !1/2 . Si el modelo factorial es correcto, asintticamente S = contrate a la matriz & & + ""0 y pre y postmultiplicando por & !1/2 : & !1/2 S& !1/2 = I + & !1/2 ""0 & !1/2 (12.46) que descompone la matriz & !1/2 S& !1/2 en una de rango m ms la matriz identidad. Como los valores propios de esta matriz son 1 + di , tenemos que Pp p X i=m+1 (1 + di ) (1 + di ) (12.47) "EP = n(p ! m) log ! n log p!m i=m+1 queda ahora por demostrar que el primer trmino es cero. Tomando trazas en (12.46). tr(&
!1/2 m X i=1

S&

!1/2

) = p + tr(&

!1/2

"" &

!1/2

) = p + tr(" & ") = p +

!1

dj

pero tambin, por ser 1+di los valores propios de & !1/2 S& !1/2 , sabemos que tr(& !1/2 S& !1/2 ) = P p i=1 (1 + di ), e igulando ambos resultados para la traza:
p m X X (1 + di ) = p + dj i=1 i=1

de donde resulta
p X

di = 0

i=m+1

o, lo que es equivalente
p X

i=m+1

(1 + di ) = p ! m.

y sustituyendo en (12.47) el primer trmino se anula y queda nicamente el segundo, con lo que obtenemos el contraste de la razn de verosimilitud.

APNDICE 12.3 :ESTIMACIN DE LOS FACTORES


Sea xi el vector (p 1) en el individuo i. Su funcin de densidad ser: f (xi ) = |. |!1/2 (2, )!p/2 exp !1/2(xi ! "f i )0 & !1 (xi ! "f i )

supongamos que & y " son conocidas y se trata de estimar fi . Entonces, la funcin de verosimilitud en logaritmos ser: L = log f (xi ) = K ! 1/2(xi ! "fi )0 & !1 (xi ! "fi )

12.11. LECTURAS RECOMENDADAS donde K es una constante. Maximizar L equivale a minimizar: M = (xi ! "f i )0 & !1 (xi ! "f i ) que es el criterio de mnimos cuadrados. Entonces: M = x0i & !1 xi ! 2fi0 "0 & !1 xi + fi0 "0 & !1 "f i . Derivando respecto a fi e igualando a cero: dM = 0 = !2"0 & !1 xi + 2"0 & !1 "fi dfi por tanto fi = ("0 & !1 ")!1 "0 & !1 xi

395

sustituyendo en esta expresin " y & por sus estimadores MV se obtiene el vector fi para cada observacin. Si el parmetro se considera como variable aleatoria, por las propiedades de la esperanza condicional b fi = E [fi |xi ] = "0 V!1 xi V!1 = (& + ""0 )!1 = & !1 ! & !1 "(I + "0 & !1 ")!1 "0 & !1 , entonces, "0 V!1 = "0 & !1 ! "0 & !1 "(I + "0 & !1 ")!1 "0 & !1 "0 V!1 = [I ! "0 & !1 "(I + "0 & !1 ")!1 ]"0 & !1 "0 V!1 = (I + "0 & !1 ")!1 "0 & !1 . y sustituyendo en la expresin de b fi , se obtiene:

Utilizando que:

APNDICE 12.4: INTERPRETACIN BAYESIANA DEL ESTIMADOR DE LOS FACTORES


El estimador (12.37) tiene una clara interpretacin bayesiana. Como a priori, la distribucin del factor, , (fi ), es N (0, I), y la verosimilitud f (x|f , ", & ) es N ("f , & ), la posterior condicionada a los parmetros es: f (fi |x, ", & ) = k f (x|f i , ", & ) , (fi ) donde k es una constante. El exponente de la distribucin posterior ser: (x ! "f )0 & !1 (x ! "f ) + f 0 f = f 0 I + "0 & !1 " f ! 2f 0 "0 & !1 x + x0 & !1 x, (12.48)

b fi = (I + "0 & !1 ")!1 "0 & !1 xi .

396

CAPTULO 12. ANLISIS FACTORIAL

y completando el cuadrado, el exponente puede escribirse !1 0 !1 f 0 I + "0 & !1 " f ! 2f 0 I + "0 & !1 " I + "0 & !1 " " & x+ Resto es decir 0 f !b f I + "0 & !1 " f !b f !1 0 !1 b f = E [f |", & ] = I + "0 & !1 " "& x !1 V ar b f = V ar [f |", & ] = I + "0 & !1 " (12.49)

donde

(12.50)

Por tanto, el estimador (12.37) puede interpretarse como la media de la distribucin a posteriori de los factores. Observemos que la condicin "0 & !1 " = diagonal hace que los factores sean, a posteriori, condicionalmente independientes.

Captulo 13 ANLISIS DISCRIMINANTE


13.1 INTRODUCCIN

El problema de discriminacin o clasicacin, que abordaremos en este captulo, puede plantearse de varias formas y aparece en muchas reas de la actividad humana: desde la diagnosis mdica a los sistemas de concesin de crditos o de reconocimiento de falsas obras de arte. El planteamiento estadstico del problema es el siguiente. Se dispone de un conjunto amplio de elementos que pueden venir de dos o ms poblaciones distintas. En cada elemento se ha observado una variable aleatoria p! dimensional x, cuya distribucin se conoce en las poblaciones consideradas. Se desea clasicar un nuevo elemento, con valores de las variables conocidas, en una de las poblaciones. Por ejemplo, la primera aplicacin del anlisis discriminante consiti en clasicar los restos de un crneo descubierto en una excavacin como humano, utilizando la distribucin de medidas fsicas para los crneos humanos y los de antropoides. El problema de discriminacin aparece en muchas situaciones en que necesitamos clasicar elementos con informacin incompleta. Por ejemplo, los sistemas automticos de concesin de crditos (credit scoring) implantados en muchas instituciones nancieras tienen que utilizar variables medibles hoy (ingresos, antigedad en el trabajo, patrimonio, etc) para prever el comportamiento futuro. En otros casos la informacin podra estar disponible, pero puede requerir destruir el elemento, como en el control de calidad de la resistencia a la tensin de unos componentes. Finalmente, en otros casos la informacin puede ser muy costosa de adquirir. En ingeniera este problema se ha estudiado con el nombre de reconocimiento de patrones (pattern recognition), para disear mquinas capaces de clasicar de manera automtica. Por ejemplo, reconocer voces y sonidos, clasicar billetes o menedas, reconocer caracteres escritos en una pantalla de ordenador o clasicar cartas segn el distrito postal. Otros ejemplos de aplicaciones del anlisis discriminante son: asignar un texto escrito de procedencia desconocida a uno de varios autores por las frecuencias de utilizacin de palabras, asignar una partitura musical o un cuadro a un artista, una declaracin de impuestos como potencialmente defraudadora o no, una empresa como en riesgo de quiebra o no, las enseanzas de un centro como tericas y aplicadas, un paciente como enfermo de cncer o no, un nuevo mtodo de fabricacin como ecaz o no. Las tcnicas que vamos a estudiar reciben tambin el nombre de clasicacin supervisada, 397

398

CAPTULO 13. ANLISIS DISCRIMINANTE

para indicar que conocemos una muestra de elementos bien clasicados que sirve de pauta o modelo para la clasicacin de las siguientes observaciones. Existen varios enfoques posibles para este problema. El primero, que se presenta en este captulo, es el anlisis discriminante clsico debido a Fisher, basado en la normalidad multivariante de las variables consideradas y que es ptimo bajo dicho supuesto. Si todas las variables son continuas, es frecuente que aunque los datos originales no sean normales es posible transformar las variables para que lo sean, y los mtodos de este captulo pueden aplicarse a las variables transformadas. Sin embargo, cuando tengamos variables discretas y continuas para clasicar, la hiptesis de normalidad multivariante es poco realista, y en el captulo siguiente se presentan otros enfoques al problema que pueden funcionar mejor en estos casos.

13.2
13.2.1

CLASIFICACIN ENTRE DOS POBLACIONES


Planteamiento del Problema

Sean P1 y P2 dos poblaciones donde tenemos denida una variable aleatoria vectorial, x, pvariante. Supondremos que x es absolutamente continua y que las funciones de densidad de ambas poblaciones, f1 y f2 , son conocidas. Vamos a estudiar el problema de clasicar un nuevo elemento, x0 , con valores conocidos de las p variables en una de estas poblaciones. Si conocemos las probabilidades a priori , 1 , , 2 , con , 1 + , 2 = 1, de que el elemento venga de cada una de las dos poblaciones, su distribucin de probabilidad ser una distribucin mezclada f (x) =, 1 f1 (x)+,2 f2 (x) y una vez observado x0 podemos calcular las probabilidades a posteriori de que el elemento haya sido generado por cada una de las dos poblaciones, P (i/x0 ), con i = 1, 2. Estas probabilidades se calculan por el teorema de Bayes P (1|x0 ) = P (x0 |1), 1 , 1 P (x0 |1)+, 2 P (x0 |2) f1 (x0 ), 1 , f1 (x0 ),1 + f2 (x0 ), 2

y como P (x0 |1) = f1 (x0 )#x0 , tenemos que: P (1/x0 ) = y para la segunda poblacin P (2|x0 ) = f2 (x0 ),2 . f1 (x0 ), 1 + f2 (x0 ), 2 (13.2) (13.1)

Clasicaremos x0 en la poblacin ms probable a posteriori. Como los denominadores son iguales, clasicaremos x0 en P2 si: , 2 f2 (x0 ) > , 1 f1 (x0 )

13.2. CLASIFICACIN ENTRE DOS POBLACIONES Si las probabilidades a priori son iguales, la condicin de clasicar en P2 se reduce a: f2 (x0 ) > f1 (x0 )

399

es decir, clasicamos a x0 en la poblacin ms probable, o donde su verosimilitud es ms alta. Consideracin de las consecuencias En muchos problemas de clasicacin los errores que podemos cometer tienen distintas consecuencias que podemos cuanticar. Por ejemplo, si una mquina automtica clasica equivocadamente un billete de 10 euros como de 20, y devuelve el cambio equivocado, el coste de clasicacin es de 10 euros. En otros casos estimar el coste puede ser ms complejo: si no concedemos un crdito que sera devuelto podemos perder un cliente y los ingresos futuros que este podra generar, mientras que si el crdito no se devuelve el coste es la cantidad impagada. Como tercer ejemplo, si clasicamos un proceso productivo como en estado de control, el coste de equivocarnos ser una produccin defectuosa, y si, por error, paramos un proceso que funciona adecuadamente, el coste ser el de la parada y revisin. En general supondremos que las posibles decisiones en el problema son nicamente dos: asignar en P1 o en P2 . Una regla de decisin es una particin del espacio muestral Ex (que en general ser Rp ) en dos regiones A1 y A2 = Ex ! A1 , tales que: si x0 $ A1 =% d1 (clasicar en P1 ). si x0 $ A2 =% d2 (clasicar en P2 ). Si las consecuencias de un error de clasicacin pueden cuanticarse, podemos incluirlas en la solucin del problema formulndolo como un problema bayesiano de decisin. Supongamos que: 1. las consecuencias asociadas a los errores de clasicacin son, c(2|1) y c(1|2), donde c(i|j ) es el coste de clasicacin en Pi de una unidad que pertenece a Pj . Estos costes se suponen conocidos; 2. el decisor quiere maximizar su funcin de utilidad y esto equivale a minimizar el coste esperado. Con estas dos hiptesis la mejor decisin es la que minimiza los costes esperados, o funciones de prdida de oportunidad, en la terminologa de Wald. Los resultados de cada decisin que se presenta esquemticamente en la gura 13.1. Si clasicamos al elemento en el grupo 2 las posibles consecuencias son: (a) acertar, con probabilidad P (2|x0 ), en cuyo caso no hay ningn coste de penalizacin; (b) equivocarnos, con probabilidad P (1|x0 ), en cuyo caso incurrimos en el coste asociado c(2|1).

400
0

CAPTULO 13. ANLISIS DISCRIMINANTE

P(1/x) d1 P(2/x)

C(1/2) d2 P(1/x) C(2/1)

P(2/x) 0

Figura 13.1: Representacin de un problema de clasicacin entre dos grupos como un problema de decisin. El coste promedio, o valor esperado, de la decisin d2 : clasicar x0 en P2 ser: E (d2 ) = c(2|1)P (1|x0 ) + 0P (2|x0 ) = c(2|1)P (1|x0 ). Anlogamente, el coste esperado de la decisin d1 : clasicar en el grupo 1 es: E (d1 ) = 0P (1|x0 ) + c(1|2)P (2|x0 ) = c(1|2)P (2|x0 ). (13.4) (13.3)

Asignaremos al elemento al grupo 2 si su coste esperado es menor, es decir, utilizando (13.1) y (13.2), si: f2 (x0 ),2 f1 (x0 ), 1 > . c (2|1) c (1|2) (13.5)

Esta condicin indica que, a igualdad de los otros trminos, clasicaremos en la poblacin P2 si (a) su probabilidad a priori es ms alta; (b) la verosimilitud de que x0 provenga de P2 es ms alta; (c) el coste de equivocarnos al clasicarlo en P2 es ms bajo. En el Apndice 13.1 se demuestra que este criterio es equivalente a minimizar la probabilidad total de error en la clasicacin.

13.2. CLASIFICACIN ENTRE DOS POBLACIONES

401

13.2.2

Poblaciones Normales: Funcin lineal discriminante

Vamos a aplicar el anlisis anterior al caso en que f1 y f2 son distribuciones normales con distintos vectores de medias pero idntica matriz de varianzas. Para establecer la regla con carcter general supondremos que se desea clasicar un elemento genrico x, que si pertenece a la poblacin i = 1, 2 tiene funcin de densidad: fi (x) = 1 (2, )p/2 |V |1/2 1 0 !1 exp ! (x ! i ) V (x ! i ) . 2

La particin ptima, es, de acuerdo con la seccin anterior, clasicar en la poblacin P2 si: f1 (x),1 f2 (x),2 > . c(2|1) c(1|2) (13.6)

Como ambos trminos son siempre positivos, tomando logaritmos y sustituyendo fi (x) por su expresin, la ecuacin anterior se convierte en: ,2 1 ,1 1 > ! (x ! 1 )0 V!1 (x ! 1 ) + log , ! (x ! 2 )0 V!1 (x ! 2 ) + log 2 c(2|1) 2 c (1|2)
2 Llamando Di a la distancia de Mahalanobis entre el punto observado, x, y la media de la poblacin i: 2 Di = (x ! i )0 V!1 (x ! i )

podemos escribir:
2 D1 ! log

,1 ,2 2 > D2 ! log c (1|2) c(2|1)

(13.7)

y suponiendo iguales los costes y las probabilidades a priori, c(1/2) = c(2/1); , 1 = , 2 , la regla anterior se reduce a:
2 2 Clasicar en 2 si D1 > D2

es decir, clasicar la observacin en la poblacin de cuya media est ms prxima, midiendo la distancia con la medida de Mahalanobis. Observemos que si las variables x tuvieran V = I) 2 , la regla equivale a utilizar la distancia eucldea. La gura 13.2 muestra las curvas de equidistancia con la distancia de Mahalanobis para dos poblaciones normales con centros en el origen y el punto (5,10).

402

CAPTULO 13. ANLISIS DISCRIMINANTE

Figura 13.2: Curvas de equidistancia con la distancia de Mahalanobis para clasicar

13.2.3

Interpretacin Geomtrica

La regla general anterior puede escribirse de una forma equivalente que permite interpretar geomtricamente el mtodo de clasicacin utilizado. La ecuacin (13.7) indica que debemos calcular la distancia de Mahalanobis, corregirla por el trmino correspondiente a las probabilidades a priori y los costes, y clasicar en el poblacin donde esta distancia modicada sea mnima. Como las distancias tiene siempre el trmino comn x0 V!1 x, que no depende de la poblacin, podemos eliminarlo de las comparaciones y calcular el indicador 1 ,i !0i V!1 x + 0i V!1 i ! log , 2 c(i|j ) que ser una funcin lineal en x y clasicar el individuo en la poblacin donde esta funcin sea mnima. Esta regla divide el conjunto de valores posibles de x en dos regiones cuya frontera viene dada por: 1 1 c(1|2), 2 , !01 V!1 x + 01 V!1 1 = !02 V!1 x + 02 V!1 2 ! log 2 2 c(2|1), 1 que, como funcin de x, equivale a: (2 ! 1 ) V x =(2 ! 1 ) V Llamando: w = V!1 (2 ! 1 ) (13.9)
0 !1 0 !1

2 + 1 2

! log

c(1|2), 2 . c(2|1), 1

(13.8)

13.2. CLASIFICACIN ENTRE DOS POBLACIONES la frontera puede escribirse como: w0 x = w0 2 + 1 c(1|2),2 ! log 2 c(2|1),1

403

(13.10)

que es la ecuacin de un hiperplano. En el caso particular en que c(1|2), 2 = c(211),1 , clasicaremos en P2 si 1 + 2 0 0 wx>w . (13.11) 2 o lo que es equivalente, si w 0 x ! w 0 1 > w 0 2 ! w 0 x (13.12)

Esta ecuacin indica que el procedimiento para clasicar un elemento x0 puede resumirse como sigue: (1) calcular el vector w con (13.9); (2) construir la variable indicadora discriminante: z = w0 x = w1 x1 + .... + wp xp que transforma la variable multivariante x en la variable escalar z , que es una combinacin lineal de los valores de la variable multivariante con coecientes dados por el vector w; (3) calcular el valor de la variable indicadora para el individuo a clasicar, x0 = (x10 , ..., xp0 ), con z0 = w0 x0 y el valor de la variable indicadora para las medias de las poblaciones, mi = w0 i . Clasicar en aquella poblacin donde la distancia |z0 ! mi | sea mnima. En trminos de la variable escalar z , como el valor promedio de z en Pi es : E(z |Pi ) = mi = w0 i , i = 1, 2

La regla de decisin (13.12) equivale a clasicar en P2 si: |z ! m1 | > |z ! m2 | Esta variable indicadora, z, tiene varianza: V ar(z ) = w0 V ar(x)w = w0 Vw = (2 ! 1 )0 V!1 (2 ! 1 ) = D2 . (13.14) (13.13)

y el cuadrado de la distancia escalar entre las medias proyectadas es la distancia de Mahalanobis entre los vectores de medias originales: (m2 ! m1 )2 = (w0 (2 ! 1 ))2 = (2 ! 1 )0 V!1 (2 ! 1 ) = D2 . (13.15)

404

CAPTULO 13. ANLISIS DISCRIMINANTE

Figura 13.3: Representacin de la direccin ptima de proyeccin para discriminar entre las dos poblaciones. La variable indicadora z puede interpretarse como una proyeccin si estandarizamos el vector w. Dividiendo los dos miembros de (13.11) por la norma de w y llamando u al vector unitario w/ kwk , la regla de clasicacin se convierte en clasicar en P2 si u0 x ! u0 1 > u0 2 ! u0 x, (13.16)

donde, al ser u un vector unitario, u0 x es simplemente la proyeccin de x en la direccin de u y u0 1 y u0 2 las proyecciones de las medias poblacionales en esa direccin. En la gura 13.3 se observa que el hiperplano perpendicular a u por el punto medio 0 u (1 + 2 )/2 divide el espacio muestral en dos regiones A1 y A2 que constituyen la particin ptima buscada. Si c(1|2), 2 6= c(2|1), 1 la interpretacin es la misma, pero el hiperplano frontera se desplaza paralelamente a s mismo, aumentando o disminuyendo la regin A2 . La direccin de proyeccin, w = V!1 (2 ! 1 ) tiene una clara interpretacin geomtrica. Consideremos en primer lugar el caso en que las variables estn incorreladas y estandarizadas de manera que V = I. Entonces, la direccin ptima de proyeccin es la denida por 2 ! 1 . En el caso general, la direccin de proyeccin puede calcularse en dos etapas: primero, se estandarizan las variables de forma multivariante, para pasar a variables incorreladas con varianza unidad; segundo, se proyectan los datos transformados sobre la direccin que une las medias de las variables estandarizadas. En efecto, el clculo de w0 x puede escribirse como: w0 x = (2 ! 1 )0 V!1/2 (V!1/2 x) donde V!1/2 existe si V es denida positiva. Esta expresin indica que esta operacin equivale a: (1) estandarizar las variables x pasando a otras y = V!1/2 x que tienen como matriz

13.2. CLASIFICACIN ENTRE DOS POBLACIONES

405

de covarianzas la identidad y como vector de medias V!1/2 ; (2) proyectar las variables estandarizadas y sobre la direccin 2 (y) ! 1 (y) = (2 ! 1 )0 V!1/2 . La gura 13.4 ilustra algunas direcciones de proyeccin. En (a) y (b) la direccin de las linea que une las medias coindice con alguno de los ejes principales de la elipse y por tanto la direccin w = V!1 (2 ! 1 ) coincide con (2 ! 1 ), ya que este es un vector propio de V, y por tanto tambin de V!1 . En (c) la direccin ptima es un compromiso entre (2 ! 1 ) y las direcciones denidas por los vectores propios de V!1 .
(b) (c)

(a)

w w w

Figura 13.4: En los casos (a) y (b) la direccin ptima coindice con la linea de medias y con los ejes de la elipse. En el caso (c) es un compromiso entre ambos

13.2.4

Clculo de Probabilidades de error

La utilidad de la regla de clasicacin depende de los errores esperados. Como la distribucin de la variable z = w0 x es normal, con media mi = w0 i y varianza D2 = (m2 !m1 )2 , podemos calcular las probabilidades de clasicar errneamente una observacin en cada una de las dos poblaciones. En concreto, la probabilidad de una decisin errnea cuando x $ P1 es: m1 + m2 P (2|1) = P z ) | z es N (m1 ; D) 2 y llamando y = (z ! m1 )/D a una variable aleatoria N (0, 1), y ' a su funcin de distribucin: m1 +m2 ! m1 D 2 P (2|1) = P y ) = 1!' D 2 Anlogamente, la probabilidad de una decisin errnea cuando x $ P2 es: m1 + m2 P (1|2) = P z # | z es N (m2 ; D) = 2

406

CAPTULO 13. ANLISIS DISCRIMINANTE

=P

y#

m1 +m2 2

! m2 D

D =' ! 2

y ambas probabilidades de error son idnticas, por la simetra de la distribucin normal . Podemos concluir que la regal obtenida hace iguales y mnimas (vese Apndice 13.1) las probabilidades de error y que los errores de clasicacin slo dependen de las distancias de Mahalanobis entre las medias.

13.2.5

Probabilidades a posteriori

El grado de conanza al clasicar una observacin depende de la probabilidad acertar. La probabilidad a posteriori de que la observacin pertenezca a la primera poblacin se calcula con : ,1 f1 (x) = , 1 f1 (x) + , 2 f2 (x) , 1 exp ! 1 (x ! 1 )0 V!1 (x ! 1 ) 2 = 0 V !1 (x ! ) + , exp ! 1 (x ! )0 V !1 (x ! ) (, 1 exp ! 1 ( x ! ) 2 1 1 2 2 2 2

P (1|x) =

2 2 y llamando D1 y D2 a las distancias de Mahalanobis entre el punto y cada una de las dos medias, esta expresin puede escribirse:

P (1|x) =

1+

%2 %1

y slo depende de las probabilidades a priori y de las distancias entre el punto y las medias de ambas poblaciones. Observemos que si , 2 /, 1 = 1, cuanto ms alejado esta el punto de la 2 2 primera poblacin, es decir, cuanto mayor sea D1 respecto a D2 , mayor ser el denominador y menor ser la probabilidad de que pertenezca a ella, P (1|x), y al contrario. Ejemplo 13.1 Se desea clasicar un retrato entre dos posibles pintores. Para ello se miden dos variables: la profundidad del trazo y la proporcin que ocupa el retrato sobre la supercie del lienzo. Las medias de estas variables para el primer pintor, A, son (2 y .8) y para el segundo, B, (2.3 y .7) y las desviaciones tpicas de estas variables son .5 y .1 y la correlacin entre estas medidas es .5. La obra a clasicar tiene medidas de estas variables (2.1 y .75). Calcular las probabilidades de error. Las distancias de Mahalanobis sern, calculando la covarianza como el producto de la correlacin por las desviaciones tpicas:
2 DA

1 2 2 exp ! 1 ( D ! D ) 2 1 2

= (2.1 ! 2, .75 ! .8)

.25 .025 .025 .01

!1

2.1 ! 2 75 ! .8

= 0, 52

13.3. GENERALIZACIN PARA VARIAS POBLACIONES NORMALES y para la segunda


2 DB

407

= (2.1 ! 2.3, .75 ! .7)

.25 .025 .025 .01

!1

2.1 ! 2.3 .75 ! .7

= 0, 8133

Por tanto, asignaremos la obra al primer pintor. El error esperado de clasicacin con esta regla depende de la distancia de Mahalanobis entre las medias que es !1 .25 .025 2. ! 2.3 2 D = (2. ! 2.3, .8 ! .7) = 2, 6133 .025 .01 .8 ! .7 y D = 1.6166. La probabilidad de equivocarnos es P (A/B ) = 1 ! '( 1.6166 ) = 1 ! '(.808) = 1 ! 0, 8106 = 0, 1894. 2

De manera que la clasicacin mediante estas variables no es muy precisa, ya que podemos tener un 18,94% de probabilidad de error. Calculemos la probabilidad a posteriori de que el cuadro pertenezca al pintor A suponiendo que, a priori, ambos pintores son igualmente probables. P (A/x) = 1 1 = = 0, 5376 1 + exp(!0.5(0, 8133 ! 0, 52) 1.86

Esta probabilidad indica que al clasicar la obra como perteneciente al pintor A existe mucha incertidumbre en la decisin, ya que las probabilidades de que pertenezca a cada pintor son semejantes (0,5376 y 0,4624).

13.3
13.3.1

GENERALIZACIN PARA VARIAS POBLACIONES NORMALES


Planteamiento General

La generalizacin de estas ideas para G poblaciones es simple: el objetivo es ahora dividir el espacio Ex en G regiones A1 , . . . , Ag , . . . , AG tales que si x pertenece a Ai el punto se clasica en la poblacin Pi . Supondremos que los costes de clasicacin son constantes y no dependen de la poblacin en que se haya clasicado. Entonces, la regin Ag vendr denida por aquellos puntos con mxima probabilidad de ser generados por Pg , es decir donde el producto de la probabilidad a priori y la verosimilitud sean mximas: Ag = {x $ Ex |, g fg (x) > , i fi (x); 'i 6= g } (13.17)

Si las probabilidades a priori son iguales, , i = G!1 , 'i, y las distribuciones fi (x) son normales con la misma matriz de varianzas, la condicin (13.17) equivale a calcular la distancia de Mahalanobis del punto observado al centro de cada poblacin y clasicarle en

408

CAPTULO 13. ANLISIS DISCRIMINANTE

la que poblacin 0 haga esta distancia mnima. Minimizar las distancias de Mahalanobis x ! g V!1 x ! g equivale, eliminando el trmino x0 V!1 x que aparece en todas las ecuaciones, a minimizar el indicador lineal Lg (x) = !20g V!1 x + 0g V!1 g . y llamando wg = V!1 g la regla es min(wg g ! 2wg x)
g
0 0

(13.18)

Para interpretar esta regla, observemos que la frontera de separacin entre dos poblaciones, (ij ), vendr denida por: Aij (x) = Li (x) ! Lj (x) = 0 sustituyendo con (13.18) y reordenando los trminos se obtiene: Aij (x) = 2(i ! j )0 V!1 x + (i ! j )0 V!1 (i + j ) = 0 y llamando wij = V!1 (i ! j ) = wi ! wj la frontera puede escribirse como:
0 0 1 wij ( + j ). x = wij 2 i

(13.19)

Esta ecuacin admite la misma interpretacin como proyeccin que en el caso de dos poblaciones. Se construye una direccin wij y se proyectan las medias y el punto x que tratamos de clasicar sobre esta direccin. La regin de indiferencia es cuando el punto proyectado est equidistante de las medias proyectadas. En otro caso, asignaremos el punto a la poblacin de cuya media proyectada est ms prxima. Vamos a comprobar que si tenemos G poblaciones slo necesitamos encontrar r = min(G ! 1, p) direcciones de proyeccin. En primer lugar observemos que, aunque podemos construir G = G (G ! 1) /2 vectores wij a partir de las G medias, una vez que tenemos G ! 1 2 vectores los dems quedan determinados por stos. Podemos determinar los G ! 1 vectores wi,i+1 , para i = 1, ..., G ! 1, y obtener cualquier otro a partir de estas G ! 1 direcciones. Por ejemplo: wi,i+2 = V!1 (i ! i+2 ) = V!1 (i ! i+1 ) ! V!1 (i+1 ! i+2 ) = wi,i+1 ! wi+1,i+2 .

13.3. GENERALIZACIN PARA VARIAS POBLACIONES NORMALES

409

En conclusin, si p > G ! 1, el nmero mximo de vectores w que podemos tener es G ! 1, ya que los dems se deducen de ellos. Cuando p # G ! 1, como estos vectores pertenecen a Rp el nmero mximo de vectores linealmente independientes es p. Es importante resaltar que, como es natural, la regla de decisin obtenida cumple la propiedad transitiva. Por ejemplo, si G = 3, y obtenemos que para un punto (x)
2 2 D1 (x) > D2 (x) 2 2 D2 (x) > D3 (x) 2 2 entonces forzosamente debemos concluir que D1 (x) > D3 (x) y esta ser el resultado que obtendremos si calculamos estas distancias, por lo que el anlisis es coherente. Adems, si p = 2, cada una de las tres ecuaciones Aij (x) = 0 ser una recta y las tres se cortarn en el mismo punto. En efecto, cualquier recta que pase por el punto de corte de las rectas A12 (x) = 0 y A23 (x) = 0 tiene la expresin

a1 A12 (x) + a2 A23 (x) = 0


$ ya que si x$ 0 es el punto de corte como A12 (x ) = 0, por pertenecer a la primera recta, y A23 (x$ ) = 0, por pertenecer a la segunda, pertenecer a la combinacin lineal. Como, segn (13.19), A13 (x) = L1 (x) ! L3 (x) = L1 (x) ! L2 (x) + L2 (x) ! L3 (x), tenemos que:

A13 (x) = A12 (x) + A23 (x) y la recta A13 (x) debe siempre pasar por el punto de corte de las otras dos.

13.3.2

Procedimiento operativo

Para ilustrar el procedimiento operativo, supongamos cinco poblaciones con p > 4, con lo que existirn cuatro reglas de clasicacin independientes y las dems se deducen de ellas. Tenemos dos formas de realizar el anlisis. La primera es calcular para las G poblaciones las distancias de Mahalanobis (o lo que es equivalente, las proyecciones (13.18)) y clasicar el elemento en la ms prxima. La segunda es hacer el anlisis comparando las poblaciones dos a dos. Supongamos que hemos obtenido de las comparaciones 2 a 2 los siguientes resultados: (i > j indica que la poblacin i es preferida a la j , es decir, el punto se encuentra ms prximo a la media de la poblacin i que a la de j ): 1 2 4 5 > > > > 2 3 3 4

Las poblaciones 2, 3 y 4 quedan descartadas (ya que 1 > 2 > 3 y 5 > 4). La duda no resuelta se reere a las poblaciones 1 y 5. Construyendo (a partir de las reglas anteriores) la regla para discriminar entre estas dos ltimas poblaciones, supongamos que

410

CAPTULO 13. ANLISIS DISCRIMINANTE

5>1 y clasicaremos en la poblacin 5. Cuando p < G ! 1 el mximo nmero de proyecciones linealmente independientes que podemos construir es p, y ste ser el mximo nmero de variables a denir. Por ejemplo, supongamos que p = 2 y G = 5. Podemos denir una direccin de proyeccin cualquiera, por ejemplo w12 = V!1 (1 ! 2 ) y proyectar todas las medias (1 , 2 , ..., 5 ) y el punto x sobre dicha direccin. Entonces, clasicaremos el punto en la poblacin de cuya media proyectada est ms prxima. Ahora bien, es posible que sobre esta direccin coincidan las medias proyectadas de varias poblaciones. Si esto ocurre con, por ejemplo, las 4 y 5 , resolveremos el problema proyectando sobre la direccin denida por otra pareja de poblaciones. Ejemplo 13.2 Una mquina que admite monedas realiza tres mediciones de cada moneda para determinar su valor: peso (x1 ), espesor (x2 ) y la densidad de estras en su canto (x3 ). Los instrumentos de medicin de estas variables no son muy precisos y se ha comprobado en una amplia experimentacin con tres tipos de monedas usadas, M1 , M2 , M3 , que las medidas se distribuyen normalmente con medias para cada tipo de moneda dadas por: 8 8 1 = 20 2 = 19.5 7.8 10 3 = 20.5 8.3 5 y matriz de covarianzas # 4 .8 !5 V = " .8 .25 !.9 $ !5 !.9 9 !

Indicar cmo se clasicara una moneda con medidas (22, 8.5 ,7) y analizar la regla de clasicacin. Calcular las probabilidades de error. Aparentemente la moneda a clasicar est ms prxima a M3 en las dos primeras coordenadas, pero ms prxima a M1 por x3 , la densidad de estras. La variable indicador para clasicar entre M1 y M3 es z = (1 ! 3 )V!1 x = 1.77x1 ! 3.31x2 + .98x3 la media de esta variable para la primera moneda, M1 ,es 1.77 20 ! 3.31 8 + .98 8 =16.71 y para la tercera, M3 , 1.77 20.5 ! 3.31 8.3 + .98 5 =13.65. El punto de corte es la media, 15.17. Como para la moneda a clasicar es z = 1.77 22 ! 3.31 8.5 + .98 7 = 17.61

13.3. GENERALIZACIN PARA VARIAS POBLACIONES NORMALES

411

la clasicaremos como M1 . Este anlisis es equivalente a calcular las distancias de Maha2 2 2 lanobis a cada poblacin que resultan ser D1 = 1.84, D2 = 2.01 y D3 = 6.69. Por tanto clasicamos primero en M1 , luego en M2 y nalmente como M3 . La regla para clasicar entre la primera y la segunda es z = (1 ! 2 )V!1 x = !.93x1 + 1.74x2 ! .56x3 de estas dos reglas deducimos inmediatamente la regla para clasicar entre la segunda y la tercera, ya que (2 ! 3 )V!1 x = (1 ! 3 )V!1 x ! (1 ! 2 )V!1 x Analicemos ahora las reglas de clasicacin obtenidas. Vamos a expresar la reglas inicial para clasicar entre M1 y M3 para las variables estandarizadas, con lo que se evita el problema de las unidades. Llamando x ei a las variables divididas por sus desviaciones tpicas x e1 = x1 /2;x e2 = x2 /.5, y x e3 = x3 /3, la regla en variables estandarizadas es que indica que las variables con ms peso para decidir la clasicacin son la primera y la tercera, que son la que tienen mayores coecientes. Observemos que con variables estandarizadas la matriz de covarianzas es la de correlacin ! # 1 .8 !.83 R = " .8 1 !.6 $ !.83 !.6 1 e2 + 2.94x e3 z = 3.54x e1 ! 1.65x

El origen de estas correlaciones entre los errores de medida es que si la moneda adquiere suciedad y aumenta ligeramente su peso, tambin aumenta su espesor y hace ms difcil determinar su densidad de estras. Por eso hay correlaciones positivas entre peso y espesor, al aumentar el peso aumenta el espesor, pero negativas con las estras. Aunque la moneda que queremos clasicar tiene mucho peso y espesor, lo que indicara que pertenece a la clase 3, entonces la densidad de estras debera medirse como baja, ya que hay correlaciones negativas entre ambas medidas, y sin embargo se mide relativamente alta en la moneda. Las tres medidas son coherentes con una moneda sucia del tipo 1, y por eso se clasica con facilidad en ese grupo. Vamos a calcular la probabilidad a posteriori de que la observacin sea de la clase M1 . Suponiendo que las probabilidades a priori son iguales esta probabilidad ser P (1/x0 ) =
2 exp(!D1 /2) 2 2 2 exp(!D1 /2) + exp(!D2 /2) + exp(!D3 /2)

y sustituyendo las distancias de Mahalanobis P (1/x0 ) = exp(!1.84/2) = .50 exp(!1.84/2) + exp(!2.01/2) + exp(!6.69/2)

y anlogamente P (2/x0 ) = .46, y P (3/x0 ) = .04.

412

CAPTULO 13. ANLISIS DISCRIMINANTE

Podemos calcular las probabilidades de error de clasicar una moneda de cualquier tipo en otra clase. Por ejemplo, la probabilidad de clasicar una moneda M3 con esta regla como tipo M1 es " 15.17 ! 13.64 P (z > 15.17/N (13.64, 3.07)) = P (y > ) = P (y > .87) = .192 1.75 como vemos esta probabilidad es bastante alta. Si queremos reducirla hay que aumentar la distancia de Mahalanobis entre las medias de los grupos, lo que supone aumentar la matriz V!1 o reducir la matriz V. Por ejemplo, si reducimos a la mitad el error en la medida de las estras introduciendo medidores ms precisos, pero se mantiene las correlaciones con las otras medidas, pasamos a la matriz de covarianzas ! # 4 .8 !2.5 V2 = " .8 .25 !.45 $ !1 !.2 2.25 la regla de clasicacin entre la primera y la tercera es ahora z = (1 ! 3 )V!1 x = 3.44x1 ! 4.57x2 + 4.24x3 y la distancia de Mahalanobis entre las poblaciones 1 y 3 (monedas M1 y M3 ) ha pasado de 3.01 a 12.38, lo que " implica que la probabilidad de error entre estas dos poblaciones ha disminuido a 1 ! '( 12.38/2) = 1 ! '(1.76) = .04 y vemos que la probabilidad de error ha disminuido considerablemente. Podemos as calcular la precisin en las medidas que necesitaramos para conseguir unas probabilidades de error determinadas.

13.4
13.4.1

POBLACIONES DESCONOCIDAS. CASO GENERAL


Regla estimada de clasicacin

Vamos a estudiar cmo aplicar la teora anterior cuando en lugar de trabajar con poblaciones disponemos de muestras. Abordaremos directamente el caso de G poblaciones posibles. Como caso particular, la discriminacin clsica es para G = 2. La matriz general de datos X de dimensiones n p, (n individuos y p variables), puede considerarse particionada ahora en G matrices correspondientes a las subpoblaciones. Vamos a llamar xijg a los elementos de estas submatrices, donde i representa el individuo, j la variable y g el grupo o submatriz. Llamaremos ng al nmero de elementos en el grupo g y el nmero total de observaciones es:
G X g =1

n=

ng

Vamos a llamar x0ig al vector la (1 p) que contiene los p valores de las variables para el individuo i en el grupo g , es decir, x0ig = (xi1g , ...., xipg ). El vector de medias dentro de cada clase o subpoblacin ser:

13.4. POBLACIONES DESCONOCIDAS. CASO GENERAL

413

ng 1 X xg = xig ng i=1

(13.20)

y es un vector columna de dimensin p que contiene las p medias para las observaciones de la clase g . La matriz de varianzas y covarianzas para los elementos de la clase g ser: 1 X (xig ! xg )(xig ! xg )0 ng ! 1 i=1
ng

donde hemos dividido por ng ! 1 para tener estimaciones centradas de las varianzas y covarianzas. Si suponemos que las G subpoblaciones tienen la misma matriz de varianzas y covarianzas, su mejor estimacin centrada con todos los datos ser una combinacin lineal de las estimaciones centradas de cada poblacin con peso proporcional a su precisin. Por tanto:
G X ng ! 1 g =1

bg = S

(13.21)

y llamaremos W a la matriz de sumas de cuadrados dentro de las clases que viene dada por: bw W = (n ! G)S (13.22)

bw = S

n!G

bg S

bw Para obtener las funciones discriminantes utilizaremos xg como estimacin de g , y S como estimacin de V. En concreto, suponiendo iguales las probabilidades a priori y los costes de clasicacin, clasicaremos al elemento en el grupo que conduzca a un valor mnimo de la distancia de Mahalanobis entre el punto x y la media del grupo. Es decir, llamando 1 b! bg = S w w xg clasicaremos un nuevo elemento x0 en aquella poblacin g donde que equivale a construir las variables indicadoras escalares
0 b g,g zg,g+1 = w +1 x0 0 b!1 (x0 ! xg ) = min w bg (xg ! x0 ) min(x0 ! xg )0 S w g g

g = 1, ..., G

donde

y clasicar en g frente a g + 1 si

1 b! b g,g+1 = S bg ! w b g+1 w w (xg ! xg +1 ) = w

|zg,g+1 ! m b g | < |zg,g+1 ! m b g+1 |

414

CAPTULO 13. ANLISIS DISCRIMINANTE

0 b g,g donde m bg = w +1 xg . Conviene antes de construir la regla de clasicacin realizar un test de que los grupos son realmente distintos, es decir, que no todas las medias g son iguales. Este contraste puede realizarse siguiendo lo expuesto en la seccin 10.7. En la apndice 13.2 se demuestra que en 1 b! el caso de dos grupos la funcin de discriminacin lineal w b=S ' (x2 ! x1 ) puede obtenerse por regresin, deniendo una variable cticia que tome los valores cero o uno segn que el dato pertenezca a una u otra poblacin.

13.4.2

Clculo de Probabilidades de error

El clculo de probabilidades de error podra hacerse sustituyendo los parmetros desconocidos por los estimados y aplicando las frmulas de la seccin 13.2, pero este mtodo no es recomendable ya que va a subestimar mucho las probabilidades de error al no tener en cuenta la incertidumbre de estimacin de los parmetros. Un mejor procedimiento, que adems no depende de la hiptesis de normalidad, es aplicar la funcin discriminante a las n observaciones y clasicarlas. En el caso de 2 grupos, obtendramos la tabla: Clasicado P1 P2 n11 n12 n21 n22

Realidad P1 P2

donde nij es el nmero de datos que viniendo de la poblacin i se clasica en j . El error aparente de la regla es: Error = Total mal clasicados n12 + n21 = . n11 + n22 Total bien clasicados

Este mtodo tiende a subestimar las probabilidades de error ya que los mismos datos se utilizan para estimar los parmetros y para evaluar el procedimiento resultante. Un procedimiento mejor es clasicar cada elemento con una regla que no se ha construido usndolo. Para ello, podemos construir n funciones discriminantes con las n muestras de tamao n ! 1 que resultan al eliminar uno a uno cada elemento de la poblacin y clasicar despus cada dato con la regla construida sin l. Este mtodo se conoce como validacin cruzada y conduce a una mejor estimacin del error de clasicacin. Si el nmero de observaciones es muy alto, el coste computational de la validacin cruzada es alto y una solucin ms rpida es subdividir la muestra en k grupos iguales y realizar la validacin cruzada eliminado en lugar de una observacin uno de estos grupos. Ejemplo 13.3 Vamos a utilizar los datos de MEDIFIS para clasicar personas por su gnero conocidas las medidas fsicas de las variables de la tabla A.5. Como los datos para toda la poblacin de hombre y mujeres son desconocidos, vamos a trabajar con los datos muestrales. En la muestra hay 15 mujeres (variable sexo=0) y 12 hombres (sexo=1). En el ejemplo 10.2 comprobamos que las medias de las poblaciones de las medidas fsicas 1 b! bg = S de hombres y mujeres son diferentes. Las funciones discriminantes w w xg se indican en la tabla adjunta

13.5. VARIABLES CANNICAS DISCRIMINANTES

415

est pes pie lbr aes dcr lrt hombres !1.30 !4.4 20.0 10.0 !2.1 24.4 !4.4 mujeres !1.0 !4.4 17.7 9.5 !2.5 25.1 !4.7 diferencia !.3 0 2.3 .5 .4 !.7 .3 La diferencia entre estas dos funciones proporciona la funcin lineal discriminante. Se observa que la variable con mayor peso en la discriminacin es la longitud del pie. Para interpretar este resultado, la tabla siguiente indica las diferencias estandarizadas entre los medias de cada variable en ambas poblaciones. Por ejemplo, la diferencia estandarizada entre las estaturas es (177.58 ! 161.73)/6.4 = 2.477 est pes pie lbr aes dcr lrt dif medias 15.8 18.65 4.83 7.72 5.67 1.36 4.56 , desv. tpicas 6.4 8.8 1.5 3.1 2.9 1.7 2.2 dif. estand. 2.47 2.11 3.18 2.48 1.97 .78 2.07 La variable que separa ms ambas poblaciones es la longitud del pie. Como, adems, la longitud del pie esta muy correlada con la estatura y la longitud del brazo, conocida la longitud del pie estas variables no son tan informativas, lo que explica su bajo peso en la funcin discriminante. Si aplicamos la funcin discriminante para clasicar los datos muestrales obtenemos un porcentaje de xitos del 100%. Todas las observaciones se clasican bien. Aplicando validacin cruzada se obtiene Clasicado M H Realidad M 13 2 H 2 10 Ejemplo 13.4 que supone una proporcin de aciertos de 23/27=0.852. Las observaciones mal clasicadas son las 2, 7, 9, y 18. Vemos que el mtodo de validacin cruzada da una idea ms realista de la ecacia del procedimiento de clasicacin.

13.5
13.5.1

VARIABLES CANNICAS DISCRIMINANTES


El caso de dos grupos

La funcin lineal discriminante para dos grupos fue deducida por primera vez por Fisher por un razonamiento intuitivo que vamos a resumir brevemente. El criterio propuesto por Fisher es encontrar una variable escalar: z = #0 x (13.23)

tal que maximice la distancia entre las medias proyectadas con relacin a la variabilidad resultante en la proyeccin. Intuitivamente, la escala z permitir separar lo ms posible ambos grupos. La media de la variable z en el grupo 1, que es la proyeccin del vector de medias sobre la direccin de #, es m b 1 = #0 x1 , y la media en el grupo 2 es m b 2 = #0 x2 . La varianza de

416

CAPTULO 13. ANLISIS DISCRIMINANTE

0 la variable z ser la misma en ambos grupos, #0 V#, y la estimaremos con s2 z = # Sw #. Se desea escoger # de manera que la separacin entre las medias m1 y m2 sea mxima. Una medida adimensional de esta separacin es: 2 m b2 ! m b1 (= , sz

y esta expresin es equivalente a:

(=

(#0 (x2 ! x1 ))2 . #0 Sw #

(13.24)

En esta relacin # representa una direccin, ya que ( es invariante ante multiplicaciones de # por una constante: si " = p#, ((") = ((#). Para encontrar la direccin # que maximice (, derivando (13.24) e igualando a cero: d( 2#0 (x2 ! x1 )(x2 ! x1 )0 #0 Sw # ! 2Sw # (#0 (x2 ! x1 ))2 =0= d# (#0 Sw #)2 que escribiremos: (x2 ! x1 )#0 Sw # = Sw # (#0 (x2 ! x1 )) o tambin (x2 ! x1 ) = Sw # que resulta en # = "Sw !1 (x2 ! x1 ) donde " = (#0 Sw #)/#0 (x2 !x1 ). Como, dada #, " es una constante y la funcin a optimizar es invariante ante constantes, podemos tomar # normalizado para que " = 1, con lo que resulta: # = Sw !1 (x2 ! x1 ) #0 Sw # = (x2 ! x1 )0 Sw !1 (x2 ! x1 ) = D2 (x2 , x1 ) = (m b2 ! m b 1 )2 #0 (x2 ! x1 ) = (x2 ! x1 )0 Sw !1 (x2 ! x1 ) = D2 (x2 , x1 ) y comparando con (13.24) vemos que ( es la distancia de Mahalanobis entre las medias. El procedimiento obtenido conduce a buscar una direccin de proyeccin que maximice la distancia de Mahalanobis entre los centros de ambas poblaciones. Observemos que si Sw = I la distancia de Mahalanobis se reduce a la eucldea y la direccin de proyeccin es paralela al vector que une ambas medias. Finalmente, observemos que esta regla se ha obtenido sin imponer ninguna hiptesis sobre la distribucin de la variable x en las poblaciones. (13.25) (#0 (x2 ! x1 )) #0 Sw #

que es la direccin w de proyeccin que hemos encontrado en la seccin anterior. Adems:

y la varianza de la variable resultante de la proyeccin es la distancia de Mahalanobis entre las medias. Tambin:

13.5. VARIABLES CANNICAS DISCRIMINANTES

417

13.5.2

Varios Grupos

El enfoque de Fisher puede generalizarse para encontrar variables cannicas que tengan mximo poder discriminante para clasicar nuevos elementos entre G poblaciones. El objetivo es, en lugar de trabajar con las p variables originales x, denir un vector z = (z1 , ..., zr )0 de r variables cannicas, donde r = min(G ! 1, p), que se obtengan como combinacin lineal de las originales, zi = u0i x, y que permitan resolver el problema de clasicacin de la forma siguiente: (1) Proyectamos las medias de las variables en los grupos, xg , sobre el espacio determinado por las r variables cannicas. Sean z1 , ..., zg las variables r 1 cuyas coordenadas son estas proyecciones. (2) Proyectamos el punto x0 a clasicar y sea z0 su proyeccin sobre dicho espacio. (3) Clasicamos el punto en aquella poblacin de cuya media se encuentre ms prxima. Las distancias se miden con la distancia eucldea en el espacio de las variables cannicas z. Es decir, clasicaremos en la poblacin i si: (z0 ! zi )0 (z0 ! zi ) = min(z0 ! zg )0 (z0 ! zg )
g

Con varios grupos la separacin entre las medias la mediremos por el cociente entre la variabilidad entre grupos, o variabilidad explicada por los grupos, y la variabilidad dentro de los grupos, o no explicada o residual. Este es el criterio habitual para comparar varias medias en el anlisis de la varianza y conduce al estadstico F de Fisher. Para obtener las variables cannicas discriminantes comenzamos buscando un vector u01 , de norma uno, tal que los grupos de puntos proyectados sobre l tengan separacin relativa mxima. La proyeccin de la media de las observaciones del grupo g en esta direccin ser la variable escalar: z g = u01 xg y la proyeccin de la media para todos los datos ser: zT = u01 xT donde xT es el vector p 1 que contiene las medias de las p variables para las n observaciones de la muestra uniendo todos los grupos. Tomando como medida de la entre las Pdistancia G medias de los grupos proyectadas z 1 , ..., z g su variacin total dada por g=1 ng (z g ! z T )2 , y PP comparando esta cantidad con la variabilidad dentro de los grupos, dada por (zig ! z g )2 , la separacin relativa entre las medias, vendr dada por el estadstico : P ng (z g ! z T )2 P P (= . (zig ! z g )2

y si todos los datos provienen de la misma poblacin y no existen grupos distintos esta variable se distribuye como una F con G ! 1 y n ! G + 1 grados delibertad. Vamos a expresar este criterio en funcin de los datos originales. La suma de cuadrados dentro de grupos, o variabilidad no explicada, para los puntos proyectados, es:
ng G ng G X X X X 2 V NE = (zjg ! z g ) = u0 (xjg ! xg )(xjg ! xg )0 u = u0 Wu j =1 g =1 j =1 g =1

418 donde W est dada por

CAPTULO 13. ANLISIS DISCRIMINANTE

ng G X X W= (xjg ! xg )(xjg ! xg )0 j =1 g =1

que coincide con (13.22). Esta matriz tiene dimensiones p p y tendr, en general, rango p, suponiendo n ! G ) p. Estima la variabilidad de los datos respecto a sus medias de grupo, que es la misma, por hiptesis, en todos ellos. La suma de cuadrados entre grupos, o variabilidad explicada, para los puntos proyectados es: VE = =
G X g =1

ng (z g ! z T )2 = ng u0 (xg ! xT )(xg ! xT )0 u =

(13.26)

= u0 Bu

siendo B la matriz de suma de cuadrados entre grupos, que puede escribirse: B=


G X g =1

ng ag a0g

siendo ag = xg ! xT . La matriz B es cuadrada p p y simtrica y se obtiene como suma de G matrices de rango uno formadas por los vectores ag , que no son independientes, ya que PG estn ligados por la relacin g =1 ng ag = 0,que implica que el rango de B ser G ! 1. En resumen, la matriz W mide las diferencias dentro de grupos y la B las diferencias entre grupos. La cantidad a maximizar puede tambin escribirse: (= u01 Bu1 , u01 Wu1 (13.27)

derivando e igualando a cero de la forma habitual: d( 2Bu1 (u01 Wu1 ) ! 2(u01 Bu1 )Wu1 =0= =0 du1 (u01 Wu1 )2 entonces: Bu1 = Wu1 es decir, por Bu1 = (Wu1 y suponiendo W no singular: W!1 Bu1 = (u1 u01 Bu1 u01 Wu1

13.5. VARIABLES CANNICAS DISCRIMINANTES

419

que implica que u1 debe de ser un vector propio de W!1 B y entonces ( es su valor propio asociado. Como queremos maximizar (, que es el valor del estadstico F en un contrate escalar sobre las medias proyectadas, u ser el vector propio asociado al mayor valor propio de la matriz W!1 B. Podemos plantearnos obtener un segundo eje tal que maximice la separacin (, pero con la condicin de que la nueva variable cannica z2 = u02 x est incorrelada con la primera, z1 = u01 x. Puede demostrarse anlogamente que esto ocurre si tomamos el segundo vector propio (ligado al segundo valor propio) de la matriz W!1 B. En general, sean #1 , . . . , #r los valores propios no nulos de W!1 B y u1 , . . . , ur los vectores propios ligados a los valores propios no nulos. Las variables escalares zj = u0j x ordenadas por los valores propios #1 > #2 > . . . > #r proporcionan mxima separacin en el sentido de que el estadstico F para contrastar si existen diferencias entre los G grupos proyectados tiene un valor igual a #j . Adems, estas variables escalares zj estn incorreladas, tanto dentro de grupos como en toda la muestra. Para comprobarlo sea zj el vector n 1 resultado de proyectar los puntos muestrales en la direccin u0j , es decir, zj = Xuj . Esta variable tendr media zj = 10 zj /n = 10 Xuj /n = x0T uj y la covarianza entre dos variables escalares, zj y zh vendr dada por 1X 1X 0 (zji ! z j )(zhi ! z h ) = uj (xi ! xT )(xi ! xT )0 uh cov (zj , zh ) = n i=1 n i=1 y llamando T a la matriz de suma de cuadrados totales la covarianzas entre las variables cannicas son u0j Tuh . Si descomponemos estas variables en grupos, de manera que cada variable zj da lugar a G variables zjg donde g indica el grupo, puede comprobarse analogamente que las covarianzas entre zjg y zhg , sumadas para todos los grupos vienen dadas por u0j Wuh . Vamos a demostrar que, para dos vectores propios distintos, h 6= j : u0h Wuj = u0h Tuj = 0, donde T = W + B. Comprobemos esta propiedad. Supongamos que #h > #j . Los vectores propios de W!1 B verican que (W!1 B)uh = #h uh es decir Buh = #hWuh . Por tanto, para otro vector propio distinto uj , donde #h 6= #j , tenemos: Buj = #j Wuj multiplicando (13.28) por u0j y (13.29) por u0h : u0j Buh = #hu0j Wuh u0hBuj = #j u0h Wuj (13.29) (13.28)
n n

420

CAPTULO 13. ANLISIS DISCRIMINANTE

Como los primeros miembros son iguales, los segundos deben de serlo y al ser #h 6= #j , forzosamente u0j Wuh = 0 = u0j Buh = u0j Tuh. Observemos que los vectores propios de la matriz W!1 B no sern, en general, ortogonales ya que aunque las matrices W!1 y B son simtricas, su producto no necesariamente lo es. Adems, el rango de esta matriz, W!1 B, ser r = min(p, G ! 1), (recordemos que el rango del producto de dos matrices es menor o igual que el de las originales) y ste es el mximo nmero de factores discriminantes que podemos obtener. La matriz W!1 B ha sido llamada por Rao matriz de distancias de Mahalanobis generalizada, ya que su traza es la suma de las distancias de Mahalanobis entre la media de cada grupo y la media total. En efecto, tenemos que X (xg ! xT )0 (W/ng )!1 (xg ! xT ) tr(W!1 B) = tr

13.5.3

Variables cannicas discriminantes

Este procedimiento proporciona r = min(p, G ! 1) variables cannicas discriminantes que vienen dadas por z = U0r x (13.30)

donde Ur es una matriz p r que contiene en columnas los vectores propios de W!1 B y x un vector p 1. El vector r 1, z, recoge los valores de las variables cannicas para el elemento x, que son las coordenadas del punto en el espacio denido por las variables cannicas. Las variables cannicas as obtenidas resuelven el problema de clasicacin. En efecto, para clasicar un nuevo individuo x0 basta calcular sus coordenadas z0 con (13.30) y asignarlo al grupo de cuya media transformada est ms prxima con la distancia eucldea. Un problema importante es investigar cuntas dimensiones necesitamos para la discriminacin, ya que es posible que la mayora de la capacidad de separacin de las poblaciones se consiga con las primeras variables cannicas. Para estudiar este problema supongamos que los vectores propios de W!1 B en vez de tomarlos con norma unidad, ui ,los estandarizamos con vi = ui / |u0i Wui |1/2 de manera que estos vectores vi sigan siendo vectores propios de 0 W!1 B pero ahora verican vi Wvi = 1. Entonces, la variabilidad explicada por la variable cannica vi es, por (13.26),
0 V E (vi ) = vi Bvi

pero al ser vi un vector propio de W!1 B verica Bvi = #i Wvi


0 0 y multiplicando por vi y teniendo en cuenta que por construccin vi Wvi = 1 : 0 V E (vi ) = vi Bvi = #i ,

que indica que la variabilidad explicada por la variable cannica vi es igual a su valor propio 0 asociado. Por tanto, los valores propios de W!1 B estandarizados para que vi Wvi = 1 nos

13.5. VARIABLES CANNICAS DISCRIMINANTES

421

indican la variabilidad explicada que cada variable cannica aporta al problema de discriminacin. Cuando p y G son grandes es frecuente que la mayor capacidad de discriminacin se consiga con unas pocas variables cannicas. Los resultados de clasicacin que se obtienen con las variables cannicas son idnticos a los obtenidos con la distancia de Mahalanobis (vase Hernndez y Velilla, 2001, para un estudio completo de este problema). Esto es inmediato de comprobar si G = 2, caso de dos poblaciones, o cuando las medias sean colineales. En ambos casos la matriz B tiene rango uno y el vector propio de W!1 B unido al valor propio no nulo proporciona automticamente la funcin lineal discriminante de Fisher. Para comprobarlo basta notar que si G = 2 la matriz B es: n1 n2 B= (x1 ! x2 )(x1 ! x2 )0 n1 + n2 y el vector propio asociado al valor propio no nulo de W!1 B es W!1 (x1 ! x2 ), que ya obtuvimos anteriormente. Si las medias de las G poblaciones estn en una lnea recta, entonces: (x1 ! xT ) = p1 (x2 ! xT ) = ... = kj (xg ! xT ) = c(x1 ! x2 ) y la matriz B puede escribirse B=
G X (xg ! xT )(xg ! xT )0 = k $ (x1 ! x2 )(x1 ! x2 )0 g =1

y su vector propio asociado al valor propio no nulo de W!1 B es proporcional a W!1 (x1 ! x2 ). Ejemplo 13.5 Vamos a estudiar la discriminacin geogrca entre los pases del mundo del banco de datos MUNDODES. Los 91 pases incluidos se han clasicado a priori como del este de Europa (9 pases, clave 1), Amrica central y del sur (12 pases, clave 2), Europa Occidental mas Canad y EEUU (18 pases, clave 3), Asia (25 pases, clave 4) y Africa (27 pases, clave 5). La variable PNB se ha expresado en logaritmos neperianos, de acuerdo con los resultados descriptivos que obtuvimos en el captulo 3. Se presenta la salida del programa SPSS para la discriminacin mltiple que proporciona los resultados del anlisis discriminante utilizando las variables cannicas Las medias de los cinco grupos en cada variable son: G TN TM MI EH EM LPNB 1 15.15 10.52 18.14 67.35 74.94 7.48 2 29.17 9.416 51.32 62.70 68.53 7.25 3 13.01 9.583 8.044 71.25 77.97 9.73 4 30.31 8.072 56.488 63.08 65.86 7.46 5 44.52 14.622 99.792 50.63 54.14 6.19 Total 29.46 10.734 55.281 61.38 66.03 7.51 y la columna total indica las medias para el conjunto de los datos. Las desviaciones tpicas en los grupos son: G TN TM MI EH EM LPNB

422

CAPTULO 13. ANLISIS DISCRIMINANTE

1 3.97 2.16 6.97 2.22 1.50 .48 2 7.38 5.51 31.69 4.92 5.31 .66 3 1.85 1.37 1.734 2.51 2.18 .44 4 10.01 3.77 46.02 7.92 9.73 1.69 5 5.685 4.79 30.58 7.09 7.03 1.04 Total 13.69 4.68 46.30 9.72 11.13 1.64 y la matriz W con 86 grados de libertad es TN TM MI EH EM LPNB TN 46.90 TM 11.89 15.63 MI 139.41 87.49 1007.64 EH -27.42 -18.76 -169.71 37.55 EM -31.88 -21.08 -194.29 40.52 46.20 LPNB -3.54 -2.18 -22.42 4.60 5.43 1.25 que podemos expresar como matriz de correlaciones: TN TM MI EH EM LPNB TN 1.00000 TM .43930 1.00000 MI .64128 .69719 1.00000 EH -.65345 -.77451 -.87247 1.00000 EM -.68487 -.78452 -.90052 .97278 1.00000 LPNB -.46341 -.49350 -.63275 .67245 .71588 1.00000 Las funciones de clasicacin lineales para cada grupo son: G=12345 TN 3.4340 3.7363 3.3751 3.6194 3.9314 TM 9.7586 9.1856 9.6773 8.6879 8.9848 MI 1.7345 1.7511 1.7387 1.7107 1.6772 EH -.1319 .28153 .7638 1.7363 .59934 EM 16.962 16.3425 15.780 14.347 15.342 LPNB -9.422 -8.2661 -5.999 -6.703 -7.053 (Constante) -690.658 -683.135 -690.227 -642.071 -647.1495 y los valores propios de W!1 B y la proporcin de variacion explicada son: Fcn Val. pr. Var. % 1* 3.9309 69.33 69.33 2* 1.1706 20.65 89.97 3* .4885 8.62 98.59 4* .0802 1.41 100.00 Se observa que la primera funcin discriminante o variable cannica, denida por el primer vector propio de la matriz W!1 B explica el 69% de la variabilidad y que las dos primeras explican conjuntamente el 89,97%. Los coecientes de las variables cannicas indican que las variable ms importantes son globalmente la esperanza de vida de la mujer y la tasa de natalidad.

13.5. VARIABLES CANNICAS DISCRIMINANTES


funciones discriminantes cannicas
3 2 1 90 0 -1 -2 -3 -4 -4 59 43 67 82 76 88 70 87 85 89 80 7 11 16 83 14 15 20 17 61 63 12 64 77 56 57 53 50 86 60 42 47 51 62 45 1 13 21 10 19 27 6 31 2 78 81 68 72 74 73 66 84 91 8 5 9 4

423

71 58

3 25 23

Segunda variable canonica

46 79 48 69 41 75 52 49 44 65

22 26 40 39 30 36 34 28 37 24 33 29 32 35 54 38

G
Centroides de grupo Group 5 Group 4 Group 3 Group 2 Group 1

55

-3

-2

-1

Primera Variable cannica

Figura 13.5: Grco de proyeccin de los puntos sobre las dos primeras variables cannicas. En el grco pueden verse las proyecciones de los paises sobre las dos primeras variables cannicas. Los resultados de la clasicacin con las 4 variables cannicas se resumen en siguiente tabla, donde r representa la clasicacin real y p la previsa por el modelo. p1 p2 p3 p4 p5 r1 8 1 r2 1 9 1 1 r3 18 r4 2 2 19 2 r5 1 4 22 Se observa que se clasican bien los paises europeos y entre los asiticos es donde aparece ms variabilidad. En este caso los errores aparentes obtenidos clasicando con la distancia de Mahalanobis (sin validacin cruzada) y con las variables cannicas son los mismos. La salida adjunta de MINITAB incluye la informacin bsica. En primer lugar se presenta el resultado de clasicar con las funciones discriminantes: True Group.... Group 1 2 3 4 5 181000 219021 3 0 1 18 2 0 4 0 0 0 19 4 5 0 1 0 2 22 N Total 9 12 18 25 27 N Correct 8 9 18 19 22 Propor. 0.89 0.75 1.0 0.76 0.82 N = 91 N Correct = 76 Proportion Correct = 0.835 y a continuacin el resultado aplicando validacin cruzada: Colocado Verdadero grupo

424

CAPTULO 13. ANLISIS DISCRIMINANTE

Group 1 2 3 4 5 181100 218041 3 0 1 17 2 0 4 0 1 0 16 5 5 0 1 0 3 21 N. Total 9 12 18 25 27 N Correct 8 8 17 16 21 Propor. 0.89 0.67 0.94 0.64 0.78 N = 91 N Correct = 70 Propor. Correct = 0.769 funciones lineales discriminantes 12345 Con. -689.05 -681.53 -688.62 -640.46 -645.54 C2 3.43 3.74 3.38 3.62 3.93 C3 9.76 9.19 9.68 8.69 8.98 C4 1.73 1.75 1.74 1.71 1.68 C5 -0.13 0.28 0.76 1.74 0.60 C6 16.96 16.34 15.78 14.35 15.34 C9 -9.42 -8.27 -6.00 -6.70 -7.05 La tabla siguiente resume los resultados con validacin cruzada. p1 p2 p3 p4 p5 r1 8 1 r2 1 8 1 1 1 r3 1 17 r4 4 2 16 3 r5 1 5 21 Finalmente la matriz de distancias entre las medias de los grupos con la distancia de Mahalanobis es EO(1) AL(2) E (3) AS (4) AF (5) EO(1) 7.2 7.8 20.3 25.2 AL(2) 10.9 6.5 7.6 E (3) 15.4 30.0 AS (4) 1.9 AF (5) Se observa que la mayor distancia aparece entre el grupo E (que incluye los paises de europa occidental ms Canad y EEUU) y Africa. La segunda es entre EO y Africa. La distancia menor es entre Asia y Africa.

13.6

DISCRIMINACIN CUADRTICA. DISCRIMINACIN DE POBLACIONES NO NORMALES

Si admitiendo la normalidad de las observaciones la hiptesis de igualdad de varianzas no fuese admisible, el procedimiento de resolver el problema es clasicar la observacin en el

13.6. DISCRIMINACIN CUADRTICA. DISCRIMINACIN DE POBLACIONES NO NORMALES grupo con mxima probabilidades a posteriori. Esto equivale a clasicar la observacin x0 en la grupo donde se minimice la funcin : 1 1 !1 log |Vj | + (x0 ! j )0 Vj (x0 ! j ) ! ln(Cj , j ) 2 2

j %(1,...,G)

min

En el caso particular de dos poblaciones y suponiendo las mismas probabilidades a priori clasicaremos una nueva observacin en la poblacin 2 si
!1 !1 b 1 | + (x0 ! b1 b 2 | + (x0 ! b2 b 1 )0 V b 1 ) > log |V b 2 )0 V b 2) log |V (x0 ! (x0 !

Cuando Vj y j son desconocidos se estiman por Sj y xj de la forma habitual. Ahora el !1 trmino x0 0 Vj x0 no puede anularse, al depender del grupo, y las funciones discriminantes no son lineales y tendrn un trmino de segundo grado. Suponiendo que los costes de clasicacin son iguales en todos los grupos, clasicaremos nuevas observaciones con la regla : 1 1 0 ! 1 b j | + (x0 ! b (x0 ! bj) V b j ) ! ln ,j log |V min j j %(1,...,G) 2 2

que equivale a

!1 !1 b2 b1 b 2 |/|V b 1 |) + b2 ! b 1 . Llamando b 20V b 10 V donde c = log(|V

b !1 ! V b !1 )x0 ! 2x0 (V b !1 b !1 b 2 ) > c x00 (V 1 2 0 1 b 1 ! V2


!1 !1 b1 b2 b !1 = (V !V ) V d

(13.31)

y deniendo las nuevas variables

b d (V b !1 b !1 b 2 ) bd = V 1 b 1 ! V2 b !1/2 x0 z0 = V d
p X i=1

b 1/2 (V b !1 y llamando z0 = (z01 , ..., z0p)0 y deniendo el vector m = (m1 , ..., mp )0 = V 1 b1 ! d !1 b b 2 ), la ecuacin (13.31) puede escribirse V2
p X i=1 2 z0 i

!2

z0i mi > c

Esta es una ecuacin de segundo grado en las nuevas variables z0i . Las regiones resultantes con estas funciones de segundo grado son tpicamente disjuntas y a veces difciles de interpretar en varias dimensiones. Por ejemplo, la gura (13.6) muestra un ejemplo unidimensional del tipo de regiones que se obtienen con la discriminacin cuadrtica.

426

CAPTULO 13. ANLISIS DISCRIMINANTE

Figura 13.6: Ejemplo de discriminacin cuadrtica. La zona de clasicacin de P1 es la zona central y la de P2 la de las colas El nmero de parmetros a estimar en el caso cuadrtico es mucho mayor que en el caso lineal. En el caso lineal hay que estimar Gp + p(p + 1)/2 y en el caso cuadrtico G(p + p(p +1)/2) . Por ejemplo con 10 variables y 4 grupos pasamos de estimar 95 parmetros en el caso lineal a 260 en el caso cuadrtico. Este gran nmero de parmetros hace que, salvo en el caso en que tenemos muestras muy grandes, la discriminacin cuadrticas sea bastante inestable y, aunque las matrices de covarianzas sean muy diferentes, se obtengan con frecuencia mejores resultados con la funcin lineal que con la cuadrtica. Un problema adicional con la funcin discriminante cuadrtica es que es muy sensible a desviaciones de la normalidad de los datos. La evidencia disponible indica que la clasicacin lineal es en estos casos ms robusta. Recomendamos siempre calcular los errores de clasicacin con ambas reglas utilizando validacin cruzada y en caso de que las diferencias sean muy pequeas quedarse con la lineal. Aparece tambin un problema de discriminacin cuadrtica en el anlisis de determinadas poblaciones no normales. (Vase Lachenbruch (1975)). En el caso general de poblaciones arbitrarias tenemos dos alternativas: (a) aplicar la teora general expuesta en 13.2 y obtener la funcin discriminante que puede ser complicada, b) aplicar la teora de poblaciones normales, tomar como medida de distancia la distancia de Mahalanobis y clasicar x en la poblacin Pj para la cual la D2 : b !1 (x ! xj ) D2 = (x ! xj )0 V j

es mnima. Para poblaciones discretas estas aproximaciones no son buenas. Se han propuesto mtodos alternativos basados en la distribucin multinomial o en la distancia +2 cuya ecacia est aun por determinarse. Ejemplo 13.6 Si aplicamos la discriminacin cuadrtica a los datos de las medidas fsicas

13.7. DISCRIMINACIN BAYESIANA

427

se obtiene la tabla de errores de clasicacin por validacin cruzada (sin aplicar validacin cruzada se acierta el 100% como en el caso lineal) Clasicado M H Realidad M 11 4 H 5 7 que supone un porcentaje de aciertos del 67%, menor que en el caso lineal. No hay evidencia de que la discriminacin cuadrtica suponga ninguna ventaja en este caso.

13.7

DISCRIMINACIN BAYESIANA

Hemos visto en la seccin 13.2 que el enfoque Bayesiano permite dar una solucin general del problema de clasicacin cuando los parmetros son conocidos. Cuando los parmetros deben estimarse a partir de los datos, el enfoque Bayesiano aporta tambin una solucin directa del problema que tiene en cuenta la incertidumbre en la estimacin de los parmetros, a diferencia del enfoque clsico que ignora esta incertidumbre. La solucin es vlida sean o no iguales las matrices de covarianza. El procedimimiento para clasicar una observacin, x0 , dada la muestra de entrenamiento X, es asignarla a la poblacin ms probable. Para ello se obtiene el mximo de las probabilidades a posteriori de que la observacin a clasicar, x0 , venga de cada una de las poblaciones dada la muestra X. Estas probabilidades se calculan por fi (x0 |X)( i P (i/x0 , X) = PG g =1 fg (x|X)( j

donde las densidades fg (x0 |X), que se denominan predictivas a posteriori o simplemente predictivas, son proporcional a las probabilidades de que la observacin x0 se genere por la poblacin g. Estas densidades se obtienen a partir de la verosimilitud promediando sobre los posibles valores de los parmetros en cada poblacin con su distribucin a posteriori: Z fg (x0 |X) = f (x0 |%g )p(%g |X)d%g (13.32) donde %g son los parmetros de la poblacin g . Vamos a estudiar como obtener estas probabilidades. En primer lugar, la distribucin a posteriori de los parmetros se calcula de la forma habitual mediante p(%g |X) =kf (X|%g )p(% g ). Como vimos en la seccin 9.2.2 la verosimilitud para la poblacin g con ng elementos muestrales y media muestra xg y varianza Sg es !1 ng /2 ng !1 f (X|%g ) =k Vg exp(! tr(Vg Sg + (xg ! g )(xg ! g )0 ) 2

428 y con la prior de referencia

CAPTULO 13. ANLISIS DISCRIMINANTE

se obtiene la posterior

!1 !(p+1)/2 !1 p(g , Vg ) = k Vg

!1 ). Integrando La distribucin predictiva se obtendr con (13.32), donde ahora %i = (g , Vg respecto a estos parmetros puede obtenerse, (vase Press, 1989, para los detalles de la integracin ) que la distribucin predictiva es t multivariante g !p/2 !ng /2 $ n n, (ng + 1) 1 !1/2 0 !1 2 !p |Sg | p(x0 /X, g) = 1+ (x0 ! xg ) Sg (x0 ! xg ) ng ng + 1 $ ng2

!1 (ng !p!1)/2 ng !1 !1 p(g , Vg /X)=k Vg exp(! tr(Vg Sg + (xg ! g )(xg ! g )0 2

Con esta distribucin podemos calcular las probabilidades a posteriori para cada poblacin. Alternativamente, para decidir entre la poblacin i y la j podemos calcular el ratio de las probabilidades a posteriori, dado por : P (i|x) , i |Sj | = cij . P (j |x) ,j |Si |1/2
1/2

Si los tamaos muestrales son aproximadamente iguales, ni ' nj , entonces cij ' 1. El clasicador ptimo es cuadrtico. Si suponemos que las matrices de covarianza de los grupos son iguales de nuevo obtenemos la funcin lineal discriminante (vase Aitchinson y Dunsmore, 1975).

donde , i son las probabilidades a priori, Sj las matrices de varianza y covarianzas estimadas, y p/2 ni nj !p $ 2 $ 2 ni (nj + 1) n !p cij = nj (ni + 1) $ 2j $ ni2

nj /2 0 !1 1 + nj1 ( x ! x ) S ( x ! x ) 0 j 0 j j +1 ni /2 0 S!1 (x ! x ) 1 + ni1 ( x ! x ) 0 i 0 i i +1

13.8

Lecturas complementarias

El anlisis discriminante clsico aqu presentado se estudia en todos los libros de anlisis multivariante. Presentaciones a un nivel similar al aqu expuesto se encuentran en Cuadras (1991), Flury (1997), Johnson and Wichern (1998), Mardia et al (1979), Rechner (1998) y Seber (1984). Un texto bsico muy detallado y con muchas extensiones y regerencias se encuentra en McLachlan (1992). Lachenbruch, (1975) contiene muchas referencias histricas. Enfoques ms aplicados centrados en al anlisis de ejemplos y salidas de ordenador se persenta en Huberty (1994), Hair el al (1999) y Tabachnick y Fidell (1996). Un enfoque bayesiano al problema de la clasicacin puede consultarse en Press (1989).

13.8. LECTURAS COMPLEMENTARIAS

429

Ejercicios
13.1 Suponga que se desea discriminar entre dos poblaciones normales con vectores de medias (0,0) y (1,1) , varianzas (2,4) y coeciente de correlacin lineal r=.8. Construir la funcin lineal discriminante e interpretarla. 13.2 Discutir cmo varan las probabilidades de error en el problema anterior como funcin del coeciente de correlacin. Ayuda la correlacin a la discriminacin? 13.3 Las probabilidades a priori en el problema 13.1 son 0.7 para la primera poblacin y 0,3 para la segunda. Calcular la funcin lineal discriminante en este caso. 13.4 Se desea discriminar entre tres poblaciones normales con vectores de medias (0,0), (1,1) y (0,1) con varianzas (2,4) y coeciente de correlacin lineal r =.5. Calcular y dibujar las funciones discriminantes y hallar su punto de corte. 13.5 Si los costes de equivocarnos en el problema anterior no son los mismos, de manera que el coste de clasicar en la tercera poblacin cuando viene de la primera es el doble de los dems, calcular las funciones discriminantes. 13.6 Justique que los valores propios de W !1 B son positivos, demostrando que esta matriz tiene los mismos valores propios que la matriz W !1/2 BW !1/2 . 13.7 Justicar que se obtienen las mismas variables cannicas discriminantes utilizando las matrices W y B, que las matrices asociadas de varianzas corregidas por grados de libertad. 13.8 Demostrar que es lo mismo obtener el mayor vector propio de W !1 B y el menor de T !1 W. 13.9 Demostrar que el primer componente principal cuando hay dos grupos viene dado por v = c(W ! !I)!1 (x1 ! x2 ) (sugerencia: Si T = W + B, el primer componente es el mayor autovector (ligado al mayor autovalor) de T y verica T v = Wv + Bv ="v. Como B = k(x1 ! x2 )(x1 ! x2 )0 , tenemos que Wv + c(x1 ! x2 ) = "v). 13.10 Demostrar que si (x1 ! x2 ) es un vector propio de W!1 la direccin discriminante es el eje natural de distancia entre las medias y coincide con el primer componente principal. 13.11 Demostrar que la distancia de Mahalanobis es invariante a transformaciones lineales comprobando que si y = Ax + b, con A cuadrada y no singular, se verica que D2 (yi , yj ) = !1 !1 0 D2 (xi , xj ). (Sugerencia: utilizar que Vy = AVx A0 y Vy = (A0 )!1 Vx A)

APNDICE 13.1:EL CRITERIO MINIMIZAR LA PROBABILIDAD DEL ERROR


El criterio de minimizar la probabilidad de error puede escribirse como minimizar PT , donde: PT (error) = P (1|x $ 2) + P (2|x $ 1) siendo P (i|x $ j ) la probabilidad de clasicar en la poblacin i una observacin que proviene de la j. Esta probabilidad viene dada por el rea encerrada por la distribucin j en la zona de clasicacin de i, es decir: Z P (i|x $ j ) = fj (x)dx
Ai

por tanto:

PT =

f2 (x)dx+
A1

f1 (x)dx

A2

430

CAPTULO 13. ANLISIS DISCRIMINANTE

y como A1 y A2 son complementarios: Z Z f2 (x)dx = 1!


A1

f2 (x)dx

A2

que conduce a: PT = 1 ! Z (f2 (x) ! f1 (x))dx

A2

y para minimizar la probabilidad de error debemos maximizar la integral. Esto se consigue deniendo A2 como el conjunto de puntos donde el integrando es positivo, es decir: A2 = {x|f2 (x) > f1 (x)} y obtenemos de nuevo el criterio antes establecido.

APNDICE 13.2: DISCRIMINACIN Y REGRESIN


Un resultado interesante es que la construccin de una funcin discriminante en el caso de dos poblaciones, puede abordarse como un problema de regresin. Consideremos las n observaciones como datos en un modelo lineal y denamos unas variable respuesta y que toma el valor +k1 , cuando x $ P1 y !k2 , cuando x $ P2 . Podemos asignar a k1 y k2 valores cualesquiera, aunque, como veremos, los clculos se simplican si hacemos estas constantes iguales al nmero de elementos de la muestra en cada clase. El modelo ser: yi = % 1 (x1i ! x1 ) + % 2 (x2i ! x2 ) + ... + % p (xpi ! xp ) + ui i = 1, 2 (13.33)

donde hemos expresado las x en desviaciones. El estimador de mnimos cuadrados es: b = (X e 0X e )!1 X e 0Y % (13.34)

e es la matriz de los datos en desviaciones. donde X Sea x1 el vector de medias en el primer grupo, x2 en el segundo y xT el correspondiente a todas las observaciones. Supongamos que en la muestra hay n1 datos del primer grupo y n2 del segundo. Entonces, xT = n1 x1 + n2 x2 . n1 + n2 (13.35)

Sustituyendo (13.35) en el primer trmino de (13.34): e 0X e = X


nX 1 +n2 i=1

(xi ! xT )(xi ! xT )0 =

n1+ n2 n1 X X 0 = (xi ! xT )(xi ! xT ) + (xi ! xT )(xi ! xT )0 . i=1 i=1+n1

13.8. LECTURAS COMPLEMENTARIAS Como


n1 n1 X X 0 (xi ! xT )(xi ! xT ) = (xi ! x1 + x1 ! xT )(xi ! x1 + x1 ! xT )0 = i=1 i=1

431

n1 X = (xi ! x1 )(xi ! x1 )0 + n1 (x1 ! xT )(x1 ! xT )0 i=1

ya que los trminos cruzados se anulan al ser para el otro grupo, podemos escribir: e = e 0X X

Pn

i=1 (xi ! x1 )

= 0. Procediendo anlogamente

n1 nX 1 +n2 X 0 (xi ! x1 )(xi ! x1 ) + (xi ! x2 )(xi ! x2 )0 i=1 i=n1 +1

(13.36)

+n1 (x1 ! xT )(x1 ! xT )0 + n2 (x2 ! xT )(x2 ! xT )0

Los primeros dos trminos conducen a la matriz W de sumas de cuadrados dentro de grupos que, como hemos visto, estima V, mediante: b =S= V 1 W. n1 + n2 ! 2 (13.37)

Los segundos dos trminos son las sumas de cuadrados entre grupos. Sustituyendo xT por (13.35): x1 ! con lo que resulta: (x1 ! xT )(x1 ! xT ) =
0

n1 x1 + n2 x2 1 = n2 (x1 ! x2 ), n1 + n2 n1 + n2 2 2

(13.38)

n2 n1 + n2 n1 n1 + n2

(x1 ! x2 )(x1 ! x2 )0

(13.39)

(x2 ! xT )(x2 ! xT ) =

(x2 ! x1 )(x2 ! x1 )0

(13.40)

Sustituyendo (13.39) y (13.40) en (13.36) obtenemos que: e 0X e = (n1 + n2 ! 2)S + n1 n2 (x1 ! x2 )(x1 ! x2 )0 X n1 + n2 !1 0e e XX = (n1 + n2 ! 2)!1 S!1 + aS!1 (x1 ! x2 )(x1 ! x2 )0 S!1
nX 1 +n2 i=1

que implica

(13.41)

donde a es una constante. Por otro lado: e 0Y = X

yi (xi ! xT ) = k1

n1 n2 X X (xi ! xT ) ! k2 (xi ! xT ) i=1 i=1

432

CAPTULO 13. ANLISIS DISCRIMINANTE

sustituyendo xT por su expresin (13.35), resulta, por (13.38): e 0 Y = k1 n1 n2 (x1 ! x2 ) + k2 n1 n2 (x1 ! x2 ) = (x1 ! x2 )kT X n1 + n2 n1 + n2 b = k.S!1 (x1 ! x2 ) %

(13.42)

siendo kT = n1 n2 (k1 + k2 )/(n1 + n2 ). Sustituyendo (13.41) y (13.42) en la frmula (13.34) se obtiene que:

que es la expresin de la funcin discriminante clsica.

Captulo 14 DISCRIMINACIN LOGSTICA Y OTROS MTODOS DE CLASIFICACIN


14.1 INTRODUCCIN

El problema de discriminacin o clasicacin cuando conocemos los parmetros de las distribuciones admite una solucin general que hemos visto en el captulo anterior. Sin embargo, en la mayora de las aplicaciones los parmetros son desconocidos y deben estimarse a partir de los datos. Si la distribucin conjunta de las observaciones es normal multivariante, utilizar las distancias de Mahalanobis estimadas suele dar buenos resultados y ser ptimo con muestras grandes. Sin embargo, es frecuente que los datos disponibles para la clasicacin no sean normales. Por ejemplo, en muchos problemas de clasicacin se utilizan variables discretas. En estos casos no tenemos garantas de que los mtodos estudiados en el captulo 13 sean ptimos. En este captulo presentamos otros mtodos de clasicacin. Una posibilidad es intentar construir un modelo que explique los valores de la variable de clasicacin. Por ejemplo, si se desea discriminar entre crditos que se devuelven o que presentan problemas para su cobro, puede aadirse a la base de datos una nueva variable, y, que tome el valor cero cuando el crdito se devuelve sin problemas, y el valor uno en otro caso. El problema de discriminacin se convierte en prever el valor de la variable cticia, y, en un nuevo elemento del que conocemos el vector de variables x. Si el valor previsto est ms prximo a cero que a uno, clasicaremos al elemento en la primera poblacin. En otro caso, lo haremos en la segunda. Para modelar este tipo de relaciones se utilizan los modelos de respuesta cualitativa, que se revisan en la seccin siguiente. Dentro de esta clase el modelo ms utilizado es el modelo logstico, que se estudia con cierto detalle en las secciones siguientes. Adems del modelo logstico, presentamos brevemente en este captulo otros mtodos de discriminacin, que pueden verse como procedimientos generales de aproximar la funcin de clasicacin en casos complejos no lineales y que requiren el uso intensivo del ordenador. El primero de estos mtodos es el de los rboles de clasicacin, CART, que es un algoritmo para llevar a la prctica una idea simple pero efectiva, especialmente cuando muchas de 433

434CAPTULO 14. DISCRIMINACIN LOGSTICA Y OTROS MTODOS DE CLASIFICACIN las variables de clasicacin son binarias. El segundo es el de las redes neuronales, que son aproximaciones universales de funciones y, convenientemente construidas, pueden dar buenos resultados en casos no lineales. El tercero es los mtodos no paramtricos, que utilizan aproximaciones locales. El cuarto ha sido propuesto recientemente por Vapnik (2000) y constituye una losofa alternativa a las redes neuronales para aproximar funciones generales. La ecacia de estos procedimientos es todava objeto de investigacin.

14.2
14.2.1

EL MODELO LOGIT
Modelos con respuesta cualitativa

Consideremos el problema de la discriminacin entre dos poblaciones. Una forma de abordar el problema es denir una variable de clasicacin, y , que tome el valor cero cuando el elemento pertenece a la primera poblacin, P1 , y uno cuando pertenece a la segunda, P2 . Entonces, la muestra consistir en n elementos del tipo (yi , xi ) , donde yi es el valor en ese elemento de la variable binaria de clasicacin y xi un vector de variables explicativas. A continuacin, construiremos un modelo para prever el valor de la variable cticia binaria en un nuevo elemento cuando se conocen las variables x. El primer enfoque simple es formular el modelo de regresin: y = % 0 + "01 x + u (14.1)

y, hemos visto en el captulo anterior, que si estimamos los parmetros por mnimos cuadrados este procedimiento es equivalente a la funcin lineal discriminante de Fisher y es ptimo para clasicar si la distribucin conjunta de las variables explicativas es normal multivariante, con la misma matriz de covarianzas. Sin embargo, este modelo presenta problemas de interpretacin. Tomando esperanzas en (14.1) para x = xi : E [y |xi ] = % 0 + "01 xi (14.2)

Llamemos pi a la probabilidad de que y tome el valor 1 (pertenezca a la poblacin P2 ) cuando x = xi : pi = P (y = 1|xi ) (14.3)

la variable y es binomial y toma los valores posibles uno y cero con probabilidades pi y 1 ! pi . Su esperanza ser : E [y |xi ] = pi 1 + (1 ! pi ) 0 = pi y de (14.2) y (14.4), concluimos que: pi = % 0 + "01 xi Esta formulacin tiene dos problemas principales: (14.5) (14.4)

14.2. EL MODELO LOGIT

435

1. Si estimamos el modelo lineal (14.1), la prediccin y bi = p bi estima, por (14.5), la probabilidad de que un individuo con caractersticas denidas por x = xi pertenezca a la segunda poblacin. Sin embargo pi debe estar entre cero y uno, y no hay ninguna garanta de que la prediccin y bi verique esta restriccin: podemos obtener probabilidades mayores que la unidad o negativas. Esto no es un problema para clasicar la observacin, pero s lo es para interpretar el resultado de la regla de clasicacin. 2. Como los nicos valores posibles de y son cero y uno la perturbacin ui slo puede tomar los valores 1 ! % 0 + " 1 xi = 1 ! pi y !% 0 ! " 01 xi = !pi con probabilidades pi y (1 ! pi ) . La esperanza de la perturbacin es cero ya que: E [ui ] = pi (1 ! pi ) + (1 ! pi ) (!pi ) = 0 pero la perturbacin no sigue una distribucin normal. En consecuencia, los estimadores minimocuadrticos de los coecientes del modelo (14.1) no sern ecientes. La varianza de ui es: V ar (ui ) = (1 ! pi )2 pi + (1 ! pi ) p2 i = (1 ! pi ) pi , y las perturbaciones son heterocedsticas. Para estimar los parmetros del modelo se debera utilizar mnimos cuadrados ponderados. A pesar de estos dos inconvenientes, este modelo simple estimado por mnimos cuadrados conduce a una buena regla de clasicacin, ya que, segn la interpretacin de Fisher, maximiza la separacin entre los grupos, sea cual sea la distribucin de los datos. Sin embargo, cuando los datos no son normales, o no tienen la misma matriz de covarianzas, la clasicacin mediante una ecuacin de relacin lineal no es necesariamente ptima. Si queremos que el modelo construido para discriminar nos proporcione directamente la probabilidad de pertenecer a cada poblacin, debemos transformar la variable respuesta para garantizar que la respuesta prevista est entre cero y uno. Escribiendo: pi = F (% 0 + "01 xi ) , pi estar entre cero y uno si escogemos F para que tenga esa propiedad. La clase de funciones no decrecientes acotadas entre cero y uno es la clase de las funciones de distribucin, por lo que el problema se resuelve tomando como F cualquier funcin de distribucin. Algunas posibilidades consideradas son: (1) Tomar como F la funcin de distribucin de una uniforme. Esto equivale a truncar el modelo de regresin, ya que entonces: pi = 1 si % 0 + " 01 xi ) 1 pi = % 0 + " 0 xi 0 < % 0 + " 01 xi < 1 pi = 0 % 0 + " 01 xi # 0. Esta solucin no es sin embargo satisfactoria ni tericamente (un pequeo incremento de x produce en los extremos un salto muy grande, cuando sera ms lgico una evolucin gradual), ni prcticamente: la estimacin del modelo es difcil e inestable debido a la discontinuidad.

436CAPTULO 14. DISCRIMINACIN LOGSTICA Y OTROS MTODOS DE CLASIFICACIN (2) Tomar como F la funcin de distribucin logstica, dada por: pi = 1 1+
0 0 e!( 0 !" 1 xi

(14.6)

Esta funcin tiene la ventaja de la continuidad. Adems como: e!( 0 !" 1 xi 1 1 ! pi = = 0 0 ! ( ! " x ( 1+e 0 1 i 1 + e 0 +" 1 xi resulta que: gi = log pi = % 0 + " 01 xi 1 ! pi (14.7)

que es un modelo lineal en esta transformacin que se denomina logit. La variable Logit, g , representa en una escala logartmica la diferencia entre las probabilidades de pertenecer a ambas poblaciones, y al ser una funcin lineal de las variables explicativas nos facilita la estimacin y la interpretacin del modelo. (3) Tomar otra distribucin, como por ejemplo escoger F igual a la distribucin normal estndar. Se obtiene entonces el modelo probit, que es muy similar al logit, sin tener las ventajas de interpretacin del modelo logstico, como veremos a continuacin.

14.2.2

El modelo logit con datos normales

El modelo logit se aplica a una amplia gama de situaciones donde las variables explicativas no tienen una distribucin conjunta normal multivariante. Por ejemplo, si algunas son categricas, podemos introducirlas en el modelo logit mediante variables cticias como se hace en el modelo de regresin estndar. Una ventaja adicional de este modelo es que si las variables son normales verican el modelo logit. En efecto, supongamos que las variables x provienen de una de dos poblaciones normales multivariantes con distinta media pero la misma matriz de varianzas covarianzas. Hemos visto en el captulo anterior (seccin 12.2) que, suponiendo las probabilidades a priori de ambas poblaciones iguales: pi = P (y = 1|xi ) = y, utilizando la transformacin logit, (14.7): gi = log y simplicando 1 2 V!1 2 ! 1 V!1 1 + (1 ! 2 )0 V!1 xi . 2 Por tanto, gi es una funcin lineal de las variables x, que es la caracterstica que dene el modelo logit. Comparando con (14.7) la ordenada en el origen, % 0 , es igual gi = %0 = 1 1 2 V!1 2 ! 1 V!1 1 = ! w0 (1 + 2 ) 2 2 f1 (xi ) 1 1 = ! (xi ! 1 )0 V!1 (xi ! 1 ) + (xi ! 2 )0 V!1 (xi ! 2 ) f2 (xi ) 2 2 f1 (xi ) f1 (xi ) + f2 (xi ) (14.8)

14.2. EL MODELO LOGIT donde w = V!1 (1 ! 2 ) , y el vector de pendientes "1 = w

437

b mediante el modelo logstico no es eciente en el Observemos que la estimacin de w b y los caso normal. En efecto, en lugar de estimar los p (p + 1) /2 trminos de la matriz V 2p de las medias x1 y x2 , con el modelo logstico estimamos nicamente p + 1 parmetros % 0 , % 1 , . . . % p . En el caso de normalidad se obtiene un mejor procedimiento con la regla de b , x1 y x2 , la distribucin completa de las x, mientras que el modelo Fisher, que estima V logstico estima slo los p + 1 parmetros de la distribucin de y condicionada a x. Como: f (x, y ) = f (y |x) f (x) perdemos informacin al considerar slo la condicionada f (y |x) como hace el modelo logstico en lugar de la conjunta f (x, y ), que se utiliza en el enfoque del captulo anterior. Efron (1975) demostr que cuando los datos son normales multivariantes y estimamos los parmetros en la muestra, la funcin de discriminacin lineal de Fisher funciona mejor que regresin logstica En resumen, en el caso de normalidad la regla discriminante es mejor que el modelo logstico. Sin embargo, la funcin logstica puede ser ms ecaz cuando los poblaciones tengan distinta matriz de covarianzas o sean marcadamente no normales. En el campo de la concesin automtica de crditos (Credit Socoring) existen numerosos estudios comparando ambos mtodos. La conclusin general es que ninguno de los dos mtodos supera al otro de manera uniforme y que depende de la base de datos utilizada. Rosenberg y Gleit (1994) y Hand y Henley (1997) han presentado estudios sobre este problema.

14.2.3

Interpretacin del Modelo Logstico

Los parmetros del modelo son % 0 , la ordenada en el origen, y " 1 = % 1 , ..., % p , las pendientes. A veces se utilizan tambin como parmetros exp(% 0 ) y exp(% i ), que se denominan los odds ratios o ratios de probabilidades, e indican cuanto se modican las probabilidades por unidad de cambio en las variables x. En efecto, de (14.7) deducimos que
p Y pi Oi = = exp(% 0 ). exp(% j )xj . 1 ! pi j =1

Supongamos dos elementos, i, k, con todos los valores de las variables iguales excepto la variable h y xih = xjh + 1. El cociente de los ratios de probabilidades (odds ratio) para estas dos observaciones es: Oi = e( h Ok e indica cuanto se modica el ratio de probabilidades cuando la variable xh aumenta una unidad. Sustituyendo p bi = .5 en el modelo logit, entonces,

438CAPTULO 14. DISCRIMINACIN LOGSTICA Y OTROS MTODOS DE CLASIFICACIN

log es decir,

pi = % 0 + % 1 xi1 + ... + % p xip = 0, 1 ! pi X % j xij % xi1 = ! 0 ! , % 1 j =2 % 1


p

y xi1 representa el valor de x1 que hace igualmente probable que un elemento, cuyas restantes variables son xi2 , ..., xip , pertenezca a la primera o la segunda poblacin.

14.3
14.3.1

LA ESTIMACIN DEL MODELO LOGIT


Estimacin MV

Supondremos una muestra aleatoria de datos (xi , yi ), i = 1, ..., n. La funcin de probabilidades para una respuesta yi cualquiera es:
1!yi i P (yi ) = py i (1 ! pi )

y i = 0, 1

y para la muestra :
n Y i=1

P (y1 , . . . yn ) = Tomando logaritmos:


n X i=1

1!yi i py . i (1 ! pi )

log P (y) =

yi log

pi 1 ! pi

log (1 ! pi )

(14.9)

la funcin soporte (de verosimilitud en logaritmos) puede escribirse como


n X log P (" ) = (yi log pi + (1 ! yi ) log(1 ! pi )). i=1

(14.10)

donde " 0 = % 0 , % 1 , . . . , % p es un vector de p + 1 componentes, incluyendo la constante % 0 que determina las probabilidades pi . Maximizar la verosimilitud puede expresarse como minimizar una funcin que mide la desviacin entre los datos y el modelo. En el captulo 10 se deni la desviacin de un modelo mediante D(% ) = !2L(%) y por tanto la desviacin del modelo ser:
n X D(" ) = !2 (yi log pi + (1 ! yi ) log(1 ! pi )). i=1

(14.11)

14.3. LA ESTIMACIN DEL MODELO LOGIT

439

y hablaremos indistintamente de de maximizar el soporte o minimizar la desviacin del modelo. Se dene la desviacin de cada dato (deviance) por: di = !2(yi log pi + (1 ! yi ) log(1 ! pi )). (14.12)

y miden el ajuste del modelo al dato (yi , xi ). En efecto, observemos en primer lugar que como los p bi son menores que uno, sus logaritmos son negativos, por lo que la desviacin es siempre positiva. Adems, en el calculo de la desviacin slo interviene uno de sus dos trminos, ya que yi solo puede valer cero o uno. Entonces: Si yi = 1, y la observacin pertenece a la segunda poblacin, el segundo trmino de la desviacin es nulo y di = !2 log pi . La observacin tendr una desviacin grande si la probabilidad estimada de pertenecer a la segunda poblacin, pi , es pequea, lo que indica que esta observacin est mal explicada por el modelo. Si yi = 0, y la observacin pertenece a la primera poblacin, slo interviene el segundo trmino de la desviacin di = !2 log (1 ! pi ). La desviacin ser grande si pi es grande, lo que indica que la probabilidad de pertenecer a la verdadera poblacin es pequea y el modelo ajusta mal dicho dato. Para maximizar la verosimilitud, expresando pi en funcin de los parmetros de inters, " ,en (14.9) obtenemos la funcin soporte:
n X i=1 n X i=1

L (" ) =

yi x0i "

x0 " i log 1 + e

(14.13)

que derivaremos para obtener los estimadores MV. Escribiendo el resultado como vector columna: X & L (" ) X = yi xi ! xi &" i=1 i=1
n n

exi " 0 1 + exi "

(14.14)

b a los parmetros que satisfacen el sistema de e igualando este vector a cero y llamando " ecuaciones:
n X i=1

yi xi =

xi

1 1 + e!xi "
0 c

Estas ecuaciones establecen que el producto de los valores observados por las variables explicativas debe ser igual al de los valores previstos. Tambin, que los residuos del modelo, ei = yi ! y bi , deben ser ortogonales a las variables x. Esta condicin es anloga a la obtenida en el modelo de regresin estndar, pero ahora el sistema (14.15) resultante no es lineal en b . Para obtener el valor " b los parmetros " MV que maximiza la verosimilitud acudiremos a

y bi xi

(14.15)

440CAPTULO 14. DISCRIMINACIN LOGSTICA Y OTROS MTODOS DE CLASIFICACIN un algoritmo tipo Newton-Raphson. Desarrollando el vector (& L (") /& " ) alrededor de un punto " a , se tiene & L (" ) & L (" a ) & 2 L (" a ) = + (" ! "a ) ; &" &" & "& "0 para que el punto " a corresponda al mximo de verosimilitud su primera derivada debe anularse. Imponiendo la condicin & L (" a ) /& " = 0, se obtiene: 2 !1 & L ("a ) & L (" ) b "a = "+ ! & "& "0 &"

(14.16)

que expresa cmo obtener el punto mximo " a , a partir de un punto prximo cualquiera " . La ecuacin depende de la matriz de segundas derivadas, que, en el ptimo, es la inversa de la matriz de varianzas y covarianzas asinttica de los estimadores MV . Para obtener su expresin, derivando por segunda vez en (14.14), se obtiene: & 2 L (" ) ! &"&"0
n X i=1

donde los coecientes 0 i estn dados por: exi "


0

c!1 = M

xi x0i 0 i

(14.17)

Sustituyendo en (14.16) las expresiones (14.17) y (14.14) y evaluando las derivadas en un b , se obtiene el siguiente mtodo para obtener un nuevo valor del estimador, estimador inicial " b "a , a partir del " b+ "a = " n X
i=1

0i = 2 = pi (1 ! pi ) x0 i" 1+e

(14.18)

b . El algortimo puede escribirse como: donde p bi y 0 b i se calculan con el valor " !1 b + X0 WX c b "a = " X0 Y!Y (14.20)

xi x0i 0 bi

!!1

xi (yi ! p bi )

(14.19)

c es una matriz diagonal con trminos p b el vector de valores esperados donde W bi (1 ! p bi ) y Y de Y . La matriz de varianzas y de los estimadores as obtenidos es aproximada covarianzas !1 c mente, segn (14.20), X0 WX . Observemos que la ecuacin (14.20) indica que debemos

14.3. LA ESTIMACIN DEL MODELO LOGIT

441

modi car el estimador si los residuos no son ortogonales a las variables explicativas, es decir 0 b si X Y !Y 6= 0. La modicacin del estimador depende de esta diferencia y se reparte b en funcin de su matriz de varianzas y covarianzas estimada. entre los componentes de " La forma habitual de implementar este mtodo es el siguiente algoritmo iterativo que proporciona en convergencia el estimador M V de " . b 1 , para los parmetros y obtener el vector Y b 1 para 1. Fijar un valor arbitrario inicial, " b 1 = 0, dicho valor en el modelo logit. Por ejemplo, si " b tiene todas sus componentes iguales a 1/2. y el vector Y zi = p y bi (1 ! y bi ) yi ! y bi =p bi = y bi = p 1 1 = ! 0 1+e 2

2. Denir una variable auxiliar zi de residuos estandarizados por: yi ! p bi p bi (1 ! p bi )

o vectorialmente:

3. Estimar por mnimos cuadrados una regresin con variable dependiente Z y matriz b 1 , vendrn c 1/2 X. Los parmetros estimados con esta regresin, b de regresores T =W dados por: b 1 = (T0 T)!1 T0 Z b !1 0c 0 b = X WX X Y !Y b del modelo logstico mediante 4. Obtener un nuevo estimador de los parmetros " 2 b =" b +b b1 " 2 1 b 1 de los parmety, comparando con (14.20), vemos que b1 estima el incremento "a ! " ros que nos acerca al mximo.

c es una matriz diagonal con trminos y donde W bi (1 ! y bi ).

b) c !1/2 (Y!Y Z =W

b , 5. Tomar el valor estimado resultante de la etapa anterior, que en general llamaremos " h y sustituirlo en la ecuacin del modelo logstico para obtener el vector de estimadores b =Y b " b h . Utilizando este vector Y b h construir la matriz W c h y las nuevas variables Y h Zh y Th c !1/2 Y!Y bh , Zh = W h b b y volver a la etapa 2. El proceso se repite hasta obtener la convergencia "h+1 ' " h . c 1/2 X, Th = W h

442CAPTULO 14. DISCRIMINACIN LOGSTICA Y OTROS MTODOS DE CLASIFICACIN

14.3.2

Contrastes

Si queremos contrastar si una variable o grupo de variables incluidas dentro de la ecuacin es signicativo, podemos construir un contraste de la razn de verosimilitudes comparando el mximo de la funcin de verosimilitud para el modelo con y sin estas variables. Supongamos que " = (" 1 " 2 ), donde " 1 tiene dimensin p ! s, y "2 tiene dimensin s. Se desea contrastar si el vector de parmetros: H0 : "2 = 0. frente a la alternativa H1 : "2 6= 0 El contrate de razon de verosimilitudes utiliza que " = 2L(H1 ) ! 2L(H0 ), donde L(H1 ) es el mximo del soporte cuando estimamos los parmetros bajo H1 y L(H0 ) es el mximo cuando estimamos los parmetros bajo H0 es, si H0 es cierta, una +2 s . Una manera equivalente de b denir el contraste es llamar D(H0 ) = !2L("1 ) a la desviacin cuando el modelo se estima b 1" b 2 ) a la desviacin bajo bajo H0 , es decir, suponiendo que " 2 = 0, y D(H1 ) = !2L(" H1 . La desviacin ser menor con el modelo con ms parmetros (la verosimilitud ser siempre mayor bajo H1 y, si H0 es cierta, la diferencia de desviaciones, que es el contraste de verosimilitudes b b b +2 s = D (H0 ) ! D (H1 ) = 2L(" 1 " 2 ) ! 2L(" 1 )

se distribuye como una +2 s con s grados de libertad. En particular este test puede aplicarse para comprobar si un parmetro es signicativo y debe dejarse en el modelo. Sin embargo, es ms habitual en estos casos comparar el parmetro estimado con su desviacin tpica. Los cocientes b % j wj = b s(% j )

se denominan estadsticos de Wald y en muestras grandes se distribuyen, si el verdadero valor del parmetro es cero, como una normal estndar. Una medida global del ajuste es R2 = 1 ! b) b) D(" L(" =1! D0 L(% 0 )

donde el numerador es la desviacin (verosimilitud en el mximo) para el modelo con b y el denominador la desviacin (verosimilitud) para el modelo que parmetros estimados " slo incluye la constante % 0 . Observemos que, en este ltimo caso, la estimacin de la probabilidad pi es constante para todos los datos e igual a m/n siendo m el nmero de elementos en la muestra con la variable y = 1. Entonces, sustituyendo en (14.11) la desviacin mxima

14.3. LA ESTIMACIN DEL MODELO LOGIT

443

que corresponde al modelo ms simple posible con slo % 0 que asigna la misma probabilidad a todos los datos, es D0 = !2L(% 0 )= ! 2m log m ! 2(n ! m) log(n ! m) + 2n log n. Por otro lado, si el ajuste es perfecto, es decir todas las observaciones con y = 1 tienen b) = 0 pi = 1 y las de y = 0 tienen pi = 0, entonces, segn (14.9) la desviacin es cero y L(" 2 y R = 1. Por el contrario, si las variables explicativas no inuyen nada la desviacin con b ) = L(% ) y R2 = 0. las variables explicativas ser igual que sin ellas, L(" 0 Ejemplo 14.1 Vamos a utilizar los datos de MEDIFIS para construir un modelo logit que clasique una persona como hombre o mujer en funcin de sus medidas fsicas. Si intentamos explicar la variables binaria, gnero, en funcin de todas las variables observadas obtenemos que el modelo es log pi = !488.84 + 11.84pie + 1 ! pi 2.93aes ! 5.10dcr ! 10.5lrt ! 3.73est + 4.59lbr + .14pes

el modelo ajusta perfectamente los datos y no es posible calcular desviaciones tpicas para los coecientes. El modelo no es nico. El problema es que tenemos slo 27 observaciones y con las siete variables clasicamos fcilmente todas las observaciones. Sin embargo, el modelo obtenido puede ser muy malo para clasicar otras observaciones. Vamos a contruir el modelo paso a paso. La variable con mayor coeciente en la ecuacin anterior es el pie con lo que comenzaremos con esta variable. Estimando el modelo estimado con el programa SPSS (con MINITAB no se produce convergencia del algoritmo), el modelo es: pi log = !433 + 11.08pie 1 ! pi Los dos parmetros estn muy correlados y las desviaciones tpicas son muy grandes. El valor inicial de la desviacin es D0 =37.1. Despus de estimar el modelo la desviacin es D= 3.8. La diferencia entre desviaciones nos proporciona el contraste para ver si la variable pie es signicativa. Esta diferencia es 33.27 que bajo la hiptesis de que el parmetro es cero ser aproximadamente una distribucin ji-cuadrado con 1 grado de libertad. El valor es tan grande que rechazamos la hiptesis a cualquier nivel de signicacin y concluimos que el pie es muy til para discriminar. Es interesante que, en este caso, el estadstico de Wald lleva a un resultado distinto. Como los parmetros estn muy correlados, la desviacin tpica del coeciente del pie es 108.9, y el estadstico de Wald es 11.08/ 108.= .01 que no es signicativo. Si aplicamos esta ecuacin para clasicar los datos muestrales obtenemos un porcentaje de xitos del 96%. Slo una observacin se clasica mal como indica la tabla Clasicado M H Realidad M 15 0 H 1 11

444CAPTULO 14. DISCRIMINACIN LOGSTICA Y OTROS MTODOS DE CLASIFICACIN Ejemplo 14.2 Vamos a intentar introducir una variable adicional en el modelo logstico anterior que contiene slo el pie. Introducimos la estatura, y el modelo estimado es log pi = !440.85 + 12.0pie ! !.169est 1 ! pi

con desviaciones tpicas (4092), (104.9) y (0, 5243) . El coeciente de estatura es -.1693 con error estndar .5243 dando lugar a un estadstico de Wald de .3, con lo que concluimos que este coeciente no es signicativo. La desviacin de este modelo es 3.709. Por tanto la reduccin en desviacin debida a la variable estatura con respecto al modelo que slo incluye el pi es slo de 3.80-3.71=.09, que no es signicativa comparada con una ji-cuadrado con 1 grado de libertad. Este resultado es previsible ya que el modelo con las siete variables tiene una desviacin de cero y el que contiene slo el pie una desviacin de D= 3.8: el contraste de que las seis variables adicionales no inuyen lleva, en consecuencia, a un valor del estadstico de 3.8, y este valor en la hiptesis de que las variable no inuyen debe provenir de una +2 6 con seis grados de libertad, lo que concuerda con lo observado, y debemos concluir que ninguna de las variables adicionales inuye. La conclusin es pues que nicamente con el pie podemos clasicar estos datos con poco error. Si comparemos estos resultados con los del captulo anterior (ejemplo 13.3) son bastante consistentes porque all ya observamos que la variable ms importante era el pi. El porcentaje de clasicacin de la funcin lineal discriminante era del 100% que disminua al 85% con validacin cruzada. En el modelo logstico con slo una variable hemos obtenido el 96% de xito. Con validacin cruzada este valor disminuye algo, pero mucho menos que en el ejemplo 13.3 debido a la economa de parmetros que hace que se produzca menos sobreajuste. Ejemplo 14.3 Vamos a utilizar los datos de MUNDODES para ver cules son las variables que clasican mejor a un pas como perteneciente al continente africano. La funcin logit estimada es log pi = 15.58 + .18tn ! .14tm 1 ! pi !.033mi + .05lpnb + .13em ! .47eh

Las variables tn, mi y eh son signicativas, con un cociente entre la estimacin del parmetro y la desviacin tpica de 6.8, 2.09 y 2.5 respectivamente. La desviacin inicial es D(% 0 )=-2(27log27+64log64-91log91)= 110.66. Por otro lado, la desviacin del modelo estib ) = 41.41 y la diferencia entre estas dos cantidades proporciona el contraste de mado es -2 L(" que las variables no inuyen. Si esto es cierto la diferencia, 69.25 ser una ji-cuadrado con 6 grados de libertad. Como este valor es muy grande rechazamos esta hiptesis y admitimos que las variables inuyen. El pseudo coeciente de determinacin es R2 = 1 ! 41.41 = .63 110.66

La tabla de clasicacin con este modelo es

14.4. EL MODELO MULTILOGIT Clasicado nA A Realidad nA 61 3 A 5 22 que supone una proporcin de xitos de 83/91, o de 91%.

445

14.3.3

Diagnosis
yi ! p bi p bi (1 ! p bi )

Los residuos del modelo logit (que a veces se denominan residuos de Pearson) se denen por: ei = p

y, si el modelo es correcto, sern variables de media cero y varianza que pueden P unidad 2 e permite realizar servirnos para hacer la diagnosis del modelo. El estadstico +2 = n i=1 i un contraste global de la bondad del ajuste. Si el modelo es adecuado se distribuye asintticamente como una +2 con gl = n ! p ! 1 , donde p + 1 es el nmero de parmetros en el modelo. En lugar de los residuos de Pearson se utiliza mucho las desviaciones de las observaciones o pseudoresiduos, denidas en (14.12) por di = !2(yi log p bi +(1 ! yi ) log(1 ! p bi )), que aparece, de manera natural, en la maximizacin de la funcin de verosimilitud. Podemos hacer un contraste de razn de verosimilitudes de la bondad del modelo como sigue: la hiptesis nula ser que el modelo es adecuado, es decir, las probabilidades pueden calcularse con el modelo logstico con p + 1 parmetros. La hiptesis alternativa ser que el modelo no es adecuado y las n probabilidades son libres (supuesto que las x son distintas). Entonces, la desviacin bajo H0 es D(H0 ), mientras que bajo H1 cada observacin queda perfectamente clasicada dando pi = 0 si pertenece a la primera poblacin y pi = 1 si pertenece a la segunda, y la desviacin es cero porque todas las observaciones se clasican sin error. El contraste de la razn de verosimilitudes se reduce al estadstico desviacin global: X D(H0 ) = !2 (yi log p bi + (1 ! yi ) log(1 ! p bi )) que, si el modelo es correcto, ser tambin asintticamente una +2 con n ! p ! 1 grados de libertad

14.4

EL MODELO MULTILOGIT

El modelo logit puede generalizarse para ms de dos poblaciones, es decir, para variables respuesta cualitativas con ms de dos niveles posibles. Supongamos G poblaciones, entonces, llamando pig a la probabilidad de que la observacin i pertenezca a la clase g, podemos escribir: e( 0g +" 1g xi pig = PG!1 !( !" 0 xi 1 + j =1 e 0j 1j
0

j = 1, ..., G ! 1

(14.21)

446CAPTULO 14. DISCRIMINACIN LOGSTICA Y OTROS MTODOS DE CLASIFICACIN y piG = 1 PG!1 !( !" 0 xi 1 + j =1 e 0j 1j

P con lo que automticamente garantizamos que G g =1 pig = 1. Diremos que las probabilidades pig satisfacen una distribucin logstica multivariante. La comparacin entre dos categoras se hace de la forma habitual pig e( 0g +" 1g xi 0 0 = ( +" 0 x = e(( 0g !( 0j ) e(" 1g !" 1j )xi i pij e 0j 1j Esta ecuacin indica que las probabilidades relativas entre dos alternativas no dependen del resto. Esa hiptesis puede generalizarse (vase Maddala, 1983). La estimacin y contrastes de esos modelos son extensiones directas de los logit ya estudiados y no entraremos en los detalles que el lector interesado puede encontrar en Fox (1984)
0

14.5
14.5.1

OTROS MTODOS DE CLASIFICACIN


rboles de Clasicacin

Un procedimiento alternativo de clasicacin debido a Breiman y Friedman (vase Breiman et al., 1984) son los rboles de clasicacin (Classication and Regression Trees, CART). Este procedimiento no utiliza un modelo estadstico formal y es ms bien un algoritmo para clasicar utilizando particiones binarias sucesivas utilizando los valores de una variable cada vez. La idea del procedimiento se resume en la gura 14.1. Suponemos que se dispone de una muestra de entrenamiento, que incluye la informacin del grupo al que pertenece cada dato y que servir para construir el criterio de clasicacin. Posteriormente se aplicar el criterio para clasicar nuevos datos. Comenzamos con un nudo inicial y nos preguntamos como dividir el conjunto de datos disponibles en dos partes ms homogneas utilizando el valor de una de las variables. La variable se escoge de manera que una particin de los datos en funcin de que su valor para esta variable sea mayor o menor que una constante proporcione una divisin de los datos en dos conjuntos lo ms homogeneos posibles. El algortimo comienza seleccionando una variable, supongamos que la xi , y obteniendo un punto de corte, c, de manera que separemos los datos que tienen x1 # c de aquellos con x1 > c. De este nudo incial saldr ahora dos, uno al que llegarn las observaciones con x1 # c y otro al que llegarn las que tienen x1 > c. En cada uno de estos nudos se vuelve a repetir el proceso de seleccionar una variable y un punto de corte dividir la muestra en dos partes ms homogneas. El proceso termina cuando hayamos clasicado todas las observaciones (o casi todas) correctamente en su grupo. La construccin del rbol requiere las decisiones siguientes: 1. La seleccin de las variables y de sus puntos de corte para hacer las divisiones. 2. Cuando un nudo se considera terminal y cuando se continua dividiendo.

14.5. OTROS MTODOS DE CLASIFICACIN

447

x1<c? SI x2? SI x3? SI G1 NO G2 G3 G4 NO x4? NO x5? SI x6? NO x7? NO G3 SI G1

Figura 14.1: Ejemplo de rbol de clasicacin

3. La asignacin de las clases a los nudos terminales. Supongamos que se desea clasicar las observaciones en G grupos. Por el primer nudo, llamado nudo raiz y marcado en la gura por x1, pasarn todas las observaciones, mientras que por cualquier otro nudo slo pasarn las observaciones que verican las condiciones de llegada a ese nudo. Por ejemplo, en el nudo x2?. slo se encuentran aquellas observaciones para las que se responde SI a la pregunta : es x1 < c?. Podemos entonces asociar a cada nudo el subconjunto de observaciones que pasarn por l. Para decidir la variable que va a utilizarse para hacer la particin en un nudo se calcula primero la proporcin de observaciones que pasan por el nudo para cada uno de los grupos. Llamando a los nudos t = 1, ..., T, y p(g |t) a las probabilidades de que las observaciones que llegan al nudo t pertenezcan a cada una de las clases, se dene la impureza del nudo t por
G X g =1

I (t) = !

p(g |t) log p(g |t)

esta medida se llama entropa, es no negativa y mide la diversidad. Se utiliz en la seccin 4.2.3 para obtener criterios de proyeccin. Por ejemplo, con dos grupos la impureza es I (t) = !p log p ! (1 ! p) log(1 ! p) Esta funcin est representada la gura 14.2. Se observa que la heterogeneidad o diversidad es mxima es cuando p=.5, y tiende a cero cuando p se aproxima a cero o a uno.

448CAPTULO 14. DISCRIMINACIN LOGSTICA Y OTROS MTODOS DE CLASIFICACIN

Figura 14.2: Representacion de la entropia como funcion de la probabilidad de un grupo Con G grupos, si en el nudo t todas las observaciones pertenecen al grupo g , de manera que p(g |t) = 1, y p(i|t) = 0, i 6= g, la entropa o impureza del nudo es I (t) = 0 (tomamos 0log 0 = 0, que es su valor lmite). En otro caso, la impureza ser positiva y ser mxima cuando p(g |t) = G!1 . La variable utilizada para realizar la divisin de los datos en un nudo se selecciona minimizando la heterogeneidad o impureza resultante de la divisin. Consideremos preguntas q posibles del tipo: es xi < a? y sean pS y pN las proporciones de las observaciones del nudo t que irn a los nudos resultantes de responder Si a la pregunta q (nudo tS ) y al responder No (nudo tN ). Llamemos I (tS ) y I (tN ) a las impurezas resultantes de estos nudos que surgirn como consecuencia de la pregunta q . El cambio en entropa o heterogeneidad despus de la pregunta q, ser la diferencia entre la entropa del nudo, I (t), y la entropa despus del nudo, que vendr dada por pS I (tS ) + pN I (tN ). El cambio en entropa producido por la pregunta q es: #I (t, q ) = I (t) ! pS I (tS ) ! pN I (tN ) (14.22)

y se desea escoger q para maximizar el cambio de entropa en el nudo. El procedimiento es el siguiente: se dene un conjunto de preguntas q del tipo xi < a, para i = 1, ..., p y a $ (!., .). Para cada pregunta se calcula la disminucin de impureza o entropa que implica y se escoge aquella pregunta que maximice la impureza resultante medida por (14.22). La clasicacin en los nudos terminales se hace asignado todas las observaciones del nudo al grupo ms probable en ese nudo, es decir, aquel grupo con mxima p(g |t). Si la impureza del nudo es cero, todas las observaciones pertenecen al mismo grupo, y la clasicacin de las observaciones podra hacerse sin error, en otro caso, si la impureza del nudo no es cero, la clasicacin tendr un cierto error. Este proceso de construccin del rbol puede generar muchos nudos cuando el nmero de variables es grande y se plantea el problema de cmo simplicar o podar el rbol para hacerlo ms manejable con poca prdida de informacin. Adems, pueden utilizarse otras medidas

14.5. OTROS MTODOS DE CLASIFICACIN

449

de diversidad para realizar las divisiones. No entraremos en los detalles de los algoritmos existentes que el lector interesado puede encontrar en Breiman et al. (1984) Los rboles de clasicacin suelen dar buenos resultados cuando muchas de las variables de clasicacin son cualitativas y cuando las relaciones entre las variables son muy lineales. Sin embargo, son ms inecaces que los procedimientos clsicos cuando las variables son aproximadamente normales. La evidencia disponible sobre su ecacia es distintos tipos de problemas es todava pequea. Ejemplo 14.4 Ilustraremos la idea de los rboles de clasicacin con los datos de MEDIFIS. La impureza total de los datos inicialmente es I0 = !(12/27) log(12/27) ! (15/27) log(15/27) = .687 consideremos preguntas del tipo pie< a?. Si tomamos a = 41, y llamamos q1 a la pregunta pie<41? , la muestra se divide en 18 casos con respuesta SI y 9 con respuesta NO. La impureza en los nudos resultantes ser: Para el nudo NO, la impureza es cero, porque todos los elementos del nudo son hombres. En el nudo SI de los 18 elementos 15 son mujeres y 3 hombres con lo que la impureza ser I (S, q1 ) = !(15/18) log(15/18) ! (3/18) log(3/18) = .451 con lo que la impureza resultante con esta pregunta es #I (q1 ) = .687 ! (9/27).0 ! (18/27)(.451) = .387 Comparemos este resultado con el obtenido con la pregunta q2 : pie< 40?. Ahora la muestra se divide en 16 y 11. La impureza del grupo SI es I (S, q2 ) = !(15/16) log(15/16) ! (1/16) log(1/16) = .234 y la impureza del grupo No es cero. La reduccin de impureza de esta pregunta es #I (q2 ) = .687 ! (11/27).0 ! (16/27)(.234) = .548 por tanto, es mejor dividir con la pregunta q2 que con la q1 , ya que obtenemos un grupo ms homogeneo como resultado de la divisin. Otras posibles preguntas se analizan de la misma forma.

14.5.2

Redes Neuronales

Las redes neuronales son algoritmos generales de anlisis de datos basados en un uso intensivo del ordenador. Su justicacin proviene de que, en condiciones generales, pueden aproximar cualquier funcin del tipo y = f (x1 , ..., xp ) Supongamos para simplicar la discriminacin entre dos grupos. Entonces, y es una variable binaria, cero- uno, y el problema es encontrar la funcin f que mejor se ajusta

450CAPTULO 14. DISCRIMINACIN LOGSTICA Y OTROS MTODOS DE CLASIFICACIN

x1

x2

x3

x4

x5

Figura 14.3: Representacin de una red neuronal con una capa intermedia. a los datos observados. Las redes neuronales se construyen a partir de elementos llamados nodos, unidades, o neuronas. Estas unidades reciben un conjunto de entradas, x, que representaremos por la variable vectorial x, y calculan una variable escalar de salida aplicando una ponderacin a los componentes de la entrada, aadiendo una constante de sesgo y transformando el resultado de forma no lineal como: z = g (w0 x) donde w es un vector y g una funcin generalmente no lineal. El vector x incorpora una variable adicional, x0 = 1, de manera existe un trmino de sesgo w0 incluido en el vector de pesos w0 = (w0 , ..., wp ). Se han propuesto distintos tipos de funciones g pero la funcin ms utilizada en problemas de clasicacin es la funcin logstica g (t) = 1/(1 + e!t ) que proporcionar una salida entre cero y uno. Otra funcin utilizada es g (t) = sign(t) que produce una respuesta binaria con valores posibles 1 y -1. Por ejemplo, el modelo logstico puede verse como una red neuronal de un slo nodo y funcin g logstica. Aunque existen muchas estructuras de redes neuronales posibles, la ms utilizada para clasicacin es el perceptrn, que consiste en un conjunto de neuronas clasicadas en capas y cuya representacin grca se ilustra en la gura (14.3). Esta estructura contiene cinco neuronas de entrada, tres en la capa intermedia y una de salida. Las variables de entrada, (x1 , ..., xp ), que caracterizan al elemento a clasicar se introducen por las neuronas iniciales. Por ejemplo, la red de la gura 14.3 es adecuada para clasicar elementos donde se han medido cinco variables. En la neuronas iniciales la funcin de respuesta es la unidad, es decir x = f (x), y estas neuronas sirven para distribuir las

14.5. OTROS MTODOS DE CLASIFICACIN

451

variables x en la segunda capa de neuronas. Supongamos que la capa intermedia contiene M neuronas (en la gura M = 3), entonces cada neurona intermedia i = 1, ..., M recibe un vector de entrada xi y genera una variable escalar de salida
0 zi = gi (wi xi )

(14.23)

Por ejemplo, en la gura 14.3 la neurona de la capa terminal recibe el vector z = (z1 , z2 , z3 )0 y genera una salida y. Pueden existir varias neuronas terminales y las respuestas de la capa intermedia pasan a las neuronas de salida, y cada una de ellas producir una variable de salida de acuerdo con una funcin f. Supongamos que existen j = 1, ..., J neuronas terminales. La salida que producir la neurona j ser
0 0 yj = fj (wj zj ) = fj (wj Gj (W, x)) 0 es la funcin de ponderacin en esta neurona y zj es el vector de entrada a la donde wj neurona que esta compuesto por las salidas de las neuronas de la capa intermedia. Este vector de entrada tiene M componentes, tantos como salidas intermedias, y cada uno viene dado por 0 0 (14.23), por lo que puede expresarse como zj = (z1j , ..., zMj ) = (g1 (w1 x1 ), ..., gM (wM xM )) = Gj (W, x). Por ejemplo, si suponemos que tanto las tres funciones de la capa intermedia como la terminal de la gura 14.3 proporciona una respuesta logstica, la respuesta nal es:

y = g (w40 + w41 z1 + w42 z2 + w43 z3 ) donde g es la funcin logstica. Sustituyendo z por su expresin, que es una funcin logstica de las variables de entrada, tenemos nalmente que y = g (w40 + w4i
3 X i=1 0 w4i g (wi x))

La clasicacin se realiza en funcin del valor de la variable y. Por ejemplo, si y > .5 el dato se clasica en la primera poblacin y si y < .5 en la segunda. Para llevar a la prctica este mtodo, hay que estimar los parmetros que denen cada funcin gi . Por ejemplo, en la red de la gura 14.3 para cada neurona hay que estimar seis pesos, el coeciente constante del sesgo ms los pesos para cada una de las cinco variables, lo que supone 63 = 18 parmetros para la capa intermedia, ms los 6 de la capa nal, lo que supone un total de 24 parmetros. Si llamamos ci a la variable binaria que incluye las etiquetas de los datos, por ejemplo, ci = 1 cuando pertenece a la primera clase y ci = 0 cuando pertenece a la segunda, la estimacin de los pesos se obtiene minimizando : E=
n n X X (ci ! yi )2 = (ci ! f (x, w))2 i=1 i=1

con respecto a los parmetros w o pesos que caracterizan la red. Esta funcin, que es no lineal en los parmetros, se minimiza frecuentemente con un algoritmo del gradiente, donde los pesos se modican en cada iteracin proporcionalmente al gradiente de esta funcin wij * wij + 1 &E wij

452CAPTULO 14. DISCRIMINACIN LOGSTICA Y OTROS MTODOS DE CLASIFICACIN siendo 1 la longitud de paso. El lector interesado en los detalles puede acudir a Ripley (1996). Las redes neuronales necesitan muestras grandes para estimar ecientemente los muchos parmetros que se introducen. La experiencia disponible parece indicar que si la estructura de la red neuronal se disea bien, en situaciones estndar pueden dar resultados similares a los mtodos clsicos, y pueden comportarse mejor en situaciones donde las relaciones entre las variables de clasicacin sean muy no lineales. Sin embargo la experiencia disponible es muy limitada por la falta de reglas precisas sobre el nmero de neuronas a colocar en la capa intemedia y los problemas de convergencia de los algoritmos de estimacin, dado el alto nmero de parmetros a estimar. Por ejemplo, supongamos que queremos clasicar en 4 clases posibles datos de dimensin 10. Si utilizamos cinco neuronas en la capa intermedia y 3 neuronas de salida (necesitamos G ! 1 neuronas de salida) esto supone 88 parmetros a estimar. Un inconveniente de las redes neuronales es la falta de una teora que oriente sobre las situaciones en que darn buenos resultados y aquellas en las que pueden ser muy inecientes.

14.5.3

Mtodos no Paramtricos

Vecinos ms prximos Un procedimiento de clasicacin simple y que ha dado buenos resultados con poblaciones no normales es el siguiente: (1) Denir una medida de distancia entre puntos, habitualmente la distancia de Mahalanobis. (2) Calcular las distancias del punto a clasicar, x0 , a todos los puntos de la muestra. (3) Seleccionar los m puntos muestrales ms prximos al que pretendemos clasicar. Calcular la proporcin de estos m puntos que pertenece a cada una de las poblaciones. Clasicar el punto x0 en la poblacin con mayor frecuencia de puntos entre los m. Este mtodo se conoce como m! vecinos prximos. En el caso particular de m = 1 el mtodo consiste en asignarle a la poblacin al que pertenece el elemento ms prximo. Un problema clave de este mtodo es claramente la seleccin de m. Una prctica habitual es " tomar m = ng donde ng es un tamao de grupo promedio. Otra posibilidad es probar con distintos valores de m, aplicarselo a los puntos de la muestra cuya clasicacin es conocida y obtener el error de clasicacin en funcin de m. Escoger aquel valor de m que conduzca al menor error observado. Estimacin de densidades Si la densidad de las observaciones no es normal y tenemos una muestra grande podemos intentar estimar directamente la distribucin de los datos. Para clasicar un punto x0 , no necesitamos estimar toda la densidad sino slo la densidad en ese punto, ya que la clasicacin se realiza maximizando la probabilidad a posteriori, es decir, maximizando max , g fg (x0 )
g

Un estimador ingenuo de la densidad de la poblacin g en el punto x0 es construir un hipercubo con centro en x0 y lado h, contar los puntos provenientes de la densidad g incluidos

14.5. OTROS MTODOS DE CLASIFICACIN

453

en el, ng (x0 ) y estimar la densidad por el cociente entre la frecuencia relativa de puntos en el cubo y su volumen. Es decir fg (x0 ) = ng (x0 ) ng hp

Este es un procedimiento similar al de los vecinos ms prximos, pero en lugar de jar el nmero m de puntos ms prximos jamos un entorno h y contamos cuantos puntos de cada distribucin estn en dicho intervalo. La regla anterior puede escribirse como p n 1 XY xij ! x0j fg (x0 ) = K ng hp i=1 j =1 h donde la funcin K se denomina el ncleo y tiene la propiedad xij ! x0j 1, si |xij ! x0j | # h K = 0, en otro caso h Este estimador de la densidad es muy irregular, ya que los puntos o bien entran en el hipercubo y contribuyen con valor uno a la densidad en el punto, o no cuentan en absoluto para determinar la densidad. Un estimador mejor es permitir que los puntos contribuyan a la estimacin de la densidad en funcin de su distancia, lo que puede hacerse sustituyendo el ncleo rectangular por una funcin suave que promedie la informacin de los puntos en funcin de su distancia. Un ncleo muy utilizado es el normal, dado por 1 u2 K (u) = " exp(! ). 2 2, El procedimiento puede mejorarse teniendo en cuenta la dependencia de las variables y utilizando un ncleo multivariante que tenga en cuanta esta dependencia. Por ejemplo, un ncleo normal multivariante conducira a : 1 nhp |Sg |1/2
n X i=1

fg (x0 ) =

1 0 !1 exp ! 2 (xi ! x0 ) Sg (xi ! x0 ) 2h

donde Sg es una estimacin de la matriz de covarianzas en el grupo g. En general es frecuente tomar la misma matriz Sg en todos los grupos y estimarla como una media ponderada de las matrices de cada grupo. El problema de este mtodo es que la estimacin de la densidad depende crticamente de la eleccin del parmetro h, que es desconocido. Puede utilizarse el error de clasicacin como comentamos antes para estimar h. Remitimos al lector interesado a McLachan (1992) para un estudio detallado de este tema. Ms recientemente algunos autores han tratado de mejorar la idea de vecinos ms prximos introduciendo criterios de invarianza ante rotaciones para mejorar las propiedades del mtodo, vase Hastie y Simard (1998). Otros autores han utilizado estimacin no paramtrica para estimar directamente las relaciones no lineales de clasicacin, vease por ejemplo Hastie, Tibshirani y Buja (1994).

454CAPTULO 14. DISCRIMINACIN LOGSTICA Y OTROS MTODOS DE CLASIFICACIN

14.5.4

Otros Mtodos

Un mtodo reciente que est adquiriendo cierta popularidad es el denominado SVM (support vector machines), vase Vapnik (2000) y Cherkassky y Mulier (1998). Este mtodo adopta un punto de vista distinto del habitual: en lugar de buscar una reduccin del espacio de los datos y resolver el problema en ese espacio de dimensin menor busca un espacio de dimensin mayor donde los puntos pueden separarse de forma lineal. Para entender la losofa del mtodo denamos problemas separables linealmente. Supongamos que tenemos una muestra de n elementos del tipo (yi , xi ) donde yi es la variable binaria de clasicacin, que, por conveniencia ahora, tomamos con valores posibles -1 y +1 en lugar de cero y uno, y xi $ Rp es el vector de variables para la observacin i. Este conjunto de n datos es linealmente separable si es posible encontrar un vector w $ Rp que dena un plano que nos separe perfectamente las observaciones. Es decir, todas las observaciones de un grupo, por ejemplo las de yi = !1 se encuentran a un lado del plano y verican que w0 xi + b < !1, para un cierto escalar b, mientras que los puntos del otro grupo con yi = 1 estn al otro lado y verican w0 xi + b > 1. Estas dos desigualdades pueden tambin escribirse conjuntamente como yi (w0 xi + b) ) 1 Sea f (xi ) = w0 xi + b el valor del hiperplano de separacin ptima entre los dos conjuntos para un punto xi . La distancia entre un punto cualquiera, xi , y el hiperplano viene dada por la proyeccin del punto en la direccin w, que es el vector ortogonal al plano. Esta proyeccin se calcula mediante w0 xi / kwk . Como los puntos verican yi (w0 xi + b) ) 1, maximizaremos las distancias de los puntos al plano maximizando yi (w0 xi + b) kwk para todos los puntos muestrales. Esto ocurrir si el numerador es positivo y el denominador tan pequeo como sea posible, lo que conduce al problema de programacin cuadrtica min kwk2 yi (w0 xi + b) ) 1, i = 1, ..., n

para i = 1, ..., n

14.6. LECTURAS COMPLEMENTARIAS

455

w + + + x x x

+ + + + +

x x x

f=1 x f=-1 f=0

Figura 14.4: Representacin de dos clases de puntos separables linealmente en cierto espacio, el plano separador f y el vector w ortogonal al plano. Cuando los datos no son linealmente separables el procedimiento habitual es proyectar los datos sobre un espacio de dimensin menor y utilizar funciones no lineales para separarlos grupos. Por ejemplo, en discriminacin con dos poblaciones normales multivariantes con distinta matriz de covarianzas es frecuente que los datos no sean linealmente separables y entonces como hemos visto proyectamos los datos sobre un espacio de dimensin menor y utilizamos una funcin cuadrtica para discriminar sobre las proyecciones en dicho espacio. En enfoque del vector soporte (VSM) es aplicar una transformacin a los datos que los lleve a un espacio de dimensin mucho mayor que p y entonces aplicar una discriminacin lineal como la que se ha presentado. La clave del procedimiento es darse cuenta que para resolver el problema en un espacio de dimensin alta solo necesitamos conocer los productos escalares entre las observaciones y si denimos adecuadamente un producto escalar en el espacio ampliado tenemos resuelto el problema. Los detalles tcnicos de implantacin del mtodo dejan todava muchos interrogantes por resolver y el lector interesado puede acudir a la referencias indicadas al comienzo de la seccin.

14.6

Lecturas complementarias

El modelo logistco se estudia en Hosmer y Lemeshow (1989), Cramer (1991) y Fox (1984). Estos modelos son casos particulares de los modelos lineales generalizado estudiados por Mc Cullagh y Nelder (1989). Su aplicacin para discriminacin se presentan claramente en McLachlan (1992), que contiene numerosas referencias a otros mtodos no presentados en este libro. Las redes neuronales para clasicacin se explican en Hand (1997), Ripley (1996), Hertz et al. (1991) y Bishop (1995). El libro de McLachlan (1992) es una buena referencia general para mtodos alternativos de discriminacin. Vese tambin Fukunaga (1990). La teoria de aprendizaje estadstico y su aplicacin para la construccin de mquinas

456CAPTULO 14. DISCRIMINACIN LOGSTICA Y OTROS MTODOS DE CLASIFICACIN de clasicacin se presenta en Cherkassky y Mulier (1998) y Vapnik (2000). Ejercicios 14.1 Escribir la transformacin logit como la diferencia entre las funciones soporte del dato a clasicar bajo los dos modelos posibles. 14.2 Demostrar que el estimador de % 0 en el modelo logstico si % 1 = ... = % p = 0 viene P b = log p dado por % b/(1 ! p b) donde p b = yi /n. Interpretar este resultado. 0 14.3 Supongamos que los datos tienen observaciones repetidas de manera que para cada xi se han observado ni datos y ri de ellos pertenecen a la poblacin con y = 1 y nP i ! ri a la de y = 0. Demostrar que la funcin soporte puede escribirse entonces como L(") = ri log pi + P (ni ! ri ) log(1 ! pi ). 14.4 Demostrar que si las dos poblaciones bajo consideracin son normales multivariantes con distiantas medias y matriz de covarianzas, la funcin logit para clasicar la observacin x es g (x) = a + b0 x + x0 Ax, determinar la expresin de a, b y A en funcin de los parmetros del modelo. 14.5 Demostrar que para clasicar una observacin en las condiciones del ejemplo 14.2 la funcin logstica es lineal en los parmetros y por lo tanto el modelo logstico puede aplicarse analogamente en este caso, aunque el nmero de parmetros a estimar es mayor. 14.6 Demostrar que en el caso de una nica variable explicativa, si las observaciones de los dos grupos estan separadas, en el sentido de que todas las observaciones con y = 0 estn en una zona xi P < c y todas las de y = 1 en la zona xi > c, la funcin soporte es P L(" ) = xi >c log pi + xi <c log(1 ! pi ) y por tanto puede tomar el valor mximo cero si hacemos pi = 1 para las observaciones con xi > c y pi = 0 para las observaciones con xi < c. 14.7 Demostrar que el ejercicio 14.6 podemos aproximarnos arbitrariamente al valor b = !c% b y haciendo que % b sea arbitrariamente grande. L(") = 0 tomando % 0 1 1 14.8 Explicar, a la vista de los ejercicios 14.6 y 14. 7 porque el mtodo de mxima verosimilitud va a fallar si todas las observaciones estn perfectamente separadas, en el sentido denido en 14.6

Captulo 15 CLASIFICACIN MEDIANTE MEZCLAS DE DISTRIBUCIONES


15.1 FUNDAMENTOS

En este captulo volveremos al problema del anlisis de conglomerados para analizar la homogeneidad de una muestra y encontrar grupos si existen, problema que ya estudiamos, desde un punto de vista descriptivo, en el captulo 8. En este captulo supondremos que los datos se han generado por una mezcla de G distribuciones desconocidas y preentaremos mtodos para identicar los grupor. Hay tres mtodos principales para partir una muestra heterognea en grupos ms homogneos. El primero, y ms antiguo, es el mtodo de k-medias, (o G medias en nuestra notacin) que se present en el captulo 8 como un algortimo heurstico para maximizar una medida de homogeneidad al partir la muestra en G grupos. En este captulo veremos que las hiptesis que hagamos respecto a los componentes de la mezcla implican distintos criterios a maximizar con el algoritmo de k-medias. El segundo, es tratar de estimar los parmetros de los componentes de la mezcla y clasicar despus las observaciones a los grupos por sus probabilidades de pertenencia a las distintas poblaciones. En este captulo estudiaremos con detalle el caso en el que los datos provienen de una mezcla de G poblaciones normales. El tercero, es proyectar los puntos sobre distintas direcciones que separen los grupos lo ms posible y clasicar las observaciones en grupos mediante estas proyecciones univariantes. Los procedimientos de particin de la muestra en grupos o conglomerados a partir de la hiptesis de que los datos provienen de mezclas de distribuciones, estn relacionados con el anlisis discriminante que vimos en el captulo 13. En ambos casos suponemos mezclas, y queremos encontrar criterios para asignar nuevas observaciones a las distintas poblaciones. Sin embargo, en anlisis discriminante suponemos que las poblaciones son conocidas, o tenemos una muestra de cada poblacin (a veces llamada muestra de entrenamiento), donde las observaciones estn clasicadas sin error, de manera que podemos estimar los parmetros de cada distribucin. En anlisis de conglomerados ni conocemos el nmero de poblaciones ni disponemos de datos previos de clasicacin, y toda la informacin sobre el nmero de grupos y su estructura debe obtenerse de la muestra disponible. 457

458 CAPTULO 15. CLASIFICACIN MEDIANTE MEZCLAS DE DISTRIBUCIONES

15.2

EL METODO de K-MEDIAS para mezclas

Para obtener criterios que podamos aplicar al caso de conglomerados, volvamos arevisar el problema de discriminar entre G poblaciones normales multivariantes N g , Vg , cuando se dispone de una muestra de entrenamiento donde se conoce la procedencia de las observaciones, y sea ng al nmero de elementos de la muestra que provienen de la poblacin g, donde P g = 1, . . . , G, y ng = n. Aplicando los resultados de la seccin 10.2.2, la verosimilitud de la muestra ser, sumando los soportes : log f (x1 , . . . xn ) = !
G X ng g =1

log |Vg | !

0 Png 1 ! ! . Segn esta ecuacin la estimacin de cada donde S g = n x x i i g g i =1 g vector de medias, g , ser xg , la media muestral y la funcin soporte concentrada en este parmetro ser:
G X ng g=1 G X ng g =1

G X ng g =1

!1 S g tr Vg

log f (x1 , . . . xn ) = ! donde

log |Vg | !

!1 Sg tr Vg

ng 1 X (xi ! xg ) (xi ! xg )0 . Sg = ng i=1

Supongamos que admitimos la hiptesis Vg = ) 2 I, es decir las variables estn incorreladas y tienen la misma varianza entre s y en todos los grupos. Entonces, la funcin soporte se reduce a: g ! X np 1 2 log f (x1 , . . . xn ) = ! log ) ! 2 t