A Cuevas

EL ANALISIS ESTAD ISTICO DE GRANDES MASAS DE DATOS: ALGUNAS TENDENCIAS RECIENTES
Antonio Cuevas
Departamento de Matem aticas Universidad Aut onoma de Madrid
INTRODUCCION 1. Algunos comentarios sobre el signicado de la Estad stica y su relaci on con otras ciencias. 2. El planteamiento general de este art culo. 1. Un vistazo general a la Estad stica param etrica cl asica. 1.1. Relaci on de la Inferencia Estad stica con la Teor a de la Probabilidad: la densidad normal y otros modelos param etricos. 1.2. Los tres problemas cl asicos en Estad stica Param etrica. 2. La estimaci on funcional no param etrica: una alternativa a los modelos cl asicos. 2.1. Del humilde histograma y sus virtudes. 2.2. Los estimadores kernel: una versi on sosticada de los histogramas. 2.3. Aplicaciones de los estimadores no param etricos de la densidad al an alisis de conglomerados (clustering). 2.4. La operaci on no param etrica en los problemas de regresi on. 2.5. Ventajas e inconvenientes de los m etodos no param etricos. 2.6. Sobre la popularidad de la estad stica no param etrica: programas inform aticos disponibles.
3. Estad stica con datos funcionales. 3.1. Regresi on con datos funcionales. 3.2. Otras tendencias en el an alisis de datos funcionales. REFERENCIAS
INTRODUCCION 1. Algunos comentarios sobre el signicado de la Estad stica y su relaci on con otras ciencias La Estad stica es la ciencia de los datos, entendiendo como datos un conjunto de observaciones generalmente (pero no necesariamente) num ericas, obtenidas mediante la observaci on reiterada de un experimento de inter es. La metodolog a de trabajo habitual en las ciencias experimentales incluye la elaboraci on de modelos para explicar un determinado fen omeno y la vericaci on posterior de estos modelos a partir de la observaci on experimental que suele conducir a la obtenci on de datos. As pues, en cierto sentido, la Estad stica es una ciencia transversal a las dem as, que ayuda a interpretar los datos emp ricos obtenidos en cualquier campo. La Estad stica es tambi en una ciencia de servicio en el sentido de que los temas de investigaci on que llevan al desarrollo de nuevas t ecnicas deben estar directamente motivados por las demandas de los usuarios (bi ologos, ingenieros, f sicos, economistas,...) m as que por las necesidades de coherencia formal o desarrollo interno de la teor a. El desarrollo matem atico de la Estad stica ha sido m as reciente que el de otras ciencias matem aticas. Si aceptamos como un indicio de la madurez y consolidaci on de una ciencia la presencia de programas acad emicos establecidos, con un cuerpo com un que se considera b asico en las universidades de todo el mundo, podemos advertir algunas diferencias objetivas entre la Estad stica y, por ejemplo, el An alisis Matem atico. As , puede se nalarse que mientras la estructura de los cursos acad emicos avanzados de An alisis, con un planteamiento y notaci on similares a las que hoy conocemos (incluyendo un estudio riguroso de la teor a de funciones, l mites, diferenciabilidad, continuidad, series,...), estaba ya m as o menos 2
establecida hacia 1880 (a partir de las lecciones de Weierstrass en la Universidad de Berl n), los primeros libros de texto modernos y generales de Estad stica Matem atica no llegaron hasta mucho m as tarde. As , la obra cl asica de Harald Cramer Mathematical Methods of Statistics, que sirvi o de modelo para tantos otros textos posteriores, se public o en 1945. Por lo dem as, la ciencia estad stica se encuentra actualmente en un buen momento. La teor a central se ha desarrollado y enriquecido de tal manera que los cursos cl asicos de los a nos 60 y 70 del siglo XX pueden considerarse hoy como superados en gran medida. Incluso observando el progreso de la investigaci on con la perspectiva m as cercana de los u ltimos 10 a nos se puede apreciar un progreso evidente y consolidado. Tomando de nuevo el mundo acad emico como indicador: la comparaci on de la obra de Hastie, Tibshirani y Friedman The Elements of Statistical Learning1 (que est a probablemente llamada a convertirse en un cl asico de los principios del siglo XXI) con el texto de Cramer citado antes, deja poco lugar a dudas sobre el cambio de panorama que se ha producido. Conviene advertir aqu que la palabra Estad stica tiene, al menos, dos sentidos, claramente distintos aunque muy relacionados: Estad stica descriptiva (llamada modernamente An alisis de datos): conjunto de t ecnicas orientadas a extraer informaci on de un gran conjunto de datos, mediante medidas (media, mediana, moda, varianza) que resumen sus principales rasgos, y mediante herramientas gr acas. Este aspecto descriptivo representa quiz a la imagen m as com un de la Estad stica para el p ublico no especializado, ya que constituye el aspecto m as destacado de la presencia de esta ciencia en los medios de informaci on, a trav es de las estad sticas ociales, la divulgaci on cient ca, los datos econ omicos, la publicidad, etc. Inferencia Estad stica: Su objeto es obtener informaci on sobre el modelo probabil stico que subyace en un determinado experimento aleatorio consistente en la observaci on de una cierta cantidad (o variable) aleatoria. Un ejemplo t pico de problema de inferencia, que comentaremos m as ampliamente en la Secci on 1 de estas notas, ser a estimar la media de una variable aleatoria de inter es (por ejemplo, la media de la variable X = consumo mensual de electricidad en los domicilios particulares).
1 HASTIE, T., TIBSHIRANI, R y FRIEDMAN, J. The Elements of Statistical Learning. Springer. New York, 2001.
Como veremos a continuaci on, todos los m etodos estad sticos requieren experimentaci on, es decir, obtenci on de muestras (se llama muestra al conjunto de datos resultante de la observaci on reiterada de una variable aleatoria). 2. El planteamiento general de este art culo La Estad stica cl asica est a en buena parte dominada por la teor a de la inferencia basada en muestras peque nas, es decir, para situaciones en las que se dispone de pocos datos (t picamente, menos de 30). Por ejemplo, toda la teor a de los tests de hip otesis basados en la t de Student puede situarse dentro de esta metodolog a para muestras peque nas. Actualmente, estos m etodos siguen siendo muy importantes y utilizados, pero han surgido nuevos problemas relacionados con la sobreabundancia de datos, m as que con su carest a. La creciente facilidad para almacenar y procesar informaci on por medio de potentes ordenadores, unida a la capacidad de evaluar con precisi on en tiempo continuo gran cantidad de procesos (temperaturas, cotizaciones burs atiles, audiencias de televisi on,...) han conducido a la existencia de enormes masas de datos que plantean problemas, te oricos y pr acticos, para su manejo u til. La frase We are drowning in information and starving for knowledge citada por Hastie, Tibshirani y Friedman2 resulta particularmente acertada y describe muy expresivamente una situaci on que es cada vez m as frecuente. En este art culo se abordar an s olo, parcialmente, dos de las metodolog as que contribuyen a evitar que nos sintamos ahogados en los datos: la estimaci on no param etrica de funciones (en concreto de la densidad y la regresi on) y la metodolog a estad stica para datos funcionales. La palabra recientes que aparece en el t tulo debe entenderse en un sentido amplio. En realidad, la estimaci on funcional no param etrica dista mucho de ser una novedad, ya que su origen se remonta a mediados de los a nos 50. Sin embargo, el gran progreso que se ha experimentado en los u ltimos diez o quince a nos, unido a la relativa popularizaci on reciente de estas t ecnicas (que ahora son realmente accesibles a los usuarios gracias a los modernos ordenadores) permiten considerar a los m etodos no param etricos como incorporaciones recientes al n ucleo de los m etodos estad sticos que no s olo importan a los investigadores sino tambi en
HASTIE, T., TIBSHIRANI, R y FRIEDMAN, J. The Elements of Statistical Learning. Springer. New York, 2001.
2
a los usuarios. Por otra parte, las tendencias actuales tienden a acentuar la importancia de estos m etodos como instrumentos auxiliares de otras t ecnicas (clasicaci on, an alisis de conglomerados,...) que est an t picamente asociadas al manejo de grandes masas de datos. La estad stica con datos funcionales s puede considerarse, sin mayores reservas, como una teor a reciente. El primer manual general sobre este tema se debe a Ramsay y Silverman y ha sido publicado en 19973 . Como siempre, pueden detectarse aqu y all a (desde, al menos, el principio de los a nos 80), art culos de investigaci on que abordaban estas ideas, pero a un hoy no hay una teor a sistem atica. La exposici on est a organizada de la siguiente forma: En la Secci on 1 se presenta un breve resumen del ambiente general de la Estad stica cl asica con objeto de recordar algunos conceptos importantes y de poder apreciar mejor las diferencias con los otros dos planteamientos que se discuten a continuaci on. En la Secci on 2 se presentan las ideas b asicas de la estimaci on no param etrica de funciones (en particular, de la funci on de densidad y la funci on de regresi on) motiv andolas con algunos ejemplos reales y mostrando sus posibilidades para proporcionar orientaciones u tiles en el manejo de grandes cantidades de datos. Los libros de Silverman4 o Simono5 son referencias generales de nivel bastante accesible. Otros referencias interesantes (de orientaci on quiz a m as t ecnica y menos divulgativa) son 6 7 Scott y Wand y Jones . En la Secci on 3 se motiva el inter es pr actico de la metodolog a estad stica con datos funcionales y se esboza el planteamiento matem atico de algunas de sus t ecnicas b asicas, en particular las relacionadas con la regresi on lineal.
3 RAMSAY, J. O. y SILVERMAN, B. W. Functional Data Analysis. Springer. New York, 1997. 4 SILVERMAN, B. W. Density Estimation for Statistics and Data Anlisis. Chapman and Hall. New York, 1986. 5 SIMONOFF, J. S. Smoothing Methods in Statistics. Springer. New York, 1996. 6 SCOTT, D. W. Multivariate Density Estimation. Wiley. New York, 1992. 7 WAND, M. y JONES, M. C. Kernel Smoothing. Chapman and Hall. Londres, 1995.
1. UN VISTAZO GENERAL A LA ESTAD ISTICA PARAM ETRICA CLASICA La discusi on de este apartado se centrar a en la Inferencia Estad stica (que forma el n ucleo fundamental de la Estad stica Matem atica cl asica), aunque la Estad stica Descriptiva o An alisis de Datos, aparecer a tambi en de modo muy destacado en los apartados siguientes. 1.1. Relaci on de la Inferencia Estad stica con la Teor a de la Probabilidad: . la densidad normal y otros modelos param . etricos Generalmente, la estad stica inferencial se aplica al estudio de una cierta magnitud aleatoria o variable aleatoria (v.a.). En muchos casos, esta variable corresponde a la observaci on de una cierta caracter stica en los individuos de una gran poblaci on y por eso se emplean a veces las palabras poblaci on y poblacional para referirnos a X y a sus caracter sticas. La teor a de la probabilidad proporciona las herramientas para identicar y denir las caracter sticas de esa variable que interesa estudiar (distribuci on, media, varianza,...) y proporciona algunos modelos t picos que aparecen con frecuencia en las aplicaciones. Si X es la variable aleatoria bajo estudio, se dene su funci on de distribuci on en un punto x0 como la probabilidad de que X tome un valor menor o igual que x0 , es decir, F (x0 ) = P (X x0 ) Por tanto, P (a < X b) = F (b)F (a) (aqu , P denota probabilidad). Se dice que la distribuci on de X es (absolutamente) continua cuando la probabilidad P (a < X b) puede calcularse como la integral de una cierta funci on f , llamada funci on de densidad:
b
P (a < X b) =
f (x)dx
a
En este caso (que ser a el que m as nos interese aqu ) se tiene, por las propiedades de la integral, F (x) = f (x) y la distribuci on de X viene caracterizada indistintamente por f o por F , en el sentido de que cualquiera de las dos funciones permite calcular la probabilidad de que la cantidad aleatoria X tome valores en cualquier intervalo prejado. Generalmente, la funci on de densidad es m as expresiva y manejable. La media (que proporciona una medida de tendencia central) y la varianza de X (que proporciona una medida de dispersi on) se denen 6
respectivamente, para este caso continuo, por

xf (x)dx, 2 =
(x )2 f (x)dx.
La densidad normal (cuya gr aca tiene una t pica forma de campana) es un ejemplo importante de funci on de densidad que se emplea muchas veces para caracterizar la distribuci on de una v.a. Esta distribuci on es casi omnipresente en las aplicaciones de la Probabilidad y la Estad stica a la ciencias experimentales porque, seg un establece el Teorema Central del L mite, (enunciado en t erminos informales) la distribuci on de cualquier variable que pueda expresarse como suma de muchas otras variables independientes, cada una de las cuales tiene un efecto peque no sobre la variable total, sigue aproximadamente una distribuci on normal. Esta es la raz on de la importancia fundamental de la distribuci on normal en F sica (Teor a de Errores, Mec anica Estad stica,...), en Gen etica (estudio de la distribuci on de los caracteres cuantitativos), etc. La densidad normal tiene la forma 1 (x )2 f (x) = exp 2 2 2 ,
donde es la media y 2 es la varianza. Esta distribuci on se denota brevemente por N (, ). Seg un esto, la distribuci on normal queda totalmente especicada cuando se dan los valores de estos par ametros. Se trata de un ejemplo caracter stico de modelo param etrico. La distribuci on N (0, 1) se denomina normal est andar. A continuaci on se presentan brevemente algunos ejemplos concretos que corresponden a situaciones reales en las que interesa estudiar una variable aleatoria cuya distribuci on puede elegirse dentro de alg un modelo param etrico conocido.
Distribuci on de la renta En este caso, la variable de inter es ser a X = renta familiar anual. Si f es la densidad correspondiente a esta variable se tiene que
b
P (a < X b) =
f (x)dx,
a
lo cual signica que la proporci on de familias cuya renta est a comprendida entre a y b viene dada por la integral anterior. Un modelo 7
0.4
0.35
0.3
El rea rayada corresponde a la probabilidad del intervalo (4,5)
0.25
0.2
0.15
0.1
0.05
0 1
Figura 1. Funci on de densidad de la distribuci on N (3, 1).
que se utiliza a veces para la densidad de X es f (x) = 1 (log x )2 exp 2 2 x 2 , para x > 0.
Esta densidad dene la llamada distribuci on logar tmico normal.
Tiempos de funcionamiento X = tiempo hasta la primera aver a en un sistema. Un posible modelo: f (x) = ex , x > 0 (distribuci on exponencial).
N umero de aver as de un sistema en un tiempo prejado Este es un ejemplo de variable discreta cuya distribuci on viene caracterizada por una funci on de probabilidad p(k ) = P (X = k ) que proporciona directamente probabilidades en lugar de densidades de probabilidad. Un modelo usual es: P (X = k ) = e k , k = 0, 1, . . . (distribuci on de Poisson). k!
Error cometido al medir una magnitud El modelo cl asico para la distribuci on de la variable X que mide el error cometido, es la distribuci on normal est andar 1 x2 f (x) = exp 2 2 2 Estos ejemplos muestran que la teor a de probabilidades proporciona una amplia caja de herramientas para elegir y manejar modelos que sean adecuados a diferentes situaciones pero, en general, no permite determinar completamente la distribuci on m as adecuada para cada caso. Por ejemplo, en los enfoques param etricos, estos modelos est an determinados salvo uno o varios par ametros que no son conocidos. Aqu entra en juego la Estad stica. 1.2. Los tres problemas cl asicos en Estad stica Param etrica El punto de partida indispensable para cualquiera de los procedimientos estad sticos que se enumeran a continuaci on es la extracci on de una muestra de la variable aleatoria X de inter es, entendiendo como muestra un conjunto de n observaciones independientes X1 , . . . , Xn de dicha variable. Estimaci on puntual El planteamiento general es el siguiente: Se tiene una v.a. de inter es X . Se supone que la densidad de X pertenece a una familia param etrica conocida, (normal, lognormal, Pareto, gamma,...), f , aunque se desconoce el valor del par ametro . Se desea estimar a partir de una muestra, X1 , . . . , Xn , de X . Para ello se denen estimadores, que son funciones Tn (X1 , . . . , Xn ) de la muestra adecuadas para aproximar o estimar el valor desconocido del par ametro. Por ejemplo, si se supone que el peso X de los individuos de cierta poblaci on animal sigue una distribuci on N (, ), una muestra consistir a simplemente en un conjunto de n observaciones (n se denomina tama no muestral) correspondientes a los pesos de otros tantos individuos elegidos al azar en dicha poblaci on.
En este caso, los estimadores naturales de los par ametros (la media de X ) y 2 (la varianza de X ) son sus an alogos muestrales: = := X
n i=1 Xi
y 2 =
n i=1 (Xi
)2 X
que se denominan media y varianza muestral, respectivamente. La Estad stica Param etrica cl asica proporciona procedimientos generales para construir y analizar estimadores adecuados para alg un par ametro de inter es del cual depende la distribuci on de la variable estudiada. Naturalmente, esto incluye otras situaciones en las que el estimador adecuado no aparece de una manera tan directa y natural como en el ejemplo anterior. Estimaci on por intervalos de conanza Se trata de dar un intervalo de valores que cubre, con alta probabilidad, el valor desconocido del par ametro. Quiz a el ejemplo m as popular (aunque en modo alguno el m as importante) de estimaci on por intervalos de conanza es la obtenci on de las llamadas horquillas de predicci on en las encuestas electorales. Otro ejemplo m as relevante surge en la metodolog a de control estad stico de calidad, donde los cl asicos control charts de Sewhart aparecen muy relacionados con ideas de intervalos de conanza. Tambi en en otros muchos campos, como la investigaci on de mercados, resultan u tiles los intervalos de conanza. Como ejemplo de aplicaci on en este u ltimo ambito, consideremos el siguiente estudio de mercado: La compa n a Apple Computer lanz o en 1998 el nuevo modelo iMac. La demanda inicial fue excelente. Sin embargo, la compa n a estaba interesada en conocer si iMac estaba atrayendo de manera signicativa nuevos compradores (es decir, personas que adquir an por primera vez en su vida un ordenador). Se realiz o un estudio sobre 500 compradores resultando que 83 de ellos eran nuevos compradores. La proporci on estimada de nuevos compradores entre los usuarios de iMac fue, por tanto, 83/500 = 0.167. El intervalo de conanza al 95 % (obtenido con t ecnicas elementales de inferencia param etrica) va de 0.13 a 0.20. Esto proporciona una informaci on m as completa que la simple estimaci on puntual. 10
Contraste de hip otesis Esta t ecnica, no siempre bien comprendida ni bien utilizada, ayuda a optar entre dos posibles alternativas respecto al valor de un par ametro. En general, un contraste de hip otesis es un procedimiento que permite responder racionalmente (y siempre con una cierta probabilidad, controlada, de error) a preguntas del tipo: Hay suciente evidencia estad stica para poder armar que un determinado f armaco baja, en promedio, la presi on arterial de los pacientes una hora despu es de haberlo ingerido? Hay suciente evidencia estad stica para poder armar que la cantidad media de detergente contenida en los paquetes de una determinada marca es inferior al valor nominal (1 Kg.) indicado en la etiqueta? Es superior la dieta mediterr anea a una dieta baja en grasas recomendada por la American Heart Association ? En todos los casos, la idea b asica es obtener una muestra y decidirnos por la hip otesis que se cuestiona cuando los datos muestrales resultar an muy improbables en el caso de que esta hip otesis no fuera cierta. Por ejemplo, en el u ltimo de los casos citados, se realiz o un estudio sobre 605 supervivientes de un ataque card aco. De ellos, 303 recibieron dieta mediterr anea y 302 la dieta AHA. Los resultados (publicados en 1998) fueron muy signicativos a favor de la primera en vista del porcentaje de personas en ambos grupos que sufrieron enfermedades durante un cierto per odo de tiempo. FUNCIONAL NO PARAMETRICA: 2. LA ESTIMACION UNA . ALTERNATIVA A LOS MODELOS CLASICOS Como hemos visto en el apartado anterior, la estad stica cl asica depende fuertemente de suposiciones param etricas (llamadas frecuentemente modelos param etricos) sobre la distribuci on de la variable que genera los datos. La palabra param etrica alude aqu al hecho de que estos modelos jan completamente la distribuci on excepto por el valor de uno o varios par ametros reales que deben ser estimados. El ejemplo m as t pico, y el modelo param etrico m as utilizado es, con diferencia, el modelo normal. Sin embargo, hay muchas situaciones pr acticas en que un sencillo an alisis exploratorio de los datos muestra claramente que la suposici on de normalidad es inadecuada. Lo mismo ocurre con otros modelos param etricos usuales.
11
2.1. Del humilde histograma y sus virtudes Consideremos el siguiente ejemplo cl asico, correspondiente a la observaci on a lo largo de los d as 1 a 8 de agosto de 1978, de 107 valores correspondientes a tiempos (medidos en minutos) entre erupciones consecutivas de un geyser, llamado Old Faithful, en el parque norteamericano de Yellowstone y tambi en a la duraci on de las erupciones de dicho geyser durante el per odo indicado. La simple representaci on de estos dos conjuntos de datos, mediante dos cl asicos histogramas (ver Figuras 2 y 3) resulta muy signicativa.
30
20
10
Desv. t p. = 12.97 Media = 71.0 0 40.0 45.0 50.0 55.0 60.0 65.0 70.0 75.0 80.0 85.0 90.0 95.0 N = 107.00
Figura 2. Tiempos entre erupciones consecutivas del geyser Old Faithful.
A la vista de estas guras nadie podr a decir razonablemente que la distribuci on de ninguna estas variables es normal (la curva normal m as cercana a los datos aparece sobrepuesta). Estas gr acas sugieren m as bien que, en ambos casos, la poblaci on observada est a dividida en dos subpoblaciones correspondientes a las dos modas que se observan en el gr aco. Como curiosidad, puede decirse que los resultados obtenidos a partir de un conjunto semejante de datos obtenido un a no despu es (en agosto de 1979) fueron casi id enticos. Parece que el Old Faithful tiene costumbres regulares... A la pregunta: si la variable observada no tiene distribuci on normal, entonces cu al es su distribuci on?, puede responderse simplemen12
30
20
10
Desv. t p. = 1.04 Media = 3.46 0 1.75 2.00 2.25 2.50 2.75 3.00 3.25 3.50 3.75 4.00 4.25 4.50 4.75 5.00 N = 107.00
Figura 3. Duraci on de las erupciones del geyser Old Faithful.
te: olvidemos las distribuciones param etricas preestablecidas. Utilicemos el propio histograma como si fuese (aproximadamente) la funci on de densidad de la variable. Para entender por qu e esta interpretaci on es razonable, conviene explicitar la denici on formal de histograma: Fijada una sucesi on . . . < ai
(n) (n)
ai y dada la muestra X1 , . . . , Xn , se dene (siendo #C el cardinal del conjunto C ) f n (t; X1 , . . . , Xn ) fn (t) = para t (aj , aj +1 ], j = 0, 1, 2, . . .. Aqu , X1 , . . . , Xn son los datos observados, . . . < ai
(n) (n) (n) (n) (n)
< ai+1 < . . ., con hn = ai+1
(n)
(n)
#{Xi (aj , aj +1 ]} nhn
(n)
(n)
(1)
< ai+1 <
(n)
. . . y hn = ai+1 ai denotan respectivamente, los extremos de los intervalos considerados para obtener el histograma y la amplitud de estos intervalos. La expresi on (1) aclara la relaci on entre histograma y densidad: si (n) (n) t (aj , aj +1 ], fn (t) representa la densidad de poblaci on de los datos
(n) (n)
que viven en el intervalo (aj , aj +1 ]. Si la longitud hn de este intervalo 13
tiende a cero cuando el n umero de datos tiende a innito, cabe esperar que f anea en el punto t que es n (t) tienda hacia la densidad instant precisamente la funci on de densidad. Hay que a nadir solamente que hn no debe tender a cero demasiado deprisa, para evitar quedarnos sin datos en muchos intervalos. De hecho, la condici on que se requiere para que se produzca la convergencia, cuando n de f n (t) hacia la verdadera funci on de densidad f (t) es nhn , adem as de hn 0. Obs ervese que la amplitud hn de los intervalos es elegida por el usuario y, en cierto modo, es arbitraria (aunque hay algunos criterios razonables para elegirla). El aspecto del histograma podr a cambiar considerablemente si este valor se cambia. Recapitulando, el histograma tiene dos aspectos, complementarios e igualmente importantes: (a) La vertiente m as conocida del histograma es su utilidad como herramienta de an alisis y visualizaci on de datos. Este aspecto resulta especialmente valioso cuando el n umero de datos es enorme (actualmente es muy habitual manejar bases con decenas de miles de datos) y se desea tener una primera idea r apida y visualizable acerca de su estructura. (b) El segundo aspecto, menos popular quiz a, est a relacionado con la inferencia: el histograma es, en realidad, un estimador no param etrico de la funci on de densidad que puede utilizarse para reemplazar a los modelos param etricos usuales (y, en particular, al omnipresente modelo normal) cuando hay razones para dudar de ellos. El histograma es no param etrico en el sentido de que su uso no requiere ninguna suposici on del tipo de que la distribuci on de la variable bajo estudio est e connada en ninguna familia param etrica de distribuciones (como la normal, la logar tmico normal, la gamma, etc.). La discusi on anterior pone de relieve algunos rasgos caracter sticos de la estimaci on no param etrica: Los estimadores no param etricos dependen de un par ametro (llamado par ametro de suavizado) cuya elecci on es, hasta cierto punto, arbitraria. La elecci on adecuada de este par ametro (la anchura de los intervalos, en el caso de los histogramas) es uno de los problemas m as delicados de la estad stica no param etrica y ha sido 14
objeto de una investigaci on intensiva a lo largo de los a nos 80 y 90. El problema es muy controvertido y no tiene a un una soluci on uniformemente aceptada por la comunidad estad stica. Sin embargo, se ha producido un enorme progreso en esta direcci on que facilitar a la incorporaci on (no realizada a un plenamente) de estas t ecnicas a los paquetes comerciales de software. Los estimadores no param etricos requieren muestras grandes (de al menos 100 datos, t picamente). Hay dos razones para esto: primero, los m etodos de estimaci on no param etricos son locales: para estimar la densidad de probabilidad f (t0 ) en un punto t0 se utilizan principalmente los puntos muestrales cercanos a t0 . Si la muestra es demasiado peque na, puede ocurrir que apenas se tengan datos en las proximidades de t0 . La segunda raz on es que, en su inmensa mayor a, las motivaciones te oricas actualmente disponibles para los m etodos no param etricos son de car acter asint otico, es decir, se basan en propiedades relativas al comportamiento de los estimadores cuando el tama no muestral n tiende a innito. Desde un punto de vista matem atico-formal, puede considerarse que la Estad stica no param etrica es una extensi on de la Estad stica cl asica (param etrica) en la que el par ametro de inter es es una funci on, es decir, un elemento de un espacio de dimensi on innita, en un lugar de un n umero real o un vector de n umeros reales.
2.2. Los estimadores kernel: una versi on sosticada de los histogramas . Los histogramas, del tipo de los que se muestran en las Figuras 2 y 3, pueden resultar u tiles e ilustrativos para muchos prop ositos pero son decididamente inadecuados bajo otros puntos de vista. En concreto: Los histogramas son siempre, por naturaleza, funciones discontinuas; sin embargo, en muchos casos es razonable suponer que la funci on de densidad de la variable que se est a estimando es continua. En este sentido, los histogramas son estimadores insatisfactorios. Como los histogramas son funciones constantes a trozos, su primera derivada es cero en casi todo punto. Esto los hace completamente inadecuados para estimar la derivada de la funci on de densidad. Parcialmente relacionado con el punto anterior est a el hecho de que los histogramas no son tampoco adecuados para estimar las 15
modas (si se dene moda como un m aximo relativo de la funci on de densidad). A lo sumo, pueden proporcionar intervalos modales, pero esto puede resultar demasiado burdo en casos en que se requiere mayor precisi on. Los estimadores de tipo n ucleo (o kernel) fueron dise nados para superar estas dicultades. La idea original es bastante antigua y se remonta a los trabajos de Rosenblatt y Parzen en los a nos 50 y primeros 60. Los estimadores kernel son, sin duda, los m as utilizados y mejor estudiados en la teor a no param etrica. Se denen mediante la expresi on f n (t) = 1 nhn
n
K
i=1
t Xi hn
(2)
donde hn es una sucesi on de par ametros de suavizado, llamados ventanas o amplitudes de banda (windows, bandwidths) que deben ten der a cero lentamente (hn 0, nhn ) para poder asegurar que f n tiende a la verdadera densidad f de las variables Xi y K es una densidad prejada llamada n ucleo (kernel). Es curioso destacar que muchas de las propiedades m as importantes de estos estimadores no se ven afectadas por la funci on n ucleo que se elija. Es muy frecuente tomar K como la funci on de densidad de la distribuci on normal est andar, es decir, K (x) = (1/ 2 ) exp(x2 /2). Por supuesto, cuando el n ucleo es suave (derivable), el correspondiente estimador tambi en lo es y su derivada puede utilizarse para estimar la de la verdadera densidad f . Obs ervese que si se elige un n ucleo constante, del tipo K (x) = 1 si x (0, 1) y K (x) = 0 en el resto, se obtiene de nuevo un estimador de tipo histograma (aunque con intervalos m oviles). La elecci on correcta del par ametro de suavizado h = hn es, sin duda, el problema m as dif cil de cuantos se plantean en la estimaci on no param etrica. En la actualidad existen varios procedimientos que permiten asignar h de manera optima seg un ciertos criterios de optimalidad que no se discutir an aqu . Si el par ametro de suavizado se elige demasiado peque no, el estimador aparece infrasuavizado, e incorpora demasiado ruido, reejado en la presencia de muchas modas (m aximos relativos) esp ureas que, de hecho no aparecen en la densidad que se quiere estimar. Por el contrario, si h se elige demasiado grande, se da el fen omeno contrario, de sobresuavizaci on y el estimador es casi insensible a los datos.
16
En la Figura 4 se muestra el efecto de la infrasuavizaci on. El estimador que aparece all en trazo continuo corresponde a la densidad estimada, a partir de 500 datos, de la variable X = edad de un paciente que se somete a determinada prueba cl nica, eligiendo el par ametro h con un criterio de optimalidad que ha proporcionado el valor h = 2,4624. La apariencia del estimador sugiere la presencia de tres modas, correspondientes a otros tantos grupos de edad en que suelen requerirse m as probablemente estas pruebas. La curva con trazo discontinuo corresponde a un estimador infrasuavizado con h = 0,8. Se observa que este u ltimo presenta un gran n umero de oscilaciones que corresponden a falsas modas. El n umero de estas falsas modas aumentar a dr asticamente si, para la misma muestra ja, h disminuyese a un m as.
0.04
0.035
Estimador "infrasuavizado"
0.03
Estimador "ptimo"
0.025
0.02
0.015
0.01
0.005
0 10
15
20
25
30
35
40
45
50
55
60
Figura 4. Estimadores de la densidad optimo (con h = 2,4624) e
infrasuavizado (con h = 0,8). Una de las principales aplicaciones pr acticas de los estimadores n ucleo es su utilidad para estimar las modas y el n umero de modas. Es curioso notar a este respecto que, en los primeras aproximaciones elementales a la Estad stica, se suele hablar de media, mediana y moda como medidas de tendencia central, pero posteriormente, en los cursos universitarios de Estad stica y Probabilidad, la moda desaparece casi de escena. La raz on de esto tiene que ver quiz a con el hecho de que en los modelos param etricos usuales, el n umero de modas aparece jado de an-
17
temano desde el momento en que se elige el modelo (as , la distribuci on normal es siempre unimodal) y, en muchos casos, la moda coincide necesariamente con la media (de nuevo, la normal proporciona un ejemplo de esta situaci on). Por otra parte, la denici on formal de moda de una variable aleatoria (y sobre todo su c alculo) resulta m as escurridiza que la de la media. Si se dene, como parece natural, la moda como un m aximo local de la densidad, no resulta muy claro, si uno no dispone de estimadores de la densidad, como puede estimarse una moda a partir de una muestra. La utilizaci on de estimadores de tipo n ucleo proporciona una forma muy natural de estimar este par ametro: se dene una moda muestral como un m aximo local de un estimador n ucleo f n de la densidad poblacional f . En denitiva, los estimadores no param etricos de la densidad proporcionan un marco natural para rehabilitar la noci on de moda que resulta tan intuitiva y u til en un an alisis estad stico. Los estimadores de la densidad no jan de antemano el n umero de modas, como ocurre con los modelos param etricos. Como ya se ha indicado antes, los enfoques no param etricos tienen la ventaja de que dejan hablar a los datos y no prejuzgan de antemano algunas caracter sticas importantes de los mismos, como ocurre frecuentemente con los modelos param etricos. Un ejemplo, ya cl asico, de la importancia pr actica de estas ideas ha surgido al estudiar una variable de gran inter es en Teor a Econ omica: los ingresos familiares. En este caso, por tanto, la variable bajo estudio ser a formalmente X = ingresos de una familia elegida al azar en la poblaci on bajo estudio. Estamos interesados en determinar la distribuci on de X que viene dada por su funci on de densidad f . Recordemos que
b
P (a < X b) =
f (x)dx
a
representa la proporci on de familias cuya renta est a comprendida entre a y b. El problema de determinar f para distintos pa ses ha sido extensivamente estudiado. En Gran Breta na se realiz o un estudio particularmente detallado, en el que se estim o la densidad f , utilizando estimadores no param etricos y modelos param etricos para cada a no del per odo comprendido entre 1968 y 1981. En la Figura 5 se muestran las densidades estimadas por m etodos no param etricos (trazo continuo) y param etricos (utilizando un modelo lognormal; trazo discontinuo) basados en una muestra de 6711 datos (reescalados dividiendo por la media) correspondientes al a no 1975.
18
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
Estimador paramtrico
Estimador no paramtrico
10
Figura 5. Estimaciones de la funci on de densidad de los ingresos familiares en Gran Breta na (datos del a no 1975).
La diferencia entre ambos estimadores es muy llamativa: en el estimador no param etrico aparecen muy claramente dos modas que de ninguna manera pueden aparecer en el modelo param etrico lognormal que, por denici on, tiene s olo una moda. Este mismo hecho se observa, de manera sistem atica, a lo largo de todo el per odo observado e incluso, hacia el nal del per odo se acent ua la moda de la izquierda (que corresponder a a la clase econ omicamente m as d ebil). No cabe duda de que en en este problema, la existencia de una moda o de dos no es un hecho irrelevante ya que la presencia de dos modas sugiere claramente una cierta estructura de clases sociales que est a necesariamente oculta en el modelo lognormal que, adem as, sobreestima el peso relativo de la clase alta. En denitiva, este ejemplo muestra que la mayor exibilidad de los estimadores no param etricos les permite en ocasiones describir la realidad de manera m as objetiva y precisa. 2.3. Aplicaciones de los estimadores no param etricos de la densidad . al an alisis de conglomerados (clustering) Una de las ideas m as naturales, y u tiles, para enfrentarse a una gran masa de datos (digamos, por ejemplo, datos multivariantes en el espacio Rk ) es dividirlos en conglomerados (clusters) de acuerdo con alg un criterio de anidad que parezca razonable. El mero hecho de agrupar
19
los datos en conglomerados ayuda a claricar su estructura e incluso sugiere hip otesis razonables sobre la naturaleza del fen omeno que se est a observando. Los estimadores no param etricos de la densidad (en su versi on multivariante) son una herramienta auxiliar muy u til en la tarea de agrupar los datos en conglomerados. Adem as, a diferencia de otros procedimientos de an alisis de conglomerados (clustering), los que est an basados en estimadores de la densidad se inspiran en algo m as que una simple heur stica de agrupaci on de datos por proximidad, en el sentido de que proponen un objetivo poblacional (es decir, que depende intr nsecamente de la distribuci on de la variable observada), orientado por ideas geom etricas y probabil sticas. Si X es una variable aleatoria con valores en Rk que se distribuye seg un una funci on de densidad f y c > 0 es un n umero prejado, se pueden denir los conglomerados de nivel c en la poblaci on representada por X como las componentes conexas del conjunto {x : f (x) > c}. Bajo este enfoque (que no es el u nico posible), el objetivo del an alisis de conglomerados ser a clasicar los datos X1 , . . . , Xn de una muestra de X seg un el conglomerado al que pertenecen. Como f es, en general, desconocida, estos conglomerados no son tampoco exactamente conocidos, pero es claro que puede obtenerse una informaci on muy u til sobre ellos a partir de un estimador no param etrico fn de f . El valor c es arbitrario e indica, en cierto modo, el nivel de resoluci on elegido para el problema. Hay varios algoritmos disponibles para clasicar los datos X1 , . . . , Xn utilizando un estimador no param etrico de la densidad siguiendo las ideas que se han esbozado aqu . Es claro que el concepto de conglomerado denido en t erminos de la funci on de densidad est a muy estrechamente relacionado con la noci on de moda y con la estructura del conjunto de curvas de nivel {x : f n (x) = c} que se obtienen para diferentes valores de c. Consideremos como ejemplo (ver Silverman (1986)) una muestra de 320 observaciones bidimensionales (Xi , Yi ), i = 1, . . . , 320 correspondientes a los niveles de colesterol (valores Xi ) y triglic eridos (Yi ) en pacientes masculinos con enfermedades circulatorias.
20

Figura 6. Curvas de nivel correspondientes a la densidad de la variable
(X, Y ) donde X = nivel de colesterol, Y = nivel de triglic eridos. En la Figura 6 se muestra la estructura de las curvas de nivel obtenidas a partir de un estimador de la densidad de tipo n ucleo. Estas curvas de nivel son sumamente informativas pues sugieren claramente la existencia de dos modas que ser an los centros de dos conglomerados correspondientes a sendos grupos de riesgo (con un riesgo m as alto para los pacientes del grupo correspondiente a la moda superior). 2.4. La opci on no param etrica en los problemas de regresi on Hemos visto en los apartados anteriores c omo una idea sencilla y bien conocida, como es la noci on de histograma, lleva a los estimadores n ucleo que, a su vez, permiten analizar de manera muy natural el concepto de moda, una idea de claro contenido intuitivo que, sin embargo, permanece casi olvidada en la Estad stica param etrica. En este apartado seguiremos un modo de exposici on an alogo, partiendo de una idea elemental (el ajuste de una curva por m nimos cuadrados a una nube de puntos) para llegar a los estimadores no param etricos de la regresi on y mostrar algunas de sus ventajas. En Estad stica, la expresi on regresi on simple alude en general al estudio de la relaci on entre dos variables, de las cuales una (Y ) es la respuesta 21
y la otra (x) es una variable auxiliar, regresora o input, t picamente m as f acil de observar que la variable respuesta. En t erminos generales, el objetivo de los m etodos de regresi on es obtener una expresi on aproximada de la relaci on entre Y y x con el prop osito de predecir la evoluci on de aqu ella a partir de la observaci on de esta. Es importante notar que los m etodos de regresi on forman parte (muy relevante) de la teor a estad stica porque, en general, se aplican a problemas en los que no es razonable suponer una dependencia funcional estricta entre Y y x. Por ejemplo, entre el peso y la estatura de las personas hay una cierta dependencia pero tambi en hay factores aleatorios que impiden considerar el peso como una funci on estricta de la estatura. Algo similar ocurre con los ingresos totales y los gastos en alimentaci on, o en ocio. As , en particular, el cl asico modelo de regresi on lineal simple supone que la relaci on entre x e Y es del tipo Y = 0 + 1 x + e donde 0 y 1 son constantes desconocidas (que deben estimarse a partir de la observaci on de una muestra (x1 , Y1 ), . . . , (xn , Yn ) de pares de datos) y e es una variable aleatoria de error, de la que se supone que tiene media 0. Dada la muestra (x1 , Y1 ), . . . , (xn , Yn ), los coecientes 0 y 1 se estiman por el m etodo de m nimos cuadrados: los respectivos esti madores 0 y 1 resultan ser los valores de 0 y 1 que minimizan la suma de errores cuadr aticos
n i=1
(Yi 0 1 xi )2 .
La soluci on a este sencillo problema de minimizaci on es 1 = = donde Y

n i=1
n )(Yi i=1 (xi x n )2 i=1 (xi x
) Y
0 = Y 1 x , ,
Yi
yx =
n i=1
xi
0 + 1 x es la recta de Como es sabido, la recta de ecuaci on y = ajuste por m nimos cuadrados a la nube de puntos (x1 , Y1 ), . . . , (xn , Yn ).
22
Una vez que se ha realizado la estimaci on de los coecientes, se puede predecir la respuesta que se obtendr a para un nuevo input x0 , no 0 + 1 x0 . = incluido en la muestra, mediante Y Naturalmente, el anterior enfoque se puede generalizar para considerar modelos m as complicados como, por ejemplo, el modelo de regresi on cuadr atica Y = 0 + 1 x + 2 x2 + e En cualquiera de estas situaciones, el problema de regresi on se reduce a estimar una funci on cuya forma est a totalmente jada excepto por unos cuantos par ametros desconocidos. Se trata, por tanto, de un enfoque param etrico. La alternativa no param etrica tiene un punto de partida ligeramente distinto. Se supone que Y = m(x) + e donde m es una funci on que no se supone connada dentro de una familia param etrica. Se trata, como antes, de estimar m a partir de una muestra (x1 , Y1 ), . . . , (xn , Yn ). Una amplia clase de estimadores (muy utilizados) de m son los de tipo n ucleo, que tienen la forma
n
m n (x) =
i=1
Wni (x)Yi ,
donde Wi (x) es, para cada i, una funci on de ponderaci on que da mayor importancia a los valores xj de la variable auxiliar que est an cercanos a x. Una asignaci on t pica ser a Wni (x) =
1 nhn K xXi hn
f n (x)
donde K (t) es una funci on de densidad sim etrica (por ejemplo, la normal est andar) que tiene su m aximo en 0 y tal que l mt K (t) = 0 y f n (x) es un estimador kernel de la densidad como el denido en (2). Nuevamente aqu aparece la idea de que los m etodos no param etricos son locales: la estimaci on m n (x) depende principalmente de aquellos pares de observaciones muestrales (xi , Yi ) para las que xi est a cerca de x. Tambi en aqu se tiene que, bajo condiciones muy generales sobre m y K , se verica que la funci on m n tiende, cuando n , hacia m siempre que 23
hn 0 y nhn . Asimismo, bajo condiciones de diferenciabilidad y algunas suposiciones adicionales sobre el par ametro hn , mn tiende hacia m. A modo de ejemplo, consideremos la siguiente curva (Figura 7) de regresi on entre la edad (x) y la estatura (Y ) en ni nos y adolescentes. A simple vista, la curva reeja algunos rasgos previsibles, como la mayor rapidez de crecimiento en el primer a no de vida, el estir on de la adolescencia y la tendencia hacia la estabilizaci on al comienzo de la edad adulta. Estos rasgos naturales, que aparecen espont aneamente en un modelo no param etrico, podr an haber quedado ocultos por una elecci on err onea de un modelo param etrico.
90 Estatura en pulgadas 80
70
60
50
40
30
20 Edad en aos 10 0 2 4 6 8 10 12 14 16 18
Figura 7. Curva de crecimiento estimada (por m etodos no param etricos)
para ni nos y adolescentes. Por otra parte, como se ha indicado antes, la metodolog a no param etrica permite estimar de modo natural la velocidad de crecimiento (medida por la derivada m ). En este caso, la derivada de m es quiz a m as interesante que la propia funci on m. La estimaci on no param etrica de m aparece representada en la Figura 8: es interesante notar que esta curva muestra claramente un peque no estir on (menos fuerte que el de la adolescencia), alrededor de los 9 a nos, que es conocido emp ricamente pero que no aparece reejado en los modelos param etricos usuales. De nuevo,
24
como en el ejemplo de los datos brit anicos de renta, se pone de maniesto c omo la metodolog a no param etrica permite poner de relieve rasgos cualitativos que los modelos param etricos ocultan.
12 Velocidad de crecimiento 10
Edad en aos 0 0 2 4 6 8 10 12 14 16 18
Figura 8. Estimaci on no param etrica de la derivada de la curva de cre-
cimiento.
2.5. Ventajas e inconvenientes de los m etodos no param etricos La exposici on anterior va, en gran parte, orientada a motivar el inter es de los m etodos no param etricos frente a las alternativas m as cl asicas que involucran modelos param etricos. Nuestro objetivo ha sido mostrar que los modelos no param etricos: Son m as exibles y dejan hablar a los datos permitiendo en ocasiones revelar rasgos importantes de la variable bajo estudio que permanecen necesariamente ocultos por un modelo param etrico. Dependen en mucha menor medida que los param etricos de suposiciones dif ciles de vericar y, en muchos casos, de dudosa validez pr actica. Proporcionan herramientas auxiliares muy valiosas para el an alisis de datos y otras t ecnicas estad sticas (an alisis de conglomerados, remuestreo, reconocimiento de formas,...) en las que los modelos param etricos resultan frecuentemente demasiado r gidos. 25
Sin embargo, es justo tambi en mencionar algunos inconvenientes importantes de estos procedimientos: Requieren, en general, tama nos muestrales m as grandes. Este rasgo se hace particularmente agudo cuando los m etodos no param etricos se utilizan en altas dimensiones (en la pr actica, para datos num ericos formados for vectores de dimensi on superior a 4). En estas situaciones se requieren tama nos muestrales desmesuradamente grandes para obtener inferencias ables. Este fen omeno se denomina the curse of dimensionality (la maldici on de la dimensionalidad). Todos ellos dependen fuertemente de la elecci on de un par ametro de suavizado que introduce un considerable grado de arbitrariedad en la estimaci on. En los u ltimos a nos se ha avanzado mucho en la obtenci on de procedimientos para la asignaci on objetiva de estos smoothing parameters, pero, en general, el problema a un no est a resuelto de una forma que pueda considerarse como universalmente aceptada. Su motivaci on te orica es, casi siempre, asint otica. Esto signica que los resultados matem aticos que avalan estos procedimientos est an generalmente relacionados con su comportamiento cuando n . Por contraste, en la Estad stica cl asica hay algunos resultados importantes de optimalidad v alidos para un tama no muestral jo. Relacionado con el punto anterior est a el hecho de que la Estad stica no param etrica presenta muchas m as dicultades para construir intervalos de conanza o realizar contrastes de hip otesis, si bien las llamadas t ecnicas de remuestreo (bootstrap) son muy u tiles para desarrollar este tipo de inferencias, actuando en combinaci on con los m etodos no param etricos.
2.6. Sobre la popularidad de la estad stica no param etrica: programas . inform aticos disponibles La estimaci on no param etrica de funciones se har a realmente popular solamente cuando consiga ser de dominio p ublico entre los usuarios de la Estad stica. Esto est a empezando a ocurrir en los u ltimos a nos pero, para convertirse en una tendencia consolidada, es necesario que la estimaci on no param etrica de la densidad y de la regresi on (y sus m etodos asociados) se incorporen plenamente al software estad stico comercial. En la actualidad, esta condici on no se cumple plenamente para 26
los programas estad sticos m as populares, pero ya hay accesibles diferentes paquetes de software (algunos, incluso, de distribuci on gratuita) que permiten usar de manera c omoda y sencilla los principales m etodos no param etricos. Sin ninguna pretensi on de exhaustividad, se podr an citar los siguientes: 1. Colecci on de programas en Matlab, preparados por Steve Marron (de la Universidad de North Carolina en Chapel Hill, USA). Se pueden descargar (gratuitamente) en
http://www.stat.unc.edu/faculty/marron/marron software.html
2. Colecci on de programas elaborados por Theo Gasser (de la Universidad de Zurich) y su equipo. Pueden conseguirse en
http://www.unizh.ch/biostat/Software/
3. Programa S-Plus: es probablemente el software comercial m as difundido entre los que incluyen una presencia signicativa de la estad stica no param etrica. Es un software abierto que ofrece la posibilidad de incorporar f acilmente nuevas subrutinas redactadas en el lenguaje de programaci on S.
3. ESTAD ISTICA CON DATOS FUNCIONALES Del mismo modo que en la secci on anterior nos hemos ocupado de los problemas estad sticos en los que el par ametro a estimar es una funci on, en esta secci on comentaremos brevemente las situaciones en que los propios datos disponibles son funciones. El seguimiento de procesos tecnol ogicos o industriales, el control de las condiciones atmosf ericas, la observaci on del mercado continuo en la Bolsa, etc etera, proporcionan observaciones aleatorias que pueden considerarse como funciones. Naturalmente este punto de vista funcional requiere un cierto proceso de abstracci on y de modelizaci on porque, en realidad, las observaciones se obtienen casi siempre en versi on discretizada. Sin embargo, este es un caso en el que claramente, un peque no nivel de sosticaci on matem atica conduce a un enfoque mucho m as sencillo y m as natural. Por ejemplo, si se observa la evoluci on de la temperatura de veinte sistemas an alogos y para cada uno de ellos se dispone de 1440 mediciones 27
de temperatura tomadas a intervalos de un minuto, resulta mucho m as natural interpolar las 1440 mediciones obtenidas en cada sistema para denir con ellas una funci on continua, y considerar as que disponemos de una muestra de 20 funciones, que manejar nuestra informaci on muestral como un conjunto de 20 vectores de dimensi on 1440. Esta situaci on no es tan rara en Matem aticas, donde con frecuencia lo continuo es m as sencillo de manejar que lo discreto. Adem as, hay razones t ecnicas que surgen muy claramente, por ejemplo, en la teor a de la regresi on, que desaconsejan el uso de vectores de dimensi on muy alta con componentes altamente correlacionadas. Naturalmente, cuando las funciones entran en juego, tambi en surge de inmediato la necesidad de utilizar algunas herramientas de An alisis Matem atico (por ejemplo, la teor a de operadores). En el resto de esta secci on ofreceremos una breve panor amica parcial de las aplicaciones y el ambiente matem atico en el que se desenvuelve este nuevo campo de la Estad stica. El libro de Ramsay y Silverman8 proporciona una interesante perspectiva de este tema, con una orientaci on m as aplicada que te orica. 3.1. Regresi on con datos funcionales El modelo b asico es, por el analog a con el modelo tradicional de regresi on lineal simple, Y = T x + e, donde Y es la respuesta, y x es la variable regresora que, en este caso, es una funci on x : [a, b] R, e es el error aleatorio y T es un operador lineal que act ua sobre el input x. La respuesta Y puede ser escalar o funcional y el input x puede ser jado de antemano por el experimentador (modelo de dise no jo) o corresponder a una observaci on aleatoria (modelo de dise no aleatorio). Si nos situamos en el caso m as general en el que Y = Y (t) es tambi en una funci on, podemos suponer (bajo condiciones bastante generales) que el T tiene la forma t pica de una transformaci on lineal entre espacios de funciones, es decir, que viene denido por una expresi on del tipo
b
(T x)(t) =
a
x(s) (s, t)ds,
(3)
8 RAMSAY, J. O. y SILVERMAN, B. W. Functional Data Analysis. Springer. New York, 1997.
28
donde (s, t) es una funci on n ucleo que, en cierto modo, hace aqu el mismo papel que el coeciente de regresi on 1 en el cl asico modelo de regresi on lineal simple. El estudio de operadores de la forma (3) es un problema matem atico de gran tradici on y enorme importancia, tanto te orica como aplicada. Por ejemplo, en transmisi on de se nales, la funci on Y (t) podr a ser la se nal de salida obtenida como respuesta a la se nal de entrada x(t) en un sistema de comunicaciones que distorsiona o codica la entrada seg un un operador T (conocido) y un ruido aleatorio (y desconocido) e(t). El problema (llamado signal recovery) ser a entonces recuperar la se nal original. Sin embargo, el planteamiento del problema bajo el punto de vista estad stico de la regresi on funcional es claramente distinto: aqu el objetivo ser a estimar el operador T (lo que equivale a estimar el n ucleo (s, t)) a partir de la observaci on de una muestra que vendr a dada por n pares de observaciones input-output (xi , Yi ), i = 1, . . . , n. , puede utilizarse paUna vez que se haya obtenido un estimador T = T x0 de la respuesta correspondiente a un ra dar una predicci on Y input x0 no incluido en la muestra. A continuaci on se presentan unos cuantas situaciones pr acticas en las que pod a resultar u til un modelo de este tipo. (a) Ramsay y Silverman9 estudian con cierto detalle la aplicabilidad de los modelos de regresi on funcional en un problema de meteorolog a en el que Y (t) es el logaritmo de la precipitaci on registrada y x(t) es la temperatura. (b) Los modelos lineales funcionales podr an usarse tambi en para analizar la relaci on entre los ndices de mercado continuo en dos mercados burs atiles que operan simult aneamente. (c) En Neurolog a hay al menos dos t ecnicas, llamadas voltage clamp y evoked response que involucran experimentos con una estructura adecuada para el uso de la regresi on funcional. As , en la t ecnica de evoked response interesa estudiar la relaci on entre las ondas cerebrales que se miden como respuesta a un est mulo sensorial (por ejemplo, un sonido variable).
RAMSAY, J. O. y SILVERMAN, B. W. Functional Data Analysis. Springer. New York, 1997.
9
29
(d) En Farmacolog a, la funci on x(t) puede reejar la dosis de un f armaco que se est a administrando continuamente e Y (t), la respuesta observada en el receptor. En particular, las t ecnicas de regresi on funcional se est an revelando u tiles en algunos problemas de este tipo en el campo de la cardiolog a experimental.
3.2. Otras tendencias en el an alisis de datos funcionales La utilizaci on de datos funcionales sugiere algunos problemas interesantes, de planteamiento muy sencillo y natural, que constituyen l neas de investigaci on actuales a un no completamente cerradas.
Ordenaci on de los datos: dada una muestra de funciones obtenidas por la observaci on de un cierto fen omeno en tiempo continuo, qu e criterios razonables pueden usarse para decidir cu ales son las observaciones extremas (outliers) que est an m as lejanas del n ucleo central de los datos? Cu al es la funci on m as interior de la muestra?. Comparaci on de medias en diferentes poblaciones (an alisis de la varianza funcional): Supongamos, por ejemplo, que se miden on line (en tiempo continuo) los consumos el ectricos en n domicilios particulares elegidos al azar. Supongamos que este experimento se repite de manera independiente en 4 barrios de una gran ciudad. Se obtienen, por tanto, 4 muestras de n funciones cada una de ellas. Puede preguntarse: Hay suciente evidencia estad stica para armar que las funciones medias de consumo son diferentes en los 4 barrios?. En el contexto de datos num ericos este es el cl asico problema de an alisis de la varianza unifactorial. Su extensi on al caso funcional es un problema interesante aunque presenta dicultades te oricas y pr acticas. M etodos num ericos para el tratamiento de datos funcionales: el tratamiento computacional efectivo de funciones requiere generalmente alg un proceso de aproximaci on num erica que involucra un cierto grado de discretizaci on. En este sentido, puede decirse que el c alculo num erico es un auxiliar indispensable para las t ecnicas estad sticas con datos funcionales. En particular, las t ecnicas de ond culas, las aproximaciones de Fourier y la soluci on num erica de ecuaciones desempe nan un importante papel aqu .
30
REFERENCIAS HASTIE, T., TIBSHIRANI, R y FRIEDMAN, J. The Elements of Statistical Learning. Springer. New York, 2001. RAMSAY, J. O. y SILVERMAN, B. W. Functional Data Analysis. Springer. New York, 1997. SCOTT, D. W. Multivariate Density Estimation. Wiley. New York, 1992. SILVERMAN, B. W. Density Estimation for Statistics and Data Anlisis. Chapman and Hall. New York, 1986. SIMONOFF, J. S. Smoothing Methods in Statistics. Springer. New York, 1996. WAND, M. y JONES, M. C. Kernel Smoothing. Chapman and Hall. Londres, 1995.
31

A Cuevas

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

A Cuevas

Uploaded by

Copyright:

Available Formats

EL ANALISIS ESTAD ISTICO DE GRANDES MASAS DE DATOS: ALGUNAS TENDENCIAS RECIENTES

respectivamente, para este caso continuo, por

El rea rayada corresponde a la probabilidad del intervalo (4,5)

Figura 1. Funci on de densidad de la distribuci on N (3, 1).

Esta densidad dene la llamada distribuci on logar tmico normal.

Figura 2. Tiempos entre erupciones consecutivas del geyser Old Faithful.

Figura 3. Duraci on de las erupciones del geyser Old Faithful.

< ai+1 < . . ., con hn = ai+1

#{Xi (aj , aj +1 ]} nhn

< ai+1 <

que viven en el intervalo (aj , aj +1 ]. Si la longitud hn de este intervalo 13

Figura 4. Estimadores de la densidad optimo (con h = 2,4624) e

1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

Figura 6. Curvas de nivel correspondientes a la densidad de la variable

La soluci on a este sencillo problema de minimizaci on es 1 = = donde Y

n )(Yi i=1 (xi x n )2 i=1 (xi x

Figura 7. Curva de crecimiento estimada (por m etodos no param etricos)

Figura 8. Estimaci on no param etrica de la derivada de la curva de cre-

x(s) (s, t)ds,

8 RAMSAY, J. O. y SILVERMAN, B. W. Functional Data Analysis. Springer. New York, 1997.

You might also like