Professional Documents
Culture Documents
Introduction A La Modelisation Statistique 2
Introduction A La Modelisation Statistique 2
1
Introducción a la modelación estadística
Este término se utiliza para describir modelos que explican la variable de Estos métodos (más conocidos como CART, por Classification And
respuesta aleatoria mediante diversas variables explicativas, algunas pueden Regression Trees) consisten en dividir una población en dos partes, en función
ser aleatorias (denominadas generalmente factores de efecto aleatorio) y de cuál de las variables explicativas y cuál del conjunto de valores o
participan en la modelización de la variación del modelo, y otras que no lo son modalidades explican mejor la variable de respuesta. Esto se repite a casa vez
e intervienen en la modelación del promedio. Existen modelos lineales mixtos que se obtiene una subpoblación, lo que permite definir, paso a paso, un árbol
guassianos, modelos lineales generalizados mixtos y modelos de efectos binomial y clasificar las variables explicativas en función de la importancia de
mixtos no lineales. El capítulo 6 introduce los primeros (los modelos lineales su relación con la variable de respuesta (se habla de árbol de regresión en el
mixtos gaussianos), y se utilizan en el capítulo 7 de este curso. caso de una variable de respuesta cuantitativa y de árbol de clasificación en el
2
Introducción a la modelación estadística
caso de una variable de respuesta cualitativa). Estos métodos pueden ser un Limpieza de datos
complemento interesante del modelo lineal o del modelo lineal generalizado.
En primer lugar, se necesita un fichero informático que contenga los datos
Otros modelos en un formato utilizable (texto o Excel, por ejemplo), con los individuos
ordenados en filas y las variables en columnas. A partir de este archivo, hay
Esta introducción no pretende ser exhaustiva en lo que respecta a los que intentar identificar los códigos prohibidos o aberrantes: una cadena de
métodos de modelación estadística. Entre los métodos recientes que hacen un características para una variable numérica; el código "3" para la variable
uso intensivo de los ordenadores figuran la regresión PLS (Partial Least género; el valor 153 para la edad de un grupo de individuos, etc. Una vez
Squares), los métodos de agregación o combinación de modelos (bagging, identificados, estos códigos deberán corregirse si es posible, o suprimirse en
boosting, random forests), los métodos de regularización y las SVM (Support caso contrario.
Vector Machines).
En esta fase, también se debe intentar identificar grandes cantidades de datos
que faltan, ya sea en una columna (una variable) o en una fila (un individuo).
En este curso, solo trataremos un pequeño número de los modelos
Aunque unos pocos datos omitidos no suponen realmente un problema en la
mencionados anteriormente. De hecho, todos los modelos que se abordarán se
mayoría de los tratamientos estadísticos, no ocurre lo mismo cuando afectan a
basan en el modelo lineal gaussiano: el modelo básico en los capítulos 2 y 3,
un gran porcentaje de las observaciones de una variable o un individuo; en este
el caso especial de diseños experimentales en el capítulo 4 y el del análisis
caso, es preferible suprimir la variable o el individuo (cuya columna o fila sería
multivariante de la varianza en el capítulo, los modelos mixtos en el capítulo
inutilizable de todos modos).
6, y los modelos para media repetida en el capítulo 7.
Se pueden encontrar desarrollos interesantes sobre otros modelos estadísticos 1.1 Análisis univariados
en Saporta (2006) y en esta viñeta.
Esta fase, a menudo tediosa, consiste en estudiar cada variable una por una
para comprender sus principales características e identificar posibles
1 Aspectos preliminares de anomalías.
cualquier modelo estadístico En el caso de las variables cuantitativas, puede dibujar un histograma o un
diagrama de cajas y determinar características como el mínimo, el máximo, la
Sea cual sea el modelo, o el tipo de modelo, previsto para un conjunto de
datos, sea cual sea el problema que deba abordarse, el modelo estadístico sólo media, la desviación típica, la mediana y los cuartiles. Esto puede implicar
eliminar una variable (si tiene muy poca variabilidad), transformarla (por
puede plantearse seriamente sobre datos "limpios", es decir, datos que hayan
ejemplo, tomando su logaritmo si tiene valores positivos y está muy sesgada)
sido preprocesados para eliminar, en la medida de lo posible, todo lo que pueda
o identificar valores muy concretos (que quizá haya que corregir o eliminar).
ser perjudicial para la modelización: códigos erróneos, datos que faltan,
valores atípicos, variables innecesarias, variables redundantes, etc. Es este el Para las variables cualitativas, podemos dibujar un diagrama de columnas
conjunto de operaciones de preprocesamiento que describimos en esta sección. de las modalidades y determinar el número y la frecuencia de estas. Esto
Obsérvese que esta fase se denomina a veces gestión de datos. también puede llevar a suprimir una variable (si todos los individuos o casi
todos los individuos tienen la misma modalidad), o a agrupar modalidades
"próximas" (si ciertos números son demasiado pequeños). Estos análisis
univariados también permiten comprender los datos y proporcionan ciertas
indicaciones para la posterior fase de modelización. No obstante, hay que
señalar que estos análisis pueden no ser viables con datos "muy
multidimensionales", es decir, datos que contienen cientos o incluso miles de
3
Introducción a la modelación estadística
variables; estos datos se encuentran actualmente en determinados contextos Se trata de la contrapartida de los análisis anteriores, esta vez para variables
específicos. cualitativas. En primer lugar, podemos determinar la matriz de coeficientes de
Tschu- prow (o la matriz de coeficientes de Cramér) y analizarla como una
1.2 Análisis bivariados matriz de correlaciones. Sin embargo, es bien sabido que, en la práctica, estos
El objetivo de estos análisis es estudiar los posibles vínculos entre pares de coeficientes son sistemáticamente pequeños: prácticamente siempre inferiores
variables. Puede tratarse de dos variables explicativas sospechosas de estar a 0,5 y lo más frecuente entre 0,1 y 0,3. Por lo tanto, su interpretación es, en
muy correlacionadas, con el fin de eliminar una de las dos. También puede general, bastante delicada. Sin embargo, pueden servir para identificar los
consistir en estudiar los vínculos entre la variable que se quiere explicar y cada vínculos más importantes, aunque sean del orden de 0,3, 0,4 o 0,5.
una de las variables explicativas (de forma sistemática), para hacerse una Es aún más importante considerar, en estos análisis preliminares, la
primera idea de las variables explicativas que pueden desempeñar un papel realización de un análisis de correspondencias múltiples (ACM) entre
importante en la modelización. Por último, estos análisis también pueden variables cualitativas. Ello nos permitirá, en su caso, confirmar la existencia
utilizarse para identificar valores atípicos (o extremos) que no pudieron de un fuerte vínculo entre determinados pares de variables y, si es necesario,
identificarse mediante análisis univariados. eliminar algunas de ellas. El Análisis de Correspondencias Múltiples (MCA)
Para estudiar la relación entre dos variables cuantitativas, utilizamos el también puede utilizarse para agrupar determinadas categorías de una misma
diagrama de dispersión como gráfico y el coeficiente de correlación lineal variable cuando aparecen muy juntas en el conjunto de los resultados,
como indicador de la relación En el caso de una variable cuantitativa y una simplificando así los datos. Por último, la tabla de Burt, suministrada con los
variable cualitativa, se dispone del diagrama de cajas paralelas y del resultados del M.C.A., permite identificar ocurrencias muy bajas para
coeficiente de correlación. Por último, en el caso de dos variables categóricas, determinados cruces de modalidades y considerar otras agrupaciones.
generalmente utilizamos un diagrama de columnas de perfiles (perfiles de 1.5 Balance
líneas o perfiles de columnas, según lo que queramos destacar) e indicadores
de vinculación ligados al chi-cuadrado (coeficientes de Tschu- prow o de Una vez superadas todas las etapas preliminares descritas anteriormente,
Cramér). disponemos de datos "limpios", simplificados, algunas de cuyas características
empezamos a conocer. A partir de este momento, podemos plantearnos su
1.3 Análisis multivariados cuantitativos modelización.
Consisten en determinar la matriz de correlaciones entre todas las variables Los modelos que pueden adaptarse a los datos en cuestión, de entre todos
cuantitativas consideradas, en particular la variable que debe explicarse, los descritos en el apartado anterior, son necesariamente limitados en esta fase,
cuando ésta es cuantitativa. Esto también puede permitir eliminar variables dependen de la naturaleza de los datos y de las preguntas planteadas por el
muy correlacionadas, por ejemplo, para evitar ejecutar una regresión sobre usuario, es decir, de sus objetivos.
dichas variables, cuyos resultados serían muy inestables o incluso carecerían
de sentido y, nos permite ver la estructura de correlación entre las variables
consideradas, lo que siempre es útil a la hora de modelizar. A este nivel,
también podríamos considerar la posibilidad de realizar un análisis de
componentes principales (ACP) de todas estas variables, con el fin de aclarar
con más detalle sus relaciones lineales.
4
Introducción a la modelación estadística
Destaquemos aquí que los datos siempre son recogidos (producidos) por un por Yi sobre (RB
, R), el modelo estadístico puede adoptar entonces la forma
usuario (biólogo, informático, gestor, etc.) con un objetivo concreto. El siguiente:
Yn
objetivo principal de la modelización estadística debe ser responder a las (Rn, BRn , Pi).
preguntas que este usuario se planteó cuando decidió recoger los datos. Por i=1
lo tanto, la colaboración entre el usuario y el estadístico es absolutamente Este es el marco general del modelo lineal y del modelo lineal generalizado,
esencial a este nivel. en ambos casos el supuesto de linealidad se refiere a la relación entre E(Yi) y
las variables explicativas.
2 Formalización de la noción de modelo Otra hipótesis, frecuente en la práctica, es que todas las Yi tienen la misma
estadístico distribución de probabilidad (están idénticamente distribuidos). En este caso,
Pi = P, ∀i = 1, . . . n, y el modelo se convierte en:
Aunque lo utilicemos muy poco en el resto de este curso, en este último n n
párrafo damos una formalización de lo que es un modelo estadístico, con el fin (R , BRn , P ).
de vincular esta noción al formalismo utilizado habitualmente en el cálculo de
probabilidades. Suele escribirse como (R, , P )⊗n o, más sencillamente, (R, RB
RB , P )n. Esto
se conoce como el modelo de muestreo, que supone que las v.a.r. son
El concepto de modelo estadístico corresponde a la modelización de una independientes e idénticamente distribuidas (i.i.d.). Hay que señalar que este
serie de experimentos aleatorios, cada uno de ellos asociado a una observación modelo solo puede utilizarse como marco para el modelo lineal de
de la muestra considerada. Así pues, consideremos n variables aleatorias reales distribución de errores (en el modelo lineal, no todas las v.a.r. Yi tienen
(v.a.r.) Yi, cada una de ellas asociada a un experimento aleatorio cuyo resultado la misma esperanza).
es el valor observado de Yi (de hecho, suponemos aquí que el experimento es
cuantitativo, por ejemplo, el resultado de una medida determinada; dicho En la práctica, un modelo estadístico sólo es realmente operativo si
esto, lo que sigue puede aplicarse fácilmente al caso cualitativo). especificamos la distribución de probabilidad P (caso i.i.d.) o las distribuciones
Pi (caso independiente únicamente; en este último caso, los Pi se eligen
generalmente de la misma familia de distribuciones: normal, binomial, etc.).
Por lo tanto, se supone de entrada que las v.a.r. Yi están definidos en un
Una vez especificada la ley de probabilidad (o familia de leyes de
cierto espacio de probabilidad (Ω,A, Π) y tienen valores en (R,BR). Si llamamos probabilidad) del modelo, el siguiente paso consiste en realizar algunas
Q a ley de probabilidad conjunta de las v.a.r. (Y1, . . ., Yn) o la ley inducida sobre pruebas, en primer lugar, para intentar simplificar el modelo seleccionado, en
(Rn, Rn ) pBar Y = (Y1, . . . , Yn), entonces el modelo estadístico asociado al segundo lugar, para comprobar su significación y, por último, para estimar sus
experimento considerado es, por definición: parámetros. Todo este trabajo (elegir la ley de probabilidad o la familia de
leyes, pruebas, elección del modelo, estimación de los parámetros del modelo
n
(R , BRn , Q). elegido, validación del modelo) constituye al modelo estadístico.
Por tanto, es el espacio probabilístico el que dará cuenta de los experimentos
aleatorios realizados. Así pues, especificar el modelo (hacer suposiciones, etc.)
significará especificar la ley de probabilidad Q.
La primera hipótesis que se suele hacer en la práctica es que los distintos
experimentos (v.a.r) son independientes entre sí, Yi, i = 1, . . .,n. Si llamamos
Pi a la distribución de probabilidad inducida