You are on page 1of 5

Introducción a la modelación estadística

El objetivo principal de la modelización es especificar las leyes de


Introducción al modelo estadístico probabilidad para explicar las variaciones aleatorias de ciertos fenómenos;
estas variaciones se producen por causas desconocidas o imposibles de medir
(por ejemplo, aquellas que se encuentran previstas).
Resumen Dentro del modelo estocástico, el objetivo principal del modelo
probabilístico es, en su mayoría, proporcionar un marco formal, permitiendo,
Antes de entrar de lleno a nuestro tema, el modelo general lineal por un lado, describir las variaciones aleatorias mencionadas anteriormente y,
de Gauss, este capítulo de introducción enmarca en primer lugar por otro lado, estudiar las propiedades generales de los fenómenos que las
la modelación estadística en el ámbito de la modelación rigen. En términos más prácticos, el modelo estadístico consiste esencialmente
matemática. En seguida, nos indica cuáles son los métodos en definir las herramientas adecuadas para modelar los datos observados,
principales de modelación estadística y entre ellos, nos especifica teniendo en cuenta su naturaleza aleatoria.
los métodos tratados en este curso. De igual forma, nos recuerda el
procesamiento previo de los datos que son indispensables antes de Cabe señalar que el término de modelización estadístico es muy general y
la modelación estadística. Finalmente, nos ofrece una explicación que, en cualquier caso, todo enfoque estadístico entra dentro de su campo de
más formal y matemática de lo que es la modelación estadística. aplicación. Sin embargo, lo que abarca es relativamente preciso y constituye
una parte específica del modelo estadístico.
Regresar al plan de curso
2 Principales métodos del modelo
1 Concepto de modelo matemático estadístico
Una gran parte de las matemáticas aplicadas consiste, de cierta forma, en la
Existen numerosos métodos de modelo estadístico. A continuación,
modelación, es decir, definir uno (o varios) modelo(s) matemático(s),
mencionaremos los principales, teniendo en cuenta el crecimiento masivo de
permitiendo observar, de una forma muy general, de un fenómeno específico,
datos registrados en diversos sectores (internet, biología sintética de alto
ya sea físico, biológico, económico o algún otro.
rendimiento, marketing, etc.), la necesidad de explotar los datos
De manera un poco más esquemática, podemos distinguir el modelo estadísticamente, así como las herramientas informáticas modernas que, en los
determinista (en este modelo no se toman en cuenta las variaciones aleatorias) últimos años, han dado lugar (digamos que desde principios del siglo XX1) a
y el modelo estocástico (que toma en cuenta las variaciones aleatorias, tratando numerosos métodos cada vez más sofisticados y, al mismo tiempo, cada vez
de asociarlas con una ley de probabilidad). más ambiciosos en tiempo de cálculo.
Las herramientas clásicas del modelo determinista son las ecuaciones En los métodos descritos a continuación, casi siempre hay una variable
diferenciales ordinarias (EDO) y las ecuaciones diferenciales parciales (EDP), preferente, en general, llamada variable explicativa, o variable de respuesta y
que toman en cuenta las variaciones de un fenómeno en función de diversos denominada Y (si se trata de una variable aleatoria). Entonces, el objetivo es
factores como el tiempo, la temperatura, etc. Estas ecuaciones rara vez tienen construir un modelo que permita explicar “lo mejor posible” esta variable Y
soluciones explícitas y su solución suele requerir algoritmos numéricos más o en función de las variables explicativas observadas en la misma muestra.
menos sofisticados para obtener una solución lo más exacta posible. Este es el
campo de aplicación que hoy en día conocemos como el cálculo científico.

1
Introducción a la modelación estadística

Modelo de base lineal (gaussiano)


Es el modelo estadístico más sencillo, antiguo y conocido. Comprende Modelos de medidas repetidas
esencialmente la regresión lineal, el análisis de la variación y el análisis de la
covariación. En este modelo, las variables explicativas (regresores o factores) Se entiende por medidas repetidas, o datos longitudinales, a los datos
no son aleatorios (tienen efectos fijos). Para poderlo aprovechar totalmente, el observados a lo largo del tiempo sobre los mismos individuos (generalmente
modelo necesita el supuesto de normalidad de errores, y, por ende, la variable personas o animales controlados en el marco de un experimento médico o
a explicar (supuesto gaussiano). Este modelo se explica a detalle en el capítulo biológico). Claramente, es necesario tener en cuenta en estos modelos una
cierta dependencia entre las observaciones realizadas sobre el mismo individuo
2.
en distintos momentos. Los modelos lineales o lineales generalizados se
Modelo lineal generalizado utilizan en este contexto; el capítulo 7 habla de los modelos lineales mixtos de
medias repetidas.
Este modelo generaliza el anterior en dos niveles: de un lado, la teoría de
los errores, en la que la variable de respuesta no es necesariamente gaussiana, Modelos con datos de series temporales
pero debe pertenecer a una familia exponencial; por otro lado, la relación lineal
Las series temporales son observaciones, a lo largo del tiempo, de una
entre la expectativa de la variable de respuesta y las variables explicativas se
determinada cantidad que representa un fenómeno económico, social o de otro
establece mediante una función articulada, denominada función de enlace
tipo. Aunque los datos repetidos y las series temporales tienen en común que
(especificada a priori).
describen la evolución en el tiempo de un fenómeno dado, hay que señalar que
Engloba diferentes métodos, como la regresión logística, la regresión de estos dos tipos de datos no son realmente de la misma naturaleza (en una serie
Poisson, el modelo log-lineal o algunos modelos de esperanza de vida. temporal, rara vez se observa a personas o animales). Para las series temporales
se utilizan modelos específicos: modelos AR (Auto-Regressive), MA (Moving
Modelos no lineales Average), ARMA, ARIMA, (I de Integrado), etc.
De forma general, se trata de modelos que permiten explicar la variable de Análisis discriminante y clasificación
respuesta (aleatoria) mediante las variables explicativas (no aleatorias en los
modelos habituales) a través de alguna función desconocida (por tanto, Aunque es más frecuente utilizar estos métodos en un contexto de análisis
estamos fuera del marco del modelo lineal generalizado). Esta clase de de datos que en un contexto de modelización, el análisis discriminante y la
modelos es muy amplia y suele incluirse en la estadística no paramétrica. Por clasificación pueden seguir utilizándose en la dase de selección del modelo
ejemplo, la regresión no paramétrica, los GAM (Generalized Additive Models, que mejor se ajuste a los datos considerados. En particular, cuando la variable
por sus siglas en inglés) y las redes neuronales. de respuesta del modelo considerado es de naturaleza cualitativa.

Modelos mixtos Modelo de árboles de clasificación y regresión

Este término se utiliza para describir modelos que explican la variable de Estos métodos (más conocidos como CART, por Classification And
respuesta aleatoria mediante diversas variables explicativas, algunas pueden Regression Trees) consisten en dividir una población en dos partes, en función
ser aleatorias (denominadas generalmente factores de efecto aleatorio) y de cuál de las variables explicativas y cuál del conjunto de valores o
participan en la modelización de la variación del modelo, y otras que no lo son modalidades explican mejor la variable de respuesta. Esto se repite a casa vez
e intervienen en la modelación del promedio. Existen modelos lineales mixtos que se obtiene una subpoblación, lo que permite definir, paso a paso, un árbol
guassianos, modelos lineales generalizados mixtos y modelos de efectos binomial y clasificar las variables explicativas en función de la importancia de
mixtos no lineales. El capítulo 6 introduce los primeros (los modelos lineales su relación con la variable de respuesta (se habla de árbol de regresión en el
mixtos gaussianos), y se utilizan en el capítulo 7 de este curso. caso de una variable de respuesta cuantitativa y de árbol de clasificación en el
2
Introducción a la modelación estadística

caso de una variable de respuesta cualitativa). Estos métodos pueden ser un Limpieza de datos
complemento interesante del modelo lineal o del modelo lineal generalizado.
En primer lugar, se necesita un fichero informático que contenga los datos
Otros modelos en un formato utilizable (texto o Excel, por ejemplo), con los individuos
ordenados en filas y las variables en columnas. A partir de este archivo, hay
Esta introducción no pretende ser exhaustiva en lo que respecta a los que intentar identificar los códigos prohibidos o aberrantes: una cadena de
métodos de modelación estadística. Entre los métodos recientes que hacen un características para una variable numérica; el código "3" para la variable
uso intensivo de los ordenadores figuran la regresión PLS (Partial Least género; el valor 153 para la edad de un grupo de individuos, etc. Una vez
Squares), los métodos de agregación o combinación de modelos (bagging, identificados, estos códigos deberán corregirse si es posible, o suprimirse en
boosting, random forests), los métodos de regularización y las SVM (Support caso contrario.
Vector Machines).
En esta fase, también se debe intentar identificar grandes cantidades de datos
que faltan, ya sea en una columna (una variable) o en una fila (un individuo).
En este curso, solo trataremos un pequeño número de los modelos
Aunque unos pocos datos omitidos no suponen realmente un problema en la
mencionados anteriormente. De hecho, todos los modelos que se abordarán se
mayoría de los tratamientos estadísticos, no ocurre lo mismo cuando afectan a
basan en el modelo lineal gaussiano: el modelo básico en los capítulos 2 y 3,
un gran porcentaje de las observaciones de una variable o un individuo; en este
el caso especial de diseños experimentales en el capítulo 4 y el del análisis
caso, es preferible suprimir la variable o el individuo (cuya columna o fila sería
multivariante de la varianza en el capítulo, los modelos mixtos en el capítulo
inutilizable de todos modos).
6, y los modelos para media repetida en el capítulo 7.
Se pueden encontrar desarrollos interesantes sobre otros modelos estadísticos 1.1 Análisis univariados
en Saporta (2006) y en esta viñeta.
Esta fase, a menudo tediosa, consiste en estudiar cada variable una por una
para comprender sus principales características e identificar posibles
1 Aspectos preliminares de anomalías.
cualquier modelo estadístico En el caso de las variables cuantitativas, puede dibujar un histograma o un
diagrama de cajas y determinar características como el mínimo, el máximo, la
Sea cual sea el modelo, o el tipo de modelo, previsto para un conjunto de
datos, sea cual sea el problema que deba abordarse, el modelo estadístico sólo media, la desviación típica, la mediana y los cuartiles. Esto puede implicar
eliminar una variable (si tiene muy poca variabilidad), transformarla (por
puede plantearse seriamente sobre datos "limpios", es decir, datos que hayan
ejemplo, tomando su logaritmo si tiene valores positivos y está muy sesgada)
sido preprocesados para eliminar, en la medida de lo posible, todo lo que pueda
o identificar valores muy concretos (que quizá haya que corregir o eliminar).
ser perjudicial para la modelización: códigos erróneos, datos que faltan,
valores atípicos, variables innecesarias, variables redundantes, etc. Es este el Para las variables cualitativas, podemos dibujar un diagrama de columnas
conjunto de operaciones de preprocesamiento que describimos en esta sección. de las modalidades y determinar el número y la frecuencia de estas. Esto
Obsérvese que esta fase se denomina a veces gestión de datos. también puede llevar a suprimir una variable (si todos los individuos o casi
todos los individuos tienen la misma modalidad), o a agrupar modalidades
"próximas" (si ciertos números son demasiado pequeños). Estos análisis
univariados también permiten comprender los datos y proporcionan ciertas
indicaciones para la posterior fase de modelización. No obstante, hay que
señalar que estos análisis pueden no ser viables con datos "muy
multidimensionales", es decir, datos que contienen cientos o incluso miles de
3
Introducción a la modelación estadística

variables; estos datos se encuentran actualmente en determinados contextos Se trata de la contrapartida de los análisis anteriores, esta vez para variables
específicos. cualitativas. En primer lugar, podemos determinar la matriz de coeficientes de
Tschu- prow (o la matriz de coeficientes de Cramér) y analizarla como una
1.2 Análisis bivariados matriz de correlaciones. Sin embargo, es bien sabido que, en la práctica, estos
El objetivo de estos análisis es estudiar los posibles vínculos entre pares de coeficientes son sistemáticamente pequeños: prácticamente siempre inferiores
variables. Puede tratarse de dos variables explicativas sospechosas de estar a 0,5 y lo más frecuente entre 0,1 y 0,3. Por lo tanto, su interpretación es, en
muy correlacionadas, con el fin de eliminar una de las dos. También puede general, bastante delicada. Sin embargo, pueden servir para identificar los
consistir en estudiar los vínculos entre la variable que se quiere explicar y cada vínculos más importantes, aunque sean del orden de 0,3, 0,4 o 0,5.
una de las variables explicativas (de forma sistemática), para hacerse una Es aún más importante considerar, en estos análisis preliminares, la
primera idea de las variables explicativas que pueden desempeñar un papel realización de un análisis de correspondencias múltiples (ACM) entre
importante en la modelización. Por último, estos análisis también pueden variables cualitativas. Ello nos permitirá, en su caso, confirmar la existencia
utilizarse para identificar valores atípicos (o extremos) que no pudieron de un fuerte vínculo entre determinados pares de variables y, si es necesario,
identificarse mediante análisis univariados. eliminar algunas de ellas. El Análisis de Correspondencias Múltiples (MCA)
Para estudiar la relación entre dos variables cuantitativas, utilizamos el también puede utilizarse para agrupar determinadas categorías de una misma
diagrama de dispersión como gráfico y el coeficiente de correlación lineal variable cuando aparecen muy juntas en el conjunto de los resultados,
como indicador de la relación En el caso de una variable cuantitativa y una simplificando así los datos. Por último, la tabla de Burt, suministrada con los
variable cualitativa, se dispone del diagrama de cajas paralelas y del resultados del M.C.A., permite identificar ocurrencias muy bajas para
coeficiente de correlación. Por último, en el caso de dos variables categóricas, determinados cruces de modalidades y considerar otras agrupaciones.
generalmente utilizamos un diagrama de columnas de perfiles (perfiles de 1.5 Balance
líneas o perfiles de columnas, según lo que queramos destacar) e indicadores
de vinculación ligados al chi-cuadrado (coeficientes de Tschu- prow o de Una vez superadas todas las etapas preliminares descritas anteriormente,
Cramér). disponemos de datos "limpios", simplificados, algunas de cuyas características
empezamos a conocer. A partir de este momento, podemos plantearnos su
1.3 Análisis multivariados cuantitativos modelización.
Consisten en determinar la matriz de correlaciones entre todas las variables Los modelos que pueden adaptarse a los datos en cuestión, de entre todos
cuantitativas consideradas, en particular la variable que debe explicarse, los descritos en el apartado anterior, son necesariamente limitados en esta fase,
cuando ésta es cuantitativa. Esto también puede permitir eliminar variables dependen de la naturaleza de los datos y de las preguntas planteadas por el
muy correlacionadas, por ejemplo, para evitar ejecutar una regresión sobre usuario, es decir, de sus objetivos.
dichas variables, cuyos resultados serían muy inestables o incluso carecerían
de sentido y, nos permite ver la estructura de correlación entre las variables
consideradas, lo que siempre es útil a la hora de modelizar. A este nivel,
también podríamos considerar la posibilidad de realizar un análisis de
componentes principales (ACP) de todas estas variables, con el fin de aclarar
con más detalle sus relaciones lineales.

1.4 Análisis multivariados cualitativos

4
Introducción a la modelación estadística

Destaquemos aquí que los datos siempre son recogidos (producidos) por un por Yi sobre (RB
, R), el modelo estadístico puede adoptar entonces la forma
usuario (biólogo, informático, gestor, etc.) con un objetivo concreto. El siguiente:
Yn
objetivo principal de la modelización estadística debe ser responder a las (Rn, BRn , Pi).
preguntas que este usuario se planteó cuando decidió recoger los datos. Por i=1
lo tanto, la colaboración entre el usuario y el estadístico es absolutamente Este es el marco general del modelo lineal y del modelo lineal generalizado,
esencial a este nivel. en ambos casos el supuesto de linealidad se refiere a la relación entre E(Yi) y
las variables explicativas.
2 Formalización de la noción de modelo Otra hipótesis, frecuente en la práctica, es que todas las Yi tienen la misma
estadístico distribución de probabilidad (están idénticamente distribuidos). En este caso,
Pi = P, ∀i = 1, . . . n, y el modelo se convierte en:
Aunque lo utilicemos muy poco en el resto de este curso, en este último n n
párrafo damos una formalización de lo que es un modelo estadístico, con el fin (R , BRn , P ).
de vincular esta noción al formalismo utilizado habitualmente en el cálculo de
probabilidades. Suele escribirse como (R, , P )⊗n o, más sencillamente, (R, RB
RB , P )n. Esto
se conoce como el modelo de muestreo, que supone que las v.a.r. son
El concepto de modelo estadístico corresponde a la modelización de una independientes e idénticamente distribuidas (i.i.d.). Hay que señalar que este
serie de experimentos aleatorios, cada uno de ellos asociado a una observación modelo solo puede utilizarse como marco para el modelo lineal de
de la muestra considerada. Así pues, consideremos n variables aleatorias reales distribución de errores (en el modelo lineal, no todas las v.a.r. Yi tienen
(v.a.r.) Yi, cada una de ellas asociada a un experimento aleatorio cuyo resultado la misma esperanza).
es el valor observado de Yi (de hecho, suponemos aquí que el experimento es
cuantitativo, por ejemplo, el resultado de una medida determinada; dicho En la práctica, un modelo estadístico sólo es realmente operativo si
esto, lo que sigue puede aplicarse fácilmente al caso cualitativo). especificamos la distribución de probabilidad P (caso i.i.d.) o las distribuciones
Pi (caso independiente únicamente; en este último caso, los Pi se eligen
generalmente de la misma familia de distribuciones: normal, binomial, etc.).
Por lo tanto, se supone de entrada que las v.a.r. Yi están definidos en un
Una vez especificada la ley de probabilidad (o familia de leyes de
cierto espacio de probabilidad (Ω,A, Π) y tienen valores en (R,BR). Si llamamos probabilidad) del modelo, el siguiente paso consiste en realizar algunas
Q a ley de probabilidad conjunta de las v.a.r. (Y1, . . ., Yn) o la ley inducida sobre pruebas, en primer lugar, para intentar simplificar el modelo seleccionado, en
(Rn, Rn ) pBar Y = (Y1, . . . , Yn), entonces el modelo estadístico asociado al segundo lugar, para comprobar su significación y, por último, para estimar sus
experimento considerado es, por definición: parámetros. Todo este trabajo (elegir la ley de probabilidad o la familia de
leyes, pruebas, elección del modelo, estimación de los parámetros del modelo
n
(R , BRn , Q). elegido, validación del modelo) constituye al modelo estadístico.
Por tanto, es el espacio probabilístico el que dará cuenta de los experimentos
aleatorios realizados. Así pues, especificar el modelo (hacer suposiciones, etc.)
significará especificar la ley de probabilidad Q.
La primera hipótesis que se suele hacer en la práctica es que los distintos
experimentos (v.a.r) son independientes entre sí, Yi, i = 1, . . .,n. Si llamamos
Pi a la distribución de probabilidad inducida

You might also like