You are on page 1of 9

DISCRETE CHOICE

17.1 INTRODUCCIÓN
Este es el primero de tres capítulos que estudiará los modelos utilizados en microeconometría .
El análisis de la elección individual en el que se centra el campo se basa fundamentalmente en
el modelado de resultados discretos, como las decisiones de compra, por ejemplo, si se debe o
no comprar seguro, comportamiento de votación, elección entre un conjunto de marcas alternativas,
modos de viaje o lugares para vivir, y respuestas a preguntas de la encuesta sobre la fuerza de las
preferencias o sobre salud o bienestar autoevaluado. En estos y en muchos otros casos, la "variable
dependiente" no es una medida cuantitativa de algún resultado económico, sino más bien un indicador de
si se produjo o no algún resultado. Se deduce que el los métodos de regresión que hemos usado hasta este
punto son en gran parte inapropiados. Giramos, en cambio, a modelar probabilidades y usar herramientas
econométricas para hacer declaraciones probabilísticas sobre la ocurrencia de estos eventos. También
examinaremos modelos para recuentos de ocurrencias. Estos son más cercanos a los modelos de
evolución familiares, pero son, una vez más, sobre los resultados discretos de las elecciones de
comportamiento. Como tal, también en esta configuración, estaremos modelando probabilidades de
eventos, en lugar de funciones medias condicionales.
Los modelos que se analizan en este y en el siguiente capítulo se basan en una plataforma de preferencias
de los que toman las decisiones. Tomamos una vista de utilidad al azar de las elecciones que
son observado. El tomador de decisiones se enfrenta a una situación o conjunto de alternativas y
revela algo sobre sus preferencias subyacentes por la elección que él o ella hace, las elecciones realizadas
se verán afectadas por influencias observables; este es, por supuesto, el último objetivo de publicidad y
por características inobservables del selector. La mezcla de estas bases fundamentales para la elección
individual es el núcleo de la amplia gama de modelos que examinaremos aquí.
Este capítulo y el Capítulo 18 describirán cuatro marcos generales para el análisis:
Opción Binaria: el individuo enfrenta un par de elecciones y toma esa decisión entre los dos que
proporcionan la mayor utilidad. Muchos de estos ajustes implican la elección entre tomar una acción y no
tomar esa acción, por ejemplo, la decisión de si o no comprar seguro de salud. En otros casos, la decisión
puede ser entre dos claramente diferentes opciones, como la decisión de viajar hacia y desde el trabajo
en transporte público o privado. En el caso de elección binaria, el resultado 0/1 no es más que
una etiqueta de “sí / no” -los valores numéricos son una mera conveniencia.
Opción multinomial: el individuo elige entre más de dos opciones, una vez nuevamente, tomando la
decisión que proporciona la mayor utilidad. En el ejemplo anterior, los viajes privados pueden incluir la
elección de ser un conductor o un pasajero mientras el transporte puede implicar una elección entre
autobús y tren. En un nivel, esto es una menor variación del caso de elección binaria; este último es, por
supuesto, un caso especial del primero.
Pero, los modelos más elaborados de opciones multinomiales permiten una rica especificación del
consumidor preferencias. En el caso multinomial, la respuesta observada es simplemente una etiqueta
para la elección seleccionada; podría ser una marca, el nombre de un lugar o el tipo de modo de viaje.
Las asignaciones numéricas no son significativas en esta configuración.
Elección ordenada: el individuo revela la fuerza de sus preferencias con respecto a un solo
resultado. Casos familiares implican preguntas de la encuesta sobre la fuerza de sentimientos sobre un
producto en particular, como una película, o autoevaluaciones de resultados tales como la salud en
general o el bienestar autoevaluado. En la elección ordenada entorno, las opiniones se dan los valores
numéricos significativos, por lo general 0, 1 .... J para algunos superior limitar, J. Por ejemplo, las
opiniones pueden estar etiquetadas como 0 , 1 , 2 , 3 , 4 para indicar la fuerza de las preferencias, por
ejemplo, para un producto, una película, un candidato o una legislación.
Pero, en este contexto, los valores numéricos son solo una clasificación, no una cuantitativa medida. Por
lo tanto, un "1" es mayor que un "0" en un sentido cualitativo, pero no en una unidad, y la diferencia entre
"2" y "1" no es la misma que entre "1" y un "0" En estos tres casos, aunque los resultados numéricos son
simplemente etiquetas de algunos resultado no cuantitativo, el análisis tendrá, no obstante, una
motivación de estilo regresivo.
En todo momento, los modelos se basarán en la idea de que las "covariables" observadas son relevantes
para explicar las elecciones observadas. Por ejemplo, en el resultado binario "si o no adquirió un seguro
de salud, " un modelo de acondicionamiento sugiere que las covariables tales como la edad, el ingreso y
la situación familiar ayudarán a explicar la elección. Este capítulo describirá una gama de modelos que
se han desarrollado en torno a estas consideraciones.
También nos interesará una cuarta aplicación de modelos discretos de resultados:
El evento cuenta: el resultado observado es un recuento de la cantidad de ocurrencias. En en muchos
casos, esto es similar a las tres configuraciones anteriores en que la "variable dependiente" mide una
elección individual, como el número de visitas al médico o el hospital, el número de informes despectivos
en el historial de crédito de uno, o el número de visitas a un sitio de recreación en particular. En otros
casos, el recuento de eventos podría ser el resultado de algún proceso natural, como la incidencia de una
enfermedad en una población o el número de defectos por unidad de tiempo en un proceso de
producción. En este entorno, haremos un tipo más familiar de modelos de regresión. Sin embargo, los
modelos seguirán siendo construidos específicamente para acomodar la naturaleza discreta de la variable
de respuesta observada.
Consideraremos estos cuatro casos sucesivamente. Los cuatro grandes áreas tienen muchos elementos en
común; Sin embargo, también hay diferencias sustantivas entre los modelos y técnicas de análisis
utilizados en cada uno. Este capítulo desarrollará el primer tema, modelos para opciones binarias. En
cada sección, comenzaremos con una descripción general de las aplicaciones y luego presentar el único
modelo básico que es la pieza central de la metodología, y, finalmente, examinar algunas extensiones
recientemente desarrolladas del modelo. Este capítulo contiene una discusión muy larga de modelos para
opciones binarias. Este análisis es tan largo como lo es porque, primero, los modelos discutidos se usan a
lo largo de la microeconometría: el modelo central de elección binaria en esta área es tan omnipresente
como la regresión lineal.
En segundo lugar, todas las cuestiones y características econométricas que se encuentran en las otras
áreas aparecerán en el análisis de la elección binaria, donde podemos examinarlas de manera justa. moda
directa.
Resultará que, al menos en términos econométricos, los modelos para multinomial y La elección
ordenada considerada en el Capítulo 18 se puede construir desde los dos edificios fundamentales bloques,
el modelo de utilidad aleatoria y la traducción de ese modelo en una descripción de opciones
binarias. Hay relativamente pocos nuevos problemas econométricos que surgen aquí. Capítulo 18 se
dedicará principalmente a sugerir diferentes enfoques para las opciones de modelado entre múltiples
alternativas y modelos para elecciones ordenadas . Una vez más, los modelos de escalas de preferencia,
como clasificaciones de películas o productos, o autoasistencia de salud o bienestar, pueden construirse
naturalmente a partir del modelo fundamental de utilidad aleatoria. Finalmente,
El Capítulo 18 desarrollará el conocido modelo de regresión de Poisson para contar los eventos.
Luego ampliaremos el modelo para demostrar algunas aplicaciones e innovaciones recientes . Los
capítulos 17 y 18 son una larga pero lejos de una encuesta completa de temas en la estimación modelos
de respuesta cualitativa (QR) . Ninguno de estos modelos puede ser consistentemente estimado con
métodos de regresión lineal. En la mayoría de los casos, el método de estimación
es máxima verosimilitud. Por lo tanto, los lectores interesados en la mecánica de la estimación
pueden desea revisar el material en los Apéndices D y E antes de continuar. Las diversas propiedades de
los estimadores de máxima verosimilitud se discuten en el Capítulo 14. Supondremos a lo largo de estos
capítulos que las condiciones necesarias detrás de la optimización propiedades de los estimadores de
máxima verosimilitud se cumplen y, por lo tanto, no derivaremos o establezca estas propiedades
específicamente para los modelos QQ. Pruebas detalladas para la mayoría de estos modelos se pueden
encontrar en encuestas de Amemiya (1981), McFadden (1984), Maddala (1983) y Dhrymes
(1984). Comentarios adicionales sobre algunos de los temas de interés en la literatura contemporánea está
dado por Manski y McFadden (1981) y Maddala y Flores-Lagunes (2001). Agresti (2002) y Cameron y
Trivedi (2005) contienen numerosos desarrollos teóricos y aplicaciones. Greene (2008) y Hensher
y Greene (2010) proporciona, entre muchos otros, encuestas generales de modelos de elección discreta y
métodos
17.2 MODELOS PARA RESULTADOS BINARIOS
Para propósitos de estudiar el comportamiento individual, construiremos modelos que vinculen
el decisión o resultado a un conjunto de factores, al menos en el espíritu de regresión. Nuestro
enfoque será analizar cada uno de ellos en el marco general de modelos de probabilidad:

El estudio de la elección cualitativa se centra en la especificación, estimación y uso de modelos para las
probabilidades de eventos, donde en la mayoría de los casos, el "evento" es un elección del individuo
entre un conjunto de dos o más alternativas.
Ejemplo 17.1 Modelo de participación en la fuerza de trabajo
En el ejemplo 5.2 estimamos una ecuación de ganancias para la submuestra de 428 mujeres casadas que participó en
el mercado de trabajo formal tomado de una muestra completa de 753 observaciones. La ecuación de ganancias
semilogarcas es de la forma

dónde las ganancias se tiempos de salario por hora de horas trabajadas, la educación se mide en años de
estudio, y los niños son una variable binaria que equivale a uno si hay niños menores de 18 años en el hogar. ¿Qué
pasa con los otros 325 individuos? El modelo subyacente de oferta laboral describió una mercado en el que la
participación en la fuerza de trabajo era el resultado de un proceso de mercado en el que los demandantes de
servicios laborales estaban dispuestos a ofrecer un salario basado en el producto marginal esperado y los individuos
mismos tomaron la decisión de aceptar o no la oferta según sobre si excedió su propio salario de reserva. El primero
de estos depende de, entre otras cosas, educación, mientras que la segunda (suponemos) depende de variables tales
como la edad, la presencia de niños en el hogar, otras fuentes de ingresos (del marido), y marginal tasas impositivas
sobre el ingreso laboral. La muestra que usamos para ajustar la ecuación de ganancias contiene datos en todas estas
otras variables. Los modelos considerados en este capítulo serían apropiados para modelar el resultado y = 1 si está
en la fuerza de trabajo, y 0 si no.
Los modelos para explicar un variable dependiente binaria (0/1) suelen estar motivados en dos
contextos. El modelo de participación en la fuerza de trabajo en el Ejemplo 17.1 describe un proceso de
elección individual entre dos alternativas en las que la elección está influenciada por efectos observables
(niños, tasas impositivas) y aspectos inobservables de las preferencias de el individuo. La relación entre
el comportamiento electoral y los ingresos es otro ejemplo.
En otros casos, el modelo de elección binaria surge en una configuración en la que la naturaleza de los
datos observados dicta el tratamiento especial de un modelo de variable dependiente binario.
En estos casos, el analista está esencialmente interesado en un modelo de regresión del tipo considerado
en los Capítulos 2 a 7. Con datos sobre la variable de interés y una En conjunto , están interesados
en especificar una relación entre el primero y el segundo, más o menos según los modelos que ya hemos
estudiado.
Por ejemplo, en un modelo de demanda de entradas para eventos deportivos, en el que variable de interés
es el número de tickets, podría ocurrir que la observación consista solo si la instalación deportiva se llenó
hasta su capacidad (demanda mayor o igual a capacidad así que Y = 1) o no ( Y = 0). En general,
resultará que los modelos y las técnicas utilizadas en ambos casos son las mismas. No obstante, es útil
examinar ambos de ellos.
17.2.1 MODELOS DE UTILIDAD ALEATORIA PARA LA ELECCIÓN INDIVIDUAL
El modelo de utilidad aleatorio proporciona una interpretación de los datos sobre las elecciones
individuales.
Deje U a y U b representan la utilidad de dos elecciones de un individuo. Por ejemplo, U a podría ser la
utilidad de la vivienda de alquiler y U b la de la propiedad de la vivienda. La elección observada entre
los dos revela cuál proporciona la mayor utilidad, pero no lo inobservable utilidades Por lo tanto, el
indicador observado es igual a 1 si U a >U b y 0 si U a ≤U b .A común formulación es el modelo
lineal de utilidad aleatoria,

En (17-2), el vector observable (medible) de las características del individuo es denotado w ; esto
puede incluir sexo, edad, ingresos y otros datos demográficos. Los vectores z a yz b denotan
características ( atributos ) de las dos opciones que pueden ser específicas de la
elección. En un contexto de votación, por ejemplo, los atributos pueden ser indicadores de la
competencia posiciones de los candidatos sobre cuestiones importantes. Los términos
aleatorios, ε a yε b representan elelementos estocásticos que son específicos y conocidos solo por el
individuo, pero no por el observador (analista). Para continuar con nuestro ejemplo de
votación, ε a podría representar una "preferencia" intangible y general para el candidato a .
La finalización del modelo para la determinación del resultado observado (elección) es la revelación de la
clasificación de las preferencias por la elección del individuo hace. Por lo tanto, si denotamos por Y = 1
la elección del consumidor de la alternativa a , inferimos de Y = 1 que U a >U b . Dado que el
resultado es en última instancia impulsado por el azar elementos en las funciones de utilidad, tenemos

dónde x ' β recoge todos los elementos observables de la diferencia de las dos funciones de
utilidad y ε denota la diferencia entre los dos elementos aleatorios.
Ejemplo 17.2 Ecuaciones estructurales para un modelo de elección binaria
Nakosteen y Zimmer (1980) analizaron un modelo de migración basado en la siguiente estructura: Para un individuo
dado, el salario de mercado que se puede ganar en la ubicación actual es

Las variables en la ecuación incluyen edad, sexo, raza, crecimiento en el empleo y crecimiento en ingreso per
capita. Si el individuo migra a una nueva ubicación, entonces su salario de mercado ser

La migración implica costos que están relacionados tanto con el individuo como con el mercado laboral:
Los costos de mudanza se relacionan con si el individuo trabaja por cuenta propia y si persona cambió recientemente
su industria de empleo. Ellos migran si el beneficio y * m -y * p es mayor que el costo, C. El beneficio neto de
mudarse es

Porque M * es inobservable, no podemos tratar esta ecuación como una regresión ordinaria. El individuo se mueve o
no. Después del hecho, observamos solo y * m si el individuo tiene movido o y * p si él o ella no. Pero observamos
que M = 1 para un movimiento y M = 0 para ningún movimiento.
17.2.2 UN MODELO DE REGRESIÓN LATENTE
Los modelos discretos de variable dependiente a menudo se emiten en forma de modelos de
función de índice . Vemos el resultado de una elección discreta como un reflejo de una regresión
subyacente. Como ejemplo a menudo citado, considere la decisión de hacer una compra grande. La
teoría afirma que el consumidor realiza un cálculo de beneficio marginal / costo marginal basado en las
utilidades logradas haciendo la compra y no haciendo la compra y por usando el dinero para otra cosa.
Modelamos la diferencia entre beneficio y costo como una variable no observada y * tal que

Tenga en cuenta que este es el resultado del cálculo de "utilidad neta" en la sección anterior y en Ejemplo
17.2. Suponemos que ε tiene cero significa y tiene una logística estandarizada con varianza π ^ 2/3 o una
distribución normal estándar con varianza uno o algún otro distribución específica con varianza
conocida. No observamos el beneficio neto de la compra (es decir, utilidad neta), solo si está hecho o
no. Por lo tanto, nuestra observación es

En esta formulación, x ' β se llama función de índice. El supuesto de varianza conocida de ε es una
normalización inocente Supongamos que la varianza de ε es escalado por un
irrestricto parámetro σ 2 . El latente la regresión será y * = x ' β + σε .Pero,
(y * / σ ) = x ' ( β / σ ) + ε es el mismo modelo con los mismos datos. Los datos observados no se
modificarán; y sigue siendo 0 o 1, dependiendo solo del signo de y * no en su escala. Esto significa que
no hay información sobre σ en los datos de muestra por lo σ no puede ser estimado El vector de
parámetro β en este modelo solo es "identificado a escala". La asunción de cero para el umbral en (17-3)
es igualmente inocente si el modelo contiene un término constante (y no si lo hace) no).4 Sea a el
supuesto umbral distinto de cero y α ser el término constante desconocido y, por el
momento, x y β contienen el resto del índice sin incluir la constante término. Entonces, la probabilidad
de que y sea igual a uno es

Porque α es desconocido, la diferencia ( α - a ) sigue siendo un parámetro


desconocido. El resultado final es que si el modelo contiene un término constante, no cambia debido a la
elección del umbral en (17-3). La elección del cero es una normalización sin importancia. Con el dos
normalizaciones, entonces,
Un detalle restante en el modelo es la elección de la distribución específica para ε . Lo
haremos considera varios. La abrumadora mayoría de las aplicaciones se basan en el normal o la
distribución logística. Si la distribución es simétrica, como es normal y logístico, entonces

dónde F ( t ) es el cdf de la variable aleatoria, ε . Esto proporciona una estructura estructural


subyacente modelo para la probabilidad.
17.2.3 FORMA FUNCIONAL Y REGRESIÓN
Considere el modelo de participación en la fuerza de trabajo sugerido en el Ejemplo 17.1. El encuestado
trabaja o busca trabajo (Y = 1) o no (Y = 0) en el período en el que se realiza nuestra encuesta. Creemos
que un conjunto de factores, como la edad, el estado civil, la educación y el historial de trabajo, reunidos
en un vector x, explican la decisión, de modo que

El conjunto de parámetros β refleja el impacto de los cambios en x en la probabilidad. Por ejemplo, entre
los factores que pueden interesarnos está el efecto marginal del estado civil en la probabilidad de
participación en la fuerza de trabajo. El problema en este punto es diseñar un modelo adecuado para el
lado derecho de la ecuación. Una posibilidad es retener la familiar regresión lineal,

Ya que , podemos construir el modelo de


regresión

El modelo de probabilidad lineal tiene una serie de deficiencias. Surge una


complicación menor porque ε es heteroscedástico de una manera que depende de β.
Debido a que x'β + ε debe ser igual a 0 o 1, ε es igual a - x'β o 1 - x'β, con
probabilidades 1-F y F, respectivamente. Por lo tanto, puede demostrar fácilmente que
en este modelo,

Podríamos manejar esta complicación con un estimador FGLS a la manera del Capítulo 9, aunque esto
solo resuelve el problema de estimación, no el teórico. Una falla más seria es que sin algunos retoques ad
hoc con las perturbaciones, no podemos estar seguros de que las predicciones de este modelo realmente se
verán como probabilidades. No podemos limitar x´β al intervalo 0-1. Tal modelo produce tanto
probabilidades sin sentido como varianzas negativas. Por estas razones, el modelo de probabilidad lineal
se utiliza con menos frecuencia, excepto como base para la comparación con algunos otros modelos más
apropiados.
Nuestro requisito, entonces, es un modelo que produzca predicciones consistentes con la
teoría subyacente en (17-4). Para un vector regresor dado, esperaríamos

Ver la Figura 17.1. En principio, cualquier distribución de probabilidad adecuada y


continua definida sobre la línea real será suficiente. La distribución normal se ha
utilizado en muchos análisis, dando lugar al modelo probit,

La función es una notación comúnmente utilizada para la distribución normal


estándar función. En parte debido a su conveniencia matemática, la distribución
logística,

también se ha usado en muchas aplicaciones. Usaremos la notación para indicar


el ogística distribución acumulativa unción. Este modelo se llama modelo logit por
razones que discutiremos en la siguiente sección. Ambas distribuciones tienen la
forma de campana familiar de distribuciones simétricas. Otros modelos que no asumen
simetría, como el modelo de Gumbel

Y el modelo complementario log log


también han sido empleados. Se han sugerido otras distribuciones, pero los modelos
probit y logit siguen siendo los marcos más comunes utilizados en las aplicaciones
econométricas.

La pregunta de qué distribución usar es natural. La distribución logística es similar a la


normal excepto en las colas, que son considerablemente más pesadas. (Se parece
más a una distribución t con siete grados de libertad.) Por lo tanto, para valores
intermedios de x´β (por ejemplo, entre -1.2 y +1.2), las dos distribuciones tienden a dar
probabilidades similares. La distribución logística tiende a dar mayores probabilidades
a Y = 1 cuando x´β es extremadamente pequeña (y menores probabilidades de Y = 1
cuando x´β es muy grande) que la distribución normal. Sin embargo, es difícil
proporcionar generalidades prácticas sobre esta base, ya que requerirían
conocimiento de β. Sin embargo, deberíamos esperar predicciones diferentes de los
dos modelos si la muestra contiene (1) muy pocas "respuestas" (Y es igual a 1 ) o muy
pocas "no respuestas" (Y es igual a 0) y (2) una variación muy amplia en una variable
independiente importante, particularmente si (1) también es cierto. Hay razones
prácticas para favorecer a uno u otro en algunos casos por conveniencia matemática,
pero es difícil justificar la elección de una distribución u otra en términos teóricos.
Amemiya (1981) discute una serie de cuestiones relacionadas, pero como una
proposición general, la pregunta no está resuelta. En la mayoría de las aplicaciones, la
elección entre estos dos parece no hacer mucha diferencia. Sin embargo, como se ve
en el siguiente ejemplo, las distribuciones simétrica y asimétrica pueden proporcionar
resultados sustancialmente diferentes, y aquí, la orientación sobre cómo elegir es
desafortunadamente escasa. El modelo de probabilidad es una regresión:

Cualquiera sea la distribución que se use, es importante tener en cuenta que los
parámetros del modelo, como los de cualquier modelo de regresión no lineal, no son
necesariamente los efectos marginales que estamos acostumbrados a analizar. En
general,

donde f (.) es la función de densidad que corresponde a la distribución acumulada,


F (.). Para la distribución normal, este resultado es

Donde es la densidad normal estándar. Para la distribución logística

Asi, en el modelo logit

Es obvio que estos valores variarán con los valores de x. Al interpretar el modelo
estimado, será útil calcular este valor a, por ejemplo, los medios de los regresores y,
cuando sea necesario, otros valores pertinentes. Por conveniencia, vale la pena
señalar que el mismo factor de escala se aplica a todas las pendientes en el modelo.
Para calcular los efectos marginales, se pueden evaluar las expresiones en los medios
de muestra de los datos o evaluar los efectos marginales en cada observación y usar
el promedio muestral de los efectos marginales individuales, esto produce los efectos
parciales promedio. En muestras grandes, generalmente dan más o menos la misma
respuesta (ver Sección 17.3.2). Pero eso no es así en muestras pequeñas o
moderadas. La práctica actual favorece el promediar los efectos marginales
individuales cuando es posible hacerlo. Otra complicación para calcular los efectos
marginales en un modelo de elección binaria surge porque x a menudo incluirá
variables ficticias; por ejemplo, una ecuación de participación en la fuerza de trabajo a
menudo contendrá una variable ficticia para el estado civil. Debido a que la derivada
es con respecto a un cambio pequeño, no es apropiado aplicar (17-12) el efecto de un
cambio en una variable ficticia, o un cambio de estado. El efecto marginal apropiado
para una variable independiente binaria, por ejemplo, d, sería

donde , denota el medio de todas las otras variables en el modelo. Simplemente tomar la derivada con
respecto a la variable binaria como si fuera continua proporciona una aproximación que a menudo es
sorprendentemente precisa. En el Ejemplo 17.3, para la variable binaria PSI, la diferencia en las dos
probabilidades para el modelo probit es (0.5702-0.1057) = 0.4645, mientras que la aproximación derivada
reportada en la Tabla 17.1 es 0.468. No obstante, podría ser optimista confiar en este resultado.
Revisaremos este cálculo en los ejemplos y discusión a seguir.