Estimación Consistente de Modelos de Recuento Con Inflación Cero

HEALTH ECONOMICS Health Econ.
(2012) Publicado en línea en Wiley Online Library

(wileyonlinelibrary.com). DOI: 10.1002/hec.2844
ESTIMACIÓN CONSISTENTE DE MODELOS DE RECUENTO CON INFLACIÓN CERO
KEVIN E. STAUBa y RAINER WINKELMANNa,b,c,*
a Universidad de Zúrich, Zúrich, Suiza
b CESifo, Múnich, Alemania
c IZA, Bonn, Alemania
RESUMEN
Las aplicaciones de los modelos de datos de recuento con inflación cero han proliferado en la
economía de la salud. Sin embargo, los estimadores de máxima verosimilitud de Poisson con
inflación cero o binomial negativa con inflación cero no son robustos a la especificación
errónea. Este artículo propone estimadores de cuasi-verosimilitud de Poisson como
alternativa. Estos estimadores son consistentes en presencia de exceso de ceros sin tener que
especificar la distribución completa. Las ventajas del enfoque de cuasi-verosimilitud de Poisson
se ilustran en una serie de simulaciones de Monte Carlo y en una aplicación a la demanda de
servicios sanitarios. Copyright © 2012 John Wiley & Sons, Ltd.
Recibido el 8 de agosto de 2011; revisado el 23 de marzo de 2012; aceptado el 24 de abril de

2012
PALABRAS CLAVE: exceso de ceros; Poisson; logit; heterogeneidad no observada; mala

especificación
1. INTRODUCCIÓN
El llamado problema del "exceso de ceros" afecta a la mayoría de las aplicaciones

de datos de recuento en la economía de la salud y otras ciencias sociales. La
proporción de observaciones con recuentos nulos en la muestra suele ser mucho
mayor que la predicha por los modelos de recuento estándar, ya sea el modelo de
Poisson o el binomial negativo.1 La respuesta más común es pensar en el proceso
de generación de datos en términos de una mezcla discreta de una variable
aleatoria de recuento y una variable aleatoria degenerada con masa de
probabilidad unitaria en cero. Por ejemplo, consideremos la demanda de servicios
sanitarios medida por el número de visitas al médico. Una persona puede haber
tenido cero visitas al médico durante un periodo determinado porque (i) es
seguidora de las medicinas alternativas y nunca visita al médico o porque (ii) en
principio visita a los médicos pero por azar no lo hizo durante el periodo
observado. Los ceros de tipo i -a veces denominados estructurales o estratégicos-
son el resultado de un proceso binario, mientras que los ceros de tipo ii -a veces
denominados fortuitos- son la realización de un proceso de recuento al que sólo
está sometida la "población de riesgo".
Estos modelos que permiten dos tipos distintos de ceros se conocen como modelos
de recuento inflado por cero (Mullahy, 1986, Lambert, 1992), siendo los más
destacados los modelos Poisson inflado por cero (ZIP) y binomial negativo inflado
por cero (ZINB). En economía de la salud, se han utilizado, entre otros, para el
número de visitas al médico (Yen et al., 2001; Sarma y Simpson, 2006; Sari, 2009;
Pizer y Prentice, 2011), el número de visitas a la farmacia (Chang y Trivedi, 2003),
el número de recetas (Street et al., 1999), el número de lesiones ocupacionales
(Campolieti, 2002) y el número de cigarrillos fumados (Sheu et al., 2004; Bauer et
al., 2007).
Hay dos formas de estimar los parámetros de los modelos de datos de recuento con
inflación cero. La forma estándar, perseguida por toda la literatura citada, se basa
en la estimación de máxima verosimilitud (ML) completa. La alternativa es
centrarse en el primer momento y, o bien incrustarlo en una distribución lineal de
la familia exponencial y estimar los parámetros por cuasi-ML, o bien utilizar un
estimador del tipo de distancia mínima, como los mínimos cuadrados no lineales
(NLS) o los métodos generalizados de momentos (GMM). El propósito de este
artículo es discutir la implementación de este enfoque alternativo en detalle,
incluyendo sus fortalezas y debilidades. En concreto, proponemos un estimador de
cuasilibertad de Poisson (PQL) que es robusto a la especificación errónea, ya que
estima los parámetros de regresión de forma consistente independientemente de la
verdadera distribución de los recuentos. Una serie de experimentos de Monte Carlo
y una aplicación muestran que la estimación PQL es una alternativa prometedora a
la estimación ML en muestras moderadas y grandes, evitando sesgos considerables
que pueden afectar a los estimadores ML.
En la siguiente sección se revisan los modelos para datos de recuento con inflación
cero. La estimación ML y la cuasi-verosimilitud de los modelos cero-inflados se
discuten en la sección 3. En la sección 4 se presentan los resultados de la
simulación de Monte Carlo que comparan el estimador PQL con los estimadores
ML. La sección 5 ilustra el estimador PQL con inflación cero logit en una aplicación
que modela la frecuencia de las visitas al médico. La sección 6 concluye el artículo.
2. MODELOS ECONOMÉTRICOS
2.1. Modelos de datos de recuento con inflación cero
Los modelos de datos de recuento con inflación cero tienen una función de
probabilidad
{
f ( y )= π +(1−π )g(0) for y=0
(1−π) g( y ) for y=1,2,3 , …
donde y es una variable aleatoria con valor de conteo, π ∈[0,1] es un parámetro de inflación
cero (la probabilidad de un cero estratégico), y g(⋅) es la función de probabilidad del modelo
de recuento principal. El exceso de ceros, o inflación cero, se produce por definición siempre
que π >0. La media del modelo de datos de recuento con inflación cero es
∞
E( y)=∑ ❑(1−π ) g(k )=(1−π ) E g ( y)
k=1
donde E g ( y ) denota la media de la distribución madre. Una vez que se especifica la función
de probabilidad del modelo de recuento de los padres, se obtiene un modelo de datos de
recuento totalmente paramétrico con inflación cero. Por ejemplo, el modelo ZIP se obtiene
para
exp ⁡(−λ) λ y
g( y ; λ)= , λ >0
y!
con la media E g ( y )=λ y E( y)=(1−π ). La principal alternativa al modelo ZIP es el modelo
binomial negativo inflado a cero, que tiene la misma media que el ZIP pero sobredispersión en
la parte de recuento del modelo. Tanto λ y π pueden parametrizarse en términos de variables
explicativas exógenas. Los supuestos estándar son que
λ ( x)=E g ( y ∣ x )=exp ⁡( xβ)
exp ⁡( z δ )
'
π (z)=
1+exp ⁡( z δ )
'
donde z puede ser idéntico a x , solaparse con x o ser completamente distinto de x . La función
de expectativa condicional (CEF) del correspondiente modelo de datos de recuento con
inflación cero viene dada por
exp ⁡( x' β )
E( y ∣ x , z )=(1−π ( z )) λ( x )=
1+ exp ⁡( z ' δ )
Es importante destacar que éste es el CEF de cualquier modelo de datos de recuento con
inflación cero, no sólo del modelo ZIP, siempre que se cumplan las ecuaciones (4) y (5).
Además, la ecuación (6) es bastante general, en el sentido de que puede captar varias
desviaciones de los modelos de datos de recuento estándar distintas de la inflación cero. Por
ejemplo, Winkelmann y Zimmermann (1993) dedujeron una expresión como la ecuación (6) a
partir de un modelo de infradeclaración (en su modelo de "adelgazamiento binomial," y se
distribuye por Poisson con una media doblemente indexada). Kim y Lee (2011) obtuvieron la
ecuación (6) a partir de un modelo de obstáculos a cero, donde 1−π (z ) es la probabilidad de
tener un recuento positivo, y la condición de CEF al pasar el obstáculo se modela como una
función exponencial: E( y ∣ x , y> 0)=exp ⁡( x ' β ).
2.2. Parámetros de interés
En las aplicaciones económicas de la salud, como las citadas en la sección 1, los objetos clave
de interés son las predicciones del CEF, así como sus derivadas. La derivada con respecto a una
variable w que es un elemento de los vectores x y z viene dada por
∂ E ( y ∣ x , z) exp ⁡( x ' β ) exp ⁡( x ' β ) exp ⁡( z ' γ )

= β w− δw
∂w 1+exp ⁡( z ' γ )
2
( 1+exp ⁡( z ' γ ) )
donde β w y δ w son los elementos de los vectores β y δ correspondientes a w . De este modo,
obtenemos una expresión relativamente sencilla para la semielasticidad,
[∂ E ( y ∣ x , z)/ E ( y ∣ x , z)]/∂ w=β w −π (z )δ w .
Bajo el supuesto mantenido de un proceso de generación de datos con inflación cero, se

pueden deducir otras dos cantidades, a saber, el efecto de un regresor sobre el CEF del modelo
padre y el efecto de un regresor sobre la probabilidad de un exceso de cero. Más
concretamente, los parámetros β y δ proporcionan las semielasticidades del modelo principal
y los cambios en las probabilidades logarítmicas de ceros estratégicos, respectivamente,
∂ E g ( y ∣ x )/E g ( y ∣ x ) ∂ log ⁡[ π (z) /(1−π ( z ))]
=β x =δ z
∂x ∂z
La estimación de estos parámetros de interés en general no requiere la especificación de una

distribución paramétrica completa porque se identifican a partir del primer momento del
modelo solamente.
3 ESTIMACIÓN
3.1. Estimación
de máxima verosimilitud
La función log-verosimilitud del modelo ZIP para una muestra de n tuplas de
observación independientes ( y i , xi , zi ) es
n
[
ln ⁡l ZIP =¿ ∑ ❑1 ( y i=0 ) ln ⁡ exp ⁡( z i δ ) + exp ⁡(−exp ⁡( xi β ) )
i=1
]
+ 1 ( y i >0 ) [−exp ⁡( x i β ) + y i x i β ]−ln ⁡( 1+exp ⁡( z i δ ) )
Dado que el modelo tiene una estructura de mezcla finita, la maximización de la función de
log-verosimilitud puede utilizar el algoritmo EM, aunque también es posible la maximización
directa mediante Newton-Raphson. Hall y Cheng (2010) discuten algoritmos de estimación
alternativos. Si el modelo está correctamente especificado, la teoría ML asegura que estos
estimadores son consistentes y asintóticamente eficientes, siempre que existan (Cameron y
Trivedi, 1998; Winkelmann, 2008).
3.2. Estimación basada en el momento
Los parámetros β y δ también pueden estimarse directamente a partir de la restricción de
momento condicional (6). Este enfoque es, en principio, preferible, porque hace menos
suposiciones sobre el proceso de generación de datos que la estimación ML. Estos supuestos
adicionales, si se violan, invalidarán la inferencia ML pero no la inferencia basada en
momentos. Los estimadores basados en el momento son, por tanto, más robustos.
La identificación basada en la ecuación (6) plantea dos cuestiones. En primer lugar, si z sólo
tiene una constante, obtenemos un modelo con inflación cero constante. En este caso, el CEF
del modelo con inflación cero viene dado por
E( y ∣ x )=(1−π) λ (x)=exp ⁡( ln ⁡(1−π )+ x β )

'
y no es posible identificar por separado π y la constante en el modelo principal. Por lo tanto,

no se identifica la proporción de ceros estratégicos. Sin embargo, la mayor parte de los
trabajos aplicados se centran en las semielasticidades (en general y en el modelo matriz) y en
las predicciones del CEF, y todas ellas pueden obtenerse a partir de la ecuación (8).
En segundo lugar, supongamos que x=z es decir, que todas las variables entran en la parte de
inflación cero así como en el proceso matriz. En este caso, dos vectores de parámetros
conducen al mismo CEF (véase Papadopoulos y Santos Silva, 2008):
exp ⁡( x β1 ) exp ⁡( x β2 )
' '
E( y ∣ x , z )= =
1+exp ⁡( x δ 1 ) 1+exp ⁡( x δ 2 )
' '
para β 2=β 1+ δ 1 y δ 2=−δ 1. Así, el problema de estimación tiene dos soluciones. En la
práctica, este problema de identificación puede superarse si se conoce el signo de al menos un
elemento de δ es conocido. En tercer lugar, en el caso de que x y z difieren, la identificación se
consigue si hay al menos una variable en z que no esté incluida en x .
Para implementar los estimadores basados en el momento en este caso recién identificado,
son posibles varios enfoques. Sugerimos integrar el CEF en un modelo de Poisson estándar,
una aplicación de la estimación de cuasi-verosimilitud, que conduce a estimaciones
consistentes y, como mostraremos en las simulaciones de Monte Carlo, tiene también buenas
propiedades de muestra finita. Alternativamente, se pueden resolver los análogos muestrales
de las restricciones de momento incondicionales implícitas en la ecuación (6), como la
ortogonalidad entre los errores del CEF y las funciones de los regresores:
[
E y i−
exp ⁡( x 'i β )
1+exp ⁡( z'i δ ) ] [
h1 ( x i , z i ) =0 and E y i −
exp ⁡( x 'i β )
1+exp ⁡( z 'i δ ) ] h2 ( x i , zi ) =0 ,
donde las funciones h1 ( x i , z i ) y h2 ( x i , z i ) son instrumentos. En general, las condiciones de

ortogonalidad no ponderada entre los regresores y los errores de la CEF son insuficientes para
identificar β y δ . Por ejemplo, si h1 (x , z )=x , h2 ( x , z)=z y x=z hay menos condiciones de
momento que parámetros, y el modelo está infraidentificado.
Como mostraremos en la siguiente sección, las condiciones de primer orden del estimador de
cuasi-verosimilitud implican la condición de ortogonalidad ponderada entre los regresores y
los errores del CEF, h1 ( x , z )=w1 ( x , z ) x y h2 ( x , z)=w2 (x , z ) z . En este caso recién
identificado, las ponderaciones óptimas dependen de los momentos de orden superior del
modelo, que se dejan sin especificar. Sin embargo, el estudio de Monte Carlo aquí (y los
resultados de Monte Carlo relacionados en otros lugares; véase Santos Silva y Tenreyro 2006,
2011) sugieren que los estimadores PQL tienen un buen rendimiento en general.
3.3. Quasi-ML
La estimación Quasi-ML se basa en distribuciones dentro de la familia exponencial lineal (LEF),
cuya función de probabilidad puede escribirse como (Gourieroux et al., 1984a)
f
LEF
( y ∣ μ x )=exp ⁡{a ( μ x ) +b( y)+c ( μ x ) y } ,
donde μ x =μ( x ; β )=E( y ∣ x ) y μ x =( ∂ a ( μ x ) /∂ μx ) / ( ∂ c ( μ x ) /∂ μx ). Los LEF tienen la propiedad

de que la función de puntuación puede escribirse como
∂ log ⁡f ( y ∣ x )
=( y−μ x ) h( x)
∂β
donde h( x )=( d c ( μ x ) /d μ x ) ( ∂ μx /∂ x ). Supongamos que el modelo verdadero es

g0 ( y ∣ x )≠ f ( y ∣ x ) pero E0 ( y ∣ x )=μ x para algún valor β 0. Por lo tanto, el CEF está
correctamente especificado. En este caso, la expectativa de la ecuación (10) en la densidad
verdadera es cero, aunque el modelo está mal especificado porque el residuo del CEF
y−E ( y y x ) es independiente de la media de x y, por tanto, tiene covarianza cero con
cualquier función h( x ). Como la puntuación empírica converge a la puntuación esperada por
la ley de los grandes números, la solución a las condiciones de primer orden de ML converge
en probabilidad a los verdaderos parámetros del CEF (véase también White, 1982; Gourieroux
et al., 1984b).
La distribución de Poisson es un miembro de la LEF con a ( μ x )=−μ x ,b ( y )=−ln ⁡( y ) y

c ( μ x ) =ln ⁡( μ x ). Por lo tanto, aunque los datos estén inflados a cero, una regresión de Poisson
produce estimaciones válidas de los objetos de interés siempre que el CEF esté correctamente
especificado. Los errores estándar válidos requieren el habitual ajuste de White a la matriz de
covarianza. El estimador PQL para el modelo con inflación cero no constante se obtiene
maximizando
n
ql( β , δ )=∑ ❑ y i ln ⁡λ́ ( x i , z i , β , δ )− λ́ ( x i , zi , β , δ )
i=1
donde λ́ ( x i , z i , β , δ )=exp ⁡( xi β ) / ( 1+exp ⁡( z i δ ) ). Las condiciones de primer orden son
∂ ql(β , δ ) n
∂β
= ∑ ❑ y i−
i =1 (
exp ⁡( xi β )
1+exp ⁡( z i δ )
x i=0
)
y
(
exp ⁡( x'i β )
)
exp ⁡( z 'i δ )
n
∂ ql(β , δ )
=−∑ ❑ y i− z i=0
∂δ i=1 ( 1+ exp ⁡( i )
z '
δ 1+ exp ⁡( z
'
i δ )
La resolución de las condiciones no lineales de primer orden mediante el algoritmo de

Newton-Raphson o similares es relativamente sencilla (el código de Stata se proporciona en el
Apéndice A). Este estimador para los datos de recuento inflados por ceros es consistente
incluso si el verdadero proceso de generación de datos no tiene una distribución de Poisson,
como es el caso por definición del exceso de ceros. La ganancia de la estimación PQL en
relación con la estimación ML de los modelos de recuento cero-inflado totalmente
paramétricos es la robustez a la mala especificación. El principal coste de la estimación PQL en
relación con la estimación ML de un modelo correctamente especificado es la pérdida de
precisión. En la siguiente sección, exploramos ambos aspectos, el sesgo relativo y la pérdida de
eficiencia de PQL en relación con ML, para diferentes tamaños de muestra utilizando
simulaciones de Monte Carlo.
4
4. PRUEBAS DE MONTE CARLO
Diseño de simulación
Para comparar el rendimiento del estimador PQL con sus principales competidores, los
estimadores ZIP y ZINB ML, creamos tres configuraciones. Todos ellos se obtienen a
partir del siguiente diseño experimental básico. La variable dependiente de recuento y
se especifica como
y= { 0 with probability π (z)

¿
y with probability 1−π ( z )
¿
donde y ∣ x , v ∼Poisson ⁡( λ(x , v))y λ (x , v ) y π ( z) vienen dados por
exp ⁡( δ 0+ δz )
λ ( x , v )=exp ⁡( β 0+ βx+ v ) , π (z )=
1+exp ⁡( δ 0 +δz )
con x=q 1 y z=( q1 , q2 ). Los regresores escalares q 1 y q 2 siguen χ 2 con un grado de libertad; q 1
se reescala para tener una varianza de 0.1. Así, el proceso de generación de datos contiene
dos regresores, uno de los cuales se excluye de la parte de recuento. La atención se centra en
'
la estimación de β y δ=( δ 1 , δ 2 ) que se fijan en 1. El parámetro β 0 se fija en −0.5 que garantiza
una media baja del proceso de recuento de los padres con una fracción sustancial de ceros
incidentales (∼ 45 %). El grado de inflación de ceros se controla mediante δ 0. Todos los
experimentos de simulación se realizan para dos niveles de inflación de ceros 10 % y 50 %.
Estos valores se eligen para reflejar el rango de porcentajes de observaciones con y=0 que
suelen encontrarse en las aplicaciones en las que se utilizan modelos con inflación cero. Con
10 % inflación cero, la fracción total de ceros en los datos es aproximadamente 50 %con 50 %
inflación cero, es aproximadamente 75 %. Es poco probable que los modelos ZI sean útiles si la
proporción de ceros en los datos es mayor. 2 Para obtener 10 % inflación cero, δ 0 se fija igual a
−4.2un valor de δ 0=−1.1 da como resultado 50 % inflación cero.
Además, el CEF padre de la ecuación (12) contiene un componente aleatorio v que se

distribuye como Normal (−0.5 σ 2 , σ 2 ). La distribución de los padres de y dada x pero
¿
marginada sobre v es entonces la distribución logarítmica normal de Poisson (por ejemplo,

véase Winkelmann, 2008) con la función de varianza
Var ⁡( y ∣ x )=exp ⁡( β 0+ βx ) + [ exp ⁡( β 0 + βx ) ] ( e −1 )

¿ 2 σ2
¿
Se pueden obtener diferentes funciones de varianza para y pueden obtenerse especificando
σ como función de x . Dejando que
2
σ 2(x )=ln ⁡{1+c exp ⁡[ (k−1) ( β 0+ βx ) ] }
el parámetro k controla la no linealidad de la función de varianza, mientras que c es un

parámetro de sobredispersión libre. Esta parametrización permite explorar las funciones de
varianza con bastante libertad sin abandonar el supuesto de distribución normal de v ni el CEF
exponencial del proceso principal.
Utilizamos tres configuraciones. En primer lugar, establecemos c=0 y k =0y se deduce que
σ 2=0 (no hay heterogeneidad no observada), y el proceso de generación de datos es
efectivamente ZIP con λ=exp ⁡(−0.5+ x ) y una inflación nula de 10 % o 50 %. Esta primera
configuración nos permite comparar la pérdida de eficiencia de PQL en relación con el
estimador ZIP ML correctamente especificado y, por tanto, asintóticamente eficiente.
Se obtiene una segunda configuración para c=exp ⁡(1)−1 y k =1. Se deduce que σ 2=1y hay
sobredispersión cuadrática. Aunque tanto el ZIP como el ZINB están mal especificados (porque
el verdadero proceso padre es Poisson log-normal), esperamos que el ZINB se comporte de
forma bastante satisfactoria ya que la mala especificación se limita a los momentos de orden
superior, no a la media y la varianza. El modelo ZIP, por el contrario, asume la igualdad de la
media y la varianza y, por tanto, es poco probable que produzca buenos resultados. El
estimador PQL es robusto a este tipo de especificación errónea y debería funcionar bien. En
nuestra tercera configuración, establecemos c=2 y k =−1lo que implica una función de
varianza con una constante aditiva
Var ⁡( y ¿ ∣ x )=E ( y ¿ ∣ x ) +2
La correspondiente relación entre la varianza y la media es ahora hiperbólica. En este caso, los
tres estimadores -ZIP, ZINB y PQL−¿ sólo especifican correctamente el primer momento.
Esto no debería importar para PQL, pero conduce a un sesgo para ZIP, así como ZINB.
En todos los casos, se consideraron dos tamaños de muestra (5000 y 50.000 observaciones,
respectivamente). El número de réplicas fue de 10.000 para los procesos de generación de
datos con 5.000 observaciones, y de 1.000 réplicas para los de 50.000 observaciones. El
estudio de Monte Carlo se programó en STATA/MP 11.1; el código está disponible a petición
de los autores.
4.2. Resultados
Los resultados de las tres configuraciones de simulación se muestran en la Tabla I, que se
divide en tres paneles, cada uno de los cuales presenta los resultados de una de las tres
configuraciones. Siguiendo el enfoque de la literatura, nos concentramos en los principales
parámetros de interés, la semielasticidad del proceso matriz β y el cambio en las
probabilidades logarítmicas de los ceros estratégicos, δ 1 y δ 2cuyos valores reales son 1. Las
principales entradas de la tabla I son la media de las estimaciones QL y ML β́ , δ́ y δ 2 sobre las
réplicas. Los números entre paréntesis indican las desviaciones estándar.
El panel de la izquierda, titulado "Sin sobredispersión", muestra los resultados de la primera

configuración en la que el proceso de generación de datos es un modelo ZIP. La primera fila de
resultados es para el estimador ZIP ML en muestras de 5000 observaciones. Las estimaciones
ZIP de β́ se acercan mucho al valor real por término medio, independientemente de que el
grado de inflación cero sea 10 % o 50 %. Los grados más altos de inflación cero implican
menos información para estimar β por lo que la desviación estándar es mayor con 50 %
inflación cero. Lo contrario ocurre con δ=( δ 1 , δ 2 ). Los grados bajos de inflación cero implican
tener que identificar los efectos de las variables en z sobre los ceros estratégicos con poca
información, por lo que δ se estima con menos precisión. PQL estima β bastante bien también,
aunque su
Nota. Las entradas son las estimaciones medias sobre las réplicas. Desviaciones estándar entre
paréntesis. Valores reales: b = d1 = d2 = 1; 10.000 réplicas para n = 5000 y 1000 para n =
50.000.
La precisión es aproximadamente un orden de magnitud inferior a la de ZIP. Los resultados de

Monte Carlo sugieren, sin embargo, que los niveles bajos de inflación cero pueden hacer que la
estimación de δ bastante difícil para PQL con 5000 observaciones. En las entradas
correspondientes de la Tabla I, los sesgos son aproximadamente 25 % . Los niveles más altos
de inflación cero mitigan visiblemente este problema, aunque los sesgos siguen siendo
aproximadamente 10 %. Con 50.000 observaciones, el rendimiento de PQL mejora
sustancialmente. Aunque para β el panorama es el mismo que con la muestra más pequeña,
PQL ahora también obtiene estimaciones satisfactorias de δ . Sin embargo, todavía se aprecia
un cierto sesgo de muestra finita y la pérdida de eficiencia respecto a ZIP sigue siendo bastante
grande.
El panel central ("Sobredispersión cuadrática") contiene los resultados obtenidos en la

segunda configuración, en la que la heterogeneidad no observada hace que el modelo
principal presente una sobredispersión cuadrática. Como el ZINB especifica correctamente el
CEF y la función de varianza, el panel incluye además los resultados de este estimador. El
patrón de las estimaciones de ZINB ML en las muestras de 5.000 observaciones coincide con el
del anterior ZIP ML: aunque β se estima con bastante precisión y sin sesgos, las estimaciones
de δ son más ruidosas, especialmente en el caso de baja inflación cero. Aumentar el tamaño
de la muestra a 50.000 mejora el rendimiento de ZINB. Por ejemplo, el sesgo en δ 1que es 7 %
y 4.3 % para una inflación cero baja y alta, respectivamente, se reduce a 4.8 % y 3.2 %. El
rendimiento de PQL es bastante notable aquí. Aunque con 5.000 observaciones son visibles los
mismos sesgos grandes que en la configuración anterior, en tamaños de muestra mayores los
sesgos correspondientes son menores que los del ZINB ( 2.9 % y 1,6%). Las estimaciones de β
son bastante similares para PQL y ZINB. Sin embargo, las desviaciones estándar del PQL son
aproximadamente un orden de magnitud mayor que las del ZINB. La incoherencia del ZIP se
refleja en sesgos sustanciales en todas las estimaciones medias comunicadas.
¿
En el panel de la derecha, los datos se extraen de un proceso con sobredispersión aditiva de y
por lo que tanto el ZIP como el ZINB sólo especifican correctamente el CEF. La estimación ZIP
vuelve a producir estimadores que no son consistentes para el verdadero valor de β en
ninguna de las entradas de la Tabla I. Los sesgos en la estimación de δ son muy grandes,
llegando a 40 % para δ 1. Además, su persistencia en el tamaño de la muestra más grande los
desenmascara como sesgos asintóticos. El estimador ZINB tampoco funciona bien. Con 50.000
observaciones y 10 % inflación cero, la estimación media de δ 1 está sesgada a la baja por
11.3 %. Con 50 % inflación cero, el sesgo para el mismo parámetro es superior a 15 %y
además β muestra un sesgo de 7.7 % . Por el contrario, el rendimiento de PQL es mucho mejor
en todo momento. Los sesgos correspondientes de PQL son sólo 1.3 % para δ 1 y 0.1 % para β .
De hecho, un vistazo a los resultados de PQL en los tres paneles muestra que la presencia y la
forma de la sobredispersión no tienen ningún efecto sobre su rendimiento.
Como se mencionó en la sección 3.2, se pueden obtener muchos estimadores consistentes

basados en momentos como alternativas a la estimación PQL que utiliza las funciones
h1 ( x , z )=x y h2 ( x , z)=π (z )z como instrumentos. Por ejemplo, la estimación NLS minimiza
( )
2
exp ⁡( x i β )
n '
∑❑ y i−
i=1 (1+exp ⁡( z'i δ )
que lleva a h1 ( x , z )=[1−π (z)] λ (x) x y h2 ( x , z)=π (z )[1−π ( z)] λ ( x) z como
instrumentos; es decir, pondera las condiciones de momento de PQL con el CEF,
[1−π ( z)] λ (x). Sin embargo, este estimador no funciona bien para los procesos de
generación de datos utilizados. El Apéndice B contiene resultados de simulación adicionales
para este estimador en muestras con 50.000 y 500.000 observaciones. Sus resultados se
comparan muy mal con los de PQL. 3 Una explicación de esto es que la ponderación CEF
implicada por NLS pondera a la baja las observaciones con alta probabilidad de exceso de ceros
(CEF bajo), reduciendo así drásticamente la información a partir de la cual estimar δ . En
consecuencia, los mayores sesgos del estimador NLS son para δ y en configuraciones con
pocos excesos de ceros.
4.3. Otros resultados sin restricciones de exclusión
En las simulaciones de la Tabla I, q 2el regresor excluido de x , proporciona una variación
independiente al proceso de inflación cero, una configuración ideal. En las aplicaciones, las
restricciones de exclusión pueden a menudo no ser justificables. Para abordar esta cuestión,
repetimos las simulaciones estableciendo δ 2=0 , es decir, eliminando los procesos
generadores de datos del regresor adicional. El resultado es una especificación con un regresor
que entra en ambas partes del modelo. Como ya se ha comentado, el estimador PQL tiene
ahora dos soluciones. Para elegir entre ellas, utilizamos la información fuera de la muestra que
en el proceso de generación de datos δ 1=1>0 y seleccionamos siempre la solución en la que
4
el coeficiente estimado δ́ 1> 0
Los resultados no son tan diferentes de los de la sección anterior. Con 5.000 observaciones, la
estimación ZIP ML del modelo ZIP es adecuada (panel izquierdo, "Sin sobredispersión").
Asimismo, la estimación ZINB ML del proceso de sobredispersión cuadrática (panel central) es
comparable a la del cuadro I. Sin embargo, en n=5000 , PQL estimación tiene problemas con
el sesgo de la muestra finita y las grandes desviaciones estándar. Sin embargo, como
ilustraremos con la aplicación en la siguiente sección, la estimación PQL con tales tamaños de
muestra puede no ser problemática si se dispone de regresores adicionales: la variación de
más regresores puede ayudar a estimar los parámetros con mayor precisión.
Al pasar a los resultados correspondientes a 50.000 observaciones, la mejora en el
rendimiento de PQL es notable. En entornos con 10 % inflación cero, el sesgo de PQL nunca
supera 2 %. En cambio, ZINB presenta sesgos de hasta 4 % en el proceso de sobredispersión
cuadrática, y de hasta 17.6 % en la configuración de sobredispersión aditiva (panel de la
derecha), ZIP se comporta aún peor. Con una alta inflación de cero, sigue habiendo cierto
sesgo en las estimaciones de PQL, pero su magnitud es visiblemente menor que la de la
estimación ZIP y ZINB ML mal especificada.
En resumen, los resultados de los experimentos de Monte Carlo de esta sección demuestran la
solidez del estimador PQL en muestras finitas con inflación cero y los sesgos que pueden surgir
al utilizar sus dos competidores más comunes de ML.
Nota. Las entradas son las estimaciones medias sobre las réplicas. Desviaciones estándar entre
paréntesis. Valores reales: b = d1 = 1.
5. ILUSTRACIÓN: DEMANDA DE SERVICIOS MÉDICOS
Ilustramos la estimación PQL de un modelo de recuento con inflación logit cero en una
conocida aplicación de economía de la salud. En concreto, el objetivo es estimar cómo afecta
el seguro médico a la frecuencia de las visitas al médico. El conjunto de datos es idéntico al
utilizado por Cameron y Trivedi (1986). La muestra de 5.190 individuos se extrae de la
encuesta de salud australiana de 1977-1978. La variable dependiente es el número de
consultas con un médico o especialista en el periodo de 2 semanas anterior a la entrevista. La
media es de 0,302 y la varianza de 0,637. En Cameron y Trivedi (1986) y en las referencias
citadas en el mismo (Tabla II) se ofrecen más detalles y una motivación de la selección de las
variables explicativas.
Los regresores incluyen datos demográficos (sexo, edad y edad al cuadrado), ingresos, diversas
medidas del estado de salud (número de días de actividad reducida, puntuación en el
cuestionario de salud general, enfermedad reciente, afección crónica 1 y afección crónica 2) y
tres tipos de cobertura de seguro médico (Levyplus, Freepoor y Freerepat; el primero
representa un nivel de cobertura más alto y los dos últimos un nivel básico suministrado
gratuitamente).
El cuadro III contiene los resultados de la regresión para el estimador PQL (en las dos primeras
columnas), así como para los modelos ZIP totalmente paramétricos (en las columnas 3 y 4) y
ZINB (en las columnas 5 y 6). En cada caso, los mismos regresores entran en el modelo logit
para la inflación cero y el CEF log-lineal del modelo principal. Como se ha comentado
anteriormente, esto significa que el estimador PQL tiene dos soluciones. Para identificar la
correcta, debemos basarnos en información fuera de la muestra: suponemos que los
individuos que han experimentado enfermedades recientemente tienen más probabilidades
de formar parte de la población que demanda visitas al médico, lo que implica que el signo del
parámetro sobre "enfermedad" es negativo -es decir, que reduce la probabilidad de un cero
adicional- y presentamos este conjunto de estimaciones como d. 5
No hay diferencias significativas en la magnitud de los errores estándar entre los modelos: los
errores estándar del ZIP son más pequeños que los del ZINB y el PQL, siendo estos dos últimos
aproximadamente similares. Por lo tanto, la precisión de la estimación del PQL debería ser
buena aunque no haya restricciones de exclusión.
Una prueba de ratio de verosimilitud entre el ZIP y el ZINB favorece claramente a este último.6
Aunque esto es una indicación de la presencia de heterogeneidad no observada y de
sobredispersión, no significa, sin embargo, que el ZINB sea el modelo "correcto". Si la
sobredispersión está mal especificada, el estimador ZINB es inconsistente,
independientemente de que se ajuste a los datos mejor que el ZIP.
Es tranquilizador, por tanto, que las estimaciones de los parámetros sean bastante insensibles
a la elección de la especificación en muchos casos, pero hay excepciones. Por ejemplo, el
modelo ZINB no detecta ningún efecto estadísticamente significativo de tener una condición
de salud crónica en ninguna de las partes del modelo. En el modelo PQL, el segundo indicador
tiene un gran efecto negativo y estadísticamente significativo sobre la probabilidad de un cero
adicional y, por tanto, aumenta el número esperado de visitas. Las inferencias de PQL y ZINB
también difieren en cuanto a la situación de seguro. "Freepoor" y "Levyplus" son
estadísticamente significativos en el ZINB, pero no en el modelo PQL, lo que sugiere cierta
cautela a la hora de interpretar estos efectos.
6. OBSERVACIONES FINALES
Las principales cantidades de interés en la mayoría de las aplicaciones de datos de recuento

son el CEF, los cambios en la probabilidad de ceros estratégicos y las semielasticidades del
modelo de recuento principal con respecto a algunos regresores. Por ejemplo, todas las
aplicaciones citadas en la sección 1, sin excepción, limitaron la discusión de sus resultados de
estimación en el CEF y en dichos efectos. Este artículo propone un nuevo enfoque basado en la
estimación PQL como forma de estimar estas cantidades sin tener que especificar más que el
CEF, en contraposición a la distribución completa como es necesario con los estimadores
tradicionales ZIP y ZINB ML.
La principal ventaja de utilizar el PQL sobre el ZIP y el ZINB es su robustez frente a las
especificaciones erróneas. Dada la omnipresente incertidumbre sobre los procesos de
generación de datos en la práctica, el uso de estimadores para modelos ZI parece poco
aconsejable si existen preocupaciones sobre el sesgo derivado de una mala especificación de
orden superior. Las especificaciones erróneas relativamente leves de la DGP presentadas en
los experimentos de Monte Carlo con frecuencia dieron lugar a sesgos notables, lo que sugiere
que PQL puede ser la mejor opción para estimar los modelos ZI en comparación con los
estimadores ZI ML en ausencia de información fuerte a priori sobre la DGP. Esta conclusión
será tanto más convincente cuanto mayor sea el conjunto de datos de que se dispone.
APÉNDICE A
CÓDIGO DE STATA PARA LA
ESTIMACIÓN PQL DE MODELOS DE CONTEO INFLADO A CERO El siguiente código de Stata
primero carga el programa para la estimación PQL de modelos de conteo inflado a cero, pqlzi,
y luego ejemplifica su uso con un conjunto de datos del sitio web de Stata, fish.dta. El único
propósito del ejemplo es ilustrar el uso de pqlzi; el modelo particular estimado en estos datos
no tiene sentido. El programa pqlzi utiliza la función media πλ en lugar de (1−π ) λ. A menudo
encontramos que esto tiene mejores propiedades de convergencia. Significa que todas las
estimaciones de la parte binaria (eq 2-salida) tienen el signo "equivocado". Por ejemplo, "-
1,81" debería leerse como "1,81". Si se prefiere, esto se puede cambiar borrando los dos bits
"+"theta2" en el programa.
clear all
** Cargar programa pqlzi
capturar programa soltar
programa pqlzi
definir pqlzi
args lnf theta1 theta2
sustituir tranquilamente 'Inf' ¿ 1/1
−exp ⁡¿ 'theta1' + 'theta2') ¿ ¿ 'theta2')) ///
+ $ ML _y 1∗ln ⁡¿ 'theta1' + 'theta2') ¿ ¿ 'theta2')) ///
 Infactorial($ML_y1)
end
** Utilizar el conjunto de datos de ejemplo de Stata
webuse f ish
** Obtener valores iniciales para pqlzi
poisson count persons livebait /* obtener valores iniciales para la parte de recuento /
mat po ¿ e (b)
logit count child camper / obtener valores iniciales para la parte binaria /mat
10=e( b)
** Estimar el modelo pqlzi
modelo ml Si pqlzi (eq1: count = persons livebait) (eq2: child camper), vce(robust)
m init po 1o, copy skip/ cargar valores iniciales /ml maximizar / estimar el modelo
pqlzi /** Comparar con otros modelos ZIzinb count persons livebait, inflate(child
camper) / comparar con zinb /zip count persons livebait, inflate(child camper) /
comparar con zip */
APÉNDICE B
RESULTADOS ADICIONALES DE MONTE CARLO: ESTIMADOR NLS
Nota. 1000 réplicas para n=50,000 ;100 para n=500,000. Valores reales: β=δ 1=δ 2=1
.
AGRADECIMIENTOS
Los autores agradecen a dos árbitros anónimos sus útiles comentarios.
REFERENCIAS
Bauer T, Göhlmann S, Sinning M. 2007. Gender Differences in Smoking Behavior. Health

Economics 16: 895-909.
Cameron AC, Trivedi PK. 1986. Modelos econométricos basados en datos de conteo:
Comparaciones y aplicaciones de algunos estimadores y pruebas. Journal of Applied
Econometrics 1: 29-53.
Cameron AC, Trivedi PK. 1998. Regression Analysis of Count Data. Cambridge University Press:
Cambridge, MA. Campolieti M. 2002. The recurrence of occupational injuries: Estimates from a
zero-inflated count model. Applied Economics Letters 9: 595-600.
Chang F-R, Trivedi PK. 2003. Economics of Self-Medication: Theory and Evidence. Health
Economics 12: 721-739.
Chernoff H. 1954. Sobre la distribución de la razón de verosimilitud. Annals of Mathematical

Statistics 25: 573-578.
Gourieroux C, Monfort A, Trognon A. 1984a. Pseudo Maximum Likelihood Methods: Theory.
Econometrica 52: 681-700.
Gourieroux C, Monfort A, Trognon A. 1984b. Métodos de pseudo máxima verosimilitud:

Application to Poisson models. Econometrica 52: 701-721.
Hall DB, Shen J. 2010. Estimación robusta para la regresión de Poisson inflada por cero.
Scandinavian Journal of Statistics 37: 237-252.
Kim Y-S, Lee M-J. 2011. Effect of informal family care on formal health care: Zero-inflated
endogenous count for censored response, University of York, HEDG Working Paper 10/11.
Lambert D. 1992. Zero-inflated Poisson regression with an application to defects in

manufacturing. Technometrics 34: 1-14.
Mullahy J. 1986. Specification and Testing of Some Modified Count Data Models. Journal of
Econometrics 33: 341-365.
Papadopoulos G, Santos Silva JMC. 2008. Identification Issues in Models for Underreported
Counts, University of Essex, Discussion Paper No. 657.
Pizer SD, Prentice JC. 2011. El tiempo es dinero: Outpatient Waiting Times and Health
Insurance Choices of Elderly Veterans in the United States. Journal of Health Economics 30:
626-636.
Santos Silva JMC, Tenreyro S. 2006. El registro de la gravedad. The Review of Economics and
Statistics 88: 641-658. Santos Silva JMC, Tenreyro S. 2011.
Más pruebas de simulación sobre el rendimiento del estimador de pseudo-máxima

verosimilitud de Poisson. Economics Letters 112: 220-222.
Sari N. 2009. Physical Inactivity and its Impact on Healthcare Utilization. Health Economics 18:
885-901.
Sarma S, Simpson W. 2006. A mircroeconometric analysis of Canadian health care utilization.

Health Economics 15: 219-239.
Sheu M-L, Hu T-W, Keeler TE, Ong M, Sung H-Y. 2004. El efecto de un cambio importante en el
precio de los cigarrillos sobre el comportamiento de los fumadores en California: un modelo
binomial negativo con inflación cero. Health Economics 13: 721-791.
Street A, Jones A, Furuta A. 1999. Cost sharing and pharmaceutical utilisation and expenditure
in Russia. Journal of Health Economics 18: 459-472.
White H. 1982. Maximum Likelihood Estimation of Misspecified Models. Econometrica 50: 1-

25.
Winkelmann R. 2008. Econometric Analysis of Count Data, quinta edición. Springer: Berlín.
Winkelmann R, Zimmermann KF. 1993. Poisson-Logistic Regression, Department of Economics,
University of Munich, Working Paper No. 93-18.
Yen ST, Tang C-H. Su S-JB. 2001. Demand for Traditional Medicine in Taiwan: A Mixed
Gaussian-Poisson Model Approach. Health Economics 10: 221-232.

Estimación Consistente de Modelos de Recuento Con Inflación Cero

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Estimación Consistente de Modelos de Recuento Con Inflación Cero

Uploaded by

Copyright:

Available Formats

HEALTH ECONOMICS Health Econ.

(2012) Publicado en línea en Wiley Online Library

ESTIMACIÓN CONSISTENTE DE MODELOS DE RECUENTO CON INFLACIÓN CERO

KEVIN E. STAUBa y RAINER WINKELMANNa,b,c,*

a Universidad de Zúrich, Zúrich, Suiza

b CESifo, Múnich, Alemania

c IZA, Bonn, Alemania

Recibido el 8 de agosto de 2011; revisado el 23 de marzo de 2012; aceptado el 24 de abril de

PALABRAS CLAVE: exceso de ceros; Poisson; logit; heterogeneidad no observada; mala

El llamado problema del "exceso de ceros" afecta a la mayoría de las aplicaciones

λ ( x)=E g ( y ∣ x )=exp ⁡( xβ)

∂ E ( y ∣ x , z) exp ⁡( x ' β ) exp ⁡( x ' β ) exp ⁡( z ' γ )

Bajo el supuesto mantenido de un proceso de generación de datos con inflación cero, se

La estimación de estos parámetros de interés en general no requiere la especificación de una

E( y ∣ x )=(1−π) λ (x)=exp ⁡( ln ⁡(1−π )+ x β )

y no es posible identificar por separado π y la constante en el modelo principal. Por lo tanto,

donde las funciones h1 ( x i , z i ) y h2 ( x i , z i ) son instrumentos. En general, las condiciones de

donde μ x =μ( x ; β )=E( y ∣ x ) y μ x =( ∂ a ( μ x ) /∂ μx ) / ( ∂ c ( μ x ) /∂ μx ). Los LEF tienen la propiedad

donde h( x )=( d c ( μ x ) /d μ x ) ( ∂ μx /∂ x ). Supongamos que el modelo verdadero es

La distribución de Poisson es un miembro de la LEF con a ( μ x )=−μ x ,b ( y )=−ln ⁡( y ) y

donde λ́ ( x i , z i , β , δ )=exp ⁡( xi β ) / ( 1+exp ⁡( z i δ ) ). Las condiciones de primer orden son

La resolución de las condiciones no lineales de primer orden mediante el algoritmo de

y= { 0 with probability π (z)

Además, el CEF padre de la ecuación (12) contiene un componente aleatorio v que se

marginada sobre v es entonces la distribución logarítmica normal de Poisson (por ejemplo,

Var ⁡( y ∣ x )=exp ⁡( β 0+ βx ) + [ exp ⁡( β 0 + βx ) ] ( e −1 )

σ 2(x )=ln ⁡{1+c exp ⁡[ (k−1) ( β 0+ βx ) ] }

el parámetro k controla la no linealidad de la función de varianza, mientras que c es un

El panel de la izquierda, titulado "Sin sobredispersión", muestra los resultados de la primera

La precisión es aproximadamente un orden de magnitud inferior a la de ZIP. Los resultados de

El panel central ("Sobredispersión cuadrática") contiene los resultados obtenidos en la

Como se mencionó en la sección 3.2, se pueden obtener muchos estimadores consistentes

5. ILUSTRACIÓN: DEMANDA DE SERVICIOS MÉDICOS

Las principales cantidades de interés en la mayoría de las aplicaciones de datos de recuento

Los autores agradecen a dos árbitros anónimos sus útiles comentarios.

Bauer T, Göhlmann S, Sinning M. 2007. Gender Differences in Smoking Behavior. Health

Chernoff H. 1954. Sobre la distribución de la razón de verosimilitud. Annals of Mathematical

Gourieroux C, Monfort A, Trognon A. 1984b. Métodos de pseudo máxima verosimilitud:

Lambert D. 1992. Zero-inflated Poisson regression with an application to defects in

Más pruebas de simulación sobre el rendimiento del estimador de pseudo-máxima

Sarma S, Simpson W. 2006. A mircroeconometric analysis of Canadian health care utilization.

White H. 1982. Maximum Likelihood Estimation of Misspecified Models. Econometrica 50: 1-

You might also like