Professional Documents
Culture Documents
MODELOS DE PROBABILIDAD
19.1. Caractersticas
En el modelo mnimo cuadrtico
t kt k t t
X X Y c | | | + + + + =
2 2 1
- Las variables X pueden cuantitativas o cualitativas
- La variable Y slo puede ser cuantiativa
En la prctica, en muchas ocasiones, se tiene la necesidad de explicar la
ocurrencia de un evento. Esto se representa a travs de una variable binaria
que asume el valor 1, si el evento sucede, y el valor 0, si no sucede; es
decir, produce una respuesta de s o no, de acuerdo a la presencia de la
cualidad que se quiera medir. Este tipo de situaciones se estudian a partir
de los Modelos de Probabilidad.
La variable dependiente binaria tambin se denomina variable dependiente
limitada o variable indicadora. Estas variables tienen restringido su rango de
variabilidad y muchas conducen a soluciones de esquina, esto significa que
resulta ptimo elegir el 0 para un nmero importante de situaciones.
Ejemplo. Supongamos que se desea estudiar la participacin de la
fuerza laboral de hombres adultos en funcin de la tasa de desempleo,
de la tasa de salarios promedio, del ingreso familiar, de la educacin,
etc. Una persona o bien est en la fuerza laboral o no est. Por tanto,
la variable dependiente que es la participacin en la fuerza laboral,
solamente puede adquirir dos valores: 1 si la persona est en la fuerza
laboral y 0 si no lo est.
Se considerarn los cuatro enfoques de mayor difusin
Modelo lineal de probabilidad (MPL)
Modelo Logit
Modelo Probit
Modelo Tobit
714
19.2. Modelo Lineal de Probabilidad
En la dcada del 60 y principios de la siguiente, el modelo de probabilidad
lineal (MPL) se utiliz ampliamente y la estimacin se realizaba a partir del
mnimo cuadrado ordinario. En estos modelos, la variable Y es indicadora de
ocurrencia o no ocurrencia de un evento.
Dado
=
ocurre no evento el si
ocurre evento el si
Y
0
1
El modelo se especifica
t kt k t t
X X Y + + + + =
2 2 1
(1)
donde,
Y es una variable cualitativa
k
X X X , ,
3 2
son variables explicativas de carcter cuantitativo o cualitativo
Si 0 = ) ( E
i
, entonces la esperanza condicional
kt k t i t
X X ) X Y ( E + + + =
2 2 1
(2)
Debe interpretarse como la probabilidad de que ocurra el evento, dado que
ocurren las
i
X ; es decir,
( )
kt k t i t i i
X X ) X Y ( E X Y P + + + = = =
2 2 1
1
Modelos de este tipo, que expresan la variable binaria como una funcin
lineal de la o las variables independientes, se denominan Modelo de
Probabilidad Lineal puesto que la ) X Y ( E
i t
, puede ser interpretada como la
probabilidad condicional de que el evento suceda dado
i
X .
Ejemplo. En un estudio en los hogares, si Y mide la posesin de una
casa -Y=1 cuando la familia posee casa y Y=0 cuando no posee- y X
el nivel de ingresos. La ( )
i i
X Y E da la probabilidad de que una familia
posea una casa dado que tiene un ingreso de cierta cantidad
i
X
715
Haciendo, 1 ) ( = =
i i
Y prob P -que el evento ocurra- y 0 ) ( 1 = =
i i
Y prob P -
que el evento no ocurra-, la distribucin de probabilidad de la variable Y
(que sigue la distribucin de probabilidad Bernoulli
1
) viene dada por:
i
Y Probabilidad
0
i
P 1
( )
kt k t i i
X
X
X Y E + + + = =
2 2 1
1
1
i
P
( ) ( )
kt k t i i
X
X
X Y E + + + = =
2 2 1
1 0
(3)
Total 1
Por consiguiente, por definicin de esperanza matemtica se obtiene
( ) ( ) ( )
i i i i
P P P Y E = + = 1 1 0
comparando con ( )
kt k t i i
X X X Y E | | | + + + =
2 2 1
, se puede igualar
( )
i kt k t i i
P X X X Y E = + + + = | | |
2 2 1
es decir, la esperanza condicional del modelo puede ser interpretada, de
hecho, como la probabilidad condicional de
i
Y
Puesto que la probabilidad
i
P debe encontrarse entre 0 y 1, se tiene la
restriccin
( ) 1 0 s s
i i
X Y E (4)
es decir, la esperanza condicional o probabilidad condicional debe
encontrarse entre 0 y 1.
En aplicaciones prcticas el MPL, especificado en (1), presenta problemas
tales como,
No normalidad de los
t
c
. Al igual que la variable Y, los errores siguen
una distribucin Bernoulli:
kt k t i i i
X
X
Y Y
Y e = =
2 2 1
1
El modelo de probabilidad Bernoulli se aplica a una variable que puede asumir solo dos valores y donde
la suma de las probabilidades de ocurrencia de cada uno de esos valores es igual a 1. El modelo binomial
es la suma de n variables Bernoulli.
Bernoulli Binomial
Media ( ) | | X E
p np
Varianza ( ) | | X V
p(1-p) np(1-p)
Ya-Lu Chou (1977) pg. 152
716
Y e Probabilidad
1
kt k t
X
X
2 2 1
1 i
P
0
kt k t
X
X
2 2 1
0 i
P 1
Este problema puede obviarse si se trabaja con un alto nmero de
observaciones, porque se sabe que si n tiende a infinito, los
estimadores mnimoS cuadrticos tienden a estar normalmente
distribuidos.
Heterocedasticidad de
t
. En la distribucin Bernoulli, la media es p y
la varianza es p(1-p); lo cual revela que la varianza es funcin de la
media, por lo que la varianza del error es heterocedstica.
En el MLP, si
kt k t
X
X
P + + + =
2 2 1
y la varianza es P(1-P), quiere
decir que la varianza de es heterocedstica porque depende de los
valores de X.
Una forma de resolver el modelo es transformar (1) dividiendo ambos
miembros por ( )
i i i
W P P = 1 ; es decir:
i
t
i
kt
k
i
t
i i
t
W W
X
W
X
W W
Y
+ + + + =
2
2
1
El trmino de error es homocedstico; la estimacin se realiza
mediante mnimos cuadrados ponderados, lo cual significa aplicar
mnimos cuadrados ordinarios a un modelo ponderado por W.
La posibilidad de que ( ) X Y
E
t
se encuentre fuera del rango 0 1. Aqu
radica el problema real en la estimacin mnimo cuadrtica del MPL.
En la prctica se resuelve de la siguiente manera
Si 0 < Y
se asume que 0 = Y
Si 1 > Y
se asume que 1 = Y
Valores generalmente bajos de
2
R
. El
2
R
no es considerado como
medida de bondad de ajuste porque los valores observados de Y
sern 0 o 1; mientras que, los valores estimados abarcan todo el
recorrido de los nmeros reales. Esto significa que:
1
1 0
0
>
s s
<
i
i
i
Y
ser puede Y
En la prctica, se realiza una
estimacin restringida o truncada:
714
Si
1 >
i
Y
se asume que
1 =
i
Y
Si
0 <
i
Y
se asume que
0 =
i
Y
El valor de
2
R
no puede indicar la
bondad de la estimacin porque
habr un grupo de observaciones
que asumirn un valor estimado
que no es el correcto.
Cuando la dispersin de las
observaciones est muy
concentrado en dos puntos, puede
esperarse un
2
R
cercano al 0,8. En
general, se aconseja no tener en
cuenta el
2
R
como medida de
bondad de ajuste
Aldrich y Nelson sostienen que el uso del coeficiente de determinacin como
estadstico resumen debe evitarse en modelos con variable dependiente
cualitativa.
Para solucionar estos problemas se presentan los modelos Logit y Probit
(Normit).
An salvando estos problemas el MPL no es un modelo muy atractivo
porque supone que aumenta linealmente con X, es decir el efecto marginal
o incremental de X permanece constante todo el tiempo. En realidad se
esperara que
i
P estuviera relacionado en forma no lineal con
i
X
Ejemplo. Si se aplica el modelo de propiedad de la vivienda y se
encuentra que 10 . 0
2
= | significara que a medida que X aumenta
una unidad (supongamos en miles de pesos), la probabilidad de ser
propietario de una vivienda aumenta en la misma cantidad constante
de 0.10. Esto es as para niveles de ingreso de $ 8.000; $15.000 o
$50.000. Esto no parece ser realista.
Para ingresos muy bajos una familia no poseer una casa, pero a un
nivel de ingresos suficientemente alto, por ejemplo $a es muy
probable que sta s posea una casa. Cualquier aumento en el
ingreso ms all de $a tendr un efecto pequeo sobre la
probabilidad de poseer una casa. As a ambos extremos de la
distribucin de ingresos, la probabilidad de poseer una casa no se
ver afectada, virtualmente, por un pequeo incremento en X .
En sntesis, al modelo especificado en (1) se lo denomina lineal de
probabilidad porque la probabilidad de respuesta es lineal en los parmetros
714
. A la expresin se la denomina probabilidad de respuesta e
indica que las probabilidades (tanto de ocurrencia como de no ocurrencia)
dependen de los valores de X.
Para solucionar estos problemas se presentan a continuacin los modelos
Logit y Probit (Normit).
Ejemplo: Estudio sobre la vulnerabilidad en la ciudad de Ro Cuarto
Se cuenta con informacin para 1549 hogares de la ciudad de Ro
Cuarto con hijos nacidos durante 2005.
A partir de un estudio exploratorio (AFCM) se identificaron nueve
grupos sociales que se clasificaron en
Esta particin permiti la construccin de la variable Alta
Vulnerabilidad (ALTAVUL) de la siguiente manera:
715
El objetivo es identificar los fenmenos de mayor impacto en la
determinacin de la alta vulnerabilidad en la ciudad de Ro Cuarto.
El modelo se especifica
AIIAIuI
I
= [
1
+[
2
HA
+[
3
NBI
+ [
4
EA
+ [
5
AI
+ [
6
IH
+ [
7
IPC
+e
Donde
MAD indica la situacin de la madre segn su edad
HA = _
1, moJrc oJolcsccntc
u, moJrc oJulto
NBI indica las necesidades bsicas insatisfechas que tiene el hogar
observado
NBI = _
1, bogor con NBI
u, bogor sin NBI
EDAD edad actual de la madre
AI nmero de personas que aportan ingresos en el hogar
IM ingreso mensual del hogar en pesos de 2005
IPC ingreso per cpita diario del hogar en pesos de 2005
La estimacin del modelo se realiza por mnimo cuadrados ordinarios,
luego se le dan valores de referencia a las variables explicativas y el
valor AIIAIuI
= [
1
+ [
2
X
2
+ [
3
X
3
+ [
4
X
4
++ [
k
X
k
+ e
Donde
)
La funcin de verosimilitud es la probabilidad de que
=1
_(1 - P
)
=0
= _0(X
[)
i
n
=1
[1 -0(X
[)
1-
i
Con P
= P( = 1|X
1
X
2
X
k
)
717
= F([
1
+[
2
X
2
+[
3
X
3
+[
4
X
4
+ + [
k
X
k
)
= F(X
[)
El estimador de mxima verosimilitud de es el que maximiza el logaritmo
de la funcin de verosimilitud
l([) = ln I([)
|
ln F(X
[) +(1 -
) ln F(1 -X
[)]
1
=1
Que ser un estimador consistente, asintticamente normal y
asintticamente eficiente.
Las condiciones de primer orden sern
S([) = _
F(X
[)
-
1 -
1 -F(X
[)
_
1
=1
X
(X
[)
= _
- F(X
[)
F(X
[) (1 - F(X
[))
_
1
=1
X
(X
[) = u
Al ser un problema no lineal, su resolucin se alcanza al aplicar mtodos
iterativos y el estimador se obtiene por mtodos numricos iterativos.
En definitiva, el principio de mxima verosimilitud consiste en escoger
valores estimados de los parmetros que maximicen la funcin de
verosimilitud.
Los estimadores de mxima verosimilitud son los valores por los cuales la
probabilidad de observar la muestra que se observa es tan grande como
sea posible.
Los modelos logit y probit difieren en la especificacin del trmino de error
e
= Pr( = 1) = Pr|e
) -([
1
+ [
2
X
2
+ [
3
X
3
+ [
4
X
4
++ [
k
X
k
)]
= 1 +F|-([
1
+[
2
X
2
+ [
3
X
3
+ [
4
X
4
+ + [
k
X
k
)]
Donde F es la funcin de distribucin acumulada de e
Si la distribucin de e
es simtrica, haciendo
Z = [
1
+[
2
X
2
+ [
3
X
3
+ [
4
X
4
+ + [
k
X
k
1 -F(-Z) = F(Z)
Es posible escribir
718
P
= F([
1
+ [
2
X
2
+ [
3
X
3
+ [
4
X
4
++ [
k
X
k
)
La forma funcional de F depender de la suposicin en torno al trmino ; si
la distribucin que acumula es logstica, se tiene el logit, mientras que, si
es normal se tiene el probit (o normit).
Los modelos logit y probit son modelos de respuesta binaria
P( = 1 X
1
X
2
X
k
) = F([
1
+ [
2
X
2
+ [
3
X
3
+ [
4
X
4
++ [
k
X
k
) = F(Z)
La F(Z) toma valores entre 0 y 1.
Si F(Z) es logstica
FSi F(Z) es logstica
F(Z) =
1
1 +c
-z
=
c
z
1 +c
z
Da lugar al modelo logit cuya expresin ser
= F(Z) =
c
z
1 +c
z
= F([
1
+ [
2
X
2
+ + [
k
X
k
) =
c
[
1
+[
2
X
2i
++[
k
X
ki
1 +c
[
1
+[
2
X
2i
++[
k
X
ki
Da lugar al modelo logit cuya expresin ser
= F(Z) =
c
z
1 +c
z
= F([
1
+ [
2
X
2
+ + [
k
X
k
) =
c
[
1
+[
2
X
2i
++[
k
X
ki
1 +c
[
1
+[
2
X
2i
++[
k
X
ki
Si F(Z) es normal
F(Z) = (Z) = _ (:)J:
z
-
Donde
(:) =
1
2n
c
-z
2
2
~N(u,1)
Se tiene el modelo probit, cuya expresin ser
= F(Z) = _
1
2n
z
-
c
-z
2
2
Jz = F([
1
+ [
2
X
2
++ [
k
X
k
)
= _
1
2n
[
1
+[
2
X
2i
++[
k
X
ki
-
c
-z
2
2
Jz
719
19.4 Modelo Logit
El modelo logit supone que una variable dependiente = 1,
= [
1
+ [
2
X
2
+ + [
k
X
k
Donde se tiene una variable latente
> u, y e
< 1
Cuando Z , c
z
u y cuando Z -, c
z
2
P
=
c
z
1 +c
z
Si no se presenta
1 -P
=
1
1 +c
z
La razn de probabilidades a favor del evento bajo estudio es
P
1 -P
=
c
z
1 + c
z
1
1 + c
z
= c
z
Tomando logaritmo de la razn de probabilidades
I = ln _
P
1 -P
] = ln c
z
= Z =[
1
+ [
2
X
2
++ [
k
X
k
2
Recuerde de que e=2.71828
720
A L se lo denomina logit; si es positivo la probabilidad tiende a 1, si es
negativo tiende a 0. L se relaciona linealmente con las variables X y los
coeficientes ; mientras que, la probabilidad guarda una relacin no lineal
con las variables X y los coeficientes .
Para estimar un modelo logit, se debe especificar el modelo
= [
1
+[
2
X
2
+ +[
k
X
k
Donde
= 1 el evento se presenta,
= u el evento no se presenta,
e
~ logstica
La estimacin da por resultado
I
`
= ln _
P
`
1 -P
`
_ = ln c
z
= Z =[
`
1
+[
`
2
X
2
+ +[
`
k
X
k
[
1 -P
`
_
aplicando antilogaritmo
c
L
`
= c
z
= c
In_
P
`
i
1-P
`
i
]
c
z
=
P
`
1 -P
`
La incgnita es la probabilidad, que se resuelve como P
=
c
Z
1+c
Z
Los cambios en X impactan en L en la cuanta , como se dijo
anteriormente, y en la probabilidad de acuerdo a
JP
JX
= [
`
(1 - P
`
)P
`
721
Ejemplo: Propiedad de la vivienda (ejemplo desarrollado en Gujarati
(2004))
Ahora se considerar la siguiente especificacin
t t t
X Y c | | + + =
2 1
( )
z
z
z X
t i
e
e
e e
X Y E P Y
t
+
=
+
=
+
= = = =
+
1 1
1
1
1
1
) (
2 1
| |
donde X es el ingreso
1 = Y significa que la familia es propietaria de una casa
z
z
e
e
+ 1
representa la probabilidad de que el evento se presente.
Por simplicidad, se escribe la ecuacin de la siguiente manera:
i
z
i
e
P
+
=
1
1
; donde
i 2 1 i
X z | |
+ =
Esta ltima ecuacin es la funcin de distribucin logstica
(acumulativa).
Es fcil verificar que mientras
i
z se encuentra dentro de un rango
de a ,
i
P se encuentra dentro de un rango de 0 a 1 y que
i
P
no est linealmente relacionada con
i
z (es decir, con
i
X ),
satisfaciendo as los dos requerimientos considerados
anteriormente. Pero se crea un problema de estimacin porque
i
P
no es solamente no lineal en las X sino tambin en los | , como
puede verse a partir de la ecuacin del modelo.
Esto significara que no se puede utilizar MCO para estimar los
parmetros. Pero, este problema es ms aparente que real ya que el
modelo es intrnsecamente lineal, lo cual puede verse de la siguiente
manera.
Si el evento se presenta
i
z
i
e
P
+
=
1
1
Si el evento no se presenta la probabilidad es
z
i
e
P
+
=
1
1
1
722
La razn de probabilidad a favor del evento bajo estudio se expresa
como
z
z
z
z
i
i
e
e
e
e
P
P
=
+
+
=
1
1
1
1
La razn de probabilidades a favor de poseer una casa se interpreta
como la probabilidad de que una familia posea una casa a la
probabilidad de que no la posea. As si 8 . 0 =
i
P significa que las
probabilidades son 4 a 1 a favor de la familia que posee una casa.
Tomando logaritmo natural de la razn de probabilidades
t i
z
i
i
i
X Z e In
P
P
ln L
i
2 1
1
| | + = = =
|
|
.
|
\
|
=
L es denominado logit, es lineal en X y lineal en los parmetros:
Si 0 > L a valores crecientes de X , se incrementa la probabilidad
de ocurrencia del evento
Si 0 < L a valores crecientes de X , disminuye la probabilidad de
ocurrencia del evento
A continuacin se enuncian los aspectos que caracterizan al modelo
Logit:
1. A medida que P va de 0 a 1 (cuando Z vara de a ) el Logit
L va de a . Es decir, aunque las probabilidades (por
necesidad) se encuentran entre 0 y 1, los Logit no estn limitados
en esa forma.
2. Aunque L es lineal en X, las probabilidades en s mismas no lo
son. Esta propiedad hace contraste con el MLP en donde las
probabilidades aumentan linealmente con X.
3. Utilizando el clculo, puede demostrarse que ) 1 ( P P dX dP
i i
= | ,
lo cual muestra que la tasa de cambio en la probabilidad con
respecto a X contiene no solamente a
i
| sino tambin al nivel de
probabilidad a partir del cual se mide el cambio. A propsito,
obsrvese que un cambio unitario en
i
X sobre P es mximo
cuando 5 . 0 = P y mnimo cuando P est cercano a 0 o a 1.
4. La interpretacin del modelo LOGIT es la siguiente:
i
| , la
pendiente, mide el cambio en L ocasionado por un cambio unitario
en
i
X . En el ejemplo, como el logaritmo de las probabilidades a
723
favor de poseer una casa cambia a medida que el ingreso cambia en
una unidad (supongamos, $1.000). El intercepto
1
| es el valor del
logaritmo de las probabilidades a favor de poseer una casa si el
ingreso es cero.
5. Dado un nivel de ingreso determinado, por ejemplo $a, si
realmente se desea estimar la probabilidad misma de poseer una
casa, y no las probabilidades a favor de poseer una casa, esto puede
hacerse directamente a partir de la primera ecuacin una vez de que
se disponga de las estimaciones de
1
| y
2
| .
6. Mientras que el MLP supone que
i
P est relacionado linealmente
con
i
X , el modelo LOGIT supone que el logaritmo de la razn de
probabilidades est relacionado linealmente con
i
X .
Estimacin del modelo
A fines de la estimacin el modelo se especifica
t t
i
i
i
X
P
P
L c | | + + =
|
|
.
|
\
|
=
2 1
1
ln
Para estimar el modelo, adems de los valores de
i
X , se necesitan
los valores del logit
i
L pero se incurre en algunas dificultades. En el
caso del ejemplo (y en otros similares) si existe informacin
disponible sobre familias individuales, entonces 1 =
i
P si una familia
posee una casa y 0 =
i
P si una familia no la posee. Pero si se
colocan estos valores directamente en el logit
i
L se obtiene
|
.
|
\
|
=
0
1
ln
i
L si una familia posee una casa
|
.
|
\
|
=
1
0
ln
i
L si una familia no posee una casa.
Ambas expresiones carecen de sentido.
Por consiguiente, si la informacin disponible est a nivel micro o
individual, no se puede estimar el modelo mediante la rutina del
mtodo de mnimos cuadrados ordinarios. En esta situacin se
recurre a mxima verosimilitud. Pero es posible estimar por MCO si
se tiene datos agrupados
724
Estimacin con datos agrupados
La informacin se agrupa siguiendo algn criterio y se estima por
mnimos cuadrados ordinarios. En el ejemplo de familias propietarias
de viviendas, la informacin puede agruparse segn el nivel de
ingresos.
Obs ,
i
X ingreso
(miles de $)
,
i
N nmero de familias
con ingreso
i
X
,
i
n nmero de familias
que poseen casa
1 6 40 8
2 8 50 12
3 10 60 18
4 13 80 28
5 15 100 45
6 20 70 36
7 25 65 39
8 30 50 33
9 35 40 30
10 40 25 20
Luego se deben seguir los siguientes pasos:
1. Para cada nivel de ingreso
i
X calcular la probabilidad estimada
de poseer una casa como
|
|
.
|
\
|
=
i
i
i
N
n
P
ser
una estimacin razonablemente buena de
i
P (de la estadstica
elemental recuerde que la probabilidad de un evento es el lmite de
la frecuencia relativa a medida que el tamao de la muestra se hace
infinitamente grande).
2. Utilizando
i
P estimado, se puede obtener el Logit estimado como
t
i
i
i
X
P
P
L
2 1
ln
| | + =
|
|
.
|
\
|
=
3. Por lo tanto, dada la informacin agrupada o replicada
(observaciones repetidas), se puede obtener informacin sobre la
variable dependiente, los Logit.
4. La interpretacin se realiza de la siguiente manera:
|
|
.
|
\
|
=
i
i
i
P
P
L
1
ln
725
al tomar antilogaritmo a esta expresin se obtiene la razn de
probabilidades
i
i
P
P
Pero
z
i
i
e
P
P
=
1
esto significa que
t
X
i
i
e
P
P
2 2 1
| | +
=
Al resultado de evaluar
z
e se le resta 1 y se lo multiplica por 100,
este resultado es el cambio porcentual a favor de la ocurrencia del
evento ante el cambio en algn regresor.
5. Si se quiere calcular la probabilidad P se debe hacer
( )
z
z
i i
z
i
z
i
i
e
e
P P e P e
P
P
+
= = =
1
1
1
6. Puede demostrarse que si
i
N es relativamente grande y cada
observacin en una clase de ingreso dado
i
X est distribuida en
forma independiente como una variable binomial, entonces
( )
(
~
i i i
i
P P N
N
1
1
, 0 c
por consiguiente, como en el caso del MLP, el trmino de
perturbacin es heterocedstico y habr que utilizar MCP. En esta
situacin se usar la siguiente transformacin del modelo
i i i i i i i i
W X W W L W c | | + + =
1
que se escribe como:
i i i i i
X W L v | | + + =
- -
1
donde ( )
i i i i
P P N W
El intercepto estimado es ( )
i i i i
P P N
|
Como muestra esta regresin, el coeficiente de pendiente estimado
sugiere que para un incremento unitario ($1.000) en el ingreso
ponderado, el logaritmo ponderado de las probabilidades a favor de
poseer una casa aumenta en alrededor de 0.08.
Tomando antilogaritmo de 0.0787, se obtiene aproximadamente
1.0818, lo cual significa que para un incremento unitario en los
ingresos ponderados, las probabilidades ponderadas a favor de
poseer una casa aumentan en 1.0818 o alrededor de 8.18%.
Se puede calcular la probabilidad de poseer una casa, dado el
ingreso, a partir de la razn de probabilidades?
Este clculo puede hacerse fcilmente. Supngase que se desea
estimar la probabilidad de poseer una casa para el nivel de ingreso
de $20.000. Se tiene el dato observado en la Tabla 16.1 para la
727
observacin 6, donde 20 =
i
x , 70 =
i
N y 36 =
i
n , y la estimacin
que surge de la Tabla 16.1.
*
078669 , 0 593238 , 1
i i
x w L + =
-
(1)
Se debe tener en cuenta que
( ) 181592 , 4
70
34
70
36
70
= = =
i i i
P P N w (2)
w x x
i i
=
*
Si 20 = x entonces 63184 , 83 181592 , 4 20
*
= =
i
x (3)
Reemplazando (2) y (3) en (1) 083038 , 0
*
=
i
L
Pero w L L
i i
=
*
, por lo que 019858 , 0
*
= =
w
L
L
i
i
.
Ahora bien,
i
i
i
P
P
L
=
1
ln
Tomando el antilogaritmo de
i
L
| |
i
i P
P
i
P
P
e L anti
i
i
= =
1
log
1
ln
(4)
Es decir, | | 980338 , 0 log
019858 , 0
= =
e L anti
i
(5).
Igualando (4) y (5) se obtiene
( ) | | 495036 . 0
980338 . 0
= =
i i i
P P P
Es decir, la probabilidad de que una familia con un ingreso de
$20.000 posea una casa es de alrededor de 0,50.
Estimacin con datos individuales
Dado el modelo
t kt k t i
X X L c | | | + + + =
2 2 1
El modelo estimado con datos individuales por Logit ser
kt k t i
X X L | | |
2 2 1
+ + =
728
Este resultado se interpreta de la siguiente manera. En primer lugar
debe tenerse en cuenta que
|
|
.
|
\
|
=
i
i
i
P
P
L
ln
Al tomar antilogaritmo en la expresin anterior, tendremos la razn
de probabilidades:
( )
kt k t i
i
X X z
i
i
P
P
i
e e
P
P
e L anti
| | | + +
|
|
.
|
\
|
= =
= =
2 2 1
log
ln
Para encontrar la probabilidad de ocurrencia del evento dado que las
variables explicativas se comportan de una manera determinada, se
procede de la siguiente manera:
( )
z
z
i
i
z
i
z
i
i
e
e
P
P e P e
P
P
+
=
= =
1
1
1
Habitualmente, para encontrar el valor de z se le asigna a las
variables cuantitativas el valor medio; con las cualitativas se trabaja
asignando el valor 1 o el valor 0, de acuerdo a que se quiera
encontrar la probabilidad del evento cuando la cualitativa est
presente o ausente.
La tasa marginal de cambio en la probabilidad de ocurrencia del
evento ante cambios en las variables explicativas cuantitativas viene
dado por:
( )P P
dX
dP
i
i
1
= |
19.5 Modelo Probit
Como se ha mencionado, para explicar el comportamiento de una variable
dependiente binaria es preciso usar una funcin de distribucin acumulada
seleccionada apropiadamente.
Para el caso del modelo Logit se us la funcin logstica acumulativa. La
funcin de distribucin acumulada normal tambin brinda utilidad a estos
efectos dando lugar a lo que se conoce como modelo Probit o Normit.
729
El modelo probit supone que una variable dependiente Y=1 si una variable
latente o indicadora
= [
1
+ [
2
X
2
++ [
k
X
k
+ e
t
Con e
t
que se distribuye normal de media 0 y desvo 1.
Z = [
1
+[
2
X
2
+ +[
k
X
k
Cuanto ms alto sea el valor de
= E( = 1 X ) = Pr(
Z) = F(Z)
= F([
1
+ [
2
X
2
+ + [
k
X
k
)
= _
1
2n
[
1
+[
2
X
2
++[
k
X
k
-
c
-
z
2
2
JZ
Es decir, la funcin de distribucin acumulativa que permite explicar el
comportamiento de una variable dictoma es la normal. El valor de Z se
obtiene de igual manera que en el logit, se consideran los valores
promedios de las variables cuantitativas y, alternativamente, los valores 1 o
0 en las variables cualitativas lo que permite definir una situacin de
referencia.
Ejemplo: Propiedad de la vivienda (ejemplo desarrollado en Gujarati
(2004))
Supngase que la decisin de la isima familia de poseer una casa o
de no poseerla depende de un ndice de conveniencia no observable
i
I , que est determinado por una o varias variables explicativas, por
ejemplo, el ingreso
i
X , de tal manera que cuando mayor sea el valor
del ndice, mayor ser la probabilidad de que la familia posea
vivienda.
De esta manera:
i i
X I
2 1
| | + =
Cmo se relaciona el
i
I no observable con la decisin de poseer una
casa?
Igual que antes, sea 1 = Y si la familia posee una casa e 0 = Y si no
la posee.
730
Ahora bien, es razonable suponer que para cada familia hay un nivel
crtico o umbral del ndice, que se puede denominar
-
i
I , tal que si
-
>
i i
I I
la familia poseer una casa, de lo contrario no lo har.
Si se supone que el ndice y el umbral se distribuyen normales con
igual media y varianza, ser posible estimar los parmetros del
modelo y obtener alguna informacin adicional.
Dado el supuesto de normalidad, la probabilidad de que
-
i
I sea menor
o igual que
i
I puede ser calculada a partir de la FDA normal
estandarizada como
( ) ( ) ( )
} }
+
-
= = = s = = =
i i
X
t
I
t
i i i i
dt e dt e I F I I Y P
2 1
2 2
2 / 2 /
2
1
2
1
Pr 1 Pr
| |
t t
donde t es una variable normal estandarizada, es decir t ~ N(0,1).
Ahora, para estimar el modelo, deber tenerse en cuenta que:
( )
i 2 1 i
1
i
X P F I | | + = =
Al igual que el logaritmo de la razn de probabilidades (en el modelo
Logit), la inversa de la FDA normal sirve para hacer lineal al modelo
Probit.
De esta forma el modelo a estimar resulta de conocer las
probabilidades, en este caso
( )
t t i i
X P F I c | | + + = =
2 1
1
Luego, aplicar MCP.
Notas:
La perturbacin
i
c , al igual que antes, es heterocedstica. Se puede
demostrar que su varianza est dada por ( )
2 2
/ 1
i i i i
f N P P =
c
o donde
2
i
f
es la funcin de densidad normal estndar evaluada en ( )
i
P F
1
. Por lo
tanto, habr que ponderar el modelo para aplicar mco.
La variable no observable es conocida como desviacin equivalente
normal o simplemente normit. Puesto que normit ser negativo siempre
731
que 5 . 0 <
i
P , en la prctica se agrega el nmero 5 al normit y el
resultado se denomina probit.
Los dos mtodos presentados son bastante similares, generalmente por
conveniencia matemtica se prefiere el logit. Pero como lo sugieren
algunos autores una estimacin logit de un parmetro multiplicada por
0.625 proporciona una aproximacin relativamente buena de la
estimacin probit del mismo parmetro.
Tambin, se puede demostrar que
Logit MPL
| | 25 . 0 ~ , excepto para el
intercepto que es 5 . 0 25 . 0 + ~
Logit MPL
| | .
Todas las aproximaciones anteriores funcionan bien cuando el valor
promedio de la probabilidad de que suceda el evento no este lejana de
0.5.
Se debe tener cuidado al interpretar el coeficiente de pendiente. En el
mpl el coeficiente de pendiente mide directamente el cambio en la
probabilidad de que ocurra un evento como resultado de un cambio
unitario en el valor del regresor. En el logit la tasa de cambio en la
probabilidad est dada por ( )
i i j
P P 1 | donde
j
| es el coeficiente del j
simo regresor. En el probit, la tasa de cambio en la probabilidad es
algo complicada y est dada por ( )
i j
z | | , donde ( ) - | es la funcin de
densidad de la variable normal estndar y donde
ki k i i
X X z | | | + + + =
2 2 1
o sea, el modelo de regresin utilizado en el
anlisis.
En sntesis, dado el modelo
= [
1
+[
2
X
2
+ + [
k
X
k
+ e
t
Donde
= 1 si el evento se presenta,
= u si el evento no se presenta y
e
~N(u,1).
La estimacin da por resultado
= [
`
1
+ [
`
2
X
2
+ + [
`
k
X
k
Calculando
Z = [
`
1
+[
`
2
X
2
+ +[
`
k
X
k
Donde X
= Pr(
Z) = F(Z)
732
Encontrar F(Z) equivale a buscar el valor de Z en la tabla de la normal y
determinar su probabilidad asociada.
El efecto marginal de cambio en la probabilidad ante cambios en una
variable cuantitativa viene dado por
JP
JX
]
= (Z)[
]
Donde (Z) es la funcin de densidad de la distribucin normal de que el
evento promedio ocurra y [
]
el coeficiente de la variable para la cual se
analiza el cambio.
19.6 Modelo Tobit
Es una extensin del modelo Probit, desarrollado por el Nobel J. Tobin.
Continuando con el ejemplo de la vivienda, supngase ahora que se desea
encontrar la cantidad de dinero que el consumidor gasta en comprar una
casa en relacin con su ingreso (y otras variables econmicas).
Ahora se tiene un problema: si un consumidor no compra una casa,
obviamente no se tiene informacin sobre el gasto en vivienda, se tiene tal
informacin solamente sobre los consumidores que efectivamente compran
casa.
Por lo tanto se tiene dos grupos de consumidores. Unos, digamos
1
n sobre
quienes se posee informacin sobre los regresores y la variable dependiente
y otros, supongamos
2
n sobre quienes solamente se tiene informacin
sobre los regresores.
Cuando en una muestra la informacin para la variable dependiente est
disponible solamente para algunas observaciones, sta se conoce como
muestra censurada. Por consiguiente el modelo Tobit tambin se conoce
como modelo de regresin censurada.
En trminos matemticos se puede expresar el modelo Tobit como
i i i
X Y
2 2 2 1
c | | + + = ; si Y tiene datos
0 =
i
Y ; en los dems casos
Ante esta situacin el modelo slo se puede estimar por Mxima
Verosimilitud, ya que el trmino de error no cumple con la propiedad de
media nula. Esto se debe a que slo se incluyen en la muestra las
observaciones para las cuales
i i
X
2 2 2
| c > , que puede verse si se escribe el
modelo en forma de desviaciones.
733
19.7 Evaluacin de los modelos de probabilidad
Independientemente de si se ha especificado y estimado un modelo logit o
un modelo probit, para evaluar un modelo de probabilidad se tiene en
cuenta:
- Significatividad individual a la prueba Z, estos modelos presuponen la
existencia de gran nmero de datos por lo que la habitual prueba t
tiende a la prueba Z
- Significatividad conjunta a travs del estadstico de Wald, el que se
distribuye con una chi cuadrado con q grados de libertad (siendo q el
nmero de restricciones). La hiptesis nula es
E
o
: [
2
= [
3
= = [
k
= u
- Significatividad conjunta a travs del estadstico de la razn de
verosimilitud (RV), el que se distribuye como una chi cuadrada con k-
1 grados de libertad (k es el nmero de parmetros)
E
o
: [
2
= [
3
= = [
k
= u
Porcentaje de predicciones correctas, es el nmero de veces en que
coincide el valor observado de Y con el valor estimado, respecto del
total de observaciones.
- Pseudo R
2
(de Mc Fadden), se basa el logaritmo de la funcin de
verosimilitud
PscuJo R
2
= 1 -
l([
`
)
l([
`
0
)
Donde l([
`
) es el logaritmo de la funcin de verosimilitud para el
modelo estimado y l([
`
0
) es el logaritmo de la funcin de verosimilitud
para un modelo estimado solo de trmino constante. El Pseudo R
2
vara entre 0 y 1, pero generalmente no alcanza valores cercanos a 1.
- Criterios de informacin de Akaike, Schwarz o Hanna Quinn (HQ),
estos son indicadores vlidos cuando se tiene que elegir entre varios
modelos alternativos, siempre debe escogerse aquel que tenga
menor valor en estos indicadores.
Gujarati afirma que en un modelo de regresin binaria es importante que
los signos de los coeficientes coincidan con lo esperado y que sean
significativamente distintos de 0. La bondad de ajuste a travs del Pseudo
R
2
tiene importancia secundaria.
734
CASOS DE ESTUDIO, PREGUNTAS Y PROBLEMAS
Caso 19.1: Vulnerabilidad social en los hogares de Ro Cuarto
El objetivo del trabajo es identificar los fenmenos de mayor impacto en la
determinacin de la vulnerabilidad en la ciudad de Ro Cuarto
El diccionario de la Real Academia Espaola define vulnerable como aquel
que puede ser herido o recibir una lesin fsica o moral
Roberto Pizarro
3
, consultor de la Divisin de Estadstica y Proyecciones
Econmicas de CEPAL, define la vulnerabilidad social como un estado de
inseguridad e indefensa que experimentan los individuos en sus condiciones
de vida, en el manejo de recursos y en las estrategias que utilizan para
enfrentar las consecuencias del impacto provocado por algn tipo de evento
econmico social
La poblacin estudiada consta de 1686 hogares que tienen bebs nacidos en
el ao 2005. Las caractersticas cualitativas medidas en estos hogares
renen 527 modalidades.
Dado que la vulnerabilidad es un concepto multidimensional, se opt por
realizar un anlisis factorial de correspondencia mltiple utilizando 90
variables activas con 381 modalidades asociadas y 9 variables ilustrativas
con 146 modalidades asociadas. La particin del espacio de observacin y la
posterior clasificacin de los hogares dio lugar a la conformacin de 9
grupos, tal como puede observarse en el Grfico.
3
Pizarro, Roberto (2001). La vulnerabilidad social y sus desafos. Una mirada desde Amrica Latina.
Estudios Estadsticos y Prospectivos. Serie 6. CEPAL
Vulnerabilidad Social
Baja-Baja
14,35%
Baja-Media
18,98%
Baja-Alta
10,26%
Media-Baja
3,14%
Media-Media
4,45%
Media-Alta
8,78%
Alta-Baja
5,58%
Alta-Media
25,62%
Alta-Alta
8,84%
735
Los hogares que forman los grupos de vulnerabilidad alta (segmentados en
los subgrupos Alta-Alta, Alta-Media y Alta-Baja) se caracterizan por tener
Baja edad y bajo nivel educativo de la madre y situaciones de
maternidad en cuasi-soledad
Alto nmero de hijos, aun en madres muy jvenes, y comienzo tardo
en la atencin durante el embarazo
Hogares numerosos con alto nmero de menores de 15 aos, bajos
ingresos con pocos aportantes por hogar, no hay aportes
jubilatorios del jefe de hogar y se observan jvenes entre 15 y 24
aos que no estudian ni trabajan.
Presentan dficit en la infraestructura sanitaria de la vivienda, no
cuentan con gas natural, y se proveen de energa elctrica de
manera irregular, no son propietarios, los hogares tienen
hacinamiento
Estn expuestos a riesgos por accidentes con electricidad, los bebs
carecen de identificacin y no cuentan con cobertura de salud
Los barrios Alberdi, Banda Norte y Santa Teodora es la ubicacin
geogrfica de estos grupos.
Adems se observ que existan variables comunes a todos los grupos,
independientes del nivel de vulnerabilidad; estas eran
Edad de la madre
Edad de la madre al tener el primer hijo
Existencia de bao en la vivienda
Provisin de agua potable
Cantidad de cuartos
Nmero de integrantes del hogar
Ingreso del hogar
Ingreso per cpita mensual
Personas que aportan ingresos
Ahora bien, qu nivel de impacto tienen estos factores en los niveles de
vulnerabilidad de los hogares?
Para responder a esto se provee de la Tabla 16.1 que contiene:
- Unidades de observacin: 1549 hogares con hijos nacidos en 2005
- Caractersticas observadas
Altavul: 1 pertenencia a grupo de alta vulnerabilidad
0 no pertenencia a grupo de alta vulnerabilidad
MAD: 1 madre adolescente
0 madre adulta
NBI: 1 hogar con NBI
736
0 hogar sin NBI
AI: cantidad de personas que aportan ingresos en el hogar (variable
continua)
IM: ingreso mensual del hogar (variable continua)
IPC: ingreso per cpita diario (variable continua)
Edad: edad actual de la madre (variable continua)
Se solicita
- la estimacin a travs del Modelo Logit y el Modelo Probit
- realizar comparaciones entre los resultados de ambos modelos
BIBLIOGRAFIA
Chou, Y.L. (1977) Anlisis Estadstico Segunda Edicin. Interamericana.
Mxico
Gujarati, D. (2004) "Econometra". 4Edicin. Mc.Graw Hill. Mxico.
Gujarati, D. (2010) "Econometra". 5Edicin. Mc.Graw Hill. Mxico.
Maddala, G. S. Introduccin a la Econometra 2 Edicin. Prentice Hall.
Mxico.
Perez Lopez, C. (2006). Problemas Resueltos de Econometra. Editorial
Thomson Paraninfo.
Schmidt, S. J. (2005) Econometra. Mc-Graw Hill Interamericana. Mxico.