28b. Variables Endògenes Qualitatives

Variables endògenes qualitatives.
Models d’elecció binària
Econometria Economia
Curs 2020-2021
Facultat de Ciències Econòmiques i Empresarials
Universitat de Girona
Índex
1. Introducció
2. El model lògit
3. Especificació i estimació màxim versemblant (MV)
4. Validació del model. Contrastos associats a la MV
(Wald i raó de versemblances)

Introducció
Ø Els models de regressió són molt útils per descriure l’associació entre una
variable resposta (dependent, endògena, variable y) i una o més variables
explicatives (independents, exògenes, variables x).
Ø Per exemple, en el model de regressió lineal tenim:
Ø On la variable resposta Y pren valors numèrics en un rang continu (valor

de mercat d’una empresa, salari, despesa en transport,…)
Introducció
Considerem el cas d’una variable endògena qualitativa, Y
En economia, aquests tipus de models de regressió se solen fer servir per

explicar la decisió Y que pren un individu (entre un nombre limitat d’opcions) en
funció d’un conjunt de variables explicatives: x1, x2, …, xk .
Ens interessarà estimar la probabilitat que un esdeveniment succeeixi, per

exemple:
ü Participar o no al mercat laboral, en funció de l’edat, sexe, nivell

d’educació, salari mitjà, nombre de fills...
ü Votar o no votar un determinat partit
ü Comprar o no comprar una segona propietat
ü Retornar un crèdit puntualment o no fer-ho
Aquests models se solen anomenar models d’elecció binària

Introducció
Quan la variable endògena és binària (en general categòrica) el model de

regressió lineal presenta certs problemes.
Utilitzarem models de regressió no lineals pensats específicament per aquests

casos.
Objectius
§ Ampliar el concepte de regressió al cas que la variable dependent sigui
categòrica.
§ Entendre el model Lògit com a model que permet tractar variables dependents
qualitatives.
Només tractarem els models amb variable endògena binària, és a dir,

qualitativa amb dos valors possibles.
Introducció
Considerem el cas d’una variable dependent binaria, Y, explicada per un

conjunt de regressors X2, …, Xk.
Si utilitzem un MRLM per explicar el comportament de la variable Y:
Sota el supòsit habitual que E[u] = 0, tenim que:

Introducció
y ja no segueix una Normal
E(yi) ja no és la mitjana de la Normal
y és una variable binària que només pot prendre valors 0 i 1
y segueix una distribució de Bernoulli (y=1, es dona el succès; y=0, no es dona)
E(yi)=1*Prob(yi=1)+0*Prob(yi=0)=1pi+0(1-pi)=pi
E(yi)=pi
Introducció
Per tant, prenent com la probabilitat que es produeixi el succès (y=1) i prenent
l’esperança matemàtica d’una variable de Bernoulli, tenim:
La probabilitat depèn linealment de les variables x:
Quan s’estimi el model s’estarà predint, en realitat, la probabilitat que ocorri el

succés d’interès i no només l’esperança, com en els models de regressió que
coneixem fins ara.
Si x llavors Probabilitat (y=1). Per tant, sota el supòsit de la regressió

lineal, per valors alts de x arribarà un moment que la probabilitat será
major a 1 i per valors baixos tindrem valors negatiu. NO POT SER!!!
Introducció
Exemple. Volem determinar com afecta l’edat a la probabilitat de tenir una casa en
propietat (y=1)
Introducció
El núvol de punts corresponent és:
VIVENDA EN PROPIETAT EN FUNCIÓ DE L'EDAT
1.2
0.8
Propietat (0=no, 1=sí)
0.6
0.4
0.2
0
0 10 20 30 40 50 60 70 80
edat
Introducció
Si estimem la recta de regressió:
VIVENDA EN PROPIETAT EN FUNCIÓ DE L'EDAT
1.2
0.8
Propietat (0=no, 1=sí)
0.6
0.4
0.2
0
0 10 20 30 40 50 60 70 80
-0.2
edat
Model Lògit
Quin tipus de funció necessitem?
Necessitem un model probabilístic tal que:
Ø A mesura que s’incrementi el valor de les variables explicatives ( x ), la

probabilitat s’incrementi o disminueixi, però mai fora dels llindars 0 i 1.
Ø La relació entre x i no sigui lineal.

Model Lògit
El model Lògit
Busquem una forma funcional que expressi d’una manera plausible la relació
entre la variable dependent qualitativa i les variables explicatives i que no tingui
forma lineal:
Funció logística (models lògit)
Funció de distribució normal estàndard (models pròbit)

Model Lògit
En funció logística, expressem la probabilitat que y=1:
I en el cas simple tenim:
ü Com que la relació no és lineal, és impossible definir un únic efecte dels

increments d’xi sobre la probabilitat. Per això usarem com a alternativa a la
probabilitat una eina anomenada odds.
Model Lògit
Definim els odds (entre 0 i més infinit) com el quocient entre la probabilitat que
y=1 i la probabilitat que y=0
>1
Odds= =1
<1
Aplicant logaritmes definim el lògit:
Aconseguim així una relació lineal entre les variables independents i el lògit
També és possible el pas de lògits a odds:

Model Lògit
Interpretació dels odds:
Probabilitat d’èxit (Prob(y=1))
1. 90/10 Prob(y=1)/Prob(y=0)
2. 80/20
3. 75/25 1. 9/1
2. 4/1
4. 66,7/33,3
5. 50/50 3. 3/1
6. 33,3/66,7 4. 2/1
7. 25/75 5. 1/1
8. 20/80 6. 0,5/1
7. 0,333/1
9. 10/90
8. 0,25/1=1/4
9. 0,111/1
Model Lògit
Supòsits del model (semblants a la regressió lineal):
ü La relació entre x i p segueix una corba logística (substitueix la linealitat)

ü Els diferents valors d’y són independents (no se suposa, en canvi,
homoscedasticitat).
ü y segueix una distribució de Bernoulli (substitueix el supòsit de normalitat)
ü x és fixa o bé independent de la pertorbació (totes les variables rellevants són
al model).
ü Absència de multicol·linealitat perfecta.
ü Absència d’error de mesura en x
ü Homogeneïtat (absència de valors influents).
Model Lògit
Interpretació del Model de regressió logística:
En aquest tipus de models, al no ser lineals, no és possible interpretar

directament les estimacions dels paràmetres beta. Ens fixarem en el signe,
Ø Si és positiu, significarà que increments en la variable associada causen

increments en la probabilitat “d’èxit”.
Ø Si és negatiu, increments en la variable associada causaran disminucions

en la P(Y = 1).
La interpretació numèrica dels coeficients es fa segons els odds. Distingim entre:
ü Variables discretes
ü Variables contínues
Model Lògit
Interpretació VARIABLES DISCRETES (I)
Suposem que volem estudiar el fet de faltar o no a classe en funció d’una

variable x2 dicotòmica que pren el valor de 0 si l’individu és professor i 1 si és
alumne.
P(y=1|x2i=0)=0,02 % de faltar a classe (professors)
P(y=1|x2i=1)=0,24 % de faltar a classe (estudiants)
- Els odds en els professors indiquen que per cada professor que no falta a
classe, n’hi ha 0,0204 que sí que hi falten.
Odds professors
- Els odds en els estudiants indiquen que per cada estudiant que no falta a
classe, n’hi ha 0,3157 que sí que hi falten
Odds estudiants
Model Lògit
Interpretació VARIABLES DISCRETES (II)
L’odds ratio (OR) és el quocient entre els odds de dos individus que són
diferents en el valor d’una variable explicativa.
x2i=0 -> professors
x2i=1 -> estudiants
Per cada persona que no falta a classe, hi ha 15,47 vegades més persones que
sí que hi falten quan es tracta d’estudiants que quan es tracta de professors.
És a dir, els odds dels estudiants de faltar a classe són 15,47 vegades més alts
que els odds dels professors.
Model Lògit
Interpretació VARIABLES DISCRETES (III)

!!
Com que els odds són = 𝑒 $"%$#&#! , i tenint en compte que en els estudiants
"#!!
x2=1 i en els professors x2=0.
Odds estudiants Odds professors
L’odds ratio és l’exponencial del coeficient associat a la variable x:
Odds estudiants
Odds professors
e b2 indica com més present és l’esdeveniment y=1 (faltar a classe) entre els
estudiants (x2=1) que entre els professors (x2=0).
Amb variables qualitatives de més de dues categories, l’OR sempre compara

els odds de cada categoria amb els de la categoria de referència.
Model Lògit
Interpretació VARIABLES CONTÍNUES (I)
Suposem que volem estudiar el fet d’agafar o no agafar una baixa laboral en
funció de l’edat.
En general tenim,
D’on es deriva,
Model Lògit
Interpretació VARIABLES CONTÍNUES (II)
Llavors OR es refereix a la comparació dels odds d’individus que es diferencien

en una unitat de la variable:
Tornant al model plantejat:
Direm que l’exponencial del coeficient, , que torna a ser una OR,
s’interpreta com: per a cada persona que no agafa la baixa, hi ha 1,214 vegades
més persones que sí que l’agafen per a cada augment de l’edat en una unitat (un
any).
PROBLEMA 1 (pàg. 468)

Model Lògit
Exercici 1 (pàg. 468)
CAS 1: 2+x CAS 2: 2-x CAS 3: -1-x
x logit odds prob logit odds prob logit odds prob
22026,46
-8 -6 0,002 0,002 10 1,000 7 1096,633 0,999
6
-6 -4 0,018 0,018 8 2980,958 1,000 5 148,413 0,993
-4 -2 0,135 0,119 6 403,429 0,998 3 20,086 0,953
-2 0 1,000 0,500 4 54,598 0,982 1 2,718 0,731
0 2 7,389 0,881 2 7,389 0,881 -1 0,368 0,269
2 4 54,598 0,982 0 1,000 0,500 -3 0,050 0,047
4 6 403,429 0,998 -2 0,135 0,119 -5 0,007 0,007
6 8 2980,958 1,000 -4 0,018 0,018 -7 0,001 0,001
8 10 22026,466 1,000 -6 0,002 0,002 -9 0,000 0,000
1,200
1,000
0,800
CAS 1: 2+x
0,600
CAS 2: 2-x
0,400 CAS 3: -1-x
0,200
0,000
-8 -6 -4 -2 0 2 4 6 8
Model Lògit
Anàlisi exploratòria de les dades:
1. Previsors numèrics
Si volem explorar la relació de y amb una variable explicativa numèrica
ü Gràfics de caixa separats pels grups de la variable dependent
(separació completa)
Model Lògit
Anàlisi exploratòria de les dades:
1. Previsors qualitatius
Si volem explorar la relació de y amb una variable explicativa qualitativa
Taules de contingència
(separació completa)
Model Lògit
Estimació
El model NO és NORMAL ni HOMOSCEDÀSTIC
No podem estimar per MQO
Hem d’estimar els coeficients per màxima versemblança (MV)
Estimadors asimptòticament eficients i asimptòticament normals
Per a mostres grans:

ü són centrats (no esbiaixats)
ü òptims (de variància mínima)
ü normals (permeten fer contrastos basats en la
distribució normal)
Per a mostres petites el seu ús no és recomanable (no t-Student; mostres

petites impossibles).
Model Lògit
Estimació per màxima versemblança
En aquest cas cal maximitzar el logaritme de la distribució de probabilitats:
Sabent que les probabilitats depenen dels paràmetres del model segons
aquestes expressions:
Es pot trobar el conjunt de valors de que maximitzen lnL.
Això és el que fa el mètode de MV mitjançant mètodes iteratius d’aproximació

successiva (no hi ha cap fórmula que permeti fer el càlcul a mà).
Estimació MV
A vegades també s’usa l’anomenada deviance:
que en aquest cas es minimitza.
Per tant, la principal diferència d’interpretació entre la deviance i la

versemblança és que els millors models són els que tenen la deviance més
petita i els que tenen la versemblança més gran.
Estimació MV
Estimació MV
Estimació MV
Estimació MV
Estimació MV
Estimació MV
Validació del model
Ø Contrast Global: contrast de raó de versemblances (més

d’un paràmetre)
Ø Contrast individual: contrast de Wald (un sol pàrametre)

Estimació MV
Ø Contrast global (substitueix el contrast global F en MQO)
L’estadístic de contrast de la raó de versemblances, s’expressa:
on els graus de llibertat surten del nombre de coeficients que es contrasten (k-1).
Estimació MV
Ø Contrast global (substitueix el contrast global F en MQO)
Podem reescriure l’estadístic de contrast de la raó de versemblances:
a partir de les deviances dels dos models, simplificant els càlculs:

Estimació MV
d) Avalueu globalment l’ajustament.

Validació
Ø Contrast individual (substitueix el contrast t de Student)
Contrast de Wald
Com que suposem una mostra gran i com que els estimadors MV són
asimptòticament normals, s’usa la distribució normal en comptes de la t.
Validació
e) Indiqueu el valor de l’estadístic de contrast de Wald per la variable edat. Què

podeu dir sobre la seva significació?
Validació
Ø Contrast de models ennierats (substitueix el contrast F de models ennierats)
Cas particular del contrast de raó de versemblances per un subconjunt de q

paràmetres.
L’estadístic de contrast és el mateix que en el contrast global canviant el model nul

per un model ennierat.
Validació
Ø Contrast de models ennierats (substitueix el contrast F de models ennierats)
Calcularem el valor de l’estadístic de contrast:
Quan no rebutgem la hipòtesi nul·la, llavors en sentit estricte no sabem quin dels dos
models és millor, i podem donar per bo el restringit, en virtut del principi de parsimònia.
Validació
Bondat de l’ajustament
Coeficient de determinació de la regressió (R2)
0<Pseudo R2<1
Pseudo R2
No té en compte la
AIC parsimònia
No afitada entre 0 i 1 Poc útil per

comparar models
Té en compte la
parsimònia
Idònia per comparar models alternatius estimats

amb la mateixa mostra de dades i la mateixa
variable dependent
Validació
Anàlisi residual
Valors atípics influents (Distància de Cook)
Criteri conservador
(molt influents)
Influent d’acord al criteri

més liberal (>0.5)
Procediment: eliminar provisionalment valors visualment destacats i avaluar la

importància dels canvis en els coeficients estimats o la significació de les variables
Maria A Barceló
Despatx: 204
Correu: antonia.barcelo@udg.edu
Tutories: a convenir prèviament per correu electrònic
Moltes gràcies!!!

28b. Variables Endògenes Qualitatives

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

28b. Variables Endògenes Qualitatives

Uploaded by

Copyright:

Available Formats

Variables endògenes qualitatives.

Models d’elecció binària

3. Especificació i estimació màxim versemblant (MV)

4. Validació del model. Contrastos associats a la MV

(Wald i raó de versemblances)

Ø Per exemple, en el model de regressió lineal tenim:

Ø On la variable resposta Y pren valors numèrics en un rang continu (valor

Considerem el cas d’una variable endògena qualitativa, Y

En economia, aquests tipus de models de regressió se solen fer servir per

Ens interessarà estimar la probabilitat que un esdeveniment succeeixi, per

ü Participar o no al mercat laboral, en funció de l’edat, sexe, nivell

Aquests models se solen anomenar models d’elecció binària

Quan la variable endògena és binària (en general categòrica) el model de

Utilitzarem models de regressió no lineals pensats específicament per aquests

Només tractarem els models amb variable endògena binària, és a dir,

Considerem el cas d’una variable dependent binaria, Y, explicada per un

Si utilitzem un MRLM per explicar el comportament de la variable Y:

Sota el supòsit habitual que E[u] = 0, tenim que:

y ja no segueix una Normal

E(yi) ja no és la mitjana de la Normal

y és una variable binària que només pot prendre valors 0 i 1

y segueix una distribució de Bernoulli (y=1, es dona el succès; y=0, no es dona)

La probabilitat depèn linealment de les variables x:

Quan s’estimi el model s’estarà predint, en realitat, la probabilitat que ocorri el

Si x llavors Probabilitat (y=1). Per tant, sota el supòsit de la regressió

El núvol de punts corresponent és:

VIVENDA EN PROPIETAT EN FUNCIÓ DE L'EDAT

Si estimem la recta de regressió:

VIVENDA EN PROPIETAT EN FUNCIÓ DE L'EDAT

Quin tipus de funció necessitem?

Necessitem un model probabilístic tal que:

Ø A mesura que s’incrementi el valor de les variables explicatives ( x ), la

Ø La relació entre x i no sigui lineal.

Funció logística (models lògit)

Funció de distribució normal estàndard (models pròbit)

En funció logística, expressem la probabilitat que y=1:

I en el cas simple tenim:

ü Com que la relació no és lineal, és impossible definir un únic efecte dels

Aplicant logaritmes definim el lògit:

També és possible el pas de lògits a odds:

Interpretació dels odds:

Probabilitat d’èxit (Prob(y=1))

Supòsits del model (semblants a la regressió lineal):

ü La relació entre x i p segueix una corba logística (substitueix la linealitat)

Interpretació del Model de regressió logística:

En aquest tipus de models, al no ser lineals, no és possible interpretar

Ø Si és positiu, significarà que increments en la variable associada causen

Ø Si és negatiu, increments en la variable associada causaran disminucions

La interpretació numèrica dels coeficients es fa segons els odds. Distingim entre:

Suposem que volem estudiar el fet de faltar o no a classe en funció d’una

P(y=1|x2i=1)=0,24 % de faltar a classe (estudiants)

Interpretació VARIABLES DISCRETES (II)

Interpretació VARIABLES DISCRETES (III)

Odds estudiants Odds professors

L’odds ratio és l’exponencial del coeficient associat a la variable x:

Amb variables qualitatives de més de dues categories, l’OR sempre compara

Interpretació VARIABLES CONTÍNUES (I)

Interpretació VARIABLES CONTÍNUES (II)

Llavors OR es refereix a la comparació dels odds d’individus que es diferencien

Tornant al model plantejat:

PROBLEMA 1 (pàg. 468)

Anàlisi exploratòria de les dades:

ü Gràfics de caixa separats pels grups de la variable dependent