Wprowadzenie Do Mikroekonometrii 2022 02

Wprowadzenie do mikroekonometrii
.
© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 1

James Heckman
and Daniel McFadden
have each developed theory and met-

hods that are widely used in the stati-
stical analysis of individual and hou-
sehold behavior, within economics as
well as other social sciences.
Microeconometrics and Microdata

Microeconometrics is an interface
between economics and statistics. It
encompasses economic theory and
statistical methods used to analyze
microdata, i.e., economic information
źródło: nobelprize.org about individuals, households and
firms.

Mikroekonometria
„At its heart economic theory is about individuals (or families or firms) and their in-
teractions in markets and other social settings1.(...) The field of microeconometrics
emerged in the past forty years to aid economists in providing more accurate de-
scriptions of the economy, in designing and evaluating public policies, and in testing
economic theories and estimating the parameters of well posed economic models. It
is a scientific field within economics that links the theory of individual behaviour to
individual data, where individuals may be firms, persons or households.”
James Heckman, przemówienie noblowskie, 8.12.2000 (2000, 2001, 2004).
1
Słowa „(or families or firms)” zostały usunięte z tekstu przemówienia noblowskiego Jamesa Heckmana w późniejszych jego wydaniach.

Mikrodane (1)
− dane liczbowe o pojedynczych jednostkach (klienci banku, rodziny, firmy)
− zawierają informacje obiektywne lub subiektywne
− często zbierane są za pomocą specjalnie przygotowanych ankiet
− mogą być produktem ubocznym innych działalności, np. utrzymywania i zarzą-
dzania danymi z urzędów skarbowych, bądź z NFZ, czy też z ZUS,
− mogą stanowić próby ze zbiorów rozmaitych transakcji, takich jak zbiory danych
ze skanerów w supermarketach, zbiory danych o zachowaniu się klientów operatora
telefonii komórkowej itp.
− to są zbiory o dużej liczebności (setki, tysiące obserwacji)
− to na ogół dane przekrojowe

Mikrodane (2)
− To dane obserwacyjne
Dane obserwacyjne pochodzą z badań ankietowych bądź z dostępnych baz danych
administracyjnych. Ich przeciwieństwem są „dane eksperymentalne” pochodzące z od-
powiednich (zrandomizowanych) eksperymentów. Dane obserwacyjne mogą być obar-
czone błędem selekcji próby.
− Często są to dane o zmiennych mierzonych na skali nieciągłej, to jest zmiennych
jakościowych
Rodzaje mikrodanych definiuje się na podstawie rodzaju zmiennej objaśnianej w mo-

delu. Podstawowy jest podział na dane ilościowe (quantitative) i dane jakościowe
(qualitative). Mikroekonometria zajmuje się w szczególności danymi jakościowymi.

STATA. Dane w formacie STATA
Dane STATA z podręczników
C.F. Baum (2006) „An Introduction to Modern Econometrics Using Stata”

Support materials for An Introduction to Modern Econometrics Using Stata | Stata Press (stata-press.com)
A.C. Cameron, P.K. Trivedi (2010) „Microeconometrics Using Stata” 2nd ed.
Support materials for Microeconometrics Using Stata, Revised Edition | Stata Press (stata-press.com)
U. Kohler, F.Kreuter (2012) „Data Analysis Using Stata” 3rd ed.

Support materials for Data Analysis Using Stata, Third Edition | Stata Press (stata-press.com)
A.C. Acock (2018) „A Gentle Introduction to Stata” 6th ed.

Datasets for A Gentle Introduction to Stata | Stata Press (stata-press.com)

Modele mikroekonometrii
(a) Regresja liniowa (c) Modele dwumianowe
liniowy model prawdopodobieństwa (LMP)
model logitowy/ probitowy
model komplementarny log-log model
(b1) Modele zmiennych ograniczonych (d) Modele wielomianowe kategorii nieupo-
regresja ucięta rządkowanych
model tobitowy wielomianowy model logitowy i probitowy
dwugranicznymodel tobitowy warunkowy model logitowy (McFaddena)
model selekcji próby (Heckmana) zagnieżdżony model logitowy
mieszany model logitowy
(b2) Modele licznikowe (e) Modele wielomianowe kategorii uporząd-
regresja Poissonowska kowanych
model rozkładu ujemnego dwumianowego uporządkowany model logitowy i probitowy
uogólniony model uporządkowany
modele danych sekwencyjnych
(b3) Modele czasu trwania (f) Modele efektów oddziaływania i inne me-
tody quasi-eksperymentalne

Przykłady modeli mikroekonometrycznych
(1) Czy pracujesz?

Możliwe odpowiedzi:
Y=1 tak
Y=0 nie
Wyobraźmy sobie pewną zmienną ciągłą Y* oznaczającą skłonność do podejmowania
pracy. Np. dla Y*  0 pracuję, a dla Y* < 0 nie pracuję. Jest to zmienna ukryta (latent;
nieobserwowalna). Obserwujemy tylko Y, wartości zmiennej binarnej, dwumianowej.
Wniosek: do opisu zmiennej jakościowej Y stosujemy model dwumianowy.
Co modelujemy?
Prawdopodobieństwa p=P(Y*  0) czyli p=P(Y=1) oraz 1–p=P(Y* <0) czyli 1–
p=P(Y=0).

(2) Czy zgadzasz się ze zdaniem: każda mama powinna zrezygnować z pracy i wy-
chowywać swoje dziecko.
Y=1 bardzo się nie zgadzam, Y=2 nie zgadzam się, Y=3 nie mam zdania,
Y=4 zgadzam się, Y=5 bardzo zgadzam się z tym zdaniem
Y* = skłonność do wyrażania zgody na to zdanie (zmienna ciągła)
Tutaj nadal mamy zmienną ciągłą Y*, ale więcej punktów na osi Y*, które nas interesu-
ją. Oznaczmy je jako 1, 2, 3, 4 (każdy większy od poprzedniego):
Y=1 dla Y*<1, Y=2 dla 1Y*<2, Y=3 dla 2Y*<3,
Y=4 dla 3Y*<4, Y=5 dla 4Y*
Wniosek: stosujemy model wielomianowy kategorii uporządkowanych.
Co modelujemy?
Prawdopodobieństwa p1, p2, p3, p4, p5 dla (odpowiednio) Y=1, 2, 3, 4 i 5

(3) Jaką wykonujesz pracę?

Y=A praca fizyczna, Y=B praca biurowa,
Y=C praca menedżerska, Y=D inna praca.
Tutaj mamy 4 prawdopodobieństwa: pA, pB, pC i pD, które odpowiadają skłonności do
wykonywania pracy danego rodzaju. Wartości zmiennej Y nie da się uszeregować w
jakiejkolwiek obiektywnej kolejności.
Wniosek: stosujemy model wielomianowy kategorii nieuporządkowanych.
Co modelujemy?
Ilorazy prawdopodobieństw
pB/pA pC/pA oraz pD/pA gdzie A przyjęto za kategorię bazową.

(4) Ile jest dzieci do lat 6 w Twojej rodzinie?

Y=0,Y=1,Y=2,Y=3, rzadziej więcej.
Y to zmienna o wartościach dyskretnych, ograniczona z dołu. Odpowiedzi Y=0 i Y=1
jest na ogół najwięcej, Y=2 nieco mniej itd. Taką zmienną nazywamy licznikową.
Można przyjąć, że zmienna Y ma rozkład Poissona.
Wniosek: możemy zastosować model regresji Poissona.
Co modelujemy?
Wartość oczekiwaną zmiennej Y, to jest wartość oczekiwaną w rozkładzie Poissona.

(5) Ile kosztował samochód, który Twoja rodzina kupiła w zeszłym roku?
Y=0 lub Y>0.
Y to zmienna o wartościach ciągłych nieujemnych z dużą liczbą zer. Z punktu widzenia
ekonomii te dwie informacje (Y=0 lub Y>0) mówią o tym, czy rodzina wybrała roz-
wiązanie brzegowe (corner solution) czy też rozwiązanie wewnętrzne (interior) zada-
nia maksymalizacji użyteczności gospodarstwa domowego.
Wniosek: powinniśmy zastosować model tobitowy (model rozwiązań brzegowych).
Co modelujemy?
Zmienną Y o warunkowym rozkładzie dyskretno-ciągłym, który jest mieszaniną roz-
kładu ciągłego (wartości Y>0) oraz rozkładu jednopunktowego (Y=0).

Ekonomia a strategia modelowania w mikroekonometrii
• (A) Podejście tradycyjne: podstawą jest zaufanie do teorii ekonomicznej i jej po-
stulowanych modeli. Badanie empiryczne powinno opierać się na modelu teore-
tycznym. Jednak: teoria ekonomii często nie podpowiada konkretnych postaci
modeli.
• (B) Podejście aplikacyjne: punktem wyjścia są dane: podstawą modelowania
powinno być wykorzystanie danych do lepszego zrozumienia interesującego nas
zjawiska. Modele to jedynie konstrukcje, które mogą się zmieniać w świetle in-
formacji, jakie niosą dane. Włączenie do modelu charakterystyk tych danych mo-
że prowadzić do lepszego zrozumienia opisywanego procesu ekonomicznego.
• Mikroekonometria a data-mining
Podobieństwa (B) i różnice (A).

Korelacja a przyczynowość. Relacje przyczynowe a analiza ceteris paribus
Współczynnik korelacji mierzy asocjację statystyczną (związek, współwystępo-

wanie, współzależność, relację) między zmiennymi. Korelacja między Y i X jest miarą
opisującą na ile wspólnie zmieniają się Y i X. Na tej podstawie nie można uznać, że
np.: X „jest przyczyną” Y.
Przykład z Wooldridge’a:
E(płaca | wykształcenie, doświadczenie, zdolności)
Problem: czy da się ustalić wpływ zmiennej wykształcenie na poziom zmiennej
płaca? Wśród zmiennych objaśniających, doświadczenie jest obserwowalne (np. za
pomocą liczby lat pracy), natomiast zmienna zdolności jest nieobserwowalna.
Aby określić wpływ wykształcenia na poziom płacy należy pozostawić takie
zmienne jak doświadczenie i zdolności na niezmienionym poziomie, czyli zastosować
analizę ceteris paribus.

E(płaca | wykształcenie, doświadczenie, zdolności)

Jednakże, trudno zastosować analizę ceteris paribus, jeśli zmienna zdolności nie
jest obserwowalna. Jest też wiele innych zmiennych, których tu nie uwzględniono.
Pytanie: czy wzięto pod uwagę dostatecznie dużo zmiennych objaśniających, aby
można było dobrze ocenić wpływ zmiennej wykształcenie na zmienną płaca?
Pytanie: czy zmienne wykształcenie oraz płaca są mierzone bezbłędnie?
Pytanie: czy może także płaca objaśnia wykształcenie?
Bottom line: typowe podejście do interpretacji parametru regresji z użyciem poję-

cia ceteris paribus powinno być stosowane z dużą ostrożnością.
Przyczynowość w mikroekonometrii bada się przy użyciu metod eksperymental-

nych lub quasi-eksperymentalnych, w tym metod efektów oddziaływania.



Nowa mikroekonometria (lub ‘metrics): druga połowa semestru
Angrist, Pischke (2012, 2015)
Strona prof. Angrista

https://economics.mit.edu/faculty/angrist/online1
Mastering ‘Metrics Online

http://www.masteringmetrics.com/online-metrics-resources/

Efekty oddziaływania (treatment effects)
Differences-in-differences
Regression discontinuity design
Ważny komentarz:
“Empirical evidence on any given causal effect is always local, derived from a particu-
lar time, place, and research design.”
Angrist, J. D., & Pischke, J. S. (2010). The Credibility Revolution in Empirical Economics: How Better Research De-
sign Is Taking the Con out of Econometrics. Journal of Economic Perspectives, 24 (2), 3-30

Endogeniczność: przykład
▪ Zmienna Y to zarobki (compensation) prezesów firm.

▪ Jedna ze zmiennych objaśniających to wielkość firmy (zmienna X).
▪ Jeśli X nie jest skorelowana ze składnikiem losowym (u) to estymacja klasyczną
MNK jest poprawna.
Baum (2008)

Endogeniczność: przykład
▪ Może być tak (i zwykle jest), że większe firmy wymagają zdolniejszych menedże-
rów, to znaczy istnieje zmienna „umiejętności menedżerskie”, która nie jest mie-
rzalna i nie występuje w modelu, jest reprezentowana przez składnik losowy (u).
▪ Zmienna X jest, być może, skorelowana ze zmienną opisującą umiejętności mene-
dżerskie (bo przecież: im większa firma tym te zdolności są/mogą/powinny być
wyższe). Mamy zatem klasyczną sytuację endogeniczności.
▪ ▪
Baum (2008)

Endogeniczność: rozwiązania z użyciem metod ‘metrics
▪ Jeszcze raz: Y jest objaśniana przez X, natomiast X jest objaśniana przez inną
zmienną – także służącą objaśnianiu Y. W modelu typu regresyjnego zmienne obja-
śniające (X) powinny być egzogeniczne. To gwarantuje zgodność i nieobciążoność
estymatorów parametrów stojących przy tych zmiennych.
▪ Rozwiązanie: (1) użycie zmiennych instrumentalnych, estymatory differences-in-
differences, a także regression discontinuity design, (2) wykorzystanie informacji o
endogeniczności w samym modelowaniu: użycie danych panelowych, metod dopa-
sowania (matching) oraz pomiaru, (3) quasi-naturalny eksperyment.
▪ Następny wykres (Panhans i Singleton 2015), pokazuje bibliometryczny wzrost tych
nowych tematów metodycznych w wiodących czasopismach.

Metody quasi-eksperymentalne w ekonomii stosowanej
Uses of Quasi-experimental Terms in Top Economics Field Journals (Panhans and Singleton 2015). Terms include
difference-in-differences, regression discontinuity, natural experiment, and randomized control trial. Data are drawn
from Web of Science.

Endogeniczność: rozwiązania?
▪ Ale: Analiza endogeniczności w zamierzonym modelu jest trudna, może zawierać

sporo subiektywizmu badacza, a także skutkować niejednoznacznymi wynikami.
Mimo to, zawsze warto pokusić się o rozważanie kwestii endogeniczności w swoim
modelu.
▪ [za Atanasov i Black (2016)] Jedni badacze uważają, że endogeniczność jest wszę-
dzie, nigdy nie rozwiążemy tego problemu, zatem przestańmy się wreszcie tym
przejmować.
▪ Z kolei „endogeniczna policja” uważa, że jeśli wnioskowanie przyczynowości z ba-
dania nie jest (prawie) perfekcyjne (…) to jest ono (prawie) bezwartościowe. I jesz-
cze są tacy, którzy wiedzą, że ich badanie ma problem endogeniczności, lecz nie pi-
szą nic o tym w swoim artykule, mając nadzieję, że recenzent tego nie dostrzeże.

Heterogeniczność
▪ Korzyści z dezagregacji danych (korzyści z mikrodanych) są okupione potrzebą

uwzględniania niejednorodności danych w analizach.
▪ Mamy niejednorodność (heterogeniczność) obserwowaną – obecną wraz ze zmien-
nymi obserwowalnymi, jak np. płeć lub wykształcenie itd. oraz heterogeniczność
nieobserwowaną – związaną ze zmiennymi typu motywacja, zdolności itd. które są
nieobserwowalne bądź nie dają się dobrze obserwować.
▪ Najprościej jest zignorować taką niejednorodność i włączyć ją do składnika loso-
wego. To zwiększa niewyjaśnioną w modelu część zmienności zmiennej endoge-
nicznej (objaśnianej). W tym sensie, składnik losowy odgrywa przy (zdezagregowa-
nych) mikrodanych większą rolę niż przy (zagregowanych) makrodanych.
To z tego właśnie powodu w równaniach szacowanych dla danych indywidual-
nych (przekrojowych) wartości współczynnika determinacji R-kwadrat są niskie.
Zbieranie danych: ideał czyli próba losowa
Próba losowa (simple random sample): każdy element populacji ma jednakowe praw-
dopodobieństwo dostania się do próby; indywidualne jednostki badania są wybierane
do próby bezpośrednio; przy dużych populacjach losowanie to nie jest wygodne; nie
jest także prawdą, że takie losowanie jest najlepsze z uwagi na dokładność otrzymy-
wanych wyników. Prosta próba losowa nie bierze pod uwagę cech jednostki loso-
wania, a te właśnie mogą stanowić podstawę dobrego doboru próby.
Rozwiązanie: wielostopniowe zespołowe losowanie warstwowe (stratified multistage

cluster sampling). Przy tym schemacie losowania, różne indywidualne jednostki bada-
nia mają różne prawdopodobieństwa wyboru do próby. [Próba nie jest reprezen-
tantką populacji]. Można posłużyć się odpowiednimi wagami dla danego losowania;
wagi są odwrotnie proporcjonalne do prawdopodobieństw wyboru do próby. Na pod-
stawie próby można wówczas otrzymać dobre oceny charakterystyk całej populacji.

Rzeczywistość zbierania danych: nielosowość
Próba obciążona to taka, w której rozkład prawdopodobieństwa różni się od rozkładu

w populacji. Próbę obciążoną daje losowanie względem zmiennej zależnej (response-
based sampling). Ma to miejsce wtedy, gdy prawdopodobieństwo dostania się danego
przypadku do próby zależy od podjętej w tym przypadku decyzji, czy też od efektu,
który się w tym przypadku ujawnił.
▪ W przypadku zmiennych jakościowych te próby określa się jako próby dobierane
(choice-based samples): na ogół dobieramy próbę, w której kategoria rzadziej wy-
stępująca w populacji jest próbie reprezentowana częściej (oversampling).
▪ Samoselekcja (self-selection): jednostka „sama włącza się do próby” poprzez decy-
zję uczestnictwa w jakimś działaniu (na przykład bycia zatrudnionym) lub selekcji
próby, gdy ci, którzy w działaniu uczestniczą są celowo reprezentowani częściej niż
inni.

Badanie pełne (na całej populacji): czy ideał?
GUS posiada informacje o wynikach wszystkich przedsiębiorstw spełniających

określone warunki; bank ma szczegółowe informacje o wszystkich swoich klientach
korporacyjnych; dostępne są wszystkie transakcje sprzedaży nieruchomości na danym
obszarze w ciągu danego okresu.
Jak fakt posługiwania się całą populacją wpływa na wnioskowanie statystyczne?
▪ Jeśli dana jest "cała populacja" i szacujemy jakiś parametr populacji, a właściwie
obliczamy jego wartość, na przykład średnią, wówczas jedyne błędy, to ewentual-
nie błędy pomiaru (errors-in-variables).
▪ Jednak już najprostszy model regresji powinien posiadać „błąd modelu” (czasem
nazywany „błędem w równaniu” (error-in-equation), reprezentowany przez zakłó-
cenie losowe. Konsekwencją tego błędu jest sposób wnioskowania o parametrach
modelu oparty na typowych założeniach statystycznych.

Próba celowa
▪ Próba celowa (purposive sample) jest dobierana w sposób całkowicie nieprobabili-

styczny (non-probability sampling). Jednostki dostają się do próby na podstawie
oceny eksperckiej, z uwzględnieniem cech populacji oraz celu badania. Spotykana
w badaniach społecznych, na przykład w socjologii, także w zarządzaniu itd.
▪ Inne nazwy: judgmental, selective, subjective sampling.
▪ Rodzaje: maximum variation sampling, homogenous sampling, typical case sam-
pling, critical case sampling, expert sampling. Przykłady: badania nastrojów wybor-
czych w okręgach, które w poprzednich wyborach miały wynik bardzo zbliżony do
wyniku ogólnokrajowego; studia przypadków nietypowych dla całej populacji.
▪ Jednostki wybrane do „próby” celowej mają trudne do sprecyzowania prawdopodo-
bieństwa wyboru. Dobór opiera się na prawdopodobieństwie subiektywnym eks-
perta. Wnioskowanie musi odnosić się wyłącznie do tych wybranych jednostek.

Wprowadzenie Do Mikroekonometrii 2022 02

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Wprowadzenie Do Mikroekonometrii 2022 02

Uploaded by

Copyright:

Available Formats

Wprowadzenie do mikroekonometrii

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 2

have each developed theory and met-

Microeconometrics and Microdata

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 3

James Heckman, przemówienie noblowskie, 8.12.2000 (2000, 2001, 2004).

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 4

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 5

Rodzaje mikrodanych definiuje się na podstawie rodzaju zmiennej objaśnianej w mo-

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 6

STATA. Dane w formacie STATA

Dane STATA z podręczników

C.F. Baum (2006) „An Introduction to Modern Econometrics Using Stata”

U. Kohler, F.Kreuter (2012) „Data Analysis Using Stata” 3rd ed.

A.C. Acock (2018) „A Gentle Introduction to Stata” 6th ed.

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 7

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 8

Przykłady modeli mikroekonometrycznych

(1) Czy pracujesz?

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 9

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 10

(3) Jaką wykonujesz pracę?

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 11

(4) Ile jest dzieci do lat 6 w Twojej rodzinie?

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 12

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 13

Ekonomia a strategia modelowania w mikroekonometrii

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 14

Korelacja a przyczynowość. Relacje przyczynowe a analiza ceteris paribus

Współczynnik korelacji mierzy asocjację statystyczną (związek, współwystępo-

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 15

E(płaca | wykształcenie, doświadczenie, zdolności)

Bottom line: typowe podejście do interpretacji parametru regresji z użyciem poję-

Przyczynowość w mikroekonometrii bada się przy użyciu metod eksperymental-

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 16

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 17

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 18

Nowa mikroekonometria (lub ‘metrics): druga połowa semestru

Angrist, Pischke (2012, 2015)

Strona prof. Angrista

Mastering ‘Metrics Online

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 19

Efekty oddziaływania (treatment effects)

Regression discontinuity design

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 20

▪ Zmienna Y to zarobki (compensation) prezesów firm.

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 21

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 22

Endogeniczność: rozwiązania z użyciem metod ‘metrics

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 23

Metody quasi-eksperymentalne w ekonomii stosowanej

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 24

▪ Ale: Analiza endogeniczności w zamierzonym modelu jest trudna, może zawierać

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 25

▪ Korzyści z dezagregacji danych (korzyści z mikrodanych) są okupione potrzebą

Zbieranie danych: ideał czyli próba losowa

Rozwiązanie: wielostopniowe zespołowe losowanie warstwowe (stratified multistage

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 27

Rzeczywistość zbierania danych: nielosowość

Próba obciążona to taka, w której rozkład prawdopodobieństwa różni się od rozkładu

© Marek Gruszczyński, Szkoła Główna Handlowa w Warszawie 28

Badanie pełne (na całej populacji): czy ideał?

GUS posiada informacje o wynikach wszystkich przedsiębiorstw spełniających