Professional Documents
Culture Documents
Eko Analiz 1 PDF
Eko Analiz 1 PDF
Y f ( X1 , X 2 , , XK ) u
(6.1)
1 X1 2 X 2 K X K u
şeklinde ifade edilir. Burada Y bağlanan, bağımlı değişken veya açıklanan değiş-
ken değişken, X1 , X 2 , , X k ‟lar bağlayan, bağımsız değişkenler veya açıklayıcı
değişkenler olarak adlandırılır. Amaç açıklayıcı değişkenlerden biri değiştiğinde
bağımlı değişkenin nasıl değişeceği hakkında bir şeyler söyleyebilmeyi mümkün
kılan bir ilişkiyi tahmin etmektir.
Modelin belirli bir grup veya dönem için geçerli bir ilişki olmaktan çok, temel
olarak alınabilecek genel bir ilişkiyi yansıtması gerekir. Bunu için denklemin iyi ta-
nımlanmış bir kitle veya uzun süre süreli bir veri üretme süreci için geçerli olduğu
varsayılmakta ve denkleme kitle regresyon ilişkisi veya kitle regresyon denklemi adı
verilmektedir. Bağımlı değişkenin ve açıklayıcı değişkenlerin ne olduğu ilişkinin te-
mel aldığı teori tarafından açıklanmaktadır. Bu konudaki teori, yani hangi değişkenin
bağımlı değişkenin hangi değişkenin açıklayıcı değişken olduğu, her zaman açık ol-
mayabilir. Model tarafından tanımlanan ilişki dışında belirlenen değişkenler bağım-
sız veya açıklayıcı değişken ve modelin belirlediği değişken ise bağımlı değişken
olarak kabul edilmektedir.
Basit doğrusal regresyon modeli çerçevesinde belirttiğimiz gibi u ‟ya hata terimi
veya bozucu terim adı verilmektedir. u aksi halde doğru olduğu kabul edilen bir
ilişkide ortaya çıkan hataları veya kararlı olduğu varsayılan bir ilişkinin çeşitli neden-
lerle kararsız hale gelmesine neden olan faktörleri temsil etmektedir.
İlk amacımız gerçek hayattan derlenen gözlemler kümesinden oluşan bir örnek-
lem aracılığı ile denklem (6.1)‟de tanımlanan ilişkinin parametrelerini tahmin etmek-
tir. Örneklemdeki her bir gözlemin, yani (Yi , X i 2 , , X iK ) , i 1, , n ‟nin,
Yi 1 X i1 2 X i 2 3 X i 3 K X iK ui
tarafından betimlenen bir veri üretme süreci tarafından üretildiğini varsayıyoruz.
Gözlenen Yi ‟ler sistematik veya belirlenimsel (deterministik) bileşen
1 X i1 2 X i 2 3 X i 3 K X iK ve rastsal bileşen ui olmak üzere iki bileşenden
oluşmaktadır.1. Sistematik bileşen ilgili teori, örneğin iktisat teorisi, tarafından belir-
lenmektedir. Amaç verileri kullanarak teorik modelin geçerliliğini incelemektir. İla-
veten tahmin edilen modeli kullanarak Yi ‟yi kestirmeyi (öngörmeyi) düşünebiliriz.
Bu amaçlarımızı nasıl gerçekleştireceğimiz elimizdeki örneklemede bulunan göz-
lemler kümesini yaratan veri üretme süreci hakkında yapılan varsayımlara bağlıdır.
1
X k ‟lar rastsal değişken iken X ik ‟leri içeren denklemin deterministik olması aşağıda diğer varsa-
yımlar incelendiğinde daha iyi anlaşılacaktır
Doğrusallık
Modelin doğrusallık varsayımı
Yi 1 X i1 2 X i 2 3 X i 3 K X iK ui i 1, ,n (6.2)
(otokorelasyonsuzluk)
i ‟ninci, j ‟ninci ve diğer gözlemlerdeki açıklayıcı
değişkenler veri iken, i ‟ninci hata terimi j ‟ninci
hata terimi ile ilgileşimsizdir (korelasyonsuzdur).
A6. Normallik i ‟ninci hata teriminin i ‟ninci ve diğer gözlemlere
koşullu dağılımı normaldir.
Yi 1 2 X i 2 3 X i 3 K X iK ui (6.2*)
şeklinde ifade edilebilir. Kesmenin (sabit terimin) (6.2)‟de olduğu gibi
simgelendirilmesi modelin dizey (matris) cebiri ile kolay bir şekilde ifade edilmesine
olanak tanımaktadır. Bir örneklem verilerinden hareketle tahmin etmeye
çalışacağımız bu denkleme, yani (6.2)‟ye, kitle regresyon modeli, kitle regresyon
denklemi veya gerçek regresyon ilişkisi adı verilmektedir.
Yn 1 X 31 2 X n 2 3 X n3 K X nK un
X i1 1
X
xi i 2 ve β 2
( K 1) ( K 1)
X iK K
şeklinde tanımlayalım. Yöney içsel çarpımları tanımından
xi β 1 X i1 2 X i 2 K X iK
olduğu bilinmektedir, dolayısıyla (6.2) yeniden
Yi xi β ui (6.2***)
şeklinde ifade edilebilir. Keza
Y1 u1 x1 X 11 X 12 X 1K
Y u x X X 22 X 2 K
y 2 , u 2 ve X 2 21
( n1) ( n1) ( n K )
Yn un xn X n1 X n1 X nK
y X β u (6.2****)
( n1) ( n K ) ( K 1) ( n1)
E (ui X j1 , X j 2 , , X jK ) 0, i, j 1, ,n (6.4)
veya
E (ui x1 , x 2 , , xn ) 0 i 1, 2, ,n (6.4**)
veya
E (u X) 0n (6.4***)
E (Yi X) 1 X i1 2 X i 2 3 X i 3 K X iK i 1, 2, ,n (6.5)
3
Bazı yazarlar “katı dışsallığı” buradaki tanımdan farklı şekilde ifade etmektedir. Örneğin
Koopmans ve Hood (1953) ve Engle, Hendry ve Richards (1983) X j1, X j 2 , , X jK değişkenleri
tüm i ve j için u ‟den bağımsız olduğunda açıklayıcı değişkenler katı dışsal (eksojen) olmaktadır.
i
Bu varsayım buradaki katı dışsallık tanımından daha katıdır, fakat iki tanım birbiri ile tutarsız de-
ğildir.
veya
E (y X) Xβ (6.5**)
şeklinde ifade edilebilir. Denklem (6.5) kitle regresyon doğrusu veya kitle
regresyon fonksiyonu olarak bilinmektedir.
Denklem (6.5)‟teki kitle regresyon doğrusu ortalama Y ile X arasında geçerli
olan ilişkiyi temsil etmektedir. X i1 1 , i 1, , n , olduğunda 1 sabit terimi, basit
doğrusal regresyon modelinde olduğu gibi, X ik , k 2, , K , sıfır iken Yi ‟nin bekle-
nen değerini vermektedir. k , k 2, , K , X k ‟nin eğim katsayısıdır. Çoklu regres-
yon modelinde bir değişkenin eğim katsayısı yorumlanırken diğer değişkenlere bazen
kontrol değişkeni olarak atıfta bulunulmaktadır. Çoklu regresyon modelinde eğim
katsayısının yorumu basit regresyon modelindekinden farklıdır: denklem (6.5)‟te,
k , diğer değişkenler, yani X , 2, , K , k , sabit (veya kontrol altında) tutu-
lurken X k ‟deki bir birim değişmenin Y üzerindeki ortalama (beklenen) etkisini gös-
termektedir.
Katı dışsallık (eksojenlik) varsayımının doğurduğu sonuçlar
Bölüm 4‟ten hatırlanacağı gibi katı dışsallık (eksojenlik) varsayımı üç önemli sonuç
doğurmaktadır:
(a) Hata teriminin koşulsuz beklentisi (beklenen değeri veya ortalaması) sıfırdır,
yani
E (ui ) 0 (i 1, 2, , n) (6.6)
Bu sonuç olasılık teorisinin Toplam Bekleyişler Yasasından elde edilmektedir4:
E(ui ) EX E(ui X) EX 0 0 (6.7)
(b) İki rastsal değişken X ve Y ‟nin çapraz beklemi (momenti) E( XY ) sıfıra eşit
olduğunda X ‟in Y ‟ye (veya Y ‟nin X ‟e ) dikeysel (ortogonal) olduğu
söylenir. Katı dışsallık varsayımı altında, açıklayıcı değişkenler tüm gözlemlerin
hata terimine dikeyseldir (ortogonaldir)5:
4
Yinelenen Bekleyişler Yasası Y ‟nin beklenen değerinin Y ‟nin veri X ‟e göre koşullu beklentisi-
nin beklenen değerine eşit olduğunu söylemektedir.
5
Eğer iki rastsal değişken X ve Y ‟nin çapraz momenti E ( XY ) sıfıra eşit ise X ‟in Y ‟ye (veya
Y ‟nin X ‟e ) dikeysel olduğu söylenir.
veya
E ( X j1ui )
E( X u )
E (x j ui )
j2 i
0 (tüm i ve j için) (6.8*)
( K 1)
E ( X jK ui )
Bu sonuçta kolaylıkla kanıtlanabilir. X jk gözlemi X ‟in bir elemanı olduğundan
Yinelenen Beklentiler Yasası6
E ( X jk ui ) EX jk E ( X jk ui X jk )
E ( X jk ui ) E X jk E (ui X jk )
yazılabilir. Dolayısıyla
E ( X jk ui ) 0
cov( X jk , ui ) E( X jk ui ) 0 (6.10)
E E (Y X, Z) X E (Y X)
6
Yinelenen Beklentiler Yasası aynı zamanda olduğunu ifade etmektedir.
cov( X jk , ui ) E( X jk ui )
cov( X jk , ui ) 0
Özetle, katı eksojenlik varsayımı hiçbir açıklayıcı değişken gözleminin hata teri-
mi ui ‟nun beklenen değeri hakkında bilgi içermediğini belirtmektedir. Katı dışsallık
(eksojenlik) varsayımı ile ifade edilen dışsallığın
E (ui X i1 , X i 2 , , X iK ) 0 (i 1, 2, , n) (6.11)
mevcut ise, (Yi , X i1 , X i 2 , , X iK ) ‟ler tüm gözlemler için özdeş ve bağımsız olarak
dağılacaktır. Örneğin Yi hanehalkının gıda maddesine yaptığı harcamalar, X i 2
hanehalkının geliri ve X i 3 hanehalkı fert sayısı olsun. Eğer bir kitleden n sayıda
aileden oluşan bir örneklem rastsal olarak seçilmiş ise, (Yi , X i1 , X i 2 ), i 1, , n ,
zorunlu olarak aynı dağılıma sahip olacak ve rastsal olarak seçildiklerinden,
örneklem gözlemleri bir gözlemden diğerine bağımsız olarak dağılacaktır, yani
gözlemler „i.i.d.‟ olacaktır. Dolayısı ile rastsal örneklemler için katı eksojenlik
varsayımı, katı sıfatı düşürülerek, basitçe eşanlı dışsallık veya eşanlı eksojenlik
varsayımı olarak
E (ui X i1 , X i 2 , , X iK ) E (ui xi ) 0 , i 1, ,n (6.12)
E (Yt ut ) E ( Yt 1 ut )ut
(6.14)
E (Yt 1ut ) E (ut2 )
7
Sonlu dağıtılmış gecikme modelleri daha sonraki bölümlerde ele alınacaktır.
veya
var(ui X) 2 (6.16)
Daha açık bir şekilde ifade edersek bu varsayım var(ui X) ‟nun mevcut olduğunu ve
sıfırdan büyük sonlu bir sayı olan 2 ‟ye eşit olduğunu varsaymaktadır. Eşdeğerli
olarak bu varsayım, katı dışsal (eksojenlik) varsayımından yararlanılarak, ui ‟nin
X ‟e göre beklenen değeri cinsinden ifade edilebilir. Koşullu varyans tanımından
bulunur. Eğer ui ‟nin koşullu değişirliği (varyansı) herhangi bir açıklayıcı değişkene
bağlı olarak değişiyorsa bu durum koşullu “farklı yayılım” (koşullu
heteroskedastisiti) olarak ifade edilir.
veya
cov ui , u j X E ui E (ui X) X u j E (u j X) X (6.20)
cov ui , u j X E (ui u j X) 0 (6.21)
Dolayısı ile
corr ui , u j X 0 olacaktır. Zaman serisi modelleri açısından
bakıldığında (6.21) hata terimleri arasında serisel korelasyon olmadığını, yani hata
terimlerinin otokorelâsyosuz olduğunu, ifade etmektedir.
Açıkça görüldüğü gibi uu matrisinin asal köşegeninde u i2 ‟ler ve asal köşegen
dışında ise ui u j ‟ler yer almaktadır. Bu matrisin X ‟e koşullu beklenen değerini alır
ve E (ui2 X) 2 ve E (ui u j X) 0 ‟ı yerine koyarsak,
2 0 0
0 2 0
E (uu X) 2In (6.23)
0 0 2
veya
var(u X) E u E (u)u E (u) X E (uu X) 2I n (6.24)
olduğu bulunur, yani hata terimlerinin koşulsuz değişirliği de sabit sonlu bir sayıdır
ve hata terimlerinin koşulsuz eşdeğişirlikleri sıfıra eşittir.
E (ui2 X) 2 ve E (ui u j X) 0 ( i, j 1, 2, , n; i j ) varsayımları açıklayıcı
değişkenlerin hata terimlerinin değişirlik (varyans) ve eşdeğişirlikleri (kovaryansları)
etkilemediğini ve hata terimlerinin kendisinin değişirlikler ve eşdeğişirlikler hakkın-
da bilgi sağlamadığını belirtmektedir.
Normallik
Hata terimlerinin X üzerine koşullu dağılımının normal olduğu varsayılmaktadır. Bu
varsayım alternatif olarak X üzerine koşullu u ‟nun dağılımı birleşik normaldir
şeklinde de ifade edilebilir.
Normallik varsayımı daha önce yaptığımız beş varsayımdan çok daha güçlü bir
varsayımdır. Bu varsayım (X, u) birleşik dağılımı hakkında bir varsayım yapmaya
gerek kalmadan ui ‟nin dağılımını çıkarmamıza olanak sağlamaktadır; yani bu varsa-
yım altında X ‟in dağılımını tanımlamaya gerek kalmamaktadır. Normal dağılım bir-
çok yararlı özelliğe sahiptir:
1. Normal dağılım sadece ortalama ve değişirliğe (varyansa) bağlıdır. Dolayısıyla
bir rastsal değişkenin dağılımı normal olduğunda ve ortalaması ile varyansı
bilindiğinde, bu değişkenin olasılık yoğunluk fonksiyonu bilinir hale
gelmektedir. ui ‟nin X ‟e koşullu dağılımı normal olduğunda, onun ortalaması ve
varyansı X ‟e bağlı olabilir. Fakat X ‟e koşullu dağılım normal iken, burada
varsayıldığı gibi ui ‟nin koşullu ortalaması ve koşullu varyansı X ‟e bağlı
olmadığında, ui ‟nin marjinal (koşulsuz) dağılımı onun X ‟e koşullu dağılımı ile
aynı normal dağılım olacaktır.
2. Genel olarak, iki rastsal değişken bağımsız olduğunda, bu rastsal değişkenler
ilgileşimsizdir (korelasyonsuzdur), fakat bunun tersi doğru değildir. Bununla
birlikte iki rastsal değişkenin dağılımı birleşik normal ise, bunun tersi de
geçerlidir. Dolayısıyla normallik geçerli olduğunda, bağımsızlık ve
korelasyonsuzluk eşdeğerli hale gelmektedir. Bu durum koşullu dağılımlara da
aktarılmaktadır: eğer iki rastsal değişken X ‟e koşullu olarak birleşik normal
dağılıyor ise ve korelasyonsuz ise, bu değişkenler X ‟e koşullu olarak bağımsız
olmaktadır.
3. Birleşik olarak normal dağılan rastsal değişkenlerin doğrusal bir fonksiyonu da
normal dağılır. Bu özellik koşullu dağılımlara da aktarılmaktadır.
Normallik varsayımının bu özellikleri sınama istatistiklerinin çıkarılmasında ya-
rarlı olan aşağıdaki özellikleri geçerli hale getirmektedir:
veya
ui X N (0, u2 ) i 1,2, ,n (6.25*)
Bir çok uygulama alanında ui ‟nin normal dağılıp dağılmadığı görgül (ampirik)
bir konudur. Örneğin
GIDAi 1 2GELi 3 FERTi ui
ilişkisini ele alalım. Gelir ve fert sayısına koşullu GIDA harcamalarının normal
dağıldığını söyleyen bir teori yoktur. Aksine mantık bunun tersinin doğru olduğunu
söylemektedir: çünkü gıda harcamaları hiçbir zaman sıfırdan küçük olmayacaktır,
keza genellikle yoksulluğu karşı çıkarılan yasalar ve alınan diğer önlemler hemen
hemen her toplumda ailelerin bir bölümünün belirli bir minimum düzeyde gıda
harcaması yapması garanti altına alınmaktadır. Bu nedenlerle gıda harcamalarının
eksi sonsuzdan artı sonsuza uzanan bir normal dağılıma sahip olması
beklenmemektedir. Her şeye rağmen koşullu gıda harcamasının veya onun belirli bir
dönüşüme tabi tutulmuş bir uyarlamasının, “yaklaşık olarak” normal dağılıp
dağılmadığını sorabiliriz.8 Geçmiş deneyimler bunun yaklaşık normal dağılabileceği
izlenimini vermektedir.
Normallik varsayımının geçersiz olduğu örnekler bulmak çok zor değildir. Özel-
likle sınırlı sayıda değer aldığı durumlarda, bağımlı değişkenin normal dağılması söz
8
Ampirik çalışmalarda, çoğunlukla, gıda harcamaları logaritmik dönüşüme tabi tutulmakta ve bu
dönüşümler normale yakın bir dağılım vermektedir. Değişkenlerin dönüştürülmesini bir sonraki bö-
lümde ele alacağız.
konusu değildir. Örneğin bağımlı değişken, Y , aylık ölümlü trafik kaza sayısı olsun.
Bu halde Y sınırlı tam sayı değerler alacaktır. Sınırlı sayıda tam sayı değer alan
Y ‟nin normal dağılması söz konusu olmaz. Bu gibi durumlarda ne yapabiliriz? İleri-
de göreceğimiz gibi hataların normal olmaması büyük örneklemler söz konusu oldu-
ğunda ciddi sorunlar yaratmayabilir. Bazı hallerde, örneğin sınırlı sayıda tam sayı
değer alan bağımlı değişken içeren modellerde, normal dağılım yerine alternatif uy-
gun dağılımlar ikame edilebilir.
Literatürde çoğu kez normallik varsayımının regresyon modeline ilavesinin ge-
reksiz olduğu, çoklu regresyon modeli ile ilgili birçok sonucun bu varsayıma gerek
olmadan da elde edilebileceği savunulmaktadır.
V1‟den V5‟e kadar uzanan varsayımlar Gauss-Markov varsayımları veya Ga-
uss-Markov koşulları olarak bilinmektedir. Bunlara V6 (normallik varsayımı) ek-
lendiğinde, yani V1‟den V6‟ye kadar uzanan varsayımların tamamına klasik (nor-
mal) doğrusal regresyon modeli varsayımları ve bu varsayımlar altındaki modele
klasik (normal) doğrusal regresyon modeli adı verilmektedir.
B6. Normallik:
ui N (0, 2 )
Sosyal Bilimler için uygun olmamasına karşın sabit açıklayıcı değişkenler kümesi
varsayımı, özellikle ders kitaplarında, popülerliğini korumaktadır. Bunun temel ne-
deni çoklu regresyon modelinin “ X ” kullanımına gerek kalmaksızın X ‟e koşullu
olarak yorumlanabilmesine imkân sağlamasıdır.
Yazım ve yorum açısından cazip olmasına karşın sabit açıklayıcı değişken model
yaklaşımı basit doğrusal regresyon modeli çerçevesinde belirtildiği gibi ekonometri
açısından önemli bazı noktaları göz ardı etmemize neden olmaktadır.
termektedir; herhangi bir GEL ve FERT birleşimine karşı gelen taban noktası ile
düzlem arasındaki dikey mesafe bu birleşime karşı gelen ortalama GIDA değerini
vermektedir. Gıda harcamalarının hanehalkı geliri ve fert sayısı arttıkça artması bek-
lendiğinden, diyagram 2 ve 3 ‟ün pozitif olduğu varsayımına dayanılarak çizilmiş-
tir. Harfi harfine yorumlandığında kesme (sabit terim) GEL ve FERT sıfır olduğun-
da öngörülen ortalama gıda harcamalarını vermektedir. Bununla birlikte böyle bir yo-
rum pek gerçi değildir, çünkü FERT ‟i sıfır olan bir hanehalkı mevcut değildir.
GIDA
2GEL 3 FERT
3 FERT
1 2GEL 3 FERT u
1 2GEL 3 FERT
2GEL
FERT
1 2GEL
1
GEL
Matematiksel olarak Şekil 6.1 GEL ve FERT sıfır olduğunda gıda harcamaları-
nın 1 kadar olacağını göstermektedir. FERT sıfır olduğunda, herhangi bir pozitif
GEL için gıda maddesi harcamaları 1 2GEL kadar olacaktır, 2 GEL artışı saf
gelir etkisi olarak adlandırılabilir. Öte yandan, GEL sıfır olduğunda pozitif değer alan
FERT için gıda maddesi harcamaları 1 3 FERT kadar olacaktır, benzer şekilde
3 FERT artışı saf FERT etkisi olarak adlandırılabilir. Gelir ve fert sayısının birle-
şik etkisi Şekil 6.1‟de 2GEL 3 FERT olarak belirtilmiştir. Ortalama gıda harca-
maları taralı düzlem üzerinde yer alacaktır. Gerçek gıda harcama değerleri ise taralı
düzlem tarafından belirtilen değerlerin üstünde veya altında olacaktır.
Sonuç olarak iki açıklayıcı değişkenli çoklu doğrusal regresyon modeli basit doğ-
rusal regresyon modelinde olduğu gibi iki boyutlu eksenler sistemindeki bir doğru ile
değil, Şekil 6.1‟de gösterildiği gibi üç boyutlu eksenler sistemindeki bir düzlem ile
temsil edilmektedir.
Yˆi b1 b2 X i 2 b3 X i3 (6.30)
ei Yi Yˆi Yi b1 b2 Xi 2 b3 X i3 (6.31)
şeklinde ifade edilebilir. (6.31)‟i kullanarak n sayıda gözlem için toplam alarak
n n
e (Y b b X
i 1
2
i
i 1
i 1 2 i2 b3 X i 3 )2 (6.32)
n
yazabiliriz. Minimum için birinci mertebe koşulları, ei2 / bk 0 , k 1, 2,3 ,
i 1
aşağıdaki denklemleri verir:
n n n
Yi nb1 b2 X i 2 b3 X i3
i 1 i 1 i 1
(6.33)
n n n n
Y X
i 1
i i2 b1 X i 2 b2 X i22 b3 X i 2 X i 3
i 1 i 1 i 1
(6.34)
n n n n
Y X
i 1
i i3 b1 X i 3 b2 X i 2 X i 3 b3 X i23
i 1 i 1 i 1
(6.35)
n
i 1 i
e 0 (6.33*)
n
i 1
X i 2 ei 0 (6.34*)
n
i 1
X i 3ei 0 (6.35*)
şeklinde de yazılabilir.
yˆi b2 xi 2 b3 xi 3 (6.38)
şeklinde ifade edilebilir. Ortalamalardan sapmalar cinsinden kalıntı kareler toplamı,
e i 1 ( yi yi )2 , minimize edildiğinde, ortalamalardan sapmalar cinsinden
n 2 n
i 1 i
n n n
ei2 / b3 2 xi 3 ( yi b2 xi 2 b3 xi 3 ) 2 xi 3ei 0 (6.40)
i 1 i 1 i 1
y x x i i2
2
i3 xi 2 xi 3 yi xi 3
b2 i 1 i 1 i 1 i 1
2
(6.41)
n
n
n
i 1
x x xi 2 xi 3
2
i2
i 1 i 1
2
i3
n n n n
x y x 2
i2 i i3 yi xi 2 xi 2 xi 3
b3 i 1 i 1 i 1 i 1
2
(6.42)
n n
n
i 1
xi 2 i3
2
i 1
x 2
xi 2 xi 3
i 1
(6.41) ve (6.42) sıra ile 2 ve 3 parametrelerinin olağan en küçük kareler
tahmincilerini vermektedir. b2 ve b3 bu şekilde bulunduktan sonra 1 ‟in tahmini
(6.36)‟dan elde edilir. Bu formüllerin çıkarılmasından açıkça görüldüğü gibi çoklu
regresyon modeli katsayıları için tahmincilerin çıkarılması özünde basit doğrusal
regresyon modeldekinden farklı değildir. Bununla birlikte, bulunan tahminciler basit
regresyon tahmincilerinden farklıdır, dolayısı ile basit regresyondan çıkarılan
tahminciler çoklu regresyon için kullanılmamalıdır.
şeklinde ifade etmiştik. Öte yandan olağan en küçük kareler ile tahmin edilen
regresyon ilişkisi
y X b e (6.44)
( n1) ( n K ) ( K 1) ( n1)
9
Minimum için gerekli ikinci mertebe koşullarının sağlandığı kolaylıkla gösterilebilir.
b1 Y1 Yˆ1 e1
b Y ˆ e
Y
b 2
, e y yˆ 2 2 2
bK Yn Yˆn en
burada ŷ tahmin edilen Yˆi ‟ler vektörüdür. Benzer şekilde tahmin edilen regresyon
doğrusu (veya fonksiyonu)
yˆ X b (6.45)
( n1) ( n K ) ( K 1)
şeklinde ifade edilebilir. Daha önce olduğu gibi, olağan en küçük kareler yöntemine
göre, kalıntı kareler toplamının
n
f (b1 , b2 , , bK ) ei2
i 1
10
Dizey (matris) türev alma kuralları için bakınız Johnston ve DiNardo (1977) s.464.
Bunu b için çözdüğümüzde matris simgelemesi ile birinci mertebe koşullar, yani
normal denklemler
Xy XXb (6.47a)
şeklinde elde edilir. Örneğin iki açıklayıcı değişkenli bir regresyon modeli için
(6.47a) yeniden
n n n
Yi n X i2 X i3
i 1 i 1 i 1
b1
n n
X i 2 X i 3 b2
n n
Yi X i 2 X i 2 X
2
i2 (6.47b)
i 1 i 1 i 1 i 1 b
n n n n 3
i i 2 X i 2 X 2
Y X i2 X i3 X i3
i 1 i 1 i 1 i 1
şeklinde yazılabilir. (6.47), (6.33)‟ten (6.35)‟e kadar uzanan normal denklemlerin
matris yazımı ile gösteriminden başka bir şey değildir.
Denklem (6.47) K sayıda bilinmeyen bk parametresi cinsinden K denklemden
oluşmaktadır. Varsayım gereği X jk ‟lar tam doğrusal olarak birbirine bağımlı olma-
dığında X ‟in rankının r (X) K olduğu bilinmektedir. Dolayısı ile r (XX) K dır
ve evrik (ters) matris XX mevcuttur. (6.47)‟nin her iki yanı XX
1 1
ile önden
çarpıldığında, β vektörünün olağan en küçük kareler tahmincisi
Örnek 6.1
n n n
Y 36.5
i 1
i X
i 1
i2 78.2 X
i 1
i3 32
n n n
yi2 8.2892
i 1
xi22 90.4567
i 1
x
i 1
2
i3 6.6667
n n n
yxi 1
i2 17.0617 yx
i 1
i3 7.0667 x
i 1
x 11.6667
i 2 i3
2.4 1 4.4 2
2.5 1 4.2 2
3.5 1 5.8 3
36.50
3.9 1 12.1 3 Xy 254.92
4.2 1 9.8 4
104.40
4.5 1 6.5 4
y X
3.1 1 5.8 3
2.2 1 4.1 2
1.8 1 1.9 2 12.00 78.20 32.00
3.5 1 7.5 3
XX 78.20 600.06 220.20
2.5 1 6.5 2 32.00 220.20 92.00
2.4 1 9.6 2
maddesi için Engel eğrisi tahmin edildiğinde aşağıdaki EViews çıktısı elde
edilmektedir:
Örnek 6.1
Yˆi b1 b2 X 2 b3 X 3 (6.48)
Ŷ b2 X 2 b3X 3
Örnek 6.2
HA94161.WF1 dosyası DIE‟nin 1994 Hanehalkı Gelir ve Tüketim Anketi‟nin Ocak
ayında Bursa‟da 55 aileden derlediği aylık verileri göstermektedir. Bu dosyadaki
parasal değerler, Tablo 6.1‟deki gibi milyon lira olarak değil, lira olarak
gösterilmiştir. Bu veriler kullanılarak gıda maddesi talep fonksiyonu (Engel eğrisi)
tahmin edildiğinde aşağıdaki EViews çıktısı elde edilmektedir.
olarak elde edilmiştir. FERT etkisi sabit iken GEL‟deki 1 milyon liralık azalmanın
GIDA‟yı ayda (ortalama) 37 bin 637 lira azaltması beklenmektedir. Öte yandan GEL
etkisi sabitken hanehalkı fert sayındaki bir kişilik azalışın GIDA‟yı ayda (ortalama)
433 bin 470 lira azaltması beklenmektedir. Buradaki kesme terimi tahmini iktisadi
olarak hiçbir anlam ifade etmemektedir.
Örnek 6.2
Yˆi b1 b2 X i 2 b3 X i3 (6.49)
şeklinde elde edilir; Yi ‟nin tahmin edilen (uydurulan veya kestirilen) değeri i ‟ninci
gözlem açıklayıcı değişken değerleri, tahmin edilen regresyon denkleminde yerine
konarak bulunmaktadır. Bir gözlem için kalıntı (artık) daha önce gösterildiği gibi
ei Yi Yˆi
şeklinde tanımlanmaktadır
Normal koşullarda herhangi bir gözlem için gözlenen Yi değerleri, öngörülen Yˆi
değerlerine eşit olması beklenmemektedir, çünkü olağan en küçük kareler, kalıntıla-
rın kareler toplamını minimize etmesine karşın herhangi bir gözlem kalıntısı hakkın-
da hiçbir şey söylememektedir.
Uydurulan olağan en küçük kareler değerleri ve kalıntılar basit regresyon mode-
lindekine benzer özelliklere sahiptir:
n
1. Kalıntılar toplamı ve dolayısı ile ortalaması sıfıra eşittir, e 0 . Bu sonuç
i 1 i
aynen basit regresyon modelinde olduğu gibi birinci normal denklem tanımından
elde edilmektedir.
2. Her bir açıklayıcı değişken ile olağan en küçük kareler kalıntılarının çarpımları
n
toplamı sıfıra eşittir, i 2
X ik ei 0 , k 2, , K . Bu sonuçta, basit regresyon
modeline benzer şekilde, ikinci ve daha sonraki normal denklemlerin tanımından
otomatik olarak çıkmaktadır. Benzer şekilde açıklayıcı değişkenlerin ortalamala-
rından sapmaları ile en küçük kareler kalıntılarının toplamı sıfıra eşittir,
n
i 2
xik ei 0 , k 2, ,K
x
i 1
i2 ( yi b2 xi 2 b3 xi 3 ) 0 veya x
i 1
i2 yi b2 xi22 b3 xi 2 xi 3
i 1 i 1
(6.39*)
n n n n
x
i 1
i3 ( yi b2 xi 2 b3 xi 3 ) 0 veya x
i 1
i3 i y b2 xi 2 xi 3 b3 xi23
i 1 i 1
(6.40*)
( xˆ
i 1
i2 ei 2 )( yi b2 xi 2 b3 xi 3 ) 0 (6.56)
n
şeklinde yazabiliriz. xˆi 2 tahmini xi 3 ‟ün doğrusal bir fonksiyonu ve x e 0
i 1 i 3 i
xˆ
i 1
i2 ( yi b2 xi 2 b3 xi 3 ) xˆi 2 ei 0
i 1
(6.57)
e
i 1
i2 ( yi b2 xi 2 b3 xi 3 ) 0 (6.58)
x
i 1
e 0
i3 i 2 (6.59)
e
i 1
i2 ( yi b2 xi 2 ) 0 (6.60)
şeklinde yazılabilir. (6.55)‟in her iki yanı ei 2 ile çarpar ve n sayıda gözlem için
toplamını alırsak
n n n
x
i 1
i2 i2e xˆi 2 ei 2 ei22
i 1 i 1
(6.61)
n
elde edilir. (6.57)‟den xˆ e 0 olduğu dikkate alınırsa (6.61)‟den
i 1 i 2 i
x e i 1 ei22
n n
i 1 i 2 i 2
(6.62)
e i2 yi
b2 i 1
n
(6.63)
ei22
i 1
Yi 2 ei 2 wi (6.64)
e y
i3 i
b3 i 1
n
(6.65)
e i 1
2
i3
Örnek 6.3
Örnek 6.2‟deki iki açıklayıcı değişkenli gıda maddesi harcamaları örneğimizi
kullanarak yukarıda anlatılanları örneklendirebiliriz. Hanehalkı fert sayısı yanında
hanehalkı gelirinin gıda harcamalarını etkilediği bir durumda, sadece gıda
harcamaları ile fert sayısı arasındaki “saf ilişki” ile ilgilendiğimizi ve bunları
herhangi bir biçimde basit regresyonlar ile temsil etmek istediğimizi farz edelim.
Çoklu regresyon modelinin doğru tanımlama olduğu durumda, Bölüm 4‟te
yaptığımız gibi, GIDA‟nın sadece FERT üzerine regresyonu, yani
11
Bilgisayar çıktılarında çok büyük sayıları veya çok küçük sayıları önceden belirlenmiş sınırlı ge-
nişliğe sahip bir alanda göstermek için bilimsel sayı gösterme biçimi olan “E+m” veya “E-m” ya-
zımı kullanılmaktadır. “E+m” katsayının 10m ile çarpılması gerektiğine işaret etmektedir. Benzer
şekilde “E-m” onun 10-m ile çarpılması gerektiğini belirtir. (5.45)‟teki eğim parametresinin bilgisa-
7
yar çıktısındaki görünümü “1.09E-09” şeklinde olduğundan buraya “ 1.09 10 ” biçiminde yansı-
tılmıştır. Sonuç olarak, bu regresyonda eğim katsayısı efektif olarak 0 demektir.
Yˆi b1 b2 X i 2 b3 X i3 ile gösterelim. Artık, basit regresyondan elde edilen ˆ2 tah-
minin, çoklu regresyon tahmininden hesaplanan b2 ‟ye, genel olarak, eşit olmayaca-
ğını biliyoruz. ˆ ve b ‟nin birbiri ile aynı olacağı iki özel durum vardır:
2 2
Y nb b X
i 1
i 1 2
i 1
i2
n n n
(6.71)
Yi X i 2 b1 X i 2 b2 X i22
i 1 i 1 i 1
n
İkinci özel durumda, yani X 2 ve X 3 korelasyonsuz olması halinde, x x 0
i 1 2 3
n n
yi xi 2 b2 xi22
i 1 i 1
n n
(6.72)
y x
i 1
i i3 b3 x
i 1
2
i3
Uyumun Ġyiliği: R 2
Basit regresyon analizinde olduğu gibi, toplam değişme (veya toplam kareler
n n
toplamı) i 1
y 2 , açıklanan değişme (veya açıklanan kareler toplamı) i 1
yˆ 2 ve
n
açıklanmayan değişme (veya kalıntı kareler toplamı) i 1
e 2 arasındaki ilişkiyi
n n n
elde edilir. Aynen basit regresyonda olduğu gibi R -kare veya çoklu determinasyon
katsayısı
n n
yˆ 2
i e 2
i
R2 i 1
n
1 i 1
n
(6.75)
yi 1
2
i y
i 1
2
i
İki açıklayıcı değişkenli modelde R 2 ‟yi kolayca hesaplamaya yarayan bir formül,
basit regresyondaki R 2 formülüne benzer biçimde,
n n
b2 yxi 2 b3 yxi 3
R2 i 1
n
i 1
(6.77)
yi 1
2
i
n n n
b2 yxi 2 b3 yxi 3 bk yxik
R2 i 1 i 1
n
i 1
(6.78)
y
i 1
2
i
Çoklu regresyonda R 2 ile ilgili önemli bir nokta onun hiçbir zaman azalmaması
ve genel olarak regresyona yeni değişken eklendikçe yükselmesidir, bunun nedeni
kalıntı kareler toplamının yeni açıklayıcı değişken eklendikçe hiçbir zaman
azalmamasıdır. Bunun böyle olduğu (6.78)‟den kolayca görülmektedir. Regresyon
modeline ilave edilen her yeni açıklayıcı değişken (6.78)‟in payına b j i 1 yi xij
n
n
şeklinde bir terim ekleyecektir. b j ve i 1
yi xij aynı işareti taşıdıklarından ilave
edilen her terim hiçbir zaman negatif olamayacaktır. Sonuç olarak, eklenen yeni
açıklayıcı değişkenin bağımlı değişken üzerindeki etkisi önemsiz dahi olsa R 2
artacak veya en azından hiçbir zaman azalmayacaktır.
yˆ
i 1
2
b22 xi22 b32 xi23 2b2b3 xi 2 xi3
i 1 i 1 i 1
yˆ
i 1
2
b2 yi xi 2 b3 yi xi 3
i 1 i 1
bulunur ve bu son ifade R-kare tanımı içinde yerine konduğunda bize (6.51)‟i verir.
R-karenin yeni değişken eklendikçe azalmayacağının kanıtı
n 2
e /n
R 2
1 i 1 i
(6.79)
n 2
y /n
i 1 i
n
şeklinde yazalım, bunun (6.66)‟dan tek farkı hem e ‟nin ve hem de
2
i 1 i
n
i 1
yi2 ‟nin n ile bölünmesidir. Bu ifade R 2 ‟nin gerçekte neyi tahmin ettiğini
göstermektedir.
Y ‟nin kitle varyansını Y2 ile ve hata terimi u ‟nun kitle varyansını u2 ile göste-
relim. Kitle uyumun iyiliği veya kitle determinasyon katsayısı, 2 ,
2 1 u2 Y2 (6.80)
şeklinde tanımlanır; bu kitle Y ‟sindeki değişmelerin açıklayıcı değişkenler
tarafından açıklanan oranını göstermektedir. Gerçekte R 2 ‟nin tahmin ettiği farz
edilen uyumun iyiliği budur. R 2 hata terimi kitle varyansı u2 ‟yi
n 2
e / n ile
i 1 i
tahmin etmektedir, bunun yanlı olduğu bilinmektedir. Bunun yerine u2 ‟nin yansız
n n
i 1
yi2 / n yerine yansız tahminci i 1
yi2 / (n 1) ‟i ikame edelim. Bu şekilde
yansız tahmincileri kullandığımızda, ayarlanmış R-kareye ulaşırız:
n
e 2
i / (n K )
su2
R 1 2 i 1
n
1 (6.81)
sY2
y
i 1
2
i / (n 1)
Daha önce de belirttiğimiz gibi R 2 ‟ye bazen düzeltilmiş R-kare adı verilmekte-
dir. Bu R 2 ‟nin sanki R 2 ‟den daha iyi bir kitle determinasyon katsayısı, 2 , tahmin-
cisi imiş izlenimini vermektedir. Maalesef bu böyle değildir, ayarlanmış R-karenin
R 2 ‟den daha iyi bir tahminci olduğu kanıtlanmamıştır.
Bazen R 2 ile R 2 arasındaki ilişkiyi görmek önemli olabilir. Bunun için
(6.81)‟den basit bir cebrik işlemle
(n 1)
R 2 1 (1 R 2 ) (6.82)
(n K )
Ortalanmamış R 2
Bağımlı değişkendeki toplam değişimi ölçmenin bir başka yolu onun sıfıra göre
değişimini hesaplamaktır; bu kolayca Y ‟lerin kareleri toplamı olarak hesaplanabilir,
n
i 1 i
Y 2 . Benzer şekilde tahmin edilen regresyon doğrusu tarafından tahmin edilen
Y ‟lerdeki, yani Yˆ ‟lardaki, sıfıra göre toplam değişme Yˆ 2
n
i 1 i
olmaktadır.
Regresyon doğrusu tarafından açıklanmayan değişme ise daha önce olduğu gibi
n 2
i 1 i
e dir. Dolayısıyla bu üç büyüklük arasında bir ilişki kurulabildiğinde
regresyon doğrusunun gözlem noktalarına uyumu konusunda bir sonuç
çıkarılabilecektir. Tanım gereği
Yi Yˆi ei
olduğunu biliyoruz, her iki yanın kareleri ve n sayıda gözlem için toplamı alınırsa
n n n n
Y
i 1
i
2
Yˆi 2 ei2 2 Yˆi ei
i 1 i 1 i 1
(6.83)
n
bulunur. Normal denklemlerden i 1
X ij ei 0 j 1, , k olduğu bilindiğinden son
terimin sıfıra eşit olduğu kolaylıkla gösterilebilir:
n n
Yˆi ei (b1 X i1 b2 X i 2
i 1 i 1
bk X ik )ei
n n n
b1 X i1ei b2 X i 2 ei bk X i k ei
i 1 i 1 i 1
0
Sonuç olarak (6.57)
n n n
Y
i 1
i
2
Yˆi 2 ei2
i 1 i 1
(6.84)
biçiminde veya
n n
Yˆ i
2
e 2
i
1 i 1
n
i 1
n
(6.85)
Yi
i 1
2
Yi 2
i 1
şeklinde ifade edilebilir. (6.85)‟in sağındaki ilk terim öngörülen Y ‟lerdeki sıfıra göre
toplam değişmenin gözlenen Y ‟lerdeki sıfıra göre toplam değişmeye oranını
vermektedir, bu ölçüye ortalanmamış R 2 adı verilmekte ve RUC 2
ile
simgelenmektedir, yani
n
Yˆ i
2
2
RUC i 1
n
(6.86)
Y
i 1
i
2
e 2
i
R 2
UC 1 i 1
n
(6.87)
Y i 1
i
2
Örnek 6.4
Tablo 6.1‟deki 12 gözlemli hanehalkı gıda harcamaları modelimizi yeniden ele
alalım. R-kare hesaplamasında bize yardımcı olacak ara sonuçlar ve parametre
tahminleri şöyle idi:
n n n
y
i 1
2
i 8.2892 yx
i 1
i2 17.06167 yx
i 1
i3 7.0667
b2 0.067033 b3 0.942692
Yˆi sıfır olacaktır. Bu durumda olağan en küçük karelerin daha önce elde edilen bazı
cebrik özellikleri orijinden geçen regresyon için geçerli olmayacaktır.
Orijinden geçen regresyon modelinin olağan en küçük kareler tahmincileri
b1 , b2 , , bk , her zaman ki gibi, kalıntı kareler toplamını minimize edecektir, fakat ar-
tık X i1 1 olduğundan
n n n
Y nb b X
i 1
i 1 2
i 1
i2 bk X ik
i 1
veya
n
e
i 1
i 0
e i 1 (Yi b1 X1i b2 X 2i
n n
2
i 1 i
bk X ki )2
E (bk X) k
b. Yukarıda (a) şıkkında söylenenden başka ve ondan daha zayıf olan bir yan-
sızlık nosyonu vardır. Toplam Bekleyişler Yasası gereği
E E(bk X) E (bk ) . Dolayısı ile
E (bk ) k
yansızlığı koşulsuz yansızlığı ima etmektedir. Yani E (bk X) sadece tüm müm-
kün Yi ‟ler için değil aynı zamanda tüm mümkün X gerçekleşmeleri için değer-
lendirildiğinde ortalama değer k olacaktır. Muhtemelen bu koşulsuz ifade ikti-
satta E (bk X) k ‟den daha geçerlidir çünkü örneklemler hem Yi ‟ler ve hem
de X cinsinden birbirinden farklıdır. E (bk X) koşullu ifadesi, daha geçerli
olan, E (bk ) k ifadesine ima ettiğinden önemlidir.
2. İlk beş varsayım altında olağan en küçük kareler tahmincileri b1 , b2 , , bK , kitle
parametreleri 1 , 2 , , K ‟nın en iyi „doğrusal‟ yansız tahmincileri olmaktadır.
Başka bir ifade, bu varsayımlar altında OLS tahmincileri doğrusal yansız
tahminciler sınıfı içinde etkin tahminciler olmaktadır. Daha önce de belirtildiği
gibi bu özellik Gauss-Markov teoremi olarak bilinmektedir. Başka bir şekilde
ifade edersek ilk beş varsayım altında Gauss-Markov koşulları adı verilen şu üç
koşul geçerli olmaktadır:
X ‟in sütun rankı tamdır
E (u X) 0n
E(uu X) u2In .
3. Klasik (normal) doğrusal regresyon model varsayımları, yani ilk beş varsayım
artı normallik varsayımı, altında b1 , b2 , , bK tahmincileri Gauss-Markov
varsayımları altındaki tahmincilerden daha güçlü bir etkinlik özelliğine sahiptir,
bazen buna mutlak etkinlik adı verilmektedir. Bu halde OLS tahmincileri
minimum varyanslı yansız tahmincilerdir; bu durumda tahminciler artık
doğrusal tahminciler olmak zorunda değildir.
Şimdi bu sonlu örneklem özellikleri kanıtlamaya ve ima ettiği sonuçları irdele-
meye geçebiliriz.
( x
i 1
2 i2 3 xi 3 u u ) xi 2 b2 xi22 b3 xi 2 xi 3
i 1 i 1
n n n
( x
i 1
2 i2 3 xi 3 u u ) xi 3 b2 xi 2 xi 3 b3 xi23
i 1 i 1
(u u ) x
i 1
i2 (b2 2 ) xi22 (b3 3 ) xi 2 xi 3
i 1 i 1
n n n
(u u ) x
i 1
i3 (b2 2 ) xi 2 xi 3 (b3 3 ) xi23
i 1 i 1
i 1
x 2
xi 2 xi 3
i 1
ve sadeleştirme yapıldığında
n
x 2
i3 n
b2 2 i 1
2 x i2 (ui u )
n
n n
x x xi 2 xi 3
2 2 i 1
i2 i3
i 1 i 1 i 1
n
x x
i 2 i3 n
i 1
2 x i3 (ui u )
n
n
n
xi 2 xi 3
i 1
x 2
i2 x 2
i3
i 1 i 1 i 1
bulunur. b2 ‟nin koşullu beklenen değeri alındığında
E (b2 X) 2
elde edilir; çünkü katı dışsallık varsayımı gereği (ui u ) dışındaki tüm ifadeler
X ‟lerin fonksiyonudur ve bunlar beklenen değer alma işleminde sanki rastsal
değillermiş gibi ele alınabilir. Keza
E (b3 X) 3
olduğu kanıtlanabilir. Burada katı dışsallık varsayımı kritik bir rol oynamaktadır.
Eğer bu varsayımların geçerli olduğuna inanıyorsak olağan en küçük kareler
tahmincilerinin yansız olduğu sonucuna varırız.
OLS tahmincilerinin yansızlığının kanıtlanması
formülünden
u2 1 u2 1
var(b2 X) (6.89)
n
1 rX22 X 3 nVar(X 2 ) 1 rX22 X 3
x
i 1
2
i2
olarak ve
formülünden
u2 1 u2 1
var(b3 X) (6.90)
n
1 rX 2 X 3 nVar(X3 ) 1 rX22 X 3
2
x
i 1
2
i3
u2 1 u2 1
var(bk X) b2k X k 2, ,K (6.91)
n
1 Rk2 nVar(X k ) 1 Rk2
x
i 1
2
ik
şeklinde ifade edilebilir, burada Rk2 açıklayıcı değişken X k ‟nin modelde yer alan
tüm diğer açıklayıcı değişkenler (kesme dahil) üzerine regresyonundan elde edilen R-
karedir, yani X k ile diğer açıklayıcı değişkenler arasındaki çoklu korelasyon
katsayısının karesidir. Bu şekilde hesaplanan Rk2 ‟nin Y değişkenin X 1 , X 2 , , XK
üzerine regresyonundan elde edilen ve uyumun iyiliğini ölçen R ‟den farklı 2
12
(6.89) ve (6.90)‟ın nasıl çıkarıldığı açıkça gösterilmemiştir.
Aynen R 2 gibi Rk2 ‟de 0 ile 1 arasında değer alacaktır, yani 0 Rk2 1 olacaktır.
Rk2 0 olduğunda en küçük var(bk ) elde edilecektir. Tam doğrusal bağıntısızlık var-
sayımı nedeniyle Rk2 1 olamayacaktır; çünkü Rk2 1 olduğunda X k ile modelde
yer alan diğer açıklayıcı değişkenler arasında tam doğrusal bağıntı ortaya çıkar ki bu
Varsayım 2 tarafından devre dışı bırakılmıştır. Yine burada da, u2 , n ve Var( X k )
veri iken, bir açıklayıcı değişkendeki, X k ‟deki diyelim, değişmeler modelde yer alan
diğer açıklayıcı değişkenlerle, X 2, , X K ne kadar fazla doğrusal ilişkili ise, yani Rk2
ne kadar 1‟e yakın ise, tahmincinin varyansı, var(bk ) , o kadar büyük olacak ve tah-
minci o kadar daha az hassas olacaktır. Daha formel olarak ifade edersek Rk2 1
iken var(bk ) olacaktır. İki veya daha fazla açıklayıcı değişken arasındaki yük-
sek fakat tam olmayan doğrusal bağıntı tahminler açısından güvensizlik problemi ya-
ratmaktadır, buna çoklu doğrusal bağıntı veya çoklu doğrusal bağıntı problemi adı
verilmektedir. Bu konuyu ileride detaylı olarak ele alacağız.
b = Ay (6.92)
gereken bir nokta, çoklu regresyonda bk ‟lerden oluşan b vektörü “varyans”ının bir
kovaryans matrisi olmasıdır. Bir tahmincinin varyansı kovaryans matrisi olduğunda
onun diğer tahminciden daha küçük bir varyansa sahip olması ne demektir ve nasıl
kanıtlanacaktır.
Bu problem alternatif tahminci vektörünün, β̂ , elemanlarının varyanslarının doğ-
rusal kombinasyonu b ‟nin elemanlarının varyanslarının doğrusal kombinasyonu ile
karşılaştırılarak çözülmektedir.
Çoklu regresyon için Gauss-Markov teoremi OLS tahmincilerinin doğrusal kom-
binasyonun koşullu varyansının diğer tüm yansız tahmincilerin doğrusal kombinas-
yonun koşullu varyansından küçük olduğunu söylemektedir.13
ei Yi b1 b2 X i 2 bK X iK (6.94)
ei ‟leri, yani kalıntıları, gözleyebiliriz. ui ‟ler yerine ei ‟leri ikame ederek u2 ‟nin bir
tahminini
13
Bu sonuç kanıtlanmadan sunulmuştur. Kanıt bu kitap kapsamı dışında kalmaktadır.
e 2
i
var(ei ) i 1
(6.95)
n
şeklinde elde etmek doğal görünmektedir. Fakat basit regresyon modelinde de
gördüğümüz gibi bu şekilde bulunan tahminci yanlıdır:
nK 2
E var(ei ) u (6.96)
n
burada K regresyon denklemindeki parametre sayısını göstermektedir. Bu yanı
ortadan kaldırarak bir yansız tahminci, su2 , elde edebiliriz:
n
n i e 2
u2 1
b (6.98)
n
1 Rk2
x
k
2
ik
i 1
su2 1
sbk (6.99)
n
1 Rk2
x
i 1
2
ik
olarak bulunur.
bk ‟ların standart hataları ile bağıntılı olarak bir noktanın vurgulanması önemlidir.
Standart hatalar doğrudan OLS tahmincilerinin örnekleme dağılımı varyanslarından,
OLS tahmincilerinin varyansları ise hata terimi varyansından elde edilmektedir. Hata
Örnek 6.5
Şimdi artık Tablo 6.1‟deki gıda harcamaları örneğimiz için tahmincilerin standart
hatalarını hesaplayabilir ve bunları yorumlayabiliriz. Tablo 6.1 ve Örnek 6.3‟teki
bazı ara sonuçlar aşağıda tekrarlanmaktadır:
n
n 12 k 3 x
i 1
2
i2 90.4567
n n n
xi23 6.6667
i 1
xi 2 xi3 11.6667
i 1
y
i 1
2
i 8.2892
e
i 1
2
i (1 R 2 ) yi2 (1 0.941637)(8.2892) 0.483783
i 1
e 2
i
0.483783
s
2 i 1
0.053754
nk 12 3
u
su2 1 0.053754 1
sb23 0.010441
n
1 rX 2 X 3
2
6.6667 1 0.225711
x
i 1
2
i3
Örnek 6.5
durumda, istediğimiz kadar fazla veri toplayarak, tahmincimizi arzu ettiğimiz kadar
k ‟ye yakın yapabileceğiz demektir. Yakınsaklaşma Şekil 8.1‟de gösterilmektedir.
fbk
n3
n2
n1
bk
k
Şekil 8.1
Doğal olarak, herhangi bir uygulama söz konusu olduğunda, elimizde değişmez
bir örneklem boyutu mevcut olmaktadır. Bu nedenle de tutarlılık gibi yanaşık
(asimptotik) bir özelliğin anlamını kavramak güçleşmektedir. Tutarlık şöyle bir ha-
yali örnekleme sürecini tasavvur etmeyi gerektirir: herhangi bir örneklem boyutu
için çok sayıda rastsal örneklemin elde edilebileceği varsayımı altında örneklem
boyutu arttıkça ne olacaktır? Bu durumda bizi ilgilendiren gittikçe daha fazla veri
elde edildiğinde, tahmincinin kitle parametresine gittikçe daha fazla yakınlaşıp ya-
kınlaşmadığıdır; eğer yakınlaşmıyorsa zayıf bir tahmin yöntemi kullanıyoruz de-
mektir.
n
tüm 0 için P Y Y 1
p a
Bunu çoğunlukla “ Y Y ” (veya Y Y ) şeklinde yazar ve “ Y olasılıkta Y ‟ye
yakınsaklaşır” şeklinde okuruz.
1
Örnekleme dağılımları her bir örneklem boyutu için deney 10000 rastsal örneklem seçilerek üre-
tilmiştir.
Y Y
(a) n 5 (b) n 25
Y Y
(c) n 5 0 (d) n 500
Şekil 8.2
Beklenen değeri E (Yi ) 0.64 olan n sayıda birbirinden bağımsız Bernoulli rast-
sal değişkeni örneklem ortalamasının örnekleme dağılımı (dağılımlar 10000 rast-
sal örneklem kullanılarak üretilmiştir.)
Tutarlı tahminci
Doğrusallık, tam doğrusal bağıntısızlık ve katı dışsallık varsayımları altında OLS
tahmincisi bk , k 1,2, , K , k ‟nin tutarlı tahmincisidir
Tutarlı tahminci
OLS tahmincilerinin tutarlı olduğunu basit regresyon modeli eğim parametresi
için kolay bir şekilde kanıtlayabiliriz. Daha genel bir kanıt matris cebiri kullanılarak
kolayca verilebilir. Basit doğrusal regresyon modeli Yi X i ui için b2 tah-
mincisini ortalamalardan sapmalar cinsinden
n n
b xi yi x 2
i (8.2)
i 1 i 1
n n
b xi ( xi ui u ) x 2
i
i 1 i 1
n
xi ui n
b i n1 (8.3)
2
xi n
i 1
paydaya Büyük Sayılar Yasasını uygulayabiliriz; bu halde pay ve payda, sıra ile,
kitle nicelikleri cov( x, u ) Xu ve var( x) X2 ‟ya olasılıkta yakınsak hale
gelecektir. Varsayıldığı gibi, var( X ) 0 olduğu sürece olasılık limitleri özelliklerini
kullanarak şu sonucu elde ederiz:
plim b Xu / X2
(8.4)
çünkü Xu 0
Bölüm 6‟da katı dışsallık varsayımının dışsallık varsayımı A3**‟ı ima ettiğini, fakat
bunun tersinin geçerli olmadığını belirtmiştik. OLS tahmincilerinin daha zayıf bir
varsayım olan A3** altında tutarlı olması ileriki bölümlerde de bize yarar
sağlayacaktır. İlginç olan bir başka nokta, OLS tahmincileri katı dışsallık varsayımı
(A3) altında yansız iken, dışsallık varsayımı (A3**) altında yansız değildir.
yanlılığın örneklem boyutu arttıkça da kalıcı olacağını ima ettiğinden talihsiz bir
durumdur.
Basit doğrusal regresyon modeli Yi X i ui durumunda b ‟deki tutarsız-
lık (bazen buna asimptotik yanlılık olarak atıfta bulunulmaktadır) şöyle ifade edilir:
plim b Xu / X2 (8.5)
Asimptotik Normallik
ve Büyük Örneklem Çıkarımı
Bir tahmincinin tutarlılığı önemli bir özelliktir, fakat tutarlılık tek başına istatistiksel
çıkarıma olanak tanımamaktadır. Örneklem boyutu arttıkça bir tahmincinin kitle
değerine yakınlaşıyor olduğunun bilinmesi parametreler hakkında hipotez testleri
yapmamıza izin vermemektedir. Sınama yapabilmek için OLS tahmincilerinin
örnekleme dağılımına gereksinim duyarız. Varsayım A1‟den Varsayım A6‟ya kadar
uzanan klasik doğrusal regresyon modeli varsayımları altında OLS tahmincilerinin
örnekleme dağılımlarının normal olduğunu gördük. Bu sonucun uygulamalı
ekonometride sık kullanılan t ve F dağılımlarının çıkarılmasında önemli bir rol
oynadığını biliyoruz.
OLS tahmincilerinin normalliği kritik bir şekilde hata teriminin, ui , koşullu da-
ğılımının normalliğine dayanmaktadır. u1 , u2 , , un ‟nin koşullu hataları normal da-
ğılmadığında, bk ‟da normal dağılmayacaktır; buna bağlı olarak t istatistikleri t
dağılımlarına ve F istatistikleri F dağılımına sahip olmayacaktır. Bu potansiyel
olarak ciddi bir problemdir, çünkü şimdiye dek yapılan tüm istatistiksel çıkarımla-
rımız t veya F dağılımlarından kritik değerler veya p -değerleri çıkarabiliyor ol-
mamıza dayanmaktadır.
Hatırlarsanız ui ‟lerin koşullu dağılımının normal olması ile X veri iken Yi ‟nin
dağılımının normal olması eşdeğerlidir. Gerçekte bir uygulamada ui değil Yi göz-
lendiğinden, Yi ‟lerin dağılımını normal olup olmadığını tasavvur etmek, ui ‟lerin
dağılımının normal olup olmadığını tasavvur etmekten çok daha kolaydır. Normal
olarak dağılan bir rastsal değişken ortalaması etrafında simetrik olarak dağılmakta-
dır, değişken herhangi bir negatif veya pozitif değeri (sıfır olasılıkla) alabilir, nor-
mal dağılımın altındaki %95‟ten daha fazla alan ortalama etrafındaki iki standart
sapma sınırları içinde kalmaktadır. Gerçekte, gördüğümüz bazı örneklerde Yi kesin
olarak koşullu normal dağılıma sahip değildir.
OLS tahmincilerinin yansızlığında normallik varsayımının hiçbir rol oynamadı-
ğını biliyoruz. Keza Gauss-Markov varsayımları altında OLS tahmincilerinin en iyi
doğrusal yansız olmasında normalliğin hiçbir rolü olmadığını biliyoruz. Sadece t
ve F istatistiklerine dayanan kesin çıkarım normallik varsayımını gerekli kılmak-
tadır. Fakat bu sonuca dayanarak, normallik varsayımı geçerli olmadığında, katsayı-
ların anlamlı olup olmadığını sınamak için t ve F istatistiklerinden vazgeçeceği-
miz gerektiği sonucu çıkarılmamalıdır. Yi ‟ler normal dağılmasa dahi Merkezi Limit
Teoremini kullanarak OLS tahmincilerinin yanaşık (asimptotik) normalliği tatmin
ettiği sonucunu çıkarabiliriz. Burada asimptotik normallik, OLS tahmincileri örnek-
leme dağılımının yeterince büyük örneklemlerde yaklaşık olarak normal olduğu an-
lamına gelmektedir.
Y Y Y Y Y Y n Y Y
Z
var(Y ) Y Y / n Y
n
iken
Y Y Y Y
Y Y2 n
yaklaşık olarak standart normal dağılım ile iyi bir şekilde temsil edilecektir. Bu du-
d
rumu çoğunlukla “ Y N ( Y , Y2 n) ” şeklinde yazar ve “ Y yanaşık (asimptotik)
olarak N ( Y , Y2 n) dağılır” şeklinde okuruz.
söylenmektedir.
(Y uY ) / Y (Y uY ) / Y
(a) n 5 (b) n 25
(Y uY ) / Y (Y uY ) / Y
(c) n 5 0 (d) n 500
Şekil 8.3: Beklenen değeri 0.64 ve varyansı 0.2304 olan bir Yi rastsal değişkenin n
sayıda birbirinden bağımsız Bernoulli rastsal değişkeni örneklem ortalamasının
standartlaştırılmış değerinin örnekleme dağılımı (dağılımlar 10000 rastsal örnek-
Y uY Y uY Y uY n Y uY
Z
var(Y ) Y Y / n Y
n
eğim katsayıları için ak2 plim i=1 eik2 / n , burada eik ‟ler X ik ‟nın
diğer açıklayıcı değişkenler üzerine regresyonundan elde edilen kalıntıları
a d
göstermektedir. yanaşık olarak ve dağılımda yaklaşık olarak
anlamına gelmektedir. Bu durumda kısaca bk ‟nın asimptotik olarak normal
dağıldığını söyleriz.
(ii) su2 tahmincisi u2 var(ui ) ‟nin tutarlı tahmincisidir.
(iii) Her bir k için
a
(bk k ) / sbk N (0,1) (8.6)
yazabiliriz.
Denklem (8.7) t testinin ve güven aralığı oluşturmanın klasik doğrusal regres-
yon modeli altında yaptığımız ile tamamen aynı olduğunu söylemektedir.
Örneklem boyutu yeterince büyük olmadığında, eğer ui normal dağılmıyorsa, t
dağılımı t istatistiği dağılımı için iyi bir yaklaşık dağılım olmayacaktır. Ne yazık ki
elimizde yaklaşıklığın iyi olması için örneklem büyüklüğünün ne kadar olması ge-
rektiğini söyleyen genel bir reçete yoktur. Bazı ekonometrisyenler n 30 ‟un yeterli
olduğunu düşünmektedir, fakat bu ui ‟nin tüm mümkün dağılımları için yeterli ol-
mayabilir. ui ‟ni dağılımına bağlı olarak, merkezi limit teoreminin etkisini göstere-
bilmesi için fazla gözlem eklenmesi gerekebilir. İlaveten yaklaşıklığın kalitesi sade-
ce sadece n ‟ye değil fakat serbestlik derecesine, yani n K ‟ye bağlıdır; modelde
daha fazla açıklayıcı değişken olduğunda, t yaklaşık dağılımı kullanabilmek için
daha büyük örneklem boyutuna gereksinim vardır.
OLS tahmincilerinin yanaşık (asimptotik) normalliği aynı zamanda (sıfır koşullu
ortalama varsayımı ile birlikte) homoskedastisiti varsayımını gerekli kılmaktadır.
Eğer var(Yi X) sabit değil ise, örneklem ne kadar büyük olursa olsun, geleneksel t
istatistikleri ve güven aralıkları geçerli olmayacaktır.
bk ‟nin tahmin edilen varyansının
su2 1 su2 1
var(bk ) sb2k (8.8)
n
1 Rk ns X 1 Rk2
2 2
x
i 1
2
ik
dolayısıyla örneklem boyutu arttığında sX2 k ifadesi X k ‟nin kitle varyansı X2 k ‟ye
yakınsaklaşaktır. Bu gerçekleri bir araya getirdiğimizde örneklem boyutu arttıkça
var(bk ) ‟nin 1/ n oranında sıfıra doğru küçüldüğü anlamına gelmektedir. İşte bu
nedenle büyük örneklem boyutu ile tahmin yapmak daha iyi olmaktadır.
ui normal dağılmadığında, (8.7)‟nin kareköküne bazen asimptotik standart
hata ve t istatistiklerine asimptotik t istatistikleri adı verilmektedir. Bunlar daha
önce gördüğümüz niceliklerle aynı nicelikler olduklarından, bunlara, bazen sadece
büyük örneklem geçerlilikleri olduğunu hatırlayarak, sadece standart hatalar ve t
istatistikleri adıyla atıfta bulunacağız.
Tahmin elden varyansla ilgili yukarıdaki tartışmayı kullanarak
sb j c j / n (8.9)
yazabiliriz, burada c j pozitif bir sabit sayıdır ve örneklem boyutuna bağlı değildir.
Denklem (8.9) sadece bir yaklaşıklıktır, fakat yararlı bir el yordamı kuralıdır:
standart hataların örneklem boyutunun karekökünün tersine eşit bir oranda
küçülmesi beklenmektedir.
z y i i
i 1
n
(8.8)
z x
i 1
i i
z ( x u
i i i u) z u i i /n
i 1
n
i 1
n
(8.9)
z x
i 1
i i z xi 1
i i /n
plim Zu / ZX (8.10)
çünkü katı dışsallık varsayımı (A3) veya dışsallık varsayımı (A3**) altında Zu 0
olmaktadır.
‟nın asimptotik olarak normal dağıldığını göstermek daha zordur. Daha önce-
ki argümanlara benzer bir argüman kullanarak, n ( ) ‟nın sıfır ortalama ve
/ asimptotik varyansla asimptotik olarak normal dağıldığı gösterilebilir.
2
u
2
Z
2
ZX
2
Korelasyon doğrusal bağımlılığı ölçtüğünden g ( X i ) ve X i ‟in korelasyonsuz olma ihtimali ol-
duğunu unutmayınız.
E (Y 2 ) 2 ˆ 2 i 1Yi 2 n
n
3
Araç değişkenler tahmincilerini ileride detaylı olarak inceleyeceğiz.
Daha sonra (8.13)‟te ikinci kitle momenti yerine örneklem karşıtını ve birinci kitle
momenti yerine örneklem karşıtı (8.14)‟ü koyduğumuzda
Y Y
n n n
Y Y
2
i
2
i
2
nY 2 i
2 ˆ 2 ˆ 2 Y 2 i 1
i 1
i 1 (8.15)
n n n
elde edilir. Beklemler yöntemi kitle ortalamasının tahmincisi olarak örneklem orta-
lamasını vermektedir. Y ‟nin değişirliğinin (varyansının) momentler yöntemi tah-
mincisi payda da bilinen (n 1) yerine n içermektedir. Dolayısı ile bildiğimiz yan-
sız kitle değişirlik (varyans) tahmincisinden farklıdır. Fakat büyük örneklemlerde
iki tahminci birbirinden farklı olmayacaktır. Genel olarak, momentler yöntemi tah-
mincileri tutarlıdır ve büyük örneklemlerde doğru parametre değerlerine yakınsak-
laşır, fakat hiçbir anlamda en iyi tahminci değildirler.
Beklem tanımı daha genel durumlarda geçerli olabilecek şekilde genişletilebilir.
Örneğin basit doğrusal regresyon modeli Yi X i ui kapsamında katı dışsal-
lık varsayımı sonucu veya dışsallık varsayımı gereği
E (ui ) 0 E (Yi X i ) 0 (8.16)
ve
E ( X i ui ) 0 E X i (Yi X i ) 0 (8.17)
olmaktadır. Denklem (8.16) ve (8.17) beklem koşullarıdır. İki kitle beklemi yerine
karşı gelen örneklem beklemleri ikame edildiğinde
1 n
Yi X i 0
n i 1
(8.18)
1 n
X i Yi X i 0
n i 1
Bu denklemler en küçük kareler normal denklemleri ile eşdeğerlidir ve çözümleri
en küçük kareler tahmincilerini verecektir. Dolaysıyla beklemler yöntemi tahminci-
leri klasik doğrusal regresyon modeli varsayımları altında en iyi doğrusal yansız
olurken, katı dışsallık varsayımı yerine sadece dışsallık varsayımının yapıldığı du-
rumlarda tutarlı olacaktır.
Olabilirlik fonksiyonu
En çok olabilirlik başlangıçta gözlenen değişkenlerin birleşik olasılık dağılımının,
belirli sayıda parametre değerleri hariç bilindiğini varsaymaktadır. Zi rastsal
değişkeni verilerinin f (Zi ; ) olasılık yoğunluk fonksiyonu (pdf) tarafından
yaratıldığını varsayalım. Burada veri yaratma sürecinin bilinmeyen bir paramet-
residir. Basitlik için bu aşamada bilinmeyen tek bir parametre olduğu varsayılmıştır.
Örneğin Z bir Bernoulli rastsal değişkeni veya normal dağılan bir rastsal değişken
olabilir. Böyle bir olasılık yoğunluk fonksiyonuna sahip Z rastsal değişkeninden n
büyüklüğünde bir rastsal örneklem aldığımızı farz edelim. n sayıdaki gözlemin her
biri bir rastsal değişkenmiş gibi düşünülebilir. Bu n sayıdaki rastsal değişkenin
birleşik olasılık yoğunluk fonksiyonu
g ( Z1 , Z 2 , , Z n ; ) in1 f ( Z i ; ) (8.11)
şeklinde ifade edilebilir, burada in1 simgesi i 1 ‟den n ‟ye kadar olan çarpıma
işaret etmektedir ve bilinmeyen tek parametreyi temsil etmektedir; rastsal
örneklem, bilinen dağılım varsayımıyla birlikte, bağımsızlık ima ettiğinden bireysel
pdf‟ler birbiri ile çarpılabilmektedir.
Buradaki problem Z ‟yi üreten sürecin, dağılım biçimi bilinmesine karşın,
parametresinin bilinmemesidir. Yapılabilecek şey bu sürecin bilinmeyen özelliğini
bir örneklemden çıkarmaktır. Bu açıdan bakıldığında, Zi ‟nin dağılımı ve bir ger-
çekleşme kümesi, i 1,2, , n , bilinmekte, fakat bilinmemektedir. Bu ayırımı
daha da belirginleştirmek için Zi ve ‟nın yerlerini (ve dolayısı ile rollerini) tersi-
ne çevirerek yoğunluk fonksiyonunu olabilirlik fonksiyonu olarak
L( ; Z1 , Z 2 , , Z n ) in1 f ( Z i ; ) (8.12)
Bu işlem fonksiyonu, maksimizasyon için daha kolay türev alınabilir bir biçime
dönüştürmektedir. Maksimizasyon için gerek koşul 0 olmasını
gerektirmekte ve bu koşuldan elde edilen denklem en çok olabilirlik tahmincisi
2
için çözülmektedir.4 Yeter şart 2 0 olmaktadır.
4 En çok olabilirlik çözümünde, türevin sabit kitle parametresine göre değil de değişken olan
tahminciye göre alındığına dikkati çekmek için kısmi türevler şeklinde değil de
şeklinde gösterilmiştir. Bu en çoklama (maksimizasyon) probleminde değişken olan para-
metresi değil tahmincisidir.
olarak yazılabilir. Alternatif olarak, olasılımı dağılımı, daha kolay bir gösterimle
1 Y E (Y x) 2
exp
1
f (Yi x)
i i
2 u
2
2 u 2
1 Yi X i
2
1
f (Yi x) exp (8.14)
2 u
2
2 2
u
olmaktadır. Normallik ile birlikte katı dışsallık bağımsızlığı ima ettiğinden, birleşik
olasılık yoğunluk fonksiyonu bireysel olasılık yoğunluk fonksiyonlarının, yani
pdf‟lerin, çarpımına eşit olacaktır. Dolayısı ile n sayıda gözlem için birleşik
olasılık yoğunluk fonksiyonu
1 Yi X i
2
1
i 1 f (Yi x; , , u2 ) i 1
n n
exp (8.15)
2 u
2
2 2
u
olacaktır. Birleşik olasılık yoğunluk fonksiyonunun regresyon parametreleri ,
ve u2 ‟nin bir fonksiyonu olduğunu vurgulamak için bu parametreler açık olarak
koşullu olasılık fonksiyonu içine katılmıştır.
Şimdi , ve u2 parametrelerini bilinmeyenler olarak ele alarak, hangi ve
değerlerinin, X i ‟ler veri iken Yi örneklemini en çok olabilir yaptığını bulmaya
çalışacağız. Örneklem Yi gözlemlerini rastsal değişkenler olarak alarak olabilirlik
fonksiyonu
1 Yi X i
2
1 (8.16)
i 1
n
exp
2 u
2
2
u2
şeklinde ifade edebiliriz. Dikkat ederseniz 2 u2 bir sabittir ve n defa kendisi
1
2
i 1 Yi X i
n 2
1
L( , , ; Yi x)
2
exp (8.17)
2 2 u
u n 2
2
u
2
şeklinde ifade edebiliriz.
Olabilirlik fonksiyonunun, yani L(.) ‟nin, değişken olarak ele alınan, ve
u2 ‟ya göre diferansiyeli alındığında ve maksimumu veren değerler için çözüm ya-
pıldığında , ve u2 ile gösterilen en çok olabilirlik tahmincileri elde edilir. Pra-
tikte olabilirlik fonksiyonunun doğrudan maksimumunu bulmak yerine onun
( , , u2 ; Yi x) i 1 f (Yi x; , , u2 )
n
n n 1 (8.18)
ln 2 ln u2 2 Y X
n 2
2 u i 1 i i
2 2
şeklinde ifade edilen doğal logaritmasının maksimumunu bulmak daha kolaydır.
‟nin , ve u2 ‟ye göre maksimizasyonu için gerekli birinci derece koşullar
şöyledir:
(2) n
2 Yi X i 0 (8.19a)
2 u i 1
(2) n
2 X i Yi X i 0 (8.19b)
2 u i 1
n 1 n
u
2
2
2 u 2 u4
Y X 0
i 1
i i (8.19c)
İlk iki koşul, 1 / u2 sabiti dışında, kalıntı kareler toplamı minimizasyonundan elde
edilen normal denklemlerle aynıdır, bunun için (8.19a) ve (8.19b)‟den elde edilen
ve en çok olabilirlik tahminci çözümleri sırasıyla olağan en küçük kareler
tahmincileri a ve b ile aynıdır. ui Yi X i tanımını yaparsak, son
denklemin çözümünden, u2 ‟nin en çok olabilirlik tahmincisi
n
u i
2
u2 i 1
(8.20)
n
olarak bulunur. Bunun
e 2
i
su2 i 1
nK
i 1
n
exp (8.21)
2 u2 2 u2
1 n Yi 1 2 X i 2 K X iK
2
exp i 1
2 2 u2
n
2 2
u
n
i 1
Yi 1 2 X i 2 K X iK
2
u i
2
2
i 1
(8.22)
n n
formülünden elde edildiğini varsayalım. Şimdi kısıtlı model ve kısıtsız model
arasında ayrım yapmaya olanak tanımak içim, kısıtsız model log-olabilirlik
işlevinin en çoklanan değerini, „UR‟ üst indisleri kullanarak,
5
LR ilkesi ve sınaması 1928 yılında Jerzy Newman ve E.S. Pearson tarafından,
6
Olabilirlik oranı sınaması, H 0 : 2 32 , 4 1 3 veya, genel olarak,
H 0 : g ( 2 , , K ) 0 gibi, doğrusal olmayan hipotezlerle de kullanılabilmektedir, burada
g () doğrusal olmayan kısıt fonksiyonların kümesidir. Bununla birlikte, katsayılar üzerine ko-
nan kısıtlar doğrusal olmadığında, kısıtlı model artık doğrusal bir model değildir. Bu kitapta,
doğrusal olmayan regresyon modellerinin tahmini için kullanılan teknikler sadece yüzeysel ola-
rak ele alınacaktır. (Bununla birlikte, birçok ekonometri paket programı hiçbir zorlukla karşı-
laşmaksızın doğrusal olamayan regresyon parametrelerini tahmin etmenize izin vermektedir.)
Hatırlarsanız herhangi bir hipotez sınaması için genel strateji H 0 ‟ın geçerli
olduğunu varsayarak bir sınama istatistiği seçmek ve onun dağılımını çıkarmaktır.
Bu dağılım doğrudan sınama için kritik değerleri (veya p -değerlerini) elde etmek
için kullanılmaktadır. Olabilirlik oranı (LR) sınama istatistiği
7
Bu dağılım ancak örneklem büyüklüğü sonsuz olduğunda tam olarak geçerlidir. Bu nedenle da-
ğılımın yaklaşık olarak ki-kare olduğu söylenmektedir.
( U )
( R )
R 0 U
Örnek 8.1
Basit doğrusal regresyon modeli Yi X i ui modelinin olağan en küçük
kareler tahmini Yˆi a bX i ‟yi, bu aynı zamanda en çok olabilirlik tahmini
olmaktadır, dikkate alarak 0 hipotezini sınamak istediğimizi farz edelim log-
olabilirlik fonksiyonunda, ve yerine en çok olabilirlik tahmincileri (bunlar
aynı zamanda en küçük kareler tahmicileridir) a ve b ikame edildiğinde
n
n n 1
( , , 2 ; Yi X i ) log 2 log 2
2 2 2 2
(Y a bX )
i 1
i i
2
(8.30)
veya
n
n n 1
( , , 2 ; Yi X i ) log 2 log 2
2 2 2 2
e
i 1
2
i (8.30*)
n n
maks2 log 2 log
e2 n
, , 2 2 n 2 (8.31)
n n n
log 2 log e log n
2
2 2 2
olarak bulunur. Bu ifade , ve için ML yöntemini kullanarak sınama
yapmada bize yararlı olacaktır. Örneklem büyüklüğü değişmediğinden bu ifadeyi
daha kısa olarak
n n
maks2 log 2 log e 2 (8.32)
, , 2 2
veya
n
e
n
2 2
maks2 2
2 (8.33)
, ,
ei2, R
n
2
maks R
2 2
e
n
2
2
maks U
2
i ,U
2
olmaktadır. Buradan
n
ei2, R 2
(8.34)
ei ,U
2
olarak bulunur. LR sınaması için gerekli istatistik
olmaktadır. Bu istatistik kısıt sayısı kadar serbestlik derecesi ile bir 2 dağılımına
sahiptir. Basit doğrusal regresyon modeli açısından karmaşık gibi görünen bu test
ile H 0 : 0 hipotezi kolaylıkla sınanabilir. Bu durumda kısıtlı ve kısıtsız pay ve
payda değerleri şöyle olacaktır:
e 2
i,R yi2
(8.36)
e 2
i ,U yi2 yˆi2 yi2 1 R 2
dolayısı ile
n
1 2
2
1 R
olacaktır; buradan LR sınama istatistiği
Örnek 8.1
Wald Sınaması
Wald istatistiğini katsayılar üzerine konan tek bir kısıtlamanın,
H 0 : g ( 1 , 2 , , K ) c , mevcut olduğu bir çoklu regresyon modeli için
örneklendireceğiz. Burada g () herhangi bir fonksiyon, örneğin
g ( 1U , 2U , , KU ) 2U 3U ve c herhangi bir sabittir. Sınamanın birden fazla
kısıtlamaya genişletilmesi kavramsal olarak benzerdir, fakat matematiksel olarak
daha zordur. Kısıtsız regresyon modelinin en çok olabilirlik tahminlerinin 1U ,
2U , , KU olduğunu varsayalım. H 0 doğru olduğunda, tahminlerin kısıtı tatmin
etmeye yakın olması gerekir. Yani, g ( 1U , 2U , , KU ) ‟nin c ‟den çok farklı
Burada q boş hipotez altında konulan kısıt sayısıdır (burada verdiğimiz örnekte
q 1 dir.)
Tek bir parametre ve bu parametre üzerine sıfır hipotezi ile konan H 0 : 0
kısıtı için Wald sınaması iki farklı log-olabilirlik fonksiyonu için grafiksel olarak
Şekil 8.4‟te gösterilmiştir. Tahmin edilen parametre ile kısıt arasındaki fark, yani
( U 0) , ne kadar büyük ise sıfır hipotezi aleyhine delil o kadar güçlü demektir.
Bu fark log-olabilirlik fonksiyonun kısıtlı ve kısıtsız durumda alacağı değer farkı,
1 ( U ) 2 ( U )
1 ( 0) 1
2 ( 0)
0 U
Burada q boş hipotez altında konulan kısıt sayısıdır (burada verilen örnekte q 1
dir.)
Lagrange çoğaltan sınaması tek bir parametresi ve iki farklı olabilirlik fonk-
siyonu için grafiksel olarak Şekil 8.6‟da gösterilmiştir. Parametre üzerine sıfır hipo-
tezi ile H 0 : 0 kısıdı konduğu varsayılmaktadır. 0 kısıdının geçerli olduğu
noktadaki log-olabilirlik fonksiyonları eğimi, d 1 / d ve d 2 / d , düşey eksen
boyunca ölçülen log-olabilirlik farkı, 1 ( ) 1 ( 0) ve 2 ( U ) 2 ( 0) , ile
U
1 ( U )
2( U )
1 ( 0) 1 ( 0) 1
2U 1U
çoklu regresyon modelini ele alalım ve bu denklemin sonunda yer alan q sayıdaki
parametrenin sıfıra eşit olduğunu ileri süren
H0 : K q1 0, K q2 0, , K 0 (8.45)
sıfır hipotezini sınamak istediğimizi farz edelim. Aynen F sınamasında olduğu gibi
almaşık hipotez
H1 : K q1 0 ve/veya K q2 0 ve/veya ve/veya K 0 (8.46)
olmaktadır.
Daha önce belirttiğimiz gibi LM sınaması sadece kısıtlanmış model tahminini
gerektirmektedir. Buna uygun olarak kısıtlanmış modeli OLS ile tahmin ettiğimizi
ve
Yi b1R b2R X i 2 b3R X i 3 bKRq X i , K q eiR (8.47)
denklemini elde ettiğimizi farz edelim. Burada parametreler üzerindeki R indisi
kısıtlanmış modelden elde edilen tahminleri ve eiR kısıtlanmış model kalıntılarını
belirtmektedir.
Model dışında bırakılan X K q 1 ile X K aralığındaki q sayıda değişken gerçek-
ten sıfır kitle parametresine sahip ise, eiR örneklemde yer alan bu değişkenlerin her
biri ile en azından yaklaşık olarak korelasyonsuz olmalıdır. Bu korelasyonu bulma-
nın bir yolu eiR ‟yi X K q 1 ile X K aralığındaki değişkenler üzerine regres etme ve
bu regresyonun belirleme (determinasyon) katsayısını hesaplamaktır. Almaşık LM
sınaması iki farkla bunu gerçekleştirmektedir. Birinci fark, LM sınaması X K q 1 ,
, X K değişkenleri ile X 2 , , X K q değişkenlerinin birbiri ile korelasyonlu
olabileceğini dikkate alarak, eiR ‟yi sadece q sayıdaki değişken üzerine değil tüm
açıklayıcı değişkenler üzerine regres etmektedir:
eiR 1 2 X i 2 3 X i 3 X K q X K q 1 K X iK ui (8.48)
Bu sadece bir sınama istatistiği oluşturmak için tahmin edilen ve tahminleri
doğrudan bizi ilgilendirmeyen bir denklem olduğundan yardımcı denklem olarak
adlandırılmaktadır. İkinci fark, bir sınama istatistiği oluşturmak amacıyla, yardımcı
denklem (8.48)‟in belirleme katsayısı Re2 örneklem büyüklüğü n ile çarpılmaktadır
(yardımcı regresyon R -karesini, regresyon uyumunun iyiliğini gösteren R -kareden
ayırtmak için Re2 simgesi kullanılmıştır. Elde edilen istatistiğin, yani nRe2 ‟nin,
yanaşık olarak q serbestlik derecesi ile bir ki-kare dağılımına sahip olduğu
saptanmıştır. Bu şekilde q sayıda açıklayıcı değişkenin ortak anlamlılığını
sınamada kullanılan almaşık bir LM sınama istatistiği elde edilmiş olmaktadır.
Örnek 8.2
LM sınaması kullanımını örneklendirmek için TÜİK‟in 2006 yılı Hanehalkı İşgücü
anketinden rastsal olarak seçilen 8899 çalışanın saat ücretinin belirlenmesini
açıklayan
ln(Ücreti ) 1 2 Eğitimi 3 Deneyimi 4 Sondeneyimi
5 Sosgvnlki 6 Kenti 7 Evlii 8 Mlisei
17
9 Erkeki j İşalan j 8,i i
j 10
modelini ele alalım. Burada Ücreti değişkeni i ‟ninci bireyin net saat başı ücretini,
Eğitimi yıl olarak eğitim düzeyini, Deneyimi yıl olarak toplam deneyim süresini,
Sondeneyimi yıl olarak halen çalışmakta olduğu işteki deneyim süresini, Sosgvnlki ,
Kent i , Evlii , Mlisei , Erkeki sıra ile çalışanın sosyal güvenliği olup olmadığını,
kentsel kesimde mi yoksa kırsal kesimde oturduğunu, evli olup olmadığını, meslek
lisesinden mezun olup olmadığını ve cinsiyetin erkek olup olmadığını gösteren
kukla değişkenlerdir. İşalan ji işletme faaliyet alanını (EFİS, 1.1-NACE,1.1‟e göre)
belirleyen yedi kukla değişkeni temsil etmektedir. j , j 1, 2, ,17 tahmin
edilecek parametreleri belirtmektedir ve i hata terimidir.
İş alanının ücret belirlemede önemli olmadığını düşündüğümüzü ve
H 0 : 10 0 ve 11 0 , , ve 17 0
sıfır önsavını
H 0 : 10 0 ve/veya 11 0 , , ve/veya 17 0
almaşık önsavı karşısında sınamak istediğimizi varsayalım. LM sınaması
log(Ücreti ) 1 2 Eğitimi 3 Deneyimi 4 Sondeneyimi
5 Sosgvnlki 6 Kenti 7 Evlii 8 Mlisei
9 Erkeki i
kısıtlanmış modelinin tahminini gerektirmektedir. Bu tahminin EViews çıktı
sonuçları Şekil 8.7‟de verilmiştir.
Örnek 8.2
0
W
Olabilirlik oranı (LR), Wald (W) ve Lagrange çoğaltan (LM) sınama istatistikleri
asimptotik olarak eşdeğerlidir. Yani, örneklem büyüklüğü sonsuza gittiğinde bunla-
rın hepsi aynı sonucu verecektir. Sonlu örneklemlerden yapılan tahminlerde ise bu
üç istatistik farklı sonuçlar verir. Doğrusal regresyon modelleri söz konusu oldu-
ğunda bu test istatistikleri arasında şöyle bir enteresan ilişki vardır:
W LR LM
Bu istatistiklerden hangisinin kullanılacağı çoğunlukla kısıtsız modelin mi yoksa
kısıtlı modelin mi tahminin zor olduğuna bağlıdır. Regresyon katsayıları üzerine
konan doğrusal olmayan kısıtların sınanmasında çoğunlukla Wald sınaması kulla-
nılmaktadır, çünkü doğrusal olmayan kısıtlar konmuş şekli ile regresyon modelinin
tahmini zor olabilmektedir. Doğrusal regresyon modeli varsayımlarının ihlal edildi-
ği durumlarda, kısıtlanmamış model doğrusal regresyon modeli varsayımlarını tat-
min etmeyeceğinden bunların tahmini zor olabilir. Varsayım ihlalleri, örneğin
heteroskedastisiti, söz konusu olduğunda, çoğunlukla sıfır hipotezleri ihlaller yok-
muş gibi tasarlanmaktadır. Başka bir ifade ile H o klasik varsayımları yüklemekte-
dir. Bu halde kısıtlanmış modeli tahmin etmek çok kolaydır ve bu nedenle çoğun-
lukla Lagrange çoğaltan sınamaları kullanılmaktadır.
Tahmin 2 1 1
edilen ( H 0 ve H 1 altın- ( H 1 altında) ( H 0 altında)
model sa- da)
yısı
H 1 altındaki model karma-
H 0 altındaki mo-
Sınama optimal şık olduğunda çözüm olana-
Olumlu del karmaşık oldu-
yönleri güce sahiptir ğı sağlar. Yardımcı regres-
ğunda çözüm ola-
yon kullanıldığında optimal
nağı sağlar
özelliklere sahiptir.
ML kullanılarak
Modelin paramet-
biri H 0 diğeri H 1
Olumsuz relendirilme şekli-
altında iki optimi- Gücü zayıf olabilir.
yönleri ne bağlı olarak so-
zasyon yapmayı nuç farklı olabilir.
gerektirir
Normalliğin Sınanması
Literatürde bir rastsal örneklem gözlemler kümesinin bir normal kitleden gelip
gelmediğini sınamaya yarayan parametresiz ve parametreli birçok sınama
mevcuttur. Bununla birlikte, bunların regresyon bozuklukları durumunda
uygulanması, bu bozuklukların gözlenemez olması ve herhangi bir şey yapabilmek
için elimizde sadece kalıntıların bulunması nedeniyle zorlaşmaktadır.
Dağılımlar beklemleri (momentleri) tarafından karakterize edildiklerinden, bir
dağılım biçimi için sınama yapmak demek, söz konusu dağılımın biçimine karşı
gelen beklemlerin (momentlerin) değerlerini sınamak demektir. Normal dağılım
durumunda, sınama için geçerli olan beklemler (momentler) simetri (üçüncü
beklem m3 ) ve “basıklık” (dördüncü beklem, m4 ) ölçüleridir. Bozukluk terimi için
bu beklemler (momentler)
m3 E (ui3 ) 0
m4 E (ui4 ) 3 4
sınama istatistiğini kullanabiliriz, boş hipotez altında bu istatistik iki serbestlik
derecesi ile yanaşık (asimptotik) olarak ki-kare dağılımına sahiptir. Testi küçük
örneklemlere uygulayan bir simülasyon çalışmasında testin küçük örneklemler için
de iyi sonuç verdiği gösterilmiştir.
Örnek 8.3
Bölüm 5‟te ilk kez karşılaştığımız hayali limon talep fonksiyonu
8
Pearson ailesinde normallikten sapma gamma tipi dağılımları, Student t tipi dağılımları ve beta
tipi dağılımları ortaya çıkarmaktadır.
Yi X i ui
Örnek 8.3
Örnek 8.4
Giyim eşyasına yapılan harcamalar ile gelir ve fert sayısı arasındaki ilişkiyi
gösteren denklemi aşağıdaki gibi tahmin etmiştik:
JB=81.536 dır ve olasılık değeri p=0.000 dır, yani sıfır normallik hipotezi ret
edilmektedir.
Örnek 8.4
1 ui /
f ui e 0 (8.52)
2
şeklinde tanımlanan Laplace (veya çift üstel) dağılım adı verilen bir dağılıma sahip
olduğunu varsayalım. Laplace dağılımı ve normal dağılım, arasındaki temel ayırım,
normal dağılım ui ‟nin karesini içerirken Laplace dağılımının ui ‟nin mutlak
Y X
i
i i (8.53)
Şekil 8.10
ve ‟ya göre minimize etmek ile aynı şeydir. Bu bir doğrusal programlama
problemidir ve bir standart bilgisayar programı kullanılarak çözülebilir. Çözüm,
mevcut n örneklem gözlemlerinden ikisini seçmeyi ve regresyon doğrusunun bu iki
noktadan geçirilmesini içermektedir. ‟nın sonuçta elde edilen tahmincisi, buna
diyelim, asimptotik olarak etkindir, ve asimptotik varyansı
2
Asimptotik var (8.54)
x 2
i
şeklini alır. Laplace dağılımı için ‟nın OLS tahmincisinin asimptotik varyansı ise
2 2
Asimptotik var b (8.55)
xi2
olmaktadır, bu ‟nın asimptotik varyansının iki katıdır.
Regresyon katsayılarının mutlak sapmaların minimum yapılması ile elde edilen
tahminci (buna çoğunlukla MAD tahmincisi olarak atıfta bulunulmaktadır), kitle
ortalaması veya kitle medyanının bir tahmincisi olarak örneklem medyanının
kullanılmasına benzemektedir. Örneklem medyanı, örneklem ortalamasına kıyasla
uç sapmalardan daha az etkilendiğinden bozukluk terimi içi şişman kuyruklu
9
Yapılan varsayımlar altında normal olarak dağılan bozukluk teriminin olasılık yoğunluk fonksi-
2 2 )e(1/2)(ui / ) olmaktadır.
2
yonu f (ui ) (1/
Örnek 8.5
Yukarda belirtilen nokta limon talebini yansıtan daha önceki limon talebi örneğimiz
ile yansıtılabilir. 12 gözlemlik verileri kullanarak OLS tahminlerini
Yi 210.460 1.578 X i ei
şeklinde elde etmiştik. MAD kestirimleri-ele alınan durumda bunlar bir bilgisayar
programı kullanmaksızın kestirilebilir:
Yi 205 1.5 X i ui
iki kestirim kümesinin birbirine oldukça yakın olduğu açıktır. ( ui 60 iken
i
e
i
i 64.68 olmaktadır.)
Örnek 8.5
xi22 nvar( X 2 )
i 1
xi22
i 1
b2 i 1 i 2 i
(10.7)
2
n n n
x2
i 1 i 2
x
2
i 1 i 3
x x
i 1 i 2 i 3
yerine
n
x y
b2 i 1 i 2 i
(10.8)
n 2
x
i 1 i
n 2 n 2
x
i 1 i 2 i 1 i
x
1 2 n xi22 3 n xi 2 xi 3 n xi 2 (ui u )
(10.9)
x
n 2 i 1 i 1 i 1
i 1 i 2
xx
n n
x (ui u )
2 3 i 1 i 2 i 3
i 1 i 2
x
n 2 n 2
i 1 i i 1 i
x
bulunur. Açıklayıcı değişkenlere koşullu beklenen değer alındığında
xx
n
E (b2 ) 2 3 i 1 i 2 i 3
(10.10)
x
n 2
i 1 i
ifade
X̂ 3 c1 c2 X 2 (10.11)
regresyonu ile tahmin edilen c2 dir. Yine daha önce öğrendiklerimizden bu katsayı-
nın c2 =cov( X 2 , X 3 ) / var( X 2 ) , yani X 2 ile X 3 ’ün örneklem kovaryansının X 2 ’nin
örneklem varyansına oranı olduğunu biliyoruz. Bu yana, yani E (b2 ) 2 3c2 ’ye,
dışarıda bırakılan değişken yanı adı verilmektedir. Dolayısı ile eğer 3 ve c2 aynı
işaretli ise yukarı doğru, aksi takdirde aşağı doğru bir yan ortaya çıkacaktır. Yanın
büyüklüğü 3 ve c2 ’nin büyüklüğüne bağlıdır.
Denklem (10.10)’dan b2 ’nin yansız olabileceği iki durum hemen görülmektedir.
Birincisi 3 0 olduğu durumdur, bu halde 3 değişkeni doğru modelde yer almı-
yor demektir. Basit regresyon modelinden bunun böyle olduğunu zaten biliyoruz.
İkincisi c2 0 veya cov( X 2 , X 3 ) 0 , yani örneklemde X 2 ile X 3 ’ün korelâsyon-
suz olduğu durumdur. Bunu daha önce görmüştük. Hatırlarsanız, eğer iki açıklayıcı
değişken birbiri ile korelasyonsuz, yani cov( X 2 , X 3 ) 0 , ise iki açıklayıcı değişken-
li çoklu regresyon modeli Yi 1 2 X i 2 2 X i 3 ui elde edilen parametre tah-
minleri, b2 ve b3 , ile bu açıklayıcı değişkenlerin ayrı ayrı kullanıldığın basit reg-
resyonlardan, yani Yi 1 2 X i 2 vi ve Yi 1 2 X i 3 wi elde edilen paramet-
re tahminleri b2 ve b3 birbiri ile aynı olacaktır.
Tutarlılık Problemi
Model dışında bırakılan (ihmal edilen) değişken yanlılığının asimptotik benzerini
çıkarmak için (10.4)’ü kullanabiliriz. Doğru modelin (10.4)’teki gibi olduğunu ve
modelin Gauss-Markov varsayımlarından doğrusallık, tam çoklu doğrusal bağıntı-
sızlık, sıfır koşulsuz ortalama ve açıklayıcı değişken ile hata terimleri arasındaki ko-
relâsyonluk (V3*) varsayımlarını tatmin ettiğini varsayalım. Bu halde ui ’nin orta-
laması sıfır olacak ve ui hata terimi ile X 2 ve X 3 korelâsyonsuz olacaktır. 1 , 2
ve 3 ’ün OLS tahmincileri, yani b1 , b2 ve b3 , tutarlı olacaktır. X 3 model dışında
bırakılarak Yi değişkeni X i 2 üzerine regres edildiğinde hata terimi ui 2 X i 2 vi
olacaktır. Basit regresyondan elde edilen 2 parametresi OLS tahmincisi b2 ’nin
olasılık limiti
X
plim b2 2 3 2 X3
(1.12)
X2 2
olacaktır. Bu nedenle, pratik açıdan bakıldığında, tutarsızlık yanlılık ile aynı şey
olarak ele alınabilir. İkisi arasındaki farklılık, tutarsızlığın X 2 ve X 3 ’ün kütle
kovaryansı, X 2 X3 , ve X 2 ’nin kütle varyansı, X2 2 , cinsinden ifade edilmesidir,
i 1 i 1
Örnek 10.1
Tablo 10.3
1
Kuşkusuz farkın tamamının yana atfedilmemesi gerekir. Örnekleme hatası nedeniyle
b2 beklenenden daha büyük veya küçük tahmin edilebilir.
Tablo 10.4
Tablo 10.5
Örnek 10.6
Yukarıdaki analiz doğru modeli iki açıklayıcı değişkenli bir model olduğunda
geçerlidir. Çoklu regresyon modelinde ikiden fazla açıklayıcı değişken mevcut ol-
duğunda dışarıda bırakılan değişkenin etkisinin işaretinin matematiksel olarak çıka-
rılması zorlaşmaktadır. Buna rağmen yine de bazı açıklayıcı değişkenlerin katsayı-
larının olduğundan büyük veya küçük tahmin edileceği sonucunu çıkarabiliriz.
Dışarıda Bırakılan Değişken ve R-kare
Daha önceki tartışmalarımızda her bir açılayıcı değişkenin R 2 ’ye olan katkısını be-
lirlemenin imkânsız olduğunu söylemiştik. Şimdi bunun neden böyle olduğunu yu-
karıda verilen örnek aracılığı ile kolaylıkla görebiliriz. Sadece ASVABC ’nin açık-
layıcı değişken olarak göründüğü Tablo 10.6’daki modelde R 2 ’nin değeri 0.33 ve
sadece HGCM ’nin açıklayıcı değişken olarak göründüğü Tablo 10.7’deki modelde
R 2 ’nin değeri 0.13 tür. Bu bulgulara dayanarak Tablo 10.6’daki modelde
ASVABC değişkenindeki değişmeler S ’deki değişmelerin %33’ünü açıkladığını
ve Tablo 10.7’deki modelde HGCM değişkenindeki değişmeler S ’deki değişme-
lerin %13’ünü açıkladığını söyleyebilir miyiz? Cevap hayırdır.
üç açıklayıcı değişkenli çoklu regresyon modelini ele alalım. Bu model için normal
denklemler
n n n n
Y
i 1
i nb1 b2 X i 2 b3 X i 3 b4 X i 4
i 1 i 1 i 1
n n n n n
Y X
i 1
i i2 b1 X i 2 b2 X i22 b3 X i 2 X i 3 b4 X i 2 X i 4
i 1 i 1 i 1 i 1
n n n n n
(10.13)
Y X
i 1
i i3 b1 X i 3 b2 X i 2 X i 3 b3 X b4 X i 3 X i 4
i 1 i 1 i 1
2
i3
i 1
n n n n n
Y X
i 1
i i4 b1 X i 4 b2 X i 2 X i 4 b3 X i 3 X i 4 b4 X i24
i 1 i 1 i 1 i 1
Y
i 1
i nb1 b2 X i 2 (b3 2b4 ) X i 3
i 1 i 1
n n n n
Y X
i 1
i i2 b1 X i 2 b2 X i22 (b3 2b4 ) X i 2 X i 3
i 1 i 1 i 1
(10.14)
n n n n
Y X
i 1
i i3 b1 X i 3 b2 X i 2 X i 3 (b3 2b4 ) X i23
i 1 i 1 i 1
Buradan b vektörünü bulmak için ifadenin önden XX ’in evriği (tersi), yani
( XX) 1 , ile çarpılması gerektiğini daha önce görmüştük. Eğer, yukarıdaki örnekte
varsayıldığı gibi, X vektörünün bazı sütunları arasında tam doğrusal bağıntı varsa
X ’in rankı K ’dan küçük olacak ve XX ’nin evriği (tersi) alınamayacaktır, yani
( XX) 1 tekil olacak ve evriği (tersi) mevcut olmayacak demektir. Bazen böyle bir
sorun aynı açıklayıcı değişken farkında olunmaksızın modele farklı adlarla iki kez
katıldığında ortaya çıkabilir.
formülünden çıkarılabileceğini ve diğer şeyler aynı iken Rk2 yani X ik açıklayıcı de-
ğişkeninin diğer açıklayıcı değişkenler üzerine regresyonundan elde edilen R-kare
arttıkça var(bk X) ’nin artacağını biliyoruz. Fakat bu modellerde de hata teriminin
varyansı düşük, gözlem sayısı yüksek ve açıklayıcı değişkenin örneklem varyansı
yüksek ise Rk2 yüksek olması var(bk ) üzerinde ciddi bir problem yaratmayabilecek-
tir. Açıklayıcı değişkenler arasındaki doğrusal ilişkinin var(bk ) üzerinde ciddi bir
etkiye sahip olması örneklemden örnekleme değişmektedir.
Kuşkusuz yukarıda belirtilen nedenlerle, çoklu doğrual bağıntı problemi olmak-
sızın da katsayı tahminlerinin varyansları ve kovaryansları artabilir. Dolayısı ile
katsayı tahminlerindeki her varyans ve kovaryans artışı çoklu doğrusal bağıntı prob-
lemi anlamına gelmez.
Hipotez testlerinin gücü zayıflar ve güven aralıkları genişler
Çoklu doğrusal bağıntı problemi doğal olarak parametre tahminlerinin tahmin edi-
len varyanslarını ve dolayısıyla standart hatalarını arttırdığı için çoklu doğrusal ba-
ğıntı probleminin olmadığı duruma kıyasla tahmin edilen katsayıların anlamsız ol-
ma eğilimi artacak ve güven aralıkları genişleyecektir. Fakat dikkat edilirse bu so-
nuç, çoklu doğrusal bağıntı probleminin tahminleri daha anlamsız hale getirdiği an-
lamına gelmemektedir. Keza hipotez testlerinin ve aralık tahminin artık doğru ol-
madığı anlamına da gelmemektedir. Çoklu doğrusal bağıntı problemi nedeniyle kat-
sayı tahminlerinin hassasiyetini yitirmesi hipotez testlerinin gücünün zayıflamasına
neden olmaktadır. Çoklu doğrusal bağıntı problemi nedeniyle hipotez testlerinin
doğru ve yanlış hipotezler arasında ayırım becerisi azalmaktadır.
lerde çoklu doğrusal bağıntı problemi olup olmadığına karar verirken daha çok ör-
neklem verileri ile bağıntılı sorunlar üzerinde durulmalıdır.
Yukarıda açıklanan nedenlerle çoklu doğrusal bağıntı probleminin tanısına yö-
nelik olarak önerilen ölçüler ciddi anlamda istatistiksel testler değil sadece birer
sinyal niteliğinde göstergelerdir.
Güçlü Göstergeler
Açıkça görüldüğü gibi VIFk ve TOLk ölçütleri Rk2 ’nin yeniden başka türlü ifa-
de edilmesinden başka bir şey değildir. Rk2 ölçütü için söylediklerimiz aynen VIF
ve TOL ölçütleri için de geçerlidir.
XX matrisini temel alan göstergeler
XX ’in determinantı
XX ’in determinantı küçük ise doğrusal bağıntının yüksek olacağını biliyoruz.
Bundan hareketle bazı araştırmacılar XX ’in determinant değerinin çok küçük ol-
masının bir çoklu doğrusal bağıntı ölçüsü olarak kullanılabileceğine işaret etmiştir.
Bunun ne kadar geçerli bir ölçü olacağına iki açıklayıcı değişkenli bir model örneği
ile açıklık getirebiliriz. Böyle bir modelde
n X i2 X i3
n x x (1 r
2
2
2
3 ) n var( X 2 ) var( X 3 )(1 rX22 X 3 )
2
X2 X3
olmaktadır. Bu ölçünün alt ve üst sınırları belli değildir. Diğer ölçülerden farklı ola-
rak bu ölçünün büyüklüğü korelâsyonlu tüm değişkenlerin örneklem
varyanslarından etkilenmektedir.
Koşul indeksi
XX ’nün küçük determinant değeri XX ’nün öz (karakteristik) köklerinden en
azından birinin sıfıra yakın olacağı anlamına gelmektedir. Bundan esinlenerek bazı
yazarlar en büyük öz kökün en küçük öz köke oranının bir çoklu doğrusal bağıntı
ölçüsü olarak kullanılabileceğini ileri sürmektedir. Öz kökler matrislerin özellikle-
rini belirlemede yararlı ölçülerdir; öz köklerin çarpımı matrisin determinantını ver-
mektedir. Öz köklerden hareketle koşul indeksi(CI) şöyle tanımlanmaktadır:
Maksimum öz kök
CI c
Minimum öz kök
c ’ya koşul sayısı adı verilmektedir. Koşul indeksi 30’dan büyük değer alması bu
ciddi çoklu doğrusal bağıntı problemi olarak kabul edilmektedir.
Rk2 ’ye ve XX matrisine dayanan çoklu doğrusal bağıntı problemi ölçütleri
var(bk ) (ve tahmincilerin kovaryansları) ile Rk2 ilişkisi üzerinde durmaktadır. Ger-
çekte var(bk ) (ve tahmincilerin kovaryansları) sadece Rk2 ’ye değil aynı zamanda
hata teriminin varyansına, gözlem sayısına, n , ve açıklayıcı değişkenlerin
varyanslarına bağlı olarak değişmektedir. Bu nedenle göstergelerin çoklu doğrusal
bağıntıya işaret ettiği durumlarda dahi, eğer gözlem sayısı ve açıklayıcı değişken
varyansları yeterince büyük ise, katsayı tahminlerinin varyansları (ve kovaryansları)
yüksek olmayabilecektir. Keza tahmincilerin varyansları, Rk2 yüksek olduğu için
değil, gözlem sayısı ve açıklayıcı değişken varyansları küçük olduğu için yüksek
olabilir.
Çoklu doğrusal bağıntı problemi için çözümler
Görmezlikten gelme
Bazen çoklu doğrusal bağıntı problemi ölçütlerinin takdirliği dikkate alınarak hiçbir
şey yapamamak en iyi yol olabilir. Çoklu doğrusal bağıntılı değişkenlerin bireysel
katsayıları önemli olmayabilir. Değişkenler arasındaki çoklu doğrusal bağıntı yük-
sek olabilir fakat onun etkisini hafifletici faktörler nedeniyle katsayı tahminlerinin
standart hataları ve dolayısı ile t testleri çoklu doğrusal bağıntıdan önemli ölçüde
etkilenmeyebilir. Bu gibi durumlarda en iyi çözüm modeli olduğu gibi bırakmaktır.
Çoklu doğrusal bağıntılı değişkenlerden birini model dışında bırakma
Sadece iki bağımsız değişkeninin kuvvetli bir şekilde korelâsyonlu olduğu durum-
larda hemen akla gelen bir yol bağımsız değişkenlerden birinin model dışında bıra-
kılmasıdır. Eğer iki değişken aşağı yukarı aynı bilgiyi sağlıyor ise veya varyansı
çok küçük olan bir açıklayıcı değişken modelen düşürülüyorsa bu bir çözüm yolu
olabilir. Fakat bunun dışındaki durumlarda, daha önce gördüğümüz gibi, böyle bir
çözüm model içinde kalan bağımsız değişken tahmincilerinin yanlı olmasına neden
olur.
Çoklu doğrusal bağıntılı değişkenleri birleştirme
Bazen çoklu doğrusal bağıntılı değişenleri birleştirmek bir çözüm yolu olabilir. Ör-
neğin gıda harcamaları modelinde hanehalkının bazı gelirleri nakdi diğer bazıları
ise ayni olabilir ve bunlar güçlü bir şeklide korelâsyonlu olabilir. Böyle bir durumda
modele iki ayrı gelir değişkeni katmak yerine iki gelir değişkeni belirli bir rafine iş-
leminden geçirilerek birleştirilebilir. Ağırlık ve boyun birlikte çoklu doğrusal bağın-
tılı açıklayıcı değişken olarak göründüğü bir modelde iki değişken yerine bunların
bir şekilde birleştirilmesinden elde edilecek yüzey değişkeni kullanılabilir. Anne ve
babanın eğitim düzeylerinin veya yaşlarının ayrı ayrı göründüğü bir modelde bunlar
uygun bir ortalaması alınarak ebeveyn eğitim düzeyi veya yaşı olarak modele katı-
labilir. Bazen çoklu doğrusal bağıntılı değişkenleri oran olarak modele katmak uy-
gun olabilir.
Örneklem büyüklüğünü arttırma
Çoklu doğrusal bağıntı problemine dolaylı bir çözüm örneklem büyüklüğünü art-
tırmak ve bu yolla çoklu doğrusal bağıntının tahmin edilen katsayıların varyansları
üzerindeki yükseltici etkisini hafifletmektir.
Model 3’ün tahminleri Tablo 10.10’da verilmiştir. Yeni tahmin edilen modelde
anlamsız olan tek değişken UNEMP değişkenidir. İlk bakışta bunun nedeninin yük-
sek R32 veya VIF3 ’ün 4’ten büyük değer alması, yani zararlı çoklu doğrusal bağıntı
problemi, olduğu düşünülebilir. Fakat biraz daha dikkatle incelendiğinde UNEMP
örneklem varyansı ikinci en küçük olan değişkendir. Yani büyük bir ihtimalle
UNEMP değişkeninin katsayısı gerçekten anlamsızdır. UNEMP düşürülerek bulu-
nan yeni model tahmini Tablo 10.10’da sunulmuştur. Model 4’te tüm parametre
tahminleri yüksek düzeyde anlamlıdır. Model 2’de URB değişkeni katsayı tahmini
anlamsız iken şimdi anlamlı olmuştur.
Örnek 10.7
E ui2 X 2 i 1, ,n (12.2)
var(ui X) E ui2 X i2 i 1, ,n (12.3)
Dikkat ederseniz eşitlik (12.2) ile (12.3) arasındaki terk farklılık ikincide 2 ‟ye alt
indis olarak i eklenmesidir. Bu i , yani gözlem, değiştikçe, Şekil 12.2‟de
gösterildiği gibi heteroskedastik hata terimi varyansının değişeceğine işaret
etmektedir.
Heteroskedastisiti
f (ui )
X1
X2
X3
X4 E (Yi X i ) X i
X5
X
Şekil 12.1 Eşit yayılım (Homoskedastisiti)
Hata terimi, ui , gerçekte her gözlemde sadece tek bir değer almaktadır, o halde
bunun dağılımı ve varyansı dendiğinde ne ifade edilmek istenmektedir? Burada
sözü edilen şey elimizde bulunan örneklemi yaratan sürecin potansiyel davranışıdır.
Çoklu doğrusal regresyon modeli varsayımları altında n gözlemli bir örneklemin
X ‟e koşullu gerçek hata terimleri, u1 , , un , koşullu ortalaması 0 ve koşullu
varyansı aynı olan olasılık dağılımlarından çekilmektedir. Gözlenemeyen hata
terimlerinin gerçek değerleri bazen pozitif, bazen negatif, bazen sıfıra yakın bazen
sıfırdan uzak ve hatta bazen sıfır olabilir, fakat bunların gözlemden gözleme
sistematik bir biçimde değişmesini beklemek için bir neden yoktur. Başka bir ifade
ile ui ‟nin herhangi iki değer arasında bir değer alma olasılığı gözlemden gözleme
değişmeyecektir. Eşit yaylım (homoskedastisiti) olarak bilinen bu koşul gözlemden
gözleme aynı kalan saçılım veya aynı kalan değişirlik anlamına gelmektedir. Şekil
12.1‟deki dağılımların orta noktalarından indirilen dikmelerin gerçek regresyon
doğrusunu kestiği noktalar hata teriminin koşullu beklenen değerinin sıfır olduğu
noktalardır. Hata teriminin gerçekte aldığı sıfırdan farklı değerler bu noktaların iki
tarafında herhangi bir yerde olabilir. Hata terimi eşit yaylımlı (homoskedastik)
olduğunda ui ‟lerin potansiyel dağılımı Şekil 12.1‟de gösterildiği gibi olacaktır.
f (ui )
X1
X2
X3
X4 E (Yi X i ) X i
X5
X
Şekil 12.2 Farklı yayılım (heteroskedastisiti)
x y i i
b i 1
n
x
i 1
2
i
Yi Y X i X ui u
n n n
x x u
i i i u xi2 xi ui u
b i 1
n
i 1
n
i 1
x
i 1
2
i x
i 1
2
i
x u i i u
b i 1
n
x
i 1
2
i
n
xi ui u
E b x E i 1 n
i 1
2
xi
olduğu bulunur. Benzer şekilde
a Y bX X u bX
sahiptir ve dolayısı ile en iyi doğrusal yansızdır, yani diğer doğrusal yansız
tahmincilerle karşılaştırıldığında etkindir (BLUE özelliği). Eğer heteroskedastisiti
mevcut ise OLS tahmincileri en iyi doğrusal yansız ve dolayısı ile etkin
olmayacaktır1; çünkü böyle bir durumda daha ufak varyansa sahip başka doğrusal
yansız tahminciler bulmak mümkündür. Keza böyle bir durumda OLS tahmincileri
asimptotik olarak ta etkin olmayacaktır.
Etkinlik özelliği sezgisel olarak kolaylıkla açıklanabilir. Şekil 12.2‟deki gibi bir
heteroskedastisitinin var olduğunu kabul edelim. Hata teriminin potansiyel
dağılımının ufak bir standart sapmaya sahip olduğu gözlemler, örneğin Şekil
12.2‟deki birinci gözlem gerçek regresyon doğrusuna yakın bir yerde olacak ve bu
gözlem bu doğrunun konumu konusunda bize iyi bir yol gösterici olacaktır. Bunun
aksine, potansiyel dağılımı büyük bir standart sapmaya sahip olan bir gözlem,
örneğin Şekil 12.2‟deki beşinci gözlem, gerçek regresyon doğrusunun konumu
konusunda iyi bir yol gösterici olmayacaktır. OLS gözlemlerin kalitesi konusunda
hiçbir ayırım yapmamakta ve her gözleme, doğrunun konumu konusunda iyi bir
rehber olsun veya olmasın, eşit ağırlık vermektedir. Dolayısı ile eğer kaliteli
gözlemlere daha büyük ağırlık veren ve düşük kaliteli gözlemlere daha düşük
ağırlık veren bir doğrusal tahmin yöntemi bulursak, muhtemelen daha iyi uyum elde
edeceğiz demektir. Başka bir ifade ile tahminciler daha etkin olacaktır.
1 Buradaki etkinlik kavramı doğrusal yansız tahminciler arasında minimum varyanslı olma özelli-
ğine atıfta bulunmaktadır.
Yi 1 X u
i i , i 1, ,n (12.5a)
i i i i
Daha basit olarak bu yeni denklem
Yi* Wi* X i* ui* (12.5b)
E ui x
E ui* x i
0
E ui u j x 0
cov ui* , u *j x i j
ve
u x var ui x i2
var ui* x var i 2 1
i i2 i
Yi 1 Xi
2
2
i2
i 1
(12.7a)
X iYi Xi X i2
2
i2
i2
i
1
wi
i2
yaparak, daha uygun bir yazım gerçekleştirebiliriz:
Bu denklemleri çözdüğümüzde
w w X Y w X wY
i i i i i i i i
w w X w X 2 2
i i i i
w X X Y Y
i i i
(12.8)
w X X
2
i i
(12.8)’in payı:
w X X Y Y
i i i
w X Y Y X X Y XY
i i i i i
w X Y X wY Y w X
i i i i i i i XY wi
wi X iYi
W X w Y w Y w X
i i i i
w w
i i i i
i i
w X wY w
i
i i i
w w
i
i i
w X wY
wi X iYi
i i i
w i
w w X Y w X wY
i i i i i i i i
w i
(12.8)’in paydası:
w X w X
2
i i X i
2
i 2Xi X X 2
wi X 2 X wi X i X 2 wi
i
2
wi X i2 X wi X i
w X w X
wi X i2
2
i i
w
i i
i
w w X w X 2 2
i i i i i
w i
Benzer şekilde
Y X (12.9)
i 1
i 1
L Y Xi
i
i i2
L Y Xi
i
i i2
olmaktadır. Bu türevleri sıfıra eşitler ve ve „nın tahmincileri için çözersek
w X X Y Y
i i i
w X X
i i
a Y X
olduğundan
Yi Yi ( X X i ) u u
w X X Y Y w X X X X u
i i i i i i i i u
w X X w X X
2 2
i i i i
w X X u u w X X u
i i i i i i
w X X w X X
2 2
i i i i
2
w X X u
i i
E
2
var E
i
wi X i X
2
w X X w X X
2 2
2 2
i i i i i
(12.11)
w X X w X X
2 2
2 2
i i
i i
1
w X i i X
Benzer yöntem ile ‟nın varyansın heteroskedastisiti altındaki en iyi doğrusal
yansız tahmincisi bulunabilir:
var
w X i i
2
w w X wX 2 2
i i i i
(12.12)
1 X2
wi w X i i X
2
Heteroskedastisiti Durumunda
Tahmin Edilen Varyanslari
Heteroskedastisiti altında regresyon katyasılarının en küçük kareler tahmincilerinin
yansız ve tutarlı olduğunu fakat etkin ve asimptotik olarak etkin olmadığını bulduk.
Bu şekilde, bozukluk heteroskedastik ise ve bunun böyle olduğunu bilmiyor (veya
biliyor fakat görmemezlikten geliyor) ve en küçük kareler formüllerini
kullanıyorsak, ortaya çıkan tahminciler yine de bazı arzulanan özelliklere sahip
olacaktır. Fakat bu tahmincileri hipotez sınamalarında veya güven aralıkları
oluşturmada kullanmaya kalkarsak, sadece bu tahmincilerin kendilerinin yansız
olmasını değil, fakat aynı zamanda bunların tahmin edilen varyanslarının da yansız
olmasını isteriz. Aksi takdirde sınamalar geçersiz olacak ve oluşturulan güven
aralıkları doğru olmayacaktır.
Basit doğrusal regresyon modeli en küçük kareler tahmincisi b için geleneksel
varyans hesaplama formülünün
s2
sb2 n
x
i 1
2
i
ei2 (Y Yˆ )
i i
2
s
2 i 1
i 1
n2 n2
formülünden hesaplanan tahmin edilen varyansını göstermektedir. Eşyayılım
(homoskedastisiti) varsayımı altında sb2 tahmincisi b‟nin varyansının yansız bir
tahmincisidir. Şimdi bilmek istediğimiz homoskedastisiti varsayımı geçerli
olmadığında sb2 ‟nın yansızlık özelliğinin geçerli olmaya devam edip etmediğidir.
Bunu cevaplayabilmek için s 2 ‟nin matematiksel bekleyişini bulmamız gerekir:
n
E s2
1
E ( X i ui a bX i )2
n 2 i 1
1 n
n 2 i 1
E a b X i ui
2
Daha önceki bölümlerden a ‟nın
a b X u
olduğunu biliyoruz. Bunu yerine koyarsak
E s2
1 n
n 2 i 1
E b xi ui u
2
1 n
n 2 n
E b xi E u u xi 2 E (b ) xi ui
2
n2 i 1 i 1 i i 1
olduğu bulunur. Şimdi
E b x x var b
2 2 2
i i
b
xu i i
x 2
i
xi ui
E b xi ui E xi ui
x2
i
xi ui
2
E
x2 x 2
i
i
xi2 var b
E u u E u n u
i
2 2
i
2
2E u u i
E ui2 nE u 2 i2 E xi2
1
2
1 n 1
i2 i2 i
2
2 n
E s2 xi2 var b E ui u
1 2
n2
(12.13a)
1 xi n 1 i2
2
n 2 xi2 n
1 xu xi n 1 n
2 2 2 2
E s2
n 2 xi2 n
1
n 2
2 xi2i (12.13b)
n 2 xi2
2
x 2
i i
n 2 x 2
u
Dolayısı ile,
s2
E sb2 E
x 2
i
(12.14)
2
x 2
i i
x n 2 x
2
i
2 2
i
var b
x 2
i i
2
x 2 2
i
2
x 2
i i
x x
2
i i
2 2
E sb2 var b
E sb2 var b
x 2
i i
x 2
i i
n 2 x x
2 2
i
2 2
i
(12.15)
n 1 x 2
i i
n 2 x 2 2
i
ei
ei
Xi Xi
Homoskedastisiti Heteroskedastisiti
Örnek 12.1
1994 Hane Halkı Anketi Bursa verilerini içeren BURSA2.WF1 dosyasını
kullanarak lira olarak ifade edilen giyim harcamaları (GIYIM) ile lira cinsinden
ifade edilen hanhalkı geliri (GEL) ve hanehalkı fert sayısı (FERT) arasındaki çoklu
doğrusal regresyon modeli 55 gözlemli bir örneklemden Tablo 12.1‟de gösterildiği
gibi tahmin edilmiştir.
Gelirdeki ve fert sayısındaki değişmeler giyime yapılan harcamalardaki
değişmelerin sadece %25‟ini açıklamaktadır. Marjinal giyim hacama meyli 0.03
olarak tahmin edilmiştir. Hanehalkı fert sayısındaki 1 kişilik artışın giyim
harcamalarını 105381 lira artıracağı tahmin edilmiştir. Bu model kalıntılarını
EGIYIM ile gösterelim. EGIYIM ile GEL ve EGIYIM ile FERT arasındaki saçılım
diyagramları Şekil 12.3‟te gösterilmiştir. Şekil 12.3‟ten görüldüğü gibi hem gelir ve
hem de fert sayısı arttıkça kalıntıların saçılımı artmaktadır. Bu tipik bir artan
heteroskedastisiti sinyalidir.
(a) (b)
Şekil 12.3
Örnek 12.1
mutlak kareleri (veya mutlak değerleri) bağımsız değişkenlerin veya Yˆi ‟nın değeri
ei2 ei2
X i veya Yˆi
X i veya Yˆi
(a) (b)
ei2
ei2
X i veya Yˆi
X i veya Yˆi
(c) (d)
ˆ
Şekil 12.4 Kalıntı karelerinin X i ‟ye veya Yi ‟ye karşı hayali biçimleri
biçimindeki bir boş hipotezi H o ‟nın doğru olmadığı almaşık hipotez karşısında
sınamaya yönelik yöntemlerdir, burada m farklı değerdeki varyans sayısını
göstermektedir. Zaman içinde geliştirilen çok sayıda farklı yayılım
(heteroskedastisiti) sınaması mevcuttur. Bunlardan bir bölümü hata teriminin
değişirliğinin (varyansının) bağımsız değişkenlere bağlı olduğunu doğrudan
sınarken bazıları sadece heteroskedastisitinin varlığını yakalamaya yönelik
sınamalardır. Burada sadece belli başlı sınamaların modern uyarlamalarını
inceleyeceğiz.
Breusch-Pagan Sınaması
Breusch-Pagan sınaması ardındaki temel fikir şudur: Homoskedastitisi hipotezi
doğru olduğunda regresyon katsayılarının olağan en küçük kareler tahminleri
olabilir hetoroskedastisitiye izin veren en çok olabilirlik tahminlerinden önemli
ölçüde farklı olmayacaktır. Örneğin
2
n 1 n 1 n Y Xi
L log(2 ) log i2 i
2 2 i 1 2 i 1 i
heteroskedastisitiye izin veren olabilirlik fonksiyonu ise, bilinmeyen parametreler
yerine bunların en çok olabilirlik tahminleri konduğunda L‟nin birinci türevleri
sıfıra eşit olmalıdır. Öte yandan, bu bilinmeyen parametreler yerine olağan en
küçük kareler tahminleri konduğunda, eğer bozukluklar gerçekte eşyayılımlı
(homoskedastik) ise, L‟nin birinci türevi anlamlı bir şekilde sıfırdan farklı
olmayacaktır.
Breusch ve Pagan (1980) tarafından yapılan orijinal formüllendirmede hata
terimlerinin normal dağıldığı varsayılmaktadır. Koenker (1983) tarafından önerilen
LM istatistiği biçimindeki Breusch-Pagan testi daha yaygın uygulama alanı bulduğu
için genellikle tercih edilmektedir. Burada sınamanın bu uyarlamasını ele alacağız.3
Heteroskedastisiti mevcut olduğunda bu sınamanın güçlü bir sınama olduğu ortaya çıkmakta-
dır, fakat küçük örneklemlerde belirtilen anlamlılık düzeyi gerçek düzeyin kaba bir belirteci
olmaktadır. Breusch-Pagan sınaması regresyon bozuklukluğunun normallik varsayımındaki kü-
çük ihlallere karşı çok duyarlı olduğu gerekçesi ile eleştirilmektedir. Testin Koenker (1981) ta-
rafından gerçekleştirlen bir almaşık uyarlaması normallikten sapmalara karşı dirençli bir sına-
ma istatistiği üretmektedir.
şeklinde ifade edilir. Sıfır hipotezi altında i ‟nin katı dışsal veya X j 2 , X j 3 , ,
X jK ( i, j 1, 2, , n ) ile korelâsyonsuz olduğu varsayılmaktadır. Daha önceki
bölümlerden (12.18)‟deki genel anlamlılık sınaması için F veya LM
ei2 1 2 X i 2 K X iK i (12.18)
regresyonunu tahmin edebilir ve yardımcı denklemin genel anlamlılığını test etmek
için F ve LM istatistiklerini hesaplayabiliriz. ui ‟ler yerine ei ‟ler kullanılarak elde
edilen test istatistiklerinin büyük örneklem özelliklerinin birbirinden farklı olmadığı
kanıtlanabilir (Wooldridge, 2002, s. 266). Yardımcı denklem (12.18)‟in
tahmininden elde edilen belirleme katsayısı, Re22 , cinsinden F istatistiği şöyledir:
Re22 ( K 1)
F (12.19)
(1 Re22 ) (n K )
LM nRe22 (12.20)
Örnek 12.3
Şimdi 1994 Hane Halkı Anketi Bursa verilerini içeren BURSA2.WF1 dosyasını
kullanarak lira olarak ifade edilen giyim harcamaları (GIYIM) ile lira cinsinden
ifade edilen hanehalkı geliri (GEL) ve hanehalkı fert sayısı (FERT) üzerine regress
eden çoklu doğrusal regresyon modeli 55 gözlemli bir örneklemden Tablo 12.2‟de
gösterildiği gibi tahmin edilmiştir. Bu tahminden elde edilen kalıntıların karelerini
E _ KARE ile gösterelim. Yardımcı regresyon tahmini EViews çıktısı Şekil 12.5‟te
verilmiştir. Buradan LM sınama istatistiği değeri:
LM n Re22 55 0.146313 8.0471939
Örnek 12.3
Glejser Sınaması
Glejser sınaması orijinal regresyon denkleminin sıradan en küçük kareler
kalıntılarının, 4.456>‟lerin, mutlak değerlerini, yani | ei |‟leri, regresyona neden
olduğu düşünülen açıklayıcı değişkenler üzerine regres etmeyi önermektedir. Kendi
deneyimlerinde, Glejser aşağıdaki formları kullanmaktadır.
ei Z i vi
ei Z i vi
1
ei vi
Zi
1
ei vi
Zi
ei Z i vi
ei Z i2 vi
Örnek 12.4
Şimdi 1994 Hane Halkı Anketi Bursa verilerini içeren BURSA2.WF1 dosyasındaki
veriler kullanılarak giyim harcamaları (GIYIM) doğrusal regresyon denklemi Tablo
12.2‟de gösterildiği gibi tahmin edilmiştir. Bu tahminden elde edilen kalıntıların
karelerinin logaritmasını MUTLAK _ E ile gösterelim. Yardımcı regresyon tahmini
EViews çıktısı olarak Şekil 12.6‟da gösterilmiştir.
Buradan LM sınama istatistiği değeri:
LM n R2e 55 0.208437 11.46405
Örnek 12.4
Harvey-Godfrey sınaması
Harvey (1976) ve Godfrey (1978) aşağıdaki sınamayı geliştirmiştir:
a. ei kalıntılarını elde etmek için Yi 1 2 X i 2 K X iK ui regresyonu
gerçekleştiriniz ve OLS kalıntıları olan ei ‟leri elde ediniz. (Not: daha önce
olduğu gibi, farklı yayılımın nedeninin modelde yer alan açıklayıcı değiş-
kenlerden biri veya birkaçı olduğu varsayılmaktadır.)
b. log ei2 ‟leri modelde yer alan açıklayıcı değişkenler üzerine regres ediniz
log ei2 1 2 X i 2 K X iK i
ve bu yardımcı regresyondan Rlog
2
e2
‟leri bulunuz (eğer heteroskedastisitiye
i
istatistiğini n R 2
log ei2
şeklinde hesaplayınız. Bu LM sınama istatistiği K 1
serbestlik derecesi ile bir 2 dağılımına sahiptir, buradaki K yardımcı
regresyondaki sabit terim dahil parametre sayısını göstermektedir.
e. LM n Rlog
2
e2
istatistiği seçilen anlamlılık düzeyi ve K 1 serbestlik
i
Örnek 12.5
Şimdi 1994 Hane Halkı Anketi Bursa verilerini içeren BURSA2.WF1 dosyasındaki
veriler kullanılarak giyim harcamaları (GIYIM) doğrusal regresyon denklemi Tablo
12.2‟de gösterildiği gibi tahmin edilmiştir. Bu tahminden elde edilen kalıntıların
karelerinin logaritmasını L _ E _ KARE ile gösterelim. Yardımcı regresyon tahmini
EViews çıktısı Şekil 12.7‟da gösterilmiştir.
Buradan LM sınama istatistiği değeri:
LM n Rlog
2
e2
55 0.219779 12.08786
Örnek 12.
Örnek 12.5
Park sınaması
Park‟ın önerdiği fonksiyonel farklı yayılım (heteroskedsatisiti) biçimi
ei2 2 X i ei
veya
log ei2 log 2 log X i i
bulunur.)
c. Homoskedastisiti sıfır hipotezi
H 0 : H0 : 1 2 K 0
şeklinde ve almaşık hipotez en azından bir i sıfırdan farklı biçimindedir
istatistiğini n R 2
log ei2
şeklinde hesaplayınız. Bu LM sınama istatistiği K 1
serbestlik derecesi ile bir 2 dağılımına sahiptir, buradaki K yardımcı
regresyondaki sabit terim dahil parametre sayısını göstermektedir.
e. LM n Rlog
2
e2
istatistiği seçilen anlamlılık düzeyi ve K 1 serbestlik
i
Örnek 12.6
Bir önceki örneğimize devam edersek bir önceki örneğimiz için Park sınaması
yardımcı regresyonu için EViews çıktısı Şekil 12.8‟deki gibi olacaktır. Buradan LM
sınama istatistiği değeri:
LM n Rlog
2
e2
55 0.220177 12.109731
Örnek 12.6
Goldfeld-Quandt Sınaması
Goldfeld-Quandt sınamasının dayandığı temel fikir şudur: eğer örneklem
gözlemleri homoskedastisiti koşulları altında yaratılmış ise (yani, eğer
H o : 12 22 n2 doğru ise) örneklem gözlemlerinin bir bölümündeki
bozuklukların varyansı, örneklem gözlemlerinin diğer bölümündeki bozuklukların
varyansı ile aynı olacaktır. İki bölümdeki örneklem varyansları arasındaki fark
sadece örnekleme hatalarından kaynaklanacaktır. Homoskedastisiti için yapılan
Goldfeld-Quandt sınaması örneklem gözlemlerinin bir alt bölümündeki varyanslarla
diğer alt bölümündeki varyansların birbirine eşit olup olmadığını sınamaktan başka
bir şey değildir. Böyle bir sınama iki örneklem varyansı oranına dayandırılabilir.
H o hipotezi altında her alt örneklem varyansının serbestlik derecesine bölünmesi
ile elde edilen test istatistiği bir 2 dağılımına sahip olacaktır. İki örneklem
varyansı birbirinden bağımsız ise, bunların oranı bir F dağılımına sahip olacaktır.
Örneklemin birinci bölümündeki “ortalama” varyans ikinci bölümündekinden
çok farklı olmadığında Goldfeld-Quandt sınaması çok güçlü değildir. Bu nedenle
Goldfeld-Quandt sınaması genellikle gözlemlerin, bozukluklarının artan varyansına
göre küçükten büyüğe doğru sıralanabildiği durumlar için önerilmektedir. Ayrıca,
gözlemler sıralanıp yaklaşık olarak iki eşit bölüme ayrıldığında, heteroskedastisiti
altındaki birinci bölümün sonundaki son bir kaç varyansın, ikinci bölümün
başındaki bir kaç varyans ile benzer olması çok muhtemeldir. Bu nedenle sırlanmış
örneklemin ortasından p sayıda gözlemin düşürülmesi uygun görülmektedir.
Düşürülecek gözlem sayısının tam ne olacağı pek açık değildir. Heteroskedastisiti
altında “ortalama” varyanslar arasındaki fark arttırıldıkça sınamanın gücü artmasına
karşın, gözlem sayısındaki azalma nedeniyle aynı zamanda sınamanın gücü
düşmektedir. Deneyimler gözlemlerin ortada kalan altıda birini düşürmenin
mantıklı olduğuna işaret etmektedir. Düşürülecek gözlem sayısı seçiminin takdiri
olması sınamanın tatmin edici olmayan yanını oluşturmaktadır, çünkü bu yolla testi
uygulayan p‟yi istediği gibi seçerek sonucunu istediği yöne yönlendirebilir.
Gondfeld-Quandt testi özetle şu aşamaları içermektedir.
Aşama 1. Heteroskedastitisiteye neden olduğu düşünülen X ‟in değerlerine göre Y
ve X gözlemleri küçükten büyüğe doğru sıralayınız.
Aşama 2. Ortadaki p gözlemi (yaklaşık olarak toplam gözlem sayısının altında biri
kadarını) düşürerek geri kalan (n-p) sayıdaki gözlemi herbiri (n-p)/2 büyüklüğünde
iki gruba bölünüz.
Aşama 3. (n-p)/2 büyüklüğündeki iki gözlem kümesine ayrı ayrı OLS regresyonu
n1 n2 2
uydurarak kalıntı kareleri toplamlarını, e ( SSR1 ) ve
2
i 1 1i
e ( SSR2 ) ‟yi,
i 1 i 2
e 2
1i (Y a
i 1 b1 X i ) 2
s12 i 1
i 1
(n1 2) n1 2
n2 n2
e 2
2i (Y a
1 2 b2 X i ) 2
s
2 i 1
i 1
(n2 2) n2 2
2
varyanslarını bulunuz ve
s22 e22 / (n2 2)
~ F( n2 2),( n1 2) (12.21)
s12 e12 / (n1 2)
Örnek 12.7
İlk 25 gözlemden elde edilen gelire göre sıralı giyim harcamalarının
(GEL_S_GIYIM) sıralı gelir (GEL_SIRALI) ve gelire göre sıralı fert sayısı
(GEL_S_FERT) regresyonundan elde edilen tahminler Tablo 12.6‟da ve ikinci 25
gözlemden elde edilen tahminler ise Tablo 12.7‟de verilmiştir. Ortadaki 5 gözlem
analiz dışında bırakılmıştır.
Tablo 12.6
Tablo 12.7
Örnek 12.7
White Sınaması
Tahmincilerinin asimptotik özelliklerini incelerken Gauss-Markov varsayımları
geçerli olduğunda olağan en küçük kareler standart hatalarının ve test
istatistiklerinin asimptotik olarak geçerli olduklarını gördük. White (1980) bu
varsayımlar altında homoskedastsisti varsayımının, var(ui X) 2 , daha basit bir
varsayım olan, hata kareler, u i2 , ile tüm açıklayıcı değişkenler, X k , açıklayıcı
değişkenlerin kareleri, X k2 , ve açıklayıcı değişkenlerin çapraz çarpımlarının k l
için X k X l , birbiri ile korelasyonsuz olacağı varsayımı ile ikame edilebileceğini
öngörmektedir. Bunun sonucu olarak White sınaması homoskedastisiti varsayımı
altında tahmin edilen regresyon denklemi kalıntı karelerini, yani ei2 ‟leri, X için-
deki tüm değişkenler, bunların kareleri ve çapraz çarpımları üzerine regres ederek,
bu regresyondan LM sınaması için nR 2 ‟yi elde etmektedir.
Örneğin üç açıklayıcı değişkenli bir regresyon model için White sınaması ei
kalıntılarını elde etmek için Yi 1 2 X i 2 3 X i 3 4 X i 4 ui regresyonu
gerçekleştirmekte. Daha sonra, bu denklem kalıntı karelerini kullanarak
ei2 1 2 X i 2 3 X i 3 4 X i 4 5 X i22 6 X i23 7 X i24
(12.22)
8 X i 2 X i 3 9 X i 2 X i 4 10 X i 3 X i 4 wi
Örnek 12.8
Bu kez giyim harcamaları modelimize White test istatistiğini uygulayalım.
Başlangıç regresyon model tahmini yukarıda Tablo 12.4‟te verilmişti. Bu
tahminlerden elde edilen kalıntılara, yani ei ‟lere, RESID dersek, White testi
yardımcı regresyonu aşağıdaki gibi olacaktır.
Bu regresyondan elde edilen R2 0.188 dir. Dolayısıyla
nR 2 =10.34
olmaktadır. Yüzde 5 anlamlılık düzeyi 5 serbestlik deresindeki 2 tablo değeri
11.07 dir. 10.34<11.07 olduğundan sıfır homoskedastisiti hipotezi ret
edilememektedir; yani White sınamasına gör model hata terimleri homoskedastiktir.
Kuşkusuz elimizde EViews sonuçları olduğunda 2 tablo tablo değerini
araştırmaya hiç gerek yoktur. Tablo örneklemden tahmin edilen 2 değeri ile
Örnek 12.8
Standart Sınama
White sınamasından, onun özünü koruyan fakat ondan daha kolay uygulanabilen ve
daha çok serbestlik derecesi tasarrufu sağlayan bir sınama elde etmek mümkündür.
Daha önce olduğu gibi çoklu regresyon denkleminin
Yˆi b1 b2 X i 2 bK X iK
Örnek 12.9
White sınaması özel halini (veya diğer adı ile standart testi) giyim eşyasına yapılan
harcamalar ile gelir ve fert sayısı arasındaki ilişkiyi uygulayalım. Bu ilişki Tablo
12.4‟te tahmin edilmişti bu regresyondan elde edilen kalıntı kareleri, ei2 , denklem
(12.51)‟de gösterildiği gibi, yine aynı regresyondan elde edilen Yˆ (yani i
Örnek 12.9
xu i i
b2 2 i 1
n
x
i 1
2
i
x 2
i i
2
var(b2 X) b2 i 1
2
(12.51)
n 2
xi
i 1
şeklinde ifade edilebilir. Tüm i ‟ler için i2 2 , yani hata terimleri eşit yayılımlı
(homoskedastik), olduğunda bu formül geleneksel var(b2 X i ) 2 / xi2
formülüne indirgenmektedir. Basit doğrusal regresyon modeline homoskedastisiti
altında çıkarılan varyans formülünün heteroskedastisiti söz konusu olduğunda artık
geçerli olmadığı (12.51)‟den açıkça görülmektedir.
b2 ‟nin standart hatası doğrudan var(b2 ) ‟nin tahminine bağlı olduğundan
heteroskedastisiti mevcut olduğunda b2 ‟nin varyansını tahmin etmenin bir yolunu
bulmak gerekmektedir. White (1980) bunun yapılabileceğini göstermiştir. ei ‟ler
Y ‟nin X üzerine regresyonundan elde edilen OLS kalıntıları olsun. Bu durumda
her türlü heteroskedastsiti kalıbı için (homoskedastisiti dahil) geçerli bir var(b2 )
tahmincisi
n
x e 2 2
i i
2
b
i 1
2
(12.52)
n 2
xi
i 1
olmaktadır, bu tahminci OLS regresyonundan sonra kolaylıkla hesaplanabilir.
Hangi açıdan bu tahminci var(b2 ) için geçerli bir tahmincidir? (12.52)‟nin
olasılıkta b2 ‟nin varyansı olan (12.51)‟e yakınsaklaştığı gösterilebilir. Bu
yakınsaklığı belirlemede büyük sayılar yasası ve merkezi limit teoremi önemli rol
oynamaktadır. (Bakınız Woldridge (2002, 2004) ve White (1980)).
Benzer bir formül genel çoklu regresyon modeli
Yi 1 2 X i 2 K X iK ui
için de geçerlidir. Farklı yayılım varsayımı dışında kalan ilk dört varsayım altında
bk ‟nın varyansı için geçerli tahmincin
n
e 2 2
e
ik i
2
bk
i 1
2
(12.53)
n 2
xk
i 1
olduğu gösterilebilir. Burada eik kalıntısı X ik ‟nın modelde yer alan tüm diğer
açıklayıcı değişkenler üzerine regresyonundan elde edilen i ‟ninci kalıntıyı
belirtmektedir. (12.53)‟teki varyansın kareköküne bk ‟nın farklı yayılıma
(heteroskedastisitiye) karşı dirençli standart hatası adı verilmektedir. Ekonometride
Örnek 12.10
Şimdi giyim harcamaları modelimizin farklı yaılıma karşı dirençli standart
hatalarını üretebiliriz. Sonuçlar Tablo 12.9‟da gösterilmiştir. Tablo 12.1 ile Tablo
12.9 karşılaştırıldığında parametre tahminlerini değişmediği ama standart hataların
önemli ölçüde değiştiği görülmektedir.
Tablo 12.9 Farklı Yayılıma Karşı
Dirençli Standart Hatalar
Örnek 12.10
Bu aşamada şöyle bir soru akla gelebilir: Eğer, özellikle farklı yaylım probleminin
sık sık karşımıza çıktığı kesit verilerinde, farklı yayılıma karşı dirençli standart
hatalar alışılmış OLS standart hatalarından daha çok geçerli ise, neden alışılmış
standart hatalardan tümüyle vazgeçilerek farklı yayılıma karşı dirençli standart
hatalar kullanılmamaktadır? Bunun bir nedeni homoskedastisiti varsayımının
geçerli olduğu ve hata terimlerinin normal dağıldığı durumlarda alışılmış t
istatistiklerinin, örneklem büyüklüğü ne olursa olsun, kesin t dağılımına sahip
olmasıdır. Öte yandan dirençli standart hatalar ve dirençli t istatistikleri ancak
örneklem büyük olduğunda geçerlidir. Örneklem boyutunun küçük olduğu
durumlarda, dirençli t istatistikleri t dağılımına yakın olmayan dağılımlara sahip
olabilirler ve bunun sonucu istatistiksel çıkarımlarımız geçerli olmayabilir.
Farklı Yayılıma (Heteroskedastisitiye) Dirençli F İstatistiği
Farklı yaylıma karşı dirençli t istatistikleri gibi farklı yaylıma karşı dirençli F
istatistikleri (veya onun bir dönüşümü) üretilebilir. Buna farklı yaylıma karşı
dirençli Wald istatistiği adı verilmektedir. Bazı ekonometri paket programları bu
istatistiği hesaplamaktadır.
Farklı Yayılıma (Heteroskedastisitiye) Dirençli LM İstatistiği
Heteroskesdastiye karşı dirençli F istatistiğinin hesaplamadığı bazı durumlarda,
alternatif olarak, standart ekonometrik paket programları kullanılarak
heteroskesdastiye karşı dirençli LM istatistiği hesaplanabilir.
Farklı yaylımı karşı dirençli LM istatistiğinin nasıl hesaplanabileceğini
örneklendirmek için hata terimleri heteroskedastik olduğu bilinen
Yi 1 2 X i 2 3 X i 3 4 X i 4 5 X i 5 6 X i 6 ui (12.55)
çoklu regresyon modelini örnek olarak ele alalım ve
H 0 : 5 0 ve 6 0
önsavını (hipotezini) sınamak istediğimizi farz edelim.
İlk olarak, alışıla gelmiş LM istatistiğini elde etmek için kısıtlanmış modeli
(yani açıklayıcı değişkenleri arasında X i 5 ve X i 6 bulunmayan modeli) tahmin
ederek kalıntıları elde ederiz, ei . Daha sonra ei ‟yi modeldeki tüm açıklayıcı
değişkenler üzerine regres eden yardımcı denklemi tahmin ederek LM n Re2 ‟yi
hesaplarız. Burada Re2 yardımcı regresyonun R -karesidir. Bu bilinen LM istatisti-
ğidir.
Farkı yayılıma karşı dirençli LM istatistiği elde etmenin bir yolu biraz tuhaf
görünen ilave regresyonlar yapmayı gerektirmektedir. Önce X i 5 ‟i X i 2 , X i 3 ve X i 4
üzerine regres ederek, kalıntıları elde edelim, ei ,5 . Daha sonra X i 6 ‟yı X i 2 , X i 3 ve
X i 4 üzerine regres ederek, ei 6 regresyon kalıntılarını elde edelim. Şimdi kendi
başına hiçbir anlamı olmayan ve sadece hesaplama aracı olarak kullanılan sıra dışı
bir regresyon yapalım. Bu regresyonun bağımlı değişkenini tüm gözleri 1 değeri
alan bir Si değişkeni olarak tanımlayalım. Açıklayıcı değişkenler ise yukarıda elde
edilen kalıntıların ei 5 ei ve ei 6 ei şeklindeki çarpımları olsun. Gerçekleştirilecek
regresyon sabit terim içermeyen
Si 1 ei 5 ei 2 ei 6 ei i (12.56)
n i 1ˆi2
n
regresyonudur. Farklı yayılıma karşı dirençli LM istatistiği
kareler toplamıdır.
Genel durum için farklı yayılma karşı dirençli LM istatistiği hesaplanma
aşamaları şöyle özetlenebilir:
1. Kısıtlanmış modelden ei ‟yi hesaplayınız
2. Sıfır hipotezi ile model dışında bırakılan açıklayıcı değişkenlerden her birini
sıra ile model içine katılan değişkenler üzerine regres ediniz ve kalıntıları
elde ediniz. Eğer q sayıda model dışında bırakılan değişken varsa, sonuç
olarak q tane kalıntılar kümesi, eis , s 1, , q elde edilir.
3. Her bir eis , s 1, , q ve ei çarpımını elde ediniz.
4. 1 ‟i sabit terim olmaksızın, eis ei , s 1, , q , açıklayıcı değişkenleri üzerine
regres ediniz. Bu nihai regresyondan elde edilen kalıntı kareler toplamı
ˆ olsun. Farklı yayılıma karşı dirençli LM istatistiği n i 1ˆi2
n 2 n
i 1 i
Yi 1 2 X i 2 3 X i 3 K X iK ui (12.59)
E ui / hi E (u ) / h h / h
2
2
i i
2
i i
2
(12.60)
Yi / hi 1 1 / hi 2 X i 2 / hi 3 X i 3 / hi (12.61)
K X iK / hi ui / hi
veya
Yi 1 X i1 2 X i2 K X iK ui (12.62)
elde edilir. Burada X i1 1 / hi ve tüm diğer yıldızlı değişkenler hi ile bölünmüş
orijinal değişkenlere karşı gelmektedir. Denklem (12.59)‟daki sabit terim, yeni
denklemde, yani denklem (12.62)‟de, X i1 1 / hi ‟nin katsayısı olmuştur.
Denklem (12.62)‟ye OLS uygulayarak daha iyi etkinlik özelliklerine sahip k ,
k 1, , K , tahminleri elde edilebilir. Bu denklem, parametre yorumlarını
dönüştürülmüş denkleme göre değil de orijinal denkleme, yani (12.59)‟a, göre ya-
pıldığında, herhangi bir sorun doğurmamaktadır.
Dönüştürülmüş denklem (12.62) klasik doğrusal regresyon modeli
varsayımlarını (Varsayım 1- Varsayım 6) sağlamaktadır. Dolayısı ile bu modele
OLS uygulayarak cazip özellikler sahip (en iyi doğrusal yansız) tahminciler elde
edebiliriz. Kuşkusuz bu denklemi, yani denklem (12.62)‟yi temel alan OLS
tahmincileri 1 , 2 , , K , orijinal denklem (12.59)‟i temel alan OLS tahmincileri
b1 , b2 , , bK ‟dan farkı olacaktır. Orijinal denklem (12.59)‟un tahmincileri olarak
bakıldığında 1 , 2 , , K tahmincileri genelleştirilmiş enküçük kareler (GLS)
tahmincileri olarak bilinmektedir. Burada GLS hata terimlerindeki farklı yayılımı
dikkate almaktadır.
Dönüştürülmüş denklem (12.62) tüm varsayımları tatmin ettiğinden standart
hatalar, t istatistikleri ve F istatistikleri dönüştürülmüş değişkenleri kullanan
regresyondan elde edilebilir. Keza dönüştürülmüş denklemden elde edilen
e (n K ) hata terimi varyansı u2 ‟nin yansız tahmincisi olmaktadır. Buna
n 2
i 1 i
Y K* X iK hi
n 2
i
*
1 X i1 2* X i 2 (12.63)
i 1
Y
n 2
i hi 1* X i1 hi 2* X i 2 hi K* X iK hi (12.64)
i 1
şeklinde yazılabilir. Başka bir ifade ile, (12.61) veya 12.62)‟de olduğu gibi,
ağırlıklandırılmış değişkenlere OLS uygulamasından elde edilen tahminciler ile
orijinal denklem (12.59)‟ a WLS uygulayarak elde edilen tahminciler birbiri ile
özdeştir. Dikkat ederseniz (12.63)‟teki kalıntı kareler 1 / hi ile ağırlıklandırılırken
(12.61) veya (12.62)‟deki dönüştürülmüş değişkenler 1 / hi ile
ağırlıklandırılmaktadır.
Dönüştürülmüş denklemin (12.61)‟de olduğu gibi her değişkeni X ‟e koşullu
ui ‟nin koşullu standart hatasının tersi ile ağırlıklandırma işinin tek tek yapılması
usandırıcıdır. Günümüzde hemen hemen tüm paket programlar ağırlıklı enküçük
kareler tahminini otomatik olarak gerçekleştiren özellikler içermektedir.
Örnek 12.11
Bu bölümdeki önceki örneklerde 1994 Hanehalkı Anketi Bursa verilerini içeren
BURSA2.WF1 dosyası kullanılarak giyim harcamaları (GIYIM) ile hanehalkı geliri
(GEL) ve hanehalkı fert sayısı (FERT) arasındaki
GIYIM i 1 2GELi 3 FERTi ui (12.65)
Bu model hata terimleri için önceki kesimlerde yapılan çeşitli sınamalar hata
teriminin farklı yayılımlı (heteroskedastik) olduğunu göstermiştir. Şimdi
i2 2GEL2i (12.66)
Örnek 12.11
veya
var(ui xi ) 2e1 2 Xi 2 3 Xi 3 K XiK
(12.67b)
log(ui2 ) 1 2 X i 2 3 X i 3 K X iK i (12.69)
Yi 1 2 X i 2 3 X i 3 K X iK ui
2. OLS kalıntılarının karelerini ve daha sonra logaritmalarını alarak
log(ei2 ) ‟leri üretiniz.
3. log(ei2 ) 1 2 X i 2 3 X i 3 K X iK i regresyonunu gerçekleştirerek
tahmin edilen gˆ i log(ei2 ) değerlerini elde ediniz
4. Tahmin edilen değerlerin üstelini (antilogaritmasını) alarak, hˆi exp( gˆi ) , hˆi
değerlerini bulunuz.
5. 1 hˆi ‟yı ağırlık olarak kullanarak Yi 1 2 X i 2 3 X i 3 K X iK ui
regresyonunu WLS ile tahmin ediniz.
regresyonundan tahmin edilen değerler, log(ei2 ) , olarak elde edildikten sonra hˆi ‟lar
aynen (12.71)‟de olduğu gibi hˆ exp( gˆ ) olarak bulunur.
i i
şeklinde olduğunu varsayalım, burada KADIN bir iki değerli bir (kukla) değişken-
dir. Eğer KADIN EGITIM etkileşim değişkenini model dışında bırakırsak model
tanımlamasını yanlış yapıyoruz demektir. Böyle bir durumda, genel olarak, diğer pa-
rametrelerin hiçbirinin yansız tahmincilerini elde edemeyiz, çünkü eğitime göre getiri
cinsiyete bağlıdır, etkileşim değişkenini model dışında bıraktığımızda hangi değişke-
ne göre getiriyi (yani ücreti) tahmin ediyor olacağımız açık değildir.
Bir veya birden çok açıklayıcı değişkenin fonksiyonun dışarıda bırakılması bir
modelin yanlış fonksiyon belirginleştirme (spesifikasyon) problemi yaşamasının tek
nedeni değildir. Örneğin (13.1)‟in Gauss-Markov varsayımlarını tatmin eden doğru
model olduğunu fakat bağımlı değişken olarak log(UCRET ) yerine UCRET ‟i kul-
landığımız farz edelim, bu halde kısmi etkilerin yansız ve tutarlı tahminlerini elde
edemeyiz. Biraz sonra anlatacağımız testler bu tür fonksiyonel kalıp problemlerini
belirli ölçüde yakalama becerisine sahiptir, fakat özellikle bu son belirttiğimiz prob-
lemin üstesinden gelmek için geliştirilmiş, içerilmemiş (yuvalanmamış) alternatifler
karşında sınama adlı alt kesimde ele alacağımız, daha iyi testler mevcuttur.
Bir modelin fonksiyonel biçiminin yanlış belirginleştirmesi (spesifikasyonu) ciddi
olumsuz sonuçlar doğurabilir. Fakat verilere iyi uyan bir fonksiyonel ilişkiyi elde et-
mek için gerekli değişkenlerin tüm verileri elimizde mevcut bulunduğunda proble-
min üstesinden gelinemeyecek kadar ciddi değildir. Problem, bir anahtar değişkenin
model dışında bırakıldığı ve dışarıda bırakılan bu değişkene ait veri toplanmasının
mümkün olmadığı durumlarda çok ciddi bir problem olarak karşımıza çıkmaktadır.
Yanlış belirginleştirilmiş fonksiyonel kalıbın doğrusunu keşfetmek için elimizde
güçlü bir test bulunmaktadır. Bu daha önce gördüğümüz birden çok değişkenin dışa-
rıda bırakılmasını sınamada kullandığımız F sınmasına benzer bir sınmadır. Bu sı-
nama anlamlı değişkenlerin ikinci mertebe (karesel) ifadelerini modele katarak bir
birleşik anlamlılık testi gerçekleştirmektedir. Eğer ikinci mertebeden terimler anlamlı
ise bir çözüm olarak bu terimler modele katılabilir (bunun tek maliyeti modelin yo-
rumunun biraz daha güç hale gelmesidir.). Bununla birlikte, anlamlı karesel terimler
başka türden fonksiyonel kalıp problemlerinin belirtileri olabilir, örneğin logaritma
kullanımın daha doğru olduğu yerlerde düzey kullanıldığının işaretçisi olabilir. Bir
fonksiyonel kalıbın hangi gerçek nedenle yanlış tanımlandığını keşfetmek zor olabi-
lir. Güzel olan, birçok halde bazı değişkenlerin logaritmalarının kullanılması ve kare-
sel ifadelerin eklenmesi iktisatta karşılaşılan birçok önemli doğrusal dışı ilişkiyi ya-
kalamakta yeterli olmasıdır.
Değişken Tanımları
İlk olarak modeli hiç karesel terim kullanmadan tahmin ediyoruz, sonuçlar Tablo
13.1.A‟da gösterilmiştir. Tablo 13.1.B‟de modele OMO, CGS86 ve YG86 değişken-
lerinin kareleri eklenmiştir. Bu üç değişkenin karelerini model katmaya karar ver-
memizin sebebi, üç değişkenin de Tablo 13.1.A‟da anlamlı olmasıdır. IS86 değişkeni
sadece 5 farklı değer alan bir kesikli değişken olduğu için onun karesi Tablo
13.1.B‟deki modele katılmamıştır.
Karesi alınan terimlerden her biri istatistiksel olarak anlamlıdır, keza bunlar, Tab-
lo 13.1.C‟deki F (Wald) sınaması sonuçlarından açıkça görüldüğü gibi müştereken
anlamlıdır (F=31.4, sd= 3 ve 2713; p değeri sıfıra çok yakındır). Sonuç olarak baş-
langıçtaki modelin potansiyel olarak önemli doğrusal dışılığı göz ardı ettiği görül-
mektedir.
Tablo 13.1.A
Tablo 13.1.B
Tablo 13.1.C
Yasal gelirin TUTS86 üzerindeki etkisi YG86=237.48, yani yıllık gelir 237 milyar
lira, oluncaya kadar negatiftir, bu gelirden daha yüksek gelirlerde pozitif hale gel-
mektedir. Örneklemde bu düzeyin üzerinde gelire sahip sadece 50 erkek vardır. Bu
yüzden, TUTS86 ve YG86‟nın azalan etki ile negatif ilişkili olduğuna karar veriyo-
ruz.
Örnek 13.1
Örnek 13.1 bağımlı değişkenin niteliği nedeniyle çözümü ustalık isteyen bir fonk-
siyonel biçim problemi içermektedir. Az sayıda birbirinden farklı tam sayı değer alan
bağımlı değişkenleri ele almak için teorik olarak daha uygun başka modeller vardır.
Daha sonra bu tür modellere kısaca değineceğiz.
sıfır koşullu ortalama varsayımını, E (ui X) 0 , tatmin ediyorsa, böyle bir modele
açıklayıcı değişken doğrusal olmayan fonksiyonlarının ayrı değişkenler olarak ka-
tılması (13.2)‟deki parametrelerin tahminine hiçbiri anlamlı katkısı olmayacaktır.
Örnek 13.1‟de anlamlı değişkenlerin karelerini modele ekledik ve bunun model pa-
rametrelerinin tahminine anlamlı katkılar sağladığını gördük. Bu yöntem çoğu kez
fonksiyonel biçim probleminden kaynaklanan hataları yakalar, fakat bunun bir olum-
suz yanı modele katılan açıklayıcı değişken sayısını arttırması ve bunu sonucu ser-
bestlik derecesi kaybı problemi ortaya çıkmasıdır. İlaveten dikkate alınmayan belirli
türden doğrusal dışılıklar eklenen karesel terimler tarafından dikkate alınamayabilir.
RESET testi, genel türden yanlış fonksiyonel biçim belirginleştirmesi
(spesifikasyonu) probleminini yakalamak için, bağımlı değişken OLS tahmin değer-
leri cinsinden çok terimlileri (polinomları) denklem (13.2)‟ye eklemektedir.
RESET testini gerçekleştirmek için uydurulan değerlerin hangi fonksiyonlarının
genişletilmiş denkleme katılacağına karar verilmesi gerekmektedir. Bu sorunun kesin
bir cevabı yoktur, fakat birçok uygulamada kare ve küp terimlerinin ilavesinin yararlı
olduğu kanıtlanmıştır.
(13.2) tahmininden elde edilen uydurulan değerleri Yˆi ile gösterelim. Şimdi aşa-
ğıdaki genişletilmiş yardımcı denklemi ele alalım
Örnek 13.2
Bir önceki örnekte, konut fiyatlarını açıklamak için iki model denedik. Biri
RESET tarafından (%5 anlamlılık düzeyinde) ret edilirken, diğeri ret edilmedi. Çoğu
kez durum bu kadar açık seçik olmayabilir. RESET‟in bir sakıncası model ret edildi-
ğinde ne yapılacağı konusunda hiçbir yol göstermemesidir. RESET kullanılarak
(13.4) ret edildiğinde (15.5)‟inbir sonraki adım olduğunda hiçbirşey söylememekte-
dir. Denklem (13.5)‟in tahmin edilme nedeni sabit elastikiyetli modellerin kolay yo-
rumlanabilir olması ve güzel istatsitiksel özelliklere sahip olmasıdır. Bu örnekte, öyle
denk geldiği için, model yanlış fonksiyonel kalıp testinde de başarılı olmaktadır.
Bazı araştırmacılar RESET‟in, gözlenemeyen ihmal edilen değişkenler ve
heteroskedastisiti dahil, model yanlış tanımlaması için iyi bir genel test olduğunu ile-
ri sürmektedir. Ne yazık ki, RESET‟in bu şekilde kullanımı büyük ölçüde yanlış yön-
lendirme yapmaktadır. RESET testinin, modele katılan değişkenler cinsinden doğru-
sal olduğuna dair bekleyişler bulunduğunda, ihmal edilen değişkenleri yakalamada
hiçbir gücünün olmadığı gösterilebilir [daha kesin ifade için bakınız Wooldridge
(1995)]. Buna ilaveten, fonksiyonel kalıp doğru dürüst tanımlandığında RESET‟in
heteroskedastisitiyi yakalamada hiç gücü yoktur. Özetle, RESET bir yanlış fonksiyo-
nel kalıp sınamasından başka bir şey değildir.
ˆ
denklemindeki Yˆi ‟nın tahmin edilen katsayısının t istatistiğini baz almaktadır. İki
yanlı test karşısındaki anlamlı t istatistiği (13.6)‟ın ret edilmesi demektir.
Benzer şekilde, Yˆi (13.6) tahminden elde edilen uydurulan değerini belirtirse,
(13.7)‟nin testi
modelindeki Yˆi ‟nın tahmin edilen katsayısının t istatistiğidir; anlamı bir t istatistiği
(13.7)‟ye karşıt bir delil oluşturmaktadır. Aynı iki test aynı bağımlı değişkenli her-
hangi iki içerilmemiş (yuvalanmamış) modeli test etmede kullanılabilir.
İçerilmemiş (yuvalanmamış) testler karşımıza bazı problemler çıkarmaktadır. Bi-
rincisi, net galip ortaya çıkmayabilir. Her iki model de ret edilebilir veya iki model-
den hiçbiri ret edilmeyebilir. İkinci durumda aralarında seçim yapmak için düzeltil-
miş-R-kareyi kullanabiliriz. Eğer her iki model de ret edilmiş ise, modelleme konu-
sunda daha çok çalışma yapmak gerekmektedir. Bununla birlikte, bir kalıbı veya di-
ğerini kullanmandan ortaya çıkacak pratik sonuçları bilmek önemlidir: eğer kilit ba-
ğımsız değişkenlerin Y üzerindeki etkisi çok farklı değil ise hangi modelin kullanıl-
dığı çok fazla fark etmeyecektir.
İkinci bir problem (13.6)‟nın, diyelim ki, Davidson –MacKinnon testi ile ret
edilmesi (13.7)‟nin doğru model olduğu anlamına gelmemektedir. Model (13.6) çok
çeşitli başka fonksiyonel kalıp yanlış tanımlaması için ret edilebilir.
Rakip modeller farklı bağımlı değişkenlere sahip olduğu zaman içerilmemiş (yu-
valanmamış) testler karşımıza daha da büyük bir problem çıkarmaktadır. Tipik bir
örnek Yi ile log(Yi ) karşılaştırmasıdır. Sadece karşılaştırılabilir bir uyumun iyiliği
ölçüsü elde etmek için dahi dikkat gerektiğini daha önce gördük. Bu problemi çöz-
mek için bazı testler önerilmiştir, fakat bunlar bu ders kitabının kapsamı dışına taş-
maktadır. [Yorumlanması basit ve uygulanması kolay bir test için bakınız Woodridge
(1994)].
basit regresyonu tarafından yakalanmaktadır, burada i 4 hata terimi X i4 ile X i 4 ‟ün
tam olarak ilişkili olmamasından kaynaklanmaktadır. 4 parametresi X i4 ile X i 4
arasındaki ilişkiyi ölçmektedir; tipik olarak X i4 ile X i 4 ‟ün pozitif olarak korelas-
yonlu, 4 0 , olması beklenmektedir. Eğer 4 0 ise X i 4 değişkeni X i4 için uy-
gun bir gölge değişken değildir. (13.11)‟deki, pozitif veya negatif olabilen, kesme te-
rimi 1 , X i4 ve X i 4 ‟ün farklı ölçeklerde ölçülebilmesine olanak tanımaktadır. (Ör-
neğin, herhangi bir ülkede, gözlenemeyen yeteneğin IQ ile aynı ortalamaya sahip
olması gerekli değildir.)
2 ve 3 ‟ün yansız (veya en azından tutarlı) tahmincilerini elde etmek için X i 4
nasıl kullanılabilir? Önerilen yol X i 4 ve X i4 değişkenlerinin sanki aynı değişken-
lermiş gibi düşünülmesive
Yi 1 2 X i 2 3 X i 3 4 X i 4 i (13.12)
denkleminin tahmin edilmesidir. Buna dışarıda bırakılan değişkenler problemine
ikame (yerine koyma) çözümü adı verilmektedir. Eğer gerçekten X i 4 ve X i4 ilişkili
ise bu mantıklı bir yol olmaktadır. Ancak, X i 4 ve X i4 aynı olmadıklarından, bu pro-
sedürün gerçekten 2 ve 3 ‟ün tutarlı tahmincilerini verip verdiğinin belirlenmesi
gerekir.
Bu yerine koyma çözümünün 2 ve 3 için tutarlı tahminciler vermesi için ge-
rekli varsayımlar ui ve i 4 ile ilgili varsayımlar olmak üzere iki gruba ayrılabilir.
(1) ui hata terimi katı dışsallık (eksojenlik) varsayımı, yani E (ui X) 0 , gereği
X j 2 , X j 3 ve X j 4 ( i, j 1, , n ) değişkenlerinin tüm değerleri ile korelâsyonsuzdur.
Bu model (13.10) için yapılan standart varsayımdır. İlaveten,
E (ui X 14 , X 24 , , X n 4 ) 0 , yani ui hata teriminin X 4 değişkenin tüm değerleri ile
korelâsyonsuz olduğu, kabul edilmektedir. Bu tanım gereği doğrudur, X i 4 gölge de-
ğişkeni, adı üzerinde, X i4 için gölgedir, yani Yi ‟yi doğrudan etkileyen X i 4 değil
X i4 dır. Bu yüzden ui ‟nin X j 2 , X j 3 , X j 4 ve X j 4 ( i, j 1, 2, , n ) ile korelâsyon-
suz, yani E(ui X j 2 , X j 3 , X , X j 4 ) 0 , i, j 1,
j4 , n , olması tartışmaya gerek kal-
maksızın geçerli olan bir şeydir.
(2) i 4 hata terimi ile X j 2 , X j 3 , ve X j 4 ( i, j 1, , n ) arasında korelâsyon ol-
madığı varsayılmaktadır. X i 4 ‟ün X i4 için iyi bir gölge olması için i 4 ‟ün X j 2 ve
X j 3 ile korelâsyonsuz olması gerekmektedir. Bu durumu, varsayımları koşullu bek-
leyişler cinsinden yazarak kolayca gösterebiliriz:
Tablo 13.2(A)
Bizi esas ilgilendiren eğitime getirinin IQ‟nun modele katılması sonucu nasıl etki-
lendiği sorusudur. Tablo 13.2(A) IQ‟nun gölge değişken olarak dikkate alınmadığı
tahminleri içermektedir. Eğitimin tahmin edilen getirisi %6.5 tur. Dışarıda bırakılan
yeteneğin EDUC ile korelasyonlu olduğunu düşünüyorsak bu tahminin çok yüksek
olduğunu düşünüyoruz demektir. (Daha kesin bir dille ifade edersek, tüm rastsal ör-
neklemlerden elde edilen ortalama tahmin çok yüksek olabilecektir.) IQ denkleme
eklendiğinde, eğitime getiri %5.4‟e düşmektedir, bu bulgu düşürülen değişken yanı
hakkındaki önceki inançlarımızla uyumludur.
Tablo 13.2(B)
Tablo 13.2(C)
Örnek 13.3
meyen rastsal değişkenin, X 4 , tüm gözlenen değişkenlerle aşağıdaki gibi ilişkili ol-
duğunu farz edelim
X i4 1 2 X i 2 3 X i 3 4 X i 4 i 4 i 1, ,n (13.14)
faktörlerin kolay bir şekilde dikkate alınması olanağını sağlar. Örneğin geçmişte bazı
şehirlerde yüksek suç oranları ile karşılaşmış olabilir. Hem güncel ve hem geçmişteki
yüksek suç oranlarına gözlenemeyen ve dolayısıyla ölçülemeyen bazı faktörler neden
olmuş olabilir. Benzer şekilde, geleneksel olarak, bazı üniversiteler, geçmişten gelen
çeşitli gözlenemeyen ve ölçülemeyen faktörler nedeniyle, akademik açıdan diğerle-
rinden daha iyidir. Bu şekildeki süregelen durumlar Y ‟nin gecikmeli değerleri gölge
değişken olarak modele katılarak dikkate alınabilir.
Şehir suç oranlarını açıklayan basit bir denklemi ele alalım:
SUÇi 1 2 ĠġSĠZLĠKi 3 HARCAMAi 4 SUÇ1,i ui (13.16)
burada SUÇ kişi başına suçun bir ölçüsünü, ĠġSĠZLĠK şehir işsizlik oranını, HAR-
CAMA düzen ve adaleti sağlamak için şehirde kişi başına yapılan harcamayı, SUÇ1
daha önceki belirli bir dönemde (bu bir önceki yıl veya birkaç önceki yıl olabilir) öl-
çülen suç oranını temsil etmektedir. Bizi ilgilendiren Ġġ SĠZLĠK‟in SUÇ üzerindeki
etkisi ve asayiş ve düzeni sağlamak için yapılan HARCAMA‟nın SUÇ üzerindeki et-
kisidir.
SUÇ1 ‟i denkleme katmanın amacı nedir? Kesin olarak, 4 0 olmasını bekle-
riz, çünkü suç işleme süregelen bir durum veya süreçtir. Fakat bu değişkeni denkle-
me katmanın temel nedeni yüksek tarihi suç oranı ile karşı karşıya kalan şehirlerin
suç oranını düşürmek için daha fazla harcama yapıyor olabilecekleridir. Bu şekilde,
bizler (ekonometrisyenler) tarafından gözlenemeyen ve suçu etkileyen bazı faktörler
muhtemelen HARCAMA (ve ĠġSĠZLĠK) ile korelâsyonludur. Eğer pür yatay kesit ana-
lizi kullanırsak, asayiş ve düzeni sağlama harcamalarının suç üzerindeki nedensel et-
kinsinin yansız bir tahmincisini elde etmemiz mümkün olmayacaktır. Ancak, denk-
leme SUÇ1 ‟i kattığımızda, en azında şu denemeyi yapabiliriz: eğer iki şehir aynı
geçmiş suç oranına ve güncel işsizlik oranına sahip ise, 4 asayiş ve düzen için yapı-
lan ilave harcamanın etkisini ölçecektir.
Tablo 13.3(A)
Gecikmeli suç oranı denklemde yer almadığında, işsizlik oranı ve yasaları uygu-
lamak için yapılan harcamaların etkilerinin ne olduğu belirsizdir, her iki değişken de
istatistiksel olarak anlamsızdır. Bir olabilir durum, yasaların işlerliğini arttıran har-
camalar raporlama mekanizmalarını geliştirmekte ve bunun sonucu daha fazla suç
raporlanmaktadır. Keza aynı zamanda yüksek suç oranı olan şehirlerin yasaları uygu-
lamak için daha fazla harcama yapıyor olması da mümkündür.
Beş yıl öncesi suç oranın (CRMRTE82) logaritmasının denkleme eklenmesi, Tab-
lo 13.3(B), harcama katsayısı üzerine büyük etki yapmaktadır. Harcamalara göre suç
oranı elastikiyeti -0.14 ve t 1.285 [ p 0.206] olarak tahmin edilmiştir. Bu tahmin
güçlü bir istatistiksel anlamlılığa sahip değildir, fakat örneklemi daha çok sayıda şeh-
ri kapsayan geliştirilmiş bir modelin daha anlamlı sonuçlar üretebileceğine işaret et-
mektedir.
Tablo 13.3(B)
Şaşırtıcı olmayan bir şekilde bulgular güncel suç oranının geçmişteki suç oranı ile
çok yakından ilişkili olduğunu göstermektedir. Tahmin edilen katsayı 1982‟deki suç
oranı %1 daha yüksek olmuş olsaydı, 1987‟deki suç oranının %1.19 daha fazla ola-
cağı öngörmektedir. Güncel suç oranının geçmişteki suç oranına göre elastikiyetinin
birim olduğu hipotezini ret edemeyiz [t (1.194 1) / 0.132 1.47] . Geçmişteki suç
oranının modele eklenmesi regresyonun açıklama gücünü önemli ölçüde arttırmakta-
dır, ancak bunun şaşırtıcı bir yönü yoktur. Gecikmeli suç oranını modele katmanın
başlıca nedeni log(LAWEXPC)‟nın log(CRNRTE) üzerindeki ceteris paribus etkisi-
nin daha iyi bir tahmini elde etmektir.
Örnek 13.4
Gözlenemeyen değişkenleri kontrol etmek için genel bir yol olarak gecikmeli bağımlı
değişkeni kullanma uygulaması mükemmel bir yöntem değildir. Fakat politika değiş-
kenlerinin çeşitli konulardaki sonuçlarının etkileri konusunda daha iyi bir tahmin el-
de etmeye yardımcı olmaktadır.
çek gelir rakamını ölçemeyebiliriz. Bu gibi durumlarda değişkenlerin tam doğru ol-
mayan ölçümlerini kullanmak durumunda kalırız.
Bir regresyon modelinde bir değişkenin kesin olmayan bir ölçümü kullanıldığında
modelimiz ölçüm hatası içerir. Bu kesimde, ölçüm hatalarının olağan en küçük kare-
ler tahminleri açısından doğuracağı sonuçları çıkarmaya çalışacağız. Bazı varsayım-
lar altında OLS tahminleri tutarlı olurken, diğer bazı varsayımlar altında tutarsız ol-
maktadır. Bu durumların bazıları için asimptotik yanlılığın boyutunu ölçebiliriz.
Göreceğimiz gibi, ölçüm hatası problemi bir önceki kesimde tartışılan model dı-
şında kalan değişken yerine gölge değişken kullanımı problemine benzer bir istatis-
tiksel yapıya sahiptir, fakat kavramasal olarak değişkenlerideki ölçüm hatası proble-
mi farklı bir problemdir. Gölge değişken durumunda, gözlenemeyen değişkenle her-
hangi bir şekilde ilişkili bir değişkenin varlığı araştırılmaktadır. Ölçüm hatası duru-
munda ise, gözleyemediğimiz değişkenin iyi tanımlanmış nicel bir anlamı vardır (ör-
neğin aylık gelir), fakat elimizde bulunan değişkene ait kayıtlar hata içermektedir.
Örneğin hanehalkı tarafından anketöre bildirilen aylık gelir, gerçek aylık gelirin bir
ölçüsüdür, halbuki dışarıda bırakılan değişken durumunda IQ skoru yetenek için bir
gölgedir.
Gölge değişken ve ölçüm hatası problemleri arasındaki diğer bir farklılık, ölçüm
hatası durumda bizi esas ilgilendiren değişkenin yanlış ölçülen açıklayıcı değişken
olmasıdır. Halbuki gölge değişken durumunda bizi esas ilgilendiren dışarıda bırakı-
lan değişkenin bağımlı değişken üzerindeki kısmi etkisi değil, diğer değişkenlerin
bağımlı değişken üzerindeki kısmi etkisidir.
Detaya geçmeden bir noktayı vurgulamak yararlı olacaktır. Ölçüm hatasının
ekonometrisyenin toplayabileceği veriler bireylerin, ailelerin, firmaların vs. kararla-
rını etkileyen değişkenlerden farklı olduğu zaman bir problem olarak karşımıza çıktı-
ğı unutulmamalıdır.
Yi Yi hi (13.18)
olacaktır, dolayısıyla (13.17) yeniden
Yi 1 2 X i 2 k X ik vi hi
veya
Yi 1 2 X i 2 k X ik ui (13.19)
şeklinde yazılabilir, burada ui bileşik hata terimi (vi hi ) ‟yi belirtmektedir. Bu mo-
deli, Yi , X i 2 , X i 3 , , X ik gözlendiğinden, olağan en küçük kareler ile tahmin ede-
biliriz. Geleneksel modelden tek farkı (13.19)‟daki hata teriminin orijinal hata terimi
artı Y ‟deki ölçüm hatasından oluşan iki bileşen içermesidir.
Gauss-Markov koşullarını sağlaması nedeniyle vi , i 1,2, , n , sıfır koşullu orta-
lamaya sahiptir ve X i 2 , X i 3 , , X ik ile korelâsyonsuzdur. Ölçüm hatası olduğuna
göre, doğal olarak hi ‟nin sıfır ortalamaya sahip olduğu varsayılabilir, fakat bunun
geçerli olmadığı en kötü halde dahi sabit terim 1 ‟in tahmincisi (ve dolayısıyla tah-
mini) yanlı olacaktır, bu ise genelde bizi çok fazla olumsuz etkilememektedir. Esas
önemli olan ölçüm hatası hi ile açıklayıcı değişkenler X i 2 , X i 3 , , X ik arasındaki
ilişkidir. Genel olarak Yi ‟deki ölçüm hatasının X i 2 , X i 3 , , X ik açıklayıcı değiş-
kenlerinden bağımsız olduğu varsayılmaktadır. Bu doğru olduğunda (13.19)‟un ola-
ğan en küçük kareler tahmincileri yansız ve tutarlı olacaktır. İlaveten olağan en kü-
çük kareler tahminleri ile birlikte kullanılan t , F ve LM testleri geçerliliğini koru-
yacaktır.
Hata terimi varyansı, çoğunlukla yapıldığı gibi, vi ve hi ‟nin korelasyonsuz oldu-
ğu varsayıldığında, u2 v2 h2 ‟ye eşit olacaktır ve u2 v2 . Yani bağımlı değiş-
kendeki ölçüm hatası, hata terimi varyansının ölçüm hatası olmadığı duruma kıyasla
daha yüksek olmasına neden olmaktadır. Bu yüzden olağan en küçük kareler tahmin-
cilerinin varyansı
v2 h2 1
b2 i 1, , n; k 2, ,K (13.20)
n
1 Rk2
xik2
k
i 1
bağımlı değişkenin ölçüm hatası içermediği duruma kıyasla, daha büyük olacak ve
tahminlerin güvenliği azalacaktır. Ölçüm hatasını çözemediğimiz sürece bu konuda
yapılacak pek fazla bir şey yoktur.
Özetle, bağımsız değişkenlerle korelâsyonsuz olduğu sürece, bağımlı değişkende-
ki ölçüm hatası pek önemli değildir, olağan en küçük kareler tahmincileri optimal
özelliklere sahip olmaya devam edecektir.
wi X i X i (13.22)
kov( X i , wi ) 0 (13.23)
şeklinde ifade edilebilir. Eğer (13.23) varsayımı doğru ise (13.22) ilişkisinden wi ‟nin
gözlenemeyen değişken X i ile korelâsyonlu olması gerektiği sonucu çıkar. Bu du-
rumdaki OLS tahmincileri özelliklerini öğrenmek için, X i X i wi ‟yi (13.21) içine
ikame edelim:
Yi 1 2 X i wi vi
1 2 X i vi 2 wi (13.24)
1 2 X i ui
ve b2 tahmincisinin varyansı
v2 22 w2
b2 n
x
j
2
i
i 1
kov( X i* wi ) 0 (13.25)
xi yi xu i i
b2 i 1
n
2 i 1
n
x
i 1
2
i x
i 1
2
i
kov( X , u )
2
var( X )
Daha önce çıkardığımız asimptotik sonuçları kullanarak, OLS‟deki tutarsızlığın bo-
yutunu şöyle belirleyebiliriz:
kov( X , u ) 2
plim(b2 ) 2 2 2 2 w 2
var( X ) X w
2
2 1 2 w 2 (13.27)
w
X
2
2 2 X 2
w
X
Denklem (13.27) enteresandır. 2 ‟nin var( X ) / var( X ) oranına eşit olan çarpanı
her zaman birden küçüktür [bunu varsayım (13.25) ima etmektedir]. Bu yüzden,
plim(b2 ) her zaman sıfıra 2 ‟den daha yakındır. Buna OLS‟de klasik değişkenler-
deki hatalar nedeniyle ortaya çıkan „azaltma yanlılığı‟ (attenuation bias) adı veril-
mektedir: ortalama olarak (veya büyük örneklemlerde) tahmin edilen OLS etkisi
azaltılmış olacaktır. Özellikle, eğer 2 pozitif ise, b2 tahmincisi 2 ‟yi aşağı doğru
yanlı tahmin etme eğiliminde olacaktır. Bu önemli bir sonuçtur ve değişkenlerde ha-
talar kurgusuna dayanmaktadır.
Eğer X ‟ın varyansı, ölçüm hatasındaki varyansa kıyasla büyük ise OLS‟deki tu-
tarsızlık ufak olacaktır. Çünkü X2 / w2 büyük olduğunda var( X ) / var( X ) birime
yakın olacaktır. Dolayısıyla, X ‟da w ‟ya göreli olarak ne kadar çok değişme oldu-
ğuna bağlı olarak, ölçüm hataları büyük yana neden olmamaktadır.
Daha fazla açıklayıcı değişken olduğunda işler daha karışık hale gelmektedir. Ör-
nek olarak
Yi 1 2 X i2 3 X i 3 4 X i 4 vi (13.28)
r2
plim(b2 ) 2 2
(13.30)
w2
2
r2 2
Eksik Veriler
Eksik veri problemi çeşitli şekillerde karşımız çıkar. Çoğu kez kişiler, okullar, şehir-
ler, vs. ile ilgili çapraz kesit verilerinin bir rastsal örneklem derlendikten bir süre son-
ra, örneklemdeki bazı kilit değişkenlerin bazı gözlemleri hakkında bilgilerin eksik
olduğunu fark ederiz.
Bağımlı değişkenin veya bağımsız değişkenlerden birine ait bir gözlem eksik ise,
söz konusu gözlem standart çoklu regresyon analizinde kullanılamaz. Gerçekte, eksik
veriler doğru dürüst işaretlendiğinde, günümüz modern regresyon paketleri eksik ve-
rilerin izini sürer ve regresyonu tahmin ederken eksik verilerin olduğu gözlemleri
görmezden gelir.
Regresyon için mevcut örneklem boyutunu düşürmenin ötesinde, eksik verilerin
başka istatistiksel sonucu var mıdır? Bu verilerin neden eksik olduğuna bağlıdır. Bir
durum verilerin rastsal olarak eksik olmasıdır. Bu durum çapraz kesit verilerinde kar-
şımıza çıkar. Bu halde sadece kütleden elde edilen mevcut örneklem boyutu küçül-
müş olacaktır. Bu tahmincileri daha az hassas yapmasına karşın, tahmincide herhangi
bir yanlılığa (sapmaya) neden olmamaktadır: rastsal örnekleme varsayımı geçerliliği-
ni korumaktadır. Sadece bazı değişkenlere ait bazı gözlemler eksik olduğunda, bu
gözlemlere ilişkin bilgiyi başka şekilde elde etme yolları vardır, fakat bu yordamlar
çoğunlukla kullanılmamaktadır. Çünkü bu yöntemler çok karmaşıktır ve bunları kul-
lanılması sonucu tahmincilerde sağlanan iyileşme çoğunlukla çok sınırlıdır. Çoğu
halde, tahmin yapılırken eksik bilgi içeren gözlemler dikkate alınmamaktadır.
32 firmadan 31‟inin yıllık satışları 20000 milyon YTL‟nin altındadır. Sadece bir
firmanın yıllık satışları hemen hemen 40000 milyon YTL dir. Şekil 13.1 bu firmanın
örneklemdeki diğer firmalardan ne kadar uzakta olduğunu göstermektedir. Satışlar
açısından bu firma diğer herhangi bir firmadan en azından iki kat daha büyüktür. Do-
layısı ile modeli bu firmayı dışarıdea bırakarak tahmin etmek iyi bir fikir olabilir.
Bun yaptığımızda aşağıdaki tahmin elde edilir:
Örnek 13.8
tahmini elde edilir. Pratik olarak elde edilen sonuçlar birbirinin aynıdır. Her iki halde
de H 0 : 2 1 hipotezi H1 : 2 1 alternatif hipotezi karşısında ret edilememektedir.
Örnek 13.9
Açıkça görüldüğü gibi 32.ci gözlemin model dışında bırakıldığı sonuçlarla yukarıda-
kiler tamamen birbirinin aynıdır.
Örnek 13.8