You are on page 1of 215

6

ÇOKLU DOĞRUSAL BAĞLANIM (REGRESYON)


MODELĠ VE SIRADAN EN KÜÇÜK KARELER
YÖNTEMĠ
Bu bölümde regresyon analizi iki veya daha fazla sayıda açıklayıcı değişken içeren
modellere genelleştirilmektedir. Basit regresyon modelinde olduğu gibi tek açıklayıcı
değişkenin modele katılması, gizil olarak, bağımlı değişkeni etkileyen başka önemli
faktör olmadığını veya diğer açıklayıcı değişkenlerin modele katılan tek açıklayıcı
değişken ile ilgileşimsiz (korelasyonsuz) olduğunu varsaymaktadır. Pedagojik açıdan
yararlı olmasına karşın bu varsayım gerçekçi değildir. Gerçekte, hemen hemen her
zaman, iktisadi değişkenleri etkileyen birden çok açıklayıcı değişken vardır.
Çoklu regresyon analizi bağımlı değişkeni eşanlı olarak etkileyen birden çok de-
ğişkeni dikkate almamıza olanak sağlamaktadır. Bu şekilde bağımlı değişkendeki de-
ğişmelerin daha büyük bir kısmını açıklamak mümkün olmakta ve birbiri ile ilgile-
şimli (korelasyonlu) olan birçok açıklayıcı değişkeni model katarak, basit regresyon
analizinin yanıltıcı olabileceği durumlarda, nedensellik hakkında sonuç çıkarabilmeyi
mümkün kılmaktadır.
Keza, çoklu regresyon analizi, deneysel olmayan verilerle, her bir açıklayıcı de-
ğişkenin, diğer açıklayıcı değişkenlerin değişmeden aynı kaldığı (ceteris paribus)
varsayımı altında, bağımlı değişken üzerindeki etkilerini incelememize olanak tanı-
maktadır.
Çoklu regresyon modeli aynı zamanda daha genel işlevsel (fonksiyonel) ilişkileri
geliştirme fırsatı tanımaktadır. Aynı değişkenin karesini ve/veya küpünü açıklayıcı
değişken olarak modele katarak, parabolik veya iki bükümlü eğriler ile tasvir edilen
bazı iktisadi değişkenlerin analizine imkân vermektedir.
Çoklu regresyon analizi özünde basit regresyon analizinin birden çok açıklayıcı
değişkene genelleştirilmesi olmasına karşın, karşımıza iki önemli farklılık çıkarmak-
tadır. Birincisi, çoklu regresyon modelinde bağımlı değişkeni eşanlı olarak etkileyen
birbiri ile bağıntılı birden çok değişken olduğu için bunların etkilerini birbirinden
ayırmak önemli hale gelmektedir. İkincisi, çoklu regresyon modelinde hangi değiş-
kenlerin modele katılacağı hangilerinin katılmayacağı konusunda karar vermek ciddi
bir problem olarak karşımıza çıkmaktadır.
Çoklu doğrusal regresyon modeli bir bağımlı değişken ile iki veya daha fazla sa-
yıda açıklayıcı değişken arasındaki ilişkiyi incelemektedir. Genel olarak model
Bölüm 6: Çoklu Doğrusal Regresyon Analizi

Y  f ( X1 , X 2 , , XK )  u
(6.1)
 1 X1   2 X 2   K X K  u
şeklinde ifade edilir. Burada Y bağlanan, bağımlı değişken veya açıklanan değiş-
ken değişken, X1 , X 2 , , X k ‟lar bağlayan, bağımsız değişkenler veya açıklayıcı
değişkenler olarak adlandırılır. Amaç açıklayıcı değişkenlerden biri değiştiğinde
bağımlı değişkenin nasıl değişeceği hakkında bir şeyler söyleyebilmeyi mümkün
kılan bir ilişkiyi tahmin etmektir.
Modelin belirli bir grup veya dönem için geçerli bir ilişki olmaktan çok, temel
olarak alınabilecek genel bir ilişkiyi yansıtması gerekir. Bunu için denklemin iyi ta-
nımlanmış bir kitle veya uzun süre süreli bir veri üretme süreci için geçerli olduğu
varsayılmakta ve denkleme kitle regresyon ilişkisi veya kitle regresyon denklemi adı
verilmektedir. Bağımlı değişkenin ve açıklayıcı değişkenlerin ne olduğu ilişkinin te-
mel aldığı teori tarafından açıklanmaktadır. Bu konudaki teori, yani hangi değişkenin
bağımlı değişkenin hangi değişkenin açıklayıcı değişken olduğu, her zaman açık ol-
mayabilir. Model tarafından tanımlanan ilişki dışında belirlenen değişkenler bağım-
sız veya açıklayıcı değişken ve modelin belirlediği değişken ise bağımlı değişken
olarak kabul edilmektedir.
Basit doğrusal regresyon modeli çerçevesinde belirttiğimiz gibi u ‟ya hata terimi
veya bozucu terim adı verilmektedir. u aksi halde doğru olduğu kabul edilen bir
ilişkide ortaya çıkan hataları veya kararlı olduğu varsayılan bir ilişkinin çeşitli neden-
lerle kararsız hale gelmesine neden olan faktörleri temsil etmektedir.
İlk amacımız gerçek hayattan derlenen gözlemler kümesinden oluşan bir örnek-
lem aracılığı ile denklem (6.1)‟de tanımlanan ilişkinin parametrelerini tahmin etmek-
tir. Örneklemdeki her bir gözlemin, yani (Yi , X i 2 , , X iK ) , i  1, , n ‟nin,
Yi  1 X i1  2 X i 2  3 X i 3    K X iK  ui
tarafından betimlenen bir veri üretme süreci tarafından üretildiğini varsayıyoruz.
Gözlenen Yi ‟ler sistematik veya belirlenimsel (deterministik) bileşen
1 X i1  2 X i 2  3 X i 3    K X iK ve rastsal bileşen ui olmak üzere iki bileşenden
oluşmaktadır.1. Sistematik bileşen ilgili teori, örneğin iktisat teorisi, tarafından belir-
lenmektedir. Amaç verileri kullanarak teorik modelin geçerliliğini incelemektir. İla-
veten tahmin edilen modeli kullanarak Yi ‟yi kestirmeyi (öngörmeyi) düşünebiliriz.
Bu amaçlarımızı nasıl gerçekleştireceğimiz elimizdeki örneklemede bulunan göz-
lemler kümesini yaratan veri üretme süreci hakkında yapılan varsayımlara bağlıdır.

1
X k ‟lar rastsal değişken iken X ik ‟leri içeren denklemin deterministik olması aşağıda diğer varsa-
yımlar incelendiğinde daha iyi anlaşılacaktır

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:2


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

Klasik Çoklu Doğrusal Regresyon Modeli Varsayımları


Klasik çoklu doğrusal regresyon modeli varsayımları gerçek regresyon denklemini
tahmin etmede kullanılan veri kümesinin ardında yatan kitlenin veya veri üretme sü-
recinin nasıl üretildiğine ilişkin varsayımlardan oluşmaktadır. Örneğin Türkiye‟deki
hanehalklarının gıda maddeleri üzerine yaptığı aylık harcama ( Yi ) ile hanehalkı geliri
( X i 2 ), hanedeki fert sayısı ( X i 3 ), ailenin çocuk sayısı ( X i 4 ), ailenin kentsel veya
kırsal kesimde oturma durumu ( X i 5 ) değişkenleri arasında var olduğu varsayılan kit-
le ilişkisini tahmin etmek istediğimizi ve elimizde n sayıda gözlemden oluşan bir
örneklem bulunduğunu varsayalım; çoklu regresyon modeli varsayımları bu örnek-
lemin nasıl yaratıldığına ilişkin varsayımları içermektedir.
Çoklu regresyon modeli varsayımları, özünde, basit doğrusal regresyon modeli
varsayımlarını çok sayıda açıklayıcı değişkene genelleştirmektedir. Bu varsayımlar
Tablo 6.1‟de listelenmiştir.

Doğrusallık
Modelin doğrusallık varsayımı
Yi  1 X i1  2 X i 2  3 X i 3    K X iK  ui i  1, ,n (6.2)

her gözlemin, yani (Yi , X i1 , X i 2 , , X iK ) ‟lerin, bağımlı değişken, Yi , açıklayıcı


değişkenler, X 2 , X 3 , , X K artı belirli özelliklere sahip hata (bozucu) teriminin,
ui , doğrusal bir fonksiyonu olarak ifade edilen bir süreç tarafından yaratıldığını
varsaymaktadır. Gerçek hayatta, sadece i  1, , n sayıda gözlemden oluşan sadece
bir örneklem gözlememize karşın, denklem (6.2)‟nin herhangi olabilir bir i ‟ninci
gözlem için geçerli olduğu varsayılmaktadır. Başka bir ifade ile, n sayıda gözlemden
oluşan bir örneklem, aynı kitleden seçilebilmesi veya aynı veri üretme süreci
tarafından üretilebilmesi muhtemel olan n büyüklüğündeki tüm potansiyel
örneklemlerden arasından seçilen bir örneklem olarak ele alınmaktadır. Bu şekilde,
genelde, Yi , X ik ve ui ‟ler olasılıksal (stokastik) değişkenler olmaktadır. Fakat
X i ‟lerin bazıları sabit terim, belirlenimsel yönelim (deterministik trend) veya kukla
değişken gibi belirlenimsel (deterministik) değişken olabilir.2 1 ,  2 , ,  K
bilinmeyen sabit katsayıları (parametreleri) belirtmektedir. Basit doğrusal regresyon
modelinde gösterildiği gibi hemen hemen tüm ekonometrik modellerde sabit terim
yer aldığından (6.2)‟de X i1 her zaman 1 değerini alan belirlenimsel (deterministik)
değişken ve bu değişkenin katsayısı 1 sabit terim veya kesme olarak ele alınabilir.
Dolayısı ile (6.2) eşdeğerli olarak
2
Nitekim giriş düzeyindeki birçok ekonometri kitabında pedagojik açıdan kolaylık sağladığı için
X ik ‟lerin bir sabit değerler kümesi, yani belirlenimsel olduğu varsayılmaktadır.

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:3


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

Tablo 6.1 Çoklu Doğrusal Regresyon Modeli Varsayımları

A1. Doğrusallık Model olasılıksal bağımlı değişken Yi ile olasılıksal


ve/veya belirlenimsel (deterministik) açıklayıcı de-
ğişkenler, X ik ‟ler, ve ui rastsal hata terimi arasında-
ki doğrusal ilişkiyi belirginleştirmektedir:
Yi  1 X i1  2 X i 2  3 X i 3    K X iK  ui
A2. Tam çoklu doğrusal Açıklayıcı değişkenler arasında tam doğrusal ilişki
bağıntısızlık (tam yoktur.
rank)
A3. Katı dışsallık E (ui X j1 , X j 2 , , X jK )  0, i, j  1, , n
(eksojenlik) i ‟ninci hata teriminin beklenen değeri i ‟ninci ve di-
ğer gözlemlerdeki açıklayıcı değişkenlerden etkilen-
memektedir. Açıklayıcı değişkenler ister olasılıksal
ve isterse belirlenimsel (deterministik) olsun bu ge-
çerlidir.
A4. Eşit yayılım var(ui X j1 , X j 2 , , X jK )   2 , i, j  1, , n
(homoskedastisiti) i ‟ninci ve diğer gözlemlerdeki açıklayıcı değişkenle-
re göre koşullu varyansı sonlu  değerine eşittir.
2

A5. Kendiyle ilgileşimsizlik cov(ui , u j X 1 , X 2 , , X K )   , i, j ,  1, , n


2

(otokorelasyonsuzluk)
i ‟ninci, j ‟ninci ve diğer gözlemlerdeki açıklayıcı
değişkenler veri iken, i ‟ninci hata terimi j ‟ninci
hata terimi ile ilgileşimsizdir (korelasyonsuzdur).
A6. Normallik i ‟ninci hata teriminin i ‟ninci ve diğer gözlemlere
koşullu dağılımı normaldir.

Yi  1  2 X i 2  3 X i 3    K X iK  ui (6.2*)
şeklinde ifade edilebilir. Kesmenin (sabit terimin) (6.2)‟de olduğu gibi
simgelendirilmesi modelin dizey (matris) cebiri ile kolay bir şekilde ifade edilmesine
olanak tanımaktadır. Bir örneklem verilerinden hareketle tahmin etmeye
çalışacağımız bu denkleme, yani (6.2)‟ye, kitle regresyon modeli, kitle regresyon
denklemi veya gerçek regresyon ilişkisi adı verilmektedir.

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:4


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

Aynen basit doğrusal regresyon modelinde olduğu gibi Yi ‟yi belirleyen X 1 , X 3 ,


, X K dışındaki değişkenleri temsilen (6.2) içine hata terimi ui ilave edilmiştir.
İleride modelin tüm varsayımları açıklandığında ui hata teriminin, basit doğrusal
regresyon modelinde olduğu gibi, Y ‟nin i ‟ninci gözleminin Yi ‟nin koşullu beklenen
değerinden sapmasını temsil ettiği görülecektir.
Dizey (Matris) Simgelemesi
Klasik çoklu doğrusal regresyon modelinin diğer varsayımlarını belirtmeden önce
doğrusallığı yöney ve dizey simgeleri ile ifade etmek yararlı olacaktır. Gerçekte bir
örneklemin üretilmesi açısından bakıldığında (6.2) her biri bir gözlem için olmak
üzere n tane denklemden oluşmaktadır:
Y1  1 X 11   2 X 12  3 X 13    K X 1K  u1
Y2  1 X 21   2 X 22  3 X 23    K X 2 K  u2
(6.2**)

Yn  1 X 31   2 X n 2   3 X n3    K X nK  un

K boyutlu xi ve β yöneylerini (vektörlerini)

 X i1   1 
X   
xi   i 2  ve β  2
( K 1)   ( K 1)  
   
 X iK  K 
şeklinde tanımlayalım. Yöney içsel çarpımları tanımından
xi β  1 X i1   2 X i 2    K X iK
olduğu bilinmektedir, dolayısıyla (6.2) yeniden
Yi  xi β  ui (6.2***)
şeklinde ifade edilebilir. Keza
 Y1   u1   x1   X 11 X 12 X 1K 
Y  u   x   X X 22 X 2 K 
y   2  , u   2  ve X   2    21
( n1)   ( n1)   ( n K )    
       
Yn   un   xn   X n1 X n1 X nK 

tanımlarını yaparsak, (6.2) alternatif olarak, daha da özlü biçimde

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:5


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

y  X β  u (6.2****)
( n1) ( n K ) ( K 1) ( n1)

şeklinde ifade edilebilir.

Tam çoklu doğrusal bağıntısızlık (tam rank)


Bu varsayım örneklemdeki herhangi bir açıklayıcı değişkenin aldığı değerlerin diğer
bir açıklayıcı değişkenlerin tam doğrusal bileşimine eşit olmadığını ifade etmektedir.
Bu varsayım aynı zamanda ayırt etme (identification) koşulu olarak ta
bilinmektedir. Eğer bir bağımsız değişken diğer bağımsız değişkenlerin doğrusal bir
bileşimi ise modelin tam çoklu doğrusal bağıntılı olduğu söylenir.
Daha biçimsel olarak bu varsayım “ n  K boyutlu veri dizeyi X ‟in rankının
K ‟ya eşit olduğunu” söylemektedir. Dizey cebirinden hatırlayacağınız gibi bir dize-
yin rankı, dizeydeki doğrusal olarak bağımsız sütun veya satır sayısından küçük ola-
nına eşittir. Bu varsayım n  K boyutlu veri matrisi X ‟in K sayıdaki sütunundan
hiçbirinin X ‟in diğer sütunlarının doğrusal bir birleşimi olarak ifade edilemeyeceği-
ni söylemektedir.
Sütun boyutu K ‟dan küçük olduğunda K sayıdaki sütun doğrusal olarak bağın-
tısız olamayacağından, bu varsayım aynı zamanda n  K olması gerektiğini ima et-
mektedir, yani en azından bağlayan sayısı kadar gözlem olması gerekmektedir.
Daha ileri gitmeden bir iki noktanın belirtilmesi yararlı olacaktır. Bu varsayım
açıklayıcı değişkenlerin doğrusal olarak ilgileşimli (korelasyonlu) olmasına izin ver-
mekte, fakat tam doğrusal ilgileşime izin vermemektedir. Açıklayıcı değişkenler ara-
sında tam çoklu doğrusal bağıntı olmadığını varsayımı ile açıklayıcı değişkenler ara-
sındaki kuvvetli ilgileşimin (korelasyonun) bazen güveni zayıf tahminlere neden ol-
ması anlamına gelen çoklu doğrusal bağıntı (çoklu doğrusal bağıntı sorunu) farklı
şeylerdir. Bu konular ileride detaylı olarak ele alınacaktır.

Katı dışsallık (sıfır koşullu ortalama)


Bölüm 4‟ten aşina olduğumuz açıklayıcı değişkenlerin katı dışsallığı (eksojenliği)
şimdi

E (ui X j1 , X j 2 , , X jK )  0, i, j  1, ,n (6.4)

veya daha öz olarak


E (ui X)  0 i  1, 2, ,n (6.4*)

veya
E (ui x1 , x 2 , , xn )  0 i  1, 2, ,n (6.4**)

veya

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:6


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

E (u X)  0n (6.4***)

şeklinde ifade edilebilir3. Burada 0n simgesi n boyutlu sıfırlar yöneyini


simgelemektedir. Yani her gözlem i için, bütün açıklayıcı değişkenlerin tüm
gözlemleri veri iken, i ‟ninci hata ui ‟nin beklenen değeri hiçbir açıklayıcı değişkenin
hiçbir gözlem değerinden etkilenmemektedir. ( X j1 , X j 2 , , X jK ) değişkenleri is-
ter rastsal değişken ister belirlenimsel (değişken) olsun, bu varsayım her gözleme ait
hata terimi ortalamasının açıklayıcı değişkenlerden bağımsız olduğunu söylemekte-
dir.
Bu varsayım X ‟in deterministik değişkenler, yani bir sabit değerler kümesi şek-
lindeki değişkenler, içerdiği durumlarda X ‟i üreten mekanizmanın u ‟yı üreten me-
kanizma ile ilişkisiz olmasını garantilemektedir.
Katı dışsallık (eksojenlik) varsayımı f (ui x1 , x 2 ,…, x n ) koşullu dağılımının ko-
şullu ortalaması E (ui x1 , x 2 ,…, x n ) ‟nin (a) bir sabit olduğunu ve (b) değerinin sıfıra
eşit olduğunu ifade etmektedir. Daha önce belirtildiği gibi, bunlardan ilki, yani her
bir ui ‟nin koşullu beklenen değerin sabit bir sayı olması önemlidir ve özellikle za-
man serileri söz konusu olduğunda kısıtlayıcı bir varsayımdır. Hâlbuki ikincisi, yani
bu sabitin sıfıra eşit olması, regresyon denklemi bir sabit terim içerdiği sürece, kısıt-
layıcı değildir.
Hanehalkının gıda maddelerine yaptığı aylık harcamaların hanehalkının gelirine,
hanehalkındaki fert sayısına ve hanehalkının kültürel durumuna bağlı olduğunu farz
edelim. Bu durumda, sıfır koşullu ortalama varsayımı, geliri, fert sayısı ve kültürel
durumu aynı olan hanehalklarının gıda harcamalarını pozitif ve negatif yönde
etkileyen tüm diğer çok sayıdaki fazla önemli olmayan faktörün ortalama etkisini
sıfır olacağını ima etmektedir. Kuşkusuz birbiri aynı gelire, fert sayısına ve kültürel
duruma sahip bazı aileler için ui pozitif ve diğer bazıları için negatif değer olacaktır,
varsayılan bunların ortalamasının sıfır olmasıdır.
Katı dışsallık (eksojenlik) varsayımı altında model (6.2)‟nin, her iki tarafının ko-
şullu beklenen değerini alırsak, Yi ‟nin X ‟e göre koşulu beklenen değeri

E (Yi X)  1 X i1   2 X i 2  3 X i 3    K X iK i  1, 2, ,n (6.5)

şeklinde veya daha özlü olarak

3
Bazı yazarlar “katı dışsallığı” buradaki tanımdan farklı şekilde ifade etmektedir. Örneğin
Koopmans ve Hood (1953) ve Engle, Hendry ve Richards (1983) X j1, X j 2 , , X jK değişkenleri
tüm i ve j için u ‟den bağımsız olduğunda açıklayıcı değişkenler katı dışsal (eksojen) olmaktadır.
i

Bu varsayım buradaki katı dışsallık tanımından daha katıdır, fakat iki tanım birbiri ile tutarsız de-
ğildir.

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:7


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

E (Yi X)  xi β i  1, 2, ,n (6.5*)

veya
E (y X)  Xβ (6.5**)

şeklinde ifade edilebilir. Denklem (6.5) kitle regresyon doğrusu veya kitle
regresyon fonksiyonu olarak bilinmektedir.
Denklem (6.5)‟teki kitle regresyon doğrusu ortalama Y ile X arasında geçerli
olan ilişkiyi temsil etmektedir. X i1  1 , i  1, , n , olduğunda 1 sabit terimi, basit
doğrusal regresyon modelinde olduğu gibi, X ik , k  2, , K , sıfır iken Yi ‟nin bekle-
nen değerini vermektedir.  k , k  2, , K , X k ‟nin eğim katsayısıdır. Çoklu regres-
yon modelinde bir değişkenin eğim katsayısı yorumlanırken diğer değişkenlere bazen
kontrol değişkeni olarak atıfta bulunulmaktadır. Çoklu regresyon modelinde eğim
katsayısının yorumu basit regresyon modelindekinden farklıdır: denklem (6.5)‟te,
 k , diğer değişkenler, yani X ,  2, , K ,  k , sabit (veya kontrol altında) tutu-
lurken X k ‟deki bir birim değişmenin Y üzerindeki ortalama (beklenen) etkisini gös-
termektedir.
Katı dışsallık (eksojenlik) varsayımının doğurduğu sonuçlar
Bölüm 4‟ten hatırlanacağı gibi katı dışsallık (eksojenlik) varsayımı üç önemli sonuç
doğurmaktadır:
(a) Hata teriminin koşulsuz beklentisi (beklenen değeri veya ortalaması) sıfırdır,
yani

E (ui )  0 (i  1, 2, , n) (6.6)
Bu sonuç olasılık teorisinin Toplam Bekleyişler Yasasından elde edilmektedir4:
E(ui )  EX  E(ui X)  EX 0  0 (6.7)

(b) İki rastsal değişken X ve Y ‟nin çapraz beklemi (momenti) E( XY ) sıfıra eşit
olduğunda X ‟in Y ‟ye (veya Y ‟nin X ‟e ) dikeysel (ortogonal) olduğu
söylenir. Katı dışsallık varsayımı altında, açıklayıcı değişkenler tüm gözlemlerin
hata terimine dikeyseldir (ortogonaldir)5:

E( X jk ui )  0 (i, j  1,2, , n; k  1,2, , K ) (6.8)

4
Yinelenen Bekleyişler Yasası Y ‟nin beklenen değerinin Y ‟nin veri X ‟e göre koşullu beklentisi-
nin beklenen değerine eşit olduğunu söylemektedir.
5
Eğer iki rastsal değişken X ve Y ‟nin çapraz momenti E ( XY ) sıfıra eşit ise X ‟in Y ‟ye (veya
Y ‟nin X ‟e ) dikeysel olduğu söylenir.

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:8


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

veya

 E ( X j1ui ) 
 E( X u ) 
E (x j ui )  
j2 i 
 0 (tüm i ve j için) (6.8*)
  ( K 1)
 
 E ( X jK ui ) 
Bu sonuçta kolaylıkla kanıtlanabilir. X jk gözlemi X ‟in bir elemanı olduğundan
Yinelenen Beklentiler Yasası6

E (ui X jk )  EX jk  E (ui X) X jk   0 (6.9)

olduğunu ima eder. Öte yandan Toplam Beklentiler Yasasından

E ( X jk ui )  EX jk  E ( X jk ui X jk ) 

elde edilir. Koşullu bekleyişlerin doğrusallığından yararlanarak

E ( X jk ui )  E  X jk E (ui X jk ) 

yazılabilir. Dolayısıyla
E ( X jk ui )  0

olduğu kanıtlanmış olmaktadır. Dikkat ederseniz katı dışsallık (eksojenlik)


bağımsız değişkenlerin sadece aynı gözleme ait hata terimlerine dikeysel (yani
tüm k için E( X jk u j )  0 ) değil, fakat aynı zamanda, diğer gözlemlere ait hata
terimlerine de dikeysel (yani tüm k ve tüm i  j için E ( X jk ui )  0 ) olduğunu
ima etmektedir.
(c) Hata teriminin ortalaması sıfır olduğundan (6.8)‟deki dikeysellik koşulu sıfır
eşdeğişirlik (kovaryans) ve dolayısı sıfır ilgileşim (korelasyon) koşulu ile aynı
şey demektir:

cov( X jk , ui )  E( X jk ui )  0 (6.10)

Bunu şöyle kanıtlayabiliriz: kovaryans tanımından


cov( X jk , ui )  E( X jk ui )  E( X jk )E(ui )

Sıfır koşullu ortalama varsayımı sonucu, bakınız (6.7), E (ui )  0 olduğundan

E  E (Y X, Z) X  E (Y X)
6
Yinelenen Beklentiler Yasası aynı zamanda olduğunu ifade etmektedir.

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:9


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

cov( X jk , ui )  E( X jk ui )

olmaktadır. Dikeysellik koşulu (6.8) gereği E ( X jk ui )  0 olduğundan

cov( X jk , ui )  0

olduğu bulunur. Dolayısı ile corr( X jk , ui )  0 olmaktadır. Bu sonucun özel bir


hali i  j için cov( X ik , ui )  0 ve corr( X ik , ui )  0 olarak ortaya çıkmaktadır,
yani katı dışsallık, doğal olarak, bağımsız değişkenlerin aynı gözleme veya aynı
döneme ait hata terimleri ile ilgileşimsiz (korelasyonsuz) olduğunu
belirtmektedir.

Özetle, katı eksojenlik varsayımı hiçbir açıklayıcı değişken gözleminin hata teri-
mi ui ‟nun beklenen değeri hakkında bilgi içermediğini belirtmektedir. Katı dışsallık
(eksojenlik) varsayımı ile ifade edilen dışsallığın
E (ui X i1 , X i 2 , , X iK )  0 (i  1, 2, , n) (6.11)

şeklinde ifade edilebilecek “eşzamanlı” veya “eş kesit birimli” dışsallıktan


(eksojenlikten) farklı olduğuna özellikle dikkat edilmelidir. (6.11)‟deki dışsallık söz
konusu olduğunda başka bir zamana veya yatay birime ait xj   X j1 , X j 2 , , X jK 
gözlemi E (ui X) ‟yi etkileyebilir, bu durum özellikle daha sonra ele alacağımız
dinamik zaman serisi modellerinde karşımıza çıkmaktadır. Bu nedenle katı
dışsallığın (eksojenliği) geçerliliğini çapraz kesit ve zaman serisi verileri açısından
ayrı ayrı ele almak yararlı olacaktır.
Çapraz kesit verisi modellerinde katı dışsallık
Çapraz kesit verileri açısından bakıldığında, bu varsayım her bir i birimi, örneğin
i ‟ninci hanehalkı, için hata teriminin, ui , aynı hanehalkının açıklayıcı değişkenleri,
X i 2 , X i3 , , X iK , ve diğer hanehalklarının açıklayıcı değişkenleri, i  j için
X j 2 , X j 3 , , X jK , ile korelasyonsuz olduğunu ima etmektedir. Yatay kesit
verilerinde, eğer örneklem rastsal ise ui , i dışındaki gözlemler için açıklayıcı
değişkenlerden otomatik olarak bağımsız olmaktadır.
Basit doğrusal regresyon modeli çerçevesinde de belirttiğimiz gibi eğer elimizde
n gözlemli bir rastsal örneklem
(Yi , X i 2 , , X iK ) : i  1, 2, , n

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:10


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

mevcut ise, (Yi , X i1 , X i 2 , , X iK ) ‟ler tüm gözlemler için özdeş ve bağımsız olarak
dağılacaktır. Örneğin Yi hanehalkının gıda maddesine yaptığı harcamalar, X i 2
hanehalkının geliri ve X i 3 hanehalkı fert sayısı olsun. Eğer bir kitleden n sayıda
aileden oluşan bir örneklem rastsal olarak seçilmiş ise, (Yi , X i1 , X i 2 ), i  1, , n ,
zorunlu olarak aynı dağılıma sahip olacak ve rastsal olarak seçildiklerinden,
örneklem gözlemleri bir gözlemden diğerine bağımsız olarak dağılacaktır, yani
gözlemler „i.i.d.‟ olacaktır. Dolayısı ile rastsal örneklemler için katı eksojenlik
varsayımı, katı sıfatı düşürülerek, basitçe eşanlı dışsallık veya eşanlı eksojenlik
varsayımı olarak
E (ui X i1 , X i 2 , , X iK )  E (ui xi )  0 , i  1, ,n (6.12)

şeklinde ifade edilebilir.

Rastsal örneklemler için eşanlı dışsallık varsayımı


Rastsal örneklemler için “katı dışsallık (eksojenlik)” varsayımı

A3*. Eşanlı Dışsallık E (ui X i1 , X i 2 , , X iK )  0, i  1, ,n


(Eksojenlik) veya
E (ui xi )  0, i  1, ,n

i ‟ninci hata teriminin beklenen değeri i ‟ninci göz-


lemdeki açıklayıcı değişkenlerden etkilenmemekte-
dir. Açıklayıcı değişkenler ister olasılıksal ve isterse
belirlenimsel (deterministik) olsun bu geçerlidir.

şeklinde “eşanlı eksojenlik” varsayımına dönüşmektedir.

Rastsal örneklemler için eşanlı dışsallık varsayımı

Bununla birlikte, daha önce Bölüm 4‟te de belirttiğimiz gibi


(Yi , X i 2 , , X iK ) ‟lerin belirli bir kitleden rastsal örnekleme ile seçilmediği ve
dolayısı ile (Yi , X i 2 , , X iK ) ‟lerin i.i.d. olmadığı çapraz kesit verileri de vardır. Bu
gibi durumlarda katı eksojenlik varsayımı, yani E (ui x1 , x2 , , xn )  0 , çapraz kesit
verileri için dahi (6.12)‟de gösterildiği şekilde ifade edilemez.

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:11


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

Zaman serisi modellerinde katı dışsallık


Zaman serileri açısından ele alındığında ise katı dışsallık varsayımı i zamanındaki
hata teriminin, yani ui ‟nin, tüm diğer zaman dönemlerindeki (geçmiş, güncel ve
gelecek) tüm açıklayıcı değişkenlerle ilgileşimsiz (korelasyonsuz) olduğuna işaret
etmektedir. Örneğin ui ‟nin güncel zaman dönemindeki X ik , s dönem geçmişteki
X i  s , k , ve s dönem gelecekteki X i  s , k ile korelasyonsuz olduğu varsayılmaktadır,
burada s  0 . Dışsal (eksojen) olan açıklayıcı değişkenler geçmişte bağımlı
değişkende meydana gelen değişmelere tepki gösteremezler.
Zaman serisi modellerinin büyük bir çoğunluğu, yani statik zaman serisi modelle-
ri ve sonlu dağıtılmış gecikme modelleri dışında kalan modeller, için bu varsayım
geçerli değildir.7 Dolayısı ile katı eksojenlik varsayımı zaman serisi modelleri için
genel olarak geçerli olmayacaktır. Bunu böyle olduğunu bağımlı değişkenin gecik-
meli değerinin açıklayıcı değişken olarak göründüğü basit bir model ile açıklayabili-
riz:
Yt   Yt 1  ut (t  1, ,T ) (6.13)
Bu modele birinci derece kendiyle bağlaşımlı (otoregresif) model (AR(1)) adı
verilmektedir, burada T zaman serisi örnekleminin boyutunu ve t ise zaman seri
örnekleminin gözlemlerini simgelemektedir. Katı eksojenlik varsayımı t ‟ninci
gözlem için açıklayıcı değişkenin, Yt 1 , açıklayıcı değişkenin t ‟ninci hata terimi
gözlemine ortogonal olacağını, yani E (Yt 1ut )  0 ima etmektedir. Halbuki (6.13)‟ten

E (Yt ut )  E (  Yt 1  ut )ut 
(6.14)
  E (Yt 1ut )  E (ut2 )

olduğu bulunur, E (Yt 1ut )  0 ‟ı (6.14)‟te yerine koyduğumuzda

E (Yt ut )  E (ut2 ) (6.15)


elde edilir. Dolayısı ile her gözleme ait hata terimi sıfır değeri almadığı sürece
E (Yt ut )  0 olacaktır. Yt değişkeni t  1‟inci gözlem için açıklayıcı değişke
olduğundan açıklayıcı değişken geçmişteki hata terimine ortogonal olmayacaktır,
yani katı eksojenlik varsayımı ihlal edilmektedir.
Katı dışsallık varsayımının geçerli olmadığı durumlar
Bir önceki kesimde katı dışsallık varsayımının bazı zaman serisi modelleri dışındaki
zaman serisi modeller için geçerli olmadığını belirttik. Katı dışsallık varsayımı başka
modeller için de çeşitli nedenlerle ihlal edilebilir.

7
Sonlu dağıtılmış gecikme modelleri daha sonraki bölümlerde ele alınacaktır.

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:12


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

Birincisi, bağımlı değişkenle açıklayıcı değişkenler arasındaki ilişkini matematik-


sel biçimi yanlış tanımlanmış olabilir. Örneğin gıda maddelerine yapılan harcama ge-
lir arttıkça azalarak artıyor olabilir. Eğer Yi gıda harcamalarını ve X i geliri temsil
ediyorsa, fonksiyonel ilişkinin Yi  1   2 X i  3 X i2  ui şeklinde tanımlanması ge-
rekebilir. X i2 ‟nin fonksiyona açıklayıcı değişken olarak katılmaması fonksiyonun
yanlış tanımlanmasına neden olur. Bir başka yanlış tanımlama hatası gerçekte gıda
harcamalarındaki oransal değişmenin gelirdeki oransal değişmeye bağlı olmasına
karşın, fonksiyon değişkenlerin düzeyleri cinsinden tanımlanmış olmasından kaynak-
lanabilir. Fonksiyon yanlış tanımlama problemlerini ilerde ele alacağız. İkincisi,
önemli bir değişken modele katılmamış olabilir. Çoklu doğrusal regresyon modeli
birden çok açıklayıcı değişkeni dikkate almasına karşın genellikle bir değişkeni etki-
leyen bir veya birkaç değişken çeşitli kısıtlar nedeniyle farkında olunarak veya
olunmadan bir modele katılmamış olabilir. Eğer bu şekilde model dışında bırakılan
değişkenler, model katılan açıklayıcı değişkenlerden biri veya bir kaçı ile ilgileşimli
(korelasyonlu) ise katı dışsallık varsayımı ihlal edilmiş olacaktır. Bunun sonucu orta-
ya çıkan problemleri ve bunların nasıl üstesinden geleceğimizi ilerde göreceğiz.
Üçüncüsü, açıklayıcı değişkenler yanlış ölçülmüş olabilir; bu halde de, çoğunlukla,
katı eksojenlik varsayımı geçerliliğini yitirecektir. Bu konuyu da ileriki bölümlerde
detaylı olarak inceleyeceğiz. Dördüncüsü; bağımlı değişkenle açıklayıcı değişkenler
arasında karşılıklı ilişki olabilir. Böyle bir durumda, bağımlı değişken açıklayıcı de-
ğişkenlerin ve hata teriminin fonksiyonu olduğu için hata terimi dolaylı olarak açık-
layıcı değişkenle korelasyonlu olacak ve katı dışsallık varsayımı ihlal edilmiş olacak-
tır. Bu konuda kitabın ilerleyen bölümlerinde ele alınacaktır.
Katı dışsallık varsayımı geçerli olduğunda açıklayıcı değişkenlerimizin (katı) dış-
sal (eksojen) açıklayıcı değişkenler olduğunu söyleriz. Eğer
X jk ( j  1, , n; k  1, , K ) herhangi bir nedenle ui (i  1, 2, , n) ile korelasyonlu
ise X jk ‟ye içsel (endojen) açıklayıcı değişken adı verilmektedir. Endojen ve eksojen
kelimeleri eşanlı denklem modelleri analizinden kaynaklanmasına rağmen, zaman
içinde “içsel (endojen) açıklayıcı değişken” terimi bir açıklayıcı değişkenin hata te-
rimi ile ilgileşimli (korelasyonlu) olduğu her durumu kapsayan bir kavram haline
gelmiştir.

Eşit yayılım (homoskedastisiti)


Tüm bozukluk terimlerinin, ui , i  1, , n , tüm açıklayıcı değişken
kombinasyonlarına, X , göre koşullu değişirliği (varyansı) aynıdır ve sabit bir sayıya,
 2 , eşittir:
var(ui X j1 , X j 2 , , X jK )   2 , i, j  1, ,n (6.16)

veya

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:13


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

var(ui X)   2 (6.16)

Daha açık bir şekilde ifade edersek bu varsayım var(ui X) ‟nun mevcut olduğunu ve
sıfırdan büyük sonlu bir sayı olan  2 ‟ye eşit olduğunu varsaymaktadır. Eşdeğerli
olarak bu varsayım, katı dışsal (eksojenlik) varsayımından yararlanılarak, ui ‟nin
X ‟e göre beklenen değeri cinsinden ifade edilebilir. Koşullu varyans tanımından

var(ui X)  E (ui2 X)  E (ui X)2 (6.17)

olduğu bilinmektedir. Katı dışsallık varsayımı E (ui X)  0 (6.17)‟de yerine


konduğunda

var(ui X)  E (ui2 X) (6.18)

bulunur. Eğer ui ‟nin koşullu değişirliği (varyansı) herhangi bir açıklayıcı değişkene
bağlı olarak değişiyorsa bu durum koşullu “farklı yayılım” (koşullu
heteroskedastisiti) olarak ifade edilir.

Kendiyle ilgileşimsizlik (otokorelasyonsuzluk) veya serisel


ilgileşimsizlik (korelasyonsuzluk)
X‟lere koşullu (ui , u j ) birleşik dağılımının beklenen değeri sıfırdır:

E (ui u j X l1 , X l 2 , , X lk )  0 (i, j, l  1, 2, , n) (6.19)

veya

E (ui u j X)  0 (i, j  1, 2, , n; i  j ) (6.19*)

Bu varsayım alternatif olarak X ‟e koşullu (ui , u j ) birleşik dağılımının kovaryansı


cinsinden ifade edilebilir. i  j için ui ve u j ‟nin kovaryansı şöyle olmaktadır:

   
cov ui , u j X  E ui  E (ui X)  X u j  E (u j X)  X  (6.20)

Öte yandan sıfır koşullu ortalama varsayımı nedeniyle E (ui X)  0 ve E (u j X)  0


olduğundan, koşullu kovaryans sıfıra eşit olmaktadır:

 
cov ui , u j X  E (ui u j X)  0 (6.21)

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:14


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

Dolayısı ile  
corr ui , u j X  0 olacaktır. Zaman serisi modelleri açısından
bakıldığında (6.21) hata terimleri arasında serisel korelasyon olmadığını, yani hata
terimlerinin otokorelâsyosuz olduğunu, ifade etmektedir.

Küresel hata değişirliği (varyansı) varsayımı


Küresel hata değişirliği (varyansı) varsayımı eşit yayılım (homoskedastisiti) ve
kendiyle ilgileşimsizlik (otokorelasyonsuzluk) varsayımlarını tek bir varsayım olarak
ifade etmektedir. Bunu göstermek için u yöneyinin kendisi ile dışsal çarpımını
alalım:

 u12 u1u2 u1un 


 
uu u22 u2 u n 
uu   2 1 (6.22)
 
 
un u1 un u2 un 
2

Açıkça görüldüğü gibi uu matrisinin asal köşegeninde u i2 ‟ler ve asal köşegen
dışında ise ui u j ‟ler yer almaktadır. Bu matrisin X ‟e koşullu beklenen değerini alır
ve E (ui2 X)   2 ve E (ui u j X)  0 ‟ı yerine koyarsak,

 2 0 0
 
0 2 0
E (uu X)     2In (6.23)
 
 
 0 0  2 
veya

 
var(u X)  E u  E (u)u  E (u) X  E (uu X)   2I n (6.24)

biçiminde ifade edilebilir, burada I n matrisi n  n boyutlu birim dizeyini


göstermektedir.
E (ui2 X)   2 ve E (ui u j X)  0 ( i, j  1, 2, , n; i  j ) varsayımlarının (6.23)
veya (6.24) şeklindeki birlikte ifadesine küresel hata değişirliği (varyansı) varsayımı
denmektedir, bunun nedeni n  n boyutlu ikinci beklemler (değişirlikler ve
eşdeğişirlikler) dizeyinin birim dizeyi I n ile oransal olarak değişmesidir.
Bölüm 2‟de gösterilen varyans ayrıştırma formülünü kullanırsak

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:15


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

var(u)  E var(u X)  var  E (u X)   2In (6.24)

olduğu bulunur, yani hata terimlerinin koşulsuz değişirliği de sabit sonlu bir sayıdır
ve hata terimlerinin koşulsuz eşdeğişirlikleri sıfıra eşittir.
E (ui2 X)   2 ve E (ui u j X)  0 ( i, j  1, 2, , n; i  j ) varsayımları açıklayıcı
değişkenlerin hata terimlerinin değişirlik (varyans) ve eşdeğişirlikleri (kovaryansları)
etkilemediğini ve hata terimlerinin kendisinin değişirlikler ve eşdeğişirlikler hakkın-
da bilgi sağlamadığını belirtmektedir.

Normallik
Hata terimlerinin X üzerine koşullu dağılımının normal olduğu varsayılmaktadır. Bu
varsayım alternatif olarak X üzerine koşullu u ‟nun dağılımı birleşik normaldir
şeklinde de ifade edilebilir.
Normallik varsayımı daha önce yaptığımız beş varsayımdan çok daha güçlü bir
varsayımdır. Bu varsayım (X, u) birleşik dağılımı hakkında bir varsayım yapmaya
gerek kalmadan ui ‟nin dağılımını çıkarmamıza olanak sağlamaktadır; yani bu varsa-
yım altında X ‟in dağılımını tanımlamaya gerek kalmamaktadır. Normal dağılım bir-
çok yararlı özelliğe sahiptir:
1. Normal dağılım sadece ortalama ve değişirliğe (varyansa) bağlıdır. Dolayısıyla
bir rastsal değişkenin dağılımı normal olduğunda ve ortalaması ile varyansı
bilindiğinde, bu değişkenin olasılık yoğunluk fonksiyonu bilinir hale
gelmektedir. ui ‟nin X ‟e koşullu dağılımı normal olduğunda, onun ortalaması ve
varyansı X ‟e bağlı olabilir. Fakat X ‟e koşullu dağılım normal iken, burada
varsayıldığı gibi ui ‟nin koşullu ortalaması ve koşullu varyansı X ‟e bağlı
olmadığında, ui ‟nin marjinal (koşulsuz) dağılımı onun X ‟e koşullu dağılımı ile
aynı normal dağılım olacaktır.
2. Genel olarak, iki rastsal değişken bağımsız olduğunda, bu rastsal değişkenler
ilgileşimsizdir (korelasyonsuzdur), fakat bunun tersi doğru değildir. Bununla
birlikte iki rastsal değişkenin dağılımı birleşik normal ise, bunun tersi de
geçerlidir. Dolayısıyla normallik geçerli olduğunda, bağımsızlık ve
korelasyonsuzluk eşdeğerli hale gelmektedir. Bu durum koşullu dağılımlara da
aktarılmaktadır: eğer iki rastsal değişken X ‟e koşullu olarak birleşik normal
dağılıyor ise ve korelasyonsuz ise, bu değişkenler X ‟e koşullu olarak bağımsız
olmaktadır.
3. Birleşik olarak normal dağılan rastsal değişkenlerin doğrusal bir fonksiyonu da
normal dağılır. Bu özellik koşullu dağılımlara da aktarılmaktadır.
Normallik varsayımının bu özellikleri sınama istatistiklerinin çıkarılmasında ya-
rarlı olan aşağıdaki özellikleri geçerli hale getirmektedir:

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:16


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

1. u ‟nun X ‟e koşullu dağılımının ortalaması ve varyansını daha önce


tanımlamıştık. Dolayısıyla katı dışsallık ve küresel hata varsayımları birlikte
normallik varsayımı u ‟nun X ‟e koşullu dağılımının

uX N (0n , 2In ) (6.25)

veya
ui X N (0, u2 ) i  1,2, ,n (6.25*)

olduğunu ima eder. Bu şekilde u ‟nun X ‟e koşullu dağılımı X ‟e bağlı olma-


maktadır. Buradan u ve X ‟lerin birbirinden bağımsız olduğu ortaya çıkar. Do-
layısı ile bu durumda u ‟nun marjinal (veya koşulsuz) dağılımı da normal ol-
maktadır, yani
u N (0,  2 I n ) .

2. X veri iken y , u ‟nun doğrusal bir fonksiyonu, yani y  Xβ  u , olduğundan


X ‟e koşullu olarak, y , Xβ ortalama ve  2 I n varyansla normal dağılır:

y X N (Xβ, 2In ) (6.26)

Bir çok uygulama alanında ui ‟nin normal dağılıp dağılmadığı görgül (ampirik)
bir konudur. Örneğin
GIDAi  1   2GELi  3 FERTi  ui
ilişkisini ele alalım. Gelir ve fert sayısına koşullu GIDA harcamalarının normal
dağıldığını söyleyen bir teori yoktur. Aksine mantık bunun tersinin doğru olduğunu
söylemektedir: çünkü gıda harcamaları hiçbir zaman sıfırdan küçük olmayacaktır,
keza genellikle yoksulluğu karşı çıkarılan yasalar ve alınan diğer önlemler hemen
hemen her toplumda ailelerin bir bölümünün belirli bir minimum düzeyde gıda
harcaması yapması garanti altına alınmaktadır. Bu nedenlerle gıda harcamalarının
eksi sonsuzdan artı sonsuza uzanan bir normal dağılıma sahip olması
beklenmemektedir. Her şeye rağmen koşullu gıda harcamasının veya onun belirli bir
dönüşüme tabi tutulmuş bir uyarlamasının, “yaklaşık olarak” normal dağılıp
dağılmadığını sorabiliriz.8 Geçmiş deneyimler bunun yaklaşık normal dağılabileceği
izlenimini vermektedir.
Normallik varsayımının geçersiz olduğu örnekler bulmak çok zor değildir. Özel-
likle sınırlı sayıda değer aldığı durumlarda, bağımlı değişkenin normal dağılması söz

8
Ampirik çalışmalarda, çoğunlukla, gıda harcamaları logaritmik dönüşüme tabi tutulmakta ve bu
dönüşümler normale yakın bir dağılım vermektedir. Değişkenlerin dönüştürülmesini bir sonraki bö-
lümde ele alacağız.

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:17


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

konusu değildir. Örneğin bağımlı değişken, Y , aylık ölümlü trafik kaza sayısı olsun.
Bu halde Y sınırlı tam sayı değerler alacaktır. Sınırlı sayıda tam sayı değer alan
Y ‟nin normal dağılması söz konusu olmaz. Bu gibi durumlarda ne yapabiliriz? İleri-
de göreceğimiz gibi hataların normal olmaması büyük örneklemler söz konusu oldu-
ğunda ciddi sorunlar yaratmayabilir. Bazı hallerde, örneğin sınırlı sayıda tam sayı
değer alan bağımlı değişken içeren modellerde, normal dağılım yerine alternatif uy-
gun dağılımlar ikame edilebilir.
Literatürde çoğu kez normallik varsayımının regresyon modeline ilavesinin ge-
reksiz olduğu, çoklu regresyon modeli ile ilgili birçok sonucun bu varsayıma gerek
olmadan da elde edilebileceği savunulmaktadır.
V1‟den V5‟e kadar uzanan varsayımlar Gauss-Markov varsayımları veya Ga-
uss-Markov koşulları olarak bilinmektedir. Bunlara V6 (normallik varsayımı) ek-
lendiğinde, yani V1‟den V6‟ye kadar uzanan varsayımların tamamına klasik (nor-
mal) doğrusal regresyon modeli varsayımları ve bu varsayımlar altındaki modele
klasik (normal) doğrusal regresyon modeli adı verilmektedir.

Rastsal Olmayan Açıklayıcı Değişkenler


Basit doğrusal regresyon modelini incelerken belirtildiği gibi, bu kitapta çoklu
regresyon modelinde bağımlı değişken Yi ‟ye ilaveten açıklayıcı değişken
X ik , k  2, , K ‟ları da, geleneksel ders kitabı yaklaşımından farklı olarak, stokastik
olduğu ve sadece bazı X ‟lerin belirlenimsel (deterministik) olabileceği
varsayılmaktadır. Klasik ekonometri ders kitapları ile karşılaştırmaya olanak
sağlaması açısından açıklayıcı değişkenlerin tümünün, yani tüm X ‟in, stokastik
olmaması durumda burada iskeleti sunulan modelin yapısının nasıl değişeceğini
incelemek yararlı olacaktır. Böyle bir durumda çoklu regresyon modeli varsayımları
şu şekilde sunulabilir:
B1. Doğrusallık:
Yi  1  2 X i 2   k X iK  ui (i  1, , n)
B2. Tam çoklu doğrusal bağıntısızlık
B3.1 Sıfır ortalama:
E (ui )  0 (i  1, , n)

B3.2 X ik ‟ler, i  1, n , sabit değerler kümesidir veya X ik ‟lar ile u j ‟ler,


i, j  1, n ve k  1, , K , istatistiksel olarak bağımsızdır.
B4. Eşit yayılım (homoskedastisiti):
E (ui2 )   2 (i  1, , n)
B5. Kendiyle ilgileşimsizlik (otokorelasyonsuzluk):

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:18


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

E(ui u j )  0 (i, j  1,2, , n; i  j)

B6. Normallik:
ui N (0,  2 )
Sosyal Bilimler için uygun olmamasına karşın sabit açıklayıcı değişkenler kümesi
varsayımı, özellikle ders kitaplarında, popülerliğini korumaktadır. Bunun temel ne-
deni çoklu regresyon modelinin “ X ” kullanımına gerek kalmaksızın X ‟e koşullu
olarak yorumlanabilmesine imkân sağlamasıdır.
Yazım ve yorum açısından cazip olmasına karşın sabit açıklayıcı değişken model
yaklaşımı basit doğrusal regresyon modeli çerçevesinde belirtildiği gibi ekonometri
açısından önemli bazı noktaları göz ardı etmemize neden olmaktadır.

Ġki Açıklayıcı Değişkenli Çoklu Doğrusal Regresyon Modeli


Şimdi Bölüm 4‟te ele aldığımız gıda harcamaları modelinin biraz daha genişletilmiş
bir şeklini çoklu regresyon modeline örnek olarak ele alacağız. Gıda maddelerine
yapılan harcamaların gelir yanında, aile büyüklüğünü belirten ailedeki fert sayısına
da bağlı olduğunu varsayıyoruz. Bağımlı değişken Yi , i‟ninci hanehalkının gıda
maddesine yapılan harcamalarını, açıklayıcı değişkenlerden Xi2 , i‟ninci
hanehalkının gelirini ve X i 3 , i‟ninci hanehalkının fert sayısını göstersin. Bu halde iki
açıklayıcı değişkenli bir regresyon modeli
Yi  1  2 X i 2  3 X i 3  ui (6.27)
şeklinde ifade edilebilir. Dikkat ederseniz bu bölümdeki simgelemeye uygunluk
açısından hanehalkı geliri Bölüm 4‟te olduğu gibi X i ile değil X i 2 ile
simgelenmiştir. Y ve X harfleri yerine, doğrudan ilgili değişkenleri temsil eden
simgeler kullanarak modeli
GIDAi  1   2GELi  3 FERTi  ui (6.28)

şeklinde de ifade edebiliriz, burada GIDAi hanehalkının aylık gıda harcamalarını,


GELi hanehalkının aylık toplam gelirini ve FERTi hanehalkı fert sayısını temsil
etmektedir, ve ui hata terimidir. Bu model, hem içerdiği açıklayıcı değişkenler
açısından ve hem de matematiksel tanımlama biçimi açısından, halâ aşırı ölçüde basit
bir modeldir.
İlişkiyi geometrik olarak yansıtmak için, Şekil 6.1‟de olduğu gibi, GIDA , GEL
ve FERT eksenlerini ayrı ayrı gösteren üç boyutlu bir diyagrama gereksinim duyu-
lur. Şekil 6.1‟in tabanı GEL ve FERT eksenlerini göstermektedir. Taralı düzlem
herhangi bir GEL ve FERT birleşimine karşı gelen, ortalama GIDA değerini gös-

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:19


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

termektedir; herhangi bir GEL ve FERT birleşimine karşı gelen taban noktası ile
düzlem arasındaki dikey mesafe bu birleşime karşı gelen ortalama GIDA değerini
vermektedir. Gıda harcamalarının hanehalkı geliri ve fert sayısı arttıkça artması bek-
lendiğinden, diyagram  2 ve  3 ‟ün pozitif olduğu varsayımına dayanılarak çizilmiş-
tir. Harfi harfine yorumlandığında kesme (sabit terim) GEL ve FERT sıfır olduğun-
da öngörülen ortalama gıda harcamalarını vermektedir. Bununla birlikte böyle bir yo-
rum pek gerçi değildir, çünkü FERT ‟i sıfır olan bir hanehalkı mevcut değildir.

GIDA
 

    2GEL  3 FERT
3 FERT
   1   2GEL  3 FERT  u

 1   2GEL  3 FERT
 

     2GEL

FERT
1   2GEL
1

GEL

Şekil 6.1 İki açıklayıcı değişkenli çoklu regresyon modeli:


gelir ve fert sayısının fonksiyonu olarak gıda harcamaları

Matematiksel olarak Şekil 6.1 GEL ve FERT sıfır olduğunda gıda harcamaları-
nın 1 kadar olacağını göstermektedir. FERT sıfır olduğunda, herhangi bir pozitif
GEL için gıda maddesi harcamaları 1  2GEL kadar olacaktır,  2 GEL artışı saf
gelir etkisi olarak adlandırılabilir. Öte yandan, GEL sıfır olduğunda pozitif değer alan
FERT için gıda maddesi harcamaları 1  3 FERT kadar olacaktır, benzer şekilde
3 FERT artışı saf FERT etkisi olarak adlandırılabilir. Gelir ve fert sayısının birle-
şik etkisi Şekil 6.1‟de  2GEL  3 FERT olarak belirtilmiştir. Ortalama gıda harca-
maları taralı düzlem üzerinde yer alacaktır. Gerçek gıda harcama değerleri ise taralı
düzlem tarafından belirtilen değerlerin üstünde veya altında olacaktır.
Sonuç olarak iki açıklayıcı değişkenli çoklu doğrusal regresyon modeli basit doğ-
rusal regresyon modelinde olduğu gibi iki boyutlu eksenler sistemindeki bir doğru ile
değil, Şekil 6.1‟de gösterildiği gibi üç boyutlu eksenler sistemindeki bir düzlem ile
temsil edilmektedir.

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:20


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

İki açıklayıcı değişkenli tahmin edilen çoklu regresyon ilişkisi


Yi  b1  b2 X i 2  b3 X i 3  ei (6.29)
ve tahmin edilen çoklu regresyon doğrusu (düzlemi) ise

Yˆi  b1  b2 X i 2  b3 X i3 (6.30)

şeklinde ifade edilebilir, burada ei  Yi  Yˆi kalıntıları göstermektedir.

Ġki Açıklayıcı Değişkenli Çoklu Doğrusal Regresyon Modelinin


Olağan En küçük Kareler Yöntemi ile Tahmini

Orijinal Gözlemler Cinsinden Tahmin


Basit doğrusal regresyon modelinde olduğu gibi çoklu doğrusal regresyon modeli
katsayıları da olağan en küçük kareler yöntemi ile tahmin edilebilir. Bilindiği gibi,

n
olağan en küçük kareler tahminleri kalıntı kareler toplamı e ‟nin
2
i 1 i

minimizasyonu ile elde edilmektedir. İki açıklayıcı değişkenli model cinsinden


kalıntılar

ei  Yi  Yˆi  Yi  b1  b2 Xi 2  b3 X i3 (6.31)
şeklinde ifade edilebilir. (6.31)‟i kullanarak n sayıda gözlem için toplam alarak
n n

 e   (Y  b  b X
i 1
2
i
i 1
i 1 2 i2  b3 X i 3 )2 (6.32)

 n 
yazabiliriz. Minimum için birinci mertebe koşulları,    ei2  / bk  0 , k  1, 2,3 ,
 i 1 
aşağıdaki denklemleri verir:
n n n

Yi  nb1  b2  X i 2  b3  X i3
i 1 i 1 i 1
(6.33)

n n n n

Y X
i 1
i i2  b1  X i 2  b2  X i22  b3  X i 2 X i 3
i 1 i 1 i 1
(6.34)

n n n n

Y X
i 1
i i3  b1  X i 3  b2  X i 2 X i 3  b3  X i23
i 1 i 1 i 1
(6.35)

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:21


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

Bu şekilde üç bilinmeyenli, b1 , b2 ve b3 , üç denklem elde edilmektedir, bunlar daha


önce de belirtildiği gibi normal denklemler olarak bilinmektedir. Normal denklemler
alternatif olarak


n
i 1 i
e 0 (6.33*)


n
i 1
X i 2 ei  0 (6.34*)


n
i 1
X i 3ei  0 (6.35*)

şeklinde de yazılabilir.

Ortalamalardan Sapmalar Cinsinden Gözlemlerle Tahmin


Birinci denklem (6.33) boydan boya gözlem sayısına, n , bölünerek, kesme terimini,
yani b1 ‟i, b2 , b3 ve Y , X 2 ve X 3 verileri cinsinden ifade edecek şekilde yenide
düzenlenebilir:
b1  Y  b2 X 2  b3 X 3 (6.36)
Alternatif olarak (6.36), sıra ile (6.34) ve (6.35)‟ten çıkarılarak tahmin edilen çok-
lu regresyon ilişkisi ve tahmin edilen çoklu regresyon doğrusu ortalamalardan sap-
malar cinsinden sırası ile
yi  b2 xi 2  b3 xi 3  ei (6.37)

yˆi  b2 xi 2  b3 xi 3 (6.38)
şeklinde ifade edilebilir. Ortalamalardan sapmalar cinsinden kalıntı kareler toplamı,
 e  i 1 ( yi  yi )2 , minimize edildiğinde, ortalamalardan sapmalar cinsinden
n 2 n
i 1 i

birinci mertebe koşulları


 n  n n
   ei2  / b2  2 xi 2 ( yi  b2 xi 2  b3 xi 3 )   2 xi 2 ei  0 (6.39)
 i 1  i 1 i 1

 n  n n
   ei2  / b3  2 xi 3 ( yi  b2 xi 2  b3 xi 3 )   2 xi 3ei  0 (6.40)
 i 1  i 1 i 1

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:22


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

şeklinde bulunur.9 Biraz çaba ile bu iki denklem çözüldüğünde b2 ve b3 için


aşağıdaki ifadeler elde edilir:
n n n n

 y x x i i2
2
i3   xi 2 xi 3  yi xi 3
b2  i 1 i 1 i 1 i 1
2
(6.41)
n
 n
 n


i 1
x  x    xi 2 xi 3 
2
i2
i 1  i 1
2
i3

n n n n

x y x 2
i2 i i3   yi xi 2  xi 2 xi 3
b3  i 1 i 1 i 1 i 1
2
(6.42)
n n
 n 

i 1
xi 2  i3
2

i 1
x 2
   xi 2 xi 3 
 i 1 
(6.41) ve (6.42) sıra ile  2 ve  3 parametrelerinin olağan en küçük kareler
tahmincilerini vermektedir. b2 ve b3 bu şekilde bulunduktan sonra 1 ‟in tahmini
(6.36)‟dan elde edilir. Bu formüllerin çıkarılmasından açıkça görüldüğü gibi çoklu
regresyon modeli katsayıları için tahmincilerin çıkarılması özünde basit doğrusal
regresyon modeldekinden farklı değildir. Bununla birlikte, bulunan tahminciler basit
regresyon tahmincilerinden farklıdır, dolayısı ile basit regresyondan çıkarılan
tahminciler çoklu regresyon için kullanılmamalıdır.

Olağan En küçük Kareler Yönteminin


Matris Cebiri Kullanılarak Uygulanması
İkiden fazla açıklayıcı değişken olduğunda olağan en küçük kareler tahmincilerinin
normal cebir kullanılarak çıkarılması çok usandırıcıdır ve tahminci formülleri çok
karmaşık hale gelmektedir. Bu durumda çözümleme matris cebiri ile yapılır. Çok
detaya girmeden matris cebiri kullanılarak çoklu regresyon modeli için olağan en
küçük kareler tahmincilerinin nasıl bulunduğunu göstermek yararlı olacaktır.
Hatırlarsanız matris cebiri kullanarak gerçek regresyon modelini
y  X β  u (6.43)
( n1) ( n K ) ( K 1) ( n1)

şeklinde ifade etmiştik. Öte yandan olağan en küçük kareler ile tahmin edilen
regresyon ilişkisi
y  X b  e (6.44)
( n1) ( n K ) ( K 1) ( n1)

9
Minimum için gerekli ikinci mertebe koşullarının sağlandığı kolaylıkla gösterilebilir.

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:23


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

şeklinde ifade edilebilir, burada b vektörü β vektörünün olağan en küçük kareler


tahmincisini simgelemektedir, e kalıntı vektörüdür, yani

 b1   Y1   Yˆ1   e1 
b  Y   ˆ  e 
Y 
b  2 
, e  y  yˆ   2    2    2 
     
       
bK  Yn  Yˆn  en 

burada ŷ tahmin edilen Yˆi ‟ler vektörüdür. Benzer şekilde tahmin edilen regresyon
doğrusu (veya fonksiyonu)
yˆ  X b (6.45)
( n1) ( n K ) ( K 1)

şeklinde ifade edilebilir. Daha önce olduğu gibi, olağan en küçük kareler yöntemine
göre, kalıntı kareler toplamının
n
f (b1 , b2 , , bK )   ei2
i 1

veya matris notasyonu ile


f (b)  ee (6.46)
şeklinde tanımlanan K sayıda tahmin edilen parametrenin bir fonksiyonu olarak
minimum yapılması gerekmektedir. Bunun için (6.46)‟yı tahmin edilen
parametrelerin açık bir fonksiyonu olarak yeniden yazalım:
f (b)  ee
 (y  yˆ )(y  yˆ )
 (y  Xb)(y  Xb)
 y y  bXy  y Xb  bXXb
 y y  2bXy  bXXb
Bu b cinsinden karesel bir fonksiyondur. f (b) ‟nin b ‟ye göre türevini alarak
birinci derece (gerekli) koşulları elde edelim10:
f (b)
 2 Xy  2 XXb  0
b

10
Dizey (matris) türev alma kuralları için bakınız Johnston ve DiNardo (1977) s.464.

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:24


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

Bunu b için çözdüğümüzde matris simgelemesi ile birinci mertebe koşullar, yani
normal denklemler
Xy  XXb (6.47a)
şeklinde elde edilir. Örneğin iki açıklayıcı değişkenli bir regresyon modeli için
(6.47a) yeniden
 n   n n

  Yi  n X i2 X i3 
 i 1   i 1 i 1
  b1 
 n   n 
X i 2 X i 3  b2 
n n

  Yi X i 2     X i 2 X 
2
i2 (6.47b)
 i 1   i 1 i 1 i 1  b 
 n   n n n  3
 i i 2   X i 2 X  2
Y X i2 X i3 X i3 
 i 1   i 1 i 1 i 1 
şeklinde yazılabilir. (6.47), (6.33)‟ten (6.35)‟e kadar uzanan normal denklemlerin
matris yazımı ile gösteriminden başka bir şey değildir.
Denklem (6.47) K sayıda bilinmeyen bk parametresi cinsinden K denklemden
oluşmaktadır. Varsayım gereği X jk ‟lar tam doğrusal olarak birbirine bağımlı olma-
dığında X ‟in rankının r (X)  K olduğu bilinmektedir. Dolayısı ile r (XX)  K dır
ve evrik (ters) matris  XX mevcuttur. (6.47)‟nin her iki yanı  XX
1 1
ile önden
çarpıldığında, β vektörünün olağan en küçük kareler tahmincisi

b  ( XX)1 Xy (6.48)


olarak bulunur. Yine basit doğrusal regresyon modelinde ortalamadan sapmalar
cinsinden elde edilen b tahmincisi formülü b   i 1 xi yi /  i 1 xi2 ile (6.48)
n n

arasındaki benzerliğe dikkat edilmelidir. Daha ileri gitmeden enküçükleme


(minimizasyon) için ikinci derece (yeter) koşulun sağlanıp sağlanmadığına kontrol
edelim. İkinci derece koşullar
f (b)
 2 XX
bb
olmaktadır. XX matrisi bir pozitif belirli matristir, dolayısı ile olağan en küçük
kareler çözümü (6.48) f (b)  ee fonksiyonunun minimumunu vermektedir.

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:25


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

Örnek 6.1

Ortalamalardan sapmaları cinsinden çözüm


Bölüm 4‟teki orijinal gözlemler ve ortalamalardan sapmalar cinsinden örnek veriler,
yeni açıklayıcı değişken hanehalkı fert sayısı ilavesi ile, Tablo 6.1 de yeniden
üretilmiştir. Modelin ortalamalardan sapmalar cinsinden formüllerle tahmin
edilebilmesi için gerekli ara sonuçlar şöyledir:

n n n

 Y  36.5
i 1
i X
i 1
i2  78.2 X
i 1
i3  32
n n n

 yi2  8.2892
i 1
 xi22  90.4567
i 1
x
i 1
2
i3  6.6667
n n n

 yxi 1
i2  17.0617  yx
i 1
i3  7.0667 x
i 1
x  11.6667
i 2 i3

Tablo 6.1 Gıda Maddelerine Yapılan Harcamalar, Gelir ve Fert Sayısı


Aylık Gıda Aylık
Harcamaları Gelir Fert
Gözlem (Milyon (Milyon sayısı
lira) lira)
i Y X2 X3 y x2 x3
1 2.4 4.4 2 -0.641667 -2.116667 -0.666667
2 2.5 4.2 2 -0.541667 -2.316667 -0.666667
3 3.5 5.8 3 0.458333 -0.716667 0.333333
4 3.9 12.1 3 0.858333 5.583333 0.333333
5 4.2 9.8 4 1.158333 3.283333 1.333333
6 4.5 6.5 4 1.458333 -0.016667 1.333333
7 3.1 5.8 3 0.058333 -0.716667 0.333333
8 2.2 4.1 2 -0.841667 -2.416667 -0.666667
9 1.8 1.9 2 -1.241667 -4.616667 -0.666667
10 3.5 7.5 3 0.458333 0.983333 0.333333
11 2.5 6.5 2 -0.541667 -0.016667 -0.666667
12 2.4 9.6 2 -0.641667 3.083333 -0.666667

Yukarıdaki ara sonuçları (6.41) ve (6.42)‟de yerine koyduğumuzda  2 ve  3


tahminleri
(17.0617)(6.6667)  (11.6667)(7.0667)
b2   0.067033
(90.4567)(6.6667)  (11.6667)2
(90.4567)(7.0667)  (17.0617)(11.6667)
b3   0.942692
(90.4567)(6.6667)  (11.6667)2

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:26


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

olarak bulunur. Öte yandan (6.28)‟den 1 ‟in tahmini

b1  3.0417  (0.067033)(6.6167)  (0.942696)(2.6667)


 0.090989
olarak elde edilir.
Matris cebiri ile çözüm
Çoklu regresyon modeli parametrelerinin olağan en küçük kareler (OLS) ile tahmini
günümüzde ekonometri yazılımları kullanılarak gerçekleştirilmektedir. Bu yazılımlar
tahmini hesaplama işlemlerini matris cebiri ulanarak gerçekleştirmektedir. Bunun
nasıl gerçekleştirildiğini yukarıdaki örneğin tahmin işlemlerini bir kez de matris
cebiri ile yaparak göstereceğiz.

 2.4  1 4.4 2 
 2.5 1 4.2 2 
   
 3.5 1 5.8 3
     36.50
 3.9  1 12.1 3 Xy  254.92
 4.2  1 9.8 4 
    104.40
 4.5 1 6.5 4 
y  X
3.1 1 5.8 3
   
 2.2  1 4.1 2 
   
 1.8 1 1.9 2  12.00 78.20 32.00
 3.5 1 7.5 3
    XX  78.20 600.06 220.20
 2.5 1 6.5 2  32.00 220.20 92.00
 2.4  1 9.6 2 

 1.1989 0.0264 0.3538  36.50


b  (XX) Xy  0.0264 0.0143 0.0250 254.92
1

 0.3538 0.0255 0.1937  104.40


0.090989
b   0.067033
0.942692

EViews ile çözüm


GIDA001.WF1 dosyası 12 aileye ilişkin aylık verileri göstermektedir. Bu dosyadaki
parasal değerler milyon lira olarak gösterilmiştir. Bu veriler kullanılarak gıda

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:27


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

maddesi için Engel eğrisi tahmin edildiğinde aşağıdaki EViews çıktısı elde
edilmektedir:

Tahmin edilen regresyon doğrusu

GIDA  0.09089  0.067033GEL  0.942692 FERT


olarak elde edilmiştir.

Örnek 6.1

Çoklu regresyon modelinin yorumlanması


Yine iki açıklayıcı değişkenli modeli ele alalım. Tahmin edilen model

Yˆi  b1  b2 X 2  b3 X 3 (6.48)

şeklindedir. Kesme, b1 , X 2  0 ve X 3  0 olduğunda Y ‟nin öngörülen ortalama


değerini vermektedir. Aynen basit doğrusal regresyon modelinde olduğu gibi X 2 ve
X 3 ‟nin sıfıra eşitlenmesi bazen ilgi çekici olabilir; diğer bazı hallerde ise hiçbir
anlam ifade etmeyebilir.
b2 ve b3 tahminleri kısmi etkileri, yani ceteris paribus koşulları altında geçerli
olan sonuçları vermektedir. Denklem (6.48)‟den X 2 ve X 3 ‟deki değişme karşısında
Y ‟deki öngörülen toplam değişme

Ŷ  b2 X 2  b3X 3

şeklinde ifade edilebilir. X 3 sabit tutulduğunda, yani X 3  0 olduğunda,

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:28


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

Yˆ  b2 X 2 veya b2  Yˆ / X 2

olmaktadır; benzer şekilde X 2 sabit tutulduğunda, yani X 2  0 olduğunda,

Ŷ  b3X 3 veya b3  Yˆ / X 3


elde edilmektedir.
Yukarıdaki tartışmadan da açıkça görüldüğü gibi X 3 ‟ün modele katılmış olması
sayesinde X 2 ‟nin Y üzerindeki kısmi etkisi ve X 2 ‟nin modele katılmış olması sa-
yesinde X 3 ‟ün Y üzerindeki kısmi etkisi sıra ile b2 ve b3 yardımıyla elde edilir hale
gelmektedir.
Şimdi sayısal örneğimize dönerek tahminleri yorumlayalım. Kesme terimi
0.090989 gelir ve fert sayısı sıfıra eşitlendiğinde hanehalkının yapacağı ortalama gı-
da maddesi harcama tutarını, milyon lira olarak, göstermektedir. Buradaki ortalama
kitle ortalamasına atıfta bulunmaktadır ve örneklemden örnekleme örneklem hatası
nedeniyle kesme teriminin farklı olacağını ima etmektedir. Daha önce de belirttiği-
miz gibi bazen açıklayıcı değişkenler sıfıra eşitlendiğinde bağımlı değişkenin aldığı
değer ilgi çekici olabilir. Fakat birçok durumda, burada olduğu gibi sabit terimin hiç-
bir anlamı olmayabilir; geliri ve fert sayısı sıfır olan hanehalkı, iktisadi olarak anlam-
sız bir durumu temsil etmektedir.
Daha önce de belirttiğimiz gibi çoklu regresyonda enteresan olan açıklayıcı de-
ğişken katsayılarının yorumudur. Beklenildiği gibi, fert sayısının, X 3 , etkisi sabit tu-
tulduğunda gelir, X 2 , ile gıda maddesine yapılan harcama, Y , arasında pozitif ilişki
vardır: bu durumda gelir örneğin bir milyon lira arttığında, X 2  1 , gıda maddesine
yapılan harcamanın, ortalama olarak, 67033 lira artması beklenmektedir, yani
Y  0.067033 . Başka bir ifade ile fert sayısı aynı olan fakat birinin geliri diğerin-
den bir milyon lira fazla olan iki aileyi ele aldığımızda, geliri yüksek olan ailenin or-
talama olarak ayda 67 bin 33 lira daha fazla gıda maddesi harcaması yaptığı öngö-
rülmektedir. Kuşkusu bu durumda “ortalama olarak” sözcüğü aynı fert sayısına sahip
bir hane hanehalkından diğerine bir milyon liralık gelir artışının etkisi örnekleme ha-
tası nedeniyle farklı olacağını belirtmektedir.
Gelirin, X 2 , etkisi sabit iken fert sayısı, X 3 , ile gıda maddesine yapılan harcama,
Y , arasında da pozitif bir ilişki olması beklenmektedir. Beklenildiği gibi, gelir sabit
tutulurken, hanehalkı fert sayısı bir kişi arttığında, X 3  1 , gıda maddelerine yapı-
lan harcamanın, ortalama olarak, ayda 942692 lira artması beklenmektedir, yani
Y  0.942692 . Aynen yukarıda yaptığımız gibi gelir düzeyi aynı olan fakat birin-
deki fert sayısı diğerinde bir kişi fazla olan iki aileyi ele alırsak, model fert sayısı
yüksek olan ailenin diğerinden ortalama olarak ayda 942 bin 692 liralık fazla gıda
harcaması yapması öngörülmektedir.

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:29


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

Bazen birden çok değişkendeki değişmenin bağımlı değişken üzerindeki etkisini


görmek isteyebiliriz. Örneğin tahmin edilen modelimize dayanarak geliri bir milyon
lira ve fert sayısı bir kişi fazla olan bir ailenin gıda maddesi harcamalarının ortalama
olarak ne kadar fazla olacağını bilmek isteyebiliriz. Toplam (ortalama) etki
Y  0.067033X 2  0.942692X 3
 0.067033  0.942692  1.009725
veya yaklaşık olarak 1 milyar 10 bin liralık daha fazla gıda harcaması demektir.

Örnek 6.2
HA94161.WF1 dosyası DIE‟nin 1994 Hanehalkı Gelir ve Tüketim Anketi‟nin Ocak
ayında Bursa‟da 55 aileden derlediği aylık verileri göstermektedir. Bu dosyadaki
parasal değerler, Tablo 6.1‟deki gibi milyon lira olarak değil, lira olarak
gösterilmiştir. Bu veriler kullanılarak gıda maddesi talep fonksiyonu (Engel eğrisi)
tahmin edildiğinde aşağıdaki EViews çıktısı elde edilmektedir.

Tahmin edilen regresyon doğrusu

GIDA  123460  0.037637GEL  433470FERT

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:30


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

olarak elde edilmiştir. FERT etkisi sabit iken GEL‟deki 1 milyon liralık azalmanın
GIDA‟yı ayda (ortalama) 37 bin 637 lira azaltması beklenmektedir. Öte yandan GEL
etkisi sabitken hanehalkı fert sayındaki bir kişilik azalışın GIDA‟yı ayda (ortalama)
433 bin 470 lira azaltması beklenmektedir. Buradaki kesme terimi tahmini iktisadi
olarak hiçbir anlam ifade etmemektedir.

Örnek 6.2

Tahmin edilen (kestirilen) değerler ve kalıntılar


Olağan en küçük kareler yöntemiyle regresyon denklemini tahmin ettikten sonra her
gözlem için tahmin edilen (uydurulan veya kestirilen) bağımlı değişken değerlerini
elde edebiliriz. Örneğin iki açıklayıcı değişkenli modelde Y ‟nin i ‟ninci gözlem için
tahmin edilen (uydurulan veya kestirilen) değer

Yˆi  b1  b2 X i 2  b3 X i3 (6.49)

şeklinde elde edilir; Yi ‟nin tahmin edilen (uydurulan veya kestirilen) değeri i ‟ninci
gözlem açıklayıcı değişken değerleri, tahmin edilen regresyon denkleminde yerine
konarak bulunmaktadır. Bir gözlem için kalıntı (artık) daha önce gösterildiği gibi

ei  Yi  Yˆi

şeklinde tanımlanmaktadır
Normal koşullarda herhangi bir gözlem için gözlenen Yi değerleri, öngörülen Yˆi
değerlerine eşit olması beklenmemektedir, çünkü olağan en küçük kareler, kalıntıla-
rın kareler toplamını minimize etmesine karşın herhangi bir gözlem kalıntısı hakkın-
da hiçbir şey söylememektedir.
Uydurulan olağan en küçük kareler değerleri ve kalıntılar basit regresyon mode-
lindekine benzer özelliklere sahiptir:

n
1. Kalıntılar toplamı ve dolayısı ile ortalaması sıfıra eşittir, e  0 . Bu sonuç
i 1 i

aynen basit regresyon modelinde olduğu gibi birinci normal denklem tanımından
elde edilmektedir.
2. Her bir açıklayıcı değişken ile olağan en küçük kareler kalıntılarının çarpımları

n
toplamı sıfıra eşittir, i 2
X ik ei  0 , k  2, , K . Bu sonuçta, basit regresyon
modeline benzer şekilde, ikinci ve daha sonraki normal denklemlerin tanımından
otomatik olarak çıkmaktadır. Benzer şekilde açıklayıcı değişkenlerin ortalamala-
rından sapmaları ile en küçük kareler kalıntılarının toplamı sıfıra eşittir,

n
i 2
xik ei  0 , k  2, ,K

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:31


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

3. ( X 2 , X 3 , , X k , Y ) noktası her zaman olağan en küçük kareler regresyon


düzlemi üzerinde yer alacaktır. Birinci normal denklemden
Y  b1  b2 X 2  b3 X 3   bk X k olduğu bilinmektedir.

Çoklu Regresyon Modeli Katsayılarının “Kısmi Etki” Yorumu


ve Basit Regresyon Modeli Katsayıları ile Karşılaştırma
Çoklu regresyon analizi açıklayıcı değişkenlerin bağımlı değişken üzerindeki
etkilerini, açıklayıcı değişkenlerin korelasyonlu olduğunu dikkate alarak birbirinden
ayırmaya yarar. Her açıklayıcı değişenin regresyon katsayısı, tüm diğer bağımsız
değişkenlerin bağımlı değişken üzerindeki etkisini kontrol altında tutarken ve
açıklayıcı değişkenler arasındaki korelasyonu dikkate alarak, açıklayıcı değişkenin
bağımlı değişken üzerindeki etkisinin ne olduğunu gösterir. Bunun böyle olduğunu
iki açıklayıcı değişkenli model çerçevesinde kolaylıkla gösterebiliriz. İki açıklayıcı
değişenli model için ortalamalardan sapmalar cinsinden normal denklemlerin
n n n n

x
i 1
i2 ( yi  b2 xi 2  b3 xi 3 ) 0 veya x
i 1
i2 yi  b2  xi22  b3  xi 2 xi 3
i 1 i 1
(6.39*)

n n n n

x
i 1
i3 ( yi  b2 xi 2  b3 xi 3 ) 0 veya x
i 1
i3 i y  b2  xi 2 xi 3  b3  xi23
i 1 i 1
(6.40*)

şeklinde yazılabileceğini biliyoruz.


Şimdi açıklayıcı değişken X i 3 ‟ün X i 2 ve dolayısıyla Yi üzerindeki etkisi ortadan
kaldırmak için
X i 2  1  3 X i 3  ui 2 (6.50)

regresyonunu gerçekleştirelim, burada ui 2 bağımlı değişkeni X i 2 olan regresyonun


hata terimini simgelemektedir. Tahmin edilen regresyon ilişkisi orijinal gözlemler
cinsinden
X i 2  a1  a3 X i 3  ei 2 (6.51)
ve ortalamalardan sapmalar cinsinden
xi 2  a3 xi 3  ei 2 (6.52)

şeklinde ifade edilir. Bağımlı değişkeni X i 2 olan regresyon doğrusu ortalamalardan


sapmalar cinsinden
xˆi 2  a3 xi 3 (6.53)

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:32


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

şeklinde gösterilebilir. (6.52)‟deki kalıntılar, yani


ei 2  xi 2  a3 xi 3 (6.54)

X i 3 ‟ün X i 2 aracılığı ile Yi üzerine yaptığı etkiden arındırılmış X i 2 etkisini


göstermektedir. (6.52) ve (6.53)‟ten
xi 2  xˆi 2  ei 2 (6.55)
yazılabileceği bilinmektedir. Şimdi (6.55)‟i (6.39*) içinde yerine koyarak, ortalama-
lardan sapmalar cinsinden birinci normal denklemi
n

 ( xˆ
i 1
i2  ei 2 )( yi  b2 xi 2  b3 xi 3 )  0 (6.56)


n
şeklinde yazabiliriz. xˆi 2 tahmini xi 3 ‟ün doğrusal bir fonksiyonu ve x e 0
i 1 i 3 i

olduğundan, (6.56)‟çarpımın ilk bileşeni


n n

 xˆ
i 1
i2 ( yi  b2 xi 2  b3 xi 3 )   xˆi 2 ei  0
i 1
(6.57)

olacaktır. Dolayısı ile, bu sonuç kullanılarak (6.56) yeniden


n

e
i 1
i2 ( yi  b2 xi 2  b3 xi 3 )  0 (6.58)

şeklinde yazılabilir. (6.52)‟deki regresyon ilişkisi normal denkleminden


n

x
i 1
e 0
i3 i 2 (6.59)

olduğu bilinmektedir. (6.59) dikkate alındığında (6.58) yeniden


n

e
i 1
i2 ( yi  b2 xi 2 )  0 (6.60)

şeklinde yazılabilir. (6.55)‟in her iki yanı ei 2 ile çarpar ve n sayıda gözlem için
toplamını alırsak
n n n

x
i 1
i2 i2e   xˆi 2 ei 2   ei22
i 1 i 1
(6.61)


n
elde edilir. (6.57)‟den xˆ e  0 olduğu dikkate alınırsa (6.61)‟den
i 1 i 2 i

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:33


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

 x e   i 1 ei22
n n
i 1 i 2 i 2
(6.62)

olduğu bulunur. (6.62)‟deki sonuç (6.60)‟de yerine konduğunda


n

e i2 yi
b2  i 1
n
(6.63)
 ei22
i 1

bulunur. Dikkat ederseniz (6.53) bağımlı değişken Yi ‟nin X 3 ‟ün etkisinden


arındırılmış X i 2 , yani ei 2 , üzerine

Yi    2 ei 2  wi (6.64)

basit regresyonundan olağan en küçük kareler yöntemi ile tahmin edilen b2


tahmincisini göstermektedir. Benzer şekilde  3 parametresi açıklayıcı değişken
X i 2 ‟nin X i 3 ve dolayısıyla Yi üzerindeki etkisi ortadan kaldırılarak
n

e y
i3 i
b3  i 1
n
(6.65)
e i 1
2
i3

şeklinde tahmin edilebilir.

Örnek 6.3
Örnek 6.2‟deki iki açıklayıcı değişkenli gıda maddesi harcamaları örneğimizi
kullanarak yukarıda anlatılanları örneklendirebiliriz. Hanehalkı fert sayısı yanında
hanehalkı gelirinin gıda harcamalarını etkilediği bir durumda, sadece gıda
harcamaları ile fert sayısı arasındaki “saf ilişki” ile ilgilendiğimizi ve bunları
herhangi bir biçimde basit regresyonlar ile temsil etmek istediğimizi farz edelim.
Çoklu regresyon modelinin doğru tanımlama olduğu durumda, Bölüm 4‟te
yaptığımız gibi, GIDA‟nın sadece FERT üzerine regresyonu, yani

GIDA  7107.555  482820.5FERT (6.66)


yanıltıcı sonuç verecektir, çünkü GIDA‟daki değişmenin bir bölümü GEL‟deki
değişmeden kaynaklanmaktadır ve FERT‟teki değişmenin bir bölümü GEL ile
ilişkilidir. İki açıklayıcı değişkenli modelde (1) FERT arttıkça gıda harcamaları artma
eğiliminde olacaktır, çünkü  3 pozitiftir; (2) FERT arttıkça GEL artacaktır, çünkü
FERT ve GEL pozitif korelasyonludur; (3) GEL‟deki artış GIDA‟yı arttıracaktır,

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:34


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

çünkü  2 pozitiftir. GEL‟i dikkate almayan model (6.41)‟de GIDA harcamalarındaki


değişmeler sadece FERT‟e atfedilecek ve bu şekilde FERT‟in GIDA üzerindeki
görünen etkisi abartılı olacaktır. Sonuç olarak basit regresyon (6.56)‟dan tahmin
edilen 482820.5  3 ‟ün yukarı doğru yanlı bir tahmincisi olacaktır. GEL‟in GIDA ve
FERT üzerindeki etkilerini izole ederek GIDA ile FERT arasındaki “saf ilişkiyi” basit
regresyon modeli çerçevesinde ele alabiliriz.
GEL‟in, aralarındaki korelasyon nedeniyle mevcut olan, FERT ve dolayısı GIDAi
üzerindeki etkisini ortadan kaldırmak için FERT‟i GEL üzerine regres edelim, bunun
sonucu

FERT  3.449708  (1.09E  07)GEL (6.67)


11
tahmini elde edilir ; GEL tarafından açıklanamayan FERT‟teki değişmeler bu
regresyonun kalıntıları, yani ei  FERTi  FERT i tarafından temsil edilecektir, bunu
EFERTi ile simgeleyelim. Şimdi FERT‟in GIDA üzerindeki “kısmi marjinal
etkisini elde etmek için GIDA değişkenini GEL etkisinden arındırılmış fert sayısı
değişkeni, yani EFERT, üzerine regres edersek

GIDA  212608.1  433470.5EFERT (6.68)


Açıkça görüldü gibi (6.68)‟deki EFERT‟in katsayısı ile çoklu regresyon (6.48)‟deki
FERT‟in katsayısı birbirinin aynıdır. (6.48) ile (6.68) arasındaki farklılık kesme
terimlerinde ortaya çıkmaktadır. Bunun nedeni GIDA‟dan gelir, yani GEL, etkisinin
arındırılmamış olmasıdır.
GEL‟in GIDA üzerindeki etkisini izole etmek için önce GIDA‟yı ve GEL üzerine
regres edelim:

GIDA  1371886  0.084888GEL (6.69)

Bu denklemden tahmin edilen gıda harcamaları, GIDA , gelir tarafından belirlenen


gıda harcamalarını göstermektedir. Tahmin edilen bu gıda harcama değerleri,
GIDAi , gerçek gıda harcamalarından, yani GIDAi ‟dan, çıkarıldığında geri kalan gıda
harcamaları, yani ei kalıntıları, gelir tarafından açıklanmayan gıda harcamalarını
gösterecektir, buna EGIDAi adı verelim.

11
Bilgisayar çıktılarında çok büyük sayıları veya çok küçük sayıları önceden belirlenmiş sınırlı ge-
nişliğe sahip bir alanda göstermek için bilimsel sayı gösterme biçimi olan “E+m” veya “E-m” ya-
zımı kullanılmaktadır. “E+m” katsayının 10m ile çarpılması gerektiğine işaret etmektedir. Benzer
şekilde “E-m” onun 10-m ile çarpılması gerektiğini belirtir. (5.45)‟teki eğim parametresinin bilgisa-
7
yar çıktısındaki görünümü “1.09E-09” şeklinde olduğundan buraya “ 1.09  10 ” biçiminde yansı-
tılmıştır. Sonuç olarak, bu regresyonda eğim katsayısı efektif olarak 0 demektir.

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:35


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

Bu şekilde bulunan EGIDAi ve EFERTi değişkenleri, yani sıra ile (6.69) ve


(6.67) regresyonlarının kalıntıları, GEL etkisinden arındırılmış saf GIDA ve FERT
değişkenlerinden başka bir şey değildir. Son olarak EGIDAi ‟yı EFERTi üzerine
regres ederek, FERT‟in GIDA üzerindeki saf etkisini bir basit regresyon ile tahmin
edebiliriz:

EGIDA  (3.30E  10)  433470.5EFERT (6.70)


Kolaylıkla doğrulayabileceğiniz gibi (6.70)‟deki EFERT‟in katsayısı ile çoklu
regresyon (6.48)‟deki FERT‟in katsayısı birbirinin tamamen aynıdır. Kesme terimi
efektif olarak sıfırdır, yani model hanehalkı olmadığında gıda harcaması
olmayacağını öngörmektedir.
Örnek 6.3
Bu arada basit regresyon ile çoklu regresyonun aynı tahminler ürettiği iki özel du-
rumdan bahsetmek yararlı olacaktır. Y ile X 2 arasındaki tahmin edilen basit regres-
yonu Y  ˆ  ˆ X ve Y ile X ve X arasındaki tahmin edilen çoklu regresyonu
i 1 2 i2 2 3

Yˆi  b1  b2 X i 2  b3 X i3 ile gösterelim. Artık, basit regresyondan elde edilen ˆ2 tah-
minin, çoklu regresyon tahmininden hesaplanan b2 ‟ye, genel olarak, eşit olmayaca-
ğını biliyoruz. ˆ ve b ‟nin birbiri ile aynı olacağı iki özel durum vardır:
2 2

1. Örneklemde X 3 ‟nin Y üzerindeki etkisi sıfırdır, yani b3  0 .


2. Örneklemde X 2 ve X 3 korelasyonsuzdur.
Çoklu regresyonda b3  0 iken b1 ve b2 ‟nin ne olacağını görmek için (6.33)-
(6.35)‟teki normal denklemlerde b3  0 yapalım. Normal denklem sayısı ikiye düşer
ve yeni normal denklemler şöyle olur:
n n

 Y  nb  b  X
i 1
i 1 2
i 1
i2

n n n
(6.71)
 Yi X i 2  b1  X i 2  b2  X i22
i 1 i 1 i 1

Bunlar Y ‟nin X 2 üzerine regresyonundan elde edilen normal denklemlerdir, yani


b3  0 iken b1  ˆ1 ve b2  ˆ2 olmaktadır.


n
İkinci özel durumda, yani X 2 ve X 3 korelasyonsuz olması halinde, x x 0
i 1 2 3

olacaktır. Bu ifade çoklu regresyonun ortalamalardan sapmalar cinsinden ifade edilen


(6.39) ve (6.39)‟taki normal denklemlerde yerine konduğunda, normal denklemler

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:36


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

n n

 yi xi 2  b2  xi22
i 1 i 1
n n
(6.72)
y x
i 1
i i3  b3  x
i 1
2
i3

şeklini alacaktır, bunlar sıra ile Y ‟nin X 2 ve Y ‟nin X 3 üzerine basit


regresyonlarından elde edilen ortalamalardan sapmalar cinsinden normal
denklemlerdir. Özetle, bu durumda çoklu regresyona gerek kalmaksızın, b2 ve b3
basit regresyonlardan bulunabilecektir.
Gerçekte basit ve çoklu regresyon tahminleri tam olarak birbirinin aynı olmasa
da, yukarıdaki açıklamalar ışığında onların ne zaman birbirine çok benzer ve ne za-
man birbirinden çok farklı olabileceğini açıklayabiliriz. Örneğin b3 çok ufak oldu-
ğunda, b2 ‟nin basit ve çoklu regresyon tahminlerinin birbirine benzer olacağını söy-
leyebiliriz. Keza, iki açıklayıcı değişkenli çoklu regresyon modelinde, açıklayıcı de-
ğişkenler arasında çok ufak bir korelasyon olduğunda basit regresyon tahminleri çok-
lu regresyon tahminlerine benzer sonuçlar verecektir.
İkiden fazla açıklayıcı değişken içeren çoklu regresyon modellerinde örneğin
Y ‟nin X 2 üzerine basit regresyonu ile Y ‟nin X 2 , X 3 , , X k üzerine çoklu regres-
yonu aynı  2 tahminini ancak (1) X 3 , , X k ‟nın olağan en küçük kareler katsayıla-
rının tamamı sıfır olduğunda veya (2) X 2 açıklayıcı değişkeni X 3 , , X k açıklayıcı
değişkenlerinden her biri ile korelasyonsuz olduğunda ortaya çıkacaktır. Bu iki du-
rumdan hiçbirinin pratikte geçerli olması pek muhtemel değildir. Fakat bazı istisnai
durumlarda X 3 , , X k ‟ün olağan en küçük kareler katsayıları ufak olabilir veya X 2
ile X 3 , , X k ‟nın her biri arasındaki korelasyonların göz ardı edilebilecek kadar kü-
çük olduğu durumlarda olabilir, bu halde X 2 ‟nin Y üzerindeki etkisinin basit ve
çoklu regresyon tahminleri birbirine yakın olabilir.

Uyumun Ġyiliği: R 2
Basit regresyon analizinde olduğu gibi, toplam değişme (veya toplam kareler
 
n n
toplamı) i 1
y 2 , açıklanan değişme (veya açıklanan kareler toplamı) i 1
yˆ 2 ve


n
açıklanmayan değişme (veya kalıntı kareler toplamı) i 1
e 2 arasındaki ilişkiyi
n n n

 yi2  yˆi2   ei2


i 1 i 1 i 1
(6.73)

şeklinde tanımlayabiliriz; yani Yi ‟deki toplam değişmenin regresyon doğrusu


tarafından açıklanan değişme artı açıklanmayan değişme olduğunu gösterebiliriz.

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:37


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

(6.73) çıkarılırken Yi  Yˆi  ei ve dolayısı ile  Y   i 1Yˆi  0 ve Y  Yˆ


n n
i 1 i

sonucundan yararlanılmıştır. Örneklemdeki Yi ‟lerin hepsi aynı sabit sayıya eşit


olmadığı sürece Yi ‟deki toplam değişme sıfırdan farklı olacaktır. (6.73)‟ü boydan
boya Yi ‟deki toplam değişme ile bölersek
n n n n
1   yˆi2 /  yi2   ei2 /  yi2 (6.74)
i 1 i 1 i 1 i 1

elde edilir. Aynen basit regresyonda olduğu gibi R -kare veya çoklu determinasyon
katsayısı
n n

 yˆ 2
i e 2
i
R2  i 1
n
1 i 1
n
(6.75)
yi 1
2
i y
i 1
2
i

şeklinde tanımlanmaktadır, yani R -kare Y ‟deki toplam değişimin regresyon modeli


tarafından açıklanma oranını vermektedir.
R 2 aynı zamanda gerçek Yi ‟ler ile uydurulan Yˆi değerleri arasındaki korelasyon
katsayısının karesine eşittir, yani
2
 n 
  yi yˆi 
R 2  n i 1 n  (6.76)
 yi2  yˆi2
i 1 i 1

İki açıklayıcı değişkenli modelde R 2 ‟yi kolayca hesaplamaya yarayan bir formül,
basit regresyondaki R 2 formülüne benzer biçimde,
n n
b2  yxi 2  b3  yxi 3
R2  i 1
n
i 1
(6.77)
yi 1
2
i

şeklinde ifade edilebilir. Bu formül benzer şekilde k 1 sayıda açıklayıcı değişken


için genelleştirilebilir:

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:38


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

n n n
b2  yxi 2  b3  yxi 3   bk  yxik
R2  i 1 i 1
n
i 1
(6.78)
y
i 1
2
i

Çoklu regresyonda R 2 ile ilgili önemli bir nokta onun hiçbir zaman azalmaması
ve genel olarak regresyona yeni değişken eklendikçe yükselmesidir, bunun nedeni
kalıntı kareler toplamının yeni açıklayıcı değişken eklendikçe hiçbir zaman
azalmamasıdır. Bunun böyle olduğu (6.78)‟den kolayca görülmektedir. Regresyon
modeline ilave edilen her yeni açıklayıcı değişken (6.78)‟in payına b j  i 1 yi xij
n


n
şeklinde bir terim ekleyecektir. b j ve i 1
yi xij aynı işareti taşıdıklarından ilave
edilen her terim hiçbir zaman negatif olamayacaktır. Sonuç olarak, eklenen yeni
açıklayıcı değişkenin bağımlı değişken üzerindeki etkisi önemsiz dahi olsa R 2
artacak veya en azından hiçbir zaman azalmayacaktır.

R-karenin yeni değişken eklendikçe azalmayacağının kanıtı


İki açıklayıcı değişkenli modelde R-kare formülünü bulmak için tahmin edilen
modelin ortalamalardan sapmalar cinsinden ifadesinin, yani yˆ  b2 xi 2  b3 xi 3 ‟nin, her
iki yanının karesini
yˆ 2  b22 xi22  b32 xi23  2b2 xi 2b3 xi 3

alalım ve bulunun ifadenin n sayıda gözlem için için toplamını bulalım:


n n n n

 yˆ
i 1
2
 b22  xi22  b32  xi23  2b2b3  xi 2 xi3
i 1 i 1 i 1

Son ifade yeniden düzenlendiğinde


n
 n n
  n n

 yˆ
i 1
2
 b2  b2  xi22  b3  xi 2 xi 3   b3  b2  xi 2 xi 3  b3  xi23 
 i 1 i 1   i 1 i 1 
elde edilir. Parantez içindeki ifadeler yerine ortalamalardan sapmalar cinsinden ifade
edilen normal denklemlerden, yani (6.31)‟den, ikame yapıldığında
n n n

 yˆ
i 1
2
 b2  yi xi 2  b3  yi xi 3
i 1 i 1

bulunur ve bu son ifade R-kare tanımı içinde yerine konduğunda bize (6.51)‟i verir.
R-karenin yeni değişken eklendikçe azalmayacağının kanıtı

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:39


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

Akla şu soru gelebilir: madem R 2 tüm açıklayıcı değişkenlerin müştereken açık-


ladığı bağımlı değişkendeki değişmeyi ölçmektedir, benzer bir istatistik ile her bir
açıklayıcı değişkenin bağımlı değişkendeki değişmeye katkısını ayrı ayrı ölçebilir
miyiz? Başka bir ifade ile her bir açıklayıcı değişkenin göreli öneminin bir ölçüsünü
bulabilir miyiz? Eğer açıklayıcı değişkenler korelasyonlu ise maalesef bu şekilde bi-
leşenlere ayırmak mümkün değildir çünkü açıklayıcı değişkenlerin açıklayıcı gücü
birbiri ile örtüşmektedir. Eğer açıklayıcı değişkenler korelasyonsuz ise bir önceki ke-
simde açıkladığımız gibi ayrı ayrı basit regresyonlarla her bir açıklayıcı değişkenin
bağımlı değişkendeki değişmeye katkısı ölçülebilir.
Bir regresyona herhangi bir değişken eklendikçe R 2 ‟nin hiçbir zaman azalmama-
sı onun bir modele yeni bir değişken veya yeni bir değişken kümesi eklenip eklenme-
si konusunda karar verirken zayıf bir araç olmasına neden olmaktadır.

Ayarlanmış (Düzeltilmiş) R  kare, R 2


Bir önceki kesimde bir regresyon denklemine yeni açıklayıcı değişken ekledikçe
R 2 ‟nin hiçbir zaman azalmayacağına ve genellikle artacağına, işaret ettik. Birçok
regresyon paket programında R 2 ile birlikte verilen ayarlanmış (veya düzeltilmiş)
R 2 program çıktısı olarak sunulmaktadır. Ayarlanmış R 2 genellikle R 2 ile
gösterilmektedir. R 2 , determinasyon katsayındaki açıklayıcı değişken eklendikçe
otomatik olarak yukarı kayma etkisi ortadan kaldırmak için R 2 ‟ye, artan açıklayıcı
değişken sayısı için, bir ceza yüklemektedir. Bu cezanın nasıl yüklendiğini ve
dolayısı ile R 2 ‟nin nasıl ayarlandığını görmek için R 2 ‟yi yeniden


n 2
e /n
R 2
1 i 1 i
(6.79)

n 2
y /n
i 1 i


n
şeklinde yazalım, bunun (6.66)‟dan tek farkı hem e ‟nin ve hem de
2
i 1 i


n
i 1
yi2 ‟nin n ile bölünmesidir. Bu ifade R 2 ‟nin gerçekte neyi tahmin ettiğini
göstermektedir.
Y ‟nin kitle varyansını  Y2 ile ve hata terimi u ‟nun kitle varyansını  u2 ile göste-
relim. Kitle uyumun iyiliği veya kitle determinasyon katsayısı,  2 ,

 2  1   u2  Y2 (6.80)
şeklinde tanımlanır; bu kitle Y ‟sindeki değişmelerin açıklayıcı değişkenler
tarafından açıklanan oranını göstermektedir. Gerçekte R 2 ‟nin tahmin ettiği farz
edilen uyumun iyiliği budur. R 2 hata terimi kitle varyansı  u2 ‟yi 
n 2
e / n ile
i 1 i

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:40


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

tahmin etmektedir, bunun yanlı olduğu bilinmektedir. Bunun yerine  u2 ‟nin yansız

 e / (n  K ) ‟yi ikame edelim. Keza  Y2 ‟nin yanlı tahminincisi


n 2
tahmincisi i 1 i

 
n n
i 1
yi2 / n yerine yansız tahminci i 1
yi2 / (n  1) ‟i ikame edelim. Bu şekilde
yansız tahmincileri kullandığımızda, ayarlanmış R-kareye ulaşırız:
n

e 2
i / (n  K )
su2
R 1 2 i 1
n
1 (6.81)
sY2
y
i 1
2
i / (n  1)

Daha önce de belirttiğimiz gibi R 2 ‟ye bazen düzeltilmiş R-kare adı verilmekte-
dir. Bu R 2 ‟nin sanki R 2 ‟den daha iyi bir kitle determinasyon katsayısı,  2 , tahmin-
cisi imiş izlenimini vermektedir. Maalesef bu böyle değildir, ayarlanmış R-karenin
R 2 ‟den daha iyi bir tahminci olduğu kanıtlanmamıştır.
Bazen R 2 ile R 2 arasındaki ilişkiyi görmek önemli olabilir. Bunun için
(6.81)‟den basit bir cebrik işlemle
(n  1)
R 2  1  (1  R 2 ) (6.82)
(n  K )

olduğu bulunur. Bu formülden açıkça görüldüğü gibi ufak n ve büyük K için R 2


ile R 2 arasında önemli fark olabilecektir.

Ortalanmamış R 2
Bağımlı değişkendeki toplam değişimi ölçmenin bir başka yolu onun sıfıra göre
değişimini hesaplamaktır; bu kolayca Y ‟lerin kareleri toplamı olarak hesaplanabilir,

n
i 1 i
Y 2 . Benzer şekilde tahmin edilen regresyon doğrusu tarafından tahmin edilen
Y ‟lerdeki, yani Yˆ ‟lardaki, sıfıra göre toplam değişme  Yˆ 2
n
i 1 i
olmaktadır.
Regresyon doğrusu tarafından açıklanmayan değişme ise daha önce olduğu gibi

n 2
i 1 i
e dir. Dolayısıyla bu üç büyüklük arasında bir ilişki kurulabildiğinde
regresyon doğrusunun gözlem noktalarına uyumu konusunda bir sonuç
çıkarılabilecektir. Tanım gereği

Yi  Yˆi  ei

olduğunu biliyoruz, her iki yanın kareleri ve n sayıda gözlem için toplamı alınırsa

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:41


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

n n n n

Y
i 1
i
2
  Yˆi 2   ei2  2 Yˆi ei
i 1 i 1 i 1
(6.83)


n
bulunur. Normal denklemlerden i 1
X ij ei  0 j  1, , k olduğu bilindiğinden son
terimin sıfıra eşit olduğu kolaylıkla gösterilebilir:
n n

 Yˆi ei   (b1 X i1  b2 X i 2 
i 1 i 1
 bk X ik )ei
n n n
 b1  X i1ei  b2  X i 2 ei   bk  X i k ei
i 1 i 1 i 1

0
Sonuç olarak (6.57)
n n n

Y
i 1
i
2
  Yˆi 2   ei2
i 1 i 1
(6.84)

biçiminde veya
n n

 Yˆ i
2
e 2
i
1 i 1
n
 i 1
n
(6.85)
 Yi
i 1
2
 Yi 2
i 1

şeklinde ifade edilebilir. (6.85)‟in sağındaki ilk terim öngörülen Y ‟lerdeki sıfıra göre
toplam değişmenin gözlenen Y ‟lerdeki sıfıra göre toplam değişmeye oranını
vermektedir, bu ölçüye ortalanmamış R 2 adı verilmekte ve RUC 2
ile
simgelenmektedir, yani
n

 Yˆ i
2

2
RUC  i 1
n
(6.86)
Y
i 1
i
2

Alternatif olarak ortalanmamış R 2


n

e 2
i
R 2
UC 1 i 1
n
(6.87)
Y i 1
i
2

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:42


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

şeklinde de ifade edilebilir. Aynen determinasyon (belirleme) katsayısı gibi RUC


2
‟de 1
ile 0 arasında değer alacaktır, yani 0  RUC
2
 1 , ve ortalanmamış R 2 ‟nin değeri 1‟e
ne kadar yakın ise sıfıra göre toplam değişmeyi açıklama açısından regresyon
doğrusu o kadar iyi demektir.
Değişmeleri sıfıra göre hesapladığı için bu ölçü ancak bazı hallerde
determinasyon katsayısı yerine kullanılmaktadır. Daha önce de belirttiğimiz gibi, R-
kare ile ortalanmamış R-kare farklı şeyler ölçmektedir. Bu nedenle iki ölçünün birbiri
iler karşılaştırılmaması gerekir.

Örnek 6.4
Tablo 6.1‟deki 12 gözlemli hanehalkı gıda harcamaları modelimizi yeniden ele
alalım. R-kare hesaplamasında bize yardımcı olacak ara sonuçlar ve parametre
tahminleri şöyle idi:
n n n

y
i 1
2
i  8.2892  yx
i 1
i2  17.06167  yx
i 1
i3  7.0667

b2  0.067033 b3  0.942692

Bunları (6.77) içinde yerine koyduğumuzda


(0.067033)(17.0617)  (0.942692)(7.0667)
R2   0.941637
(8.2892)
bulunur. Bu sonuç gelir ve fert sayısındaki değişmelerin gıda harcamalarındaki
değişmelerinin yüzde 94‟ünü açıkladığını göstermektedir. Öte yandan ayarlanmış R-
kare
(n  1) 11
R 2  1  (1  R 2 )  1  (1  0.941637)  0.928667
(n  k ) 9
olarak bulunur.
Örnek 6.4

Orijinden Geçen Regresyon Doğrusu


Bazen teorik veya ampirik nedenlerle bir ekonometrik tek denklem modelinde kesme
teriminin sıfır olması beklenebilir, bu halde
Yi  1 X i1  2 X i 2  3 X i 3   k X ik  ui i  1, 2, ,n

çoklu regresyon modelinde X i1 artık bir açıklayıcı değişkeni temsil edecek ve


X i1  1 olacaktır. Böyle bir modele X i1  0, X i 2  0, , X ik  0 olduğunda öngörülen

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:43


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

Yˆi sıfır olacaktır. Bu durumda olağan en küçük karelerin daha önce elde edilen bazı
cebrik özellikleri orijinden geçen regresyon için geçerli olmayacaktır.
Orijinden geçen regresyon modelinin olağan en küçük kareler tahmincileri
b1 , b2 , , bk , her zaman ki gibi, kalıntı kareler toplamını minimize edecektir, fakat ar-
tık X i1  1 olduğundan
n n n

Y  nb  b  X
i 1
i 1 2
i 1
i2   bk  X ik
i 1

veya
n

e
i 1
i 0

eşitlikleri geçerli olmayacak ve dolayısıyla regresyon doğrusu artık ortalamalar


noktasından geçmeyecektir, yani
Y  b1 X 1  b2 X 2   bk X k

olacaktır. Bu durumda 1  ( i 1 ei2 /  i 1 yi2 ) olarak tanımlanan determinasyon


n n

katsayısı R 2 negatif olabilecektir, çünkü

 e   i 1 (Yi  b1 X1i  b2 X 2i 
n n
2
i 1 i
 bk X ki )2

 e   i 1 yi2 olabilecektir, yani örneklem ortalaması


n n
olmaktadır. Bu halde 2
i 1 i

Yi ‟deki, değişmeyi regresyondan daha iyi açıklayabilecektir. Böyle bir durumda R 2


negatif olacaktır. Negatif olmayan bir R 2 hesaplamak için Bölüm 4‟te açıklanan
ortalanmamış R 2 , yani RUC
2
, kullanılabilir.

En Küçük Kareler Tahmincilerinin


Sonlu Örneklem Özellikleri
Şimdi olağan en küçük kareler tahmincilerinin gerçek kitle modeli parametrelerini
tahmin etme açısından sonlu örneklem, yani herhangi bir örneklem büyüklüğü, için
geçerli özelliklerini incelemeye dönüyoruz. İstatistiksel özelliklerin belirli bir
örneklemle ilgili özellikler olmadığını, bunların (hayali) tekrarlanan rastsal
örnekleme süreci sonucu elde edilen tahminci özellikleri olduğu unutulmamalıdır
Yapılan varsayımlar altında, olağan en küçük kareler tahmincilerinin sahip olduğu
küçük (sonlu) örneklem özellikler şunlardır:

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:44


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

1. İlk üç varsayım altında olağan en küçük kareler (OLS) tahmincileri karşı


geldikleri kitle parametrelerinin yansız (eğilimsiz, sistematik sapmasız)
tahmincileridir:
E (bk X)   k k  1, 2, ,K (6.88)

Diğer özelliklere geçmeden önce yansızlık kavramına açıklık getirmek yararlı


olacaktır:
a. Tahminciler, yani bk ‟ler , örneklem Yi ve X ik ‟lerinin fonksiyonudur. Yi ve
X ik ‟ler rastsal olduğu için bk ‟lar de rastsaldır. Şimdi belirli bir X ik ‟ler kü-
mesinin değerlerinin verildiğini, karşı gelen tüm mümkün Yi kümesi ger-
çekleşmeleri dikkate alınarak her örneklemden bk ‟ların ayrı ayrı hesapladı-
ğımızı ve bu bk ‟ların ortalamasını aldığımızı farz edelim (böyle bir durum-
da X ik ‟ler sanki rasal değilmiş gibi düşünülebilir). Bu şekilde bulunan orta-
lamalar örnekleme dağılımı için bk ‟nin koşullu ortalamasını, yani
E (bk X) ‟yi, vermektedir. Burada sözü edilen yansızlık, başka bir ifade ile
koşullu yansızlık, bu ortalamanın gerçek  k değerine eşit olmasıdır:

E (bk X)   k

b. Yukarıda (a) şıkkında söylenenden başka ve ondan daha zayıf olan bir yan-
sızlık nosyonu vardır. Toplam Bekleyişler Yasası gereği
E  E(bk X)  E (bk ) . Dolayısı ile

E (bk )  k

yansızlığı koşulsuz yansızlığı ima etmektedir. Yani E (bk X) sadece tüm müm-
kün Yi ‟ler için değil aynı zamanda tüm mümkün X gerçekleşmeleri için değer-
lendirildiğinde ortalama değer  k olacaktır. Muhtemelen bu koşulsuz ifade ikti-
satta E (bk X)   k ‟den daha geçerlidir çünkü örneklemler hem Yi ‟ler ve hem
de X cinsinden birbirinden farklıdır. E (bk X) koşullu ifadesi, daha geçerli
olan, E (bk )  k ifadesine ima ettiğinden önemlidir.
2. İlk beş varsayım altında olağan en küçük kareler tahmincileri b1 , b2 , , bK , kitle
parametreleri 1 ,  2 , ,  K ‟nın en iyi „doğrusal‟ yansız tahmincileri olmaktadır.
Başka bir ifade, bu varsayımlar altında OLS tahmincileri doğrusal yansız
tahminciler sınıfı içinde etkin tahminciler olmaktadır. Daha önce de belirtildiği
gibi bu özellik Gauss-Markov teoremi olarak bilinmektedir. Başka bir şekilde

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:45


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

ifade edersek ilk beş varsayım altında Gauss-Markov koşulları adı verilen şu üç
koşul geçerli olmaktadır:
 X ‟in sütun rankı tamdır
 E (u X)  0n
 E(uu X)   u2In .
3. Klasik (normal) doğrusal regresyon model varsayımları, yani ilk beş varsayım
artı normallik varsayımı, altında b1 , b2 , , bK tahmincileri Gauss-Markov
varsayımları altındaki tahmincilerden daha güçlü bir etkinlik özelliğine sahiptir,
bazen buna mutlak etkinlik adı verilmektedir. Bu halde OLS tahmincileri
minimum varyanslı yansız tahmincilerdir; bu durumda tahminciler artık
doğrusal tahminciler olmak zorunda değildir.
Şimdi bu sonlu örneklem özellikleri kanıtlamaya ve ima ettiği sonuçları irdele-
meye geçebiliriz.

OLS Tahmincilerini Yansızlığı


İki açıklayıcı değişkenli çoklu regresyon modeli çerçevesinde b2 ‟nin  2 ‟nin yansız
tahmincisi, yani E (b2 X)   2 , olduğu ve b3 ‟nin  3 ‟ün yansız tahmincisi, yani
E (b3 X)  3 , olduğu kolaylıkla kanıtlanabilir. Kanıt matris cebiri kullanılarak
herhangi bir sayıda açıklayıcı değişkene genişletilebilir.
Unutulmaması gereken önemli nokta olağan en küçük kareler tahmincisinin yan-
sız olması demek olağan en küçük kareler tahminleri elde edilirken tüm mümkün ör-
neklemlere uygulanan tahmincinin yansız olması demektir. Yoksa elde mevcut olan
örneklemin kitle değerine yakın bir tahmin verme garantisi yoktur, bunun ancak böy-
le olmasını ümit edebiliriz.

OLS tahmincilerinin yansızlığının kanıtlanması


Şimdi OLS tahmincilerinin yansızlığını kanıtlamaya geçebiliriz. İki açıklayıcı değiş-
kenli çoklu regresyon modelinde ortalamalardan sapmalar cinsinden gerçek regres-
yon doğrusu
yi  2 xi 2  3 xi 3  ui  u
şeklinde ifade edilebilir. Bunu ortalamalardan sapmalar cinsinden normal denklemler
içinde yerine koyduğumuzda
n n n

 ( x
i 1
2 i2  3 xi 3  u  u ) xi 2  b2  xi22  b3  xi 2 xi 3
i 1 i 1

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:46


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

n n n

 ( x
i 1
2 i2  3 xi 3  u  u ) xi 3  b2  xi 2 xi 3  b3  xi23
i 1 i 1

elde edilir. Sadeleştirme yapıldığında


n n n

 (u  u ) x
i 1
i2  (b2   2 ) xi22  (b3  3 ) xi 2 xi 3
i 1 i 1
n n n

 (u  u ) x
i 1
i3  (b2   2 ) xi 2 xi 3  (b3  3 ) xi23
i 1 i 1

bulunur. İki denklem b2 için çözüldüğünde


n n n n

 xi23  xi 2 (ui  u )   xi 2 xi3  xi3 (ui  u )


b2   2  i 1 i 1 i 1 i 1
2
n n
 n 

i 1
xi 2  i3
2

i 1
x 2
   xi 2 xi 3 
 i 1 
ve sadeleştirme yapıldığında
n

x 2
i3 n
b2   2  i 1
2 x i2 (ui  u )
n
 n n

 x  x    xi 2 xi 3 
2 2 i 1
i2 i3
i 1 i 1  i 1 
n

x x
i 2 i3 n
 i 1
2 x i3 (ui  u )
n
 n
n

    xi 2 xi 3 
i 1
x 2
i2 x  2
i3
i 1 i 1  i 1 
bulunur. b2 ‟nin koşullu beklenen değeri alındığında

E (b2 X)   2

elde edilir; çünkü katı dışsallık varsayımı gereği (ui  u ) dışındaki tüm ifadeler
X ‟lerin fonksiyonudur ve bunlar beklenen değer alma işleminde sanki rastsal
değillermiş gibi ele alınabilir. Keza
E (b3 X)  3

olduğu gösterilebilir. Biraz daha karmaşık olmasına rağmen benzer şekilde


E (b1 X)  1

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:47


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

olduğu kanıtlanabilir. Burada katı dışsallık varsayımı kritik bir rol oynamaktadır.
Eğer bu varsayımların geçerli olduğuna inanıyorsak olağan en küçük kareler
tahmincilerinin yansız olduğu sonucuna varırız.
OLS tahmincilerinin yansızlığının kanıtlanması

OLS tahmincilerinin varyansları


Bir önceki kesimde OLS tahmincileri ile ortalama olarak doğru tahmin yaptığımız bul-
duk. Şimdi veri olarak alınan bir örneklemle ortalamadan ne kadar uzakta bir tahmin
yapmamızın muhtemel olduğunu araştıracağız. Bu şekilde bi ‟lerin merkezi eğilimlerini
bilmenin ötesinde tahmincilerin örnekleme dağılımının (saçılımının) bir ölçüsünü elde
etme imkânına kavuşacağız. Bu ölçü tahmincilerin sonlu örneklem özelliklerini çıkarma
ötesinde bize çoklu regresyonda tahmincilerin güvenilirliğine ilişkin yararlı bilgiler vere-
cektir.
Yapılan varsayımlar altında iki açıklayıcı değişkenli
Yi  1  2 X i 2  3 X i 3  ui
gerçek regresyon modelini temel alalım,  2 ve  3 ‟ün olağan en küçük kareler
tahmincileri b2 ve b3 ‟ün açıklayıcı değişkenlerin örneklem değerleri üzerine koşullu
varyansları

var(b2 X)   b22 X  E (b2  2 )2 X

formülünden
 u2 1  u2 1
var(b2 X)     (6.89)
n
1  rX22 X 3 nVar(X 2 ) 1  rX22 X 3
x
i 1
2
i2

olarak ve

var(b3 X)   b23 X  E (b3  3 )2 X 

formülünden
 u2 1  u2 1
var(b3 X)     (6.90)
n
1  rX 2 X 3 nVar(X3 ) 1  rX22 X 3
2

x
i 1
2
i3

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:48


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

olarak bulunur, burada  u2 , ui ‟nin koşullu varyansını ve rX 2 X3 , X 2 ile X 3 arasındaki


korelasyonu simgelemektedir.12 Alternatif olarak (6.89)‟daki rX22 X 3 ‟ye X 2 ‟nin X 3
üzerine regresyonundan elde edilen R-kare, yani R22 , ve (6.90)‟daki rX22 X 3 ‟ye X 3 ‟ün
X 2 üzerine regresyonundan elde edilen R-kare, yani R32 , olarak bakılabilir. İki
açıklayıcı değişkenli modelde rX22 X3  R22  R32 .
Basit regresyon analizinde olduğu gibi,  b22 X ve  b23 X ‟nin küçük olması için göz-
lem sayısı, n , ve açıklayıcı değişken varyanslarının, Var( X 2 ) ve Var( X 3 ) büyük
olması ve  u2 ‟nin küçük olması arzulanır. Çoklu regresyon durumunda  b22 X ve
 b2 X ‟ü etkileyen ilave bir terim, yani (1  rX2 X ) , mevcuttur. Diğer şeyler aynı iken
3 2 3

X 2 ile X 3 arasındaki korelasyon ne kadar küçük ise tahminci varyansları o kadar


küçük olacaktır. Sezgisel olarak, diğer faktörler aynı iken, iki açıklayıcı değişken
arasındaki korelasyon ne kadar yüksek ise, iki değişkenin bağımlı değişken üzerin-
deki etkisini birbirinden ayırmak o kadar güç olacak ve dolayısıyla tahminler o denli
daha az hassas olacaktır. Bu çoklu doğrusal bağıntı problemi adı verilen ciddi bir
probleme neden olabilir; bu problem ileride detaylı olarak ele alınacaktır. Keza her
ne sebeple olursa olsun tahmincinin varyansının büyüklüğü uygulamada önemlidir.
Çünkü büyük varyans demek daha az hassas tahminci demektir.
İkiden fazla açıklayıcı değişkenli regresyon modellerinde katsayıların OLS tah-
mincilerinin, yani bk ‟ların açıklayıcı değişkenler üzerine koşullu varyansı

 u2 1  u2 1
var(bk X)   b2k X     k  2, ,K (6.91)
n
1  Rk2 nVar(X k ) 1  Rk2
x
i 1
2
ik

şeklinde ifade edilebilir, burada Rk2 açıklayıcı değişken X k ‟nin modelde yer alan
tüm diğer açıklayıcı değişkenler (kesme dahil) üzerine regresyonundan elde edilen R-
karedir, yani X k ile diğer açıklayıcı değişkenler arasındaki çoklu korelasyon
katsayısının karesidir. Bu şekilde hesaplanan Rk2 ‟nin Y değişkenin X 1 , X 2 , , XK
üzerine regresyonundan elde edilen ve uyumun iyiliğini ölçen R ‟den farklı 2

olduğuna dikkat edilmelidir; R 2 ‟de bağımlı değişken Yi dir, halbuki Rk2


hesaplanırken açıklayıcı değişkenlerden biri, X k , bağımlı değişken rolünü
üstlenmekte ve regresyon, bağımlı değişken Y dikkate alınmadan sadece açıklayıcı
değişkenler arasında gerçekleştirilmektedir.

12
(6.89) ve (6.90)‟ın nasıl çıkarıldığı açıkça gösterilmemiştir.

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:49


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

Aynen R 2 gibi Rk2 ‟de 0 ile 1 arasında değer alacaktır, yani 0  Rk2  1 olacaktır.
Rk2  0 olduğunda en küçük var(bk ) elde edilecektir. Tam doğrusal bağıntısızlık var-
sayımı nedeniyle Rk2  1 olamayacaktır; çünkü Rk2  1 olduğunda X k ile modelde
yer alan diğer açıklayıcı değişkenler arasında tam doğrusal bağıntı ortaya çıkar ki bu
Varsayım 2 tarafından devre dışı bırakılmıştır. Yine burada da,  u2 , n ve Var( X k )
veri iken, bir açıklayıcı değişkendeki, X k ‟deki diyelim, değişmeler modelde yer alan
diğer açıklayıcı değişkenlerle, X 2, , X K ne kadar fazla doğrusal ilişkili ise, yani Rk2
ne kadar 1‟e yakın ise, tahmincinin varyansı, var(bk ) , o kadar büyük olacak ve tah-
minci o kadar daha az hassas olacaktır. Daha formel olarak ifade edersek Rk2  1
iken var(bk )   olacaktır. İki veya daha fazla açıklayıcı değişken arasındaki yük-
sek fakat tam olmayan doğrusal bağıntı tahminler açısından güvensizlik problemi ya-
ratmaktadır, buna çoklu doğrusal bağıntı veya çoklu doğrusal bağıntı problemi adı
verilmektedir. Bu konuyu ileride detaylı olarak ele alacağız.

Doğrusal koşullu yansız tahminciler


Bir tahminci özelliği olarak „doğrusallık‟ regresyon modelinin doğrusallığı ile
karıştırılmamalıdır. Burada sözü edilen doğrusallık bir tahmincinin rastsal
değişkenler Y1 , Y2 , , Yn cinsinden doğrusallığıdır. Bunun böyle olduğunu
b = (XX)-1 Xy ‟i

b = Ay (6.92)

şeklinde ifade ederek gösterebiliriz, burada A  (XX)-1 X . A sadece X ‟in


fonksiyonu olduğundan sanki rastsal değilmiş gibi ele alınabilir, dolayısı ile b
tahminci vektörü, y vektörü cinsinden doğrusal olmaktadır.

Olağan En Küçük Kareler Tahmincilerinin Etkinliği: Gauss-


Markov Teoremi
İlk üç varsayım, doğrusallık, tam doğrusal bağıntısızlık ve katı dışsallık, altında
olağan en küçük kareler tahmincilerinin yansız tahmincileri olduklarını gördük. Fakat
bu varsayımlar altında  k parametrelerinin çok sayıda yansız tahmincisi vardır. O
halde çeşitli rakip yansız tahminciler ile karşılaştırıldığında olağan en küçük kareler
yönteminin tercih edilmesi nasıl haklı gösterilecektir? Örneğin OLS tahmincilerinden
daha düşük varyansa sahip başka yansız tahminci yok mudur?
Eğer rakip tahminciler sınıfını doğru bir şekilde sınırlandırırsak olağan en küçük
karelerin bu sınıf içinde en iyi olduğunu gösterebiliriz. Daha belirgin olarak, bu ke-
simde normallik hariç diğer beş varsayım altında olağan en küçük kareler tahmincile-

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:50


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

ri b1 , b2 , , bK ‟nın, kitle parametreleri 1 ,  2 , ,  K ‟nın en iyi doğrusal yansız


tahmincileri (BLUE) olduğu, yani Gauss-Markov teoreminin geçerli olduğu göste-
rilmektedir.
Gauss-Markov teoremi Y1 , Y2 , , Yn cinsinden herhangi bir başka yansız tahminci
ˆ için var( ˆ X)  var(b X) olduğunu söylemektedir. Burada üzerinde durulması
k k k

gereken bir nokta, çoklu regresyonda bk ‟lerden oluşan b vektörü “varyans”ının bir
kovaryans matrisi olmasıdır. Bir tahmincinin varyansı kovaryans matrisi olduğunda
onun diğer tahminciden daha küçük bir varyansa sahip olması ne demektir ve nasıl
kanıtlanacaktır.
Bu problem alternatif tahminci vektörünün, β̂ , elemanlarının varyanslarının doğ-
rusal kombinasyonu b ‟nin elemanlarının varyanslarının doğrusal kombinasyonu ile
karşılaştırılarak çözülmektedir.
Çoklu regresyon için Gauss-Markov teoremi OLS tahmincilerinin doğrusal kom-
binasyonun koşullu varyansının diğer tüm yansız tahmincilerin doğrusal kombinas-
yonun koşullu varyansından küçük olduğunu söylemektedir.13

σ u2 ’nin tahmini ve b j tahmincilerinin standart hataları


(6.91)‟den görüldüğü gibi, b j ‟nin örnekleme dağılımının varyansını ve dolayısı ile
standart sapmasını hesaplayabilmek için hata teriminin varyansına, yani  u2 ‟ya
gereksinim duyarız.  u2  E (u 2 X) olduğundan,  u2 ‟nin yansız bir tahmincisi hata
karelerinin örneklem ortalaması olacaktır: ( i 1 ui2 ) /n . Fakat maalesef bu gerçek bir
n

tahminci değildir, çünkü ui ‟ler gözlenemez. Hatırlarsanız hatalar şöyle ifade


edilmektedir:
ui  Yi  1  2 X i 2    K X iK (6.93)

Dolayısı ile ui ‟leri gözleyemememize karşın (6.93)‟deki  k ‟ler yerine OLS


tahmincileri bk ‟leri ikame ettiğimizde bulunan

ei  Yi  b1  b2 X i 2   bK X iK (6.94)

ei ‟leri, yani kalıntıları, gözleyebiliriz. ui ‟ler yerine ei ‟leri ikame ederek  u2 ‟nin bir
tahminini

13
Bu sonuç kanıtlanmadan sunulmuştur. Kanıt bu kitap kapsamı dışında kalmaktadır.

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:51


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

e 2
i
var(ei )  i 1
(6.95)
n
şeklinde elde etmek doğal görünmektedir. Fakat basit regresyon modelinde de
gördüğümüz gibi bu şekilde bulunan tahminci yanlıdır:
nK 2
E  var(ei )  u (6.96)
n
burada K regresyon denklemindeki parametre sayısını göstermektedir. Bu yanı
ortadan kaldırarak bir yansız tahminci, su2 , elde edebiliriz:
n

n i e 2

su2  var(e)  i 1 (6.97)


nK nK
Benzer bir tahminci ile basit regresyon modelinde de karşılaşmıştık, orada regresyon
modeli sadece iki parametre içerdiğinden K  2 idi.
Daha önce de belirttiğimiz gibi su2 ‟nin pozitif karekökü su ‟ya, yani hata teriminin
standart sapmasına, regresyonun standart hatası adı verilmektedir. Bu tahmin reg-
resyon paket programları tarafından rutin bir çıktı olarak verilmektedir. Bazı paket
programlar su ‟ya ortalama kare hata karekökü olarak atıfta bulunmaktadır.
Bir sonraki bölümde güven aralıkları oluşturmak ve hipotez testleri gerçekleştir-
mek için bk ‟nin standart hatasını, yani bk ‟nın varyansının kare kökünü,

 u2 1
b   (6.98)
n
1  Rk2
x
k
2
ik
i 1

hesaplamamız gerekmektedir.  u bilinmemektedir, onun yerine yansız tahmincisi


ikame edildiğinde bk ‟nin standart hatası

su2 1
sbk   (6.99)
n
1  Rk2
x
i 1
2
ik

olarak bulunur.
bk ‟ların standart hataları ile bağıntılı olarak bir noktanın vurgulanması önemlidir.
Standart hatalar doğrudan OLS tahmincilerinin örnekleme dağılımı varyanslarından,
OLS tahmincilerinin varyansları ise hata terimi varyansından elde edilmektedir. Hata

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:52


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

terimi varyansı homoskedastisiti varsayımı ile doğrudan bağıntılıdır. Dolayısı ile


homoskedastisiti varsayımının geçerli olmadığı durumlarda (6.99) geçerli bir tah-
minci olmayacaktır. Yani homoskedastisiti varsayımının ihlali bk ‟lerde herhangi bir
yana neden olmaz iken, sbk ‟lerin tahiminde yana neden olmakta ve standart hataları
geçersiz hale getirmektedir.

Örnek 6.5
Şimdi artık Tablo 6.1‟deki gıda harcamaları örneğimiz için tahmincilerin standart
hatalarını hesaplayabilir ve bunları yorumlayabiliriz. Tablo 6.1 ve Örnek 6.3‟teki
bazı ara sonuçlar aşağıda tekrarlanmaktadır:
n
n  12 k 3 x
i 1
2
i2  90.4567
n n n

 xi23  6.6667
i 1
 xi 2 xi3  11.6667
i 1
y
i 1
2
i  8.2892

b2  0.067033 b3  0.942692 R2  0.941637


İlk olarak R-kare tanımından hareketle kalıntı kareler toplamı
n n

e
i 1
2
i  (1  R 2 ) yi2  (1  0.941637)(8.2892)  0.483783
i 1

olarak bulunur. Dolayısı ile


n

e 2
i
0.483783
s 
2 i 1
  0.053754
nk 12  3
u

ve regresyonun standart hatası, su , 0.231848 olmaktadır. X 2 ile X 3 arasındaki basit


korelasyonun karesi
2
 n 
  xi 2 xi 3 
(11.6668) 2
rX22 X 3  ni 1 n    0.225711
 x2  x3
2 2 (90.4567)(6.6667)
i 1 i 1

olarak hesaplanır. Artık b2 ve b3 ‟ün tahmin edilen varyanslarını ve ilgili


formüllerden hesaplayabiliriz:
su2 1 0.053754 1
sb22      0.000767
n
1  rX 2 X 3
2
90.4567 1  0.225711
x
i 1
2
i2

Ertaş&Ertaş, Uludağ Üniversitesi 21.12.2011 Bölüm:6 Sayfa:53


Bölüm 6: Çoklu Doğrusal Regresyon Analizi

su2 1 0.053754 1
sb23      0.010441
n
1  rX 2 X 3
2
6.6667 1  0.225711
x
i 1
2
i3

Bunları karekökleri alındığında b2 ve b3 ‟ün standart hataları sb2  0.027703 ve


sb3  0.102047 olarak elde edilir. Buradaki bulgularla Örnek 6.1 ve Örnek
6.3‟dekilerle bir araya getirildiğinde, örnek model için tahmin sonuçları şöyle
olmaktadır:

Yˆ  0.090989  0.067033 X 2  0.942692 X 3 R 2  0.9416 R 2  0.9287


(0.027703) (0.102047)

Örnek olarak alınan bu basit modelde gelir, X 2 , ve hanehalkı fert sayısı, X 3 ,


birlikte gıda maddesine yapılan harcamalardaki değişmelerin yüzde 94‟ünü
açıklamaktadır. b3 ‟ün standart hatası tahminin yaklaşık onda biri kadardır, bu
tahminin güvenilir olduğuna işaret etmektedir. b2 ‟nin standart hatası tahminin
yaklaşık yarısı kadardır, bu b2 tahmininin b3 kadar güvenilir olmadığına işaret
etmektedir, daha sağlıklı bir sonuca ulaşabilmek için muhtemelen güven aralıkları
oluşturmak gerekecektir.

Örnek 6.5

Normallik Varsayımı ve Etkinlik


Gauss-Markov varsayımları (ilk beş varsayım) ile birlikte normallik varsayımı (altıncı)
yapıldığında varsayımlara klasik doğrusal regresyon modeli varsayımları dendiğini ve bu
varsayımların tanımladığı modele klasik doğrusal regresyon modeli adı verildiğini yuka-
rıda belirtmiştik. Klasik doğrusal regresyon modeli varsayımları altında OLS tahmincile-
rinin minimum varyanslı yansız tahminciler, yani yansız tahminciler arasında en küçük
varyansa sahip tahminciler, olduğu gösterilebilir. Bu özelliğe mutlak etkinlik olarak atıf-
ta bulunulmaktadır. Mutlak etkin tahminciler söz konusu olduğunda, tahminciler arasın-
daki karşılaştırmayı Yi cinsinden doğrusal olan tahmincilerle kısıtlamamız gerekmemek-
tedir.

Bölüm 6, 21.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:54


8
OLS TAHMİNCİLERİNİN ASİMPTOTİK
ÖZELLİKLERİ, EN ÇOK OLABİLİRLİK YÖN-
TEMİ, ALMAŞIK SINAMA İSTATİSTİKLERİ
VE NORMALLİK SINAMASI
Birçok halde bir tahmincinin yansız olup olmadığı veya belirli büyüklükteki bir
örneklem için tahmincinin örnekleme dağılımının varyansı veya örnekleme
dağılımının biçimi bilinmemektedir. Bu nedenle, sonlu örneklem özelliklerine
ilaveten tahmincilerin ve test istatistiklerinin asimptotik özelliklerini veya büyük
örneklem özelliklerini bilmek önemlidir. Bu özellikler belirli bir örneklem boyutu
için tanımlanmamıştır. Bunların tanımı örneklem boyutu sınırsız olarak
büyüdüğünde ortaya çıkmaktadır. Asimptotik veya büyük örneklem teorisinde iki
güçlü olasılıksal sonuç Büyük Sayılar Yasası ve Merkezi Limit Teoreminden
yararlanılmaktadır. Yapılan varsayımlar altında OLS tahmincileri tatmin edici
büyük örneklem özelliklerine sahiptir. Özellikle önemli olan bulgulardan biri, OLS
tahmincileri büyük örneklem özelliklerine sahip olduğunda, normallik varsayımı
(A6) geçerli olmasa dahi, t ve F istatistikleri, en azından büyük örneklem
boyutlarında, yanaşık(asimptotik) t ve F dağılımlarına sahip olmasıdır.

En Küçük Kareler Tahmincilerinin Tutarlılığı


Aşağıdaki gibi tanımlanan
Yi  1  2 X i 2  2 X i 3    K X iK i  1, 2, ,n (8.1)

çoklu regresyon modelinin herhangi bir  k parametresinin OLS tahmincisi


bk olsun. Her gözlem sayısı n için bk bir olasılık dağılımına sahip olacaktır; bu ör-
nekleme dağılımları bk ‟nın n boyutlu farklı rastsal örneklemlerdeki olabilir
değerlerini temsil eder. İlk üç varsayım, doğrusallık (A1), tam doğrusal bağıntısızlık
(A2) ve katı dışsallık (A3), altında bk yansız olduğundan bu dağılımların ortalaması
 k dir. bk tahmincisi tutarlı olduğunda, örneklem boyutu arttıkça bk ‟nin dağılımı
 k etrafında gittikçe daralan bir dağılıma sahip olacaktır. n sonsuza gittiğinde,
bk ‟nin dağılımı tek bir  k noktası üzerine yığılacaktır. Sonuç olarak, böyle bir
OLS Tahmincilerinin Asimptotik Özellikleri

durumda, istediğimiz kadar fazla veri toplayarak, tahmincimizi arzu ettiğimiz kadar
 k ‟ye yakın yapabileceğiz demektir. Yakınsaklaşma Şekil 8.1‟de gösterilmektedir.

fbk
n3

n2

n1

bk
k

Şekil 8.1
Doğal olarak, herhangi bir uygulama söz konusu olduğunda, elimizde değişmez
bir örneklem boyutu mevcut olmaktadır. Bu nedenle de tutarlılık gibi yanaşık
(asimptotik) bir özelliğin anlamını kavramak güçleşmektedir. Tutarlık şöyle bir ha-
yali örnekleme sürecini tasavvur etmeyi gerektirir: herhangi bir örneklem boyutu
için çok sayıda rastsal örneklemin elde edilebileceği varsayımı altında örneklem
boyutu arttıkça ne olacaktır? Bu durumda bizi ilgilendiren gittikçe daha fazla veri
elde edildiğinde, tahmincinin kitle parametresine gittikçe daha fazla yakınlaşıp ya-
kınlaşmadığıdır; eğer yakınlaşmıyorsa zayıf bir tahmin yöntemi kullanıyoruz de-
mektir.

Büyük Sayılar Yasası


Büyük sayılar yasası aynı deneyin çok sayıda tekrarlanması sonucunu betimleyen
bir yasadır. Buna göre çok sayıda deneyden elde edilen sonuçların ortalaması deney
sayısı arttıkça birbirine yakın hale gelecektir. Bu yasa tekrarlanan deneylerden elde
edilen örneklem ortalamalarının, yani Y ‟lerin, deney sayısı arttıkça kitle
parametresi E (Y )  Y ‟ye yaklaşacağını söylemektedir. Başka bir ifade ile
örneklem büyüklüğü arttıkça örneklem ortalamalarının kitle parametresi E (Y ) ‟ye
yaklaşma olasılıkları artacaktır.

Bölüm 8, 24.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:2


Ekonometriye Giriş

Büyük sayılar yasası


Y1 , Y2 , , Yn ‟nin aynı dağılıma sahip birbirinden bağımsız rastsal değişkenler oldu-
ğunu, yani i.i.d. olduğunu, ve beklenen değerlerinin E (Yi )  Y olduğunu varsaya-
1
lım. Y  ( i 1 Yi ) örneklem ortalaması olsun. Bu durumda n   iken
n

n

tüm   0 için P Y  Y    1 
p a
Bunu çoğunlukla “ Y  Y ” (veya Y  Y ) şeklinde yazar ve “ Y olasılıkta Y ‟ye
yakınsaklaşır” şeklinde okuruz.

Büyük sayılar yasası


Büyük sayılar yasasını yorumlamak için ufak bir mesafeyi, örneğin   0.001 ‟i, ele
alalım. Yeterince büyük örneklemlerde, dolayısı ile n büyük olduğunda,
örneklemden yapılan tahmin beklentisi Y ile kitle beklentisi  arasındaki
uzaklığın   0.001 ‟den küçük olma olasılığı birime yakındır.

Büyük sayılar yasası ve tutarlılık


Şekil 8.2 n sayıda Bernoulli dağılan bir rastsal değişkenin örneklem ortalaması için
Büyük Sayılar Yasasının nasıl işlediğini örneklendirmektedir.1 Yi değişkeni
ekonometri giriş dersinde ilk hakkında başarılı olan öğrenci için bir değeri, Yi  1 ,
ve başarısız olan için sıfır, Yi  0 , değeri alan bir rastsal değişken olsun. Yi ‟nin 1
değeri alma olasılığının 0.64 olduğunu varsayalım, yani p(Yi  1)  0.64 . Bernoulli
dağılan rastsal değişkenin beklenen değeri başarı olasılığı olduğundan E (Yi )  0.64
ve varyansı var(Yi )  p(1  p)  (0.64)(0.36)  0.2304 olacaktır. Bu halde örneklem
ortalaması, Y , ekonometri dersi örneklem başarı oranını göstermektedir. Sadece
beş öğrencinin, n  5 başarı durumu ele alındığında, bakınız Şekil 8.2(a), Y sadece
altı farklı değer alacaktır: 0, 1/5, 2/5, 3/5, 4/5, ve 1. Bunlar sıra ile altı öğrenciden
hiç birinin ilk hakkında başarılı olmadığı, sadece birinin ilk hakkında başarılı
olduğu ve vs. durumları yansıtmaktadır. Gözlem sayısı arttıkça, yani n  25,50,500
oldukça, Y değişkeni daha çok sayıda farklı değer almakta ve örneklem
dağılımının gittikçe   0.64 üzerine yoğunlaştığı şekilden açıkça görülmektedir.

1
Örnekleme dağılımları her bir örneklem boyutu için deney 10000 rastsal örneklem seçilerek üre-
tilmiştir.

Ertaş&Ertaş, Uludağ Üniversitesi 24.10.2011 Bölüm:8 Sayfa: 3


OLS Tahmincilerinin Asimptotik Özellikleri

Olasılık   0.64 Olasılık   0.64

Y Y
(a) n  5 (b) n  25

Olasılık   0.64 Olasılık   0.64

Y Y
(c) n  5 0 (d) n  500
Şekil 8.2
Beklenen değeri E (Yi )  0.64 olan n sayıda birbirinden bağımsız Bernoulli rast-
sal değişkeni örneklem ortalamasının örnekleme dağılımı (dağılımlar 10000 rast-
sal örneklem kullanılarak üretilmiştir.)

Büyük sayılar yasası ve tutarlılık

Çoklu doğrusal regresyon modelinin ilk üç varsayımı hem yansızlığı ve hem de


tutarlılığı sağlamaktadır. Bunu daha biçimsel olarak şöyle ifade edebiliriz:

Bölüm 8, 24.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:4


Ekonometriye Giriş

Tutarlı tahminci
Doğrusallık, tam doğrusal bağıntısızlık ve katı dışsallık varsayımları altında OLS
tahmincisi bk , k  1,2, , K ,  k ‟nin tutarlı tahmincisidir

Tutarlı tahminci
OLS tahmincilerinin tutarlı olduğunu basit regresyon modeli eğim parametresi
için kolay bir şekilde kanıtlayabiliriz. Daha genel bir kanıt matris cebiri kullanılarak
kolayca verilebilir. Basit doğrusal regresyon modeli Yi     X i  ui için b2 tah-
mincisini ortalamalardan sapmalar cinsinden

 n  n
b    xi yi  x 2
i (8.2)
 i 1  i 1

şeklinde yazabileceğimizi biliyoruz. Ortalamalardan sapmalar cinsinden ifade


edilen basit doğrusal regresyon modeli yi   xi  ui  u ‟yi (8.2)‟de yerine koyar

 n  n
b    xi (  xi  ui  u )  x 2
i
 i 1  i 1

ve pay ve paydayı gözlem sayısı n ile bölersek

 n 
  xi ui  n
b     i n1  (8.3)
 2
  xi  n
 i 1 

 x  0 olduğundan u  i 1 xi terimi kaybolmaktadır. Pay ve


n n
elde edilir, burada i 1 i

paydaya Büyük Sayılar Yasasını uygulayabiliriz; bu halde pay ve payda, sıra ile,
kitle nicelikleri cov( x, u )   Xu ve var( x)   X2 ‟ya olasılıkta yakınsak hale
gelecektir. Varsayıldığı gibi, var( X )  0 olduğu sürece olasılık limitleri özelliklerini
kullanarak şu sonucu elde ederiz:
plim b     Xu /  X2
(8.4)
 çünkü  Xu  0

Bölüm 4‟ten E (ui X)  0 ‟ın X j ve ui ‟nin, i, j  1, , n , korelasyonsuzluğunu ima


ettiğini (ve dolayısıyla bunların sıfır kovaryansa sahip olduğunu) biliyoruz; (8.4)‟ün
çıkarılmasında bu sonuç kullanılmıştır. Teknik bir konu olarak, olasılık limitlerinin

Ertaş&Ertaş, Uludağ Üniversitesi 24.10.2011 Bölüm:8 Sayfa: 5


OLS Tahmincilerinin Asimptotik Özellikleri

mevcut olduğunu garantilemek için  X2   ve  u2   (yani olasılık


dağılımlarının aşırı saçılmıyor) olması gerekmektedir. Eşit yayılım
(homoskedastisiti) varsayımı  u2   ‟u garantilemektedir.

Tutarlı Tahminciler için Dışsallık Varsayımı


Yukarıdaki tartışma ve özellikle (8.4)‟te elde edilen sonuç, basit doğrusal regresyon
modelinde açıklayıcı değişkenlerle hata terimleri arasında sıfır ilgileşim
(korelasyon) olduğunu varsaydığımızda OLS tahmincilerinin tutarlı olacağını
göstermektedir. Bu aynı zamanda çoklu regresyon modeli için de geçerlidir.
Dolayısı ile sadece tutarlı tahminciler ile ilgilendiğimiz durumlar için katı dışsallık
varsayımını yerine

A3**. Dışsallık (sıfır ortalama ve sıfır eşdeğişirlik (kovaryans))

varsayımını ikame edebiliriz. Bu varsayım iki şey söylemektedir:

A3.1**. Hata teriminin koşulsuz beklenen değeri (ortalaması) sıfıra eşittir,


yani E (ui )  0 , i  1,2, , n
A3.2**. Açıklayıcı değişkenlerle, X ik , hata terimi, u j , arasındaki
kovaryans ve dolayısıyla ilgileşim (korelasyon) sıfıra eşittir, yani
cov( X ik , u j )  0 ve corr( X ik , u j )  0 , i, j  1,2, , n k  2, , K

Bölüm 6‟da katı dışsallık varsayımının dışsallık varsayımı A3**‟ı ima ettiğini, fakat
bunun tersinin geçerli olmadığını belirtmiştik. OLS tahmincilerinin daha zayıf bir
varsayım olan A3** altında tutarlı olması ileriki bölümlerde de bize yarar
sağlayacaktır. İlginç olan bir başka nokta, OLS tahmincileri katı dışsallık varsayımı
(A3) altında yansız iken, dışsallık varsayımı (A3**) altında yansız değildir.

OLS Tahminciler Tutarsızlığı


E (ui X)  0 ‟ın geçerli olmaması OLS tahmincilerinin yanlı olmasına neden
olurken, u j ile X ik ‟nın ilgileşimli (korelasyonlu) olması tüm OLS tahmincilerinin
tutarsız olmasına neden olmaktadır. Başka bir ifade ile u j ile X ik ‟nın ilgileşimsiz-
liği (korelasyonsuzluğu) tutarlılığı sağlamasına karşın yansızlığı
garantilememektedir. Bu basit fakat önemli gözlem çoğunlukla şöyle
özetlenmektedir: hata terimi açıklayıcı değişkenlerden herhangi biri ile
korelasyonlu ise OLS tahmincileri yanlı ve tutarsız olacaktır. Bu herhangi bir

Bölüm 8, 24.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:6


Ekonometriye Giriş

yanlılığın örneklem boyutu arttıkça da kalıcı olacağını ima ettiğinden talihsiz bir
durumdur.
Basit doğrusal regresyon modeli Yi     X i  ui durumunda b ‟deki tutarsız-
lık (bazen buna asimptotik yanlılık olarak atıfta bulunulmaktadır) şöyle ifade edilir:
plim b     Xu /  X2 (8.5)

 X2  0 iken, eğer X ve u pozitif olarak korelasyonlu ise b ‟deki tutarsızlık


pozitif, X ve u negatif olarak korelasyonlu ise b ‟deki tutarsızlık negatif olacaktır.
Eğer X ‟nin varyansına (değişirliğine) kıyasla X ve u ‟nun kovaryansı (eş
değişirliği) ufak ise tutarsızlık ihmal edilebilir düzeyde olabilir; u
gözlenemediğinden kovaryansın (eş değişirliğin) ne kadar büyük olduğunu tahmin
etmemiz dahi mümkün değildir.
OLS tahmincilerindeki tutarsızlık ile ilgili önemli bir nokta, tanım gereği, örnek-
leme daha fazla gözlem eklendikçe tutarsızlığın ortadan kalkmamasıdır. Gerçekte
daha fazla veri ile problem daha kötü hale gelmektedir: örneklem büyüklüğü arttık-
ça OLS tahmincisi plim b     Xu /  X2 ‟ye daha yakın hale gelmektedir.
Çoklu regresyon söz konusu olduğunda tahmincilerden her birindeki tutarsızlı-
ğın yönünü ve büyüklüğünü çıkarmak, aynen yanlılık durumunda olduğu gibi, güç-
leşmektedir. Anımsamamız gereken önemli nokta elimizde (8.1)‟deki bir model ol-
duğunda ve bu modelde örneğin X k değişkeni u ile korelasyonlu olduğunda, diğer
değişkenler u ile korelasyonlu olmasa dahi, OLS tahmincilerinin tümünün genel
olarak tutarsız olacağıdır.

Asimptotik Normallik
ve Büyük Örneklem Çıkarımı
Bir tahmincinin tutarlılığı önemli bir özelliktir, fakat tutarlılık tek başına istatistiksel
çıkarıma olanak tanımamaktadır. Örneklem boyutu arttıkça bir tahmincinin kitle
değerine yakınlaşıyor olduğunun bilinmesi parametreler hakkında hipotez testleri
yapmamıza izin vermemektedir. Sınama yapabilmek için OLS tahmincilerinin
örnekleme dağılımına gereksinim duyarız. Varsayım A1‟den Varsayım A6‟ya kadar
uzanan klasik doğrusal regresyon modeli varsayımları altında OLS tahmincilerinin
örnekleme dağılımlarının normal olduğunu gördük. Bu sonucun uygulamalı
ekonometride sık kullanılan t ve F dağılımlarının çıkarılmasında önemli bir rol
oynadığını biliyoruz.
OLS tahmincilerinin normalliği kritik bir şekilde hata teriminin, ui , koşullu da-
ğılımının normalliğine dayanmaktadır. u1 , u2 , , un ‟nin koşullu hataları normal da-
ğılmadığında, bk ‟da normal dağılmayacaktır; buna bağlı olarak t istatistikleri t
dağılımlarına ve F istatistikleri F dağılımına sahip olmayacaktır. Bu potansiyel

Ertaş&Ertaş, Uludağ Üniversitesi 24.10.2011 Bölüm:8 Sayfa: 7


OLS Tahmincilerinin Asimptotik Özellikleri

olarak ciddi bir problemdir, çünkü şimdiye dek yapılan tüm istatistiksel çıkarımla-
rımız t veya F dağılımlarından kritik değerler veya p -değerleri çıkarabiliyor ol-
mamıza dayanmaktadır.
Hatırlarsanız ui ‟lerin koşullu dağılımının normal olması ile X veri iken Yi ‟nin
dağılımının normal olması eşdeğerlidir. Gerçekte bir uygulamada ui değil Yi göz-
lendiğinden, Yi ‟lerin dağılımını normal olup olmadığını tasavvur etmek, ui ‟lerin
dağılımının normal olup olmadığını tasavvur etmekten çok daha kolaydır. Normal
olarak dağılan bir rastsal değişken ortalaması etrafında simetrik olarak dağılmakta-
dır, değişken herhangi bir negatif veya pozitif değeri (sıfır olasılıkla) alabilir, nor-
mal dağılımın altındaki %95‟ten daha fazla alan ortalama etrafındaki iki standart
sapma sınırları içinde kalmaktadır. Gerçekte, gördüğümüz bazı örneklerde Yi kesin
olarak koşullu normal dağılıma sahip değildir.
OLS tahmincilerinin yansızlığında normallik varsayımının hiçbir rol oynamadı-
ğını biliyoruz. Keza Gauss-Markov varsayımları altında OLS tahmincilerinin en iyi
doğrusal yansız olmasında normalliğin hiçbir rolü olmadığını biliyoruz. Sadece t
ve F istatistiklerine dayanan kesin çıkarım normallik varsayımını gerekli kılmak-
tadır. Fakat bu sonuca dayanarak, normallik varsayımı geçerli olmadığında, katsayı-
ların anlamlı olup olmadığını sınamak için t ve F istatistiklerinden vazgeçeceği-
miz gerektiği sonucu çıkarılmamalıdır. Yi ‟ler normal dağılmasa dahi Merkezi Limit
Teoremini kullanarak OLS tahmincilerinin yanaşık (asimptotik) normalliği tatmin
ettiği sonucunu çıkarabiliriz. Burada asimptotik normallik, OLS tahmincileri örnek-
leme dağılımının yeterince büyük örneklemlerde yaklaşık olarak normal olduğu an-
lamına gelmektedir.

Merkezi Limit Teoremi


Örneklem boyutu arttıkça bir tahmincinin kitle değerine yakınlaşıyor olduğunun
bilinmesi parametreler hakkında güven aralıkları oluşturmamıza ve hipotez
sınamaları yapmamıza izin vermemektedir. Bunun için tahmincilerin örnekleme
dağılımına gereksinim duyarız. Büyük Sayılar Yasası büyük örneklemlerde Y ‟nın
Yi ‟lerin ortak beklenen değeri olan E (Yi )  Y ‟ye yaklaşacağını söylemesine
karşın, bunun ne kadar yakın olacağı ve dağılımının nasıl olacağı hakkında hiçbir
şey söylememektedir. Gerçekte n arttıkça, Y ‟nin değişirliği (varyansı) sıfır
üzerine yığılacaktır. Bu durum, yani n   iken dağılımın dejenere olması,
asimptotik dağılımın özelliklerini incelemeyi ve farklı tahmincilerin asimptotik
dağılımlarını karşılaştırmayı zorlaştırmaktadır. Bu nedenle dağılımı
standartlaştırılmış ortalama

Bölüm 8, 24.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:8


Ekonometriye Giriş

Y  Y Y  Y Y  Y n Y  Y 
Z   
var(Y ) Y Y / n Y

cinsinden ele almak uygun olmaktadır. Bu standartlaştırılmış ortalamanın beklenen


değerinin sıfır ve değişirliğinin (varyansının) 1 olduğu bilinmektedir. Merkezi Limit
Teoremi standartlaştırılmış örneklem ortalaması dağılımının yaklaşık olarak
d
standart normal dağılım olarak ele alınabileceğini söylemektedir. Bunu Z N (0,1)
şeklinde yazarız. Keza ortalamanın kendisi de yaklaşık olarak, standart olmayan, bir
d
normal dağılımla temsil edilebilir. Bu da Y  N ( Y ,  2 n) şeklinde ifade
edilmektedir.

Merkezi Limit Teoremi


Y1 , Y2 , , Yn ‟nin aynı dağılıma sahip bağımsız rastsal değişkenler olduğunu, bunların
beklenen değerlerinin E (Yi )  Y , sonlu ve sıfırdan büyük varyanslarının  Y2 oldu-
1
ğunu varsayalım. Y  ( i 1 Yi ) örneklem ortalaması olsun. Bu durumda n  
n

n
iken
Y  Y Y  Y

Y  Y2 n
yaklaşık olarak standart normal dağılım ile iyi bir şekilde temsil edilecektir. Bu du-
d
rumu çoğunlukla “ Y N ( Y ,  Y2 n) ” şeklinde yazar ve “ Y yanaşık (asimptotik)
olarak N ( Y ,  Y2 n) dağılır” şeklinde okuruz.

Merkezi Limit Teoremi


Uygulamada çoğunlukla farklı tahmincilerin asimptotik dağılımlarını
karşılaştırmaya olanak tanımak için Y ‟nın kendi veya standartlaştırılmış örnekleme
dağılımı yerine onun yeniden ölçeklendirilmiş n (Y  ) şeklindeki bir
uyarlamasının örnekleme dağılımı incelenmektedir. Eğer n sonsuza giderken
n (Y  ) tahmincisi dağılımda N (0,  Y2 ) ‟ye yakınsaklaşıyorsa, Y ‟nın
N ( Y ,  / n) tarafından verilen bir asimptotik normal dağılıma sahip olduğu
2
Y

söylenmektedir.

Ertaş&Ertaş, Uludağ Üniversitesi 24.10.2011 Bölüm:8 Sayfa: 9


OLS Tahmincilerinin Asimptotik Özellikleri

Merkezi Limit Teoremi ve Yanaşık (Asimptotik) Normallik


Yukarıda verilen Bernoulli rastsal değişkeni örneğine uygulayarak Merkezi Limit
Teoreminin geçerliliğini kanıtlayabiliriz. Daha önce olduğu gibi Yi değişkeni
ekonometri giriş dersinde ilk hakkında başarılı olan öğrenci için bir değeri, Yi  1 ,
ve başarısız olan için sıfır, Yi  0 , değeri alan bir rastsal değişken olsun. Yi ‟nin 1
değeri alma olasılığının 0.64 olduğunu varsayalım, yani p(Yi  1)  0.64 . Yi ‟nin
beklenen değeri E (Yi )  0.64 ve varyansı var(Yi )  0.2304 tür. Şimdi n sayıda
Yi ‟nin ortalaması olan Y ‟yi

Olasılık   0.64 Olasılık   0.64

(Y  uY ) /  Y (Y  uY ) /  Y
(a) n  5 (b) n  25

Olasılık   0.64 Olasılık   0.64

(Y  uY ) /  Y (Y  uY ) /  Y
(c) n  5 0 (d) n  500
Şekil 8.3: Beklenen değeri 0.64 ve varyansı 0.2304 olan bir Yi rastsal değişkenin n
sayıda birbirinden bağımsız Bernoulli rastsal değişkeni örneklem ortalamasının
standartlaştırılmış değerinin örnekleme dağılımı (dağılımlar 10000 rastsal örnek-

Bölüm 8, 24.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:10


Ekonometriye Giriş

lem kullanılarak üretilmiştir.)


Merkezi Limit Teoremi ve Yanaşık (Asimptotik) Normallik

Y  uY Y  uY Y  uY n Y  uY 
Z   
var(Y ) Y Y / n Y

şeklinde standartlaştıralım. Bu şekilde bulunan standartlaştırılmış Y ‟nın, yani


Z ‟nin ortalaması 0 ve varyansı 1 olacaktır. Merkezi Limit Teoremine göre bu
standartlaştırılmış rastsal değişkenin asimptotik dağılımı standart normal olacaktır.
Şekil 8.3‟te (Y  uY ) /  Y ‟nin dağılımı Şekil 8.2‟deki gözlem sayıları
tekrarlanmıştır.
Şekil 8.3‟ten açıkça görüldüğü gibi standartlaştırılmış Y ‟nin örnekleme dağı-
lımı n  25 iken çan eğrisi biçimini almakta ve n  500 olduğunda gittikçe daha
fazla çan eğrisi biçimine benzemektedir.

OLS Tahmincilerinin Asimptotik Normalliği


Gauss-Markov varsayımları, yani A1‟den A5‟e kadar ki varsayımlar, altında şu
sonuçlar geçerli olmaktadır:
n (bk  k ) N  0, u2 / ak2  n (bk  k ) N  0, u2 / ak2  , burada
a d
(i) veya
 u2 / ak2 ifadesi n (bk  k ) ‟nın asimptotik varyansını göstermektedir;


n
  
eğim katsayıları için ak2  plim   i=1 eik2 / n  , burada eik ‟ler X ik ‟nın
diğer açıklayıcı değişkenler üzerine regresyonundan elde edilen kalıntıları
a d
göstermektedir. yanaşık olarak ve dağılımda yaklaşık olarak
anlamına gelmektedir. Bu durumda kısaca bk ‟nın asimptotik olarak normal
dağıldığını söyleriz.
(ii) su2 tahmincisi  u2  var(ui ) ‟nin tutarlı tahmincisidir.
(iii) Her bir k için
a
(bk  k ) / sbk N (0,1) (8.6)

burada sbk standart sapması, bk tahmincisinin geleneksel OLS standart


hatasıdır.

Ertaş&Ertaş, Uludağ Üniversitesi 24.10.2011 Bölüm:8 Sayfa: 11


OLS Tahmincilerinin Asimptotik Özellikleri

Yanaşık (asimptotik) normalliğin kanıtı bu kitabın kapsamı dışında kalmaktadır.


su2 tahmincisinin  u2  var(ui ) ‟nin tutarlı tahmincisi olma özelliği büyük sayılar ya-
sasından gelmektedir.
Yanaşık (asimptotik) normallik yararlıdır, çünkü bu Varsayım A6‟yı, yani nor-
mallik varsayımını, gereksiz kılmaktadır. Hata teriminin dağılımı üzerindeki tek kı-
sıtlama onun sonlu varyansa sahip olmasıdır. Sıfır koşullu ortalama ve eşit yayılım
(homoskedastisiti) varsayımları yapmaya devam ediyoruz, eşit yayılım
(homoskedastisiti) varsayımı hata terimi dağılımının sonlu varyansa sahip olmasını
garantilemektedir.
Dikkat ederseniz (8.6)‟da, tn  K değil, standart normal dağılım görünmektedir.
Bunun nedeni dağılımın sadece yaklaştırma olmasıdır. Sonlu örneklem varsayımla-
rının geçerli olduğu durumda (8.6)‟daki oranın herhangi bir örneklem boyutu için
kesin dağılımı tn  K dır, fakat yanaşık dağılım olduğunda bu dağılım standart normal
dağılıma yaklaşmaktadır. Pratik açıdan bakıldığında, farkın hiçbir geçerliliği yoktur.
Gerçekte, örneklem büyüklüğü arttıkça tn  K standart normal dağılıma yaklaştığın-
dan herhangi bir sorun olmaksızın
a
(bk  k ) / sbk tn K (8.7)

yazabiliriz.
Denklem (8.7) t testinin ve güven aralığı oluşturmanın klasik doğrusal regres-
yon modeli altında yaptığımız ile tamamen aynı olduğunu söylemektedir.
Örneklem boyutu yeterince büyük olmadığında, eğer ui normal dağılmıyorsa, t
dağılımı t istatistiği dağılımı için iyi bir yaklaşık dağılım olmayacaktır. Ne yazık ki
elimizde yaklaşıklığın iyi olması için örneklem büyüklüğünün ne kadar olması ge-
rektiğini söyleyen genel bir reçete yoktur. Bazı ekonometrisyenler n  30 ‟un yeterli
olduğunu düşünmektedir, fakat bu ui ‟nin tüm mümkün dağılımları için yeterli ol-
mayabilir. ui ‟ni dağılımına bağlı olarak, merkezi limit teoreminin etkisini göstere-
bilmesi için fazla gözlem eklenmesi gerekebilir. İlaveten yaklaşıklığın kalitesi sade-
ce sadece n ‟ye değil fakat serbestlik derecesine, yani n  K ‟ye bağlıdır; modelde
daha fazla açıklayıcı değişken olduğunda, t yaklaşık dağılımı kullanabilmek için
daha büyük örneklem boyutuna gereksinim vardır.
OLS tahmincilerinin yanaşık (asimptotik) normalliği aynı zamanda (sıfır koşullu
ortalama varsayımı ile birlikte) homoskedastisiti varsayımını gerekli kılmaktadır.
Eğer var(Yi X) sabit değil ise, örneklem ne kadar büyük olursa olsun, geleneksel t
istatistikleri ve güven aralıkları geçerli olmayacaktır.
bk ‟nin tahmin edilen varyansının

Bölüm 8, 24.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:12


Ekonometriye Giriş

su2 1 su2 1
var(bk )  sb2k     (8.8)
n
1  Rk ns X 1  Rk2
2 2

x
i 1
2
ik

formülünden elde edildiğini biliyoruz. Şimdi (8.8)‟i asimptotik analiz çerçevesinde


ele alalım. Örneklem boyutu arttıkça su2 olasılıkta sabit  u2 ‟ye yakınsaklaşacaktır.
Buna ilaveten, Rk2 (ve dolaysıyla 1  Rk2 ) sıfır ile bir arasında bir sayıya kesin olarak
yakınsaklaşacaktır. Öte yandan X ik ‟nin örneklem varyansı s X2 k   i 1 xik2 / n dir,
n

dolayısıyla örneklem boyutu arttığında sX2 k ifadesi X k ‟nin kitle varyansı  X2 k ‟ye
yakınsaklaşaktır. Bu gerçekleri bir araya getirdiğimizde örneklem boyutu arttıkça
var(bk ) ‟nin 1/ n oranında sıfıra doğru küçüldüğü anlamına gelmektedir. İşte bu
nedenle büyük örneklem boyutu ile tahmin yapmak daha iyi olmaktadır.
ui normal dağılmadığında, (8.7)‟nin kareköküne bazen asimptotik standart
hata ve t istatistiklerine asimptotik t istatistikleri adı verilmektedir. Bunlar daha
önce gördüğümüz niceliklerle aynı nicelikler olduklarından, bunlara, bazen sadece
büyük örneklem geçerlilikleri olduğunu hatırlayarak, sadece standart hatalar ve t
istatistikleri adıyla atıfta bulunacağız.
Tahmin elden varyansla ilgili yukarıdaki tartışmayı kullanarak

sb j  c j / n (8.9)

yazabiliriz, burada c j pozitif bir sabit sayıdır ve örneklem boyutuna bağlı değildir.
Denklem (8.9) sadece bir yaklaşıklıktır, fakat yararlı bir el yordamı kuralıdır:
standart hataların örneklem boyutunun karekökünün tersine eşit bir oranda
küçülmesi beklenmektedir.

OLS Tahmincilerinin Yanaşık (asimptotik) Etkinliği


Gauss-Markov varsayımları altında, OLS tahmincilerinin en iyi doğrusal yansız
oldukları bilinmektedir. Gauss-Markov varsayımları altında OLS aynı zamanda
belirli bir sınıf tahminci arasında yanaşık (asimptotik) olarak etkindir. Bu sonucu
önce
Yi     X i  ui (8.9)
basit regresyon modeli çerçevesi içinde ele alacağız. Her zaman ki gibi eğim
parametresi  üzerinde yoğunlaşıyoruz. g ( X i ) fonksiyonu X i ‟nin herhangi bir
fonksiyonu olsun; örneğin g ( X i )  X i2 veya g ( X i )  1/ 1  X i  . Dışsallık

Ertaş&Ertaş, Uludağ Üniversitesi 24.10.2011 Bölüm:8 Sayfa: 13


OLS Tahmincilerinin Asimptotik Özellikleri

varsayımı altında ui terimi g ( X i ) ile korelasyonsuz olacaktır. Tüm i gözlemleri


için Z i  g ( X i ) ve zi  Z i  Z tanımlarını yapalım. Bu durumda
n

z y i i
 i 1
n
(8.8)
z x
i 1
i i

tahmincisi, g ( X i ) ve X i korelasyonlu olduğu sürece,  ‟nın tutarlı bir tahmincisi


olacaktır.2 Bunu görmek için yi   xi  (ui  u ) ‟yi (8.8) içinde koyarak  ‟yi
yeniden
n n

 z ( x  u
i i i  u) z u i i /n
 i 1
n
 i 1
n
(8.9)
z x
i 1
i i z xi 1
i i /n

şeklinde yazabiliriz. Şimdi pay ve paydaya büyük sayılar yasasını uyguladığımızda


bunlar sıra ile cov(Z , u )   Zu ve cov(Z , X )   ZX ‟ye olasılıkta yakınsaklaşacaktır.
cov(Z , X )   ZX  0 -- dolayısıyla Z ve X korelasyonlu -- olduğu sürece

plim      Zu /  ZX   (8.10)

çünkü katı dışsallık varsayımı (A3) veya dışsallık varsayımı (A3**) altında  Zu  0
olmaktadır.
 ‟nın asimptotik olarak normal dağıldığını göstermek daha zordur. Daha önce-
ki argümanlara benzer bir argüman kullanarak, n (    ) ‟nın sıfır ortalama ve
  /  asimptotik varyansla asimptotik olarak normal dağıldığı gösterilebilir.
2
u
2
Z
2
ZX

OLS tahmincisinin asimptotik varyansını Z  X yaparak elde edebiliriz; bu halde


 ZX   XX   X2 olur. Dolayısıyla, n (b   ) ‟nin asimptotik varyansı, burada b
tahmincisi OLS tahmincisidir,  u2 X2 / ( X2 )2   u2 /  X2 olmaktadır. Cauchy-
Schwartz eşitsizliği ( ZX )    2 2
Z
2
X olduğunu ima eder; öte yandan bu sonuç
n (b   ) ‟nin asimptotik varyansının n (    ) ‟nin asimptotik varyansından
daha büyük olamayacağını ima eder. Bu şekilde basit doğrusal regresyon durumun-

2
Korelasyon doğrusal bağımlılığı ölçtüğünden g ( X i ) ve X i ‟in korelasyonsuz olma ihtimali ol-
duğunu unutmayınız.

Bölüm 8, 24.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:14


Ekonometriye Giriş

da, Gauss-Markov varsayımları altında, OLS tahmincisinin (8.20) biçimindeki her-


hangi bir tahmincininkinden daha ufak asimptotik varyansa sahip olacağını göster-
miş olduk. (8.20)‟deki tahminci bir araç değişkenleri tahmincisidir.3
Genel durum benzerdir, fakat matematiksel çıkarımı çok daha zordur.

Beklemler Yöntemi (MM) İlkesi


Beklemler (momentler) yöntemi ilkesi aynen en küçük karelere ilkesi gibi birçok
alanda kullanılan bir tahmin ilkesidir ve bilinmeyen kitle parametrelerini tahmin
etmek için kitle beklemlerini örneklem beklemlerine eşitlemeye dayanmaktadır. Bir
rastsal Y değişkeninin m ‟ninci beklemi söz konusu rastsal değişkenin m ‟ninci
kuvvetinin beklenen değeridir:
E (Y m )  m  Y'nin m'ninci beklemi (8.11)
“Beklenen değer” sonsuz sayıda deneysel sonucun bir ortalaması olduğundan
(8.11)‟deki beklenen değer ( n büyüklüğündeki) örneklem benzeri kullanılmak su-
retiyle tutarlı olarak tahmin edilebilir:
E (Y m )  ˆ m  Y'nin m'ninci örneklem beklemi=  i 1Yi m n
n
(8.12)
Örnek olarak ortalaması E(Y )   ve değişirliği (varyansı)
var(Y )   2  E (Y   )2  E (Y 2 )   2 (8.13)
olan bir Y rastsal değişkenini ele alalım. Kitle parametreleri  ve  2 ‟yi, tahmin
etmek için bu iki kitle parametresini örneklem karşıtlarına eşitlememiz gerekir.
Y ‟nin iki kitle ve örneklem beklemleri şöyledir:

Kitle beklemleri Örneklem beklemleri


E (Y )  1   ˆ   i 1Yi n
n

E (Y 2 )   2 ˆ 2   i 1Yi 2 n
n

Birinci beklemden genellikle alt indis düşürüldüğünden, burada da Y ‟nin kitle ve


örneklem ortalamaları  ile gösterilmiştir. Bu iki beklemi, bilinmeyen ortalama ve
değişirlik (varyans) parametreleri için tahminci üretmek için çözebiliriz. İlk olarak
birinci örneklem beklemini birinci kütle beklemine eşitleyerek kütle ortalamasının
bir tahmincisini elde ederiz:
ˆ   i 1Yi n  Y
n
(8.14)

3
Araç değişkenler tahmincilerini ileride detaylı olarak inceleyeceğiz.

Ertaş&Ertaş, Uludağ Üniversitesi 24.10.2011 Bölüm:8 Sayfa: 15


OLS Tahmincilerinin Asimptotik Özellikleri

Daha sonra (8.13)‟te ikinci kitle momenti yerine örneklem karşıtını ve birinci kitle
momenti yerine örneklem karşıtı (8.14)‟ü koyduğumuzda

 Y  Y 
n n n

Y Y
2
i
2
i
2
 nY 2 i
 2  ˆ 2  ˆ 2   Y 2  i 1
i 1
 i 1 (8.15)
n n n
elde edilir. Beklemler yöntemi kitle ortalamasının tahmincisi olarak örneklem orta-
lamasını vermektedir. Y ‟nin değişirliğinin (varyansının) momentler yöntemi tah-
mincisi payda da bilinen (n  1) yerine n içermektedir. Dolayısı ile bildiğimiz yan-
sız kitle değişirlik (varyans) tahmincisinden farklıdır. Fakat büyük örneklemlerde
iki tahminci birbirinden farklı olmayacaktır. Genel olarak, momentler yöntemi tah-
mincileri tutarlıdır ve büyük örneklemlerde doğru parametre değerlerine yakınsak-
laşır, fakat hiçbir anlamda en iyi tahminci değildirler.
Beklem tanımı daha genel durumlarda geçerli olabilecek şekilde genişletilebilir.
Örneğin basit doğrusal regresyon modeli Yi     X i  ui kapsamında katı dışsal-
lık varsayımı sonucu veya dışsallık varsayımı gereği
E (ui )  0  E (Yi     X i )  0 (8.16)
ve
E ( X i ui )  0  E  X i (Yi     X i )  0 (8.17)
olmaktadır. Denklem (8.16) ve (8.17) beklem koşullarıdır. İki kitle beklemi yerine
karşı gelen örneklem beklemleri ikame edildiğinde
1 n
 Yi     X i   0
n i 1
(8.18)
1 n
 X i Yi     X i   0
n i 1
Bu denklemler en küçük kareler normal denklemleri ile eşdeğerlidir ve çözümleri
en küçük kareler tahmincilerini verecektir. Dolaysıyla beklemler yöntemi tahminci-
leri klasik doğrusal regresyon modeli varsayımları altında en iyi doğrusal yansız
olurken, katı dışsallık varsayımı yerine sadece dışsallık varsayımının yapıldığı du-
rumlarda tutarlı olacaktır.

En Çok Olabilirlik İlkesi


En çok olabilirlik (ML) bilinmeyen parametreleri tahmin etmede kullanılan
alternatif ve oldukça genel, bir ilkedir. ML tahmincileri ekonometri ve istatistikte
sık kullanılmaktadır. OLS‟den (ve diğer en küçük kareler tabanlı yöntemlerden)
farklı olarak, ML açıklayıcı değişkenlere koşullu olarak Yi ‟nin dağılımının, sınırlı
sayıdaki bilinmeyen parametreler hariç, bilindiğini varsaymakta ve bu dağılım

Bölüm 8, 24.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:16


Ekonometriye Giriş

bilgisini bilinmeyen parametreleri tahmin etmek için kullanmaktadır. Bu, ortaya


çıkacak dağılım, gözlenen verilere en çok benzeyecek şekilde parametre tahmini
yapılarak gerçekleştirilmektedir.
Bazı uygulamalarda, özellikle dinamik zaman serisi modellerinde, normallik gi-
bi dağılımsal varsayım yaygın olarak yapılmaktadır, çünkü dağılımsal varsayım ge-
rektirmeyen tahmin yöntemleri ya çok karmaşıktır ya da mevcut bulunmamaktadır.
Dağılımsal varsayım doğru olduğunda, diğer bazı zayıf varsayımlar altında, en çok
olabilirlik tahmincisi tutarlı olmakta ve asimptotik olarak normal dağılmaktadır.
Bunun ötesinde, regresyon modellerinde standart olarak yapılan varsayımlar geçerli
olduğunda MLE tahmincileri asimptotik olarak etkin olmaktadır.
Bu kesimde MLE‟nin genel ilkesini ana hatları ile anlatmakta ve daha sonra onu
regresyon problemine uygulamaktadır.

Olabilirlik fonksiyonu
En çok olabilirlik başlangıçta gözlenen değişkenlerin birleşik olasılık dağılımının,
belirli sayıda parametre değerleri hariç bilindiğini varsaymaktadır. Zi rastsal
değişkeni verilerinin f (Zi ; ) olasılık yoğunluk fonksiyonu (pdf) tarafından
yaratıldığını varsayalım. Burada  veri yaratma sürecinin bilinmeyen bir paramet-
residir. Basitlik için bu aşamada bilinmeyen tek bir parametre olduğu varsayılmıştır.
Örneğin Z bir Bernoulli rastsal değişkeni veya normal dağılan bir rastsal değişken
olabilir. Böyle bir olasılık yoğunluk fonksiyonuna sahip Z rastsal değişkeninden n
büyüklüğünde bir rastsal örneklem aldığımızı farz edelim. n sayıdaki gözlemin her
biri bir rastsal değişkenmiş gibi düşünülebilir. Bu n sayıdaki rastsal değişkenin
birleşik olasılık yoğunluk fonksiyonu
g ( Z1 , Z 2 , , Z n ; )   in1 f ( Z i ; ) (8.11)
şeklinde ifade edilebilir, burada  in1 simgesi i  1 ‟den n ‟ye kadar olan çarpıma
işaret etmektedir ve  bilinmeyen tek parametreyi temsil etmektedir; rastsal
örneklem, bilinen dağılım varsayımıyla birlikte, bağımsızlık ima ettiğinden bireysel
pdf‟ler birbiri ile çarpılabilmektedir.
Buradaki problem Z ‟yi üreten sürecin, dağılım biçimi bilinmesine karşın, 
parametresinin bilinmemesidir. Yapılabilecek şey bu sürecin bilinmeyen özelliğini
bir örneklemden çıkarmaktır. Bu açıdan bakıldığında, Zi ‟nin dağılımı ve bir ger-
çekleşme kümesi, i  1,2, , n , bilinmekte, fakat  bilinmemektedir. Bu ayırımı
daha da belirginleştirmek için Zi ve  ‟nın yerlerini (ve dolayısı ile rollerini) tersi-
ne çevirerek yoğunluk fonksiyonunu olabilirlik fonksiyonu olarak
L( ; Z1 , Z 2 , , Z n )   in1 f ( Z i ; ) (8.12)

Ertaş&Ertaş, Uludağ Üniversitesi 24.10.2011 Bölüm:8 Sayfa: 17


OLS Tahmincilerinin Asimptotik Özellikleri

şeklinde yeniden yazabiliriz. En çok olabilirlik ilkesi, örneklem gerçekleşmesini


veri olarak kabul ederek, L() ‟yi, veya bunun bir basit monotonik dönüşümünü,
maksimum yapan  ‟yı, buna  diyelim, seçmektedir. Geleneksel olarak, çarpımlar
biçimindeki ifadelerden oluşan orijinal olabilirlik fonksiyonu, (doğal) logaritması
alınarak, bir logaritmaların toplamı haline dönüştürülmektedir:
( ; Z1 , Z 2 , , Z n )  ln  L( ; Z1 , Z 2 , , Z n )
n (8.13)
  ln  f ( Z i ; ) 
i 1

Bu işlem fonksiyonu, maksimizasyon için daha kolay türev alınabilir bir biçime
dönüştürmektedir. Maksimizasyon için gerek koşul    0 olmasını
gerektirmekte ve bu koşuldan elde edilen denklem en çok olabilirlik tahmincisi 
2
için çözülmektedir.4 Yeter şart  2   0 olmaktadır.

En çok Olabilirlik Tahmini: Basit Regresyon Modeli


En çok olabilirlik ilkesi bir çok değişik soruna uygulanabilen bir genel tahmin
yöntemidir. Bu kesimde en çok olabilirlik yönteminin
Yi     X i  ui
basit doğrusal regresyon modeline nasıl uygulandığını göstereceğiz. Bölüm 4‟te
yaptığımız tüm varsayımları, yani doğrusallık, tam doğrusal bağıntısızlık, katı
dışsallık, eşit yayılım (homoskedastisiti), kendiyle ilgileşimsizlik
(otokorelasyonsuzluk) ve normallik varsayımları burada da yapmaya devam
ediyoruz. Bu varsayımlar altında ui x N (0,  u2 ) , E (Yi x)     X i ve
f (Yi x) N (   X i , u2 ) olduğu bilinmektedir, burada x   X 1 , X 2 , , Xn  .
Başka bir ifade ile i  1, , n için X i ‟lerin sabitlermiş gibi ele alındığında, bireysel
Yi ‟lerin koşullu olasılık dağılımı f (Yi x) ,    X ortalamalı ve  u2 varyanslı tek
değişkenli bir normal dağılım olmaktadır. Bu şekilde bireysel gözlemler için pdf
 1 [Yi  E (Yi x )]2 
 
1  2  u2 
f (Yi x)  e
2 u2

4 En çok olabilirlik çözümünde, türevin sabit kitle parametresine göre değil de değişken olan
tahminciye göre alındığına dikkati çekmek için kısmi türevler   şeklinde değil de  
şeklinde gösterilmiştir. Bu en çoklama (maksimizasyon) probleminde değişken olan  para-
metresi değil  tahmincisidir.

Bölüm 8, 24.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:18


Ekonometriye Giriş

olarak yazılabilir. Alternatif olarak, olasılımı dağılımı, daha kolay bir gösterimle

 1 Y  E (Y x)  2 
  
exp  
1
f (Yi x) 
i i

2 u
2
 2 u 2


şeklinde ifade edilebilir. E (Yi x) açık yazıldığında bireysel gözlemler için


yoğunluk fonksiyonu

 1 Yi     X i  
 2
1 
f (Yi x)  exp   (8.14)
2 u
2


2  2
u 

olmaktadır. Normallik ile birlikte katı dışsallık bağımsızlığı ima ettiğinden, birleşik
olasılık yoğunluk fonksiyonu bireysel olasılık yoğunluk fonksiyonlarının, yani
pdf‟lerin, çarpımına eşit olacaktır. Dolayısı ile n sayıda gözlem için birleşik
olasılık yoğunluk fonksiyonu

 1 Yi     X i  
 2
1 
i 1 f (Yi x; ,  , u2 )  i 1
n n
exp   (8.15)
2 u
2


2  2
u 

olacaktır. Birleşik olasılık yoğunluk fonksiyonunun regresyon parametreleri  , 
ve  u2 ‟nin bir fonksiyonu olduğunu vurgulamak için bu parametreler açık olarak
koşullu olasılık fonksiyonu içine katılmıştır.
Şimdi  ,  ve  u2 parametrelerini bilinmeyenler olarak ele alarak, hangi  ve
 değerlerinin, X i ‟ler veri iken Yi örneklemini en çok olabilir yaptığını bulmaya
çalışacağız. Örneklem Yi gözlemlerini rastsal değişkenler olarak alarak olabilirlik
fonksiyonu

L( ,  ,  u2 ; Yi x)   i 1 f (Yi x; ,  ,  u2 )


n

 1 Yi     X i  
 2
1  (8.16)
  i 1
n
exp  
2 u
2
 2

u2

şeklinde ifade edebiliriz. Dikkat ederseniz  2 u2  bir sabittir ve n defa kendisi
1
2

ile çarpılmaktadır, keza exp(ui )exp(u j )  exp(ui  u j ) , burada ui  Yi     X i .


Bu bilgileri dikkate alarak (8.16)‟yı yeniden

Ertaş&Ertaş, Uludağ Üniversitesi 24.10.2011 Bölüm:8 Sayfa: 19


OLS Tahmincilerinin Asimptotik Özellikleri

  i 1 Yi     X i  
 n 2
1 
L( ,  ,  ; Yi x) 
2
exp   (8.17)
 2  2 u
u n 2
2
u
2

 

şeklinde ifade edebiliriz.
Olabilirlik fonksiyonunun, yani L(.) ‟nin, değişken olarak ele alınan,   ve
 u2 ‟ya göre diferansiyeli alındığında ve maksimumu veren değerler için çözüm ya-
pıldığında  ,  ve  u2 ile gösterilen en çok olabilirlik tahmincileri elde edilir. Pra-
tikte olabilirlik fonksiyonunun doğrudan maksimumunu bulmak yerine onun

( ,  ,  u2 ; Yi x)   i 1 f (Yi x; ,  ,  u2 )
n

n n 1 (8.18)
  ln 2  ln  u2  2  Y     X 
n 2

2 u i 1 i i
2 2
şeklinde ifade edilen doğal logaritmasının maksimumunu bulmak daha kolaydır.
‟nin  ,  ve  u2 ‟ye göre maksimizasyonu için gerekli birinci derece koşullar
şöyledir:
 (2) n
  2  Yi     X i   0 (8.19a)
 2 u i 1

 (2) n
  2  X i Yi     X i   0 (8.19b)
 2 u i 1

 n 1 n

 u
2
 2 
2 u 2 u4
 Y     X   0
i 1
i i (8.19c)

İlk iki koşul, 1 /  u2 sabiti dışında, kalıntı kareler toplamı minimizasyonundan elde
edilen normal denklemlerle aynıdır, bunun için (8.19a) ve (8.19b)‟den elde edilen
 ve  en çok olabilirlik tahminci çözümleri sırasıyla olağan en küçük kareler
tahmincileri a ve b ile aynıdır. ui  Yi     X i tanımını yaparsak, son
denklemin çözümünden,  u2 ‟nin en çok olabilirlik tahmincisi
n

u i
2

 u2  i 1
(8.20)
n
olarak bulunur. Bunun

Bölüm 8, 24.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:20


Ekonometriye Giriş

e 2
i
su2  i 1

nK

şeklinde ifade edilen olağan en küçük kareler tahmincisinden farklı olduğu


görülmektedir. su2 ‟nin yansız bir tahminci olduğu bilinmektedir, dolayısı ile küçük
(sonlu) örneklemlerde ML tahmincisi  u2 yanlı olacaktır. Asimptotik olarak
(n  K ) n ifadesi 1‟e yaklaştığından yan ortadan kalkacaktır. Başka bir ifade ile
ML tahmincisi  u2 tutarlı bir tahmincidir; dolayısı ile serbestlik derecesi düzeltmesi
sadece küçük örneklem özellikleri açısından önemlidir. En çok olabilirlik
tahmincileri  ve  ‟nin değişirlikleri (varyansları), su2 yerine  u2 kullanımı hariç,
a ve b ‟nin varyanslarının OLS tahmincileri ile aynı olacaktır.
Burada ele alınan örnekte  ve  ‟nın ML tahmincileri OLS tahmincileri ile
aynı çıkmıştır. Bunu sonucu olarak en çok olabilirlik tahmincileri OLS tahmincileri
ile aynı küçük (sonlu) örneklem özelliklerine sahiptir. Fakat  u2 ‟nin ML tahminci-
sinin, yani  u2 ‟nin yansız OLS tahmincisi su2 ‟den farklı olması bu bulgunun genel
bir sonuç olmadığına işaret etmektedir. Küçük (sonlu) örneklemlerde OLS tahmin-
cisi ML tahmincisinden daha iyi özelliklere sahiptir. Birçok geçerli durumda, ML
tahmincisinin yansız olduğu gösterilemez ve ML tahmincinin küçük örneklem özel-
likleri bilinmemektedir. Yapılan varsayımlar altında, en çok olabilirlik tahmincileri
tutarlı ve asimptotik olarak etkin olduklarından ve asimptotik olarak normal dağıl-
dıklarından, en çok olabilirlik tahmincilerinin genel olarak sadece asimptotik özel-
likler açısından savunulabileceği anlamına gelmektedir. Buna ilaveten, birçok du-
rumda ML tahmincisini, burada verilen örnekte olduğu gibi, analitik olarak çözmek
mümkün olmayabilmektedir.
Yukarıda örnek olarak verdiğimiz basit doğrusal regresyon modelinde hata te-
rimleri normal dağılmadığında veya farklı yayılımlı (heteroskedastik) olduğunda,
(8.17)‟deki olabilirlik fonksiyonu ve (8.18)‟deki logaritmik olabilirlik fonksiyonu,
yani X i veri iken Yi ‟nin olasılık dağılımına karşı gelen, doğru olabilirlik fonksi-
yonları değildir. Böyle bir durumda, yani hata terimleri normal dağılmadığında ve-
ya farklı yayılımlı olduğunda, (8.18)‟deki doğru olmayan en çok olabilirlik fonksi-
yonunu maksimum yaparak elde edilen tahminci, katı anlamıyla en çok olabilirlik
tahmincisi olmayacaktır ve bu şekilde elde edilen bir tahmincinin iyi özelliklere sa-
hip olacağına dair elimizde bir garanti de yoktur. Fakat, belirli bazı özel durumlar-
da, doğru olmayan en çok olabilirlik fonksiyonu maksimum yapılarak yine tutarlılık
özelliği sağlanabilir. Bu şekilde elde edilen tahminciye çoğunlukla sözde-ML tah-
mincisi adı verilmektedir.

Ertaş&Ertaş, Uludağ Üniversitesi 24.10.2011 Bölüm:8 Sayfa: 21


OLS Tahmincilerinin Asimptotik Özellikleri

Almaşık Sınama İlkeleri ve


En Çok Olabilirlik Temelli Sınamalar
Şimdiye dek gördüğümüz önsav (hipotez) sınamaları t ve F istatistiklerini temel al-
maktaydı. Klasik önsav (hipotez) sınaması yaklaşımın temelleri Neyman ve Pearson ta-
rafından atılmıştır. Bu yaklaşım kitleyi (örneklem uzayını) iki bölgeye ayırmaktadır.
Bunlardan biri, verilerin sıfır hipotezi ile uyumlu olduğu kabul bölgesi (daha doğrusu sı-
fır hipotezini ret etmeme) bölgesidir. Diğeri ise, kritik bölge olarak bilinen, sıfır hipote-
zini ret bölgesidir. İyi bir test yordamının özü belirli bir anlamda en iyi (optimal) olan
kritik bölge seçimine dayanmaktadır. Test yordamı iki tür hatayı göz önüne almaktadır.
Birincisi Tip I hata, doğru olduğu halde ret edilen boş hipotezden kaynaklanan hatadır.
İkinci hata, Tip II kata, sıfır hipotezi yanlış olarak kabul edildiğinde ortaya çıkmaktadır.
Tip II hata ancak belirli bir almaşık hipoteze karşı belirlenmektedir. Diğer şeylerin eşit
olmasını sağlamak için Tip I hatanın (en çok) olabilirliği sabit tutulur. Buna anlamlılık
düzeyi veya sınamanın boyutu denmektedir. Sınama almaşık hipoteze ilişkin tüm para-
metre değerlerinde Tip II hata yapma olasılığını en küçüklediğinde sınamanın en iyi
(optimal olduğu kabul edilmektedir.
t ve F istatistiklerini temel alan klasik önsav (hipotez) sınamaları dışında, en
çok olabilirlik yöntemini temel alan üç tür sınama vardır. Bunlar olabilirlik oranı
(LR), Wald (W) ve Lagrange çoğaltan (LM) sınamalarıdır. Olabilirlik oranı sına-
ması hem sıfır önsav (hipotez) ve hem de almaşık önsav (hipotez) altındaki modelin
ayrı ayrı tahminini gerektirmektedir. Hem H 0 sıfır önsavı (hipotezi) ve hem de H 1
almaşık hipotezi altında ayrı ayrı tahmin yapmaya olabilirlik oranı ilkesi adı veril-
mektedir. Wald sınaması, t sınamasında olduğu gibi, sadece almaşık hipotez H 1
altında tahmin yapma anlamına gelen Wald ilkesini temel almaktadır. Lagrange ço-
ğaltan sınaması sadece H 0 önsavı altında tahmin yapma anlamına gelen Lagrange
çoğaltanı ilkesine dayanmaktadır. Lagrange çoğaltan ilkesi özellikle H 1 önsavı al-
tındaki modelin tahmin için karmaşık bir model olması durumunda uygun bir ilke
olmaktadır. İleride serisel korelasyon problemini incelerken göreceğimiz gibi, hata
teriminin ut   t  1 t 1 şeklinde birinci derece hareketli ortalama biçiminde oldu-
ğunu, burada  t ‟nin saf rastsal (yanaşık olarak) normal dağılan değişken olduğu
varsayılmaktadır. Sıfır ve almaşık hipotezlerin H 0 : 1  0 ve H1 : 1  0 şeklinde
olduğunu farz edelim. Bu halde modeli sıfır hipotezi altında tahmin etmek çok daha
kolaydır, çünkü 1  0 olduğunda standart bağlanım (regresyon) yapmak mümkün-
dür. H 0 ‟ın ret edilmesi durumunda H 1 altında tahmin yapmak gerekse de, H 0 ret
edilmediğinde lagrange çoğaltanı yordamı ekonomik bir yordam olmaktadır.
Bu kesimde en çok olabilirlik yöntemine dayanılarak geliştirilen olabilirlik oranı
(LR), Lagrange çoğaltan (LM) ve Wald (W) sınamalarını çoklu regresyon modeli
bağlamında karşılaştırmalı olarak ele alacağız.

Bölüm 8, 24.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:22


Ekonometriye Giriş

Olabilirlik Oranı (LR) Sınaması5


Olabilirlik oranı sınaması t -sınaması ve F -sınamasından daha karmaşık olmasına
karşın, çok doğrusal regresyon modeli dışında çok çeşitli alanlara uygulanabilir
olması nedeniyle büyük bir avantaja sahiptir. F -sınaması sadece regresyon
katsayılarını içeren sınamalarda yararlıdır. Olabilirlik oranı sınaması herhangi bir
modele uygulanabilir.6 Bu kesimde olabilirlik oranı sınamasını sadece çoklu
regresyon modeli çerçevesinde ele alacağız.
Bir önceki kesimde basit doğrusal regresyon modeli için olabilirlik fonksiyonu-
nu bulmuştuk. Şimdi bunu çoklu regresyon modeline genişletilebiliriz:
L( 1 ,  2 ,  K ,  u2 ; Yi X)
1  1 Yi  1   2 X i 2    K X iK  
2

  i 1
n
exp   (8.21)
2 u2  2  u2 

1   n Yi  1   2 X i 2    K X iK  
2

 exp  i 1 
 2  2 u2
n

 
2 2
u

Bir önceki kesimde yaptığımız gibi çoklu regresyon durumunda da regresyon


katsayıları için en çok olabilirlik (ML) tahmincilerinin olağan en küçük kareler
(OLS) tahmincileri ile aynı olduğu gösterilebilir. Olabilirlik fonksiyonunun
logaritmasını en çok yaparak elde edilen en çok olabilirlik tahmincilerini
1 ,  2 , ,  K ile simgeleyelim.  u2 ‟nin en çok olabilirlik tahmincisinin, daha önce
olduğu gibi,
n

 
n
i 1
Yi  1   2 X i 2    K X iK 
2
u i
2

 2
  i 1
(8.22)
n n
formülünden elde edildiğini varsayalım. Şimdi kısıtlı model ve kısıtsız model
arasında ayrım yapmaya olanak tanımak içim, kısıtsız model log-olabilirlik
işlevinin en çoklanan değerini, „UR‟ üst indisleri kullanarak,

5
LR ilkesi ve sınaması 1928 yılında Jerzy Newman ve E.S. Pearson tarafından,
6
Olabilirlik oranı sınaması, H 0 :  2  32 ,  4  1 3 veya, genel olarak,
H 0 : g ( 2 , ,  K )  0 gibi, doğrusal olmayan hipotezlerle de kullanılabilmektedir, burada
g () doğrusal olmayan kısıt fonksiyonların kümesidir. Bununla birlikte, katsayılar üzerine ko-
nan kısıtlar doğrusal olmadığında, kısıtlı model artık doğrusal bir model değildir. Bu kitapta,
doğrusal olmayan regresyon modellerinin tahmini için kullanılan teknikler sadece yüzeysel ola-
rak ele alınacaktır. (Bununla birlikte, birçok ekonometri paket programı hiçbir zorlukla karşı-
laşmaksızın doğrusal olamayan regresyon parametrelerini tahmin etmenize izin vermektedir.)

Ertaş&Ertaş, Uludağ Üniversitesi 24.10.2011 Bölüm:8 Sayfa: 23


OLS Tahmincilerinin Asimptotik Özellikleri

maks ( 1UR ,  2UR , ,  KUR ,  u2,UR ) (8.23)


şeklinde simgeleyelim. Sınanmakta olan hipotezin regresyon katsayıları üzerine
örneğin H 0 : 2    K  0 veya H 0 :  2  0 , 3   4  1 şeklinde kısıtlar
konduğunu varsayalım. Kısıtlı model log-olabilirlik işlevinin en çok değerini, „R‟
üst indisleri kullanarak,
maks ( 1R ,  2R , ,  KR ,  u2 R ) (8.24)
şeklinde ifade edelim. Olabilirlik oranı şöyle tanımlanmaktadır:
maks ( 1R ,  2R , ,  KR ,  u2, R )
 (8.28)
maks ( 1UR ,  2UR , ,  KUR ,  u2,UR )

Hatırlarsanız herhangi bir hipotez sınaması için genel strateji H 0 ‟ın geçerli
olduğunu varsayarak bir sınama istatistiği seçmek ve onun dağılımını çıkarmaktır.
Bu dağılım doğrudan sınama için kritik değerleri (veya p -değerlerini) elde etmek
için kullanılmaktadır. Olabilirlik oranı (LR) sınama istatistiği

LR  2log   2  ( 1R , 2R , ,  KR ,  u2, R )  ( 1U , 2U , ,  KU ,  u2,U )  (8.29)

şeklinde tanımlanmaktadır. Büyük örneklemler için bu sınama istatistiği kısıt sayısı


kadar, q diyelim, serbestlik derecesi ile bir ki-kare dağılımına sahiptir, yani
d
LR q2 .7 Olabilirlik oranı sınaması kısıtlama konduğunda ortaya çıkan logaritmik
olabilirlik kaybını temel almaktadır.
Modeli kısıtlayan bir hipotezin sınandığı her durumda 2ln  ilginç bir şekilde
yaklaşık olarak ki-kare dağılmaktadır. Bunun için olabilirlik oranı sınaması her sınıf
modelle kullanılabilen çok genel bir sınama yaklaşımdır. Bu kitapta 2ln  ‟nin
yaklaşık ki-kare dağıldığını kanıtlamayacağız. Olabilirlik oranı sınaması ardında ya-
tan temel fikir, daha önce de belirttiğimiz gibi, kısıtın logaritmik olabilirlik kaybına
neden olmasıdır. Matematiksel olarak, tüm katsayılar üzerine arama yapmada ser-
best olduğunuz durumda, kısıt yükleyerek sınırlandırıldığınız duruma kıyasla, her
zaman daha yüksek bir maksimum bulunur. Bu nedenle her zaman için
( 1R ,  2R , ,  KR ,  u2 R )  ( 1U ,  2U , ,  KU ,  u2U ) ve dolayısı ile 0    1 olmaktadır.
Bununla birlikte H 0 doğru ve kısıtlamalar geçerli olduğunda,  ‟nın değeri 1‟e çok
yakın olacaktır (ve sınama istatistiği, 2ln  , küçülecektir). Öte yandan kısıtlar
doğru olmadığında, onları yüklenmesi olabilirlik oranından çok büyük bir azalmaya

7
Bu dağılım ancak örneklem büyüklüğü sonsuz olduğunda tam olarak geçerlidir. Bu nedenle da-
ğılımın yaklaşık olarak ki-kare olduğu söylenmektedir.

Bölüm 8, 24.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:24


Ekonometriye Giriş

neden olacak ve  küçülecek (ve sınama istatistiği, 2ln  , büyüyecektir). Her


türlü sınama istatistiğinde olduğu gibi, sınama istatistiğinin „büyük‟ olduğuna ve bu
şekilde H 0 ‟ın ret edilmesi gerektiğine karar vermede kritik değer kullanılmalıdır.
Bu halde kritik değerler ki-kare tablosundan alınacaktır.
LR sınamasının tek bir  parametresi için kullanımının grafiksel gösterimi Şe-
kil 8.4‟te sunulmuştur. Boş hipotezin H 0 :   0 olduğu varsayılmaktadır. Kısıtsız
olabilirlik fonksiyonundan elde edilen en çok olabilirlik tahmincisi  U için log-
olabilirlik değeri ( U ) ile kısıtlı tahminci  R  0 için olabilirlik fonksiyonu değe-
ri ( R ) arasındaki düşey mesafe çok büyük olduğunda sıfır hipotezi ret edilecek-
tir.

( U )

( R )


R 0 U

Şekil 8.4 Olabilirlik Oranı Sınaması


Log-olabilirlik kaybı, ( )  ( ) , çok büyük ise kısıtlama
U R

koyan H 0 :   0 önsavı ret edilir.

Örnek 8.1
Basit doğrusal regresyon modeli Yi     X i  ui modelinin olağan en küçük
kareler tahmini Yˆi  a  bX i ‟yi, bu aynı zamanda en çok olabilirlik tahmini
olmaktadır, dikkate alarak   0 hipotezini sınamak istediğimizi farz edelim log-
olabilirlik fonksiyonunda,  ve  yerine en çok olabilirlik tahmincileri (bunlar
aynı zamanda en küçük kareler tahmicileridir) a   ve b   ikame edildiğinde

Ertaş&Ertaş, Uludağ Üniversitesi 24.10.2011 Bölüm:8 Sayfa: 25


OLS Tahmincilerinin Asimptotik Özellikleri

n
n n 1
( ,  ,  2 ; Yi X i )   log 2  log  2 
2 2 2 2
 (Y  a  bX )
i 1
i i
2
(8.30)

veya
n
n n 1
( ,  ,  2 ; Yi X i )   log 2  log  2 
2 2 2 2
e
i 1
2
i (8.30*)

şeklinde yazılabilir. (8.30)‟da  2 yerine onun en çok olabilirlik tahmincisi ikame


edildiğinde olabilirlik fonksiyonunu en çok yapan değer

n n
maks2   log  2   log
 e2 n

 ,  , 2 2 n 2 (8.31)
n n n
  log  2   log  e  log n 
2

2 2 2
olarak bulunur. Bu ifade  ,  ve  için ML yöntemini kullanarak sınama
yapmada bize yararlı olacaktır. Örneklem büyüklüğü değişmediğinden bu ifadeyi
daha kısa olarak
n n
maks2   log  2   log  e 2 (8.32)
 ,  , 2 2
veya
n

e 
n
2 2
maks2   2 

2 (8.33)
 ,  ,

şeklinde yazabiliriz. Dolayısı ile log-olabilirlik fonksiyonunun kısıtlı (R) ve kısıtsız


(U) maksimumu
n

  ei2, R 
n 
   2 

maks R
2 2

 e 
n 
   2 
 2
maks U
2
i ,U
2

olmaktadır. Buradan 
n

  ei2, R  2
    (8.34)
  ei ,U
2

olarak bulunur. LR sınaması için gerekli istatistik

Bölüm 8, 24.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:26


Ekonometriye Giriş

2log   n  log  ei2, R  log  ei2,U  (8.35)

olmaktadır. Bu istatistik kısıt sayısı kadar serbestlik derecesi ile bir  2 dağılımına
sahiptir. Basit doğrusal regresyon modeli açısından karmaşık gibi görünen bu test
ile H 0 :   0 hipotezi kolaylıkla sınanabilir. Bu durumda kısıtlı ve kısıtsız pay ve
payda değerleri şöyle olacaktır:

e 2
i,R   yi2
(8.36)
e 2
i ,U   yi2   yˆi2   yi2 1  R 2 

dolayısı ile
n

 1  2
  2 
1 R 
olacaktır; buradan LR sınama istatistiği

2log   n log 1 / 1  R2  (8.37)

Bu istatistik 1 serbestlik derecesi ile bir  2 dağılımına sahiptir. Kuşkusuz, basit


doğrusal regresyon modelinde t istatistiğine dayanan sınama mevcut iken bu
sınamayı kullanmamıza gerek yoktur. Fakat LR testi çok geniş bir kullanım alanına
sahiptir, özellikle küçük örneklem sımalarının yapılamadığı doğrusal olmayan
modellerde ve doğrusal olmayan kısıtların söz konusu olduğu durumlarda yaygın
olarak kullanılmaktadır.

Örnek 8.1

Wald Sınaması
Wald istatistiğini katsayılar üzerine konan tek bir kısıtlamanın,
H 0 : g ( 1 ,  2 , ,  K )  c , mevcut olduğu bir çoklu regresyon modeli için
örneklendireceğiz. Burada g () herhangi bir fonksiyon, örneğin
g ( 1U ,  2U , ,  KU )   2U  3U ve c herhangi bir sabittir. Sınamanın birden fazla
kısıtlamaya genişletilmesi kavramsal olarak benzerdir, fakat matematiksel olarak
daha zordur. Kısıtsız regresyon modelinin en çok olabilirlik tahminlerinin 1U ,
 2U , ,  KU olduğunu varsayalım. H 0 doğru olduğunda, tahminlerin kısıtı tatmin
etmeye yakın olması gerekir. Yani, g ( 1U ,  2U , ,  KU ) ‟nin c ‟den çok farklı

Ertaş&Ertaş, Uludağ Üniversitesi 24.10.2011 Bölüm:8 Sayfa: 27


OLS Tahmincilerinin Asimptotik Özellikleri

olmaması gerekir. Wald istatistiği g ( 1U ,  2U , ,  KU )  c ‟nin küçük olup olmadığını


sınamaya dayanmaktadır. Küçük olma fikri „tahmincinin göreli güvensizliği‟
dikkate alınarak biçimselleştirilmektedir. Wald sınama istatistiği tahmincinin
güvensizliğini varyansı ile ölçmekte ve istatistik
2
 g ( 1U ,  2U , ,  KU )  c 
W (8.40)
var  g ( 1U ,  2U , ,  KU ) 

şeklinde tanımlanmaktadır. W istatistiğinin payının nasıl hesaplanabileceğini


yukarıda açıkladık. Paydanın hesaplanması biraz daha güçtür,
var  g ( 1 , 2 , ,  K )  ifadesi g ( 1 ,  2 , ,  K ) ‟nin varyansını (veya onun bir
U U U U U U

tahminini) göstermektedir. Basit durumlarda bu kolay bir şekilde tahmin edilebilir.


Örneğin g ( 1U ,  2U , ,  KU )   2U  3U olduğunu farz edelim. Varyans işlemcisinin
(işlecinin) özelliklerini kullanarak
var(  2U  3U )  var  2U  var 3U  2cov( 2U , 3U )

yazabiliriz. OLS tahminlerinin varyansları ve kovaryansları ekonometri paket


programları tarafından rutin olarak hesaplanmaktadır, dolayısı ile bunlar kolaylıkla
elde edilebilir. İki açıklayıcı değişkenli regresyon modelinde var  2U ve var  3U için
formülleri daha önce çıkarmıştık. Bununla birlikte kısıtlamalar katsayıların doğrusal
fonksiyonu olmadığında var  g ( 1U , 2U , ,  KU )  ‟nin elde edilmesi daha karmaşık
istatistiksel yöntemleri içermektedir. Birçok ekonometri paket programı bu
hesapları sizin için gerçekleştirecektir.
Herhangi bir sınama istatistiği gibi Wald istatsitiğinin dağılımını H 0 doğruymuş
gibi varsayarak çıkarmamız gerekir. Bu dağılım daha sonra sınama için kritik de-
ğerler (veya p -değerleri) elde etmek için kullanılır. Olabilirlik oranı sınamasında
olduğu gibi,bu test istatistiğinin dağılımı yaklaşık (yani yanaşık) olarak ki-karedir:
W q2 (8.41)

Burada q boş hipotez altında konulan kısıt sayısıdır (burada verdiğimiz örnekte
q  1 dir.)
Tek bir parametre  ve bu parametre üzerine sıfır hipotezi ile konan H 0 :   0
kısıtı için Wald sınaması iki farklı log-olabilirlik fonksiyonu için grafiksel olarak
Şekil 8.4‟te gösterilmiştir. Tahmin edilen parametre ile kısıt arasındaki fark, yani
( U  0) , ne kadar büyük ise sıfır hipotezi aleyhine delil o kadar güçlü demektir.
Bu fark log-olabilirlik fonksiyonun kısıtlı ve kısıtsız durumda alacağı değer farkı,

Bölüm 8, 24.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:28


Ekonometriye Giriş

 1 ( U )  1 (  0)  veya  2 ( U )  2 (  0)  ile ilişkilidir. Sadece kısıtsız mo-


del tahmin edildiğinden, Wald sınaması değişik olabilirlik fonksiyonları için bu far-
kı değerlendirmektedir. Dikkat ederseniz log-olabilirlik fonksiyonunun bükümü,
yani d 2 1 / d U ,2 veya d 2 2 / d U ,2 , ne kadar fazla ise olabilirlik fonksiyonun kı-
sıtlı ve kısız durum arasındaki değer farkı o kadar büyük olacaktır. Verilen örnekte
 1 ( U )  1 (  0)    2 ( U )  2 (  0)  olduğu görülmektedir.
1

1 ( U )  2 ( U )

1 (  0) 1

2 (  0)

 0 U

Şekil 8.4 Wald Sınaması


Tahmin edilen parametre sıfır hipotezindeki kısıttan çok uzakta
ise, yani yatay uzaklık (  0) çok büyükse, kısıt ret edilmek-
U

tedir. Bu durumun log-olabilirlik kaybının çok yüksek olduğuna


işaret ettiği kabul edilmektedir. Log-olabilirlik fonksiyonunun bü-
kümü ne kadar fazla ise log olabilirlik kaybı o kadar fazla olacak-
tır, yani  1 ( )  (  0)    2 ( U )  (  0)  .
U
1 2

Lagrange Çoğaltan Sınaması


Lagrange çoğaltan, diğer adıyla puan (skor), sınamasını kısıtsız modelin tek 
katsayılı bir basit regresyon modeli ve kısıtlı modelin H 0 :   c olarak
tanımlandığı durum için örneklendireceğiz, burada c sabit bir sayıdır. Lagrange
çoğaltan sınaması sadece kısıtlı modelin tahminini içermektedir. Burada, bu çok
basit bir şekilde kısıtlı model parametre tahminini kısıta eşit , yani  R  c ,
yapılarak gerçekleştirilmektedir. Sınama ardında yatan mantık şöyle açıklanabilir:
H 0 doğru olduğunda, kısıtlı en çok olabilirlik tahmini kısıtsız en çok olabilirlik
tahmininden çok uzakta olmayacaktır, yani  R tahmini c ‟ye yakın olacaktır. Öte
yandan, matematik bize olabilirlik fonksiyonunun maksimumunda fonksiyonun

Ertaş&Ertaş, Uludağ Üniversitesi 24.10.2011 Bölüm:8 Sayfa: 29


OLS Tahmincilerinin Asimptotik Özellikleri

birinci türevinin (yani eğiminin) sıfır olduğunu söylemektedir. Dolayısı ile, H 0


doğru olduğunda,  R  c ‟de değerlendirilen olabilirlik fonksiyonu eğimi sıfıra
yakın olmalıdır.
Lagrange çoğaltan istatistiği şu şekilde ifade edilmektedir:
d ( R )
d R
LM  (8.42)
I ( R )
Bu sınama istatistiği “kısıtlama yüklediğimizde” olabilirlik fonksiyonunun eğimi
sıfırdan ne kadar farklı hale gelmektedir? sorusuna biçimsel cevap vermektedir: Pay
eğimin doğrudan ölçüsüdür. Birçok istatistikte olduğu gibi, farkın büyüklüğünü
güvensizliğe göreli olarak ölçmeyi arzu ederiz. LM istatistiğinin paydası bu
güvensizliği ölçmektedir. Burada I () bilgi matrisi adı verilen matrisi
belirtmektedir. Bilgi matrisini açıklamak ve çıkarmak bu kitabın sınırlarını
aşmaktadır. Bu nedenle burada sadece bilgi matrisinin olabilirlik fonksiyonun
birinci türevinin varyansı ile ilişkili bir ölçü olduğunu belirtmekle yetineceğiz. LM
istatistiği de asimptotik (yanaşık) olarak ki-kare dağılmaktadır:
LM q2 (8.43)

Burada q boş hipotez altında konulan kısıt sayısıdır (burada verilen örnekte q  1
dir.)
Lagrange çoğaltan sınaması tek bir  parametresi ve iki farklı olabilirlik fonk-
siyonu için grafiksel olarak Şekil 8.6‟da gösterilmiştir. Parametre üzerine sıfır hipo-
tezi ile H 0 :   0 kısıdı konduğu varsayılmaktadır.   0 kısıdının geçerli olduğu
noktadaki log-olabilirlik fonksiyonları eğimi, d 1 / d ve d 2 / d , düşey eksen
boyunca ölçülen log-olabilirlik farkı, 1 ( )  1 (  0) ve 2 ( U )  2 (  0) , ile
U

ilişkilidir. Dikkat ederseniz log olabilirlik fonksiyonunun bükümü ne kadar küçük,


d 2 1 / d 2  d 2 2 / d 2 , ise düşey eksen üzerinde ölçülen log-olabilirlik kaybı o
kadar büyük,  1 ( U )  1 (  0)    2 ( U )  2 (  0)  , olacaktır. Konulan
  0 kısıtı altında LM istatistiği bu örnek için
(d / d )2
LM 
d 2 / d 2
şeklinde ifade edilebilir.

Bölüm 8, 24.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:30


Ekonometriye Giriş

1 ( U ) 
2( U ) 
1 (  0)  1 (  0)  1

 2U 1U

Şekil 8.6 Lagrange Çoğaltan Sınaması


Sıfır hipotezindeki kısıtta (yani kısıtlı parametre tahmininde) de-
ğerlendirilen eğim, d 1 / d ve d 2 / d sıfırdan çok farklı
ise kısıt ret edilmektedir. Eğimin sıfırdan farklığı kısıtlı parametre
değerindeki log-olabilirlik kaybı dikkate alınarak değerlendiril-
mektedir. Log olabilirlik fonksiyonu bükümü
d2 1 / d 2  d 2 2 / d 2
ne kadar küçük ise, log olabilirlik kaybı
 1 ( U )  1 (  0)    2 ( U )  2 (  0) 
o kadar büyük olmaktadır,

Yardımcı Regresyon ile Lagrange Çoğaltan Sınaması


Bir önceki paragrafta Lagrange çoğaltan sınamasını ve istatistiğini çıkış kaynağı
olan en çok olabilirlik yöntemi çerçevesi içinde ve normallik varsayımı altında
anahatları ile açıklamaya çalıştık. Aynı zamanda daha detaylı açıklamanın bu
kitabın kapsamı dışında kaldığını da belirttik. Sadece doğrusal regresyon modeli
çerçevesi içinde kaldığımızda, en çok olabilirlik yöntemini kullanmadan ve
dolayısıyla karmaşık matematiksel işlemler yapmadan, LM istatistiğini çıkarmak ve
LM sınaması yapmak mümkündür.
Burada çıkaracağımız LM istatistiği biçimi tutarlılık ve asimptotik normallik
özelliklerini sağlayan varsayımlara dayanmaktadır. Başka bir deyişle LM istatistiği-
nin bu alternatif biçimi, yanaşık (asimptotik) olarak geçerli F istatistiği için gerekli
olan varsayımlarla aynı varsayımlara dayanmaktadır. Bu nedenle en çok olabilirlik
yöntemi için gerekli olan normallik varsayımını yapmaya gerek kalmamaktadır.
LM istatistiğini çıkarmak için
Yi  1  2 X i 2  3 X i 3    K X iK  ui (8.44)

Ertaş&Ertaş, Uludağ Üniversitesi 24.10.2011 Bölüm:8 Sayfa: 31


OLS Tahmincilerinin Asimptotik Özellikleri

çoklu regresyon modelini ele alalım ve bu denklemin sonunda yer alan q sayıdaki
parametrenin sıfıra eşit olduğunu ileri süren
H0 : K q1  0, K q2  0, , K  0 (8.45)
sıfır hipotezini sınamak istediğimizi farz edelim. Aynen F sınamasında olduğu gibi
almaşık hipotez
H1 : K q1  0 ve/veya K q2  0 ve/veya ve/veya K  0 (8.46)
olmaktadır.
Daha önce belirttiğimiz gibi LM sınaması sadece kısıtlanmış model tahminini
gerektirmektedir. Buna uygun olarak kısıtlanmış modeli OLS ile tahmin ettiğimizi
ve
Yi  b1R  b2R X i 2  b3R X i 3   bKRq X i , K q  eiR (8.47)
denklemini elde ettiğimizi farz edelim. Burada parametreler üzerindeki R indisi
kısıtlanmış modelden elde edilen tahminleri ve eiR kısıtlanmış model kalıntılarını
belirtmektedir.
Model dışında bırakılan X K  q 1 ile X K aralığındaki q sayıda değişken gerçek-
ten sıfır kitle parametresine sahip ise, eiR örneklemde yer alan bu değişkenlerin her
biri ile en azından yaklaşık olarak korelasyonsuz olmalıdır. Bu korelasyonu bulma-
nın bir yolu eiR ‟yi X K  q 1 ile X K aralığındaki değişkenler üzerine regres etme ve
bu regresyonun belirleme (determinasyon) katsayısını hesaplamaktır. Almaşık LM
sınaması iki farkla bunu gerçekleştirmektedir. Birinci fark, LM sınaması X K  q 1 ,
, X K değişkenleri ile X 2 , , X K  q değişkenlerinin birbiri ile korelasyonlu
olabileceğini dikkate alarak, eiR ‟yi sadece q sayıdaki değişken üzerine değil tüm
açıklayıcı değişkenler üzerine regres etmektedir:
eiR  1  2 X i 2  3 X i 3   X K q  X K q 1   K X iK  ui (8.48)
Bu sadece bir sınama istatistiği oluşturmak için tahmin edilen ve tahminleri
doğrudan bizi ilgilendirmeyen bir denklem olduğundan yardımcı denklem olarak
adlandırılmaktadır. İkinci fark, bir sınama istatistiği oluşturmak amacıyla, yardımcı
denklem (8.48)‟in belirleme katsayısı Re2 örneklem büyüklüğü n ile çarpılmaktadır
(yardımcı regresyon R -karesini, regresyon uyumunun iyiliğini gösteren R -kareden
ayırtmak için Re2 simgesi kullanılmıştır. Elde edilen istatistiğin, yani nRe2 ‟nin,
yanaşık olarak q serbestlik derecesi ile bir ki-kare dağılımına sahip olduğu
saptanmıştır. Bu şekilde q sayıda açıklayıcı değişkenin ortak anlamlılığını
sınamada kullanılan almaşık bir LM sınama istatistiği elde edilmiş olmaktadır.

Bölüm 8, 24.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:32


Ekonometriye Giriş

Model dışında bırakılan q sayıdaki değişken için LM sınamasının uygulama


aşamaları şöyledir:
i. Yi ‟yi kısıtlanmış açıklayıcı değişkenler kümesi üzerine bağlayarak
(regres ederek) kalıntıları, eiR , elde ediniz.
ii. eiR ‟yi tüm açıklayıcı değişkenlere bağlayarak (regres ederek) R -
kareyi, yani Re2 ‟yi, elde ediniz.
iii. Gözlem sayısı, n , ile yardımcı regresyondan elde edilen R -kareyi
çarparak LM  nRe2 istatistiğini hesaplayınız.
iv. LM’i seçtiğiniz anlamlılık düzeyindeki ve kısıt sayısına eşit serbestlik
derecesindeki  q2 dağılımından bulacağınız kritik değer, c , ile
karşılaştırınız. LM  c olduğunda sıfır önsavı (hipotezi) ret edilir.
Almaşık olarak, bilgisyar yazılım programını kullanarak, örneklemden
bulunan LM istatistiğinin  q2 rastsal değişkenini aşma olasılığını (veya
sıfır hipotezinin gerçekleşme olasılığını) gösteren p -değerini (olasılık
değeri veya marjinal anlamlılık düzeyi) elde ediniz. p -değeri arzu
edilen anlamlılık düzeyinden (örneğin yüzde 5 veya yüzde 1) küçük
olduğunda H 0 ret edilir. Ret kuralı özünde F sınmasındaki ile
aynıdır.
LM sınaması yanaşık (asimptotik) bir sınama olduğundan, F istatistiğinden
farklı olarak, LM istatistiğinde kısıtlandırılmamış model serbestlik derecesinin hiç-
bir rolü yoktur.

Örnek 8.2
LM sınaması kullanımını örneklendirmek için TÜİK‟in 2006 yılı Hanehalkı İşgücü
anketinden rastsal olarak seçilen 8899 çalışanın saat ücretinin belirlenmesini
açıklayan
ln(Ücreti )  1   2 Eğitimi   3 Deneyimi   4 Sondeneyimi
  5 Sosgvnlki   6 Kenti   7 Evlii  8 Mlisei
17
  9 Erkeki    j İşalan j 8,i   i
j 10

modelini ele alalım. Burada Ücreti değişkeni i ‟ninci bireyin net saat başı ücretini,
Eğitimi yıl olarak eğitim düzeyini, Deneyimi yıl olarak toplam deneyim süresini,
Sondeneyimi yıl olarak halen çalışmakta olduğu işteki deneyim süresini, Sosgvnlki ,
Kent i , Evlii , Mlisei , Erkeki sıra ile çalışanın sosyal güvenliği olup olmadığını,

Ertaş&Ertaş, Uludağ Üniversitesi 24.10.2011 Bölüm:8 Sayfa: 33


OLS Tahmincilerinin Asimptotik Özellikleri

kentsel kesimde mi yoksa kırsal kesimde oturduğunu, evli olup olmadığını, meslek
lisesinden mezun olup olmadığını ve cinsiyetin erkek olup olmadığını gösteren
kukla değişkenlerdir. İşalan ji işletme faaliyet alanını (EFİS, 1.1-NACE,1.1‟e göre)
belirleyen yedi kukla değişkeni temsil etmektedir.  j , j  1, 2, ,17 tahmin
edilecek parametreleri belirtmektedir ve  i hata terimidir.
İş alanının ücret belirlemede önemli olmadığını düşündüğümüzü ve
H 0 : 10  0 ve 11  0 , , ve 17  0
sıfır önsavını
H 0 : 10  0 ve/veya 11  0 , , ve/veya 17  0
almaşık önsavı karşısında sınamak istediğimizi varsayalım. LM sınaması
log(Ücreti )  1   2 Eğitimi   3 Deneyimi   4 Sondeneyimi
 5 Sosgvnlki   6 Kenti   7 Evlii  8 Mlisei
 9 Erkeki   i
kısıtlanmış modelinin tahminini gerektirmektedir. Bu tahminin EViews çıktı
sonuçları Şekil 8.7‟de verilmiştir.

Şekil 8.7 Kısıtlanmış Ücret Denklemi Tahmini

Şimdi bu kısıtlanmış modelden elde edilen kalıntıları tahmininden elde edilen


kalıntıları, yani eiR ‟leri, tüm (kısıtlanmış modelde yer alan ve kısıt konarak model
dışında bırakılan) açıklayıcı değişkenler üzerine bağlayan yardımcı bağlanım

Bölüm 8, 24.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:34


Ekonometriye Giriş

(regresyon) denklemini tahmin edelim. EViews çıktı sonuçları Şekil 8.8‟de


gösterilmiştir.
Yardımcı bağlanım denklemi belirleme (determinasyon) katsayısı
Re2  0.071045 ve gözlem sayısı n  8899 dur. Dolayısı ile Lagrange çoğaltan ista-
tistiği
LM  8899  0.071045  632.23
olarak bulunur. Anlamlılık düzeyini yüzde 5 olarak seçersek, kısıt sayısı q  8
olduğundan ki-kare tablo değeri 82(0.05)  15.51 olmaktadır. 632>15.51 olduğunda
sıfır hipotezi ret edilir; model dışında bırakılan sekiz değişkenden en az biri (ve
muhtemele birden fazlası) log(ücret) üzerinde istatistiksel olarak anlamlı bir etkiye
sahiptir. Özetle çalışma alanını belirleyen değişkenler model dışında
bırakılmamalıdır. Kuşkusuz aynı sınamayı p -değeri (olasılık değeri veya marjinal
anlamlılık düzeyi) kullanarak ta gerçekleştirebiliriz. Ki-kare dağılımından
LM  632.23 ‟e karşı gelen 8 serbestlik derecesindeki marjinal anlamlılık düzeyi
p  0 olarak bulunur. Bu değer seçilen anlamlılık düzeyi 0.05‟ten küçük olduğu
için kuşkusuz yine aynı sonuç elde edilecektir.

Şekil 8.8 Yardımcı Bağlanım (Regresyon) Denklemi Tahmini

Ertaş&Ertaş, Uludağ Üniversitesi 24.10.2011 Bölüm:8 Sayfa: 35


OLS Tahmincilerinin Asimptotik Özellikleri

Örnek 8.2

LR, W ve LM İstatistiklerinin Karşılaştırılması


Üç sınamanın tek bir  parametresi için H 0 :   0 önsavı ile belirtilen kısıt için
karşılaştırması Şekil 8.9‟da grafiksel olarak gösterilmiştir. Üç sınamanın temel
özellikleri karşılaştırmalı olarak Tablo 8.1‟de özetlenmiştir.
 log L LM
 

LR 
 


0 
W

Şekil 8.9 LR, W ve LM Sınamalarının Karşılaştırılması


LR sınaması işaret edilen düşey mesafeye, W sınaması
belirtilen yatay mesafeye ve LR sınaması gösterilen
eğime karşı gelmektedir.

Olabilirlik oranı (LR), Wald (W) ve Lagrange çoğaltan (LM) sınama istatistikleri
asimptotik olarak eşdeğerlidir. Yani, örneklem büyüklüğü sonsuza gittiğinde bunla-
rın hepsi aynı sonucu verecektir. Sonlu örneklemlerden yapılan tahminlerde ise bu
üç istatistik farklı sonuçlar verir. Doğrusal regresyon modelleri söz konusu oldu-
ğunda bu test istatistikleri arasında şöyle bir enteresan ilişki vardır:
W  LR  LM
Bu istatistiklerden hangisinin kullanılacağı çoğunlukla kısıtsız modelin mi yoksa
kısıtlı modelin mi tahminin zor olduğuna bağlıdır. Regresyon katsayıları üzerine
konan doğrusal olmayan kısıtların sınanmasında çoğunlukla Wald sınaması kulla-
nılmaktadır, çünkü doğrusal olmayan kısıtlar konmuş şekli ile regresyon modelinin
tahmini zor olabilmektedir. Doğrusal regresyon modeli varsayımlarının ihlal edildi-
ği durumlarda, kısıtlanmamış model doğrusal regresyon modeli varsayımlarını tat-
min etmeyeceğinden bunların tahmini zor olabilir. Varsayım ihlalleri, örneğin
heteroskedastisiti, söz konusu olduğunda, çoğunlukla sıfır hipotezleri ihlaller yok-

Bölüm 8, 24.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:36


Ekonometriye Giriş

muş gibi tasarlanmaktadır. Başka bir ifade ile H o klasik varsayımları yüklemekte-
dir. Bu halde kısıtlanmış modeli tahmin etmek çok kolaydır ve bu nedenle çoğun-
lukla Lagrange çoğaltan sınamaları kullanılmaktadır.

Tablo 8.1 LR, W ve LM Sınamalarının Temel Özellikleri


LR W LM

Tahmin 2 1 1
edilen ( H 0 ve H 1 altın- ( H 1 altında) ( H 0 altında)
model sa- da)
yısı
H 1 altındaki model karma-
H 0 altındaki mo-
Sınama optimal şık olduğunda çözüm olana-
Olumlu del karmaşık oldu-
yönleri güce sahiptir ğı sağlar. Yardımcı regres-
ğunda çözüm ola-
yon kullanıldığında optimal
nağı sağlar
özelliklere sahiptir.
ML kullanılarak
Modelin paramet-
biri H 0 diğeri H 1
Olumsuz relendirilme şekli-
altında iki optimi- Gücü zayıf olabilir.
yönleri ne bağlı olarak so-
zasyon yapmayı nuç farklı olabilir.
gerektirir

Normalliğin Sınanması
Literatürde bir rastsal örneklem gözlemler kümesinin bir normal kitleden gelip
gelmediğini sınamaya yarayan parametresiz ve parametreli birçok sınama
mevcuttur. Bununla birlikte, bunların regresyon bozuklukları durumunda
uygulanması, bu bozuklukların gözlenemez olması ve herhangi bir şey yapabilmek
için elimizde sadece kalıntıların bulunması nedeniyle zorlaşmaktadır.
Dağılımlar beklemleri (momentleri) tarafından karakterize edildiklerinden, bir
dağılım biçimi için sınama yapmak demek, söz konusu dağılımın biçimine karşı
gelen beklemlerin (momentlerin) değerlerini sınamak demektir. Normal dağılım
durumunda, sınama için geçerli olan beklemler (momentler) simetri (üçüncü
beklem m3 ) ve “basıklık” (dördüncü beklem, m4 ) ölçüleridir. Bozukluk terimi için
bu beklemler (momentler)
m3  E (ui3 )  0
m4  E (ui4 )  3 4

Ertaş&Ertaş, Uludağ Üniversitesi 24.10.2011 Bölüm:8 Sayfa: 37


OLS Tahmincilerinin Asimptotik Özellikleri

olmaktadır. Normallik sınamalarının önemli bir kısmı üçüncü ve dördüncü moment


tahminlerinin, m3 ve m4 , sıra ile 0 ve 3 4 ten ne kadar saptığını test etmektedir.
Burada ~ örneklemden yapılan tahminleri simgelemektedir.
Parametreli testlerde normalliği sınayabilmek için normalliğin geçerli olmadığı
durumlar için bir parametrik alternatif bulmak gereklidir. Böyle bir alternatif
Pearson dağılımları ailesidir.8 Alternatif Pearson dağılımları ailesi olarak
alındığında, normallik sınamasında, m3 ve m4 ‟ün yeniden ölçeklendirilmiş
versiyonları olan
S  (m3 / m23/ 2 )  0 ve K  (m4 / m22 )  3 (8.49)

asimetri (S) ve basıklık (K) ölçüleri kullanılmaktadır, burada mr  r  2,3, 4 


ortalama etrafındaki r ‟ninci momenttir. Ortalaması sıfır, yani m1    0 , olan
normal dağılan rastsal değişkenler için (8.49) geçerli olmaktadır. S ve K‟nın
tahminleri, bunlara S ve K diyelim, ilgili formüllerde m „ler yerine örneklem
tahminleri konarak elde edilebilir. Bu örneklem tahminleri şöyle tanımlanmaktadır:
1
mr   eir
n i
 r  2,3, 4  (8.50)

Dolayısı ile normallik sınaması


H 0 : S  0 ve K  3
sıfır hipotezinin uygun bir almaşık hipotez karşısında sınanması demektir. Bu
durumda, Bera ve Jarque‟ın (1982) “Pearson ailesi”ni parametrik alternatif olarak
kullanarak, Lagrange çoğaltan testi olarak geliştirdiği
 2   
2
S K 3
JB  n    ~ 2 (8.51)
6 24  2

 
sınama istatistiğini kullanabiliriz, boş hipotez altında bu istatistik iki serbestlik
derecesi ile yanaşık (asimptotik) olarak ki-kare dağılımına sahiptir. Testi küçük
örneklemlere uygulayan bir simülasyon çalışmasında testin küçük örneklemler için
de iyi sonuç verdiği gösterilmiştir.

Örnek 8.3
Bölüm 5‟te ilk kez karşılaştığımız hayali limon talep fonksiyonu
8
Pearson ailesinde normallikten sapma gamma tipi dağılımları, Student t tipi dağılımları ve beta
tipi dağılımları ortaya çıkarmaktadır.

Bölüm 8, 24.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:38


Ekonometriye Giriş

Yi     X i  ui

örneğini ele alalım, burada Yi limon talep miktarını (tane olarak) ve X i


limon fiyatını (tane/yeni kuruş) göstersin. Örneklem verileri aşağıda
verilmiştir.

Tablodaki verileri kullanarak sınama JB istatistiğini hesaplamak için gerekli


değerleri şöyle buluruz:
m2  58.2407, m3  635.1749, m4  15053.607
S  1.42907 K  4.438
bunları yerine koyduğumuzda sınama istatistiğinin değeri
  1.42907 2  4.438  32 
JB  12     5.118
 6 24 

olarak bulunur. Ki-karenin %5 anlamlılık düzeyinde ve 2 serbestlik derecesindeki


tablo değeri 5.991 dir. Örneklemimiz küçük olmasına rağmen, asimptotik sınama
prosedürünü kullanmaya razı isek, bu örneğimiz için %5 düzeyinde normallik
hipotezini red edemeyeceğimiz ortaya çıkmaktadır.

Örnek 8.3

Örnek 8.4
Giyim eşyasına yapılan harcamalar ile gelir ve fert sayısı arasındaki ilişkiyi
gösteren denklemi aşağıdaki gibi tahmin etmiştik:

Ertaş&Ertaş, Uludağ Üniversitesi 24.10.2011 Bölüm:8 Sayfa: 39


OLS Tahmincilerinin Asimptotik Özellikleri

Tablo 8.2 Giyim Harcamaları Denklemi Tahmini

Bu denklem hata terimleri için normallik sınaması yaptığımızda Eviews


programından şu sonuçlar elde edilmektedir:

JB=81.536 dır ve olasılık değeri p=0.000 dır, yani sıfır normallik hipotezi ret
edilmektedir.

Örnek 8.4

Jarque-Bera sınama istatistiği “anlamlı” ise bu genellikle normallik durumunda


beklenenden daha yüksek oranda büyük değerli kalıntının mevcudiyetine işaret et-
mektedir. Bu sonuç çoğunlukla veri kümesindeki aykırı değerlerin varlığı olarak yo-
rumlanmaktadır. Keza bu durumun heteroskedastisiteye de işaret edebileceği belir-
tilmektedir.
Sonlu bir örneklemde kalıntılar normallik göstermese dahi, hata terim ile açıkla-
yıcı değişkenler korelasyonsuz olduğunda, merkezi limit teoremi altında dağılımla

Bölüm 8, 24.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:40


Ekonometriye Giriş

ilgili standart olarak söylediklerimiz asimptotik geçerliliğini korumaktadır. Dolayısı


ile sonlu örneklem merkezi limit teoremini geçerli kılacak kadar büyük olduğunda
belirli ölçüde normallikten sapmalar toleransla karşılanmakta ve standart test istatis-
tiklerinin asimptotik yorumları geçerliliğini korumaktadır.

Normal Olmama Durumu Altında Tahmin


Normallik varsayımının ihlalinin en küçük kareler kestiriminde ciddi sonuçlar
yaratmadığı görülmektedir. Özellikle (1) en küçük kareler tahmincilerinin en iyi
doğrusal yansız olmaya devam etmesi ve (2) geleneksel testlerin asimptotik olarak
geçerliliğini korumaya devam etmesi en küçük karelerin normal olmayan koşullarda
da kullanılmasını doğrulayan gerekçeler olmaktadır. Buna rağmen bazı
eleştirmenler, örneğin Koenker (1982), OLS‟lerin, regresyon doğrusundan
sapmaların karelerine dayanmaları nedeniyle, düşük bir olasılıkla ortaya çıkan
aykırı değerlerden gereksiz yere fazla etkilendiklerini ileri sürmektedir. Bu tipteki
aykırı değerler anormal hava koşulları, grevler, büyük hatalar, politik olaylar veya
benzeri hatalardan kaynaklanıyor olabilir. Dolayısı ile bozuklukların belki daha
kalın kuyruklu ve daha büyük, muhtemelen sonsuz, varyanslı bir dağılımla daha iyi
modellenebileceğini ve daha arzulanır özelliklere sahip parametre tahminlerinin
dirençli (robust) tahmin teknikleri ile elde edilebileceği ileri sürülmektedir.
Bozuklukların dağılımı kalın kuyruklu veya varyansı sonsuz olduğunda regresyon
katsayılarının OLS tahmincileri, kalın kuyruk veya sonsuz varyansa olanak tanıyan
en çok olabilirlik tahmincilerinden daha büyük varyansa sahip olacaktır.
(Bozukluğun dağılımı sonsuz varyansa sahip olduğunda, OLS tahmincilerinin
varyansı da sonsuz olacaktır.)
Birçok iktisadi veri serisi, özellikle mal piyasalarında ve mali piyasalardaki fi-
yatlar sonsuz varyanslı dağılımlar ile daha iyi temsil edilebilmektedir. Judge (1988)
örnek olarak Pareto dağılımını ve t-dağılımını göstermektedir. Eğer bir parametre-
nin serbestlik derecesi 2 veya daha düşük ise t-dağılımı sonsuz varyansa ve serbest-
lik derecesi 1 veya daha düşük ise sonsuz ortalamaya sahip olmaktadır.
Normal olmama durumu altında OLS tahmincilerinin etkin olmadığını göster-
mek için, ui ‟nin

1  ui /
f  ui   e   0 (8.52)
2
şeklinde tanımlanan Laplace (veya çift üstel) dağılım adı verilen bir dağılıma sahip
olduğunu varsayalım. Laplace dağılımı ve normal dağılım, arasındaki temel ayırım,
normal dağılım ui ‟nin karesini içerirken Laplace dağılımının ui ‟nin mutlak

Ertaş&Ertaş, Uludağ Üniversitesi 24.10.2011 Bölüm:8 Sayfa: 41


OLS Tahmincilerinin Asimptotik Özellikleri

değerini içermesidir9. Laplace dağılımı sıfır ortalama ve 2 2 varyansla simetriktir,


ve kuyrukları normal dağılımın kuyruklarına kıyasla daha kalındır. Laplace dağılımı
Şekil 8.10‟daki diyagramla gösterilmiştir. ui ‟lerin Laplace dağılımına sahip olduğu
durumda, regresyon katsayılarının en çok olabilirlik tahminini bulmak, kalıntıların
mutlak değerlerinin toplamını

 Y    X
i
i i (8.53)

Şekil 8.10
 ve  ‟ya göre minimize etmek ile aynı şeydir. Bu bir doğrusal programlama
problemidir ve bir standart bilgisayar programı kullanılarak çözülebilir. Çözüm,
mevcut n örneklem gözlemlerinden ikisini seçmeyi ve regresyon doğrusunun bu iki
noktadan geçirilmesini içermektedir.  ‟nın sonuçta elde edilen tahmincisi, buna 
diyelim, asimptotik olarak etkindir, ve asimptotik varyansı
2
 
Asimptotik var   (8.54)
x 2
i

şeklini alır. Laplace dağılımı için  ‟nın OLS tahmincisinin asimptotik varyansı ise

2 2
Asimptotik var  b   (8.55)
 xi2
olmaktadır, bu  ‟nın asimptotik varyansının iki katıdır.
Regresyon katsayılarının mutlak sapmaların minimum yapılması ile elde edilen
tahminci (buna çoğunlukla MAD tahmincisi olarak atıfta bulunulmaktadır), kitle
ortalaması veya kitle medyanının bir tahmincisi olarak örneklem medyanının
kullanılmasına benzemektedir. Örneklem medyanı, örneklem ortalamasına kıyasla
uç sapmalardan daha az etkilendiğinden bozukluk terimi içi şişman kuyruklu

9
Yapılan varsayımlar altında normal olarak dağılan bozukluk teriminin olasılık yoğunluk fonksi-
2 2 )e(1/2)(ui / ) olmaktadır.
2
yonu f (ui )  (1/

Bölüm 8, 24.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:42


Ekonometriye Giriş

dağılımlarının geçerli olması muhtemel tüm durumlarda MAD tahmincisinin


kullanımı tavsiye edilmektedir. Bir regresyon katsayısının MAD tahmincisinin
asimptotik olarak yansız olduğu ve normal olarak dağıldığı, ve şişman kuyruklu
dağılımların büyük bir kısmı için asimptotik varyansının OLS‟ninkinden daha ufak
olduğu gösterilmiştir. Kuşkusuz ‟nin dağılımı normal olduğunda MAD tahmincisi
etkin değildir, bu halde MAD tahmincisinin asimptotik varyansı OLS‟ninkinden
%57 daha büyüktür.
OLS tahmincilerinin, bozukluk normal olarak dağıldığında iyi sonuç verirken,
bozukluk normal olarak dağılmadığında iyi sonuç vermemesi, ekonometrisyenleri
dağılımın bozukluğu şişman kuyruklu olduğunda OLS‟den daha iyi sonuç veren ve
aynı zamanda dağılım normal olduğunda hemen hemen OLS kadar iyi sonuç veren
tahminciler oluşturmaya yöneltmiştir. Bu tipteki tahmincilere dirençli (robust)
tahminciler adı verilmektedir. Bu türden tahminciler arasında en iyi bilineni M adı
verilen (“en çok olabilirlik tipinde” anlamına gelen) tahmincilerdir. OLS
tahmincileri
 (Yi     X i )2
i
 ve  ‟ya göre minimum kılınarak elde edilirken, M tahmincileri ardındaki temel
fikir
 f (Yi     X i )2
i
yi minimum yapmaktır, burada f Yi     X i  , Yi     X i  „nin yukarda
belirtilen robustnes arzulanan özellikli tahmincilerini veren bir fonksiyonudur.
Huber tarafından önerilen ve istatistiksel literatürde sık sık atıfta bulunulan böyle
bir fonksiyon, önceden belirlenmiş bir değerden (mutlak değer olarak) küçük veya
ona eşit tüm sapmalarla en küçük kareleri kullanmayı ve belirlenen değerden büyük
tüm sapmalar için MAD tahminini kullanmayı içermektedir. Önceden verilen değer
sonsuz olduğunda, bu yöntem en küçük karelere indirgenmektedir, söz konusu
değer 0 olduğunda, saf MAD kestirimi söz konusu olmaktadır. Diğer değerler için
bu ikincisinin bir karışımı geçerlidir. Diğer bir öneri büyük sapmalara karşı gelen
tüm gözlemleri dışlamak ve geri kalan gözlemlere en küçük kareleri uygulamaktır.
Bu “traşlanmış” kestirme olarak bilinmektedir.
Bozukluğun normalliği konusunda kuşku duyulduğunda mantıklı ve basit bir
yaklaşımı regresyon katsayılarının hem OLS ve hem de MAD kestirimlerini
hesaplamaktadır. Eğer iki kestirim kümesi birbirinden çok farklı ise kuşku
duyulacak bir problem yok demektir. Fakat eğer bu kestirim kümeleri arasında
önemli bir fark var ise, ekstrem sapmalara karşı gelen gözlemleri teşhis etmeye
çalışır ve bunların nedenlerini, önemli ölçüm veya kayıt hatalarının bulunup
bulunmadığını kontrol ederiz.

Ertaş&Ertaş, Uludağ Üniversitesi 24.10.2011 Bölüm:8 Sayfa: 43


OLS Tahmincilerinin Asimptotik Özellikleri

Örnek 8.5
Yukarda belirtilen nokta limon talebini yansıtan daha önceki limon talebi örneğimiz
ile yansıtılabilir. 12 gözlemlik verileri kullanarak OLS tahminlerini
Yi  210.460  1.578 X i  ei
şeklinde elde etmiştik. MAD kestirimleri-ele alınan durumda bunlar bir bilgisayar
programı kullanmaksızın kestirilebilir:
Yi  205  1.5 X i  ui
iki kestirim kümesinin birbirine oldukça yakın olduğu açıktır. (  ui  60 iken
i

e
i
i  64.68 olmaktadır.)

Örnek 8.5

Bölüm 8, 24.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:44


10
BELĠRGĠNLEġTĠRME (SPESĠFĠKASYON)
HATALARI, ÇOKLU DOĞRUSAL BAĞINTI

Regresyon DeğiĢkenlerinin Tanımlanması


Bir regresyon denklemi içine hangi açıklayıcı değişkenlerin katılması gerektiğini
kesin olarak bildiğimizde, regresyon analizinde üstesinden gelmemiz gereken tek
sorun katsayıların tahminlerini hesaplamak, bu tahminler için güven aralıklarını
oluşturmak ve katsayı tahminlerini kullanarak hipotez testleri yapmak olurdu. Ger-
çekte uygulamada bir denklemin doğru olarak nasıl tanımlanacağını çoğu zaman bi-
lemeyiz. İktisat teorisi bu konuda rehberlik yapabilirse de, teorinin rehberliği hiçbir
zaman mükemmel değildir. Sonuç olarak bazen farkına varmadan veya bazen emin
olmadığımız için gereksiz değişkenleri model katabilir, bazen de önemli bazı değiş-
kenleri model dışında bırakabiliriz. Bir regresyon modelinde yer almaması gereken
bir açıklayıcı değişkenin modele katılması ne gibi sonuçlar doğurur? Bir modelde
yer alması gereken bir değişken modele katılmaz ise ne olur? Şimdi bu soruları ce-
vaplandırmaya çalışacağız.

Modele Yer Alması Gerekmeyen Bir değişkenin Modele Katıl-


ması
Bu durumda gerçek regresyon modelinde bağımlı değişken üzerinde hiçbir etkisi
olmayan bir değişken veya birden fazla değişkenin modele katılması söz konusudur,
yani modelde geçersiz değişkenler vardır veya model aşırı tanımlanmıştır. Doğru
model
Yi  1  2 X i 2  ui (10.1)
şeklinde olması gerekirken onu
Yi  1  2 X i 2  3 X i 3  ui (10.2)
şeklinde tanımladığınızı ve bu modelin Varsayım 1’den Varsayım 6’ya kadar olan
varsayımları tatmin ettiğini, yani Gauss-Markov koşulları sağlandığı farz edelim.
Gerçek regresyon doğrusu açısından bakıldığında X 3 ’ün Y üzerinde hiçbir etkisi
yoktur, yani
E (Yi X i 2 )  E (Yi X i 2 , X i 3 )  1   2 X i 2 (10.3)
Çoklu Doğrusal Regresyon Modeli

ve ister b3  0 isterse b3  0 olsun  2 ’nin OLS tahmincisi b2 yansızdır, yani


E (b2 )  2 dir. Bunun böyle olduğu kolayca kanıtlanabilir. X 3 katılarak model aşı-
rı tahmin edildiğinde, tahmin edilen regresyon doğrusu Yˆ  b1  b2 X i 2  b3 X i3 ola-
cak ve b2 ve b3 örnekleme hatası içerecektir, fakat E (b2 )  2 ve E (b3 )  0 ola-
caktır. Bu sonuç geçersiz değişkenlerin model katılmasının hiçbir olumsuz etkisi
olmadığı anlamına mı gelmektedir? Hayır. Çünkü eğer önceden 3  0 olduğunu
fark edersek, bu bilgiyi dikkate alarak X 3 ’ü model dışında bırakır ve basit regres-
yon modeli (10.1)’i kullanırdık; (10.2) kullanılarak  2 tahmin edildiğinde, mevcut
bir bilgi, yani 3  0 dikkate alınmadığı için (10.2)’den bulunan b2 tahmincisi et-
kin olmayacaktır. X 3 ’ün modele katılmasından kaynaklanan etkinlik kaybı her iki
modelden elde edilen b2 tahmincisinin koşullu Tablo 10.1’deki varyansları birbiri
ile karşılaştırılarak görülebilir:

Tablo 10.1 b2 ’nin koşullu varyansları


Basit regresyon (10.1) Çoklu regresyon (10.2)
 2
u2
 2
1  u2 1
 b22 X  n u   b22 X  n u   
1  rX 2 X 3 n var( X ) 1  rX22 X 3
2

 xi22 nvar( X 2 )
i 1
 xi22
i 1

X 2 ile X 3 arasındaki korelâsyon sıfırdan farklı olduğu sürece yanlış tanımlanmış


çoklu regresyondan elde edilen tahmincinin varyansı basit regresyondan elde edi-
lenden büyük olacaktır. Kuşkusuz X 2 ile X 3 arasındaki korelâsyon ne kadar bü-
yükse etkinlik kaybı o kadar fazla olacaktır.
Tahminlerin standart hataları genellikle geçerli olacaktır, fakat katsayı tahminle-
ri etkin olmadıklarından standart hatalar büyük olur. Model de yer alması gerekme-
yen bir değişkenin modele katılması sonucu R 2 ve hatta R 2 artabilir ve bu nedenle
uyumun iyiliği daha iyi imiş gibi görünebilir; kuşkusuz bu yanıltıcı olacaktır.

Modelde Yer Alması Gereken Bir Değişkenin


Model Dışında Bırakılması
Yanlılık Problemi
Bağımlı değişken Y ile açıklayıcı değişkenler X 2 ve X 3 arasında aşağıda tanım-
landığı gibi bir ilişki olduğunu varsayalım:
Yi  1   2 X i 2  3 X i 3  vi (10.4)

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:2


Ekonometriye Giriş

Fakat X 3 ’ün önemi bilinmediğinden, modelin


Yi  1  2 X i 2  ui (10.5)
şeklinde tanımlandığını ve bu yanlış tanımlanan modelin
Yˆ  b1   2 X 2 (10.6)
şeklinde olağan en küçük kareler ile tahmin edildiğini varsayalım. Başka bir ifade
ile b2 tahmin etmek için doğru tahminci
 x y  i 1 xi23   i 1 xi 3 yi  i 1 xi 2 xi 3
n n n n

b2  i 1 i 2 i
(10.7)
 
2
 
n n n
x2
i 1 i 2
x 
2
i 1 i 3
x x
i 1 i 2 i 3

yerine

n
x y
b2  i 1 i 2 i
(10.8)

n 2
x
i 1 i

kullanılmıştır. b2 tahmincisinin teorik formülünü bularak onun beklenen değerinin


ne olduğunu araştırabiliriz. Kullanılan b2 tahminci formülü, yani (10.8), içine orta-
lamalardan sapmalar cinsinden doğru ilişkiyi ikame ettiğimizde
  x (  2 xi 2  3 xi 3  ui  u )
n n
x y
b2  i 1 i 2
 i 1 i 2

 
n 2 n 2
x
i 1 i 2 i 1 i
x
1   2  n xi22  3  n xi 2 xi 3   n xi 2 (ui  u ) 
 (10.9)
 x  
n 2 i 1 i 1 i 1
i 1 i 2

 xx 
n n
x (ui  u )
  2  3 i 1 i 2 i 3
 i 1 i 2

 x 
n 2 n 2
i 1 i i 1 i
x
bulunur. Açıklayıcı değişkenlere koşullu beklenen değer alındığında
 xx
n

E (b2 )  2  3 i 1 i 2 i 3
(10.10)
 x
n 2
i 1 i

elde edilir; ui ’ler ile X jk ’ler, i, j  1, , n , varsayım gereği korelâsyonsuz oldu-


ğundan koşullu beklenen değer alındığında son terim kaybolacaktır. (10.10)’dan
X 3 model dışında bırakıldığında X 2 değişkenin tahmincisinin yanlı olduğu görül-
mektedir. Yan 3 ( i 1 xi 2 xi 3 /  i 1 xi2 ) ’ye eşittir; dikkat edilirse parantez içindeki
n n

ifade
X̂ 3  c1  c2 X 2 (10.11)

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:3


Çoklu Doğrusal Regresyon Modeli

regresyonu ile tahmin edilen c2 dir. Yine daha önce öğrendiklerimizden bu katsayı-
nın c2 =cov( X 2 , X 3 ) / var( X 2 ) , yani X 2 ile X 3 ’ün örneklem kovaryansının X 2 ’nin
örneklem varyansına oranı olduğunu biliyoruz. Bu yana, yani E (b2 )   2  3c2 ’ye,
dışarıda bırakılan değişken yanı adı verilmektedir. Dolayısı ile eğer  3 ve c2 aynı
işaretli ise yukarı doğru, aksi takdirde aşağı doğru bir yan ortaya çıkacaktır. Yanın
büyüklüğü  3 ve c2 ’nin büyüklüğüne bağlıdır.
Denklem (10.10)’dan b2 ’nin yansız olabileceği iki durum hemen görülmektedir.
Birincisi 3  0 olduğu durumdur, bu halde  3 değişkeni doğru modelde yer almı-
yor demektir. Basit regresyon modelinden bunun böyle olduğunu zaten biliyoruz.
İkincisi c2  0 veya cov( X 2 , X 3 )  0 , yani örneklemde X 2 ile X 3 ’ün korelâsyon-
suz olduğu durumdur. Bunu daha önce görmüştük. Hatırlarsanız, eğer iki açıklayıcı
değişken birbiri ile korelasyonsuz, yani cov( X 2 , X 3 )  0 , ise iki açıklayıcı değişken-
li çoklu regresyon modeli Yi  1  2 X i 2  2 X i 3  ui elde edilen parametre tah-
minleri, b2 ve b3 , ile bu açıklayıcı değişkenlerin ayrı ayrı kullanıldığın basit reg-
resyonlardan, yani Yi  1  2 X i 2  vi ve Yi  1   2 X i 3  wi elde edilen paramet-
re tahminleri b2 ve b3 birbiri ile aynı olacaktır.
Tutarlılık Problemi
Model dışında bırakılan (ihmal edilen) değişken yanlılığının asimptotik benzerini
çıkarmak için (10.4)’ü kullanabiliriz. Doğru modelin (10.4)’teki gibi olduğunu ve
modelin Gauss-Markov varsayımlarından doğrusallık, tam çoklu doğrusal bağıntı-
sızlık, sıfır koşulsuz ortalama ve açıklayıcı değişken ile hata terimleri arasındaki ko-
relâsyonluk (V3*) varsayımlarını tatmin ettiğini varsayalım. Bu halde ui ’nin orta-
laması sıfır olacak ve ui hata terimi ile X 2 ve X 3 korelâsyonsuz olacaktır. 1 ,  2
ve  3 ’ün OLS tahmincileri, yani b1 , b2 ve b3 , tutarlı olacaktır. X 3 model dışında
bırakılarak Yi değişkeni X i 2 üzerine regres edildiğinde hata terimi ui  2 X i 2  vi
olacaktır. Basit regresyondan elde edilen  2 parametresi OLS tahmincisi b2 ’nin
olasılık limiti
X
plim b2   2  3 2 X3
(1.12)
 X2 2

olacaktır. Bu nedenle, pratik açıdan bakıldığında, tutarsızlık yanlılık ile aynı şey
olarak ele alınabilir. İkisi arasındaki farklılık, tutarsızlığın X 2 ve X 3 ’ün kütle
kovaryansı,  X 2 X3 , ve X 2 ’nin kütle varyansı,  X2 2 , cinsinden ifade edilmesidir,

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:4


Ekonometriye Giriş

yanlılıkta ise bunların örneklem karşıtlarının kullanılmaktadır (çünkü yansızlıkta


X 2 ve X 3 ’ün örneklemdeki değerleri üzerine koşullandırma yapılmaktadır.)
Eğer X 2 ve X 3 kütlede korelâsyonsuz, yani  X 2 X 3  0 ise, b2 tahmincisi
 2 ’nin tutarlı tahmincisi olur (fakat b2 yansız tahminci olmayabilir). Eğer X 3 ba-
ğımlı değişken üzerinde pozitif kısmi etkiye sahip, yani 3  0 , ise, ve X 2 ve X 3
pozitif olarak otokorelasyonlu, yani  X X  0 , ise b2 ’deki tutarsızlık pozitiftir. Ke-
2 3

za diğer durumlar da benzer şekilde çıkartılabilir. X 2 ’nin varyansına kıyasla X 2 ve


X 3 arasındaki kovaryans ufak ise tutarsızlık küçük olabilir.
Minimum Varyans Problemi
Şimdi doğru model
Yi  1   2 X i 2  3 X i 3  vi (10.4*)
ve X 3 ’ün dışarıda bırakıldığı model
Yi  1  2 X i 2  ui (10.5*)
için b2 tahmincisinin varyanslarını ele alalım, bunlar Tablo 10.2’de gösterilmiştir.
Bu iki varyans karşılaştırıldığında, X 2 ile X 3 birbiri ile korelasyonsuz, yani
rX22 X 3  0 , olmadığı sürece, basit regresyondan elde edilen varyansın her zaman
çoklu regresyondan elde edilen varyanstan daha küçük olacağı açıkça görülmekte-
dir. Başka bir ifade ile varyans açısından değerlendirildiğinde basit regresyondan
elde edilen b2 tahmincisi, çoklu regresyondan elde edilen b2 tahmincisine tercih
edilmektedir. Yani sadece yanı dikkate alarak verdiğimiz kararın tam tersi bir du-
rum söz konusu olmaktadır.
Böyle bir durumda X 3 ’ü model dışında bırakma nedeniyle karşılaşılan yanlılık
ile onu modele katmama sonucu varyansta sağlanan düşmenin, bu rX22 X 3 ile ölçül-
mektedir, birbiri ile karşılaştırılması ve buna göre karar verilmesi önerilmektedir.
Bununla birlikte X 3 ’ün modele katılması lehinde ileri sürülen bir başka görüş var-
dır. Örneklem büyüklü arttığında b2 ’deki yan küçülmeyecektir. Gerçekte yan her-
hangi sistematik bir biçim içermemektedir, bu nedenle her örneklem büyüklüğü için
yanın aynı kalacağını düşünebiliriz. Öte yandan, hangi modelden tahmin edilirse
edilsin var(b2 ) örneklem büyüklüğü arttıkça küçülmektedir, yani örneklem boyutu
arttığında iki açıklayıcı değişken arasındaki doğrusal bağıntı önemini yitirmektedir.
Dolayısı ile büyük örneklemler için çoklu regresyondan elde edilen b2 tahmincisini
tercih etmek doğal gibi görünmektedir.

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:5


Çoklu Doğrusal Regresyon Modeli

Tablo 10.2 b2 ’nin Koşullu Varyansları


Çoklu regresyon (10.4*) Basit regresyon (10.5*)
 2
1 u2
1  u2  u2
 b2 X  n u     2
 
1  rX22 X 3 n var( X ) 1  rX22 X 3 b2 X n

 xi22  xi22 nvar( X 2 )


2

i 1 i 1

Örnek 10.1 (CRIME1.WF1)


CRIME1.WF1 ABD’nin California eyaletinde 1960 veya 1961’de doğan 2725 er-
keğin 1986 yılındaki tutuklanma ve diğer bilgilerini içermektedir. Örneklemdeki
her erkek 1986 öncesi en az bir kez tutuklanmıştır. NARR86 değişkeni kişinin 1986
yılındaki tutuklanma sayısını göstermektedir: örneklemdeki birçok erkek (yüzde
72.29) için bu sayı sıfırdır ve genelde sayı 0 ile 12 arasında değişmektedir. (1986
yılında en az bir kez tutuklanan erkek yüzdesi 20.51 idi.) PCNV değişkeni 1986 ön-
cesi tutuklanmalarından hüküm giyme ile sonuçlananların oranı (yüzde değil),
AVGSEN 1986 önceki mahkumiyetler için ortalama cezaevinde yatma süresi (bir-
çok kişi için bu sıfırdır), PTIME86, 1986 yılında cezaevinde geçirilen ay, QEMO86,
1986 yılında kişinin bilfiil çalışıyor olduğu çeyrek yıl sayısı (sıfır ile dört arasında
değişmektedir).
Tutuklanmayı açıklayan bir doğrusal model şöyle ifade edilebilir:
NARR86i  1   2 PCNVi  3 AVGSENi   4 PTIME86i
 5QEMP86i  ui
burada PCNV suç işleme olabilirliği için bir gölge değişken, AVGSEN tutuklanırsa
cezanın beklenen ağırlığının bir ölçüsü. PTIME86 suçun hapsedilme etkisini kap-
samaktadır, birey cezaevinde olduğunda cezaevi dışındaki bir suç için tutuklana-
maz. Emek piyasası tarafından yaratılan fırsatlar kaba bir şekilde QEMP86 tarafın-
dan yakalanmaktadır.
İlk olarak, model AVGSEN değişkeni olmaksızın tahmin edilmektedir:
NARR86i  0.712  0.150 PCNVi  0.034 PTIME 86i  0.104QEMP86i
n  2725, R 2  0.0413
Bu denklem, bir grup olarak, üç değişken PCNV, PTIME86 ve QEMP86’nın
NARR86’daki değişmenin yaklaşık yüzde 4.1’ini açıkladığını söylemektedir.
OLS eğim katsayılarının her biri beklene işaretlere sahiptir. Mahkumiyet ora-
nındaki bir artış öngörülen tutuklanma sayısını azaltmaktadır. Eğer PCVN’deki artış
0.50 (bu mahkumiyet olasılığıda büyük bir artıştır) ise, diğer faktörler sabit tutuldu-
ğunda,  NARR86  (0.150)(0.50)  0.075 . Bu tuhaf görünebilir çünkü tutuk-
lanma bir oran olarak değişemez. Bu değeri büyük bir grup erkek için beklenen tu-

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:6


Ekonometriye Giriş

tuklanmalardaki öngörülen değişme olarak kullanbiliriz. PCNV oranı 0.50 arttığın-


da, örneğin 100 kişi içinde tutuklanmalardaki öngürülen düşme 7.5 tur.
Benzer şekilde, uzun bir cezaevinde yatma süresi öngürülen tutuklanma sayısın-
da düşmeye neden olmaktadır. Gerçeten, PTIME86 0’dan 12’ye arttığında belirli bir
erkek için öngürülen tutuklanma (0.034)(12)=0.408 azalmaktadır. Yasal istihdamın
geçerli olduğu belirtilen bir fazla çeyrek yıl öngürülen tutuklanmayı 0.104 azalt-
maktadır, bu 100 kişi arasından 10.4 kişi daha az tutuklanacak demektir.
Eğer modele AVGSEN eklenirse, R 2 ’nin artacağını biliyoruz. Tahmin edilen
model şöyledir:
NARR86i  0.707  0.151PCNVi  0.0074 AVGSEN
0.037 PTIME86i  0.103QEMP86i
n  2725, R2  0.0422
Bu şekilde, ortalama mahkumiyet süresi değişkeni R 2 ’yi 0.0413’ten 0.0422’ye
yükseltmektedir, yani pratik olarak çok ufak bir etki yaratmaktadır. AVGSEN de-
ğişkenin katsayısının işareti pozitiftir ve bu beklenmeyen bir işarettir; ortalama
mahkumiyet süresi arttıkça işlenen suç artmaktadır.

Örnek 10.1

Örnek 10.2 (EAEF21.WK1)


EAEF21.WK1 dosyası ABD’de çeşitli eyaletlerden derlenen 570 çalışanla ilgili ve-
riler içermektedir. S çalışanın eğitim düzeyini (devam ettiği en yüksek okul düzeyi
için yıl sayısını), ASVABC çalışanın genel yetenek test puanını, HGCM annenin
eğitim düzeyini ve HGCF babanın eğitim düzeyini göstermektedir. Bu konu için,
aşırı bir basitleştirme yaparak, doğru modelin
Si  1  2 ASVABCi  3 HGCM i  ui
olduğu varsayılacaktır. Tablo 10.3’teki bilgisayar çıktısı bu regresyon modelinin
tahminlerini, Tablo 10.4 HGCF model dışında bırakıldığında elde edilen tahminle-
ri ve Tablo 10.5 ASVABC model dışında bırakıldığında elde edilen tahminleri gös-
termektedir. HGCF model dışında bırakıldığında b2 ’nin koşullu beklenen değeri

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:7


Çoklu Doğrusal Regresyon Modeli

Tablo 10.3

cov( ASVABC, HGCM )


E (b2 )  2  3
var(ASVABC )
olmaktadır. ASVABC ile HGCM arasındaki basit korelasyon korelasyon katsayısı
0.38 dir, yani cov( ASVABC, HGCM ) pozitiftir. var( ASVABC) her zaman pozitif
olduğundan b2 ’deki yanın yönü  3 ’ün işaretine bağlıdır.  3 ’ün işaretinin pozitif
olması beklenmektedir. Tablo 10.3’teki tahminlerde bunun pozitif ve çok anlamlı
bulunması bu beklentiyi güçlü bir şekilde desteklemektedir. Dolayısıyla HGCM
model dışında bırakıldığında ASVABC değişkeninin katsayısının yukarı doğru yan-
lı olması beklenmektedir. Tablo 10.4’daki ASVABC ’nin katsayısının Tablo
10.3’tekinden daha büyük tahmin edildiği görülmektedir.1 Öte yandan yanlış tanımı
yapılan modeldeki, Tablo 10.4, b2 ’nin standart yapması, marjinal de olsa, doğru
modeldeki, Tablo 10.3, b2 ’nin standart yapmasından küçüktür.

1
Kuşkusuz farkın tamamının yana atfedilmemesi gerekir. Örnekleme hatası nedeniyle
b2 beklenenden daha büyük veya küçük tahmin edilebilir.

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:8


Ekonometriye Giriş

Tablo 10.4

Tablo 10.5

Benzer şekilde, ASVABC model dışında bırakıldığında b3 ’ün koşullu beklenen


değeri
cov( ASVABC, HGCM )
E (b2 )  3  2
var(HGCM )
olmaktadır.  2 ’nin işareti pozitif olduğundan Tablo 10.5’teki HGCM ’nin katsayı-
sının pozitif olması beklenmektedir. Gerçekten de Tablo 10.7’deki b3 Tablo
10.5’tekinden büyüktür. Öte yandan, muhtemelen örnekleme hatası nedeniyle, yan-
lış tanımlan modeldeki varyans beklenildiğinin aksine doğru modeldekinden küçük
değildir.

Örnek 10.6

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:9


Çoklu Doğrusal Regresyon Modeli

Yukarıdaki analiz doğru modeli iki açıklayıcı değişkenli bir model olduğunda
geçerlidir. Çoklu regresyon modelinde ikiden fazla açıklayıcı değişken mevcut ol-
duğunda dışarıda bırakılan değişkenin etkisinin işaretinin matematiksel olarak çıka-
rılması zorlaşmaktadır. Buna rağmen yine de bazı açıklayıcı değişkenlerin katsayı-
larının olduğundan büyük veya küçük tahmin edileceği sonucunu çıkarabiliriz.
Dışarıda Bırakılan Değişken ve R-kare
Daha önceki tartışmalarımızda her bir açılayıcı değişkenin R 2 ’ye olan katkısını be-
lirlemenin imkânsız olduğunu söylemiştik. Şimdi bunun neden böyle olduğunu yu-
karıda verilen örnek aracılığı ile kolaylıkla görebiliriz. Sadece ASVABC ’nin açık-
layıcı değişken olarak göründüğü Tablo 10.6’daki modelde R 2 ’nin değeri 0.33 ve
sadece HGCM ’nin açıklayıcı değişken olarak göründüğü Tablo 10.7’deki modelde
R 2 ’nin değeri 0.13 tür. Bu bulgulara dayanarak Tablo 10.6’daki modelde
ASVABC değişkenindeki değişmeler S ’deki değişmelerin %33’ünü açıkladığını
ve Tablo 10.7’deki modelde HGCM değişkenindeki değişmeler S ’deki değişme-
lerin %13’ünü açıkladığını söyleyebilir miyiz? Cevap hayırdır.

Çoklu Doğrusal Bağıntı


Basit doğrusal regresyon modelinden çoklu doğrusal regresyon modeline geçerken
yaptığımız varsayımlardan biri şöyle idi: “açıklayıcı değişkenler arasında tam doğ-
rusal bağıntı yoktur”. Eğer iki veya daha fazla açıklayıcı değişken arasında tam
doğrusal bir ilişki varsa buna “tam eşdoğrusallık” veya “tam çoklu doğrusal bağın-
tı“ adı verilmektedir. Bu uygulamada seyrek karşılaşılan bir durumdur. Ampirik ça-
lışmalarda bizi daha çok ilgilendiren iki veya daha fazla değişken arasında, daha
önce de değinildiği gibi, doğrusala “yakın“ veya “güçlü” doğrusal ilişki bulunma-
sıdır; bu durum, diğer bazı koşullarda da elverişli olduğunda tahminlerin güvenilir-
liği açısından bazı sorunlar yaratmaktadır. Yakın ve güçlü kelimelerinin çift tırnak-
lar arasında gösterilmesinin nedeni çoklu doğrusal bağıntının tam nerede problem
olmaya başladığını gösteren kesin bir delil bulunmamasıdır. Problem olmaya başla-
dığı durumlarda doğrusal regresyon modeli varsayımlarından hiçbirini ihlal etmedi-
ği için çoklu doğrusal bağıntı her zaman örneklemle ilgili bir problem olarak karşı-
mıza çıkmaktadır.
Çoklu doğrusal bağıntıyı detaylı olarak incelemeden önce tam çoklu doğrusal
bağıntı ve bunun doğuracağı sonuçlar üzerinde kısaca durmak yararlı olacaktır.

Tam çoklu doğrusal bağıntı


Bir regresyon modelinde iki veya daha fazla sayıdaki açılayıcı değişken arasında
tam doğrusal ilişki mevcutsa bu durum tam çoklu doğrusal bağıntı olarak bilinir.
Tam çoklu doğrusal bağıntının doğuracağı sonuçları görmek için
Yi  1  2 X i 2  3 X i 3  4 X i 4  ui

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:10


Ekonometriye Giriş

üç açıklayıcı değişkenli çoklu regresyon modelini ele alalım. Bu model için normal
denklemler
n n n n

Y
i 1
i  nb1  b2  X i 2  b3  X i 3  b4  X i 4
i 1 i 1 i 1
n n n n n

Y X
i 1
i i2 b1  X i 2  b2  X i22  b3  X i 2 X i 3  b4  X i 2 X i 4
i 1 i 1 i 1 i 1
n n n n n
(10.13)
Y X
i 1
i i3 b1  X i 3  b2  X i 2 X i 3  b3  X  b4  X i 3 X i 4
i 1 i 1 i 1
2
i3
i 1
n n n n n

Y X
i 1
i i4 b1  X i 4  b2  X i 2 X i 4  b3  X i 3 X i 4  b4  X i24
i 1 i 1 i 1 i 1

şeklinde ifade edilir. X 3 ve X 4 açıklayıcı değişkeleri arasında X 4  2 X 3 şeklinde


ifade edilebilen basit bir tam doğrusal bir bağıntı bulunduğunu varsayalım. Bu ba-
ğıntı modelin katsayılarının olağan en küçük kareler yöntemi ile tahmini, tahminle-
rin standart hataları ve determinasyon katsayısı açısından ne gibi sonuçlar doğura-
caktır? Tüm normal denklemlerde X 4 yerine 2X 3 ikame edildiğinde normal denk-
lemler şu şekli alacaktır:
n n n

Y
i 1
i  nb1  b2  X i 2  (b3  2b4 ) X i 3
i 1 i 1
n n n n

Y X
i 1
i i2 b1  X i 2  b2  X i22  (b3  2b4 ) X i 2 X i 3
i 1 i 1 i 1
(10.14)
n n n n

Y X
i 1
i i3 b1  X i 3  b2  X i 2 X i 3  (b3  2b4 ) X i23
i 1 i 1 i 1

Bu dört bilinmeyenli, b1 , b2 , b3 ve b4 , üç normal denklemden ancak b1 , b2 ve de b3


ile b4 ’ün doğrusal kombinasyonu, yani b3  3b4 , tahmin edilebilecektir. Başka bir
ifade ile aralarında tam doğrusal bağıntı olan değişkenlerin katsayılarını tahmin et-
mek mümkün olmayacaktır.
Açıklayıcı değişkenleri arasında tam doğrusal bağıntı olan bir regresyon modeli
parametreleri bir bilgisayar paket programı kullanılarak tahmin edilmeye çalışıldı-
ğında, program “matrix singular” veya “exact colinearity encountered” gibi matrisin
tekil olduğuna işaret eden bir hata mesajı verecektir. Bunun nedenini görmek için
normal denklemleri matris cebiri simgesi ile ifade edelim
X y = X X b
( K  n ) ( K 1) ( K  n ) ( n K ) ( K 1)

Buradan b vektörünü bulmak için ifadenin önden XX ’in evriği (tersi), yani
( XX) 1 , ile çarpılması gerektiğini daha önce görmüştük. Eğer, yukarıdaki örnekte
varsayıldığı gibi, X vektörünün bazı sütunları arasında tam doğrusal bağıntı varsa

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:11


Çoklu Doğrusal Regresyon Modeli

X ’in rankı K ’dan küçük olacak ve XX ’nin evriği (tersi) alınamayacaktır, yani
( XX) 1 tekil olacak ve evriği (tersi) mevcut olmayacak demektir. Bazen böyle bir
sorun aynı açıklayıcı değişken farkında olunmaksızın modele farklı adlarla iki kez
katıldığında ortaya çıkabilir.

Çoklu doğrusal bağıntı ve doğurduğu sonuçlar


Bir regresyon modelinde yer alan iki veya daha fazla sayıdaki değişken arasındaki
çoklu doğrusal bağıntının açıklayıcı değişkenlerin katsayı tahminlerinin
varyanslarını ve kovaryanslarını önemli ölçüde etkileyecek kadar güçlü olduğu du-
rumu çoklu doğrusal bağıntı olarak adlandırılır. Başka bir ifade ile çoklu doğrusal
bağıntının ortaya çıkması için:
1. İki veya daha fazla açıklayıcı değişken arasında güçlü, fakat tam olmayan, doğ-
rusal bir ilişki olmalıdır. Dört açıklayıcı değişkenli bir regresyon modelinde,
örneğin ikinci ve üçüncü açıklayıcı değişkeni arasında
X i 3  1   2 X i 2  vi (10.15)
şeklinde veya ikinci, üçüncü ve dördüncü açılayıcı değişkenler arasında
X i 4  1   2 X i 2  3 X i 3  wi (10.16)
şeklinde ifade edilebilecek tam olmayan bir doğrusal ilişki olmalıdır. Aynı za-
manda, bu iki regresyondan elde edilecek belirleme katsayılarını sırası ile R32
ve R42 ile gösterirsek, R32 ve R42 ’nin büyüklüğü 1’e yakın olmalıdır.
2. Bu denklemler tam doğrusal ilişkiden farklı olarak aynı zamanda vi ve wi hata
terimlerini içermektedir. Dolayısı ile, (10.15)’te X 3 ile X 2 ve (10.14)’te X 4
ile X 2 ve X 3 arasında güçlü bir doğrusal ilişki olmalı, örneğin bu iki regresyon
belirleme katsayıları, bunlara sırasıyla R32 ve R42 diyelim, 1’e yakın olmalıdır.
Fakat bu ilişkiler her gözlemde vi  0 ve wi  0 olacak şekilde güçlü olmama-
lıdır.
3. Açıklayıcı değişkenler arasındaki doğrusal ilişki regresyon modeli katsayı tah-
minlerinin varyanslarını ve kovaryanslarını (ve dolayısıyla tahminlerini) önemli
ölçüde etkilemeli, fakat bu durum başka nedenlerden kaynaklanmamalıdır. Ha-
tırlanacağı gibi çoklu doğrusal bağıntı olmasa da katsayı tahminlerinin
varyansları ve kovaryansları başka nedenlerle -- hata terimi varyansı büyük
ve/veya gözlem sayısı küçük ve/veya açıklayıcı değişkenlerin varyansı küçük
olduğunda -- büyük olabilir.
Bir regresyon modeline çoklu doğrusal bağıntı probleminin var olması ne gibi
sonuçlar doğurmaktadır? Çoklu doğrusal bağıntının doğuracağı temel sonuçlar aşa-
ğıda listelenmiştir.

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:12


Ekonometriye Giriş

Olağan en küçük kareler tahmincileri en iyi doğrusal yansızlık özeliklerini ko-


ruyacaktır
Unutulmaması gereken önemli nokta çoklu doğrusal bağıntının mevcudiyeti mode-
lin yanlış tanımlandığı anlamına gelmez. Klasik doğrusal regresyon modeli varsa-
yımları geçerli olduğu sürece olağan en küçük kareler tahmincileri tüm eniyi özel-
liklerini koruyacaktır, yani tahminciler yansız, en iyi doğrusal yansız olmaya devam
edecektir. Yani çoklu doğrusal bağlantı problemi olduğu durumda da hiçbir başka
doğrusal yansız tahminci olağan en küçük karelerden daha düşük varyansa sahip
olmayacaktır.
Katsayı tahminlerinin varyansları ve kovaryansları artacaktır
Çoklu doğrusal bağıntının yarattığı en temel sonuçlardan biri katsayı tahminlerinin
varyanslarını ve kovaryanslarını arttırmasıdır. İki açıklayıcı değişkenli model kap-
samında, problemin nasıl ortaya çıktığı konusuna daha önce kısaca değinmiştik. Bu
halde tahmincilerin koşullu varyansları ve kovaryansları
2 2
 b2   (10.17)
2
x2
i2 (1  rX22 X 3 ) nvar( X 2 )(1  rX22 X 3 )
2 2
 b2   (10.18)
3
x2
i3 (1  rX22 X 3 ) n var( X 3 )(1  rX22 X 3 )
 2 rX 2 X 3  2 rX 2 X 3
b b   (10.19)
x x (1  rX22 X 3 )
2 3
n var( X 2 )var( X 3 )(1  rX22 X 3 )
2 2
2 3

şeklinde ifade edilebileceğini ve gözlem sayısı, n, ve açıklayıcı değişken


varyansları, var( X 2 ), var( X 3 ) , aynı iken, açıklayıcı değişkenler arasındaki (ilgile-
şim) korelâsyon ne kadar yüksek ise, tahmincilerin değişirliklerinin (varyanslarının)
ve (eşdeğişirliklerinin) kovaryanslarının o kadar büyük olacağını görmüştük. Büyük
değişirlilikler (varyanslar) ve dolayısı ile büyük standart hatalar demek güvensiz
veya değişkenlik riski fazla parametre tahminleri demektir. Öte yandan
kovaryasların yüksek olması demek bir parametre tahmininin diğer parametre tah-
minin etkisini kendi üzerine alması demektir, böyle bir durumda açıklayıcı değiş-
kenlerin bağımlı değişken üzerindeki bireysel etkilerini birbirinden ayırmak güçle-
şecek, yani bu etkiler birbirine karışacaktır.
Bununla birlikte yine (10.17)-(10.19)’dan açıkça görüldüğü gibi açıklayıcı de-
ğişkenler arasındaki yüksek korelasyonun OLS tahmincilerinin ille de güvensiz
tahminler vereceği anlamına gelmemektedir. Eğer regresyon katsayılarının
varyanslarını ve kovaryanslarını belirleyen diğer faktörler açıklayıcı değişkenler
arasındaki yüksek korelasyonun etkilerini hafifletici değerler alıyorsa, yani gözlem
sayısı büyük, açıklayıcı değişkenlerin örneklem varyansları büyük ve hata teriminin
varyansı küçük ise, yine de güvenli tahminler elde edilebilir. Dolayısı ile çoklu doğ-

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:13


Çoklu Doğrusal Regresyon Modeli

rusal bağıntı probleminin ortaya çıkması sadece açıklayıcı değişkenler arasındaki


yüksek korelasyona değil aynı zamanda diğer faktörlerin etkisine bağlı olmaktadır.
Sonuç olarak, açıklayıcı değişkenler birbiri ile korelasyonsuz (birbirine ortogonal)
olmadığı sürece tüm regresyonlar açıklayıcı değişkenler arasındaki doğrusal bağlan-
tıdan bir ölçüde etkilenecektir. Bu bağlantı ancak parametre tahminlerinin
varyanslarını ve kovaryanslarını ciddi olarak etkilediğinde çoklu doğrusal bağlantı
probleminden söz edilmektedir. Başka bir ifade ile çoklu doğrusal bağlantı problemi
bir “tür” değil, bir “derece” meselesidir.
İkiden fazla açıklayıcı değişkenli modellerde, örneğin
Yi  1  2 X i 2  3 X i 3   k X ik  ui i  1, 2, , n
modelinde, kesme dışındaki, herhangi bir katsayının OLS tahmincisinin, bk , koşul-
lu varyansının
2 1  u2 1
var(bk X)   b2k  n u    (10.20)
 2
 Rk2
 xik
2 1 Rk n var( X k ) 1
i 1

formülünden çıkarılabileceğini ve diğer şeyler aynı iken Rk2 yani X ik açıklayıcı de-
ğişkeninin diğer açıklayıcı değişkenler üzerine regresyonundan elde edilen R-kare
arttıkça var(bk X) ’nin artacağını biliyoruz. Fakat bu modellerde de hata teriminin
varyansı düşük, gözlem sayısı yüksek ve açıklayıcı değişkenin örneklem varyansı
yüksek ise Rk2 yüksek olması var(bk ) üzerinde ciddi bir problem yaratmayabilecek-
tir. Açıklayıcı değişkenler arasındaki doğrusal ilişkinin var(bk ) üzerinde ciddi bir
etkiye sahip olması örneklemden örnekleme değişmektedir.
Kuşkusuz yukarıda belirtilen nedenlerle, çoklu doğrual bağıntı problemi olmak-
sızın da katsayı tahminlerinin varyansları ve kovaryansları artabilir. Dolayısı ile
katsayı tahminlerindeki her varyans ve kovaryans artışı çoklu doğrusal bağıntı prob-
lemi anlamına gelmez.
Hipotez testlerinin gücü zayıflar ve güven aralıkları genişler
Çoklu doğrusal bağıntı problemi doğal olarak parametre tahminlerinin tahmin edi-
len varyanslarını ve dolayısıyla standart hatalarını arttırdığı için çoklu doğrusal ba-
ğıntı probleminin olmadığı duruma kıyasla tahmin edilen katsayıların anlamsız ol-
ma eğilimi artacak ve güven aralıkları genişleyecektir. Fakat dikkat edilirse bu so-
nuç, çoklu doğrusal bağıntı probleminin tahminleri daha anlamsız hale getirdiği an-
lamına gelmemektedir. Keza hipotez testlerinin ve aralık tahminin artık doğru ol-
madığı anlamına da gelmemektedir. Çoklu doğrusal bağıntı problemi nedeniyle kat-
sayı tahminlerinin hassasiyetini yitirmesi hipotez testlerinin gücünün zayıflamasına
neden olmaktadır. Çoklu doğrusal bağıntı problemi nedeniyle hipotez testlerinin
doğru ve yanlış hipotezler arasında ayırım becerisi azalmaktadır.

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:14


Ekonometriye Giriş

Tahminler denklem tanımlamasına karşı çok duyarlı hale gelir


Çoklu doğrusal bağıntı problemi parametre tahminlerinin kovaryanslarını arttırdığı
için bir açıklayıcı değişken modelden düşürüldüğünde veya modele yeni bir açıkla-
yıcı değişken eklendiğinde, söz konusu değişken istatistiksel olarak anlamsız bir
değişken dahi olsa denklem içinde yer alan çoklu doğrusal bağıntılı değişkenlerin
katsayıları önemli ölçüde değişecektir.
Modelin uyumu ve genel anlamlılığı ciddi ölçüde etkilenmeyecektir
Çoklu doğrusal bağıntı problemi R 2 ile ölçülen uyumun iyiliğini ve F istatistiği ile
ölçülen genel anlamlılık ölçüsünü etkilemeyecektir. Çünkü çoklu doğrusal bağıntı
problemi açıklanan ve açıklanmayan değişim ölçülerini değil sadece parametre
tahminlerinin varyanslarını ve kovaryanslarını etkilemektedir.
Model içindeki çoklu doğrusal bağıntılı olmayan değişkenlerin OLS tahmin-
leri çoklu doğrusal bağıntıdan etkilenmeyecektir
Bunun temel nedeni çoklu doğrusal bağıntı probleminin ondan etkilenen açıklayıcı
değişkenler arasındaki güçlü doğrusal korelâsyondan kaynaklanmasıdır. Eğer bir
açıklayıcı değişken diğer açıklayıcı değişkenlerle çoklu doğrusal bağıntı problemi
yaratacak kadar güçlü bir ilişki içinde değil ise söz konusu açıklayıcı değişken diğer
değişkenleri etkileyen çoklu doğrusal bağıntı probleminden etkilenmeyecektir.
Çoklu doğrusal bağıntı bir modelin önraporlama becerisini etkilemeyecektir
Çoklu doğrusal bağıntı problemi açıklayıcı değişkenlerin bağımlı değişken üzerin-
deki topyekün etkisini hiçbir şekilde etkilememektedir. Bu problem etkilenen açık-
layıcı değişkenlerin OLS tahminlerinin kovaryaslarını arttırmakta ve dolayısı ile söz
konusu değişkenlerin katsayı tahminlerinin etkilerinin birbirine karışmasına neden
olmaktadır.

Çoklu doğrusal bağıntı göstergeleri


Bir denklemde belirli parametre tahminlerinin çoklu doğrusal bağıntı probleminde
etkilenip etkilenmediğini nasıl belirleyeceğiz? İlk dikkat edilmesi gereken nokta her
denklemde açıklayıcı değişkenler arasında belirli bir düzeyde çoklu doğrusal bağıntı
olacaktır. Gerçek hayatta birbiri ile korelâsyonsuz açıklayıcı değişkenler kümesi
bulmak hemen hemen imkânsızdır. Böyle bir durumda zaten çoklu regresyon mode-
li kullanımına gerek kalmazdı. Burada sorulan soru bir denklemde çoklu doğrusal
bağıntı probleminin regresyon tahminlerinin varyanslarını ve kovaryanslarını (ve
dolayısı ile parametre tahminleri) etkileyip etkilemediğine nasıl karar vereceğimiz
sorusudur.
İkinci dikkat edilmesi gereken nokta çoklu doğrusal bağıntının özünde örneklem
ile ilgili bir sorun olmasıdır. Yani çoklu doğrusal bağıntı probleminin olup olmama-
sı örneklemden örnekleme değişebilir. Dolayısı ile bir örneklemden yapılan tahmin-

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:15


Çoklu Doğrusal Regresyon Modeli

lerde çoklu doğrusal bağıntı problemi olup olmadığına karar verirken daha çok ör-
neklem verileri ile bağıntılı sorunlar üzerinde durulmalıdır.
Yukarıda açıklanan nedenlerle çoklu doğrusal bağıntı probleminin tanısına yö-
nelik olarak önerilen ölçüler ciddi anlamda istatistiksel testler değil sadece birer
sinyal niteliğinde göstergelerdir.
Güçlü Göstergeler

Modelin genel olarak anlamlı fakat açıklayıcı değişken katsayı tahminlerinin


anlamsız olması
Bir çoklu regresyon modelinin tahmin edildiğini ve modelin, seçilen bir anlamlılık
düzeyinde, genel anlamlılık F testine göre anlamlı fakat açıklayıcı değişken katsa-
yı tahminlerinin tümü veya anlamlı olması beklenen bir grup değişkenin katsayıları
için yapılan bireysel t testlerine göre anlamsız olduğunu farz edelim. Böyle bir du-
rum çoklu doğrusal bağıntı problemi işareti olarak algılanmaktadır, çünkü açıklayıcı
değişkenlerin bağımlı değişken üzerindeki etkileri birbirinde ayrılamaz hale gelmiş-
tir. Bu halde açıklayıcı değişkenlerin bir bütün veya grup olarak bağımlı değişkeni
etkilemekte fakat bireysel etkileri zayıf olmaktadır. Bu ölçütün dezavantajı tüm ve-
ya bir grup açıklayıcı değişken etkilerinin birbirinden ayrılamayacağı durumları
dikkate alan katı bir ölçüt olmasıdır. Birçok durumda zararlı çoklu doğrusal bağıntı
tüm veya bir grup açıklayıcı değişkeni değil sadece bazı açıklayıcı değişkenlerin et-
kisini birbirinden ayrılamaz hale getirmektedir.
Modelin tanımında veya tahminde kullanılan gözlem sayısında küçük deği-
şiklik yapıldığında tahminlerin ve/veya bunların standart hatalarının büyük
ölçüde değişmesi.
Modele yeni bir değişken eklendiğinde veya düşürüldüğünde, modelin gözlem sayı-
sında ufak değişiklik yapıldığında tahminlerde veya bunların standart hatalarında
büyük değişiklikler olması durumu ile seyrekte olsa karşılaşılmaktadır. Bu gibi du-
rumlar çoklu doğrusal bağıntı problemi işareti olarak değerlendirilmektedir. Kuşku-
suz aynı problemler açıklayıcı değişkenlerin varyanslarındaki değişmeden de kay-
naklanıyor olabilir.
Rk-kareyi temel alan göstergeler
Çok yüksek Rk2 , k  2,3, , K
Açıklayıcı değişkenlerin teker teker modeldeki tüm diğer açıklayıcı değişkenler
üzerine regres edilmesi ile bulunan Rk2 ’lerden, birinin veya daha fazlasının birime
yakın olmasının çoklu doğrusal bağıntı göstergesi olarak kullanılabileceği ileri sü-
rülmüştür. İki açıklayıcı değişkenli modelde bu ölçü basit korelasyon katsayısını ka-
resi ile özdeş olmaktadır.

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:16


Ekonometriye Giriş

Rk2 ’lere bakarak karar nasıl verilecektir? Beş açıklayıcı değişkenli, X 2 , X 3 ,


X 4 , X 5 , X 6 bir modelimiz olduğunu ve açıklayıcı değişkenlerden her birini diğer
açıklayıcı değişkenler üzerine regress ederek yardımcı regresyonları OLS tahmin et-
tiğimizi ve R22 , R32 , R42 , R52 , R62 ’yı hesapladığımız farz edelim. Bunların hepsi 1 ile
0 arasında değer alacaktır. Şimdi 1’e yakınlık ve dolayısı ile zararlı çoklu doğrusal
bağıntının nedeni olan açıklayıcı değişken veya değişkenler nasıl belirlenecektir?
Bir yöntem anlamlı Rk2 ’leri çoklu doğrusal bağıntı nedeni olarak seçmektir. Anlam-
lı Rk2 ’leri nasıl belirleyeceğiz? Bunu dolaylı olarak, genel anlamlılık testi olarak
bildiğimiz F testini yardımcı regresyonlara uygulayarak belirleyebiliriz.
Bazen bu ölçünün alternatif bir uyarlaması olan Rk2  R 2 , k  2,3, , K ölçütü
çoklu doğrusal bağıntı problemi ölçüsü olarak kabul edilmektedir, burada R 2 mo-
delin bilinen belirleme (determinasyon) katsayısını belirtmektedir.
Yukarıdaki tartışmalardan da kolaylıkla anlaşılacağı gibi iki açıklayıcı değişken-
li modellerde Rk2 ölçüsü basit korelâsyon katsayısının karesi, yani rX2i X j , olmaktadır.
Dolayısı ile bu modellerde basit korelasyon katsayısının anlamlılığını başka yön-
temlerle sınayabiliriz.
Varyans Enflasyon Faktörü (VIF) veya Tolerans (TOL).
Bir bağımsız değişkenin geri kalan bağımsız değişkenler üzerine regresyonundan
elde edilen Rk2 , k  2,3, , K ’yi temel alarak geliştirilen bir diğer ölçü şöyle tanım-
lanmaktadır:
1
VIFk  k  2,3, , K (10.20)
1  Rk2
Bu ölçüye varyans enflasyon faktörü adı verilmektedir, çünkü denklem (10.20)’den
açıkça görüldüğü gibi Rk2 yüksek iken VIFk yüksek olacak bu da var(bk ) ’yi yük-
seltecek, yani var(bk ) ’nin “enflasyonu”na neden olacaktır. Bazı araştırmacılar
10’dan büyük varyans enflasyon faktörünün ciddi çoklu doğrusal bağıntı problemi-
ne neden olduğunu savunmaktadır. Bu 10 sayısal değerinin nasıl belirlendiği pek
açık değildir.
Benzer şekilde, tolerans (TOL) adı verilen VIF’in tersi, yani
1
TOLk   1  Rk2 k  2,3, , K
VIFk
çoklu doğrusal bağıntı ölçüsü olarak kullanılmaktadır, bu ölçü 0  TOLk  1 aralı-
ğında yer alır. TOLk ’nin sıfıra yakın değerleri çoklu doğrusal bağıntı problemi öl-
çüsü olarak kabul edilmektedir.

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:17


Çoklu Doğrusal Regresyon Modeli

Açıkça görüldüğü gibi VIFk ve TOLk ölçütleri Rk2 ’nin yeniden başka türlü ifa-
de edilmesinden başka bir şey değildir. Rk2 ölçütü için söylediklerimiz aynen VIF
ve TOL ölçütleri için de geçerlidir.
XX matrisini temel alan göstergeler
XX ’in determinantı
XX ’in determinantı küçük ise doğrusal bağıntının yüksek olacağını biliyoruz.
Bundan hareketle bazı araştırmacılar XX ’in determinant değerinin çok küçük ol-
masının bir çoklu doğrusal bağıntı ölçüsü olarak kullanılabileceğine işaret etmiştir.
Bunun ne kadar geçerli bir ölçü olacağına iki açıklayıcı değişkenli bir model örneği
ile açıklık getirebiliriz. Böyle bir modelde
n X i2 X i3

XX   X i 2 X X X  n  x22  x32    x2 x3  


2 2
i2 i2 i3
 
 X i3 X X i2 i3 X 2
i3

 n x  x (1  r
2
2
2
3 )  n var( X 2 ) var( X 3 )(1  rX22 X 3 )
2
X2 X3

olmaktadır. Bu ölçünün alt ve üst sınırları belli değildir. Diğer ölçülerden farklı ola-
rak bu ölçünün büyüklüğü korelâsyonlu tüm değişkenlerin örneklem
varyanslarından etkilenmektedir.
Koşul indeksi
XX ’nün küçük determinant değeri XX ’nün öz (karakteristik) köklerinden en
azından birinin sıfıra yakın olacağı anlamına gelmektedir. Bundan esinlenerek bazı
yazarlar en büyük öz kökün en küçük öz köke oranının bir çoklu doğrusal bağıntı
ölçüsü olarak kullanılabileceğini ileri sürmektedir. Öz kökler matrislerin özellikle-
rini belirlemede yararlı ölçülerdir; öz köklerin çarpımı matrisin determinantını ver-
mektedir. Öz köklerden hareketle koşul indeksi(CI) şöyle tanımlanmaktadır:
Maksimum öz kök
CI   c
Minimum öz kök
c ’ya koşul sayısı adı verilmektedir. Koşul indeksi 30’dan büyük değer alması bu
ciddi çoklu doğrusal bağıntı problemi olarak kabul edilmektedir.
Rk2 ’ye ve XX matrisine dayanan çoklu doğrusal bağıntı problemi ölçütleri
var(bk ) (ve tahmincilerin kovaryansları) ile Rk2 ilişkisi üzerinde durmaktadır. Ger-
çekte var(bk ) (ve tahmincilerin kovaryansları) sadece Rk2 ’ye değil aynı zamanda
hata teriminin varyansına, gözlem sayısına, n , ve açıklayıcı değişkenlerin
varyanslarına bağlı olarak değişmektedir. Bu nedenle göstergelerin çoklu doğrusal
bağıntıya işaret ettiği durumlarda dahi, eğer gözlem sayısı ve açıklayıcı değişken
varyansları yeterince büyük ise, katsayı tahminlerinin varyansları (ve kovaryansları)
yüksek olmayabilecektir. Keza tahmincilerin varyansları, Rk2 yüksek olduğu için

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:18


Ekonometriye Giriş

değil, gözlem sayısı ve açıklayıcı değişken varyansları küçük olduğu için yüksek
olabilir.
Çoklu doğrusal bağıntı problemi için çözümler
Görmezlikten gelme
Bazen çoklu doğrusal bağıntı problemi ölçütlerinin takdirliği dikkate alınarak hiçbir
şey yapamamak en iyi yol olabilir. Çoklu doğrusal bağıntılı değişkenlerin bireysel
katsayıları önemli olmayabilir. Değişkenler arasındaki çoklu doğrusal bağıntı yük-
sek olabilir fakat onun etkisini hafifletici faktörler nedeniyle katsayı tahminlerinin
standart hataları ve dolayısı ile t testleri çoklu doğrusal bağıntıdan önemli ölçüde
etkilenmeyebilir. Bu gibi durumlarda en iyi çözüm modeli olduğu gibi bırakmaktır.
Çoklu doğrusal bağıntılı değişkenlerden birini model dışında bırakma
Sadece iki bağımsız değişkeninin kuvvetli bir şekilde korelâsyonlu olduğu durum-
larda hemen akla gelen bir yol bağımsız değişkenlerden birinin model dışında bıra-
kılmasıdır. Eğer iki değişken aşağı yukarı aynı bilgiyi sağlıyor ise veya varyansı
çok küçük olan bir açıklayıcı değişken modelen düşürülüyorsa bu bir çözüm yolu
olabilir. Fakat bunun dışındaki durumlarda, daha önce gördüğümüz gibi, böyle bir
çözüm model içinde kalan bağımsız değişken tahmincilerinin yanlı olmasına neden
olur.
Çoklu doğrusal bağıntılı değişkenleri birleştirme
Bazen çoklu doğrusal bağıntılı değişenleri birleştirmek bir çözüm yolu olabilir. Ör-
neğin gıda harcamaları modelinde hanehalkının bazı gelirleri nakdi diğer bazıları
ise ayni olabilir ve bunlar güçlü bir şeklide korelâsyonlu olabilir. Böyle bir durumda
modele iki ayrı gelir değişkeni katmak yerine iki gelir değişkeni belirli bir rafine iş-
leminden geçirilerek birleştirilebilir. Ağırlık ve boyun birlikte çoklu doğrusal bağın-
tılı açıklayıcı değişken olarak göründüğü bir modelde iki değişken yerine bunların
bir şekilde birleştirilmesinden elde edilecek yüzey değişkeni kullanılabilir. Anne ve
babanın eğitim düzeylerinin veya yaşlarının ayrı ayrı göründüğü bir modelde bunlar
uygun bir ortalaması alınarak ebeveyn eğitim düzeyi veya yaşı olarak modele katı-
labilir. Bazen çoklu doğrusal bağıntılı değişkenleri oran olarak modele katmak uy-
gun olabilir.
Örneklem büyüklüğünü arttırma
Çoklu doğrusal bağıntı problemine dolaylı bir çözüm örneklem büyüklüğünü art-
tırmak ve bu yolla çoklu doğrusal bağıntının tahmin edilen katsayıların varyansları
üzerindeki yükseltici etkisini hafifletmektir.

Örnek 10.7: Yoksulluk Oranı ve Belirleyicileri (DATA4-10.WK1)


DATA4-6 ABD’de Kaliforniya eyalatinin 58 şehrindeki yoksulluk oranı ve bunların
belirleyicilerine ilişkin verileri içermektedir. Orijinal model şöyledir:

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:19


Çoklu Doğrusal Regresyon Modeli

POVRATEi  1   2URBi  3 FAMSIZEi   4UNEMPi


 5 HIGHSCHLi  6COLLEGEi  6 MEDINCi  ui
Bağımlı ve açıklayıcı değişkenler aşağıdaki gibi tanımlanmıştır.
POVRATE = Yoksulluk sınırı altında gelire sahip ailelerin yüzdesi (Veri aralı-
ğı: 3 – 20.8)
URB = Kentsel kesim nüfusunun yüzde payı (Veri aralığı: 2.7 – 94.3)
FAMSIZE = Hanehalkı başına kişi sayısı (Veri aralığı: 2.29 – 3.26)
UNEMP = Yüzde olarak işsizlik oranı (Veri aralığı: 4 – 21.3)
HIGHSCHL = Sadece lise ve yüksek okul eğitimi görmüş (25 yaş ve üzeri) nü-
fus yüzdesi (Veri aralığı: 43 – 68.5)
COLLEGE = Dört yıl veya daha uzun süreli üniversite eğitimini tamamlayan
(25 yaş ve üzeri) nüfus yüzdesi (Veri aralığı: 9 – 44)
MEDINC = Aile geliri medyanı, bin dolar olarak (Veri aralığı: 24.364 –
59.147)

Orijinal model tahmini edildiğinde Tablo 10.6’de Model 1 olarak sunulmuştur.

Tablo 10.6: Model 1

Modelin genel olarak anlamlı ( F istatistiğinin p -değeri çok küçüktür) ve R 2 yük-


sek iken yoksulluk üzerinde etkili olması beklenen dört değişkenin, yani URB ,
UNEMP , HIGHSCHL ve COLLEGE değişkenlerinin anlamsız olduğu görülmek-
tedir. Bu durum bu modelede çoklu doğrusal bağıntı problemi olabileceği kuşkusu-
nu uyandırmaktadır. Dikkati çeken bir başka nokta MEDINC değişkeninin çok an-

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:20


Ekonometriye Giriş

lamlı olması ve negatif işaretli almasıdır. POVRATE ve MEDINC değişkenlerinin


temelde aile gelirine dayanmaları akla bu değişkenlerin yaklaşık aynı şeyi ters yön-
den ölçüyor olma ihtimalini akla getirmektedir. Keza orta direkt aile gelirlerinin
önemli belirleyicileri bu modelde MEDINC ile birlikte açıklayıcı değişken olarak
görünen FAMSIZE , UNEMP , HIGHSCHL ve COLLEGE değişkenleridir. Dola-
yısı ile MEDINC bu modele ait bir açıklayıcı değişken değildir ve onun modelden
düşürülmesi uygun olacaktır. Bu şekilde tahmin edilen yeni model, Model 2, Tablo
10.7’da verilmiştir.
Tablo 10.7: Model 2

Bu model genel olarak anlamlı ve ( F istatistiğinin p -değeri çok küçüktür) yüksek


R 2 ’ye sahip olmasına karşın, modelin dört değişkeni, yani URB , UNEMP ,
HIGHSCHL ve COLLEGE , anlamsızdır. Çoklu doğrusal bağıntı problemi olma
ihtimali bu modelde de geçerliliğini korumaktadır. Bununu geçerliliğini araştırmak
için her bir açıklayıcı değişkeni tek tek diğer açıklayıcı değişkenler üzerine regres
eden yardımcı yardımcı regresyonları tahmin edelim. Söz konu beş yardımcı reg-
resyon tahminleri Tablo 10.8’de gösterilmiştir. Tahminlerden bulunan F istatistik-
leri, Rk2 ’ler, VIF’ler ve TOL’lar Tablo 10.8’de listelenmiştir. Ayrıca Tablo 10.9’un
son sütununda açıklayıcı değişkenlerin örneklem varyansları verilmiştir. Rk2 ’lerin
tümü F istatistikleri ile sınandığında anlamlıdır ve URB değişkeninki hariç hepsi
0.50’nin üzerindedir. Rk2 ’leri göreli olarak en yüksek olan ve VIF’leri 4’ü aşan
açıklayıcı değişkenler COLLEGE ve UNEMP değişkenleridir. Öte yandan Model
2’de anlamlılığı en düşük olan değişken FAMSIZE değişkenidir, bunu UNEMP
değişkeni izlemektedir. Dikkati çeken diğer bir nokta FAMSIZE aynı zamanda
varyansı en düşük olan değişkendir. Ayrıca FAMSIZE , yani aile büyüklüğü, yok-

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:21


Çoklu Doğrusal Regresyon Modeli

sulluk üzerindeki etkisi az belirgin olan değişkendir. Bütün bu bulgular


FAMSIZE ’ın modelden düşürülebileceğine işaret etmektedir.
Tablo 10.8: Yardımcı Regresyonlar

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:22


Ekonometriye Giriş

Tablo 10.9: Çoklu Doğrusal Bağıntı Ölçüleri


Bağımlı
F R2 VIF( ) TOL( ) var( X k )
değişken k k k

URB 8.14 [0.000] 0.38 1.61 0.62 372.99


FAMSIZE 22.86 [0.000] 0.63 2.70 0.37 0.06
UNEMP 41.67 [0.000] 0.76 4.17 0.24 15.20
HIGHSCHL 28.34 [0.000] 0.68 3.12 0.32 37.97
COLLEGE 510.78 [0.000] 0.81 5.26 0.19 58.27

Tablo 10.10: Model 3

Model 3’ün tahminleri Tablo 10.10’da verilmiştir. Yeni tahmin edilen modelde
anlamsız olan tek değişken UNEMP değişkenidir. İlk bakışta bunun nedeninin yük-
sek R32 veya VIF3 ’ün 4’ten büyük değer alması, yani zararlı çoklu doğrusal bağıntı
problemi, olduğu düşünülebilir. Fakat biraz daha dikkatle incelendiğinde UNEMP
örneklem varyansı ikinci en küçük olan değişkendir. Yani büyük bir ihtimalle
UNEMP değişkeninin katsayısı gerçekten anlamsızdır. UNEMP düşürülerek bulu-
nan yeni model tahmini Tablo 10.10’da sunulmuştur. Model 4’te tüm parametre
tahminleri yüksek düzeyde anlamlıdır. Model 2’de URB değişkeni katsayı tahmini
anlamsız iken şimdi anlamlı olmuştur.

Tablo 10.10: Model 4

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:23


Çoklu Doğrusal Regresyon Modeli

Örnek 10.7

Bölüm 10, 31.10.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:24


12
FARKLI YAYILIM (HETEROSKEDASTİSİTİ)
Eşit Yayılım (Homoskedastisiti) Varsayımının İhlali
Çoklu doğrusal regresyon modelinin eşit yayılım (homoskedastisiti) varsayımı hata
teriminin, ui , açıklayıcı değişkenler üzerine koşullu varyansının, tüm i‟ler için
sabit, yani
var(ui X)   2 i  1, , n (12.1)

olduğunu varsaymaktadır. ui ‟nin koşullu ortalamasının sıfır olduğu


varsayıldığından eşit yayılım (homoskedastisiti) varsayımını alternatif olarak

 
E ui2 X   2 i  1, ,n (12.2)

biçiminde yazabiliriz. Bu varsayım geçerli olduğunda hata teriminin tüm


gözlemlerinin aynı dağılımdan, yani ortalaması sıfır ve varyansı  2 gibi sabit bir
sayı olan bir dağılımdan, çekildiği düşünülebilir. Basit doğrusal regresyon modeli
için homoskedastik hata terimi Şekil 12.1‟de gösterilmiştir. Dikkat edilirse örnek
olarak alınan beş X i değeri oldukça farklı olmasına karşın ui ‟lerin dağılımı aynı
kalmaktadır.
Heteroskedastisiti söz konusu olduğunda bu hata terimi dağılımının varyansı
sabit kalmamakta, hangi gözleme bakıldığına bağlı kalarak değişmektedir:

 
var(ui X)  E ui2 X   i2 i  1, ,n (12.3)

Dikkat ederseniz eşitlik (12.2) ile (12.3) arasındaki terk farklılık ikincide  2 ‟ye alt
indis olarak i eklenmesidir. Bu i , yani gözlem, değiştikçe, Şekil 12.2‟de
gösterildiği gibi heteroskedastik hata terimi varyansının değişeceğine işaret
etmektedir.
Heteroskedastisiti

f (ui )

X1
X2
X3
X4 E (Yi X i )     X i
X5
X
Şekil 12.1 Eşit yayılım (Homoskedastisiti)

Hata terimi, ui , gerçekte her gözlemde sadece tek bir değer almaktadır, o halde
bunun dağılımı ve varyansı dendiğinde ne ifade edilmek istenmektedir? Burada
sözü edilen şey elimizde bulunan örneklemi yaratan sürecin potansiyel davranışıdır.
Çoklu doğrusal regresyon modeli varsayımları altında n gözlemli bir örneklemin
X ‟e koşullu gerçek hata terimleri, u1 , , un , koşullu ortalaması 0 ve koşullu
varyansı aynı olan olasılık dağılımlarından çekilmektedir. Gözlenemeyen hata
terimlerinin gerçek değerleri bazen pozitif, bazen negatif, bazen sıfıra yakın bazen
sıfırdan uzak ve hatta bazen sıfır olabilir, fakat bunların gözlemden gözleme
sistematik bir biçimde değişmesini beklemek için bir neden yoktur. Başka bir ifade
ile ui ‟nin herhangi iki değer arasında bir değer alma olasılığı gözlemden gözleme
değişmeyecektir. Eşit yaylım (homoskedastisiti) olarak bilinen bu koşul gözlemden
gözleme aynı kalan saçılım veya aynı kalan değişirlik anlamına gelmektedir. Şekil
12.1‟deki dağılımların orta noktalarından indirilen dikmelerin gerçek regresyon
doğrusunu kestiği noktalar hata teriminin koşullu beklenen değerinin sıfır olduğu
noktalardır. Hata teriminin gerçekte aldığı sıfırdan farklı değerler bu noktaların iki
tarafında herhangi bir yerde olabilir. Hata terimi eşit yaylımlı (homoskedastik)
olduğunda ui ‟lerin potansiyel dağılımı Şekil 12.1‟de gösterildiği gibi olacaktır.

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:2


Ekonometriye Giriş

f (ui )

X1
X2
X3
X4 E (Yi X i )     X i
X5
X
Şekil 12.2 Farklı yayılım (heteroskedastisiti)

Regresyon analizinde genelde homoskedastisitinin geçerli olduğu


varsayılmasına karşın, özellikle yatay kesit verilerinde ve bazı zaman serisi
verilerinde ui ‟ları potansiyel dağılımı gözlemden gözleme değişebilmektedir.
Böyle bir durum Şekil 12.2‟de gösterilmiştir. Şekilde X i ‟nin değeri arttıkça
ui ‟lerin potansiyel dağılımının değişirliğinin (varyansının arttığı) bir kitle söz
konusudur. Bu X i arttıkça hata teriminin ille de büyük bir pozitif veya negatif
değer alacağı anlamına gelmemektedir, sadece herhangi iki büyük değer arasında
değer alma olasılığının arttığı anlamına gelmektedir.
Örneğin eğer gıda harcamalarını etkileyen, gelir ve fert sayısı dışındaki,
gözlenemeyen faktörlerin değişirliği (varyansı), gelir ve/veya fert sayısı arttıkça
aynı kalıyorsa, Şekil 12.1‟de tasvir edildiği gibi, gıda harcamaları denkleminde hata
terimleri eşit yayılımlı (homoskedastik), artıyorsa Şekil 12.2‟de gösterildiği gibi,
hata terimler, farklı yayılımlı (heteroskedastik) olacaktır.

Farklı yayılımın (Heteroskedastisitinin) ortaya çıkış nedenleri


ve biçimi
Yatay kesit verileri ile tahmin edilen regresyon modellerinde heteroskedasti, yani
hata teriminin koşullu varyansının değişken olması, değişik nedenlerle karşımıza
çıkabilir. Bozucu terimin ilişkili olduğu tek bir ölçek değişkeni olabilir. Örneğin
satışları incelenen değişik büyüklükteki süper marketlerde kata teriminin koşullu
dağılımı eşyayılımlı (homoskedastik) olmayabilir. Hanehalkı tüketin davranışına
yönelik çalışmalarda bozukluk terimi koşullu varyansı gelir düzeyi ile pozitif olarak
ilişkili olabilir. Bununla yakından ilişkili bir başka durum da bozukluk terimi
varyansı bağımlı değişkenin, örneğin tüketimin, ortalama düzeyi ile ilişkili olabilir.

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:3


Heteroskedastisiti

Aşağıdaki gibi basit bir modeli ele alalım


ui  Zi  i
burada ui modelin bozukluk terimini, Zi bozukluk teriminin varyansını etkilediği
düşünülen ekzojen bir değişkeni (bu regresyon denklemi içinde yer alan bir
değişken olabilir, fakat şart değildir) ve  i şimdiye dek yaptığımız standart
varsayımların geçerli olduğu, sabit  2 koşullu varyanslı, bozukluk terimi olsun. Bu
halde ui ‟nin Zi ‟ye göre koşullu varyansı
var(ui Zi )   i2  Zi2 2
şeklinde olacaktır; bu tür farklı değişirliğe çarpımsal farklı yayılım
(heteroskedastisiti) adı verilmektedir. Daha genel olarak çarpım biçiminde
heteroskedastisiti
var(ui Zi )   i2  Zi 2
şeklinde ifade edilebilir, burada  heteroskedastisitinin gücünü ölçen bir
parametredir;   0 olduğunda bozucu terim homoskedastik olacaktır. Bozucu
terim koşullu değişirliğindeki (varyansındaki) değişmelerin model dışı değişkenler
tarafından etkilendiği düşünülebilir, örneğin gıda harcamaları modelinde bozucu
terim varyansı ailedeki çocuk sayısı ile ilişkilendirilebilir. Engel eğrileri söz konusu
olduğunda belirli bir mal veya mal grubuna yapılan harcamaların koşullu
varyansının çoğunlukla gelir ile ilişkili olduğu varsayılmaktadır. Böyle bir
durumda, modelin açıklayıcı değişkeni X i yukarıda varyansı etkileyen değişken
olarak belirtilen Zi ‟nin yerini alacaktır, yani var(ui X i )  X i  2 olacaktır.
Bir başka heteroskedastisiti biçimine toplamsal heteroskedastisiti adı
verilmektedir. Bunu şöyle ifade edebiliriz:
var(ui Zi1 , Zi 2 , , ZiP )   i2  0  1Zi1   P ZiP
burada Zip ‟ler, p  1, , P , modelde yer alan açıklayıcı değişkenler olabileceği
gibi modelde dışından değişkenler veya modeldeki değişkenlerin belirli
fonksiyonları olabilir;  p  0 , p  1, , P , olduğunda model homoskedastik
olacaktır. P  2 , Zi1  X i ve Z i 2  X i2 varsayıldığında, bu modelin özel bir hali
var(ui X i , X i2 )   i2  0  1 X i  2 X i2
şeklinde elde edilir.
Buna benzer fakat biraz daha genel bir yaklaşım bozucu terim koşullu
varyansının bağımlı değişkenin koşullu beklenen değeri ile ilişkili olduğunu
varsaymaktadır; bu halde Zi ‟nin yerini E (Yi X) alacaktır:
var  ui E(Yi X)    i2  E(Yi X) 2

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:4


Ekonometriye Giriş

Eşyayılım (homoskedastisiti) varsayımı bozukluk varyansının gerçek hayatta da


tüm gözlemler için sabit olduğu imasında bulunmaktadır. Bu varsayım gelişmiş
ülkelerde bütüncül değişkenlerin zaman içindeki gözlemleri açısından çok fazla
problem yaratmamaktadır, çünkü açıklayıcı değişkenlerin tüm gözlem
noktalarındaki büyüklükleri aşağı yukarı aynı büyüklüklerdedir. Örneğin bu ülkeler
için, bir bütüncül tüketim fonksiyonundaki tüketim düzeyinin yakın geçmişteki
yıllardaki değeri yirmi yıl önceki değeri aşağı yukarı aynı büyüklüktedir, aynı şey
gelir için geçerlidir. Çok özel durumlar ve çok uzun zaman dönemleri dışında
gelişmiş ülkeler bütüncül modelleri için homoskedastisiti varsayımı olabilir
görünmektedir. Fakat aynı durum gelişmekte olan ülkeler için geçerli değildir,
bütüncül değişkenlerin değişik zaman noktalarındaki değerleri önemli farklılıklar
gösterebilir. Keza, mikro iktisadi veriler söz konusu olduğunda, gözlemler
büyüklük açısından önemli farklılıklar gösterebilir. Örneğin bireysel ailelerin gelir
ve harcamaları ile ilgili veriler bir aileden diğerine önemli farklılıklar
göstermektedir. Bu halde homoskedastisiti varsayımı önsel gerekçelerle geçerli
görünmemektedir, çünkü normal koşullarda düşük gelirli ailelerin tüketiminin
yüksek gelirli ailelerin tüketiminden daha az değişme göstermesi beklenmektedir.
Düşük gelir düzeylerinde tüketimin ortalama düzeyi düşüktür ve bu düzey
etrafındaki değişmeler sınırlıdır: tüketimin ortalama düzeyin çok altına düşmesi
mümkün değildir, çünkü bu halde aileler açlıkla karşı karşıya kalacaklardır ve
tüketimin ortalamanın çok üstüne çıkması mümkün değildir çünkü ailelerin bunu
karşılayacak varlıkları veya kredi güçleri yoktur. Bu koşullar yüksek gelir
düzeylerinde daha az sınırlayıcıdır. Ampirik deliller bu önsel görüşlerin gerçek
davranışlarla uyumlu olduğunu göstermektedir. Bu ve buna benzer durumlarda
uygun model heteroskedastik bozukluk içeren modellerdir.

Heteroskedastisitinin Doğurduğu Sonuçlar


Aşağıdaki çoklu regresyon modelini ele alalım
Yi  1  2 X i 2  3 X i 3    K X iK  ui (12.4)
Doğrusallık, tam doğrusal bağıntısızlık ve katı dışsallık varsayımları geçerli
olduğunda OLS tahmincileri b1 , b2 , b3 , , bk yansız olduğunu kanıtlamıştık. Yine
aynı varsayımlar altında bu tahmincilerin tutarlı olduğunu biliyoruz. Koşullu
homoskedastisiti varsayımı, yani var(ui X)   2 , OLS tahmincilerinin yansız ve
tutarlı olmasında hiçbir rol oynamamaktadır.

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:5


Heteroskedastisiti

OLS Tahmincilerinin Yansızlığı (Hatırlatma)


Bölüm 6‟da OLS tahmincileri yansızlığının sadece doğrusallık (Varsayım 1), tam
doğrusal bağıntısızlık (Varsayım 2) ve katı dışsallık (Varsayım 3) varsayımlarına
bağılı olduğunu gördük. Dolayısı ile eşit yayılım (homoskedastisiti) varsayımını
OLS tahmincilerinin yansızlığını belirlemede hiçbir rol oynamamaktadır. Bunu bir
kez daha hatırlatmakta yarar olabilir. Regresyon bozukluğu farklı yayılımlı
(heteroskedastik) olduğunda
E  ui X   i2

olmaktadır, yani bozukluk varyansı bir gözlemden diğerine değişebilecek demektir.


Şimdi cevaplandıracağımız soru varyansın bu davranışının regresyon katsayılarının
en küçük kareler tahmincilerinin yansızlık özelliğini nasıl etkilediği sorusudur.
Basit doğrusal regresyon modelinde  ‟nın en küçük kareler tahmincisinin
n

x y i i
b i 1
n

x
i 1
2
i

olduğu bilinmektedir. Öte yandan, Yi     X i  ui ifadesinin n gözlem için


toplamını alır ve bu toplamı boydan boya n ile bölersek,
Y    X u

bulunur. Bu ifadeyi orijinal Yi     X i  ui denkleminden çıkardığımızda

Yi  Y    X i  X   ui  u

elde edilir. Ortalamalardan sapmaları küçük harflerle ifade edersek


yi   xi   ui  u 

yazabiliriz. Bunu b‟nin, en küçük kareler tahmincisini, formülü içinde yerine


koyduğumuzda

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:6


Ekonometriye Giriş

n n n

 x   x   u
i i i  u     xi2   xi  ui  u 
b i 1
n
 i 1
n
i 1

x
i 1
2
i x
i 1
2
i

 x u i i u
b  i 1
n

x
i 1
2
i

yazabiliriz. Dolayısı ile buradan, X i ‟lerle ui korelasyonsuzluğu bilgisi


kullanılarak, b ‟nin x  ( X1 , X 2 , , X n ) ‟e göre koşullu beklenen değerinin

 n 
  xi  ui  u  
E  b x     E  i 1 n 
 



i 1
2
xi 

olduğu bulunur. Benzer şekilde
a  Y  bX     X  u   bX

olarak ifade edilebilir. Buradan a ‟nın x  ( X1 , X 2 , , X n ) ‟e göre koşullu beklenen


değerinin
E  a x     X  E u   E b X  

olduğu bulunur. Yani en küçük kareler tahmincileri farklı yayılım


(heteroskedastisiti) koşulları altında da yansızdır.

OLS Tahmincilerinin Yansızlığı (Hatırlatma)

O halde homoskedastisiti varsayımı neden önemlidir? Bunun iki temel nedeni


vardır. Birincisi, regresyon katsayıları tahmincilerinin etkinlik özelliği tahmincilerin
varyansları ile ilişkilidir. Tahmincinin iyi bir tahminci olabilmesi yansızlık yanında
varyansının olabildiğince küçük olması arzu edilmektedir. Heteroskedastisiti
problemi mevcut olmadığında ve diğer çoklu doğrusal regresyon modeli
varsayımları sağlandığında Gauss-Markov koşulları sağlanmış olmaktadır. Gauss-
Markov koşulları sağlandığında Gauss-Markov teoremi geçerli hale gelmektedir:
OLS tahmincileri diğer doğrusal yansız tahmincilere kıyasla en küçük varyansa

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:7


Heteroskedastisiti

sahiptir ve dolayısı ile en iyi doğrusal yansızdır, yani diğer doğrusal yansız
tahmincilerle karşılaştırıldığında etkindir (BLUE özelliği). Eğer heteroskedastisiti
mevcut ise OLS tahmincileri en iyi doğrusal yansız ve dolayısı ile etkin
olmayacaktır1; çünkü böyle bir durumda daha ufak varyansa sahip başka doğrusal
yansız tahminciler bulmak mümkündür. Keza böyle bir durumda OLS tahmincileri
asimptotik olarak ta etkin olmayacaktır.
Etkinlik özelliği sezgisel olarak kolaylıkla açıklanabilir. Şekil 12.2‟deki gibi bir
heteroskedastisitinin var olduğunu kabul edelim. Hata teriminin potansiyel
dağılımının ufak bir standart sapmaya sahip olduğu gözlemler, örneğin Şekil
12.2‟deki birinci gözlem gerçek regresyon doğrusuna yakın bir yerde olacak ve bu
gözlem bu doğrunun konumu konusunda bize iyi bir yol gösterici olacaktır. Bunun
aksine, potansiyel dağılımı büyük bir standart sapmaya sahip olan bir gözlem,
örneğin Şekil 12.2‟deki beşinci gözlem, gerçek regresyon doğrusunun konumu
konusunda iyi bir yol gösterici olmayacaktır. OLS gözlemlerin kalitesi konusunda
hiçbir ayırım yapmamakta ve her gözleme, doğrunun konumu konusunda iyi bir
rehber olsun veya olmasın, eşit ağırlık vermektedir. Dolayısı ile eğer kaliteli
gözlemlere daha büyük ağırlık veren ve düşük kaliteli gözlemlere daha düşük
ağırlık veren bir doğrusal tahmin yöntemi bulursak, muhtemelen daha iyi uyum elde
edeceğiz demektir. Başka bir ifade ile tahminciler daha etkin olacaktır.

En İyi Doğrusal Yansızlık Özelliği


Hara terimlerinin farklı yayılımı (heteroskedastisiti) durumunda sıradan en küçük
kareler tahmincilerinin en iyi doğrusal yansız tahminciler (BLUE) olma
özelliklerini koruyup korumadıklarını inceleyelim. Bunu farklı yayılım durumu
(heteroskedastik durum) için en iyi doğrusal yansız tahmincileri çıkararak ve
bunları eşyayılım durumundaki (homoskedastik durumdaki) en küçük kareler
tahmincileri ile karşılaştırarak belirleyebiliriz. Eğer bir fark varsa; en küçük kareler
tahmincileri en iyi doğrusal yansız tahminciler değildir. Heteroskedastik durumda
regresyon katsayılarının en iyi doğrusal yansız tahmincilerini çıkarma yolu farklı
yayılım (heteroskedastik) bozukluğu olan
Yi     X i  ui , i  1, ,n
var(ui X 1 , X 2 , , X n )  E (ui2, X 1 , X 2 , , X n )   i2

basit regresyon modelini, bozukluk terimi eşyayılımlı (homoskedastik) olan bir


eşdeğerli denklem haline dönüştürmektedir. Bunu orijinal regresyon denkleminin
her iki yanı  i ile bölerek gerçekleştirebiliriz:

1 Buradaki etkinlik kavramı doğrusal yansız tahminciler arasında minimum varyanslı olma özelli-
ğine atıfta bulunmaktadır.

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:8


Ekonometriye Giriş

Yi 1 X  u
       i   i , i  1, ,n (12.5a)
i  i   i  i
Daha basit olarak bu yeni denklem
Yi*  Wi*   X i*  ui* (12.5b)

şeklinde ifade edilebilir, burada Yi*  Yi /  i  , Wi*  1/  i  , X i*   X i /  i  ve


ui*   ui /  i  .2 Açıkça görüldüğü gibi

E  ui x 

E ui* x   i
0


E ui u j x  0

cov ui* , u *j x    i j

ve

 u x  var  ui x   i2
 
var ui* x  var  i    2 1
 i   i2 i

olmaktadır. Yani, dönüştürülmüş denklem bozukluk teriminin beklenen değeri


sıfırdır, bozukluk terimleri arasındaki kovaryans sıfırdır ve dönüştürülmüş denklem
varyansı eşyayılımlıdır (homoskedastiktir). Dolayısı ile dönüştürülmüş denkleme en
küçük kareleri uyguladığımızda en iyi doğrusal yansız tahminciler (BLUE) elde
edilecektir. En küçük kareler yöntemini uyguladığımızda aşağıdaki “en küçük
kareler normal denklemleri” elde edilir:
n n n

Wi*Yi*   Wi*2   Wi* X i*


i 1 i 1 i 1
n n n
(12.6)
X Y
i 1
* *
i i   Wi X    X
i 1
* *
i
i 1
*2
i

Orijinal değişkenler cinsinden ifade edersek (12.6)

2 Kuşkusuz  değerleri bilinmediğinde dönüştürülmüş denklemdeki açıklayıcı değişkenlerin ve


i
bağımlı değişkenin değerleri ölçülemez. Fakat bu bizim tahminci özelliklerini çıkarmamızı en-
gellememektedir.

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:9


Heteroskedastisiti

Yi 1 Xi
 2

 2
 
 i2
i 1
(12.7a)
X iYi Xi X i2
 2

 i2
 
 i2
i

şeklini alır. Şimdi

1
 wi
 i2
yaparak, daha uygun bir yazım gerçekleştirebiliriz:

wY  w  w X


i i i i i
(12.7b)
w X Y w X  w X
i i i i i i i
2

Bu denklemleri çözdüğümüzde


  w   w X Y     w X   wY 
i i i i i i i i

 w  w X    w X  2 2
i i i i

elde edilir, bu formülü yeniden


 w  X  X Y  Y 
i i i
(12.8)
w X  X 
2
i i

şeklinde ifade edebiliriz, burada X    wi X i    w  ve Y    wY    w  .


i i i i

(12.8)’in payı:

 w  X  X Y  Y 
i i i

  w  X Y  Y X  X Y  XY 
i i i i i

 w X Y  X wY Y w X
i i i i i i i  XY  wi

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:10


Ekonometriye Giriş

  wi X iYi 
W X w Y   w Y w X
  i i i i

w w
i i i i
i i

w X wY w

i
 i i i

w w
i
i i

w X wY
  wi X iYi 
i i i

w i


w w X Y  w X wY
i i i i i i i i

w i

(12.8)’in paydası:

w X   w X 
2
i i X i
2
i  2Xi X  X 2
  wi X  2 X  wi X i  X 2  wi
i
2

  wi X i2  X  wi X i
w X w X
  wi X i2 
2

 i i

w
i i
i

 w  w X   w X  2 2


i i i i i

w i

Benzer şekilde
 Y X (12.9)

olduğu gösterilebilir.  ve  ‟nın en iyi doğrusal yansız tahminciler için bulunan


bu formülleri en küçük kareler için bulunanlardan farklı olduğu açıkça
görülmektedir. Bu şekilde homoskedastisiti varsayımı geçerli olmadığı durumlarda
regresyon katsayıları en küçük kareler tahmincilerinin en iyi doğrusal yansız
tahminciler olmadıklarını kanıtlamış oluyoruz. Bu sonuçtan aynı zamanda en küçük
kareler tahmincilerinin tüm yansız tahminciler arasında en düşük varyansa sahip
olmadığı ve dolayısı ile etkin olmadığı sonucu da çıkmaktadır.
Regresyon katsayıları en küçük kareler tahmincilerinin etkin olmadığını basit bir
şekilde başka türlü de açıklayabiliriz. Standart en küçük kareler ilkesi
n
S   Yi     X i 
2

i 1

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:11


Heteroskedastisiti

ifadesinin minimizasyonunu içermektedir, bu formül her bir bozukluğa eşit ağırlık


verildiğini belirtmektedir. Her bozukluk aynı dağılımdan geldiğinde bunun
doğruluğu kolaylıkla savunulabilir. Fakat heteroskedastisiti durumunda farklı
bozuluklar farklı varyanslı dağılımlardan gelmektedir. Ufak varyanslı dağılımlardan
gelen bozuklukların büyük varyanslı bir dağılımdan gelen bozukluğa kıyasla
regresyon doğrusu hakkında daha hassas bilgi verdiği açıktır. Örneklem bilgilerin
daha etkin kullanmak için daha az saçılan bozukluklara daha çok saçılanlara kıyasla
daha fazla ağırlık vermek gerekir. Formül (12.8) ve (12.9)‟da yansıtılan durum
budur; bu formüllerdeki wi ağırlıkları ilgili varyansların tersine eşittir. Keza, aynı
formüller
n
S *   wi Yi     X i 
2

i 1

ifadesi  ve  ‟ya göre minimize edilerek te bulunabilirdi. Bu nedenle


heteroskedastik durum için  ve  tahmincilerine bazen  ve  ‟nın ağırlıklı en
küçük kareler tahmincileri adı verilmektedir. Dikkat edilirse bozukluk teriminin
varyansı sabit olduğunda, yani tüm i‟ler için  i2   2 ve wi  w gibi sabit bir sayı
olduğunda, X  X ve Y  Y olmakta ve (12.8) ve (12.9) formülleri basit en küçük
kareler formülleri haline indirgenmektedir.

En İyi Doğrusal Yansızlık Özelliği

İkincisi, homoskedastisiti varsayımı geçerli olmadığında varyans tahmincileri,


yani var(b j ) ‟ler, yanlı olacaktır. OLS tahminlerinin standart hataları doğrudan bu
varyansların karekökü alınarak hesaplandığından, onlar artık güven aralıkları
oluşturmada ve t istatistiklerini hesaplamada geçerli olmayacaktır. Keza OLS‟den
elde edilen geleneksel t istatistikleri heteroskedastisiti mevcut olduğunda t
dağılımına sahip olmayacaktır ve örneklem büyüklüğü arttırılsa dahi t istatistiğinin
dağılımı t dağılımına yaklaşmayacaktır. Benzer şekilde, hata terimleri koşullu
dağılımı eşyayılımlı (homoskedastik) olmadığında F istatistiğinin dağılımı da F
dağılımı olmayacaktır. Keza LM istatistikleri artık asimptotik ki-kare dağılımına
sahip olmayacaktır. Özetle heteroskedastisiti durumunda, Gauss-Markov
varsayımları altında hipotez testleri yapmada kullanılan test istatistikleri artık
geçerli olmayacaktır.
Tutarlılık
Bölüm 6‟da eşit yayılım (homoskedastisiti) varsayımının, aynen yansızlık gibi, OLS
tahmincilerinin tutarlığını belirlemede hiçbir rol oynamadığını göstermiştik.

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:12


Ekonometriye Giriş

Asimptotik Etkinlik Özelliği


Heteroskedastisiti koşulu altında en küçük kareler tahmincilerinin asimptotik olarak
etkin olup olmadığını bulmak için, önce asimptotik olarak etkin olduğu bilinen en
çok olabilirlik tahmincilerini çıkararak işe başlayabiliriz. Daha sonra en çok
olabilirlik tahmincilerinin varyanslarının asimptotik olarak etkin olan en küçük
kareler tahmincileri varyansları ile aynı olup olmadığına bakabiliriz. Eğer bunlar eş
değerli değil ise en küçük kareler tahmincilerinin asimptotik olarak etkin olmadığı
sonucuna varırız. Heteroskedastisitiye olanak tanıyan log-olabilirlik fonksiyonunu
2
n 1 n 1 n  Y     Xi 
L   log  2    log  i2    i  (12.10)
2 2 i 1 2 i 1  i 
şeklinde ifade edebiliriz. L‟nin  ve  ‟ya göre birinci kısmi türevleri

L  Y     Xi 
  i 
 i   i2 
L  Y     Xi 
  i 
 i   i2 
olmaktadır. Bu türevleri sıfıra eşitler ve  ve  „nın tahmincileri için çözersek


 w  X  X Y  Y   
i i i

w X  X 
i i

a Y   X 

bulunur, burada wi  1 /  i2 , X    wi X i  w  i ve Y    wY


i i w  . 
i

ve  ‟nın en çok olabilirlik tahmincileri ile  ve  ‟nın en iyi doğrusal yansız


tahmincilerinin birbirinin aynı olduğu bulunmuştur.
 ve  ‟nın en çok olabilirlik tahmincileri ile en iyi doğrusal yansız
tahmincileri aynı olduğundan, bunların varyanslarının da aynı olması beklenir. 
ve  ‟nın en iyi doğrusal yansız, ve dolayısı ile en çok olabilirlik, varyanslarının
formülleri şöyle çıkartılabilir:
Yi     X i  ui
ve dolayısı ile
Yi     X i  ui

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:13


Heteroskedastisiti

olduğundan
Yi  Yi   ( X  X i )  u  u

olduğu bulunur, burada u   wu i i  wi .


 formülü içinde Yi  Yi yerine
yukardaki ifadeden bulunan değeri konduğunda


 w  X  X Y  Y    w  X  X     X  X   u
i i i i i i i i  u  

w X  X  w X  X 
2 2
i i i i

  
 w  X  X  u  u      w  X  X u
i i i i i i

w X  X  w X  X 
2 2
i i i i

olduğu bulunur. Dolayısı ile

 
2
 w X X u 
 i i
     E 
2
var   E   
i


  wi X i  X 

 
2

w X  X   w X  X 
2 2
2 2
i i i i i
  (12.11)
 w X  X    w X  X  
2 2

   
2 2

 i i 
i i

1

w X i i X 
Benzer yöntem ile  ‟nın varyansın heteroskedastisiti altındaki en iyi doğrusal
yansız tahmincisi bulunabilir:

var   
w X i i
2

 w  w X    wX  2 2
i i i i
(12.12)
1 X2
 
 wi w  X i i X 
2

Dikkat edilirse, tüm i‟ler için wi  w  1 /  2 olduğunda (12.11) ve (12.12)‟daki


ifadeler daha önce klasik model tarafından verilen ifadeler ile aynı olmaktadır.

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:14


Ekonometriye Giriş

 ve  ‟nın heteroskedastisiti altında en küçük kareler tahmincilerin asimptotik


olarak etkin olup olmadığı bunların asimptotik varyansları en çok olabilirlik
tahmincilerinin varyansları ile karşılaştırılarak belirlenebilir. Açıkça görüldüğü gibi
 ‟nın en küçük kareler tahmincisinin (12.9)‟da verilen varyansı örneklem
büyüklüğü ne olursa olsun, (12.11) de verilen en çok olabilirlik tahmincisinin
varyansından büyüktür. Aynı şekilde  ‟nın en küçük kareler tahmincisi için de
benzer bir sonuca ulaşılabilir. Dolayısı ile, en küçük kareler tahmincilerinin
varyansları en çok olabilirlik tahmincisi varyansları ile asimptotik olarak eşdeğerli
olmadığından, bozukluk homoskedastik olmadığında en küçük kareler tahmincileri
asimptotik olarak eşdeğerli olmadığından, en küçük kareler tahmincileri asimptotik
olarak etkin değildir.
Özetlersek, regresyon bozukluğu heteroskedastik olduğunda, regresyon
katsayılarının en küçük kareler tahmincileri yansız ve tutarlıdır, fakat bunlar en iyi
doğrusal yansız ve asimptotik olarak etkin değildir. En küçük kareler
tahmincilerinin etkinlik kaybı (eğer  i ‟ler biliniyorsa) bunların varyansı, en iyi
doğrusal yansız ve etkin olan ağırlık en küçük kareler tahmincilerinin varyansları ile
karşılaştırılarak belirlenebilir. Kaybın büyüklüğünün açıklayıcı değişkenin
örneklem değerlerine ve bozukluğun varyanslarına bağlı olduğu açıktır.

Asimptotik Etkinlik Özelliği

Heteroskedastisiti Durumunda
Tahmin Edilen Varyanslari
Heteroskedastisiti altında regresyon katyasılarının en küçük kareler tahmincilerinin
yansız ve tutarlı olduğunu fakat etkin ve asimptotik olarak etkin olmadığını bulduk.
Bu şekilde, bozukluk heteroskedastik ise ve bunun böyle olduğunu bilmiyor (veya
biliyor fakat görmemezlikten geliyor) ve en küçük kareler formüllerini
kullanıyorsak, ortaya çıkan tahminciler yine de bazı arzulanan özelliklere sahip
olacaktır. Fakat bu tahmincileri hipotez sınamalarında veya güven aralıkları
oluşturmada kullanmaya kalkarsak, sadece bu tahmincilerin kendilerinin yansız
olmasını değil, fakat aynı zamanda bunların tahmin edilen varyanslarının da yansız
olmasını isteriz. Aksi takdirde sınamalar geçersiz olacak ve oluşturulan güven
aralıkları doğru olmayacaktır.
Basit doğrusal regresyon modeli en küçük kareler tahmincisi b için geleneksel
varyans hesaplama formülünün
s2
sb2  n

x
i 1
2
i

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:15


Heteroskedastisiti

şeklinde olduğunu biliyoruz, burada s 2 hata teriminin


n n

 ei2  (Y  Yˆ )
i i
2

s 
2 i 1
 i 1

n2 n2
formülünden hesaplanan tahmin edilen varyansını göstermektedir. Eşyayılım
(homoskedastisiti) varsayımı altında sb2 tahmincisi b‟nin varyansının yansız bir
tahmincisidir. Şimdi bilmek istediğimiz homoskedastisiti varsayımı geçerli
olmadığında sb2 ‟nın yansızlık özelliğinin geçerli olmaya devam edip etmediğidir.
Bunu cevaplayabilmek için s 2 ‟nin matematiksel bekleyişini bulmamız gerekir:

 n 
E  s2  
1
E   (   X i  ui  a  bX i )2 
n  2  i 1 


1 n

n  2 i 1

E    a      b    X i  ui 
2

Daha önceki bölümlerden  a    ‟nın

 a      b    X  u
olduğunu biliyoruz. Bunu yerine koyarsak

E  s2  
1 n

n  2 i 1

E    b    xi  ui  u 
2

1   n
  n 2  n

  E  b     xi   E    u  u    xi  2 E  (b   ) xi ui  
2

n2  i 1   i 1  i  i 1 
olduğu bulunur. Şimdi

E b     x    x  var b 
2 2 2
i i

ve yine daha önceki bölümlerden

b 
xu i i

x 2
i

olduğu bilinmektedir, dolayısı ile

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:16


Ekonometriye Giriş

  xi ui 
E  b     xi ui  E    xi ui
  x2
 i 
  xi ui
2

 E
  x2  x 2
i
 i 
   xi2  var  b 

olarak bulunur. Son olarak

E   u  u    E   u   n u
i
2 2
i
2
  2E  u  u i

 E   ui2   nE  u 2     i2  E   xi2 
1
2
1  n 1
   i2    i2     i
2

2  n 

olmaktadır. Bu sonuçlar E  s 2  için verilen ifade içinde yerine koyar ve var  b 


için daha önce verilen verilen formülü hatırlarsak

E  s2      xi2  var  b   E   ui  u  
1  2

n2  
(12.13a)
1   xi  n  1  i2 
2

   
n  2   xi2 n 

elde edilir. Şimdi  i2   2  i ve  i  0 sonuçlarını kullanırsak, E  s 2  şu şekli


alacaktır :

1    xu   xi   n  1 n 
2 2 2 2

E  s2     
n  2   xi2 n 


1 
 n  2   
2  xi2i  (12.13b)
n  2   xi2 
2 
x  2
i i

 n  2  x 2
u

Dolayısı ile,

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:17


Heteroskedastisiti

 s2 
E  sb2   E 
  x 2 
 i 
(12.14)

2

x  2
i i

 x  n  2   x 
2
i
2 2
i

olduğu bulunur. Fakat önceden

var  b  
x  2
i i
2

 x  2 2
i


2

x  2
i i

 x  x 
2
i i
2 2

olduğu bilinmektedir, dolayısı ile x  2


i i  0 olmadığı sürece

E  sb2   var  b 

Bu şekilde b ‟nin geleneksel yoldan hesaplar varyansı, bozukluk heteroskedastik


olduğunda, genel olarak, yanlıdır. Benzer bir sonuç a için elde edilir.
Yukarıdaki bulguların sonucu şudur: homoskedastisiti varsayımının geçerli
olmadığı durumlarda regresyon katsayılarının en küçük kareler tahmincilerini
kullandığımızda daha önce geliştirdiğimiz güven aralıkları ve anlamlılık sınamaları
geçerli olmayacaktır. Başka bir ifade ile regresyon analizimizi bozukluğun
homoskedastik olduğu yanlış inancı ile devam ettirir isek, kitle katsayıları hakkında
yaptığımız çıkarsamalar doğru olmayacaktır -- yani, hesaplanan güven aralıkları ve
kabul ve ret bölgeleri yanlış olacaktır. Bu gibi durumlarda hatanın yönünü bilmek
ilginç olabilir, çünkü böylece doğru olmayan güven aralıklarının ve kabul
bölgelerinin doğru alanlardan daha geniş ve daha dar olduğunu söyleyebiliriz. Eğer
hesaplana varyanstaki yanlılık pozitif ise, doğru olmayan güven aralıkları ve kabul
bölgeleri doğru alanlardan daha geniş olacaktır, eğer yanlılık negatif ise, bunlar
daha dar olacaktır. Tahmin edilen varyansın yanlılığı aşağıdaki formülden elde
edilir:

E  sb2   var  b   
x  2
i i

x  2
i i

 n  2   x    x 
2 2
i
2 2
i
(12.15)
 n  1  x  2


i i

 n  2   x  2 2
i

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:18


Ekonometriye Giriş

Formülden açıkça görüldüğü gibi n  2 için yanın yönü x 


2
i i ‟nin işaretine
bağlıdır.   x  n ,
2
i i xi2 ve  i2 ‟nin örneklem kovaryansı olduğundan xi2 ve  i2
pozitif olarak bağıntılı olduğunda, yan negatiftir. Bu gibi durumlarda, geleneksel
olarak hesaplanan standart hatalar doğru olan güven aralıklarından ve kabul
bölgelerinden daha dar güven aralıkları ve kabul bölgeleri verecektir. Bu ise
tahmincilerin seçilen güven düzeyinden daha fazla güvenle sunulacağı ve boş
hipotezi red etme olasılığının seçilen anlamlılık düzeyinin işaret ettiğinden daha
yüksek olduğu anlamına gelmektedir xi2 ve  i2 arasında örneklemde hiçbir bağıntı
olmadığında, hiçbir yan ortaya çıkmayacaktır.
Özetlersek, en küçük kareler tahminine dayanarak yapılan istatistiksel
çıkarsamalar açısından heteroskedastisiti iki tür sonuç doğurmaktadır:
1. Regresyon katsayılarının en küçük kareler tahminleri yansız ve tutarlıdır fakat
etkin ve asimptotik olarak etkin değildir.
2. En küçük kareler tahminlerinin tahmin edilen varyansları genellikle, yanlıdır ve
geleneksel olarak hesaplanan güven aralıkları ve anlamlılık sınamaları
geçersizdir.
Bu durumda heteroskedastisiti halinde geçerli güven aralıkları ve anlamlılık
sınamaları üretecek ve/veya en küçük kareler yönteminden daha iyi tahminler
verecek bir tahmin yöntemi bulmanın daha uygun olacağı ortaya çıkmaktadır.

Eşit Yayılımın (Homoskedastisitinin) Varlığının Belirlenmesi


Homoskedastisitinin var olup olmadığını belirlemeye yarayan kesin kural veya
sınamalar mevcut değildir. Bunun böyle olması da kaçınılmazdır, çünkü ancak her
Xi‟ye karşı gelen tüm Yi‟ler bilindiğinde  i2 „ler tam olarak bilinebilir. Iktisadi
çalışmaların çoğunluğunda her X değerine karşı gelen sadece bir Y değeri
mevcuttur. Bu nedenle birçok ekonometrik çalışmada heteroskedastisitinin var olup
olmadığı el yordamı ile veya eldeki örneklemden sağlanan bilgilere dayanarak
yapılan sınamalarla keşfedilmeye çalışılmaktadır.
Problemin Niteliği
Bir çok durumda ele alınan problem heteroskedastisiti ile karşılaşılıp
karşılaşılmayacağı konusunda bazı bilgiler vermektedir. Örneğin Prais ve
Houthaker aile bütçeleri ile ilgili olarak yaptıkları öncü niteliğinde çalışmalarda
tüketimin gelir üzerine regres edildiği modellerde bozukluğun varyansının gelir ile
birlikte arttığını keşfetmişlerdir. Bu çalışmadan sonra artık genel olarak benzer
çarpraz kesit çalışmalarında bozukluklar arasında birbirine eşit olmayan
varyansların ortaya çıkması beklenen bir durum olarak kabul edilmiştir.

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:19


Heteroskedastisiti

Kalıntıların Gözle Incelenmesi


Farklı yayılımın (heteroskedastisitinin) varlığı hakkında önsel bir bilgiye sahip
olunmadığı durumlarda uygulanabilecek basit el yordamı yöntemleri kalıntıların,
kalıntıları mutlak değerlerinin veya kalıntıların karelerinin incelenmesidir. En basit
yöntem bir grafik üzerinde kalıntıların bağımsız değişkenlere veya Yˆi ‟ye karşı gelen
grafiklerini çizmektir. (Ekonometri paket programları ile bu tür çizimler kolay bir
şekilde üretilebilir). Eğer kalıntıların saçılımı bağımsız değişken veya Yˆi arttıkça
(azaldıkça) artıyorsa (azalıyorsa hata) terimleri muhtemelen farklı yayılımlıdır, yani
homoskedastik değildir. Böyle basit bir örnek Şekil 12.3‟te verilmiştir.

ei
ei

Xi Xi

Homoskedastisiti Heteroskedastisiti

Şekil 12.3 Kalıntıların X i ‟ye karşı hayali biçimleri

Örnek 12.1
1994 Hane Halkı Anketi Bursa verilerini içeren BURSA2.WF1 dosyasını
kullanarak lira olarak ifade edilen giyim harcamaları (GIYIM) ile lira cinsinden
ifade edilen hanhalkı geliri (GEL) ve hanehalkı fert sayısı (FERT) arasındaki çoklu
doğrusal regresyon modeli 55 gözlemli bir örneklemden Tablo 12.1‟de gösterildiği
gibi tahmin edilmiştir.
Gelirdeki ve fert sayısındaki değişmeler giyime yapılan harcamalardaki
değişmelerin sadece %25‟ini açıklamaktadır. Marjinal giyim hacama meyli 0.03
olarak tahmin edilmiştir. Hanehalkı fert sayısındaki 1 kişilik artışın giyim
harcamalarını 105381 lira artıracağı tahmin edilmiştir. Bu model kalıntılarını
EGIYIM ile gösterelim. EGIYIM ile GEL ve EGIYIM ile FERT arasındaki saçılım
diyagramları Şekil 12.3‟te gösterilmiştir. Şekil 12.3‟ten görüldüğü gibi hem gelir ve

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:20


Ekonometriye Giriş

hem de fert sayısı arttıkça kalıntıların saçılımı artmaktadır. Bu tipik bir artan
heteroskedastisiti sinyalidir.

Tablo 12.1 Giyim Harcamaları ile Gelir Arasındaki İlişki

(a) (b)
Şekil 12.3

Örnek 12.1

Bu grafik yöntemini biraz daha geliştirerek heteroskedastisitinin biçimi


hakkında da bilgi edinebiliriz. Bu kalıntıların karelerinin, ei2 veya mutlak değerleri-
nin, e , X ‟lere veya Yˆ ‟ye karşı grafiği çizilerek gerçekleştirilir. Eğer kalıntıların
i i i

mutlak kareleri (veya mutlak değerleri) bağımsız değişkenlerin veya Yˆi ‟nın değeri

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:21


Heteroskedastisiti

ne olursa olsun aynı kalıyorsa, muhtemelen heteroskedastitisi mevcut değildir. Yok


eğer kalıntıların kareleri bir veya birden çok bağımsız değişkenle veya Yˆi ile bağın-
tılı olarak değişiyorsa, örneğin, bir bağımsız değişken küçük değerleri için kalıntıla-
rın mutlak değerleri düşük fakat bağımsız değişkenin büyük değerleri için yüksek
ise, muhtemelen heteroskedastitisi vardır. Şekil 12.4‟te ei2 ‟lerin X i veya Yˆi ‟lere
karşı grafiği gösterilmiştir. Şekil 12.4(a) dışındaki tüm şekillerde iki değişken ara-
sında sistematik bir ilişkinin varlığı gözlenmektedir. Dolayısı ile Şekil 12.4(a) dı-
şındaki durumlarda muhtemelen heteroskedastisiti mevcuttur. İlaveten, Şekil
12.4(b) doğrusal, Şekil 12.4(c) ve Şekil 12.4(d) ikinci dereceden bir ilişkinin varlı-
ğına işaret etmektedir.

ei2 ei2

X i veya Yˆi
X i veya Yˆi
(a) (b)

ei2
ei2

X i veya Yˆi
X i veya Yˆi
(c) (d)
ˆ
Şekil 12.4 Kalıntı karelerinin X i ‟ye veya Yi ‟ye karşı hayali biçimleri

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:22


Ekonometriye Giriş

Biçimsel Sınama Yöntemleri


Formel yöntemler, örneklem tarafından sağlanan bilgisi ışığında
H o :  12   22   m2 ( m  n)

biçimindeki bir boş hipotezi H o ‟nın doğru olmadığı almaşık hipotez karşısında
sınamaya yönelik yöntemlerdir, burada m farklı değerdeki varyans sayısını
göstermektedir. Zaman içinde geliştirilen çok sayıda farklı yayılım
(heteroskedastisiti) sınaması mevcuttur. Bunlardan bir bölümü hata teriminin
değişirliğinin (varyansının) bağımsız değişkenlere bağlı olduğunu doğrudan
sınarken bazıları sadece heteroskedastisitinin varlığını yakalamaya yönelik
sınamalardır. Burada sadece belli başlı sınamaların modern uyarlamalarını
inceleyeceğiz.
Breusch-Pagan Sınaması
Breusch-Pagan sınaması ardındaki temel fikir şudur: Homoskedastitisi hipotezi
doğru olduğunda regresyon katsayılarının olağan en küçük kareler tahminleri
olabilir hetoroskedastisitiye izin veren en çok olabilirlik tahminlerinden önemli
ölçüde farklı olmayacaktır. Örneğin
2
n 1 n 1 n  Y     Xi 
L   log(2 )   log  i2    i 
2 2 i 1 2 i 1  i 
heteroskedastisitiye izin veren olabilirlik fonksiyonu ise, bilinmeyen parametreler
yerine bunların en çok olabilirlik tahminleri konduğunda L‟nin birinci türevleri
sıfıra eşit olmalıdır. Öte yandan, bu bilinmeyen parametreler yerine olağan en
küçük kareler tahminleri konduğunda, eğer bozukluklar gerçekte eşyayılımlı
(homoskedastik) ise, L‟nin birinci türevi anlamlı bir şekilde sıfırdan farklı
olmayacaktır.
Breusch ve Pagan (1980) tarafından yapılan orijinal formüllendirmede hata
terimlerinin normal dağıldığı varsayılmaktadır. Koenker (1983) tarafından önerilen
LM istatistiği biçimindeki Breusch-Pagan testi daha yaygın uygulama alanı bulduğu
için genellikle tercih edilmektedir. Burada sınamanın bu uyarlamasını ele alacağız.3

3 Testin orijinal BP versiyonu u ‟lerin normal olarak dağıldığını varsaymaktadır.


i

Heteroskedastisiti mevcut olduğunda bu sınamanın güçlü bir sınama olduğu ortaya çıkmakta-
dır, fakat küçük örneklemlerde belirtilen anlamlılık düzeyi gerçek düzeyin kaba bir belirteci
olmaktadır. Breusch-Pagan sınaması regresyon bozuklukluğunun normallik varsayımındaki kü-
çük ihlallere karşı çok duyarlı olduğu gerekçesi ile eleştirilmektedir. Testin Koenker (1981) ta-
rafından gerçekleştirlen bir almaşık uyarlaması normallikten sapmalara karşı dirençli bir sına-
ma istatistiği üretmektedir.

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:23


Heteroskedastisiti

Daha önce olduğu gibi


Yi  1  2 X i 2    K X iK  ui
çoklu doğrusal regresyon modelini ele alalım, homoskedastisiti ve normallik hariç
diğer varsayımların geçerli olduğunu varsayalım. Sıfır hipotezi homoskedastisiti
varsayımı olsun:
Ho : var(ui X)   2 (12.15a)

Yani ideal durum homoskedastisitinin geçerli olduğunu iddia edilmektedir. Eğer


seçilen ufak bir anlamlılık düzeyinde H 0 ‟ı ret edilemez ise heteroskedastisitinin bir
problem olmadığına karar verilmektedir. Katı dışsallık (sıfır koşullu ortalama)
varsayımı geçerli olduğundan H 0 alternatif olarak

H o : E(ui2 X)  E(ui2 )   2 (12.15b)

Şeklinde de ifade edilebilir. Homoskedastisiti varsayımının geçersizliğini


gösterebilmek için u i2 ‟nin açıklayıcı değişkenlerden biri veya birkaçı ile ilişkili
olup olmadığı sınanmaktadır. H 0 geçerli olmadığında u i2 ‟nin beklenen değeri
açıklayıcı değişkenlerin doğrusal veya doğrusal dışı herhangi bir fonksiyonu
olabilir. En basit yaklaşım şöyle doğrusal bir ilişkinin geçerli olduğunu
varsaymaktır:
ui2  1   2 Zi 2   3 Zi 3    P ZiP  wi (12.16)

Burada Zip ( p  1,2, , P) orijinal regresyon denkleminde hata teriminin varyansını


etkilediğini düşündüğümüz değişkenler kümesini temsil etmektedir. Uygulamada
çoğunlukla Zip ( p  1,2, , P) yerine orijinal denklemin açıklayıcı değişkenleri
kullanılmakta ve (12.16)
ui2   1   2 X i 2    K X iK  i (12.17)

şeklinde ifade edilmektedir. Burada E (i X)  0 olduğu varsayılmaktadır. Bu halde


homoskedastisiti sıfır hipotezi
H0 :  2   3  K  0 (12.18)

şeklinde ifade edilir. Sıfır hipotezi altında i ‟nin katı dışsal veya X j 2 , X j 3 , ,
X jK ( i, j  1, 2, , n ) ile korelâsyonsuz olduğu varsayılmaktadır. Daha önceki
bölümlerden (12.18)‟deki genel anlamlılık sınaması için F veya LM

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:24


Ekonometriye Giriş

istatistiklerini kullanabileceğimizi biliyoruz. u i2 ‟nin normal olarak dağılması


mümkün olmamasına karşın hem F ve hem de LM istatistikleri asimptotik olarak
geçerlidir. (Not: u i2 normal olarak dağıldığında ui2 /  2 bir 12 dağılımına sahip
olacaktır. Nitekim Breusch ve Pagan orijinal olarak ui2 /  2 ‟yı baz alan bir  2
sınaması geliştirmiştir.) Örneklemden ui ‟leri gözleyebilmiş olsa idik u i2 ‟leri X i 2 ,
X i3 , , X iK ‟ler üzerine regres ederek bu istatistikleri kolayca hesaplayabilirdik.
Fakat gerçekte ui ‟leri hiçbir zaman bilmemiz mümkün değildir, onları ancak
olağan en küçük kareler tahminleri, yani ei ‟ler olarak tahmin edebiliriz. Dolayısı ile
ei ‟leri kullanarak

ei2   1   2 X i 2    K X iK  i (12.18)
regresyonunu tahmin edebilir ve yardımcı denklemin genel anlamlılığını test etmek
için F ve LM istatistiklerini hesaplayabiliriz. ui ‟ler yerine ei ‟ler kullanılarak elde
edilen test istatistiklerinin büyük örneklem özelliklerinin birbirinden farklı olmadığı
kanıtlanabilir (Wooldridge, 2002, s. 266). Yardımcı denklem (12.18)‟in
tahmininden elde edilen belirleme katsayısı, Re22 , cinsinden F istatistiği şöyledir:

Re22 ( K  1)
F (12.19)
(1  Re22 ) (n  K )

burada K yardımcı denklem (12.18)‟deki tahmin edilen parametre sayısını


göstermektedir. Homoskedastisiti sıfır hipotezi altında F istatistiği (yaklaşık)
olarak FK 1, n  K dağılımına sahiptir.
Heteroskedastisiti için LM istatistiği (12.51)‟deki regresyondan elde edilen
Re22 ile gözlem sayısı çarpımına eşittir:

LM  nRe22 (12.20)

Homoskedastisiti boş hipotezi altında LM istatistiği asimptotik olarak  K2 1


dağılımına sahiptir.
Yukarıda anlatılan sınamanın LM versiyonuna heteroskedastisti için Breusch-
Pagan (BP) sınaması adı verilmektedir. (Daha önce de belirttiğimiz gibi bu gerçek
BP sınamasının Koenker versiyonudur.)
Breusch-Pagan heteroskedastisiti sınamasının aşamaları aşağıda özetlen-
mektedir.

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:25


Heteroskedastisiti

a. ei kalıntılarını elde etmek için Yi  1  2 X i 2    K X iK  ui regresyonu


gerçekleştiriniz ve OLS kalıntıları olan ei ‟leri elde ediniz.
b. ei2 ‟leri modelde yer alan açıklayıcı değişkenler üzerine regres ediniz ve bu
regresyondan Re22 ‟leri bulunuz (eğer heteroskedastisitiye neden olduğu
düşünülen değişkenler X i 2 , X i 3 , , X iK ‟ler değil de bunları Z i 2 , Z i 3 ,
, Z iP şeklinde ifade edilen fonksiyonları ise ei2 ‟ler Z i 2 , Z i 3 , , Z iP ‟ler
üzerine regres edilerek R ‟ler bulunur.)
2
e2

c. Yardımcı regresyondan elde edilen Re22 ‟yi kullanarak LM sınama istatistiğini


n  Re22 şeklinde hesaplayınız. Bu test istatistiği K  1 serbestlik derecesi ile
bir  2 dağılımına sahiptir, buradaki K yardımcı regresyondaki sabit terim
dahil parametre sayısını göstermektedir.
d. n  Re22 istatistiği seçilen anlamlılık düzeyi ve K  1 serbestlik derecesindeki
 2 değerini aştığında sıfır hipotezini, yani homoskedastisitiyi, ret ediniz.

Örnek 12.3
Şimdi 1994 Hane Halkı Anketi Bursa verilerini içeren BURSA2.WF1 dosyasını
kullanarak lira olarak ifade edilen giyim harcamaları (GIYIM) ile lira cinsinden
ifade edilen hanehalkı geliri (GEL) ve hanehalkı fert sayısı (FERT) üzerine regress
eden çoklu doğrusal regresyon modeli 55 gözlemli bir örneklemden Tablo 12.2‟de
gösterildiği gibi tahmin edilmiştir. Bu tahminden elde edilen kalıntıların karelerini
E _ KARE ile gösterelim. Yardımcı regresyon tahmini EViews çıktısı Şekil 12.5‟te
verilmiştir. Buradan LM sınama istatistiği değeri:
LM  n  Re22  55  0.146313  8.0471939

olarak bulunur. 2 serbestlik derecesi ve yüzde 5 anlamlılık düzeyindeki ki-kare


tablo değeri  2,0.05
2
 5.991 dir. 8.472  5.991 olduğundan eşit yayılım
(homoskedastisiti) sıfır hipotezi ret edilmektedir. Başka bir deyişle model hata
terimleri heteroskedastiktir.

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:26


Ekonometriye Giriş

Şekil 12.5 Breusch-Pagan farklı yayılım sınaması yardımcı denklem tahmini

Alternatif olarak aynı yanaşık (asimptotik) özelliklere sahip F sınaması da


kullanılabilir. EViews çıktısından elde edilen R-kareler ile F istatistiği
Re22 ( K  1) 0.146313 / (3  1)
F   4.456
(1  R ) (n  K )
2
e2
(1  0.146313) / (55  3)

olarak bulunur. Yüzde 5 anlamlılık düzeyinde pa serbestlik derecesi 2 ve payda


serbestlik derecesi 52 olan F kritik değeri F2,52,0.05  3.175 dir. 4.456>3.175 sıfır
hipotezi ret edilmektedir. Yani hata terimleri farklı yayılımlıdır.

Örnek 12.3

Glejser Sınaması
Glejser sınaması orijinal regresyon denkleminin sıradan en küçük kareler
kalıntılarının, 4.456>‟lerin, mutlak değerlerini, yani | ei |‟leri, regresyona neden
olduğu düşünülen açıklayıcı değişkenler üzerine regres etmeyi önermektedir. Kendi
deneyimlerinde, Glejser aşağıdaki formları kullanmaktadır.
ei     Z i  vi
ei     Z i  vi
1
ei      vi
Zi

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:27


Heteroskedastisiti

1
ei      vi
Zi
ei     Z i  vi
ei     Z i2  vi

Burada Zi farklı yayılıma neden olduğu düşünülen değişkendir, vi bozukluk


terimidir.  ‟nın istatistiksel olarak anlamlı olması heteroskedastisitinin varlığına
işaret etmektedir. Glejser ilk dört modelin büyük örneklemlerde heteroskedastisitiyi
belirlemede genel olarak iyi sonuç verdiğini bulmuştur.
Bu sınama da ampirik olarak cazip olmasına karşın vi bozukluk terimi ile
bağıntılı bazı problemler içermektedir, vi ‟nin beklenen değeri sıfır değildir, vi ‟ler
serisel olarak bağıntılıdır ve heteroskedastiktir. Glejser yönteminde karşımıza çıkan
bir ilave problem
ei     X i  vi
ei     X i2  vi

şeklindeki modellerin parametreleri cinsinden doğrusal olmamasıdır, dolayısı ile


bunların parametreleri geleneksel OLS yöntemi ile tahmin edilmez.
Glejser sınmasının modern uyarlaması olan Glejser LM sınaması asimptotik
olarak geçerlidir ve yukarıda belirtilen olumsuzlukları içermemektedir. Glejser LM
sınaması aşamaları aynen Breusch-Pagan LM sınması aşamaları gibidir, sadece
yardımcı denklem farklıdır. Aşamalar şunlardır:
a. ei kalıntılarını elde etmek için Yi  1  2 X i 2    K X iK  ui regresyonu
gerçekleştiriniz ve OLS kalıntıları olan ei ‟leri elde ediniz. (Not: farklı yayı-
lımın nedeninin modelde yer alan açıklayıcı değişkenlerden biri veya birkaçı
olduğu varsayılmaktadır.)
b. ei ‟leri modelde yer alan açıklayıcı değişkenler üzerine regres ediniz
ei   1   2 X i 2    K X iK  i
ve bu yardımcı regresyondan R 2e ‟leri bulunuz (eğer heteroskedastisitiye
neden olduğu düşünülen değişkenler X i 2 , X i 3 , , X iK ‟ler değil de
bunların Z i 2 , Z i 3 , , Z iP şeklinde ifade edilen fonksiyonları ise ei ‟ler
Zi 2 , Z i3 , , Z iP ‟ler üzerine regres edilerek R 2e ‟ler bulunur.)

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:28


Ekonometriye Giriş

c. Homoskedastisiti sıfır hipotezi


H 0 : H0 : 1   2    K  0
şeklinde ve almaşık hipotez en azından bir  i sıfırdan farklı biçimindedir
d. Yardımcı regresyondan elde edilen R 2e ‟yi kullanarak LM sınama istatistiğini
n  R 2e şeklinde hesaplayınız. Bu LM sınama istatistiği K  1 serbestlik
derecesi ile bir  2 dağılımına sahiptir, buradaki K yardımcı regresyondaki
sabit terim dahil parametre sayısını göstermektedir.
e. LM  n  R2e istatistiği seçilen anlamlılık düzeyi ve K  1 serbestlik
derecesindeki  2 değerini aştığında, yani LM   K2 1, olduğunda, sıfır
hipotezini, yani homoskedastisitiyi, ret ediniz.

Örnek 12.4
Şimdi 1994 Hane Halkı Anketi Bursa verilerini içeren BURSA2.WF1 dosyasındaki
veriler kullanılarak giyim harcamaları (GIYIM) doğrusal regresyon denklemi Tablo
12.2‟de gösterildiği gibi tahmin edilmiştir. Bu tahminden elde edilen kalıntıların
karelerinin logaritmasını MUTLAK _ E ile gösterelim. Yardımcı regresyon tahmini
EViews çıktısı olarak Şekil 12.6‟da gösterilmiştir.
Buradan LM sınama istatistiği değeri:
LM  n  R2e  55  0.208437  11.46405

olarak bulunur. 2 serbestlik derecesi ve yüzde 5 anlamlılık düzeyindeki ki-kare


tablo değeri daha önce bulunduğu gibi  2,0.05 2
 5.991 dir. 11.46405  5.991
olduğundan eşit yayılım (homoskedastisiti) sıfır hipotezi ret edilmektedir. Başka bir
deyişle model hata terimleri heteroskedastiktir.

Şekil 12.6 Glejser farklı yayılım sınaması yardımcı denklem tahmini

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:29


Heteroskedastisiti

Alternatif olarak aynı yanaşık (asimptotik) özelliklere sahip F sınaması da


kullanılabilir. EViews çıktısından elde edilen R-kareler ile F istatistiği
R 2e ( K  1) 0.208437 / (3  1)
F   6.846
(1  R ) (n  K )
2
e
(1  0.208437) / (55  3)

olarak bulunur. Yüzde 5 anlamlılık düzeyinde pay serbestlik derecesi 2 ve payda


serbestlik derecesi 52 olan F kritik değeri F2,52,0.05  3.175 dir. 6.846>3.175 sıfır
hipotezi ret edilmektedir. Yani hata terimleri farklı yayılımlıdır.
Örnek 12.

Örnek 12.4

Harvey-Godfrey sınaması
Harvey (1976) ve Godfrey (1978) aşağıdaki sınamayı geliştirmiştir:
a. ei kalıntılarını elde etmek için Yi  1  2 X i 2    K X iK  ui regresyonu
gerçekleştiriniz ve OLS kalıntıları olan ei ‟leri elde ediniz. (Not: daha önce
olduğu gibi, farklı yayılımın nedeninin modelde yer alan açıklayıcı değiş-
kenlerden biri veya birkaçı olduğu varsayılmaktadır.)
b. log ei2 ‟leri modelde yer alan açıklayıcı değişkenler üzerine regres ediniz
log ei2   1   2 X i 2    K X iK  i
ve bu yardımcı regresyondan Rlog
2
e2
‟leri bulunuz (eğer heteroskedastisitiye
i

neden olduğu düşünülen değişkenler X i 2 , X i 3 , , X iK ‟ler değil de


bunların Z i 2 , Z i 3 , , Z iP şeklinde ifade edilen fonksiyonları ise log ei2 ‟ler
Zi 2 , Z i3 , , Z iP ‟ler üzerine regres edilerek Rlog
2
e2
‟ler bulunur.)
i

c. Homoskedastisiti sıfır hipotezi


H 0 : H0 : 1   2    K  0
şeklinde ve almaşık hipotez en azından bir  i sıfırdan farklı biçimindedir
d. Yardımcı regresyondan elde edilen 2
Rlog e2
‟yi kullanarak LM sınama
i

istatistiğini n  R 2
log ei2
şeklinde hesaplayınız. Bu LM sınama istatistiği K  1
serbestlik derecesi ile bir  2 dağılımına sahiptir, buradaki K yardımcı
regresyondaki sabit terim dahil parametre sayısını göstermektedir.

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:30


Ekonometriye Giriş

e. LM  n  Rlog
2
e2
istatistiği seçilen anlamlılık düzeyi ve K  1 serbestlik
i

derecesindeki  2 değerini aştığında, yani LM   K2 1, olduğunda, sıfır


hipotezini, yani homoskedastisitiyi, ret ediniz.

Örnek 12.5
Şimdi 1994 Hane Halkı Anketi Bursa verilerini içeren BURSA2.WF1 dosyasındaki
veriler kullanılarak giyim harcamaları (GIYIM) doğrusal regresyon denklemi Tablo
12.2‟de gösterildiği gibi tahmin edilmiştir. Bu tahminden elde edilen kalıntıların
karelerinin logaritmasını L _ E _ KARE ile gösterelim. Yardımcı regresyon tahmini
EViews çıktısı Şekil 12.7‟da gösterilmiştir.
Buradan LM sınama istatistiği değeri:
LM  n  Rlog
2
e2
 55  0.219779  12.08786

olarak bulunur. 2 serbestlik derecesi ve yüzde 5 anlamlılık düzeyindeki ki-kare


tablo değeri daha önce bulunduğu gibi  2,0.05 2
 5.991 dir. 12.08786  5.991
olduğundan eşit yayılım (homoskedastisiti) sıfır hipotezi ret edilmektedir. Başka bir
deyişle model hata terimleri heteroskedastiktir.

Şekil 12.7 Harvey-Godfrey farklı yayılım sınaması yardımcı denklem tahmini


Alternatif olarak aynı yanaşık (asimptotik) özelliklere sahip F sınaması da
kullanılabilir. EViews çıktısından elde edilen R-kareler ile F istatistiği
2
Rlog e2
( K  1) 0.219779 / (3  1)
F   7.3219
(1  R 2
log e2
) (n  K ) (1  0.219779) / (55  3)

olarak bulunur. Yüzde 5 anlamlılık düzeyinde pay serbestlik derecesi 2 ve payda


serbestlik derecesi 52 olan F kritik değeri F2,52,0.05  3.175 dir. 7.3219>3.175 sıfır
hipotezi ret edilmektedir. Yani hata terimleri farklı yayılımlıdır.

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:31


Heteroskedastisiti

Örnek 12.

Örnek 12.5

Park sınaması
Park‟ın önerdiği fonksiyonel farklı yayılım (heteroskedsatisiti) biçimi
ei2   2 X i ei
veya
log ei2  log  2   log X i  i

şeklindedir, burada i rassal bozukluk terimidir.  ‟nın tahmininin istatistiksel


olarak anlamlı olması heteroskedastisitinin varlığına işaret eder. Ampirik olarak
kolay uygulanır olmasına karşın, bu sınama bazı problemler içermektedir.
Heteroskedastisiti kalıbı burada belirtilen biçimde olmayabilir. Ayrıca i ‟nin en
küçük kareler varsayımlarını sağlamadığı ve kendisinin heteroskedastik olabileceği
ileri sürülmüştür. Heteroskedastisiti kalıbı belirtilen biçimde olduğunda Park
sınmasının LM versiyonun asimptotik olarak geçerli olduğu ileri sürülmektedir
Park LM sınaması aşağıdaki adımları içermektedir:
a. ei kalıntılarını elde etmek için Yi  1  2 X i 2    K X iK  ui regresyonu
gerçekleştiriniz ve OLS kalıntıları olan ei ‟leri elde ediniz.
b. log ei2 ‟leri modelde yer alan açıklayıcı değişkenlerin logaritmaları üzerine
regres ediniz
log ei2   1   2 log X i 2    K log X iK  i
ve bu yardımcı regresyondan Rlog
2
e2
‟leri bulunuz (eğer heteroskedastisitiye
i

neden olduğu düşünülen değişkenler X i 2 , X i 3 , , X iK ‟ler değil de


bunların Z i 2 , Z i 3 , , Z iP şeklinde ifade edilen fonksiyonları ise
log e ‟leri log Z i 2 , log Z i 3 ,
2
i , log ZiP ‟ler üzerine regres edilerek Rlog
2
e2
‟ler
i

bulunur.)
c. Homoskedastisiti sıfır hipotezi
H 0 : H0 : 1   2    K  0
şeklinde ve almaşık hipotez en azından bir  i sıfırdan farklı biçimindedir

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:32


Ekonometriye Giriş

d. Yardımcı regresyondan elde edilen 2


Rlog e2
‟yi kullanarak LM sınama
i

istatistiğini n  R 2
log ei2
şeklinde hesaplayınız. Bu LM sınama istatistiği K  1
serbestlik derecesi ile bir  2 dağılımına sahiptir, buradaki K yardımcı
regresyondaki sabit terim dahil parametre sayısını göstermektedir.
e. LM  n  Rlog
2
e2
istatistiği seçilen anlamlılık düzeyi ve K  1 serbestlik
i

derecesindeki  2 değerini aştığında, yani LM   K2 1, olduğunda, sıfır


hipotezini, yani homoskedastisitiyi, ret ediniz.

Örnek 12.6
Bir önceki örneğimize devam edersek bir önceki örneğimiz için Park sınaması
yardımcı regresyonu için EViews çıktısı Şekil 12.8‟deki gibi olacaktır. Buradan LM
sınama istatistiği değeri:
LM  n  Rlog
2
e2
 55  0.220177  12.109731

olarak bulunur. 2 serbestlik derecesi ve yüzde 5 anlamlılık düzeyindeki ki-kare


tablo değeri daha önce bulunduğu gibi  2,0.05 2
 5.991 dir. 12.109731  5.991
olduğundan eşit yayılım (homoskedastisiti) sıfır hipotezi ret edilmektedir. Başka bir
deyişle model hata terimleri heteroskedastiktir.

Şekil 12.8 Park farklı yayılım sınaması yardımcı denklem tahmini


Alternatif olarak aynı yanaşık (asimptotik) özelliklere sahip F sınaması da
kullanılabilir. EViews çıktısından elde edilen R-kareler ile F istatistiği
2
Rlog e2
( K  1) 0.220177 / (3  1)
F   7.341
(1  Rlog
2
e2
) (n  K ) (1  0.220177) / (55  3)

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:33


Heteroskedastisiti

olarak bulunur. Yüzde 5 anlamlılık düzeyinde pay serbestlik derecesi 2 ve payda


serbestlik derecesi 52 olan F kritik değeri F2,52,0.05  3.175 dir. 7.341>3.175 sıfır
hipotezi ret edilmektedir. Yani hata terimleri farklı yayılımlıdır.

Örnek 12.6

Goldfeld-Quandt Sınaması
Goldfeld-Quandt sınamasının dayandığı temel fikir şudur: eğer örneklem
gözlemleri homoskedastisiti koşulları altında yaratılmış ise (yani, eğer
H o :  12   22    n2 doğru ise) örneklem gözlemlerinin bir bölümündeki
bozuklukların varyansı, örneklem gözlemlerinin diğer bölümündeki bozuklukların
varyansı ile aynı olacaktır. İki bölümdeki örneklem varyansları arasındaki fark
sadece örnekleme hatalarından kaynaklanacaktır. Homoskedastisiti için yapılan
Goldfeld-Quandt sınaması örneklem gözlemlerinin bir alt bölümündeki varyanslarla
diğer alt bölümündeki varyansların birbirine eşit olup olmadığını sınamaktan başka
bir şey değildir. Böyle bir sınama iki örneklem varyansı oranına dayandırılabilir.
H o hipotezi altında her alt örneklem varyansının serbestlik derecesine bölünmesi
ile elde edilen test istatistiği bir  2 dağılımına sahip olacaktır. İki örneklem
varyansı birbirinden bağımsız ise, bunların oranı bir F dağılımına sahip olacaktır.
Örneklemin birinci bölümündeki “ortalama” varyans ikinci bölümündekinden
çok farklı olmadığında Goldfeld-Quandt sınaması çok güçlü değildir. Bu nedenle
Goldfeld-Quandt sınaması genellikle gözlemlerin, bozukluklarının artan varyansına
göre küçükten büyüğe doğru sıralanabildiği durumlar için önerilmektedir. Ayrıca,
gözlemler sıralanıp yaklaşık olarak iki eşit bölüme ayrıldığında, heteroskedastisiti
altındaki birinci bölümün sonundaki son bir kaç varyansın, ikinci bölümün
başındaki bir kaç varyans ile benzer olması çok muhtemeldir. Bu nedenle sırlanmış
örneklemin ortasından p sayıda gözlemin düşürülmesi uygun görülmektedir.
Düşürülecek gözlem sayısının tam ne olacağı pek açık değildir. Heteroskedastisiti
altında “ortalama” varyanslar arasındaki fark arttırıldıkça sınamanın gücü artmasına
karşın, gözlem sayısındaki azalma nedeniyle aynı zamanda sınamanın gücü
düşmektedir. Deneyimler gözlemlerin ortada kalan altıda birini düşürmenin
mantıklı olduğuna işaret etmektedir. Düşürülecek gözlem sayısı seçiminin takdiri
olması sınamanın tatmin edici olmayan yanını oluşturmaktadır, çünkü bu yolla testi
uygulayan p‟yi istediği gibi seçerek sonucunu istediği yöne yönlendirebilir.
Gondfeld-Quandt testi özetle şu aşamaları içermektedir.
Aşama 1. Heteroskedastitisiteye neden olduğu düşünülen X ‟in değerlerine göre Y
ve X gözlemleri küçükten büyüğe doğru sıralayınız.

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:34


Ekonometriye Giriş

Aşama 2. Ortadaki p gözlemi (yaklaşık olarak toplam gözlem sayısının altında biri
kadarını) düşürerek geri kalan (n-p) sayıdaki gözlemi herbiri (n-p)/2 büyüklüğünde
iki gruba bölünüz.
Aşama 3. (n-p)/2 büyüklüğündeki iki gözlem kümesine ayrı ayrı OLS regresyonu
 
n1 n2 2
uydurarak kalıntı kareleri toplamlarını, e ( SSR1 ) ve
2
i 1 1i
e ( SSR2 ) ‟yi,
i 1 i 2

bulunuz. SSR1 küçük X i değerlerinden ve SSR2 büyük X i değerlerinden elde


edilen kalıntı kareler toplamlarını temsil etmektedir.
Aşama 4.
n1 n1

e 2
1i  (Y  a
i 1  b1 X i ) 2
s12  i 1
 i 1

(n1  2) n1  2
n2 n2

e 2
2i  (Y  a
1 2  b2 X i ) 2
s 
2 i 1
 i 1

(n2  2) n2  2
2

varyanslarını bulunuz ve
s22 e22 / (n2  2)
 ~ F( n2  2),( n1  2) (12.21)
s12 e12 / (n1  2)

oranını hesaplayınız. Eğer ui ‟lerin normal olarak dağıldığını varsayılıyorsa ve


homoskedastisiti varsayımı geçerli ise bu oran (n2  2) ve (n1  2) serbestlik
dereceleri ile bir F dağılımına sahiptir. Eğer hesaplanan F değeri seçilen anlamlılık
düzeyindeki kritik F değerinden büyük ise homoskedastisiti hipotezi red edilir.

Örnek 12.7
İlk 25 gözlemden elde edilen gelire göre sıralı giyim harcamalarının
(GEL_S_GIYIM) sıralı gelir (GEL_SIRALI) ve gelire göre sıralı fert sayısı
(GEL_S_FERT) regresyonundan elde edilen tahminler Tablo 12.6‟da ve ikinci 25
gözlemden elde edilen tahminler ise Tablo 12.7‟de verilmiştir. Ortadaki 5 gözlem
analiz dışında bırakılmıştır.

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:35


Heteroskedastisiti

Tablo 12.6

Tablo 12.7

Tablo 12.6 ve Tablo 12.7‟den


n1 n2

 e12 2.29  1012 e 2


2
9.72  1012
s 
2 i 1
 s 
2 i 1

(n1  2) (n2  2)
1 2
23 23
olduğu görülmektedir, dolayısı ile örneklemden F istatistiği
9.72
F  4.78
2.29

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:36


Ekonometriye Giriş

olarak hesaplanır. Yüzde 5 anlamlılık düzeyinde ve pay ve payde 23 serbestlik


derecesindeki F tablo değeri 2.01 dir. 4.78  2.01 olduğundan sıfır hipotezi, yani
homoskedastisiti, ret edilmektedir.

Örnek 12.7

White Sınaması
Tahmincilerinin asimptotik özelliklerini incelerken Gauss-Markov varsayımları
geçerli olduğunda olağan en küçük kareler standart hatalarının ve test
istatistiklerinin asimptotik olarak geçerli olduklarını gördük. White (1980) bu
varsayımlar altında homoskedastsisti varsayımının, var(ui X)   2 , daha basit bir
varsayım olan, hata kareler, u i2 , ile tüm açıklayıcı değişkenler, X k , açıklayıcı
değişkenlerin kareleri, X k2 , ve açıklayıcı değişkenlerin çapraz çarpımlarının k  l
için X k X l , birbiri ile korelasyonsuz olacağı varsayımı ile ikame edilebileceğini
öngörmektedir. Bunun sonucu olarak White sınaması homoskedastisiti varsayımı
altında tahmin edilen regresyon denklemi kalıntı karelerini, yani ei2 ‟leri, X için-
deki tüm değişkenler, bunların kareleri ve çapraz çarpımları üzerine regres ederek,
bu regresyondan LM sınaması için nR 2 ‟yi elde etmektedir.
Örneğin üç açıklayıcı değişkenli bir regresyon model için White sınaması ei
kalıntılarını elde etmek için Yi  1  2 X i 2  3 X i 3  4 X i 4  ui regresyonu
gerçekleştirmekte. Daha sonra, bu denklem kalıntı karelerini kullanarak
ei2  1  2 X i 2  3 X i 3  4 X i 4  5 X i22  6 X i23  7 X i24
(12.22)
8 X i 2 X i 3  9 X i 2 X i 4  10 X i 3 X i 4  wi

denkleminin tahminin etmeyi ve


H 0 : 2  2   10  0 (12.23)
hipotezini LM test istatistiği kullanarak sınamayı içermektedir. Denklem (12.21)‟in
tahmininden elde edilen belirlenme katsayısını RW2 ile gösterirsek LM test istatistiği
nRW2 olmaktadır. White, homoskedastisitiye karşı gelen sıfır hipotezi altında,
nRW2 ‟nin regresör sayısına (kesme hariç) eşit serbestlik derecesi ile ki-kare dağılımı
izleyeceğini göstermektedir, örneğimiz için nRW2 ~ 92 olmaktadır, burada daha
önce olduğu gibi n gözlem sayısını göstermektedir. Kuşkusuz (12.50)‟deki boş

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:37


Heteroskedastisiti

hipotezi sınamak için alternatif olarak F istatistiği de kullanılabilir. Asimptotik


olarak LM ve F sınamaları eşdeğerlidir.
Diğer sınamalar ve White sınaması arasındaki temel farklılık White sınamasının
çok genel olmasıdır. Bu sınamayı gerçekleştirmek için heteroskedastisitinin niteliği
hakkında hiçbir varsayım yapmamıza gerek kalmamaktadır. Bu özellik, diğer sın-
malarla karşılaştırıldığında, White sınamasının olumlu bir özelliğidir. Fakat başka
açılardan olumsuzluklar içermektedir. Birincisi, tahmin denklemi değişkenlerin
karelerini ve çapraz çarpımlarını içerdiğinden, karşımıza serbestlik derecesi sorunu
çıkmaktadır. Denklem (12.22)‟den açıkça anlaşıldığı gibi White sınması dört
açıklayıcı değişkenli durumda 14 ve 5 açıklayıcı değişkenli durumda 20 ve 6
açıklayıcı değişkenli durumda ise 27 regresör içermektedir. Bu durum, yani çok
sayıda açıklayıcı değişkenin sınama denklemi içinde yer alması ve dolayısı ile
serbestlik derecesi kaybına neden olması White sınamasının zayıf yönünü
oluşturmaktadır. Bazen serbestlik derecesinden tasarruf sağlamak için White
sınaması yardımcı regresyondan çapraz çarpımlar düşürülerek uygulanmaktadır. Bu
halde üç açıklayıcı değişkenli örneğimizdeki yardımcı regresyon denklemi (12.49)
şu şekli almaktadır:
ei2  1  2 X i 2  3 X i 3  4 X i 4  5 X i22  6 X i23  7 X i24  wi (12.24)
İkincisi, White sınaması heteroskedastisiti problemini değil de, bir başka belirgin-
leştirme hatasını, örneğin X ik2 ‟nin model dışında bırakılması sorununu, yansıtıyor
olabilir. Üçüncüsü, diğer sınamaların aksine, White sınaması yapıcı değildir. Sıfır
hipotezi ret edildiğinde, sınama sonucu bundan sonra ne yapılabileceği konusunda
hiçbir bilgi vermemektedir.

Örnek 12.8
Bu kez giyim harcamaları modelimize White test istatistiğini uygulayalım.
Başlangıç regresyon model tahmini yukarıda Tablo 12.4‟te verilmişti. Bu
tahminlerden elde edilen kalıntılara, yani ei ‟lere, RESID dersek, White testi
yardımcı regresyonu aşağıdaki gibi olacaktır.
Bu regresyondan elde edilen R2  0.188 dir. Dolayısıyla
nR 2 =10.34
olmaktadır. Yüzde 5 anlamlılık düzeyi 5 serbestlik deresindeki  2 tablo değeri
11.07 dir. 10.34<11.07 olduğundan sıfır homoskedastisiti hipotezi ret
edilememektedir; yani White sınamasına gör model hata terimleri homoskedastiktir.
Kuşkusuz elimizde EViews sonuçları olduğunda  2 tablo tablo değerini
araştırmaya hiç gerek yoktur. Tablo örneklemden tahmin edilen  2 değeri ile

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:38


Ekonometriye Giriş

birlikte onun p (olasılık) değerini, yani marjinal anlamlılk düzeyini vermekterdir.


p  0.066989 bize sıfır hipotezi olasılığının yaklaşık olarak %6 olduğunu
söylemektedir. Eğer analamlılk düzeyi olarak %5‟i seçmiş isek %6 kere ortaya
çıkma olasılığı olan H 0 hipotezini yani homoskedastisitiyi ret edemeyiz.

Tablo 12.10 White Sınaması Yardımcı Regresyon Tahmini

Örnek 12.8

Standart Sınama
White sınamasından, onun özünü koruyan fakat ondan daha kolay uygulanabilen ve
daha çok serbestlik derecesi tasarrufu sağlayan bir sınama elde etmek mümkündür.
Daha önce olduğu gibi çoklu regresyon denkleminin

Yˆi  b1  b2 X i 2   bK X iK

tahmin edildiğini ve bu denklemden kalıntıları, yani ei ‟leri, elde ettiğimizi ve


Yˆ ‟larin karesini aldığımızı farz edelim. Yˆ 2 tüm açıklayıcı değişkenlerin karelerinin
i i

ve çapraz çarpımlarının bir fonksiyonudur. Dolayısı ile

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:39


Heteroskedastisiti

ei2  1  2Yˆi  3Yˆi 2  vi (12.25)


veya

ei2  1  2Yˆi 2  vi (12.26)


denklemi tahmin edilerek heteroskedastisiti sınaması yapılabilir. Patterson (2003)
denklem (12.26)‟ye dayanarak yapılan sınamaya standart test adını vermektedir.
Denklem (12.25)‟e dayanarak yapılan sınamada aynen White sınamasında
olduğu gibi H 0 : 2  0 ve  3  0 boş hipotezi LM veya F istatistiği kullanılarak
sınanabilir. Bu özel White sınaması için tahmin edilen yardımcı denklem açıklayıcı
değişken sayısı ne olursa olsun sadece iki regresör içermektedir. Bu sınamanın
diğer bir avantajı hata terimi koşullu varyansının Y ‟nin koşullu beklen değerine,
E (Y X) , bağlı olarak değiştiği durumlarda da kullanılabilir bir sınama olmasıdır.
Denklem (12.26) baz alındığında sıfır hipotezi H 0 :  2  0 şeklinde ifade
edilmektedir. Dolayısı ile bu yardımcı regresyondan test istatistiği iki farklı şekilde
üretilebilir. Sıfır hipotezi geçerli olduğunda E (ei2 )  1 olmaktadır, yani ui ‟nin
varyansı sabittir. Bir test istatistiği olarak 1 ve n  2 serbestlik derecelerindeki F
istatistiği kullanılabilir, bu halde F  t 2 olduğu bilinmektedir. Alternatif test
istatistiği olarak, yardımcı regresyon basit doğrusal regresyon modeli olduğundan,
tek yanlı t istatistiği de kullanılabilir.
White sınaması özel halinin uygulanması
1. Yi  1  2 X i 2    K X iK  ui denklemini olağan ek küçük kareler ile tahmin
ediniz. Tahmin edilen denklemden kalıntıları, ei ‟leri, tahmin edilen Yi ‟leri,
Yˆ ‟ları, ve Yˆ 2 ‟leri elde ediniz.
i i

2. e  1  2Yˆi  3Yˆi 2  vi regresyonunu gerçekleştiriniz ve bu regresyondan


2
i

belirlenim katsayısını hesaplayınız, bu belirlenim katsayısına ROW 2


adını
verelim.
3. H 0 : 2  0 ve  3  0 boş hipotezini sınamak için gözlem sayısı n ile ROW 2
‟nin
çarpımından oluşan LM test istatistiğini veya F istatistiğini oluşturunuz. Sıfır
hipotezi geçerli olduğunda E (ei2 )   1 olmaktadır, yani ui ‟nin varyansı sabittir.
Daha önce olduğu gibi LM test istatistiği bir  22 dağılımına ve F istatistiği
bir F2, n  3 dağılımına sahiptir.

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:40


Ekonometriye Giriş

Örnek 12.9
White sınaması özel halini (veya diğer adı ile standart testi) giyim eşyasına yapılan
harcamalar ile gelir ve fert sayısı arasındaki ilişkiyi uygulayalım. Bu ilişki Tablo
12.4‟te tahmin edilmişti bu regresyondan elde edilen kalıntı kareleri, ei2 , denklem
(12.51)‟de gösterildiği gibi, yine aynı regresyondan elde edilen Yˆ (yani i

GIYSAPKA ) ve Yˆi 2 (yani GIYSAPKA2 ) üzerine regres ettiğimizde aşağıdaki


yardımcı denklem tahmin edilir:
Tablo 12.8 Giyim Harcamaları için
Standart Test Yardımcı Denkleminin Tahmini

Bu tahminlerden elde edilen LM ve F istatistiği değerleri sıra ile


LM *  5.304 [0.070] ve F *  2.652[0.080] dir; geçerli p değerleri köşeli
parantezler içinde gösterilmiştir. Her iki halde de sıfır hipotezi ret edilememektedir,
yani hata terimleri homoskedastiktir.
Tablo 12.4‟te tahmin edilen regresyondan elde edilen kalıntı kareleri, ei2 ,
denklem (12.52)‟de gösterildiği gibi sadece Yˆ 2 (yani GIYSAPKA2 ) üzerine regres
i

ettiğimizde aşağıdaki yardımcı denklem tahmin edilir.

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:41


Heteroskedastisiti

Tablo 12.9 Giyim Harcamaları için


Standart Test Yardımcı Denkleminin Tahmini

Bu denklemle tahmin edilen GIYSAPKA2 ‟nin katsayısı 0.55 yüzde 5 düzeyinde


istatistiksel olarak anlamlıdır, p  0.02 . Yani GIYIM harcamaları regresyon
denkleminde hatalar heteroskedastiktir. Standart test alternatik olarak F test
istatistiği kullanılarak ta gerçekleştirilebilir:

Tahmin edilen F istatistiği değeri 5.397‟dir ve bunun p-değeri 0.02‟dir, beklendiği


gibi F sınaması da aynı sonucu vermektedir: model hata terimleri heteroskedastiktir.

Örnek 12.9

Farklı Yayılım (Heteroskedastisitinin) Sorunun Çözümü


Daha önce de belirtildiği gibi hata terimlerindeki farklı yayılıma
(heteroskedastisitye) rağmen, onu görmezden gelerek OLS tahminini kullanırsak,
tahminciler yansız ve tutarlı olacak fakat en iyi doğrusal yansız veya asimptotik
olarak etkin olmayacaktır. Yansız ve tutarlı tahmincilere razı olsak dahi, daha da
ciddi olanı heteroskedastisitiye rağmen geleneksel sınama yordamlarını, yani t , F
ve sınamalarını kullandığımızda nasıl sonuç çıkarırsak çıkaralım, vardığımız
hükümler çok yanıltıcı olabilecektir. Güven aralıkları doğru olmayacaktır. O halde
ne yapacağız?

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:42


Ekonometriye Giriş

Uygulamada iki temel yol izlenmektedir. Birincisi, yansız ve tutarlı


tahmincilerle yetinmek fakat yanlı standart hatalar yerine, heteroskedastisiteye karşı
tutarlı (dirençli) standart hataları hesaplamak ve buna dayanarak güven aralıkları
oluşturmak ve hipotez testleri gerçekleştirmek. İkinci heteroskedastisiti durumunu
dikkate alan etkin tahminciler üretmektir.

Heteroskedastisiteye Karşı Dirençli İstatistikler


Hipotez sınamaları ekonometrik analizin önemli bir parçasıdır. Heteroskedastisiti
mevcut iken t , F ve LM istatistiklerine dayanan geleneksel OLS karar
yöntemleri yanlış olduğundan, OLS tahmincilerinin ne işe yarayacağı belirsiz hale
gelmektedir. Gerçekte böyle bir durumda dahi OLS tahmincilerinden yararlanılarak
istatistiksel kararlar alınabilir. Bunu standart hataları, t , F ve LM istatistiklerini,
bilinmeyen biçimdeki bir heteroskedastisiti varlığı halinde de geçerli olacak şekilde
ayarlayarak gerçekleştirebiliriz. Bu ayarlama, kütlede nasıl bir heteroskedastisiti
olursa olsun, test istatistiklerini hesaplamamıza yardımcı olduğundan çok kullanışlı
bir yöntemdir. Bu ayarlamalar heteroskedastisiteye karşı dirençli (robust)
prosedürler olarak bilinmektedir, çünkü bunlar, hata terimleri sabit varyansa sahip
olsun veya olmasın – en azından asimptotik olarak – geçerli yordamlardır.
Heteroskedastisiti mevcut olduğunda var(bk ) ‟nnn nasıl hesaplanabileceğini
görmek için önce tek açıklayıcı değişkenli
Yi  1   2 X i  ui
modelini ele alalım. Eğer hata terimi heteroskedastistik ise
var(ui X i )   i2 , i  1, ,n
olmaktadır. Bu durumda daha önce çıkardığımız
n

xu i i
b2   2  i 1
n

x
i 1
2
i

formülünden hareketle var(b2 )


n

x  2
i i
2

var(b2 X)   b2  i 1
2
(12.51)
 n 2
  xi 
 i 1 

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:43


Heteroskedastisiti

şeklinde ifade edilebilir. Tüm i ‟ler için  i2   2 , yani hata terimleri eşit yayılımlı
(homoskedastik), olduğunda bu formül geleneksel var(b2 X i )   2 /  xi2
formülüne indirgenmektedir. Basit doğrusal regresyon modeline homoskedastisiti
altında çıkarılan varyans formülünün heteroskedastisiti söz konusu olduğunda artık
geçerli olmadığı (12.51)‟den açıkça görülmektedir.
b2 ‟nin standart hatası doğrudan var(b2 ) ‟nin tahminine bağlı olduğundan
heteroskedastisiti mevcut olduğunda b2 ‟nin varyansını tahmin etmenin bir yolunu
bulmak gerekmektedir. White (1980) bunun yapılabileceğini göstermiştir. ei ‟ler
Y ‟nin X üzerine regresyonundan elde edilen OLS kalıntıları olsun. Bu durumda
her türlü heteroskedastsiti kalıbı için (homoskedastisiti dahil) geçerli bir var(b2 )
tahmincisi
n

x e 2 2
i i
 
2
b
i 1
2
(12.52)
 n 2
  xi 
 i 1 
olmaktadır, bu tahminci OLS regresyonundan sonra kolaylıkla hesaplanabilir.
Hangi açıdan bu tahminci var(b2 ) için geçerli bir tahmincidir? (12.52)‟nin
olasılıkta b2 ‟nin varyansı olan (12.51)‟e yakınsaklaştığı gösterilebilir. Bu
yakınsaklığı belirlemede büyük sayılar yasası ve merkezi limit teoremi önemli rol
oynamaktadır. (Bakınız Woldridge (2002, 2004) ve White (1980)).
Benzer bir formül genel çoklu regresyon modeli
Yi  1  2 X i 2    K X iK  ui
için de geçerlidir. Farklı yayılım varsayımı dışında kalan ilk dört varsayım altında
bk ‟nın varyansı için geçerli tahmincin
n

e 2 2
e
ik i
 
2
bk
i 1
2
(12.53)
 n 2
  xk 
 i 1 
olduğu gösterilebilir. Burada eik kalıntısı X ik ‟nın modelde yer alan tüm diğer
açıklayıcı değişkenler üzerine regresyonundan elde edilen i ‟ninci kalıntıyı
belirtmektedir. (12.53)‟teki varyansın kareköküne bk ‟nın farklı yayılıma
(heteroskedastisitiye) karşı dirençli standart hatası adı verilmektedir. Ekonometride

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:44


Ekonometriye Giriş

bu standart hatalar genellikle White (1980)‟e atfedilmektedir. İstatistikte Eicker


(1967) ve Huber (1967)‟nin önceki çalışmaları bu tür dirençli standart hataların elde
edilebilme olanağına işaret etmektedir. Bu nedenle bu şekilde elde edilen standart
hatalara uygulamada bazen White, Huber, veya Eicker standart hataları olarak atıfta
bulunulmaktadır. Bu standart hatalara farklı yayılıma (heteroskedastisitiye) dirençli
standart hatalar, veya, anlamının açık olduğu yerlerde, kısaca dirençli standart
hatalar olarak atıfta bulunacağız. Bazen (12.53)‟teki varyans karekökü alınmadan
önce n / (n  K  2) ile çarpılmakta veya farklı düzeltmeler yapılmaktadır
(MacKinnon ve White, 1985).
Farklı yayılıma karşı dirençli standart hatalar elde edildikten sonra farklı
yayılıma karşı dirençli t istatistiği
bk   k
tbk  (12.54)
bk

formülünden elde edilebilir.


Günümüzde hemen hemen tüm ekonometri paket programları farklı yaylıma
karşı karşı dirençli standart hataları ve t istatistiklerini otomatik olarak
üretmektedir.

Örnek 12.10
Şimdi giyim harcamaları modelimizin farklı yaılıma karşı dirençli standart
hatalarını üretebiliriz. Sonuçlar Tablo 12.9‟da gösterilmiştir. Tablo 12.1 ile Tablo
12.9 karşılaştırıldığında parametre tahminlerini değişmediği ama standart hataların
önemli ölçüde değiştiği görülmektedir.
Tablo 12.9 Farklı Yayılıma Karşı
Dirençli Standart Hatalar

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:45


Heteroskedastisiti

Örnek 12.10

Bu aşamada şöyle bir soru akla gelebilir: Eğer, özellikle farklı yaylım probleminin
sık sık karşımıza çıktığı kesit verilerinde, farklı yayılıma karşı dirençli standart
hatalar alışılmış OLS standart hatalarından daha çok geçerli ise, neden alışılmış
standart hatalardan tümüyle vazgeçilerek farklı yayılıma karşı dirençli standart
hatalar kullanılmamaktadır? Bunun bir nedeni homoskedastisiti varsayımının
geçerli olduğu ve hata terimlerinin normal dağıldığı durumlarda alışılmış t
istatistiklerinin, örneklem büyüklüğü ne olursa olsun, kesin t dağılımına sahip
olmasıdır. Öte yandan dirençli standart hatalar ve dirençli t istatistikleri ancak
örneklem büyük olduğunda geçerlidir. Örneklem boyutunun küçük olduğu
durumlarda, dirençli t istatistikleri t dağılımına yakın olmayan dağılımlara sahip
olabilirler ve bunun sonucu istatistiksel çıkarımlarımız geçerli olmayabilir.
Farklı Yayılıma (Heteroskedastisitiye) Dirençli F İstatistiği
Farklı yaylıma karşı dirençli t istatistikleri gibi farklı yaylıma karşı dirençli F
istatistikleri (veya onun bir dönüşümü) üretilebilir. Buna farklı yaylıma karşı
dirençli Wald istatistiği adı verilmektedir. Bazı ekonometri paket programları bu
istatistiği hesaplamaktadır.
Farklı Yayılıma (Heteroskedastisitiye) Dirençli LM İstatistiği
Heteroskesdastiye karşı dirençli F istatistiğinin hesaplamadığı bazı durumlarda,
alternatif olarak, standart ekonometrik paket programları kullanılarak
heteroskesdastiye karşı dirençli LM istatistiği hesaplanabilir.
Farklı yaylımı karşı dirençli LM istatistiğinin nasıl hesaplanabileceğini
örneklendirmek için hata terimleri heteroskedastik olduğu bilinen
Yi  1  2 X i 2  3 X i 3  4 X i 4  5 X i 5  6 X i 6  ui (12.55)
çoklu regresyon modelini örnek olarak ele alalım ve
H 0 : 5  0 ve 6  0
önsavını (hipotezini) sınamak istediğimizi farz edelim.
İlk olarak, alışıla gelmiş LM istatistiğini elde etmek için kısıtlanmış modeli
(yani açıklayıcı değişkenleri arasında X i 5 ve X i 6 bulunmayan modeli) tahmin
ederek kalıntıları elde ederiz, ei . Daha sonra ei ‟yi modeldeki tüm açıklayıcı
değişkenler üzerine regres eden yardımcı denklemi tahmin ederek LM  n  Re2 ‟yi
hesaplarız. Burada Re2 yardımcı regresyonun R -karesidir. Bu bilinen LM istatisti-
ğidir.

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:46


Ekonometriye Giriş

Farkı yayılıma karşı dirençli LM istatistiği elde etmenin bir yolu biraz tuhaf
görünen ilave regresyonlar yapmayı gerektirmektedir. Önce X i 5 ‟i X i 2 , X i 3 ve X i 4
üzerine regres ederek, kalıntıları elde edelim, ei ,5 . Daha sonra X i 6 ‟yı X i 2 , X i 3 ve
X i 4 üzerine regres ederek, ei 6 regresyon kalıntılarını elde edelim. Şimdi kendi
başına hiçbir anlamı olmayan ve sadece hesaplama aracı olarak kullanılan sıra dışı
bir regresyon yapalım. Bu regresyonun bağımlı değişkenini tüm gözleri 1 değeri
alan bir Si değişkeni olarak tanımlayalım. Açıklayıcı değişkenler ise yukarıda elde
edilen kalıntıların ei 5  ei ve ei 6  ei şeklindeki çarpımları olsun. Gerçekleştirilecek
regresyon sabit terim içermeyen
Si   1  ei 5  ei    2  ei 6  ei   i (12.56)

n   i 1ˆi2
n
regresyonudur. Farklı yayılıma karşı dirençli LM istatistiği

 ˆ (12.56)‟daki denklemin tahmininden elde edilen kalıntı


n
olmaktadır. Burada i 1 i
2

kareler toplamıdır.
Genel durum için farklı yayılma karşı dirençli LM istatistiği hesaplanma
aşamaları şöyle özetlenebilir:
1. Kısıtlanmış modelden ei ‟yi hesaplayınız
2. Sıfır hipotezi ile model dışında bırakılan açıklayıcı değişkenlerden her birini
sıra ile model içine katılan değişkenler üzerine regres ediniz ve kalıntıları
elde ediniz. Eğer q sayıda model dışında bırakılan değişken varsa, sonuç
olarak q tane kalıntılar kümesi, eis , s  1, , q elde edilir.
3. Her bir eis , s  1, , q ve ei çarpımını elde ediniz.
4. 1 ‟i sabit terim olmaksızın, eis  ei , s  1, , q , açıklayıcı değişkenleri üzerine
regres ediniz. Bu nihai regresyondan elde edilen kalıntı kareler toplamı
 ˆ olsun. Farklı yayılıma karşı dirençli LM istatistiği n   i 1ˆi2
n 2 n
i 1 i

olmaktadır. H 0 altında LM istatistiği yaklaşık olarak  q2 dağılımına


sahiptir.
5. LM istatistiğini uygun kritik değer, c , ile karşılaştırınız. Eğer LM  c ise
sıfır hipotezi ret edilmektedir. Almaşık olarak bir  q2 rastsal değişkenin
sınama istatistiği değerini aşma olasılığını gösteren p -değerini, amrjinal
anlamlılık düzeyini, elde ediniz. Eğer p -değeri arzu edilen anlamlılık
düzeyinden küçük ise H 0 ret edilir.

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:47


Heteroskedastisiti

Daha Etkin Tahmin Yöntemlerinin Bulunması: Ağırlıklı


Enküçük Kareler Tahmini
Heteroskedastisiti problemi ile karşılaşıldığında izlenecek ikinci yol OLS‟den daha
etkin tahmincilerin bulunmasıdır. Bunu için genelde iki yaklaşım izlenmektedir: (a)
 i2 ile ilgili varsayımlar yapılması ve (b)  i2 ‟nin tahmin edilmesi.

 i2 ile İlgili Varsayımlar Yapılması (Farklı Yayılımın Çarpım Biçi-


minde bir Sabit Olarak Bilindiğini Varsayalım)
Bir regresyon modelini formüle ederken bazı hallerde  i2 hakkında ilave bilgiler
elde etmek mümkün olabilmektedir. Bu bilgi çoğu durumlarda  i2 ‟nin açıklayıcı
değişkenlerin belirli bir fonksiyonu ile bağıntılı olduğu varsayımı şeklinde ifade
edilmektedir. Modelde yer alan tüm açıklayıcı değişkenleri xi  ( X i 2 , X i 3 , X iK )
ile belirtim ve
var(ui X)   2 h(xi ) (12.57)

olduğunu varsayalım. Burada h(xi ) farklı yayılımı belirleyen X ik ‟ların bir


işlevidir. Varyanslar pozitif olması gerektiğinden, h(xi ) ‟in açıklayıcı değişkenlerin
tüm olabilir değerleri için pozitif olması gerekir. Şimdilik h(xi ) işlevinin
bilindiğini varsayıyoruz. Kitle parametresi  2 bilinmemektedir, fakat örneklem
verilerinden tahmin edilebilecektir.
Örneklemin geldiği kitle için
 i2  var(ui X)   2 h(xi )   2 hi (12.58)

yazabiliriz. Burada hi , açıklayıcı değişkenlerdeki değişmeye bağlı olarak,


gözlemden gözleme değişmektedir.
Şimdi  i2   2 hi bilgisini

Yi  1  2 X i 2  3 X i 3    K X iK  ui (12.59)

orijinal denklemindeki  k ‟ları tahmin etmede kullanabiliriz. Bunu (12.59)


denklemini hata terimler eşit yayılımlı olan ( ve diğer Gauss-Markov varsayımlarını
tatmin eden) bir denkleme dönüştürerek gerçekleştirebiliriz. Hata teriminin varyansı
 i2   2 hi olduğuna göre standart sapması  i   hi olacaktır.
Şimdi ui hi şeklinde tanımlanan yeni bir hata terimini ele alalım. hi sadece
xi ‟nin fonksiyonu olduğundan X ‟e koşullu ui hi ‟nin beklenen değeri de sıfır

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:48


Ekonometriye Giriş

olacaktır. Buna ilaveten var(ui X)   2 h(xi )   2 hi olduğundan X ‟e koşullu


ui hi ‟nin varyansı  2 olacaktır:


E ui / hi    E (u ) / h   h / h  
2
2
i i
2
i i
2
(12.60)

burada gösterimdeki basitliği sağlamak için X üzerine koşullandırmayı açıkça


göstermedik.
Şimdi denklem (12.59)‟i boydan boya hi ile böldüğümüzde

  
Yi / hi  1 1 / hi   2 X i 2 / hi  3 X i 3 / hi    (12.61)
 
  K X iK / hi  ui / hi 
veya
Yi   1 X i1   2 X i2    K X iK  ui (12.62)

elde edilir. Burada X i1  1 / hi ve tüm diğer yıldızlı değişkenler hi ile bölünmüş
orijinal değişkenlere karşı gelmektedir. Denklem (12.59)‟daki sabit terim, yeni
denklemde, yani denklem (12.62)‟de, X i1  1 / hi ‟nin katsayısı olmuştur.
Denklem (12.62)‟ye OLS uygulayarak daha iyi etkinlik özelliklerine sahip  k ,
k  1, , K , tahminleri elde edilebilir. Bu denklem, parametre yorumlarını
dönüştürülmüş denkleme göre değil de orijinal denkleme, yani (12.59)‟a, göre ya-
pıldığında, herhangi bir sorun doğurmamaktadır.
Dönüştürülmüş denklem (12.62) klasik doğrusal regresyon modeli
varsayımlarını (Varsayım 1- Varsayım 6) sağlamaktadır. Dolayısı ile bu modele
OLS uygulayarak cazip özellikler sahip (en iyi doğrusal yansız) tahminciler elde
edebiliriz. Kuşkusuz bu denklemi, yani denklem (12.62)‟yi temel alan OLS
tahmincileri 1 ,  2 , ,  K , orijinal denklem (12.59)‟i temel alan OLS tahmincileri
b1 , b2 , , bK ‟dan farkı olacaktır. Orijinal denklem (12.59)‟un tahmincileri olarak
bakıldığında 1 ,  2 , ,  K tahmincileri genelleştirilmiş enküçük kareler (GLS)
tahmincileri olarak bilinmektedir. Burada GLS hata terimlerindeki farklı yayılımı
dikkate almaktadır.
Dönüştürülmüş denklem (12.62) tüm varsayımları tatmin ettiğinden standart
hatalar, t istatistikleri ve F istatistikleri dönüştürülmüş değişkenleri kullanan
regresyondan elde edilebilir. Keza dönüştürülmüş denklemden elde edilen
 e (n  K ) hata terimi varyansı  u2 ‟nin yansız tahmincisi olmaktadır. Buna
n 2
i 1 i

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:49


Heteroskedastisiti

ilaven GLS tahmincileri eniyi doğrusal yansız olduklarından dönüştürülmemiş


denklemden elde edilen yansız OLS tahmincilerinden daha etkindir. Fakat
parametre tahminlerini iktisadi olarak yorumlarken orijinal denklemin temel
alınması gerektiği unutulmamalıdır.
Farkı yayılımı dikkate alan GLS tahmincilerine, aynı zamanda, ağırlıklı
enküçük kareler (WLS) tahmincileri adı verilmektedir. Bunun nedeni
1 ,  2 , ,  K tahmincilerinin kalıntı karelerin ağırlıklı toplamını en küçüklemesidir
(minimize etmesidir). Bu tahminciler çıkartılırken her kalıntı karesi 1 / hi ile
ağırlıklandırılmaktadır. Bu şekilde yüksek hata varyanslı gözlemlere daha küçük
ağırlıklar verilmektedir. Halbuki OLS, kitlenin tüm bölümleri için hata varyansı
özdeş olduğu için, her gözlem hatasına eşit ağırlık vermektedir. Matematiksel
olarak WLS tahmincileri

 Y     K* X iK  hi
n 2
i
*
1 X i1   2* X i 2  (12.63)
i 1

ifadesini en küçük yapan  k* değerleridir. (12.63) almaşık olarak (12.61) veya


(12.62)‟deki dönüştürülmüş deklemler cinsinden

 Y 
n 2
i hi  1* X i1 hi   2* X i 2 hi    K* X iK hi (12.64)
i 1

şeklinde yazılabilir. Başka bir ifade ile, (12.61) veya 12.62)‟de olduğu gibi,
ağırlıklandırılmış değişkenlere OLS uygulamasından elde edilen tahminciler ile
orijinal denklem (12.59)‟ a WLS uygulayarak elde edilen tahminciler birbiri ile
özdeştir. Dikkat ederseniz (12.63)‟teki kalıntı kareler 1 / hi ile ağırlıklandırılırken
(12.61) veya (12.62)‟deki dönüştürülmüş değişkenler 1 / hi ile
ağırlıklandırılmaktadır.
Dönüştürülmüş denklemin (12.61)‟de olduğu gibi her değişkeni X ‟e koşullu
ui ‟nin koşullu standart hatasının tersi ile ağırlıklandırma işinin tek tek yapılması
usandırıcıdır. Günümüzde hemen hemen tüm paket programlar ağırlıklı enküçük
kareler tahminini otomatik olarak gerçekleştiren özellikler içermektedir.

Örnek 12.11
Bu bölümdeki önceki örneklerde 1994 Hanehalkı Anketi Bursa verilerini içeren
BURSA2.WF1 dosyası kullanılarak giyim harcamaları (GIYIM) ile hanehalkı geliri
(GEL) ve hanehalkı fert sayısı (FERT) arasındaki
GIYIM i  1  2GELi  3 FERTi  ui (12.65)

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:50


Ekonometriye Giriş

çoklu regresyon modeli 55 gözlemli bir örneklemden tahmin edilmiş ve aşağıdaki


bulgular elde edilmiştir:

Bu model hata terimleri için önceki kesimlerde yapılan çeşitli sınamalar hata
teriminin farklı yayılımlı (heteroskedastik) olduğunu göstermiştir. Şimdi
 i2   2GEL2i (12.66)

olduğunu varsayarsak  k ‟ların GLS tahminlerini,  k* ‟ları, elde edebiliriz. Bu


tahminleri önce 1/ GEL ile ağırlıklandırılmış değişkenlere OLS uygulayarak elde
hesaplayalım. EViews çıktısı aşağıda gösterilmiştir:

Öte yandan EViews programının 1 / GEL2 ile ağrlıklandırılmış kalıntı kareler


toplamını enküçükleyerek WLS yöntemini doğrudan uygulama özelliğini
kullandığımızda aşağıdaki bilgisayar çıktısı elde edilmektedir:

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:51


Heteroskedastisiti

Beklendiği gibi her iki yöntemde aynı tahminleri vermektedir: b1  56505.52 ,


b2  0.046760 ve b1  23033.94 . EViews programı WLS tahmincisini kullanmanın
en büyük yararı parametre tahminleri ile birlikte OLS tahminleri ile
karşılaştırılabilir ağırlıklı (weighted) ve ağılıksız (unweighted) istatistikleri
doğrudan vermesidir.
WLS ile tahmin edilen denkleme Breush-Pagan-Godfrey sınaması
uyguladığımızda LM  0.038 ve p  0.84 ve White sınaması uyguladığımızda
LM  3.16 ve p  0.53 olarak bulunmaktadır. Her iki sınama artık hata
terimlerinin farklı yayılımlı olmadığına işaret etmektedir.

Örnek 12.11

Farklı Yayılım (Heteroskedastisiti) İşlevinin Tahmini:


Uygun Genelleştirilmiş Enküçük Kareler (FGLS)
Bir önceki kesimde, heteroskedastisitinin çarpım biçiminde olduğu ve yapısının
bilindiği örnekleri ele aldık. Birçok halde farklı yayılımın kesin biçimi
bilinmemektedir. Başka bir ifade ile bir önceki kesimdeki gibi h(xi ) işlevi bulmak
mümkün değildir. Bu gibi durumlarda h işlevini modelleyebilir ve örneklem

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:52


Ekonometriye Giriş

verilerini kullanarak bu modelin bilinmeyen parametrelerini tahmin edebiliriz. Bu


her bir hi ‟nin tahmin edilmesi anlamına gelmektedir; tahmin edilen hi ‟leri hˆi ile
simgeleyelim. GLS dönüştürmesinde gerçek hi ‟ler yerine örneklemden tahmin
edilen hˆi ‟lar kullanılmasıyla elde edilen tahminciye uygun GLS (FGLS)
tahmincisi adı verilmektedir. Uygun GLS bazen tahmin edilen GLS veya EGLS
olarak ta adlandırılmaktadır.
Farklı yayılım çeşitli biçimlerde modellenebilir. Biz burada oldukça esnek tek
bir biçimi ele alacağız. Farklı yayılım biçiminin
var(ui xi )   2 exp(1  2 X i 2  3 X i3    K X iK ) (12.67a)

veya
var(ui xi )   2e1 2 Xi 2 3 Xi 3   K XiK
(12.67b)

şeklinde olduğunu varsayıyoruz. Burada X i 2 , X i 3 , . . ., X iK regresyon modelinde


yer alan bağımsız değişkenler ve  k , k  1,2, , K , bilinmeyen parametrelerdir.
Kuşkusuz farklı yayılım belirtilenden farklı biçimlerde olabilir, fakat biz burada
(12.67) üzerine odaklanacağız. Önceki kesimde kullanılan simgeleme ile
h(xi )  exp(1   2 X i 2   3 X i 3    K X iK )
olmaktadır.
Denklem (12.67)‟de neden üstel biçim kullandığımız merak edilebilir. Breusch-
Pagan sınaması kullanarak farklı yayılımı sınadığımızda, farklı yayılımın X k ‟nın
doğrusal bir fonksiyonu olduğunu varsaymıştık. Farklı yayılımı sınarken doğrusal
kalıp doğrusal biçim kullanmak hiçbir sorun yaratmazken, ağırlıklı en küçük kareler
kullanarak farklı yayılımı düzeltmeye kalkıştığımızda sorun olmaktadır. Doğrusal
modeller kestirilen değerlerin pozitif olmasını garantilememektedir. Halbuki, ağır-
lıklı enküçük kareleri (WLS) gerçekleştirebilmek için tahmin edilen değişirliklerin
(varyansların) pozitif olması gerekir.
 k parametreleri bilinmiş olsaydı, önceki kesimde yaptığımız gibi, doğrudan
WLS‟yi uygulardık.  k ‟lar bilinmediği için bunların tahmin edilmesi ve bu tahmin-
ler kullanılarak ağırlıkların oluşturulması gerekir. Bunun için bu denklemi doğrusal
biçime dönüştürecek ve biraz değiştirerek  k ‟ları OLS ile tahmin edeceğiz.
Varsayım (12.67) altında
ui2   2 exp(1   2 X i 2   3 X i 3    K X iK )vi (12.68)

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:53


Heteroskedastisiti

yazabiliriz. Burada xi   X 1 , X 2 , , X K  ‟ya koşullu olarak vi ‟nin ortalaması biri-


me eşittir. vi ‟nin xi ‟den bağımsız olduğunu varsayarsak

log(ui2 )  1   2 X i 2   3 X i 3    K X iK   i (12.69)

yazabiliriz. Burada  i sıfır ortalamaya sahiptir ve xi ‟den bağımsızdır. Denklem


(12.69)‟daki sabit terim 1 ‟den farklıdır. Fakat bunun WLS‟nin uygulanması açı-
sından bir önemi yoktur. Bağımlı değişken kare hatanın logaritmasıdır. (12.69)
klasik doğrusal regresyon modeli varsayımlarını sağladığından, OLS kullanarak
 k ‟lar için yansız tahminciler elde edebiliriz.
Her zaman ki gibi gözlenemeyen ui ‟ler yerine OLS kalıntıları ikame edilir. Bu
şekilde
log(ei2 )  1   2 X i 2   3 X i 3    K X iK   i (12.70)
regresyonu gerçekleştirilir. Bu regresyondan bizim istediğimiz bağımlı değişkenin
tahmin edilen değerleridir, log(ei2 ) , bunu gˆ i ile simgeleyelim. Bu durumda tahmin
edilen hi değerleri

hˆi  exp( gˆi ) (12.71)

şeklinde hesaplanmaktadır. Şimdi artık (12.62)‟deki 1 hi yerine 1 hˆi ‟i kullanarak


FGLS tahminlerini elde edebilir. FGLS aşamaları aşağıda özetlenmektedir.

Uygun Genelleştirilmiş Enküçük Kareler (FGLS)


1. Önce aşağıdaki regresyonu gerçekleştirerek, kalıntıları, ei ‟leri, elde ediniz.

Yi  1   2 X i 2   3 X i 3    K X iK  ui
2. OLS kalıntılarının karelerini ve daha sonra logaritmalarını alarak
log(ei2 ) ‟leri üretiniz.
3. log(ei2 )  1   2 X i 2   3 X i 3    K X iK   i regresyonunu gerçekleştirerek
tahmin edilen gˆ i  log(ei2 ) değerlerini elde ediniz
4. Tahmin edilen değerlerin üstelini (antilogaritmasını) alarak, hˆi  exp( gˆi ) , hˆi
değerlerini bulunuz.
5. 1 hˆi ‟yı ağırlık olarak kullanarak Yi  1  2 X i 2  3 X i 3    K X iK  ui
regresyonunu WLS ile tahmin ediniz.

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:54


Ekonometriye Giriş

WLS tahmini yaparken hˆi değil de hi kullanıldığında, tahmincilerin yansız ol-


duğu bilinmektedir. Gerçekte, farklı yayılım doğru dürüst modellendiğinde bu du-
rumda tahminciler en iyi doğrusal yansız olacaktır. Aynı örneklem verileri kullanı-
larak hi ‟nin gerçek değeri yerine hˆi kullanıldığında FGLS tahmincileri artık yansız
olmayacaktır. Dolayısı ile en iyi doğrusal yansız da olmayacaktır. Fakat, FGLS
tahmincileri tutarlıdır ve asimptotik olarak OLS tahmincilerinden daha etkindir.
Bunun böyle olduğunu göstermek zordur. Fakat, büyük örneklem boyutları için,
OLS tahminlerinin standart hatalarını şişiren farklı yayılıma işaret eden deliller
olduğunda, , FGLS tahminleri OLS tahminleri yerine kullanılabilecek cazip alterna-
tifler olmaktadır.
Unutulmaması gereken nokta FGLS tahmincilerinin bilinen
Yi  1  2 X i 2  3 X i 3    K X iK  ui
kitle modelindeki parametrelerin tahmincileridir. Aynen OLS tahminleri gibi FGLS
tahminleri de her bir X k ‟nın Y üzerindeki marjinal etkisini ölçmektedir. OLS tah-
minleri yerine FGLS tahminleri kullanılmaktadır çünkü FGLS tahminleri, en azın-
dan büyük örneklemler için, daha etkindir ve bilinen t ve F sınamaları ile ilişkili
sınama istatistikleri vermektedir. Eğer denklem (12.67)‟de belirginleştirilen varyans
hakkında şüphemiz varsa, dönüştürülmüş denklemdeki farklı yayılıma karşı dirençli
standart hataları ve sınama istatistiklerini kullanabiliriz.
hi ‟yi tahmin etmek için kullanılabilecek başka bir alternatif, (12.70)‟teki regres-
yonda bağımsız değişkenler yerine bağımlı değişkenin OLS tahminlerini ve bu
tahminlerin kareleri kullanmaktır. Başka bir ifade ile gˆ i ‟lar

log(ei2 )  1  1Yˆî  2Yˆi 2  i (12.72)

regresyonundan tahmin edilen değerler, log(ei2 ) , olarak elde edildikten sonra hˆi ‟lar
aynen (12.71)‟de olduğu gibi hˆ  exp( gˆ ) olarak bulunur.
i i

Bölüm 12, 05.12.2011  Ertaş&Ertaş, Uludağ Üniversitesi Sayfa:55


13
DĠĞER BELĠRGĠNLEġTĠRME HATALARI
VE VERĠ PROBLEMLERĠ

Fonksiyonel Biçimin YanlıĢ Tanımlanması


Gölge DeğiĢken Kullanımı
Ölçüm Hataları, Eksik Veriler, Aykırı Değerler
Önceki bölümlerde Gauss-Markov varsayımlarından koşullu tek değişirlilik
(homoskedastisiti) varsayımının ihlalini ele alarak inceledik. Hatalardaki
çokdeğişirliliğin (heteroskedastisinin) bir model yanlış tanımlaması olarak ele alına-
bileceğine işaret ettik. Fakat heteroskedastisitiden kaynaklan yanlış tanımla göreli
olarak ufak bir belirginleştirme (spesifikasyon) hatasıdır. Çok değişirliliğin
(heteroskedastisitinin) varlığı olağan en küçük kareler (OLS) tahmincilerinde yanlılı-
ğa veya tutarsızlığa neden olmaz. Keza çok değişirliliğe karşı dirençli (robust) stan-
dart hatalar hesaplanarak güven aralıkları, t ve F istatistikleri kolaylıkla düzeltile-
bilir. Hatta ağırlıklı en küçük kareler kullanılarak etkin tahminciler elde edilebilir.
Bu bölümde çok daha ciddi bir problem olan hata terimi, ui , ile bir veya daha
fazla sayıdaki açılayıcı değişken arasındaki korelasyon problemini ele alacağız. Daha
önceki derslerden hatırlayacağınız gibi eğer ui herhangi bir nedenle açıklayıcı değiş-
ken X ik ile korelasyonlu ise X ik ‟ya endojen açıklayıcı değişken adı verilmektedir.
Burada açıklayıcı değişkenin dışsal (endojen) olmasına neden olabilecek üç farklı so-
runu detaylı olarak ele alacak ve bazı durumlar için mümkün tedavi yollarını tartışa-
cağız.
Öncekibir bölümde, önemli bir açıklayıcı değişkenin model dışında bırakılması-
nın hata terimi ile bazı açıklayıcı değişkenler arasında korelâsyona neden olabilece-
ğini görmüştük. Bu durum genel olarak OLS tahmincilerinde yanlılığa ve tutarsızlığa
neden olmaktadır.
Model dışı bırakılan değişkenin modeldeki bir açıklayıcı değişkenin fonksiyonu
olduğu özel durumda yanlış fonksiyonel biçim belirginleştirmesi (spesifikasyonu) so-
runu yaşanır. Bu bölümde ilk olarak fonksiyonel kalıp yanlış tanımının sonuçlarını ve
bunu nasıl test edeceğimizi tartışacağız. Kesim 13.2‟de model dışında bırakılan de-
ğişken yanının (sapmasının) çözmek veya en azından etkisini azaltmak için için göl-
ge değişkenin nasıl kullanılacağını göstereceğiz. Kesim13.3‟te belirli türden ölçüm
Diğer Belirginleştirme (Spesifikasyon) Hataları ve Veri Problemleri

hataları altında OLS tahmincilerinde meydana gelebilecek yanlılık çıkarılmakta ve


açıklanmaktadır. İlave veri problemleri Kesim 13.4‟te tartışılmaktadır.
Bu kısımda ele alınan tüm çözüm yordamları OLS tahminine dayanmaktadır. Gö-
rüleceği gibi hata terimi ve bazı açıklayıcı değişkenler arasında korelasyona neden
olan bazı problemler OLS kullanılarak çözülemez. Bu problemlerin çözümünde kul-
lanılabilecek alternatif tahmin yöntemlerini ileriki bölümlerde ele alacağız.

Fonksiyonel Biçimin YanlıĢ BelirginleĢtirilmesi


(Spesifikasyonu)
Çoklu regresyon modelinde bağımlı değişken ile açıklayıcı değişkenler arasındaki
matematiksel ilişkiyi doğru olarak dikkate almadığında modelin fonksiyonel biçimi
yanlış belirginleştirme problemi içeriyor demektir. Örneğin saat ücretlerinin
log(UCRETi )  1   2 EGTMi  3 DNYMi   4 DNYMi2  ui

tarafından açıklandığını, fakat deneyim teriminin karesinin, DNYM 2 , modelden dü-


şürüldüğünü farz edelim, bu halde fonksiyonel biçimin,n yanlış belirginleştirilmesi
problemi ortaya çıkar, çünkü model dışında bırakılan değişken ile model içinde yer
alan değişken arasında fonksiyonel bir ilişki vardır. Daha önceki derslerimizden bu-
nun 1 ,  2 ve  3 tahmincilerinin yanlış tahmin edilmesine neden olacağını biliyo-
ruz (  4 ‟ü tahmin edemiyoruz çünkü DNYM 2 model dışında bırakılmıştır.)
DNYM ‟nin log(UCRET ) ‟i nasıl etkilediğinin yanlış tanımlanması eğitimin geti-
risi (yani eğitimin ücretler üzerindeki etkisini gösteren parametre) için yanlı tahmin-
ci,  2 , vermektedir. Bu yanın boyutu  4 ‟ün büyüklüğüne ve DNYM 2 ile EGTM ,
DNYM arasındaki korelâsyona bağlıdır.
Bu tanımlama hatası dışında, DNYM ‟nin log(UCRET ) ‟i nasıl etkilendiğinin
tahmin edilmesi de zorlaşmaktadır:  3 ‟ün yansız tahmincisini elde etsek dahi,
DNYM ‟in ücreti nasıl etkilediğini doğru olarak hesaplayamayabiliriz çünkü
 log(UCRET ) / DNYM  d log(UCRET ) / dDNYM  3  24 DNYM

ilşkisinden de açıkça görüldüğü gibi, 2 4 DNYM ‟ün dikkate alınmaması ve sadece


 3 ‟ün yanlı tahmininin kullanılması, özellikle DNYM değişkeni uç değerlerinde,
yanıltıcı sonuçlar verebilecektir.
Başka bir örnek olarak doğru tanımlanmış denklemin

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:2


Ekonometrik Analiz

log(UCRETi )  1   2 EGTM i   3 DNYM i   4 DNYM i2


(13.1)
  5 KADIN   6 ( KADIN  EGITIM )  ui

şeklinde olduğunu varsayalım, burada KADIN bir iki değerli bir (kukla) değişken-
dir. Eğer KADIN  EGITIM etkileşim değişkenini model dışında bırakırsak model
tanımlamasını yanlış yapıyoruz demektir. Böyle bir durumda, genel olarak, diğer pa-
rametrelerin hiçbirinin yansız tahmincilerini elde edemeyiz, çünkü eğitime göre getiri
cinsiyete bağlıdır, etkileşim değişkenini model dışında bıraktığımızda hangi değişke-
ne göre getiriyi (yani ücreti) tahmin ediyor olacağımız açık değildir.
Bir veya birden çok açıklayıcı değişkenin fonksiyonun dışarıda bırakılması bir
modelin yanlış fonksiyon belirginleştirme (spesifikasyon) problemi yaşamasının tek
nedeni değildir. Örneğin (13.1)‟in Gauss-Markov varsayımlarını tatmin eden doğru
model olduğunu fakat bağımlı değişken olarak log(UCRET ) yerine UCRET ‟i kul-
landığımız farz edelim, bu halde kısmi etkilerin yansız ve tutarlı tahminlerini elde
edemeyiz. Biraz sonra anlatacağımız testler bu tür fonksiyonel kalıp problemlerini
belirli ölçüde yakalama becerisine sahiptir, fakat özellikle bu son belirttiğimiz prob-
lemin üstesinden gelmek için geliştirilmiş, içerilmemiş (yuvalanmamış) alternatifler
karşında sınama adlı alt kesimde ele alacağımız, daha iyi testler mevcuttur.
Bir modelin fonksiyonel biçiminin yanlış belirginleştirmesi (spesifikasyonu) ciddi
olumsuz sonuçlar doğurabilir. Fakat verilere iyi uyan bir fonksiyonel ilişkiyi elde et-
mek için gerekli değişkenlerin tüm verileri elimizde mevcut bulunduğunda proble-
min üstesinden gelinemeyecek kadar ciddi değildir. Problem, bir anahtar değişkenin
model dışında bırakıldığı ve dışarıda bırakılan bu değişkene ait veri toplanmasının
mümkün olmadığı durumlarda çok ciddi bir problem olarak karşımıza çıkmaktadır.
Yanlış belirginleştirilmiş fonksiyonel kalıbın doğrusunu keşfetmek için elimizde
güçlü bir test bulunmaktadır. Bu daha önce gördüğümüz birden çok değişkenin dışa-
rıda bırakılmasını sınamada kullandığımız F sınmasına benzer bir sınmadır. Bu sı-
nama anlamlı değişkenlerin ikinci mertebe (karesel) ifadelerini modele katarak bir
birleşik anlamlılık testi gerçekleştirmektedir. Eğer ikinci mertebeden terimler anlamlı
ise bir çözüm olarak bu terimler modele katılabilir (bunun tek maliyeti modelin yo-
rumunun biraz daha güç hale gelmesidir.). Bununla birlikte, anlamlı karesel terimler
başka türden fonksiyonel kalıp problemlerinin belirtileri olabilir, örneğin logaritma
kullanımın daha doğru olduğu yerlerde düzey kullanıldığının işaretçisi olabilir. Bir
fonksiyonel kalıbın hangi gerçek nedenle yanlış tanımlandığını keşfetmek zor olabi-
lir. Güzel olan, birçok halde bazı değişkenlerin logaritmalarının kullanılması ve kare-
sel ifadelerin eklenmesi iktisatta karşılaşılan birçok önemli doğrusal dışı ilişkiyi ya-
kalamakta yeterli olmasıdır.

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:3


Diğer Belirginleştirme (Spesifikasyon) Hataları ve Veri Problemleri

Örnek 13.1: Suç ĠĢleme Ġktisadi Modeli (SUC1.WK1)


SUC1.WK1‟deki veriler geçmişte işlenen suçlar nedeniyle ceza evinde geçirilen orta-
lama mahkûmiyet süresinin ve diğer değişkenlerin cari yılda (1986) yapılan tutukla-
ma sayısını etkileyip etkilemediğini sınamak için kullanılmaktadır. Değişken tanım-
ları aşağıdaki tabloda verilmiştir.

Değişken Tanımları

TUTS86 Suçlunun 1986 yılında tutuklanma sayısı


ATUT86 Suçlunun 1986 yılında “ağır suçlu” olarak tutuklanma sayısı
MSTUTS86 Suçlunu 1986 yılında “mülke yönelik suç” nedeniyle tutuk-
lanma sayısı
OMO Mahkûmiyet oranı (=mahkûmiyet sayısı/tutuklanma sayısı)
OMU Geçmiş mahkûmiyetlerdeki ortalama mahkûmiyet uzunluğu,
ay olarak
CGS 18 yaşından itibaren cezaevinde geçirilen süre, ay olarak
CGS86 1986 yılında cezaevinde geçirilen süre, ay olarak
IS86 1986 yılındaki istihdam süresi, çeyrek yıl olarak
YG86 1986 yılında elde edilen yasal gelir, milyon TL
IKS Yakın geçmişte işsiz kaldığı süre uzunluğu
ZENCI Zenci ise = 1, aksi halde =0
ISPAN İspanyol kökenli ise =1, aksi halde =0
DOG60 1960 yılı doğumlu ise = 1, aksi halde =0
OMOK OMO‟nun karesi
CGSK CGS‟nin karesi
YG86K YG86‟nın karesi

İlk olarak modeli hiç karesel terim kullanmadan tahmin ediyoruz, sonuçlar Tablo
13.1.A‟da gösterilmiştir. Tablo 13.1.B‟de modele OMO, CGS86 ve YG86 değişken-
lerinin kareleri eklenmiştir. Bu üç değişkenin karelerini model katmaya karar ver-
memizin sebebi, üç değişkenin de Tablo 13.1.A‟da anlamlı olmasıdır. IS86 değişkeni
sadece 5 farklı değer alan bir kesikli değişken olduğu için onun karesi Tablo
13.1.B‟deki modele katılmamıştır.
Karesi alınan terimlerden her biri istatistiksel olarak anlamlıdır, keza bunlar, Tab-
lo 13.1.C‟deki F (Wald) sınaması sonuçlarından açıkça görüldüğü gibi müştereken
anlamlıdır (F=31.4, sd= 3 ve 2713; p değeri sıfıra çok yakındır). Sonuç olarak baş-
langıçtaki modelin potansiyel olarak önemli doğrusal dışılığı göz ardı ettiği görül-
mektedir.

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:4


Ekonometrik Analiz

Tablo 13.1.A

Tablo 13.1.B

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:5


Diğer Belirginleştirme (Spesifikasyon) Hataları ve Veri Problemleri

Tablo 13.1.C

Karesel terimlerin varlığı modelin yorumunu biraz güçleştirmektedir. Başlangıç-


taki modelde OMO (önceki tutuklamalara göre ortalama mahkûmiyet oranı) değişke-
nin katsayısı negatif iken ve dolayısı ile bu değişken ıslah edici bir etki yaratırken
şimdi OMO‟nun TUTS86 üzerindeki etkisi belirli bir noktaya kadar pozitif olmakta
ve daha sonra bu etki negatife dönüşmektedir. Dönme noktası 0.552/((2)(0.73))≈0.38
dir. Yani küçük değerlerinde OMO‟nun hiç ıslah edici etki yoktur, ıslah edicilik fak-
törü ancak yüksek mahkûmiyet oranlarında etkili olmaktadır. Bu sonucu doğrulamak
için karesel daha fazla özelliği olan fonksiyonel kalıp kullanmamız gerekir. OMO
tamamen ekzojen olmayabilir. Örneğin geçmişte hiç tutuklanmayanlar (dolayısı ile
OMO‟ları sıfır olanlar) muhtemelen kayda geçmemiş tutuklulardır, dolayısıyla bunla-
rın 1986‟da tutuklanmaları az ihtimaldir. Bunlar tahminleri yanlı hale getiriyor olabi-
lir.
Benzer şekilde, TUTS86 ile CGS86 arasındaki ilişki CGS86=4.85
[=0.287/(2)(0.029608)], yaklaşık olarak beş, ay oluncaya dek pozitiftir ve daha uzun
sürede negatif hale gelmektedir. Örneklemdeki erkeklerin çok büyük bir çoğunluğu
1986 yılında hiç cezaevine girmemiştir, dolayısıyla yine bu nedenle sonuçları yorum-
larken dikkatli olmamız gerekmektedir.

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:6


Ekonometrik Analiz

Yasal gelirin TUTS86 üzerindeki etkisi YG86=237.48, yani yıllık gelir 237 milyar
lira, oluncaya kadar negatiftir, bu gelirden daha yüksek gelirlerde pozitif hale gel-
mektedir. Örneklemde bu düzeyin üzerinde gelire sahip sadece 50 erkek vardır. Bu
yüzden, TUTS86 ve YG86‟nın azalan etki ile negatif ilişkili olduğuna karar veriyo-
ruz.

Örnek 13.1
Örnek 13.1 bağımlı değişkenin niteliği nedeniyle çözümü ustalık isteyen bir fonk-
siyonel biçim problemi içermektedir. Az sayıda birbirinden farklı tam sayı değer alan
bağımlı değişkenleri ele almak için teorik olarak daha uygun başka modeller vardır.
Daha sonra bu tür modellere kısaca değineceğiz.

YanlıĢ Fonksiyonel Biçim BelirginleĢtirmesi (Spesifikasyonu)


için RESET Testi
Yanlış fonksiyonel kalıp belirginleştirmesinin (spesifikasyonunun) var olup olmadı-
ğını genel olarak yakalamak için bazı testler önerilmiştir. Bu açıdan Ramsey (1969)
tarafından geliştirilen regresyon belirginleştirme (spesifikasyon) hatası sınaması
(RESET) yararlı bir test olmaktadır.
RESET testi ardında yatan mantık oldukça basittir. Orijinal model
Yi  1   2 X i 2    k X ik  ui (13.2)

sıfır koşullu ortalama varsayımını, E (ui X)  0 , tatmin ediyorsa, böyle bir modele
açıklayıcı değişken doğrusal olmayan fonksiyonlarının ayrı değişkenler olarak ka-
tılması (13.2)‟deki parametrelerin tahminine hiçbiri anlamlı katkısı olmayacaktır.
Örnek 13.1‟de anlamlı değişkenlerin karelerini modele ekledik ve bunun model pa-
rametrelerinin tahminine anlamlı katkılar sağladığını gördük. Bu yöntem çoğu kez
fonksiyonel biçim probleminden kaynaklanan hataları yakalar, fakat bunun bir olum-
suz yanı modele katılan açıklayıcı değişken sayısını arttırması ve bunu sonucu ser-
bestlik derecesi kaybı problemi ortaya çıkmasıdır. İlaveten dikkate alınmayan belirli
türden doğrusal dışılıklar eklenen karesel terimler tarafından dikkate alınamayabilir.
RESET testi, genel türden yanlış fonksiyonel biçim belirginleştirmesi
(spesifikasyonu) probleminini yakalamak için, bağımlı değişken OLS tahmin değer-
leri cinsinden çok terimlileri (polinomları) denklem (13.2)‟ye eklemektedir.
RESET testini gerçekleştirmek için uydurulan değerlerin hangi fonksiyonlarının
genişletilmiş denkleme katılacağına karar verilmesi gerekmektedir. Bu sorunun kesin
bir cevabı yoktur, fakat birçok uygulamada kare ve küp terimlerinin ilavesinin yararlı
olduğu kanıtlanmıştır.

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:7


Diğer Belirginleştirme (Spesifikasyon) Hataları ve Veri Problemleri

(13.2) tahmininden elde edilen uydurulan değerleri Yˆi ile gösterelim. Şimdi aşa-
ğıdaki genişletilmiş yardımcı denklemi ele alalım

Yi  1  2 X i 2   k X ik  1Yˆi 2  1Yˆi 3  ui (13.3)


Bu denklem biraz tuhaf görünmektedir, çünkü başlangıçtaki denklemden elde edilen
uydurulan değerlerin fonksiyonları şimdi açıklayıcı değişkenler olarak görünmekte-
dir. Gerçekte (13.3)‟ten elde edilen parametre tahminleri bizi ilgilendirmemektedir;
bu denklem sadece (13.2)‟nin gözden kaçırılan önemli doğrusal dışılıklar içerip
içermediğini test etmek için kullanılacaktır. Bu tür denklemlere genellikle yardımcı
regresyon adı verilmektedir. Unutulmaması gereken Yˆi 2 ve Yˆi 3 ‟nin X ij ‟lerin doğru-
sal olmayan fonksiyonları olduklarıdır.
Boş hipotez (13.2)‟deki spesifikasyonun doğru olduğunu, yani
H o : 1  0 ve  2  0 olduğunu, ileri süren hipotezdir. RESET testi
H o : 1  0 ve  2  0 hipotezini H1 : 1  0 ve/veya  2  0 hipotezi karşısında test
etmek için F istatistiğini kullanmaktadır. Anlamlı F istatistiği belirli türden bir
fonksiyonel kalıp problemi olduğuna işaret etmektedir. Boş hipotez altında (ve Ga-
uss-Markov varsayımları geçerli iken) F istatistiğinin dağılımı yaklaşık olarak
F2, n  k  2 dır. Genişletilmiş denklem (13.3)‟te serbestlik derecesi, sd, n  k  2 dir.
Aynı testin LM versiyonu da mevcuttur (ve ki-kare dağılımı iki sd’ye sahip olacaktır.
İlaveten, test, bir önceki bölümde açıklanan yöntemler kullanılarak hetoroskedastiye
karşı daha dirençli (sağlam, robust) hale getirilebilir.

Örnek 13.2 Konut Fiyat Denklemi (HPRICE1.WK1)


Konut fiyatlarının nasıl belirlendiğini açıklamak için iki model tahmin edilmektedir.
Modelde kullanılan değişkenlerden PRICE dolar cinsinden konut fiyatını, LOTSIZE
ayak kare olarak arsa büyüklüğünü, SQRFT ayak kare olarak ev büyüklüğünü ve
BDRMS yatak odası sayısını belirtmektedir. Birincisi modelde tüm değişkenler düzey
kalıbındadır:
PRICEi  1  2 LOTSIZEi  3 SQRFTi  4 BDRMSi  ui (13.4)

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:8


Ekonometrik Analiz

İkinci model BDRMS hariç tüm değişkenlerin logaritmalarını kullanmaktadır:


LPRICEi  1  2 LLOTSIZEi  3 LSQRFTi  4 BDRMSi  ui (13.5)
HPRICE1.WK1‟deki n=88 konut kullanıldığında denklem (13.4) için RESET testi
4.67 olarak bulunmaktadır; bu F2,82 rastsal değişkenin değeridir ve ilişkili p-değeri
0.012 dir, yüzde 5 anlamlılık düzeyinde ve hatta %2 anlamlılık düzeyinde sıfır hipo-
tezini ret ederiz. Bu (13.4)‟teki yanlış fonksiyonel kalıp belirginleştirmesine
(spesifikasyonuna) bir delil oluşturmaktadır.
Denklem (13.5) için RESET istatistiği 2.56, ilişkili p-değeri=0.084 tür. Bu yüz-
den, %5 anlamlılık düzeyinde (13.5)‟i ret etmeyiz (halbuki %10 düzeyinde ret ede-
riz). RESET baz alındığında (13.5)‟teki log-log modeli tercih edilmektedir.

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:9


Diğer Belirginleştirme (Spesifikasyon) Hataları ve Veri Problemleri

Örnek 13.2
Bir önceki örnekte, konut fiyatlarını açıklamak için iki model denedik. Biri
RESET tarafından (%5 anlamlılık düzeyinde) ret edilirken, diğeri ret edilmedi. Çoğu
kez durum bu kadar açık seçik olmayabilir. RESET‟in bir sakıncası model ret edildi-
ğinde ne yapılacağı konusunda hiçbir yol göstermemesidir. RESET kullanılarak
(13.4) ret edildiğinde (15.5)‟inbir sonraki adım olduğunda hiçbirşey söylememekte-
dir. Denklem (13.5)‟in tahmin edilme nedeni sabit elastikiyetli modellerin kolay yo-
rumlanabilir olması ve güzel istatsitiksel özelliklere sahip olmasıdır. Bu örnekte, öyle
denk geldiği için, model yanlış fonksiyonel kalıp testinde de başarılı olmaktadır.
Bazı araştırmacılar RESET‟in, gözlenemeyen ihmal edilen değişkenler ve
heteroskedastisiti dahil, model yanlış tanımlaması için iyi bir genel test olduğunu ile-
ri sürmektedir. Ne yazık ki, RESET‟in bu şekilde kullanımı büyük ölçüde yanlış yön-
lendirme yapmaktadır. RESET testinin, modele katılan değişkenler cinsinden doğru-
sal olduğuna dair bekleyişler bulunduğunda, ihmal edilen değişkenleri yakalamada
hiçbir gücünün olmadığı gösterilebilir [daha kesin ifade için bakınız Wooldridge
(1995)]. Buna ilaveten, fonksiyonel kalıp doğru dürüst tanımlandığında RESET‟in
heteroskedastisitiyi yakalamada hiç gücü yoktur. Özetle, RESET bir yanlış fonksiyo-
nel kalıp sınamasından başka bir şey değildir.

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:10


Ekonometrik Analiz

ĠçerilmemiĢ (YuvalanmamıĢ) Alternatiflere Ġçin Sınamalar


Başka türlü bir yanlış fonksiyonel biçim tanımlaması için sınama araştırdığımızda –
örneğin, açıklayıcı değişkenlerin düzey cinsinden mi yoksa logaritmik olarak görün-
mesi gerektiği konusunda karar vermek istediğimizde – kendimizi klasik hipotez testi
arenasını dışında buluruz. Örneğin
Yi  1  2 X i 2  3 X i 3  ui (13.6)
modelini
Yi  1  2 log X i 2  3 log X i 3  ui (13.7)
karşısında, veya vice versa, sınamak mümkündür. Ancak, bunlar içerilmemiş (yuva-
lanmamış) (nonnested) modellerdir ve dolayısıyla, kolay bir şekilde, standart F testi-
ni kullanamayız. İki farklı yaklaşım önerilmiştir
Birincisi her modeli özel durum olarak içeren kapsamlı bir model oluşturmak ve
daha sonra modellerden her birine yönelik kısıtlamaları test etmektir. Ele alınan ör-
nek için bir kapsamlı model
Yi  1   2 X i 2  3 X i 3   4 log X i 2  5 log X i 3  ui (13.8)

olmaktadır. İlk olarak, (13.6)‟nın testi olarak, H 0 :  4  0, 5  0 ‟ı test edebiliriz.


Keza (13.7)‟nin testi olarak, H 0 :  2  0, 3  0 ‟ı test edebiliriz. Bu yaklaşım Mizon
ve Richard (1986) tarafından öğütlenmiştir.
İkinci yaklaşım Davidson ve Mackinnon (1981) tarafından önerilmiştir. Denklem
(13.6) doğru olduğunda Davidson ve MacKinnon diğer modelden, yani (13.7)‟den,
uydurulan değerlerin (13.6)‟da anlamsız olması gerektiğine işaret etmektedir. Bu
yüzden, (13.6)‟yı test etmek için, ilk önce model (13.7)‟yi olağan en küçük kareler
ˆ
(OLS) ile tahmin edilerek uydurulan değerleri elde edilir. Bunlara Yˆ adını verelim.
i
Bundan sonra, Davidson-MacKinnon testi
ˆ
Yi  1   2 X i 2  3 X i 3  1Yˆi  ui

ˆ
denklemindeki Yˆi ‟nın tahmin edilen katsayısının t istatistiğini baz almaktadır. İki
yanlı test karşısındaki anlamlı t istatistiği (13.6)‟ın ret edilmesi demektir.
Benzer şekilde, Yˆi (13.6) tahminden elde edilen uydurulan değerini belirtirse,
(13.7)‟nin testi

Yi  1  2 log X i 2  3 log X i3  1Yˆi  ui

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:11


Diğer Belirginleştirme (Spesifikasyon) Hataları ve Veri Problemleri

modelindeki Yˆi ‟nın tahmin edilen katsayısının t istatistiğidir; anlamı bir t istatistiği
(13.7)‟ye karşıt bir delil oluşturmaktadır. Aynı iki test aynı bağımlı değişkenli her-
hangi iki içerilmemiş (yuvalanmamış) modeli test etmede kullanılabilir.
İçerilmemiş (yuvalanmamış) testler karşımıza bazı problemler çıkarmaktadır. Bi-
rincisi, net galip ortaya çıkmayabilir. Her iki model de ret edilebilir veya iki model-
den hiçbiri ret edilmeyebilir. İkinci durumda aralarında seçim yapmak için düzeltil-
miş-R-kareyi kullanabiliriz. Eğer her iki model de ret edilmiş ise, modelleme konu-
sunda daha çok çalışma yapmak gerekmektedir. Bununla birlikte, bir kalıbı veya di-
ğerini kullanmandan ortaya çıkacak pratik sonuçları bilmek önemlidir: eğer kilit ba-
ğımsız değişkenlerin Y üzerindeki etkisi çok farklı değil ise hangi modelin kullanıl-
dığı çok fazla fark etmeyecektir.
İkinci bir problem (13.6)‟nın, diyelim ki, Davidson –MacKinnon testi ile ret
edilmesi (13.7)‟nin doğru model olduğu anlamına gelmemektedir. Model (13.6) çok
çeşitli başka fonksiyonel kalıp yanlış tanımlaması için ret edilebilir.
Rakip modeller farklı bağımlı değişkenlere sahip olduğu zaman içerilmemiş (yu-
valanmamış) testler karşımıza daha da büyük bir problem çıkarmaktadır. Tipik bir
örnek Yi ile log(Yi ) karşılaştırmasıdır. Sadece karşılaştırılabilir bir uyumun iyiliği
ölçüsü elde etmek için dahi dikkat gerektiğini daha önce gördük. Bu problemi çöz-
mek için bazı testler önerilmiştir, fakat bunlar bu ders kitabının kapsamı dışına taş-
maktadır. [Yorumlanması basit ve uygulanması kolay bir test için bakınız Woodridge
(1994)].

Gözlenemeyen Açıklayıcı DeğiĢkenler Ġçin Gölge (Proxy) De-


ğiĢken Kullanımı
Çoğunlukla veri mevcut olmaması nedeniyle, daha zor bir problem, modelin kilit bir
değişkeninin model dışında bırakılması sonucu ortaya çıkmaktadır. Yeteneğin
(YTNK) ücretin logaritmasını [log(UCRET)] etkilediğini açıkça kabul eden bir mode-
li ele alalım:
log(UCRET )i  1  2 EGTM  3 DNYM  4YTNK  ui (13.9)
Bu model eğitim (EGTM) ve deneyim (DNYM) karşısında getiriyi (ücretteki yüzde
değişmeyi) ölçerken yeteneği sabit tutmak istediğimizi açıkça göstermektedir. Eğer,
örneğin, EGTM değişkeni YTNK değişkeni ile korelâsyonlu ise, YTNK‟i hata terimi
içine atmak  2 ‟nin (ve  3 ‟ün) OLS tahmincisinin yanlı olmasına neden olacaktır, bu
konu, hatırlayacağınız gibi, daha önce bir çok defa karşımıza çıkmıştı.
Denklem (13.9)‟da bizi öncelikle ilgilendiren  2 ve  3 eğim parametreleridir.
Kesme teriminin yansız veya tutarlı bir tahmincisini elde edip edemeyeceğimiz bizi

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:12


Ekonometrik Analiz

ilgilendirmemektedir, daha sonra göreceğimiz gibi, bunu elde etmek genellikle


mümkün değildir. Keza,  4 ‟ü tahmin edebilmeyi hiç ümit etmiyoruz, çünkü YTNK
gözlenememektedir; gerçekte YTNK’in katsayısı  4 ‟ü nasıl yorumlayacağımızı da
bilmiyoruz, çünkü yetenek en iyi bilinen hali ile dahi müphem bir kavramdır.
(13.9) gibi bir denklemde ihmal edilen değişken yanını nasıl çözebiliriz, en azın-
dan etkisini nasıl azaltırız? Bir olanak denklem dışında bırakılan değişken için bir
gölge değişken kullanmaktır. Kabaca ifade edersek, gölge değişken analizimiz için
kontrol etmeyi arzu ettiğimiz gözlenemeyen değişkenle ilişkili bir değişkendir. Ücret
denklemi söz konusu olduğunda, bir olanak zekâ oranını, yani IQ (intelligence
quotient)‟yu, yetenek için bir gölge olarak kullanmaktır. Bu IQ‟nun yetenek ile aynı
şey olmasını gerektirmemektedir, istenen tek şey IQ‟nun yetenek ile korelâsyonlu
olmasıdır; aşağıdaki tartışmalarda buna açıklık getireceğiz.
İleri sürülen temel görüşleri, iki değişkeni gözlenen, üç açıklayıcı değişkenli bir
model ile örneklendirebiliriz:
Yi  1   2 X i 2  3 X i 3   4 X i4  ui (13.10)

Yi , X i 2 ve X i 3 üzerine verilerin mevcut olduğunu varsayıyoruz – ücret örneğinde


bunlar sıra ile log(UCRET), EGTM ve DNYM değişkenleridir. X i4 açıklayıcı değiş-
keni gözlenemez, fakat bunun için bir gölge değişkenimiz mevcut bulunmaktadır.
Gölge değişkene X i 4 adı verelim.
X i 4 ‟ün hangi özelliklere sahip olması beklenmektedir? Minimum olarak X i4 ile
aralarında bir ilişki olması gerekmektedir. Bu ilişki
X i4  1   4 X i 4   i 4 (13.11)

basit regresyonu tarafından yakalanmaktadır, burada  i 4 hata terimi X i4 ile X i 4 ‟ün
tam olarak ilişkili olmamasından kaynaklanmaktadır.  4 parametresi X i4 ile X i 4
arasındaki ilişkiyi ölçmektedir; tipik olarak X i4 ile X i 4 ‟ün pozitif olarak korelas-
yonlu,  4  0 , olması beklenmektedir. Eğer  4  0 ise X i 4 değişkeni X i4 için uy-
gun bir gölge değişken değildir. (13.11)‟deki, pozitif veya negatif olabilen, kesme te-
rimi 1 , X i4 ve X i 4 ‟ün farklı ölçeklerde ölçülebilmesine olanak tanımaktadır. (Ör-
neğin, herhangi bir ülkede, gözlenemeyen yeteneğin IQ ile aynı ortalamaya sahip
olması gerekli değildir.)
 2 ve  3 ‟ün yansız (veya en azından tutarlı) tahmincilerini elde etmek için X i 4
nasıl kullanılabilir? Önerilen yol X i 4 ve X i4 değişkenlerinin sanki aynı değişken-
lermiş gibi düşünülmesive

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:13


Diğer Belirginleştirme (Spesifikasyon) Hataları ve Veri Problemleri

Yi  1   2 X i 2  3 X i 3   4 X i 4  i (13.12)
denkleminin tahmin edilmesidir. Buna dışarıda bırakılan değişkenler problemine
ikame (yerine koyma) çözümü adı verilmektedir. Eğer gerçekten X i 4 ve X i4 ilişkili
ise bu mantıklı bir yol olmaktadır. Ancak, X i 4 ve X i4 aynı olmadıklarından, bu pro-
sedürün gerçekten  2 ve  3 ‟ün tutarlı tahmincilerini verip verdiğinin belirlenmesi
gerekir.
Bu yerine koyma çözümünün  2 ve  3 için tutarlı tahminciler vermesi için ge-
rekli varsayımlar ui ve  i 4 ile ilgili varsayımlar olmak üzere iki gruba ayrılabilir.
(1) ui hata terimi katı dışsallık (eksojenlik) varsayımı, yani E (ui X)  0 , gereği
X j 2 , X j 3 ve X j 4 ( i, j  1, , n ) değişkenlerinin tüm değerleri ile korelâsyonsuzdur.
Bu model (13.10) için yapılan standart varsayımdır. İlaveten,
E (ui X 14 , X 24 , , X n 4 )  0 , yani ui hata teriminin X 4 değişkenin tüm değerleri ile
korelâsyonsuz olduğu, kabul edilmektedir. Bu tanım gereği doğrudur, X i 4 gölge de-
ğişkeni, adı üzerinde, X i4 için gölgedir, yani Yi ‟yi doğrudan etkileyen X i 4 değil
X i4 dır. Bu yüzden ui ‟nin X j 2 , X j 3 , X j 4 ve X j 4 ( i, j  1, 2, , n ) ile korelâsyon-

suz, yani E(ui X j 2 , X j 3 , X , X j 4 )  0 , i, j  1,
j4 , n , olması tartışmaya gerek kal-
maksızın geçerli olan bir şeydir.
(2)  i 4 hata terimi ile X j 2 , X j 3 , ve X j 4 ( i, j  1, , n ) arasında korelâsyon ol-
madığı varsayılmaktadır. X i 4 ‟ün X i4 için iyi bir gölge olması için  i 4 ‟ün X j 2 ve
X j 3 ile korelâsyonsuz olması gerekmektedir. Bu durumu, varsayımları koşullu bek-
leyişler cinsinden yazarak kolayca gösterebiliriz:

E ( X i4 X i 2 , X i 3 , X i 4 )  E( X i4 X i 4 )  1   4 X i 4 (13.13)

Önemli olan, X j 4 kontrol edildiği sürece, X i4 ‟ın beklenen değerinin X j 2 ve X j 3 ‟e


bağlı olmadığını söylemektedir. Başka bir ifade ile, bu durumda, X i4 ‟ın X j 2 ve X j 3
ile korelasyonu sıfırdır, yani E(vi 4 X j 2 , X j 3 )  0, i, j  1, ,n .
IQ‟nun yetenek için gölge olduğu ücret denklemi (13.9)‟da, (13.13) koşulu şu
şekli almaktadır:
E (YTNKi EGTM i , DNYM i , IQi )  E (YTNK i IQi )  1   4 IQi

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:14


Ekonometrik Analiz

Bu yüzden, ortalama yetenek düzeyi, IQ ile değişmektedir. Bu mantıklı mıdır? Tam


doğru olmayabilir, fakat doğru olmaya yakındır. IQ’nun ücret denklemine katılması
eğitimin getirisini görme açısından kesinlikle yararlıdır.
Biraz önce yapılan varsayımlar altında yerine koyma çözümünün neden yeterli ol-
duğunu kolayca görebiliriz. Eğer denklem (13.11)‟i (13.10) da yerine koyar ve basit
bir iki cebrik işlem yaparsak
Yi  (1  41 )  2 X i 2  3 X i 3  4 4 X i 4  ui  4 i 4
elde edilir.
Bu denklemdeki bileşik hata terimine i ( ui  4 i 4 ) diyelim; bu hata terimi
modelin hata terimine (13.10) ve gölge değişken denklemindeki hata terimine,  i 4 ,
bağlıdır. Hem ui ve hem de  i 4 sıfır ortalamaya sahip olduğundan ve her ikisi de
X j 2 , X j 3 ve X j 4 ile korelâsyonsuz olduğundan ( i, j  1, , n ), i ‟de sıfır ortala-
maya sahip olacak ve i ile X j 2 , X j 3 ve X j 4 korelâsyonsuz olacaktır. Denklemi
yeniden
Yi  1  2 X i 2  3 X i 3   4 X i 4  i (13.12)

şeklinde yazalım, burada 1  1   41 yeni sabit terimdir ve  4   4 4 gölge de-


ğişken X i 4 ‟ün eğim parametresidir. Daha önce ima edildiği gibi, eşitlik (13.12) tah-
min edildiğinde 1 ( 1 ) ve  4 (  4 ) ‟ün yansız tahmincileri elde edilemeyecektir;
bunun yerine 1 ,  2 (  2 ) , 3 (  3 ) ve  4 ‟ün yansız (en azından tutarlı) tahminci-
leri elde edilecektir. Önemli olan  2 ve  4 parametrelerinin iyi tahminlerini elde
edecek olmamızdır.
Birçok halde  4 tahmini gerçekte  4 ‟ün tahmininden daha ilgi çeken bir para-
metre tahmini olabilir. Örneğin, ücret denkleminde,  4 , diğer değişkenler değişme-
den aynı kalırken, IQ testinden bir puan daha fazla almanın ücrette ne kadar artış sağ-
layacağını göstermektedir.

Örnek 13.3 Yetenek için Gölge DeğiĢken Olarak IQ


WAGE2.W1 dosyası, Blackburn ve Neumark (1992)‟den alınan, 935 erkek çalışan
için aylık kazanç (WAGE) eğitim (EDUC) deneyim (EXPER), çalışma süresi
(TENURE), evli olma (MARRIED), ülkenin güneyinde oturma (SOUTH), kentsel yer-
leşim bölgesinde oturma (URBAN), zenci olma (BLACK) değişkenleri ve IQ skorları
hakkında bilgi içermektedir. Dışarıda bırakılan yetenek yanını hesaba katmak için

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:15


Diğer Belirginleştirme (Spesifikasyon) Hataları ve Veri Problemleri

standart log kazanç denklemine IQ eklenmektedir. Sonuçlar Tablo 13.2A, 13.2B ve


13.2C‟de gösterilmiştir.

Tablo 13.2(A)

Bizi esas ilgilendiren eğitime getirinin IQ‟nun modele katılması sonucu nasıl etki-
lendiği sorusudur. Tablo 13.2(A) IQ‟nun gölge değişken olarak dikkate alınmadığı
tahminleri içermektedir. Eğitimin tahmin edilen getirisi %6.5 tur. Dışarıda bırakılan
yeteneğin EDUC ile korelasyonlu olduğunu düşünüyorsak bu tahminin çok yüksek
olduğunu düşünüyoruz demektir. (Daha kesin bir dille ifade edersek, tüm rastsal ör-
neklemlerden elde edilen ortalama tahmin çok yüksek olabilecektir.) IQ denkleme
eklendiğinde, eğitime getiri %5.4‟e düşmektedir, bu bulgu düşürülen değişken yanı
hakkındaki önceki inançlarımızla uyumludur.

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:16


Ekonometrik Analiz

Tablo 13.2(B)

IQ‟nun sosyoekonomik sonuçlar tartışmalı bir kitap olan Hennstein ve Murray


(1994)‟in The Bell Curve adlı kitabında belgelenmiştir. Tablo 13.2B IQ‟nun kazanç
üzerinde, diğer bazı faktörler dikkate alındıktan sonra, istatistiksel olarak anlamlı po-
zitif bir etkiye sahip olduğunu göstermektedir. Diğer her şey aynı kalırken, IQ‟da 10
puanlık bir artışın aylık kazançları %3.6 arttıracağı öngörülmektedir. A.B.D. toplu-
munda IQ‟nun standart sapması 15 tir, dolayısı ile IQ‟daki bir standart sapmalık artış
kazançlardaki %5.4‟lük bir yükselme ile ilişkilidir. Bunun bir yıllık ilave eğitimin
kazançlarda yaratması beklenen artış ile eşdeğer olduğu görülmektedir. Eğitimin ka-
zançları arttırmadaki etkisinin, orijinal olarak tahmin edilen kadar olmasa da, yine de
önemli olduğu Tablo 13.2(B)‟den açıkça görülmektedir.
Tablo 13.2(A) ve (B) birbiri ile karşılaştırıldığında bazı enteresan noktalar ortaya
çıkmaktadır. IQ‟nun denkleme eklenmesi R-kareyi 0.253‟ten sadece 0.263‟e (veya
R 2 ‟yi 0.247‟den 0.256‟ya) arttırmaktadır. log(WAGE) ‟deki değişmelerin önemli bir
kısmı Tablo 13.2(B)‟deki değişkenler tarafından açıklanamamaktadır. Keza IQ‟nun
denkleme eklenmesi beyazlarla zenciler (BLACK) arasındaki tahmin edilen kazanç
farklılığının kısmen IQ ile ilgili olduğunu söylemektedir. Aynı IQ , eğitim (EDUC),
deneyim (EXPER), çalışma süresi (TENURE), vs. sahip bir zencinin beyazdan yakla-
şık %14.3 daha az kazandığı öngörülmektedir ve bu fark istatistiksel olarak anlamlı-
dır.

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:17


Diğer Belirginleştirme (Spesifikasyon) Hataları ve Veri Problemleri

Tablo 13.2(C)

Tablo 13.2(C)‟de EDUC*IQ etkileşim terimi dikkate alınmıştır. Bu eğitim ve


IQ ‟nun kazancın logaritmasını belirlerken karşılıklı etkileşim içinde olmalarına izin
vermektedir. Eğitimin kazanca katkısının daha yüksek yetenekli kişiler için daha faz-
la olduğunu düşünebiliriz, ancak durumun gerçekte böyle olmadığı ortaya çıkmakta-
dır: etkileşim terimi anlamlı değildir ve EDUC*IQ’nun denkleme katılması, modeli
karmaşık hale getirirken, bireysel EDUC ve IQ değişkenlerini anlamsız yapmaktadır.
Bu nedenle, Tablo 13.2(B)‟deki tahminler tercih edilir.
Bu örnekte sadece tek bir gölge değişkeni modele katmayla yetinmeyebiliriz.
WAGE2.WF1 veri kümesi aynı zamanda her erkek çalışan için “İş Hayatı Bilgisi”
(Knowledge of the World of Work) (KWW) testinden alınan skoru da içermektedir.
Bu test puanı, eğitimin getirisi tahmin edilirken, IQ yerine veya IQ ile birlikte kulla-
nılabilecek farklı bir yetenek ölçüsü sağlamaktadır.

Örnek 13.3

Kullanılan gölge değişkenin yukarıda belirtilen varsayımları sağlamadığında nasıl


bir yanlılığa (sistematik sapmaya) neden olacağı kolaylıkla gösterilebilir. Gözlene-

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:18


Ekonometrik Analiz

meyen rastsal değişkenin, X 4 , tüm gözlenen değişkenlerle aşağıdaki gibi ilişkili ol-
duğunu farz edelim
X i4  1   2 X i 2   3 X i 3   4 X i 4   i 4 i  1, ,n (13.14)

burada [(13.11)den farklı olarak] E( i 4 X j1 , X j 2 , X j 3 , X j 4 )  0, i, j  1,2, n , yani


vi 4 ‟ün ortalamasının sıfır olduğu ve denklemde yer alan tüm değişkenler ile korelas-
yonsuz olduğu varsayılmaktadır. Denklem (13.11) hem  2 ve hem de  3 ‟ün sıfır ol-
duğunu varsaymaktadır. (13.14)‟ü (13.10) içinde yerine koyduğumuzda
Yi  ( 1   41 )  (  2   4 2 ) X i 2  ( 3   4 3 ) X i 3
(13.15)
  4 4 X i 4  ui   4 i 4

Buradan plim(b2 )  2  4 2 ve plim(b3 )  3   4 3 sonuçları çıkmaktadır. [Bu


sonuçların çıkma nedeni (13.15)‟teki hata terimi ui   4 i 4 ‟nin sıfır ortalamaya sahip
olması ve X 2 , X 3 ve X 4 ile korelâsyonsuz olmasıdır.] X 2  EDUC (Eğitim) ile
X 4  Yetenek arasında pozitif kısmi korelasyon, yani  2  0 , olduğunda,  4  0
olduğundan, pozitif bir yan (ve dolayısıyla tutarsızlık) ortaya çıkacaktır. Bu yüzden,
IQ‟yu yetenek için bir gölge değişken olarak kullandığımızda, eğer IQ iyi bir gölge
değil ise, eğitime getiriyi gösteren katsayıda yine yukarıya doğru bir yan ortaya çıkar.
Fakat bu yan, dışarıda bırakılan değişken problemini tamamen göz ardı ettiğimizde
ortaya çıkacak yan ile karşılaştırıldığında, muhtemelen daha ufak olacaktır.
Gölge değişkenler kukla (ikili) değişken biçiminde de karşımıza çıkabilir.

Gecikmeli Bağımlı DeğiĢkenlerin


Gölge DeğiĢkenler Olarak Kullanımı
Bazı uygulamalarda, biraz önceki kazançlar örneğinde olduğu gibi, hangi gözlene-
meyen faktörleri kontrol etmek istediğimiz hakkında bazı şeyler biliyor olabiliriz. Bu
gölge değişken seçimini kolaylaştırmaktadır. Diğer bazı uygulamalarda, bağımsız
değişkenlerden birinin veya birkaçının model dışında bırakılan değişkenlerle kore-
lâsyonlu olduğu hakkında şüphe duyabiliriz, dışarıda bırakılan değişken için nasıl bir
gölge değişken bulabileceğimiz konusunda hiç fikir sahibi olmayabiliriz. Böyle du-
rumlarda, bir kontrol gölge değişkeni olarak, bağımlı değişkenin önceki dönemlerde-
ki bir değerini modele gölge değişken olarak katabiliriz. Bu özellikle politika anali-
zinde yararlı olmaktadır.
Bir (yatay) kesit denkleminde gecikmeli bağımlı değişkenin açıklayıcı değişken
olarak kullanımı veri gereksinimini arttırmaktadır, fakat bağımlı değişkende güncel
farklılıklara neden olan ve başka şekilde dikkate alınması mümkün olmayan tarihi

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:19


Diğer Belirginleştirme (Spesifikasyon) Hataları ve Veri Problemleri

faktörlerin kolay bir şekilde dikkate alınması olanağını sağlar. Örneğin geçmişte bazı
şehirlerde yüksek suç oranları ile karşılaşmış olabilir. Hem güncel ve hem geçmişteki
yüksek suç oranlarına gözlenemeyen ve dolayısıyla ölçülemeyen bazı faktörler neden
olmuş olabilir. Benzer şekilde, geleneksel olarak, bazı üniversiteler, geçmişten gelen
çeşitli gözlenemeyen ve ölçülemeyen faktörler nedeniyle, akademik açıdan diğerle-
rinden daha iyidir. Bu şekildeki süregelen durumlar Y ‟nin gecikmeli değerleri gölge
değişken olarak modele katılarak dikkate alınabilir.
Şehir suç oranlarını açıklayan basit bir denklemi ele alalım:
SUÇi  1   2 ĠġSĠZLĠKi  3 HARCAMAi   4 SUÇ1,i  ui (13.16)

burada SUÇ kişi başına suçun bir ölçüsünü, ĠġSĠZLĠK şehir işsizlik oranını, HAR-
CAMA düzen ve adaleti sağlamak için şehirde kişi başına yapılan harcamayı, SUÇ1
daha önceki belirli bir dönemde (bu bir önceki yıl veya birkaç önceki yıl olabilir) öl-
çülen suç oranını temsil etmektedir. Bizi ilgilendiren Ġġ SĠZLĠK‟in SUÇ üzerindeki
etkisi ve asayiş ve düzeni sağlamak için yapılan HARCAMA‟nın SUÇ üzerindeki et-
kisidir.
SUÇ1 ‟i denkleme katmanın amacı nedir? Kesin olarak,  4  0 olmasını bekle-
riz, çünkü suç işleme süregelen bir durum veya süreçtir. Fakat bu değişkeni denkle-
me katmanın temel nedeni yüksek tarihi suç oranı ile karşı karşıya kalan şehirlerin
suç oranını düşürmek için daha fazla harcama yapıyor olabilecekleridir. Bu şekilde,
bizler (ekonometrisyenler) tarafından gözlenemeyen ve suçu etkileyen bazı faktörler
muhtemelen HARCAMA (ve ĠġSĠZLĠK) ile korelâsyonludur. Eğer pür yatay kesit ana-
lizi kullanırsak, asayiş ve düzeni sağlama harcamalarının suç üzerindeki nedensel et-
kinsinin yansız bir tahmincisini elde etmemiz mümkün olmayacaktır. Ancak, denk-
leme SUÇ1 ‟i kattığımızda, en azında şu denemeyi yapabiliriz: eğer iki şehir aynı
geçmiş suç oranına ve güncel işsizlik oranına sahip ise,  4 asayiş ve düzen için yapı-
lan ilave harcamanın etkisini ölçecektir.

Örnek 13.4 ġehir Suç Oranları


CRIME2.WK1 dosyası 46 şehre ait 1987 yılı verilerini içermektedir. Bu verileri kul-
lanarak denklem (13.16)‟daki suç modelinin sabit elastikiyetli bir uyarlaması tahmin
edilmektedir. Elimizde keza 1982 yılına ait suç oranları da mevcuttur. Suçu etkileyen
ve güncel asayiş ve düzen sağlama harcamaları ile korelâsyonlu olabilecek her şehre
ait gözlenemeyen değişkenlerini kontrol altında tutmak için 1982 suç oranları ilave
bağımsız değişken olarak modele katılmıştır. Sonuçlar Tablo 13.3(A)‟da gösteril-
mektedir.

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:20


Ekonometrik Analiz

Tablo 13.3(A)

Gecikmeli suç oranı denklemde yer almadığında, işsizlik oranı ve yasaları uygu-
lamak için yapılan harcamaların etkilerinin ne olduğu belirsizdir, her iki değişken de
istatistiksel olarak anlamsızdır. Bir olabilir durum, yasaların işlerliğini arttıran har-
camalar raporlama mekanizmalarını geliştirmekte ve bunun sonucu daha fazla suç
raporlanmaktadır. Keza aynı zamanda yüksek suç oranı olan şehirlerin yasaları uygu-
lamak için daha fazla harcama yapıyor olması da mümkündür.
Beş yıl öncesi suç oranın (CRMRTE82) logaritmasının denkleme eklenmesi, Tab-
lo 13.3(B), harcama katsayısı üzerine büyük etki yapmaktadır. Harcamalara göre suç
oranı elastikiyeti -0.14 ve t  1.285 [ p  0.206] olarak tahmin edilmiştir. Bu tahmin
güçlü bir istatistiksel anlamlılığa sahip değildir, fakat örneklemi daha çok sayıda şeh-
ri kapsayan geliştirilmiş bir modelin daha anlamlı sonuçlar üretebileceğine işaret et-
mektedir.

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:21


Diğer Belirginleştirme (Spesifikasyon) Hataları ve Veri Problemleri

Tablo 13.3(B)

Şaşırtıcı olmayan bir şekilde bulgular güncel suç oranının geçmişteki suç oranı ile
çok yakından ilişkili olduğunu göstermektedir. Tahmin edilen katsayı 1982‟deki suç
oranı %1 daha yüksek olmuş olsaydı, 1987‟deki suç oranının %1.19 daha fazla ola-
cağı öngörmektedir. Güncel suç oranının geçmişteki suç oranına göre elastikiyetinin
birim olduğu hipotezini ret edemeyiz [t  (1.194  1) / 0.132  1.47] . Geçmişteki suç
oranının modele eklenmesi regresyonun açıklama gücünü önemli ölçüde arttırmakta-
dır, ancak bunun şaşırtıcı bir yönü yoktur. Gecikmeli suç oranını modele katmanın
başlıca nedeni log(LAWEXPC)‟nın log(CRNRTE) üzerindeki ceteris paribus etkisi-
nin daha iyi bir tahmini elde etmektir.

Örnek 13.4

Gözlenemeyen değişkenleri kontrol etmek için genel bir yol olarak gecikmeli bağımlı
değişkeni kullanma uygulaması mükemmel bir yöntem değildir. Fakat politika değiş-
kenlerinin çeşitli konulardaki sonuçlarının etkileri konusunda daha iyi bir tahmin el-
de etmeye yardımcı olmaktadır.

ÖLÇÜM HATALARI ALTINDA OLS TAHMĠNLERĠNĠN ÖZELLĠK-


LERĠ
Bazen, uygulamada iktisadi davranışı gerçekten etkileyen değişkenle ilgili verileri
derleyemeyebiliriz. Örneğin, eğer aile kendi tarla, bağ ve bahçesinden elde ettiği
ürünleri gıda olarak kullanıyorsa ne kadar gerçek gıda harcaması yaptığını sağlıklı
olarak belirleyemeyebiliriz. Keza hanehalkı değişik kaynaklardan elde ettiği gelirinin
bir bölümünü beyan etmez ise, hanehalkının harcama kararı verirken baz aldığı ger-

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:22


Ekonometrik Analiz

çek gelir rakamını ölçemeyebiliriz. Bu gibi durumlarda değişkenlerin tam doğru ol-
mayan ölçümlerini kullanmak durumunda kalırız.
Bir regresyon modelinde bir değişkenin kesin olmayan bir ölçümü kullanıldığında
modelimiz ölçüm hatası içerir. Bu kesimde, ölçüm hatalarının olağan en küçük kare-
ler tahminleri açısından doğuracağı sonuçları çıkarmaya çalışacağız. Bazı varsayım-
lar altında OLS tahminleri tutarlı olurken, diğer bazı varsayımlar altında tutarsız ol-
maktadır. Bu durumların bazıları için asimptotik yanlılığın boyutunu ölçebiliriz.
Göreceğimiz gibi, ölçüm hatası problemi bir önceki kesimde tartışılan model dı-
şında kalan değişken yerine gölge değişken kullanımı problemine benzer bir istatis-
tiksel yapıya sahiptir, fakat kavramasal olarak değişkenlerideki ölçüm hatası proble-
mi farklı bir problemdir. Gölge değişken durumunda, gözlenemeyen değişkenle her-
hangi bir şekilde ilişkili bir değişkenin varlığı araştırılmaktadır. Ölçüm hatası duru-
munda ise, gözleyemediğimiz değişkenin iyi tanımlanmış nicel bir anlamı vardır (ör-
neğin aylık gelir), fakat elimizde bulunan değişkene ait kayıtlar hata içermektedir.
Örneğin hanehalkı tarafından anketöre bildirilen aylık gelir, gerçek aylık gelirin bir
ölçüsüdür, halbuki dışarıda bırakılan değişken durumunda IQ skoru yetenek için bir
gölgedir.
Gölge değişken ve ölçüm hatası problemleri arasındaki diğer bir farklılık, ölçüm
hatası durumda bizi esas ilgilendiren değişkenin yanlış ölçülen açıklayıcı değişken
olmasıdır. Halbuki gölge değişken durumunda bizi esas ilgilendiren dışarıda bırakı-
lan değişkenin bağımlı değişken üzerindeki kısmi etkisi değil, diğer değişkenlerin
bağımlı değişken üzerindeki kısmi etkisidir.
Detaya geçmeden bir noktayı vurgulamak yararlı olacaktır. Ölçüm hatasının
ekonometrisyenin toplayabileceği veriler bireylerin, ailelerin, firmaların vs. kararla-
rını etkileyen değişkenlerden farklı olduğu zaman bir problem olarak karşımıza çıktı-
ğı unutulmamalıdır.

Bağımlı DeğiĢkende Ölçüm Hatası


İlk olarak bağımlı değişkenin hatalı olarak ölçüldüğü bir durumu ele alalım. Açıkla-
maya çalıştığımız (kütledeki) bağımlı değişkenin Y  ve Gauss-Markov koşullarını
sağlayan doğru ilişkinin
Yi   1   2 X i 2    K X iK  vi (13.17)

şeklinde olduğunu varsayalım. Eğer bağımlı değişkenin ölçülen değeri Yi ve ölçüm


hatası hi ise

Yi  Yi   hi (13.18)
olacaktır, dolayısıyla (13.17) yeniden

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:23


Diğer Belirginleştirme (Spesifikasyon) Hataları ve Veri Problemleri

Yi  1  2 X i 2   k X ik  vi  hi
veya
Yi  1   2 X i 2    k X ik  ui (13.19)

şeklinde yazılabilir, burada ui bileşik hata terimi (vi  hi ) ‟yi belirtmektedir. Bu mo-
deli, Yi , X i 2 , X i 3 , , X ik gözlendiğinden, olağan en küçük kareler ile tahmin ede-
biliriz. Geleneksel modelden tek farkı (13.19)‟daki hata teriminin orijinal hata terimi
artı Y ‟deki ölçüm hatasından oluşan iki bileşen içermesidir.
Gauss-Markov koşullarını sağlaması nedeniyle vi , i  1,2, , n , sıfır koşullu orta-
lamaya sahiptir ve X i 2 , X i 3 , , X ik ile korelâsyonsuzdur. Ölçüm hatası olduğuna
göre, doğal olarak hi ‟nin sıfır ortalamaya sahip olduğu varsayılabilir, fakat bunun
geçerli olmadığı en kötü halde dahi sabit terim 1 ‟in tahmincisi (ve dolayısıyla tah-
mini) yanlı olacaktır, bu ise genelde bizi çok fazla olumsuz etkilememektedir. Esas
önemli olan ölçüm hatası hi ile açıklayıcı değişkenler X i 2 , X i 3 , , X ik arasındaki
ilişkidir. Genel olarak Yi ‟deki ölçüm hatasının X i 2 , X i 3 , , X ik açıklayıcı değiş-
kenlerinden bağımsız olduğu varsayılmaktadır. Bu doğru olduğunda (13.19)‟un ola-
ğan en küçük kareler tahmincileri yansız ve tutarlı olacaktır. İlaveten olağan en kü-
çük kareler tahminleri ile birlikte kullanılan t , F ve LM testleri geçerliliğini koru-
yacaktır.
Hata terimi varyansı, çoğunlukla yapıldığı gibi, vi ve hi ‟nin korelasyonsuz oldu-
ğu varsayıldığında,  u2   v2   h2 ‟ye eşit olacaktır ve  u2   v2 . Yani bağımlı değiş-
kendeki ölçüm hatası, hata terimi varyansının ölçüm hatası olmadığı duruma kıyasla
daha yüksek olmasına neden olmaktadır. Bu yüzden olağan en küçük kareler tahmin-
cilerinin varyansı
 v2   h2 1
 b2   i  1, , n; k  2, ,K (13.20)
n
1  Rk2
 xik2
k

i 1

bağımlı değişkenin ölçüm hatası içermediği duruma kıyasla, daha büyük olacak ve
tahminlerin güvenliği azalacaktır. Ölçüm hatasını çözemediğimiz sürece bu konuda
yapılacak pek fazla bir şey yoktur.
Özetle, bağımsız değişkenlerle korelâsyonsuz olduğu sürece, bağımlı değişkende-
ki ölçüm hatası pek önemli değildir, olağan en küçük kareler tahmincileri optimal
özelliklere sahip olmaya devam edecektir.

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:24


Ekonometrik Analiz

Açıklayıcı DeğiĢkenlerde Ölçüm Hatası


Geleneksel olarak, bir açıklayıcı değişkendeki ölçüm hatası, bağımlı değişkendeki
ölçüm hatasında çok daha önemli bir problem olarak kabul edilmektedir. Bu kesimde
bunun nedenlerini inceleyeceğiz.
Bir Yi bağımlı değişkeni ile bir X i açıklayıcı değişkeni arasında aşağıdaki gibi
bir ilişkinin var olduğunu
Yi  1   2 X i  vi (13.21)
ve bunun Keza bu ilişkinin Gauss-Markov varsayımlarından ilk üçünü tatmin ettiği
varsayalım. Bu (13.21)‟in OLS tahminin 1 ve  2 ‟nin yansız ve tutarlı tahminlerini
üreteceği anlamına gelmektedir. Şimdi X i ‟ın doğru olarak hesaplanamadığını, onun
yerine bir ölçüm hatası içeren X i değişkenin kullanıldığını varsayalım; örneğin X i
gerçek gelir ve X i beyan edilen gelir olarak düşünülebilir. Dolayısıyla

wi  X i  X i (13.22)

yazılabilir, burada wi açıklayıcı değişkendeki ölçüm hatasıdır. Ölçüm hatasının bek-


lenen değerinin sıfır olduğunu varsayalım: E ( wi )  0 . Bu doğal bir varsayımdır ve
her halükarda ileride varacağımız sonuçları etkilemeyecektir. Aşağıdaki tartışma bo-
yunca vi ‟nin X i ve X i ile korelâsyonsuz olduğunu varsayılmaktadır. Koşullu bek-
leyişler cinsinden bunu şöyle ifade edebiliriz: E(Yi X i , X i )  E(Yi X i ) , bu X i kont-
rol edildikten sonra X i ‟nin Yi ‟yi etkilemediği anlamına gelmektedir. Aynı varsayımı
gölge değişken durumunda da kullandık, bu tartışmalı bir varsayım değildir ve he-
men hemen tanım gereği doğru olmaktadır.
Şimdi X i yerine X i ‟yi ikame ederek, Yi ‟yi X i üzerine bağlantıladığımızda
(regres ettiğimizde) OLS tahmincilerinin özelliklerinin ne olacağını belirlemek isti-
yoruz. Bu özellikler kritik olarak ölçüm hatası hakkında yaptığımız varsayımlara
bağlıdır.
Ekonometride genellikle iki varsayım üzerinde yoğunlukla durulmaktadır ve bun-
ların her ikisi de uç noktaları temsil etmektedir: (1) ölçüm hatası wi ‟nin gözlenen X i
ile korelâsyonsuzdur (2) ölçüm hatası wi ‟nin gözlenemeyen X i ile korelâsyonsuz-
dur. Şimdi bu iki durumu detaylı olarak ele alalım.

Ölçüm hatasının gözlenen açıklayıcı değişkenle korelâsyonsuz olduğu durum


Bu durum

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:25


Diğer Belirginleştirme (Spesifikasyon) Hataları ve Veri Problemleri

kov( X i , wi )  0 (13.23)

şeklinde ifade edilebilir. Eğer (13.23) varsayımı doğru ise (13.22) ilişkisinden wi ‟nin
gözlenemeyen değişken X i ile korelâsyonlu olması gerektiği sonucu çıkar. Bu du-
rumdaki OLS tahmincileri özelliklerini öğrenmek için, X i  X i  wi ‟yi (13.21) içine
ikame edelim:
Yi  1  2  X i  wi   vi
 1  2 X i  vi  2 wi (13.24)
 1  2 X i  ui

burada ui  vi  2 wi . Yapılan varsayım gereği vi ve wi ‟nin her ikisi de sıfır ortala-


malı ve X i ile korelâsyonsuz olduğundan, ui  vi  2 wi sıfır ortalamaya sahiptir ve
X i ile korelâsyonsuzdur. Bu durumda X i yerine X i ikame edilerek gerçekleştirilen
OLS tahmini  2 ‟nin (ve keza 1 ‟in) tutarlı tahmincilerini üretecektir.
vi ile wi birbiri ile korelasyonsuz olduğundan, (13.24)‟teki hata ui ‟nin varyansı

var(ui )  var(vi   2 wi )   v2   22 w2

ve b2 tahmincisinin varyansı

 v2   22 w2
 b2  n

x
j
2
i
i 1

olacaktır. Dolayısıyla  2  0 olmadığı sürece ölçüm hatası, (13.24)‟ün hata


varyansını yükseltecektir fakat bu durum tahmincilerin diğer OLS özelliklerini etki-
lemeyecektir.
wi ‟nin X i ile korelasyonsuz olduğu varsayımı kesim 13.2‟deki gölge değişken
varsayımı ile aynıdır. Bu varsayım OLS‟nin tüm iyi özelliklerini korumaya devam
edeceğini ima etmektedir. Ekonometrisyenler bir açıklayıcı değişkendeki ölçüm ha-
tasına atıfta bulunurken düşündükleri durum çoğu kez bu değildir.

Ölçüm hatasının gözlenemeyen açıklayıcı değişkenle korelâsyonsuz olduğu


durum: Değişkenlerde hata sorunu
Değişkenlerde hata problemi dendiğinde genel olarak anlaşılan ölçüm hatasının
gözlenemeyen açıklayıcı değişkenle korelasyonsuz olduğu durumdur:

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:26


Ekonometrik Analiz

kov( X i* wi )  0 (13.25)

Bu durum geçerli olduğunda (13.22)‟den X i ve wi ‟nin korelâsyonlu olması gerekir:

kov( X i wi )  E ( X i wi )  E ( X i* w)  E ( wi2 )  0   w2   w2 (13.26)

Bu halde, X i ve wi arasındaki kovaryans, klasik değişkenlerde hata varsayımı altın-


daki ölçüm hatasının varyansına eşit olmaktadır.
(13.26)‟dan, X i ve wi arasındaki korelasyonun problem yaratacağı görülmekte-
dir. X i ve vi korelasyonsuz olduğundan, X i ve bileşik hata ui ( vi   2 wi ) arasın-
daki kovaryans
kov( X i , ui )  kov(X i , vi )   2 kov( X i , wi )    2 w2

olmaktadır. Bu nedenle, klasik değişkenlerde hata durumunda Yi ‟nin X i üzerine


OLS regresyonu yanlı ve tutarsız bir tahminler üretecektir.
Basit doğrusal regresyon modeli açıklamalarımızdan b2 tahmincisinin formülü-
nün şöyle çıkartılabileceğini biliyoruz:
n n

 xi yi xu i i
b2  i 1
n
 2  i 1
n

x
i 1
2
i x
i 1
2
i

kov( X , u )
 2 
var( X )
Daha önce çıkardığımız asimptotik sonuçları kullanarak, OLS‟deki tutarsızlığın bo-
yutunu şöyle belirleyebiliriz:
kov( X , u )  2
plim(b2 )   2   2  2 2 w 2
var( X )  X   w
 2 
  2 1  2 w 2  (13.27)
   w 
 X 
  2 
 2  2 X 2 
  w 
 X 

burada var( X )  var( X  )  var( w) gerçeğini kullandık.

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:27


Diğer Belirginleştirme (Spesifikasyon) Hataları ve Veri Problemleri

Denklem (13.27) enteresandır.  2 ‟nin var( X  ) / var( X ) oranına eşit olan çarpanı
her zaman birden küçüktür [bunu varsayım (13.25) ima etmektedir]. Bu yüzden,
plim(b2 ) her zaman sıfıra  2 ‟den daha yakındır. Buna OLS‟de klasik değişkenler-
deki hatalar nedeniyle ortaya çıkan „azaltma yanlılığı‟ (attenuation bias) adı veril-
mektedir: ortalama olarak (veya büyük örneklemlerde) tahmin edilen OLS etkisi
azaltılmış olacaktır. Özellikle, eğer  2 pozitif ise, b2 tahmincisi  2 ‟yi aşağı doğru
yanlı tahmin etme eğiliminde olacaktır. Bu önemli bir sonuçtur ve değişkenlerde ha-
talar kurgusuna dayanmaktadır.
Eğer X  ‟ın varyansı, ölçüm hatasındaki varyansa kıyasla büyük ise OLS‟deki tu-
tarsızlık ufak olacaktır. Çünkü  X2  /  w2 büyük olduğunda var( X  ) / var( X ) birime
yakın olacaktır. Dolayısıyla, X  ‟da w ‟ya göreli olarak ne kadar çok değişme oldu-
ğuna bağlı olarak, ölçüm hataları büyük yana neden olmamaktadır.
Daha fazla açıklayıcı değişken olduğunda işler daha karışık hale gelmektedir. Ör-
nek olarak
Yi  1   2 X i2  3 X i 3   4 X i 4  vi (13.28)

modelini ele alalım, burada üç açıklayıcı değişkenden birincisi, X 2 , hatalı ölçülmek-


tedir. vi ‟nin X i2 , X i 3 , X i 4 ve X i 2 ile korelasyonsuz olduğu doğal varsayımını ya-
pıyoruz. Yine bu durumda da kritik varsayım ölçüm hatası wi ile ilgili varsayımdır.
Hemen hemen tüm durumlarda wi ‟nin X i 3 ve X i 4 -- hatasız ölçülen açıklayıcı de-
ğişkenler – ile korelâsyonsuz olduğu varsayılmaktadır. Kilit nokta wi ‟nin X i 2 ile ko-
relâsyonsuz olup olmadığıdır. Eğer korelasyonsuz ise Yi ‟nin X i 2 , X i 3 ve X i 4 üzeri-
ne OLS regresyonu tutarlı tahminciler üretir. Bunu regresyon denklemini
Yi  1  2 X i 2  3 X i 3  4 X i 4  vi  2 wi (13.29)

şeklinde yazarak görebiliriz, bu durumda hem vi ve hem de wi açıklayıcı değişken-


lerle korelasyonsuzdur.
Eğer klasik değişkenlerde hata, yani kov( X 2 w)  0 , varsayımı geçerli ise, OLS
tahmincileri hem yanlı ve hem de tutarsız olacaktır, çünkü (13.29)‟daki ölçüm hatası,
wi , X i 2 ile korelasyonlu olacaktır. Bu halde, sadece b2 ‟nin değil, genel olarak, tüm
OLS tahmincilerinin yanlı hale geldiği unutulmamalıdır. Peki bu durumda denklem
(9.27)‟de çıkarılan „azaltma yanlılığı’ (attenuation bias) ne olacaktır. Bu durumda da
yine,  2 tahmin edilirken bir azaltma yanlılığı ortaya çıkacaktır; bunu şöyle gösteri-
lebiliriz:

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:28


Ekonometrik Analiz

 r2

plim(b2 )   2 2
(13.30)
   w2
2
r2 2

burada r2 denklem X 2  1   3 X 3   4 X 4  r2* regresyonundaki kütle hata terimini


göstermektedir. Formul (13.30) aynı zamanda X 2 ‟nin tek yanlış ölçülen değişken
olduğu k 1 değişkenli genel durumda da geçerlidir.
Yanlış olmayan değişkenlerin önündeki  j ‟lerin tahmini söz konusu olduğunda
sonuçların ne olacağı pek açık değildir. X 2 ‟ın X 3 ve X 4 ile korelâsyonsuz olduğu
özel durumda b3 ve b4 tutarlıdır. Fakat bu durum uygulamada nadir görülen bir du-
rumdur. Genel olarak, tek bir değişkendeki ölçüm hatası tüm tahmincilerde tutarsız-
lığa neden olmaktadır. Ne yazık ki, yanın (sapmanın) büyüklüğü ve hatta yönü kolay-
lıkla belirlenemez.

EKSĠK VERĠLER, RASTSAL OLMAYAN ÇAPRAZ KESĠT ÖR-


NEKLEMLERĠ VE AYKIRI GÖZLEMLER
Bir önceki kesimde tartışılan ölçüm hatası problemine veri problemi olarak bakılabi-
lir: istediğimiz değişken için doğru gözlem değerleri elde edilememektedir. Buna ila-
veten, klasik değişkenlerde hata modelinde, bileşik hata terimi yanlış ölçülen bağım-
sız değişkenle korelâsyonludur, bu da Gauss-Markov varsayımlarını ihlaline neden
olmaktadır.
Önceki kesimde ele aldığımız bir başka veri problemi açıklayıcı değişkenler ara-
sındaki çoklu doğrusal bağıntı olması durumudur. Hatırlarsanız açıklayıcı değişken-
ler arasındaki korelâsyon hiçbir varsayımı ihlal etmemektedir. İki veya daha çok ba-
ğımsız değişken güçlü bir şekilde korelâsyonlu olduğunda, bunların her birinin ba-
ğımlı değişken üzerindeki kısmi etkisini ölçmek zor olabilmektedir.
Bu kesimde, rastsal örnekleme varsayımını ihlal edebilecek başka veri problemle-
rini tanıtacağız.

Eksik Veriler
Eksik veri problemi çeşitli şekillerde karşımız çıkar. Çoğu kez kişiler, okullar, şehir-
ler, vs. ile ilgili çapraz kesit verilerinin bir rastsal örneklem derlendikten bir süre son-
ra, örneklemdeki bazı kilit değişkenlerin bazı gözlemleri hakkında bilgilerin eksik
olduğunu fark ederiz.
Bağımlı değişkenin veya bağımsız değişkenlerden birine ait bir gözlem eksik ise,
söz konusu gözlem standart çoklu regresyon analizinde kullanılamaz. Gerçekte, eksik
veriler doğru dürüst işaretlendiğinde, günümüz modern regresyon paketleri eksik ve-

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:29


Diğer Belirginleştirme (Spesifikasyon) Hataları ve Veri Problemleri

rilerin izini sürer ve regresyonu tahmin ederken eksik verilerin olduğu gözlemleri
görmezden gelir.
Regresyon için mevcut örneklem boyutunu düşürmenin ötesinde, eksik verilerin
başka istatistiksel sonucu var mıdır? Bu verilerin neden eksik olduğuna bağlıdır. Bir
durum verilerin rastsal olarak eksik olmasıdır. Bu durum çapraz kesit verilerinde kar-
şımıza çıkar. Bu halde sadece kütleden elde edilen mevcut örneklem boyutu küçül-
müş olacaktır. Bu tahmincileri daha az hassas yapmasına karşın, tahmincide herhangi
bir yanlılığa (sapmaya) neden olmamaktadır: rastsal örnekleme varsayımı geçerliliği-
ni korumaktadır. Sadece bazı değişkenlere ait bazı gözlemler eksik olduğunda, bu
gözlemlere ilişkin bilgiyi başka şekilde elde etme yolları vardır, fakat bu yordamlar
çoğunlukla kullanılmamaktadır. Çünkü bu yöntemler çok karmaşıktır ve bunları kul-
lanılması sonucu tahmincilerde sağlanan iyileşme çoğunlukla çok sınırlıdır. Çoğu
halde, tahmin yapılırken eksik bilgi içeren gözlemler dikkate alınmamaktadır.

Çapraz Kesit Verilerinde Rastsal Olmayan Örneklemler


Eğer kayıp veriler kütleden rastsal olmayan bir örneklem çekilmesi sonucunu doğu-
ruyorsa, bu durum tahmincilerin özellikleri açısından problem olmaktadır. Örneğin,
doğum ağırlığı ile ilgili bir veri kümesinde, eğitim düzeyi düşük bazı anneler ait eği-
tim verisinin mevcut olmadığı durumu ele alalım. Eğer bebek doğum ağırlığı eğitim
düzeyi ortalama eğitim düzeyinden küçük kişiler için daha düşükse ne olacaktır? Üc-
ret veri kümesi için IQ puanlarını kullandığımız örneği hatırlayalım. Bu veri kümesi-
nin IQ puanı bilinmeyen belirli kişiler örneklem dışında bırakılarak oluşturulduğunu
varsayalım. Eğer yüksek IQ‟lu kişiler için IQ puanının elde etmek daha kolay ise, ör-
neklem kütlenin iyi bir temsilcisi olmayacaktır. Bu gibi çapraz kesitlerle çalışıldığı
durumlarda rastsal örnekleme varsayımı ve dolayısı ile katı dışsallık varsayımı ihlal
edilmiş olacaktır. Böyle bir durum OLS tahmincileri açısından gibi sonuçlar doğu-
rur?
Bazı rastsal olmayan çapraz kesit örnekleme türleri OLS tahmincilerinin yansızlı-
ğı ve tutarlılığı açısında hiçbir olumsuz sonuç doğurmamaktadır. Bu durum çapraz
kesit verileri ile çalışırken, örneklemin bağımsız değişkenler baz alınarak seçildiğin-
de ortaya çıkmaktadır. Buna bağımsız değiĢkenleri temel alan örneklem seçimi adı
verilmektedir. Bu tür seçim dışsal (ekszojen) örneklem seçimi olarak bilinmektedir.
Örnek olarak bir tasarruf fonksiyonunu tahmin ettiğimizi farz edelim: yıllık tasarruf
gelire, yaşa, aile büyüklüğüne, ve muhtemelen diğer bazı faktörlere bağlı olsun. Basit
bir model şöyle olacaktır:
TASARRUFi  1  2GELĠRi  3YAġi  4 BÜYÜKLÜKi  u (13.31)
Veri kümemizin 35 yaş üzeri kişilere yapılan anketi temel aldığını ve dolayısıyla ile
tümü yetişkinlerden oluşan bir örneklem olduğunu varsayalım. Bu ideal bir durum

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:30


Ekonometrik Analiz

olmamasına karşın, rastsal olmayan örneklemi kullanarak model (13.31)‟ün paramet-


releri için yine de yansız ve tutarlı tahminciler elde edebiliriz. Bunun kanıtını burada
göstermeyeceğiz, fakat rastsal olmayan örneklemden üretilen OLS tahmincilerinin
yansız olma nedeni regresyon fonksiyonu
E (TASARRUF GELĠR, YAġ , BÜYÜKLÜK ) ‟ün GELĠR, YAġ veya BÜYÜKLÜK tara-
fından tasvir edilen kütlenin tüm alt kümeleri için aynı olmasıdır. Yeter ki alt kütle-
deki bağımsız değişkenler içinde yeterince değişkenlik olsun. Bağımsız değişkenler
temel alınarak yapılan seçim, etkin olmayan tahminciler yaratma dışında, ciddi bir
problem oluşturmamaktadır.
Biraz önce sözünü ettiğimiz IQ örneğinde, seçimin nasıl yapıldığı pek açık değil-
dir, çünkü bir kişiyi örnekleme katı katmama konusunda IQ‟ya dayanan sabit bir ku-
ral kullanılmamıştır. Eğer örnekleme seçimi belirleyen diğer faktörler ücret denkle-
mindeki hata teriminden bağımsız ise, yine ekzojen örneklem seçimi söz konusudur
ve bu şekilde seçilen örneklemi kullandığında Gauss-Markov varsayımları altında
OLS tüm arzulanır özelliklere sahip olcaktır.
Eğer seçim bağımlı değişken Y temel alınarak yapılmış ise her şey çok farklıdır.
Bu halde seçim bağımlı değiĢkeni temel alan örneklem seçimidir ve içsel (endojen)
örneklem seçimine bir örnek oluşturmaktadır. Eğer örneklem bağımlı değişkenin be-
lirli bir değerin altında veya üstünde oluşuna göre derlenmiş ise, OLS tahmincileri
her zaman yanlı olacaktır. Örneğin tüm yetişkinler kütlesi için bireysel servet ile
onun belirlediği kabul edilen birkaç faktör arasındaki ilişkiyi tahmin etmek istediği-
miz faz edelim:
SERVETi  1  2 EGITIM i  3 DENEYĠM i  4YAġi  u (13.32)
Örnekleme sadece, serveti 150000 YTL‟nin altında olanların katıldığını varsayalım.
Bu ilgili kütleden çekilen rastsal olmayan bir örneklemdir ve seçi bağımlı değişke-
nim değeri temel alınarak yapılmıştır. OLS tahmininde bu örneklemin kullanılması
yanlı ve tutarsız parametre tahmincilerini üretecektir. Bunun temel nedeni kütle reg-
resyonundaki E(SERVET EĞĠTĠM , DENEYĠM ,YAġ ) , serveti 150000 YTL‟nin al-
tında olanların servetinin koşullu beklen değeri ile aynı değildir.
Başka örnekleme yöntemleri de bilinçli olarak kütleden rastsal olmayan örneklem
üretimine neden olmaktadır. Çok yaygın olan bir veri derleme şekli katmanlı örnek-
leme yöntemidir; bu yöntem kütleyi birbiri ile örtüşmeyen ayrıntılı gruplara bölmek-
tedir. Bu halde, kütledeki temsil oranları temel alınarak, bazı gruplardan daha sık ör-
neklem alınmaktadır. Örneğin, bazı anketler, bilinçli olarak, örnekleme azınlıklardan
veya düşük gelir gruplarından daha fazla gözlem katmaktadır. Bu gibi durumlarda
özel tahmin yöntemlerine gereksinim olup olmadığı yine katmanlara ayırmanın
eksojen (eksojen açıklayıcı değişkenlere dayalı) veya endojen (bağımlı değişkene
dayalı) olmasına bağlıdır. Askeri personel anket çalışmasının, amaç askeriyede çalı-

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:31


Diğer Belirginleştirme (Spesifikasyon) Hataları ve Veri Problemleri

şan kadınların ücretlerini hangi faktörlere bağlı olduğunu belirlemek olduğundan,


kadınları aşırı örneklediğini farz edelim. (Katmanlı örneklemede kütle içinde göreli
olarak ufak olan bir grubu aşırı örnekleme yaygın olarak kullanılmaktadır.) Aynı za-
manda erkekler de örnekleme katıldığında, cinsiyet farklılığının, eğitimin ve deneyi-
min ücret üzerindeki etkisini tahmin etmek için OLS‟yi katmanlı örneklemle kulla-
nabiliriz. (Eğitim ve deneyimin ücret üzerindeki etkisinin cinsiyet göre değişmediğini
varsayımını geçerli olduğunu düşünebiliriz.) Bu durumda OLS‟nin yansız ve tutarlı
olmasının nedeni katmanlara ayırmanın açıklayıcı değişkene, yani cinsiyete, göre
olmasıdır.
Eğer askeri personel anket çalışması düşük ücretli askeri personeli aşırı örnekle-
miş ise, katmanlı örneklemeyi kullanan OLS askeri personel ücret denklemi paramet-
relerini tutarlı olarak tahmin edemeyecektir, çünkü katmanlara ayırma endojen de-
ğişkene göre yapılmıştır. Bu gibi durumlarda özel tahmin yöntemlerinin kullanılması
gerekir [bakınız Woodridge (2002, Bölüm 17)].
Katmanlı örnekleme çok açık bir rastsal olmayan örnekleme biçimidir. başka ör-
neklem seçim sorunları bu kadar belirgin değildir. Örneğin, daha önceki birkaç ör-
nekte, çeşitli değişkenlerin, özellikle eğitim ve deneyimin, saat başı ücretler üzerin-
deki etkilerini inceledik. Bu örneklerde kullanılan WAGE1.WF1 veri kümesi özünde
çalışan bireyler açısından bir rastsal örneklemdir. Çalışma ekonomisi iktisatçıları ço-
ğunlukla örneğin eğitiminin ücret teklifi üzerindeki etkisini araştırmaktadır. Bunun
arkasındaki temel fikir çalışma yaşındaki herkesin bir saat ücreti teklifi ile karşı kar-
şıya olduğu ve kişinin bu ücrette çalışmayı kabul veya ret edeceği fikridir. Çalışmak-
ta olan bir kişi için ücret teklifi kazanılmakta olan ücretin kendisidir. Çalışmayan bir
birey için yapılan ücret teklifini gözlememiz mümkün değildir. Şimdi, ücret teklifini
yansıtan
log(ÜCRET t )i  1   2 ( EGITIM )i  3 ( DENEYIM )i  ui (13.33)
denklemi tüm çalışma yaşındaki bireylerin kütlesini temsil etmektedir, bu denklemi
çalışan insanların kütlesinden elde edilen bir rastsal örneklemi kullanarak tahmin
edemeyiz. Çünkü bu kütle ve ondan elde edilen örneklem sadece çalışan bireyler için
yapılan ücret teklifini içermektedir (gerçekte çalışmayan insanlar için eğitim ve de-
neyin verilerini elde edebiliriz.) Eğer (13.33)‟ü tahmin etmek için çalışan bireylerden
elde edilen bir rastsal örneklem kullanırsak, yansız tahminciler elde edebilir miyiz?
Bu soruya net bir cevap vermek güçtür. Örneklem (bireye yapılan ücret teklifinin bü-
yüklüğüne göre değil de) bireyin çalışma kararı baz alınarak seçilmiştir. Çalışma ka-
rarı ücret teklifini etkileyen gözlenemeyen faktörlere bağlı olabilir, seçim endojen
olabilir. Bu durumda OLS tahmincileri örneklen seçim yanlılığı içerecektir.

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:32


Ekonometrik Analiz

Aykırı Gözlemler veya Etkili Gözlemler


Bazı uygulamalarda, özellikle ufak veri kümelerinde, OLS tahminleri bir veya birkaç
gözlem tarafından aşırı etkilenmektedir. Bu tür gözlemlere aykırı gözlemler, sapkın
gözlemler veya etkili gözlemler adı verilmektedir. Kabaca ifade edersek, regresyon
analizi dışında bırakıldığında OLS tahminlerini “büyük” çapta değiştiren gözleme
“aykırı gözlem” adı verilmektedir.
OLS yöntemi aykırı değerli gözlemlere karşı çok duyarlıdır çünkü bu yöntem ka-
lıntı kareler toplamını minimize etmektedir: büyük kalıntılar (ister pozitif isterse ne-
gatif olsun) en küçük kareler minimizasyon probleminde büyük ağırlık kazanmakta-
dır. Eğer örneklemde ufak değişiklikler yapıldığında tahminler büyük çapta değişi-
yorsa bunun üzerinde durulması gerekir.
İstatistikçiler ve ekonometrisyenler aykırı gözlem problemini teorik olarak ele al-
dıklarında zaman zaman verileri – aykırı gözlemler beklenmeyen bir dağılım ortaya
çıkarsa da -- veri bir kütleden elde edilen, rastsal bir örneklem gibi ele alınmaktadır.
Bazen de aykırı gözlemlerin farklı bir kütleden geldiği varsayılmaktadır. Pratik açı-
dan bakıldığında aykırı gözlemler iki nedenle ortaya çıkmaktadır. Birinci neden, veri-
ler kayda geçirilirken bir yanlışlık yapılmış olmasıdır; bu en kolay üstesinden geline-
bilecek bir durumdur. Bir sayıya gereksiz sıfırlar eklenmesi, ondalık hane işaretinin
yanlış algılanması, ondalık hanenin yanlış yere konulması OLS tahminlerini, özellik-
le küçük örneklemlerde, büyük ölçüde etkileyebilir. Veri giriş hatalarını yakalamak
için özet istatistiklerin özellikle en küçük ve en büyük değerlerin hesaplanması iyi bir
yoldur. Maalesef yanlış bilgi girişi her zaman bu kadar açık olmayabilir.
Aykırı gözlemler, aynı zamanda, ufak bir kütleden örneklem seçilirken, kütlenin
bir veya birkaç üyesinin, geçerli bazı özellikleri nedeniyle, kütlenin diğer üyelerinden
çok farklı olduğu durumlarda da ortaya çıkabilmektedir. Bu şekildeki gözlemlerin
regresyon analizine katılması veya regresyon analizi dışında bırakılması kararı zor
bir karardır. Sonuçta elde edilecek tahmincilerin istatistiksel özellikleri açık olarak
belli değildir. Aykırı gözlemler açıklayıcı değişken varyansını yükselterek (ve dola-
yısıyla tahminci standart hatasını küçülterek) önemli bir bilgi sağlamaktadır. Bir veya
birkaç gözlemin tahmin sonuçlarını aşırı etkilediği durumlarda belki de en doğrusu
OLS sonuçlarını aykırı değerler dahil ve hariç olarak sunmaktır.

Örnek 13.8: AR-GE Yoğunluğu ve Firma Büyüklüğü


(RDCHEM.WK1)
Satışların yüzdesi olarak ölçülen AR-GE harcamaları (RDINTENS) değişkeninin,
milyon YTL olarak ifade edilen satışlar (SALES) ve satışların yüzdesi olarak ifade
edilen kâr (PROFMARG) ile ilişkili olduğunu farz edelim:
RDINTENSi  1  2 SALESi  3 PROFMARGi  ui

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:33


Diğer Belirginleştirme (Spesifikasyon) Hataları ve Veri Problemleri

RDCHEM.WK1 içindeki kimyasal madde üreten 32 firma verileri kullanılarak aşa-


ğıdaki model tahmin edilmektedir:

Açıkça görüldüğü gibi ne SALES ne de PROFMARG %10 düzeyinde dahi istatistik-


sel olarak anlamlı değildir.

Şekil 13.1 Satışlara Göre AR-GE harcamaları saçılım diyagramı

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:34


Ekonometrik Analiz

32 firmadan 31‟inin yıllık satışları 20000 milyon YTL‟nin altındadır. Sadece bir
firmanın yıllık satışları hemen hemen 40000 milyon YTL dir. Şekil 13.1 bu firmanın
örneklemdeki diğer firmalardan ne kadar uzakta olduğunu göstermektedir. Satışlar
açısından bu firma diğer herhangi bir firmadan en azından iki kat daha büyüktür. Do-
layısı ile modeli bu firmayı dışarıdea bırakarak tahmin etmek iyi bir fikir olabilir.
Bun yaptığımızda aşağıdaki tahmin elde edilir:

En büyük firma regresyondan çıkarıldığında, SALES‟in katsayısı üç kattan daha


fazla artmakta ve t istatistiğinin değeri şimdi ikiden büyük hale gelmektedir. Daha
ufak firmalar örneklemini kullanarak AR-GE yoğunluğu ile firma büyüklüğü arasın-
da istatistiksel olarak anlamlı pozitif bir ilişki olduğu sonucuna varırız. Kâr marjini
anlamsız olmaya devam etmektedir ve katsayısı önemli ölçüde değişmemiştir.

Örnek 13.8

Aykırı değerler bazen tüm gözlemlerin kullanıldığı OLS regresyonundaki kalıntı-


ların büyüklüğüne göre tanımlanmaktadır. Bu iyi bir fikir değildir. Bir önceki örne-
ğimizde, tüm firmaları regresyonda kullandığımızda, satışı 4600 milyon YTL‟linin
biraz altında olan firma en büyük kalıntıya (yaklaşık olarak 6.37) sahip olmaktadır.
En büyük firma için kalıntı -1.62 dir. En büyük kalıntılı gözlemi regresyondan çıkar-
dığımızda sonuç pek fazla değişmemektedir.
Bazı fonksiyonel kalıplar aykırı değerli gözlemlere daha az duyarlıdır. Daha önce
belirttiğimiz gibi, birçok iktisadi değişken için logaritmik dönüştürme veri aralığını
büyük ölçüde daraltmakta ve aynı zamanda değişik veri kümelerini açıklayabilen
fonksiyonel biçimler – örneğin sabit elastikiyetli modeller – vermektedir.

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:35


Diğer Belirginleştirme (Spesifikasyon) Hataları ve Veri Problemleri

Örnek 13.9: AR-GE Yoğunluğu (RDCHEM.WK1)


AR-GE harcamalarının (RD) firma büyüklüğüne paralel olarak artıp artmadığını aşa-
ğıdaki modelden başlayarak alternatif modellerle test edebiliriz.
RDi  SALESi 2 e1  3 PROFMARGi ui
Bu halde, diğer faktörler sabitken, SALES arttıkça RD harcamaları ancak ve ancak
2  1 olduğunda artacaktır. Bu eşitliğin logaritmasını aldığımızda

log( RD)i  1  2 log(SALES )i  3 PROFMARGi  ui


elde edilir. 32 firmayı kullandığımızda regresyon tahmini şöyledir:

Öte yandan en büyük firma düşürüldüğünde

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:36


Ekonometrik Analiz

tahmini elde edilir. Pratik olarak elde edilen sonuçlar birbirinin aynıdır. Her iki halde
de H 0 : 2  1 hipotezi H1 :  2  1 alternatif hipotezi karşısında ret edilememektedir.

Örnek 13.9

Aykırı Değer için Kukla DeğiĢken Kullanımı


Aykırı bir değeri dışarıda bırakmanın bir başka yolu o gözlemi modelde bir kukla
değişken ile temsil etmektir. Bu durumda kukla değişken regresyon modelindeki
herhangi bir başka değişken gibi kullanılmaktadır. Örnek 13.8‟deki model bu halde
şu şekli alacaktır:
RDINTENSi  1  2 SALESi  3 PROFMARGi  4 DUMMY  ui
Bu halde DUMMY değişkeni tek aykırı değerli gözlem için 1 ve diğer gözlemler için
0 değerini alır. Bu halde, söz konusu gözlem için kalıntı sıfır olmaya zorlanarak, ger-
çekte gözlem örneklemden dışarı atılmaktadır. Kukla değişken için tahmin edilen
katsayı gerçekte söz konusu kukla değişkenin modele katılmaması durumunda kukla
ile temsil edilen gözlemin kalıntı değerine eşit olacaktır.

Örnek 13.10: AR-GE Yoğunluğu ve Firma Büyüklüğü Aykırı


Değerin Kukla DeğiĢkenle Temsili (RDCHEM.WK1)
Satışların yüzdesi olarak ölçülen AR-GE harcamalarının (RDINTENS), milyon YTL
olarak ifade edilen satışlar (SALES) ve satışların yüzdesi olarak ifade edilen kâr
(PROFMARG) ile ilişkili olduğunu farz edelim:

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:37


Diğer Belirginleştirme (Spesifikasyon) Hataları ve Veri Problemleri

RDINTENSi  1  2 SALESi  3 PROFMARGi  4 DUMMYi  ui


DUMMY aykırı değer içeren gözlem için 1 diğer gözlemler için 0 değerini almakta-
dır. RDCHEM.WK1 içindeki kimyasal madde üreten 32 firma verileri kullanılarak
model aşağıdaki gibi tahmin edilmektedir:

Açıkça görüldüğü gibi 32.ci gözlemin model dışında bırakıldığı sonuçlarla yukarıda-
kiler tamamen birbirinin aynıdır.

Örnek 13.8

Bölüm 13, 21.12.2011  ErtaĢ&ErtaĢ, Uludağ Üniversitesi Sayfa:38

You might also like