You are on page 1of 10

İSTATİSTİĞE GİRİŞ – II ve

İSTATİSTİK – II DERSLERİ

4. ÜNİTE
KORELASYON TEORİSİ

Prof. Dr. Erkan OKTAY

ERZURUM, 2020
4. BÖLÜM
KORELASYON TEORİSİ

I- KISA TEORİK BİLGİLER


İki veya daha fazla değişken arasındaki ilişkinin fonksiyonel olarak ifade
edilmesi bazen yeterli olmayabilir. Bu değişkenler arasındaki ilişkinin derecesini
de bilmek isteyebiliriz. Korelasyon katsayısı, regresyon modeli ile bulunan tah-
mini Y değerlerinin, gerçek değerlere uygunluğunu ölçmede kullanılır. Korelas-
yon katsayısı, −1 ile 1 arasında değişir. Korelasyon katsayısının −1 çıkması iki
değişken arasında ters yönlü tam bir ilişkinin olduğunu ifade eder. Katsayının 1
çıkması ise doğru yönlü tam bir ilişkinin olduğunu ifade eder. Katsayının –1’e
doğru yaklaşması, değişkenler arasında ters yönlü kuvvetli bir ilişkiyi gösterir-
ken; 1’e yaklaşması, değişkenler arasında doğru yönlü kuvvetli bir ilişkiyi ifade
eder.
Sınırlı sayıda veri üzerinden hesaplanan korelasyon katsayısı bir istatis-
tiktir ve r ile gösterilir. Bu istatistiğin anakütle parametresi olarak karşılığı ρ’dur.
Korelasyon katsayısı için genel formül,

Σ(Ŷ − Y ) 2
r=±
Σ( Y − Y ) 2
şeklindedir. Korelasyon katsayısının işareti, regresyon doğru veya eğrisine ait
eğim katsayısının işaretidir. Kök içerisindeki kesrin paydası genel kareler topla-
mıdır. Kesrin payı ise sebebi bilinen değişim olarak adlandırılır. Yani, genel ka-
reler toplamı içerisinde regresyonla belirlenebilen kısmı ifade eder. Buna göre,
kök içerisindeki kısım, toplam değişimin yüzde kaçının, regresyonla belirlenebi-
leceğini gösterir. Bu nispete, determinasyon katsayısı adı verilir. Bu nispetin,
meselâ %90 çıkması halinde toplam değişimin %90’ı regresyonla, yani bağımsız
değişken veya değişkenler tarafından belirlenmiştir. %10’u ise, ya tesadüfen
meydana gelmiş veya dikkate alınmayan başka değişkenlerce belirlenmiştir. De-
terminasyon katsayısı, r2 ile gösterilir. Korelasyon katsayısının karesi determi-
nasyon katsayısını verir. Yukarıdaki eşitlikte her iki tarafın karesi alındığında
determinasyon katsayısı,
DÖRDÜNCÜ BÖLÜM: KORELASYON TEORİSİ 104

Σ(Ŷ − Y ) 2
r2 =
Σ( Y − Y ) 2
olarak ifade edilir.
Regresyondan kaynaklanan değişim, toplam değişimden hata sonucu elde
edilen değişimin çıkarılması ile bulunur. Buna göre yukarıdaki formül,
Σ(Y − Y ) 2 − Σ(Y − Ŷ) 2 Σ(Y − Ŷ) 2
r2 = = 1 −
Σ( Y − Y ) 2 Σ( Y − Y ) 2
şeklinde yeniden yazılabilir.
Noktalar diyagramındaki noktalar regresyon doğru veya eğrisinin üzerin-
de veya etrafında yoğunlaştıkça korelasyon ve determinasyon katsayısı mutlak
değerce yüksek çıkar. Diyagramdaki noktalar regresyon doğru veya eğrisinden
uzakta yer aldıkça korelasyon ve determinasyon katsayısı da mutlak değerce kü-
çülür.

Y Y Y

X X X

Yukarıdaki grafiklerin birincisinde X ve Y değişkenlerinin belirlediği


noktalar, değişkenler arasında pozitif ve yüksek bir korelasyonun olabileceğine
işaret eder. İkinci grafik, X ve Y değişkenleri arasında mutlak değerce çok kü-
çük veya sıfıra yakın bir korelasyon katsayısının bulunacağını gösterir. Üçüncü
grafik ise, X ve Y değişkeni arasında ters yönlü kuvvetli bir ilişkiyi gösterir ve
bu durumda korelasyon katsayısı –1’e yakın çıkacaktır.
Korelasyon katsayısı tesadüfi faktörlerin etkisiyle de büyük çıkmış olabi-
lir. Bu sebeple korelasyon katsayısının önemli olup olmadığını test etmek gere-
kir. Genellikle az sayıda veri üzerinden korelasyon katsayısı hesaplanacağı için
Student t testi ile korelasyon katsayısının anlamlı olup olmadığı test edilir. Ör-
nek hacminin 30’dan büyük olması durumunda Z testi kullanılır.
KISA TEORİK BİLGİLER 105

A) LİNEER KORELASYON KATSAYISI ve ÖNEM TESTİ


Korelasyon problemlerinde, genellikle, X ile Y arasında lineer bir ilgi ol-
duğu farz edilir. Genel korelasyon katsayısı formülünden hareketle lineer kore-
lasyon katsayısı,
Σxy
r=
(Σx 2 )(Σy 2 )

formülü ile tespit edilir. Bu formülde,


(ΣX )(ΣY )
Σxy = ΣXY −
n
( ΣX ) 2
Σx 2 = ΣX 2 −
n
( ΣY ) 2
Σy 2 = ΣY 2 −
n
şeklinde elde edilir. Bütün bu değerler n katsayısı ile çarpılırsa sonuç değişmez
ve lineer korelasyon katsayısı,
nΣXY − (ΣX)(ΣY )
r=
[nΣX − (ΣX ) 2 ][nΣY 2 − (ΣY ) 2 ]
2

formülü ile kolayca hesaplanabilir.


Hesaplanan korelasyon katsayısının gerçekten önemli olup olmadığını an-
lamak için belirli bir önem seviyesinde test etmek gerekir. Test istatistiği, kore-
lasyon katsayısının işaretine bağlı olarak işaret alacağı için, H0 hipotezinin red-
dedilebileceği iki kritik bölge tarif edilmelidir. Bu yüzden lineer korelasyon kat-
sayısının önemli olup olmadığını test ederken test hipotezleri,
H0: ρ = 0
H1: ρ ≠ 0
şeklinde kurulur.
Tablo 3, v = n – 2 serbestlik derecesi ve α/2 değerlerine göre ±t kritik de-
ğerleri tespit etmeyi sağlar.
Test istatistiği,
r
th =
sr
DÖRDÜNCÜ BÖLÜM: KORELASYON TEORİSİ 106

şeklinde hesaplanır. sr, korelasyon katsayısının standart hatasıdır ve

1− r2
sr =
n−2
formülüyle bulunur.
Test istatistiği, mutlak olarak kritik değerden büyük çıktığında, X ile Y
değişkenleri arasında önemli bir ilişki olduğunu söyleyebiliriz. Bununla birlikte,
bu değişkenler arasında mantıki bir ilginin bulunması şarttır. Bazen hiç alakası
olmayan değişkenler arasında da yüksek bir korelasyon çıkabilmektedir. Bu tip
korelasyonlara sahte korelasyon denir.
Örnek büyüklüğü yükseldikçe, daha düşük yüzdelerin bile testte önemli
çıkması mümkün olabilmektedir. Meselâ, bir problemde 0.70’lik bir korelasyon,
test sonunda önemsiz çıkarken; diğer bir problemde, 0.45’lik korelasyonun
önemli çıktığını görebiliriz. Örneğin büyük olması halinde düşük korelasyonlar
önemli çıkabilmektedir.
Örnek: Bir süpermarket yöneticisi tesadüfi olarak seçilen bir saatlik süre-
lerde kasaya gelen müşteri sayısını ve ödedikleri toplam para miktarını aşağıdaki
gibi kaydetmiştir.

Müşteri Sayısı 25 20 50 35 40
Ödenen Para (10000-TL) 12.5 10.4 25.3 20.2 24.1

Müşteri sayısını bağımsız (X), kasalara ödenen para miktarını bağımlı de-
ğişken (Y) olarak kabul ederek, lineer korelasyon katsayısını,
nΣXY − (ΣX)(ΣY )
r=
[nΣX − (ΣX ) 2 ][nΣY 2 − (ΣY ) 2 ]
2

formülü ile kolayca hesaplayabiliriz. Buna göre aşağıdaki hesaplamaların yapıl-


ması gereklidir.
X Y XY X2 Y2
25 12.5 312.5 625 156.25
20 10.4 208.0 400 108.16
50 25.3 1265.0 2500 640.09
35 20.2 707.0 1225 408.04
40 24.1 964.0 1600 580.81
170 92.5 3456.5 6350 1893.35
Tabloda yapılan hesaplamalara göre, lineer korelasyon katsayısı,
KISA TEORİK BİLGİLER 107

5(3456.5) − 170(92.5)
r= ≅ 0.9669
[5(6350) − 170 2 ][5(1893.35) − (92.5) 2 ]

olarak hesaplanır.
Korelasyon katsayısının önemli olup olmadığını %5 önem seviyesinde test
ederken, test hipotezleri,
H0: ρ = 0
H1: ρ ≠ 0
şeklinde kurulur.
Tablo 3, v = n – 2 = 5 – 2 = 3 serbestlik derecesi ve α/2 = 0.05/2 = 0.025
önem seviyesine göre kritik değerlerin ±3.182 olduğunu göstermektedir.
Test istatistiği,
r 0.9669
th = = ≅ 6.5635
2
1− r 1 − (0.9669) 2
n−2 5−2
şeklinde hesaplanır.
Test istatistiği, kritik t değerinden büyük olduğu için %5 önem seviye-
sinde H0 hipotezi reddedilerek hesaplanan lineer korelasyon katsayısının önemli
olduğuna karar verilir.

B) PARABOLİK MODELİN DETERMİNASYON KATSAYISI


Parabolik regresyon eğrisi üzerindeki noktaların gerçek değerlerin belirle-
diği noktalara ne ölçüde uygun olduğunu anlamak için parabolik determinasyon
katsayısı hesaplanır. Bu katsayı, parabolik regresyon modelinin açıklayabildiği
değişimin, toplam değişime bölünmesi sonucu elde edilir. Parabolik determinas-
yon katsayısı,
bΣxy + cΣx 2 y
r2 =
Σy 2
formülü ile hesaplanır. Bu formüldeki, Σy2, Σxy ve Σx2y değerleri,
( ΣY ) 2
Σy 2 = ΣY 2 −
n
(ΣX)(ΣY)
Σxy = ΣXY −
n
DÖRDÜNCÜ BÖLÜM: KORELASYON TEORİSİ 108

(ΣX 2 )(ΣY)
Σx 2 y = ΣX 2 Y −
n
formülleri ile hesaplanır.
Örnek: Bir üretim prosesinde üretilen mamul miktarı (yıl başına 1000
adet) ve marjinal maliyet tutarları (mamul başına 100000-TL) aşağıdaki gibidir.

Mamul Sayısı 7 9 12 14 17
Marjinal Maliyet 6 7 10 15 25

Mamul sayısı ile marjinal maliyet arasındaki parabolik determinasyon kat-


sayısını hesaplayalım.
3. bölümde yapılan hesaplamalar sonucu, parabolik regresyon modeline
ait katsayılar, a = 18.044, b = −3.164 ve c = 0.21 olarak bulunmuştur. Determi-
nasyon katsayısının hesaplanabilmesi için gerekli olan toplamların elde edilişi
aşağıda gösterilmiştir.
X Y XY X2 X 2Y Y2
7 6 42 49 294 36
9 7 63 81 567 49
12 10 120 144 1440 100
14 15 210 196 2940 225
17 25 425 289 7225 625
59 63 860 759 12466 1035

Σy2, Σxy ve Σx2y değerleri,


( ΣY ) 2 63 2
Σy 2 = ΣY 2 − = 1035 − = 241.2
n 5
(ΣX)(ΣY) 59(63)
Σxy = ΣXY − = 860 − = 116.6
n 5
(ΣX 2 )(ΣY) 759(63)
Σx 2 y = ΣX 2 Y − = 12466 − = 2902.6
n 5
olarak hesaplanır. Bu değerler formülde yerine yazılırsa, parabolik determinas-
yon katsayısı,
bΣxy + cΣx 2 y − 3.164(116.6) + 0.21(2902.6)
r2 = = = 0.9976
Σy 2 241.2
olarak elde edilir.
KISA TEORİK BİLGİLER 109

C) ÇOK DEĞİŞKENLİ MODELDE İLİŞKİ KATSAYILARI


1- DETERMİNASYON KATSAYISI
İkiden fazla değişkenin birlikte değişmelerinin ölçüsüne katlı (çoklu) ko-
relasyon katsayısı denir. Bağlı değişkenin iki bağımsız değişken tarafından belir-
lendiği durumlarda regresyon denklemi, Y = a + b1X1 + b2X2 şeklinde yazılır. Bu
durumda iki bağımsız değişkenli regresyon modelinin determinasyon katsayısı,
b 1 Σx 1 y + b 2 Σx 2 y
r2 =
Σy 2
olur. Bu katsayının karekökü ise katlı korelasyon katsayısıdır. Formülde,
(ΣX 1 )(ΣY)
Σx 1 y = ΣX 1 Y −
n
(ΣX 2 )(ΣY)
Σx 2 y = ΣX 2 Y −
n
2
( ΣY )
Σy 2 = ΣY 2 −
n
şeklinde hesaplanır.
Y değişkeninin üç bağımsız değişkenle belirlenmesi halinde, regresyon-
dan kaynaklanan hata toplamı,
b1Σx1y + b2Σx2y + b3Σx3y
olacaktır. Bu değer determinasyon katsayısı formülündeki kesrin payıdır. Payda-
da ise toplam hata yer alır.
Örnek: Tesadüfi olarak seçilen beş işçiye kaç yıl okula devam ettikleri
(yıl), kaç yıllık iş tecrübesine sahip oldukları (yıl) ve ellerine geçen aylık gelirle-
ri (milyon TL) sorulduğunda alınan cevaplar aşağıda gösterilmiştir. Eğitim süre-
sini birinci bağımsız değişken (X1); iş tecrübesini ikinci bağımsız değişken (X2)
ve aylık geliri bağımlı değişken (Y) olarak kabul ederek, iki bağımsız değişkenli
regresyon modeline ait determinasyon katsayısını hesaplayalım.

Eğitim Süresi İş Tecrübesi Aylık Gelir


5 18 40
8 10 37
7 12 43
9 9 35
11 5 30
DÖRDÜNCÜ BÖLÜM: KORELASYON TEORİSİ 110

Ŷ = a + b1 X 1 + b 2 X 2 şeklindeki çoklu regresyon modelinde, a, b1 ve b2


sabitlerinin hesaplanabilmesi için aşağıdaki işlemlerin yapılması gerekir.

X1 X2 Y X1 Y X2Y X1 X 2 X 12 X 22 Y2
5 18 40 200 720 90 25 324 1600
8 10 37 296 370 80 64 100 1369
7 12 43 301 516 84 49 144 1849
9 9 35 315 315 81 81 81 1225
11 5 30 330 150 55 121 25 900
40 54 185 1442 2071 390 340 674 6943
Tablodaki hesaplamalardan yararlanarak iki bağımsız değişkenli regres-
yon modelindeki katsayılar, a = 124.385, b1 = −7.392 ve b2 = −2.615 bulunur.
( ΣY ) 2 185 2
Σy 2 = ΣY 2 − = 6943 − = 98
n 5
(ΣX 1 )(ΣY) 40(185)
Σx 1 y = ΣX 1 Y − = 1442 − = −38
n 5
(ΣX 2 )(ΣY) 54(185)
Σx 2 y = ΣX 2 Y − = 2071 − = 73
n 5
olarak belirlenir. Bu değerler kullanılarak iki bağımsız değişkenli regresyon mo-
deline ait determinasyon katsayısı,
b1Σx 1 y + b 2 Σx 2 y − 7.392(−38) + (−2.615)(73)
r2 = 2
= ≅ 0.9184
Σy 98
bulunur. Eğitim süresi ve iş tecrübesi, aylık geliri %91.84 oranında açıklayabil-
mektedir.

2- KISMİ KORELASYON KATSAYILARI


Y bağımlı değişkenini, X1 ve X2 bağımsız değişkenlerinin belirlemesi ha-
linde, değişkenleri ikişer ikişer eşleştirerek, aşağıdaki gibi, lineer korelasyon
katsayıları hesaplayabiliriz.
nΣX 1 Y − (ΣX 1 )(ΣY)
ryx1 =
[nΣX 12 − (ΣX 1 ) 2 ][nΣY 2 − (ΣY) 2 ]

nΣX 2 Y − (ΣX 2 )(ΣY)


ryx 2 =
[ nΣX 22 − (ΣX 2 ) 2 ][nΣY 2 − (ΣY) 2 ]
KISA TEORİK BİLGİLER 111

nΣX 1 X 2 − (ΣX 1 )(ΣX 2 )


rx 1 x 2 =
[nΣX 12 − (ΣX 1 ) 2 ][nΣX 22 − (ΣX 2 ) 2 ]
Bu durumda, X1 değişkeni sabit kabul edilerek X2 ve Y değişkenleri ara-
sındaki korelasyon,
ryx 2 − (ryx1 )(rx1x 2 )
ryx 2 .x1 =
2
(1 − ryx1
)(1 − rx21x 2 )
formülü ile ve X2 değişkeni sabit kabul edilerek X1 ve Y değişkenleri arasındaki
korelasyon,
ryx1 − (ryx 2 )(rx1x 2 )
ryx1 .x 2 =
2
(1 − ryx 2
)(1 − rx21x 2 )
formülüyle hesaplanabilir. Bu şekilde Y değişkeni üzerinde hangi bağımsız de-
ğişkenin daha etkili olduğu tespit edilir.
Örnek: Çoklu regresyon bahsinde verilen örneğe geri dönelim. Eğitim sü-
resini (X1) sabit tutarak, iş tecrübesi (X2) ile aylık gelir (Y) arasındaki korelas-
yonu tespit edebileceğimiz gibi; iş tecrübesini (X2) sabit tutarak, eğitim süresi
(X1) ile aylık gelir (Y) arasındaki korelasyonu da tespit edebiliriz. Değişkenleri
ikişerli olarak eşleştirdiğimizde,
5(1442) − 40(185)
ryx1 = = −0.8583 ,
[5(340) − 40 2 ][5(6943) − 185 2 ]
5(2071) − 54(185)
ryx 2 = = 0.7739 ,
[5(674) − 54 2 ][5(6943) − 185 2 ]
5(390) − 40(54)
rx 1 x 2 = = −0.9856
[5(340) − 40 2 ][5(674) − 54 2 ]
olarak bulunur. X1 değişkeni sabit kabul edilerek, X2 ve Y değişkenleri arasın-
daki korelasyon,
ryx2 − (ryx1 )(rx1x 2 ) 0.7739 − (−0.8583)(−0.9856)
ryx2 .x1 = = = −0.8297
2 2
(1 − ryx1 )(1 − rx1x 2 ) [1 − (−0.8583) 2 ][1 − (−0.9856) 2 ]
olarak hesaplanırken; X2 değişkeni sabit kabul edilerek, X1 ve Y değişkenleri
arasındaki korelasyon,
ryx1 − (ryx2 )(rx1x 2 ) − 0.8583 − (0.7739)(−0.9856)
ryx1 .x 2 = = = −0.8916
2 2
(1 − ryx2 )(1 − rx1x 2 ) [1 − (0.7739) 2 ][1 − (−0.9856) 2 ]
olarak bulunur.

You might also like