Professional Documents
Culture Documents
5.1 Pendahuluan
Dalam pembicaraan ini akan dibahas penterapan beberapa prosedur statistika tertentu
untuk menentukan variabel yang akan dimasukkan ke dalam regresi untuk mendapatkan
persamaan regresi penduga yang terbaik artinya suatu persamaan regresi penduga yang
mempunyai persamaan yang paling fit. Misalkan ingin menentukan pendugaan suatu
persamaan regresi linier dengan variabel tak bebas Y tertentu atau Y terhadap variabel-
variabel bebas Xi atau variabel peramal X1, X2, . . . , Xp merupakan sekumpulan lengkap
variabel bebas X yang diperlukan dan mencakup sembarang fungsi, seperti linier, kuadrat,
hasil kali, logaritmik, fungsi kebalikan, dan fungsi perpangkatan, serta fungsi-fungsi lainnya.
Dalam kaitan penduga yang terbaik ada dua kriteria yang saling bertentangan seperti:
1). Agar persamaan bermanfaat bagi tujuan peramalan atau pendugaan, biasanya ingin
memasukkan sebanyak mungkin variabel bebas Xi sehingga diperoleh nilai ramalan
atau dugaan yang dapat diandalkan.
2). Karena untuk memperoleh informasi dari sebanyak mungkin variabel bebas Xi serta
pemonitornya seringkali diperlukan biaya yang cukup tinggi, maka diperlukan agar
persamaan regresi penduganya mencakup sesedikit mungkin variabel bebas Xi yang
dimasukkan dalam persamaan.
Kompromi antara kedua ketentuan 1) dan 2) di atas yang biasanya disebut pemilihan
persamaan regresi penduga yang terbaik, maka dalam mengambil keputusan untuk hal-hal
seperti tersebut tidak ada satu prosedur statistikapun yang dapat dipakai sebagai pedoman
2
untuk hal di atas. Kalau telah diketahui besarnya (Ragam Regresi Residual
sesungguhnya) maka untuk masalah pemilihan persamaan regresi penduga terbaik akan
jauh lebih mudah. Sayangnya, dalam kenyataan ini tidak pernah terjadi, sehingga penilaian
yang bersifat pribadi merupakan suatu hal yang tidak terelakkan dari metode-metode
analisis pemilihan regresi penduga yang terbaik.
Prosedur yang akan digunakan dalam pemilihan persamaan regresi terbaik adalah:
1). semua kemungkinan regresi yang dapat dibuat (all possible regression) dengan
2 2
menggunakan tiga kriteria yaitu: R , S , dan Cp Mallow;
2). regresi himpunan bagian terbaik (best subset regression) dengan menggunakan
2 2
standar R , R (terkoreksi), Cp Mallow; dan eliminasi langkah mundur;
3). regresi bertatar (stepwise regression);
3). regresi gulud (ridge regression);
4). regresi komponen utama (principal components regression);
5). regresi akar ciri (latent root regression); dan
6). regresi bertahap (stagewise regression).
Dalam pembicaraan selanjutnya, akan dijelaskan hanya beberapa prosedur saja yang
banyak digunakan. Akan tetapi, sering membingunkan, karena metode-metode yang
apabila diterapkan pada masalah yang sama tidak selalu menghasilkan jawaban yang
sama. Hal ini jelas membingungkan.
124
125
Apabila jumlah variabel bebas Xi sebanyak p = 10, maka dapat dibuat jumlah persamaan
10
penduga yang cukup besar yaitu sebanyak 2 = 1024 buah persamaan yang dapat dibuat;
suatu hal yang luar biasa dan tidak mungkin ditelaah secara teoritis.
Untuk memilih persamaan penduga yang terbaik, maka seharusnya setiap persamaan
regresi penduga dievaluasi menurut kriteria tertentu; dengan kriteria yang telah disebutkan
dimuka yaitu:
2
1). Nilai R yang dicapai.
2
2). Nilai S yaitu jumlah kuadrat sisa regresi.
3). Nilai Statistik Cp.
2 2
Nilai R , S , dan Cp Mallow yang akan dibahas kemudian.
Sesungguhnya ketiga kreteria di atas saling berkaitan. Penentuan persamaan mana yang
paling baik untuk dipilih, maka dilakukan evaluasi dari pola yang dianalisis. Sebagai contoh
data yang akan digunakan mempunyai empat variabel peramal X; berasal dari buku A. Hald
Statistical Theory with Engineering Applications, yang diterbitkan oleh Wiley, New York,
pada 1952. Masalah ini terutama dipilih karena mengilustrasikan beberapa kesulitan yang
biasanya terjadi dalam analisis regresi berganda. Data lengkapnya diberikan pada contoh
olahan di bawah ini.
Suatu contoh analisis regresi dengan empat variabel bebas Xi yang dilambangkan dengan
X1, X2, X3, dan X4, serta variabel responsnya adalah Y = X5. Koefisien regresi o selalu
4
disertakan dalam model. Jadi, seluruhnya terdapat 2 = 16 persamaan regresi yang akan
dilibatkan dalam analisis regresi semua kemungkinan regresi yang dapat dibuat seperti
pada Tabel 5.1 berikut ini.
2
1. Evaluasi dengan menggunakan Statistik R
2
Dalam penggunaan statistik R dapat diuraikan berdasarkan ketentuan keriteria adalah:
[A]. Pengelompokkan persamaan-persamaan regresi tersebut ke dalam lima kelompok:
(1) kelompok A yang terdiri atas satu persamaan regresi dengan hanya melibatkan nilai
tengah yaitu (E(Y) = o);
(2) kelompok B yang terdiri atas empat persamaan regresi dengan satu variabel peramal
Xi seperti persamaan (E(Y) = o + i Xi);
(3) kelompok C yang terdiri atas enam persamaan regresi dengan dua variabel peramal
Xi seperti persamaan (E(Y) = o + i Xi + j Xj;
126
127
Untuk contoh olahan di atas persamaan regresi yang menduduki posisi utama dalam setiap
kelompok dan terurut seperti pada Tabel 5.2 berikut.
Tabel 5.2 Variabel dalam Persamaan Regresi
2
Kelompok Variabel di dalam Persamaan Regresi (%) R
B = f (X4) 67,5%
C = f(X1, X2) dan 97,5%
= f(X1, X4) 97,2%
D = f(X1, X2, X4) 98,2%
E = f(X1, X2, X3, X4) 98,2%
Dari uraian di atas terlihat bahwa dalam kelompok C yang terdiri ats dua persamaan yang
2
mempunyai nilai R yang relatif sama. Kalau disimak lebih lanjut hasil tersebut maka akan
terlihat bahwa setelah dua variabel masuk ke dalam persamaan regresi penduga, maka
2
tambahan besarnya R sangat kecil. Pemeriksaan matriks korelasi data tersebut
memperlihatkan bahwa (X1 dan X3) serta (X2 dan X4) mempunyai korelasi yang tinggi
yaitu r13 = - 0,8241 dan r24 = - 0,9730 seperti Tabel 5.3 berikut di bawah ini.
Tabel 5.3 Matriks Koefisien Korelasi
X1 X2 X3 X4 X5
X1 1,0000
X2 ,2285 1,0000
X3 -,8241 -,1392 1,0000
X4 -,2454 -,9730 ,0295 1,0000
X5 .7307 .,8163 -,5357 -,6213 1,0000
128
Misalnya 17,57 adalah Kuadrat Tengah Sisa yang diperoleh dari model yang mengandung X3 dan X5.
Bila jumlah variabel bebas Xi yang potensial dalam model cukup besar, misalnya p lebih
besar dari sepuluh, dan jika banyaknya sampel pengamatan jauh lebih besar dari p,
2
misalnya 5p atau l0p, maka sebaran S (p) seringkali sangat informatif. Pendugaan
persamaan regresi yang melibatkan lebih banyak variabel peramal Xi daripada yang
dibutuhkan untuk memperoleh persamaan yang memuaskan disebut overfitting. Semakin
banyak variabel peramal Xi ditambahkan ke dalam persamaan yang telah overfitted,
Kuadrat Tengah Sisanya akan cenderung stabil dan mendekati nilai Jumlah Kuadrat Sisa
2
Regresi yang sebenarnya, asalkan semua variabel yang penting telah disertakan dalam
model dan jumlah pengamatan jauh lebih besar daripada banyaknya variabel peramal Xi
yang ada dalam persamaan regresi penduga.
Sebaliknya, untuk jumlah sampel yang tidak begitu banyak tidak boleh terlalu berharap
bahwa persyaratan yang dikemukakan di atas dapat diterapkan secara efektif. Namun
2
dapat dipakai petunjuk kasar bahwa sebaran rata-rara S (p) memperlihatkan gambaran
yang relatif stabil, apabila jumlah variabel relatif banyak.
3. Evaluasi dengan menggunakan Statistika Cp Mallow
Sebuah nilai statistika lain yang dapat menjelaskan pemilihan persamaan regresi penduga
yang terbaik di tahun-tahun belakangan ini adalah Statistika Cp, yang pada awalnya
dikemukakan oleh C.L. Mallows. Staristika ini mempunyai bentuk:
2
Cp = ]K Sk/S - (n - 2k)
129
130
131
Keterangan:
R-Sq = R2 = koefisien determinasi
R-Sq (adj) = R 2 = koefisien determinasi terkoreksi
Eliminasi langkah mundur mulai dengan regresi terbesar dengan menggunakan semua
variabel bebas Xi, dan secara bertahap mengurangi banyaknya variabel di dalam
persamaan sampai suatu keputusan dicapai untuk menggunakan persamaan yang
diperoleh dengan jumlah variabel tertentu. Metode eliminasi langkah mundur lebih
ekonomis dibandingkan dengan metode semua kemungkinan regresi yang ada, dalam
pengertian bahwa metode ini mencoha memeriksa hanya regresi terbaik yang
mengandung sej'umlah tertentu variabel bebas Xi.
Langkah-langkah dalam prosedur ini adalah sebagai berikut:
1). Menghitung persamaan regresi yang mengandung semua variabel bebas Xi.
2). Menghitung nilai-F parsial untuk setiap variabel peramal, seolah-olah merupakan
variabel terakhir yang dimasukkan ke dalam persamaan regresi.
3). Membandingkan nilai-F parsial terendah, misalnya FL dengan nilai-Fo bertaraf nyata
() tertentu dari tabel-Fo, misalnya F( = 5%).
Jika FL F0, maka hilangkan atau buang variabel XL, yang menghasilkan nilai FL tersebut,
dari persamaan regresi dan kemudian hitung kembali persamaan regresi tanpa
menyertakan variabel XL tersebut; seperti ke langkah 2) di atas.
132
No Source DF SS MS F P Variabel
1 Regression 3 2667,65 889,22 166,34 0,000 X1,X2,X3
2 Regression 3 2667,79 889,26 166,83 0,000 X1,X2,X4
3 Regression 3 2641,95 880,65 107,38 0,000 X1,X3,X4
4 Regression 4 2667,90 666,97 111,48 0,000 X1,X2,X3,X4
JK Total = 2715,76; p = pF; F = F Hitung; SS = JK Regresi; DF = DB
Ternyata dari Tabel 5.6 di atas dapat diketahui bahwa tambahan JK Regresi yang
disebabkan oleh variabel X3 adalah paling rendah yaitu sebesar 2667,90 2667,79 = 0,11
(lihat pada baris dua dari Tabel 5.6 di atas), sehingga sumbangan X3 dalam regresi
berganda = F(X1,X2,X3,X4) adalah paling rendah, dibandingkan dengan variabel lainnya.
Tabel 5.7 Nilai F-hitung Secara Individual Untuk Setiap Variabel terhadap Y
No. Persamaan F-Hitung Variabel
1 = X5 = 81,5 + 1,870 X1 12,6 X1
2 = X5 = 57,4 + 0,789 X2 21,96 X2
3 = X5 = 110,0 1,260 X3 4,40 X3
4 = X5 = 118,0 0,738 X4 22,80 X4
Nilai F-tabel dengan = 5% ( F0,05;1;11) = 4,84
Ternyata dari Tabel 5.7 di atas dapat diketahui bahwa pengaruh setiap variabel bebas Xi
secara individual terhadap variabel Y. Ternyata bahwa nilai F-hitung secara individual
untuk variabel X3 = 4,40 yang lebih kecil dari nilai F-tabel dengan = 5%.
Nilai F(0,05; 1; 11) = 4,84; maka X3 berpeluang untuk dikeluarkan dari variabel yang lain. Hal
ini dapat dibuktikan dari nilai F-hitung parial untuk X3 seperti Tabel 5.8 di bawah ini.
133
Nilai F-hitung parsial X3 = 1,637 yang lebih kecil dari F-tabel (F5%; 1; 8) = 5,32, sehingga X3
tepat dieliminir dari fungsi Y = f(X1, X2, X3, dan X4).
Selanjutnya, hitung persamaan regresi untuk Y = f(X1, X2, dan X4), yang hasilnya seperti
= X5 = 71.6 + 1.45 X1 + 0.416 X2 - 0.237 X5. Nilai-F hitung untuk keseluruhan
persamaan ini adalah F-hitung = 166,83; yang secara statistik nyata karena melebihi F-
tabel (5%; 3; 9) = 3,85. Setelah memeriksa persamaan ini untuk kemungkinan dieliminasi,
perlu melihat bahwa X4 mempunyai nilai-F parsial terkecil sehingga menjadi calon untuk
dikeluarkan. Prosedur untuk eliminasi ini serupa dengan prosedur eliminasi sebelumnya
namun dengan satu perubahan; yaitu, nilai-F tabelnya adalah F(0,05; l; 9) = 5,12. Karena
variabel X4 mempunyai nilai-F parsial 1.86 (yang lebih kecil dari 5,12), sehingga X4 dapat
dingeluarkan dari model.
Maka sekarang perlu dihitung persamaan untuk = f(X1,X2), hasil perhitungan regresinya
menjadi: = X5 = 52,6 + 1,47 X1 + 0,662 X2.
Ternyata dari perhitungan tersebut menghasilkan persamaan regresi yang
secara keseluruhan yang nyata dengan nilai-F hitung sebesar 229.50 yang melebihi
nilai F-tabel (2; 10; 0.05) = 4,10. Kedua variabel X1 dan X2 secara statistik nyata,
karena nilai-F parsial masing-masingnya lebih besar dari 4,10. Prosedur seleksi eliminasi
langkah mundur berakhir dan menghasilkan persamaan: = 52,6 + 1,47X1 + 0,66X2.
Prosedur ini memuaskan, khususnya bagi yang ingin melihat semua variabel dalam
persamaan sehingga tidak kehilangan sesuatu. Prosedur ini jauh lebih menghemat waktu
dan tenaga dibandingkan metode semua kemungkinan regresi yang dapat dibuat.
Harus disadari bahwa sekali suatu variabel dikeluarkan dalam prosedur ini, maka ia hilang
untuk selamanya. Jadi, semua model alternatif yang menggunakan variabel yang telah
dikeluarkan tidak tersedia untuk dipertimbangkan kembali.
Hal-hal yang dipertimbangkan dan relevan dalam prosedur di sini adalah.
1). Beberapa program yang didasarkan pada prosedur ini menggunakan uji-t terhadap
akar nilai-F parsial, bukan uji-F seperti di atas. Ini didasarkan pada kenyataan bahwa
jika niai-F sama dengan F(; 1; db) adalah suatu nilai F dengan derajat bebas, 1 dan
db, maka nilai-t sama menjadi t(; db) adalah suatu nilai-t dengan derajat bebas
sama dengan db.
2). Sebagian program menggunakan istilah F to remove (F untuk mengeluarkan variabel
bebas) dalam keluarannya. Sesungguhnya ini sama dengan uji-F parsial.
134
135
136
137
138