You are on page 1of 17

BEST SUBSET REGRESSION

KELOMPOK 4:
REZKY RAMADHAN
DANANG ADI PRATAMA
DEVI APRILIANI
FINA YULISTYANINGSIH
ZULFATUL MUKARROMAH
IBNU GINANJAR SUSILO
Analisis
Regresi

Analisis
Analisi Regresi Analisi
Regresi
Sederhana Korelasi
Berganda

Model terbaik

Best Subset
Stepswise
Regresion
Analisis regresi adalah salah satu analisis yang paling populer dan
luas pemakaiannya. Analisis regresi dipakai secara luas untuk
melakukan prediksi dan ramalan, dengan penggunaan yang
saling melengkapi dengan bidang pembelajaran mesin. Analisis ini
juga digunakan untuk memahami variabel bebas mana saja yang
berhubungan dengan variabel terikat, dan untuk mengetahui
bentuk-bentuk hubungan tersebut.

ANALISI REGRESI
Analisis regresi linier berganda adalah hubungan secara linear antara dua atau
lebih variabel independen (X1, X2,….Xn) dengan variabel dependen (Y). Analisis ini
untuk mengetahui arah hubungan antara variabel independen dengan variabel
dependen apakah masing-masing variabel independen berhubungan positif atau
negatif dan untuk memprediksi nilai dari variabel dependen apabila nilai variabel
independen mengalami kenaikan atau penurunan. Data yang digunakan biasanya
berskala interval atau rasio.
Persamaan regresi linear berganda sebagai berikut:
Y’ = a + b1X1+ b2X2+…..+ bnXn
Keterangan:
Y’ = Variabel dependen (nilai yang diprediksikan)
X1 dan X2 = Variabel independen
a = Konstanta (nilai Y’ apabila X1, X2…..Xn = 0)
B = Koefisien regresi (nilai peningkatan ataupun penurunan)

ANALISI REGRESI BERGANDA


Model regresi terbaik adalah model yang dapat menjelaskan perilaku
peubah tak bebas dengan sebaik-baiknya dengan memilih peubah-
peubah bebas dari sekian banyak peubah bebas yang tersedia dalam
data. Untuk menentukan peubah bebas mana yang akan dimasukkan ke
dalam model regresi, menurut Draper[1], ada dua kriteria yang saling
bertentangan yaitu
1. Agar persamaannya bermanfaat untuk peramalan, biasanya ingin
dimasukkan sebanyak mungkin peubah sehingga diperoleh nilai ramalan
yang andal
2. Karena untuk memperoleh informasi dari banyak peubah serta
pemantauannya seringkaali diperlukan biaya yang tinggi, maka diinginkan
persaman regresi yang mencakup sesedikit mungkin peubah. Kompromi
diantara kedua kriteria itulah yang disebut pemilihan model regresi terbaik.

METODE PEMILIHAN MODEL TERBAIK


Untuk pemilihan model regresi terbaik ada beberapa metode yang
biasa digunakan. Dua diantaranya Stepwise dan All Possible
Regression(Best Subset Regression). Stepwise dan Best Subset
Regression memulai pemilihan dengan model paling sederhana
yaitu model dengan satu peubah.

METODE PEMILIHAN MODEL TERBAIK


Regresi himpunan bagian terbaik (best subset regression)
merupakan suatu metode analisi regresi dengan cara
meregresikan satu peubah terikat (Y) pada semua
kemungkinan kombinasi subset peubah-peubah bebasnya
(X), kemudian dari kombinasi-kombinasi tersebut akan dipilih
subset yang terbaik. Pada setiap regresi subset terbaik
ditampilkan statistik, yaitu : R-sq, R-sq adj, S dan C-p

PENGERTIAN BEST SUBSET


Tiga kriteria dapat digunakan untuk menentukan himpunan bagian terbaik yaitu:
1). Nilai R2 maksimumNilai R2 terkoreksi maksimum.
memiliki nilai R-sq dan R-sq adj. yang paling besar.
2). memiliki nilai S yang paling kecil,
3). Statistik Cp Mallows.
memiliki nilai C-p kurang dari atau sama dengan p + 1,

KRITERIA BEST SUBSET


Kriteria pemilihan model terbaik pada best subset yang pertama
adalah R-Sq(koefisien determinasi). Koefisien determinasi adalah
ukuran peubah terikat yang dapat dijelaskan secara bersama-
sama oleh peubah bebas yang ada didalam model.
Mempertimbangkan set variabel potensial penting, x1 x2, x3,. . . ,
Xk. Nilai koefisien determinasi:

R2 = 1 – SSE/SS(Total)
Keterangan:
1. SSE :jumlah kuadrat galat
2. SS(Total) :jumlah kuadrat total

R-SQ
Lanjutan...
Nilainya akan bertambah jika variabel independen ditambahkan ke model.
Oleh karena itu, model yang mencakup semua k variabel independen

Akan menghasilkan R-Sq terbesar. Tujuan dari kriteria R-Sq untuk menemukan
sebuah model yang mengandung subset dari variabel independen k sehingga
penambahan lebih banyak variabel ke model hanya akan menghasilkan
peningkatan kecil di R-Sq. Dalam prakteknya, model terbaik yang ditemukan
menggunakan kriteria R-Sq jarang menjadi model dengan kasus R-Sq terbesar.

R-SQ
Satu kelemahan menggunakan kriteria R-sq, adalah bahwa nilai R-
sq tidak memperhitungkan jumlah parameter β dalam model. Jika
cukup menambahkan variabel ke model sehingga ukuran sampel
n sama dengan jumlah total β dalam Model, Anda akan memaksa
R-Sq untuk sama 1. Atau, kita dapat menggunakan penyesuaian
dari R2

R-SQ(ADJ)
Lanjutan...
Ini mudah untuk menunjukkan bahwa R2 adalah dengan MSE sebagai
berikut:

Keterangan:
MSE: Mean Square error
Perhatikan bahwa R-Sq(adj) meningkat hanya jika MSE menurun [saat SS
(Total) tetap konstan untuk semua model]. Dengan demikian, prosedur
setara untuk mencari model dengan minimum, atau dekat minimum, MSE.
 Kriteria ketiga dalam pemilihan model terbaik adalah cp mallows
atau bisa disebut dengan total mean square error (TMSE),
dengan model regresinya adalah :
Dalam pembahasan kali ini kita menghitung statistik Cp Mallows.
Kriteria Cp dalam pemilihan model terbaik adalah sebagai berikut :
 Nilai Cp yaitu total mean square error (TMSE)
 Nilai Cp dekat p+1, menunjukkan bahwa dalam model regresi
bagian terdapat sedikit bias atau bahkan tidak ada bias.
Dengan demikian, kriteria Cp Mallows berfokus pada
meminimalkan total mean square error (TMSE). Jika kita memilih
model nilai Cp Mallows terkecil, maka bias tidak besar, dan jika
ingin memilih model nilai Cp Mallows yang sedikit lebih besar dari
minimum, maka memiliki sedikit atau tidak bias.

You might also like