Professional Documents
Culture Documents
Best Subset Regression
Best Subset Regression
KELOMPOK 4:
REZKY RAMADHAN
DANANG ADI PRATAMA
DEVI APRILIANI
FINA YULISTYANINGSIH
ZULFATUL MUKARROMAH
IBNU GINANJAR SUSILO
Analisis
Regresi
Analisis
Analisi Regresi Analisi
Regresi
Sederhana Korelasi
Berganda
Model terbaik
Best Subset
Stepswise
Regresion
Analisis regresi adalah salah satu analisis yang paling populer dan
luas pemakaiannya. Analisis regresi dipakai secara luas untuk
melakukan prediksi dan ramalan, dengan penggunaan yang
saling melengkapi dengan bidang pembelajaran mesin. Analisis ini
juga digunakan untuk memahami variabel bebas mana saja yang
berhubungan dengan variabel terikat, dan untuk mengetahui
bentuk-bentuk hubungan tersebut.
ANALISI REGRESI
Analisis regresi linier berganda adalah hubungan secara linear antara dua atau
lebih variabel independen (X1, X2,….Xn) dengan variabel dependen (Y). Analisis ini
untuk mengetahui arah hubungan antara variabel independen dengan variabel
dependen apakah masing-masing variabel independen berhubungan positif atau
negatif dan untuk memprediksi nilai dari variabel dependen apabila nilai variabel
independen mengalami kenaikan atau penurunan. Data yang digunakan biasanya
berskala interval atau rasio.
Persamaan regresi linear berganda sebagai berikut:
Y’ = a + b1X1+ b2X2+…..+ bnXn
Keterangan:
Y’ = Variabel dependen (nilai yang diprediksikan)
X1 dan X2 = Variabel independen
a = Konstanta (nilai Y’ apabila X1, X2…..Xn = 0)
B = Koefisien regresi (nilai peningkatan ataupun penurunan)
R2 = 1 – SSE/SS(Total)
Keterangan:
1. SSE :jumlah kuadrat galat
2. SS(Total) :jumlah kuadrat total
R-SQ
Lanjutan...
Nilainya akan bertambah jika variabel independen ditambahkan ke model.
Oleh karena itu, model yang mencakup semua k variabel independen
Akan menghasilkan R-Sq terbesar. Tujuan dari kriteria R-Sq untuk menemukan
sebuah model yang mengandung subset dari variabel independen k sehingga
penambahan lebih banyak variabel ke model hanya akan menghasilkan
peningkatan kecil di R-Sq. Dalam prakteknya, model terbaik yang ditemukan
menggunakan kriteria R-Sq jarang menjadi model dengan kasus R-Sq terbesar.
R-SQ
Satu kelemahan menggunakan kriteria R-sq, adalah bahwa nilai R-
sq tidak memperhitungkan jumlah parameter β dalam model. Jika
cukup menambahkan variabel ke model sehingga ukuran sampel
n sama dengan jumlah total β dalam Model, Anda akan memaksa
R-Sq untuk sama 1. Atau, kita dapat menggunakan penyesuaian
dari R2
R-SQ(ADJ)
Lanjutan...
Ini mudah untuk menunjukkan bahwa R2 adalah dengan MSE sebagai
berikut:
Keterangan:
MSE: Mean Square error
Perhatikan bahwa R-Sq(adj) meningkat hanya jika MSE menurun [saat SS
(Total) tetap konstan untuk semua model]. Dengan demikian, prosedur
setara untuk mencari model dengan minimum, atau dekat minimum, MSE.
Kriteria ketiga dalam pemilihan model terbaik adalah cp mallows
atau bisa disebut dengan total mean square error (TMSE),
dengan model regresinya adalah :
Dalam pembahasan kali ini kita menghitung statistik Cp Mallows.
Kriteria Cp dalam pemilihan model terbaik adalah sebagai berikut :
Nilai Cp yaitu total mean square error (TMSE)
Nilai Cp dekat p+1, menunjukkan bahwa dalam model regresi
bagian terdapat sedikit bias atau bahkan tidak ada bias.
Dengan demikian, kriteria Cp Mallows berfokus pada
meminimalkan total mean square error (TMSE). Jika kita memilih
model nilai Cp Mallows terkecil, maka bias tidak besar, dan jika
ingin memilih model nilai Cp Mallows yang sedikit lebih besar dari
minimum, maka memiliki sedikit atau tidak bias.