Comparison of Classification Results by Using Logistic Regression and Quadratic Discriminant Analysis in Classifying Programs at SMA Negeri 8 Samarinda Academic Year 2014/2015

Jurnal EKSPONENSIAL Volume 7, Nomor 2, Nopember 2016 ISSN 2085-7829
Perbandingan Hasil Klasifikasi Menggunakan Regresi logistik dan Analisis Diskriminan

Kuadratik Pada Kasus Pengklasifikasian Jurusan Di SMA Negeri 8 Samarinda Tahun
Ajaran 2014/2015
Comparison of Classification Results by Using Logistic Regression and Quadratic Discriminant

Analysis in Classifying Programs at SMA Negeri 8 Samarinda Academic Year 2014/2015
Cristine Uli Artha1, Yuki Novia N2, Ika Purnamasari3

1
Mahasiswa Program Studi Statistika FMIPA Universitas Mulawarman
2,3
Dosen Program Studi Statistika FMIPA Universitas Mulawarman
Email: cristinesiahaan@yahoo.co.id
Abstract
Logistic Regression Analysis and Discriminant Analysis represent the statistical method for the
classification of a number of object. In the case of classification especially if there's only two response
categories, logistic regression is used more precisely if the assumption of multivariate normality in data
cannot be fullfiled. The assumption of normality multivariate distribution and equality of variance
covariance matrices represent the important matter in discriminant analysis for getting of high accuracy of
classification. Discriminant analysis method that is used in inequality of variance covariance matrices is
called quadratic discriminant analysis. The purpose of this study was to determine the classification results
by using Logistic Regression and Quadratic Discriminant Analysis and compares the classification accuracy.
The data that is used in the study is the average raport of the first and second semester of the class X at SMA
Negeri 8 Samarinda academic year 2014/2015. Data consists of 190 students with two independent variables
and four dependent variables. Based on research results, obtained results for the value of class accuracy is
Logistic Regression 83.16% and Quadratic Discriminant Analysis 84,21%.
Keywords:Quadratic discriminant, classification, classification accuracy, logistic regression.
Pendahuluan setidaknya pada saat ada variabel prediktor

Masalah klasifikasi sering kali ditemui di berskala kuantitatif maupun kualitatif ataupun
kehidupan sehari-hari,terkait dengan data sosial, keduanya.Pada analisis diskriminan, memiliki
data industri manufaktur, data pemasaran maupun kelebihan yaitu memberikan perhitungan yang
data akademik. Mendeskripsikan danmemaparkan lebih efisien (Sharma, 1996) sedangkan
keunikan dari suatu pengelompokkan tersebut kelemahan dari analisis diskriminan adalah
merupakan hal yang menarik dan dapat asumsi harus terpenuhi, dimana data harus
memberikan ide-ide tertentu. Namun, jika memenuhi distribusi normal multivariat dan
pengelompokkan menyangkut pengambilan tidak menghasilkan matriks kovarians yang sama untuk
benar atau ada observasi-observasi tertentu yang setiap populasi (Johnson dan Wichern, 2002).
salah dalam proses pengelompokkan, maka Dalam hal klasifikasi khususnya jika hanya ada
akibatnya akan cukup fatal. Oleh karenanya, perlu dua kategori variabel respon, regresi logistik lebih
dilakukan review pada proses klasifikasi. tepat dipergunakan bila asumsi distribusi normal
Dalam ilmu statistika dikenal beberapa multivariat dalam data tidak terpenuhi (Hair dkk,
metode klasifikasi yang umumnya digunakan, 2010).
diantaranya regresi logistik dan analisis Menurut Rachmatin dan Sawitri (2010),
diskriminan.Pada regresi logistik akan diperoleh terdapat beberapa kasus analisis diskriminan yang
suatu model logistik yang digunakan untuk diketahui, yaitu analisis diskriminan linier,
menjelaskan hubungan antara variabel prediktor analisis diskriminan kuadratik, analisis
dan respon (yang bersifat dikotomus atau ada dua diskriminan Fisher, dan analisis diskriminan
kategori/kelompok), serta untuk nonparametrik. Setiap kasus analisis diskriminan
mengelompokkan obyek ke dalam salah satu dari memiliki penggunaan yang berbeda dalam
dua kategori respon. Regresi logistik merupakan menganalisis data. Analisis diskriminan linier
salah satu alat analisis yang merupakan bentuk digunakan jika data berdistribusi normal
khusus dari analisis regresi, yaitu variabel multivariat dan setiap kelompoknya memiliki
responnya merupakan data skala nominal atau matriks varians kovarians yang sama. Analisis
ordinal sedangkan variabel prediktornya dapat diskriminan kuadratik digunakan jika data
berbentuk nominal, ordinal, ataupun rasio berdistribusi normal multivariat tetapi matriks
(Hosmer dan Lemeshow, 2000). varians kovariansnya tidak sama dalam setiap
Kurt, Ture dan Kurum (2006) dalam kelompok. Analisis diskriminan Fisher digunakan
penelitiannya menyatakan bahwa regresi logistik jika data tidak berdistribusi normal multivariat
merupakan metode klasifikasi yang cukup baik, tetapi matriks varians kovariansnya sama dalam
Program Studi Statistika FMIPA Universitas Mulawarman 179

Jurnal EKSPONENSIAL Volume 7, Nomor 2, Nopember ISSN 2085-7829
setiap kelompok. Sedangkan analisis diskriminan yang diperoleh “gagal” maka regresi logistik
nonparametrik digunakan jika data tidak tersebut menggunakan regresi logistik biner
berdistribusi normal multivariat dan matriks (Fractal, 2003).
varians kovariansnya tidak sama setiap Metode regresi logistik memiliki teknik dan
kelompoknya. prosedur yang tidak jauh berbeda dengan metode
Selama ini penjurusan siswa SMA Negeri 8 regresi linear. Jika prosedur linear dalam
Samarinda berdasarkan nilai akademik yang mengestimasi nilai parameter sering
diperoleh pada semester 1 dan semester 2 kelas X menggunakan metode Ordinary Least Squares
secara tuntas atau sama dengan Kriteria (OLS), maka untuk mengestimasi nilai parameter
Ketuntasan Minimal (KKM) untuk semua mata dalam regresi logistik adalah dengan
pelajaran yang menjadi ciri khas jurusannya serta menggunakan metode Maximum Likelihood
minat siswa terhadap jurusan yang ada. Penetapan Estimation (MLE).Untuk mencari persamaan
jurusan SMA merupakan suatu sarana untuk logistiknya maka model yang digunakan adalah:
p
memberikan kesempatan pada siswa dalam 0    jx j
mengembangkan kompetensi sikap, kompetensi e j 1
pengetahuan, dan kompetensi keterampilan siswa  ( x)  p
sesuai dengan minat, bakat atau kemampuan 0   jxj

akademik dalam sekelompok mata pelajaran 1 e j 1
(1)
keilmuan. Mengingat kesesuaian
Dari persamaan (1) diperoleh 1 – π(x) sebagai
pengklasifikasian siswa pada penjurusan
merupakan hal yang penting untuk masa depan berikut:
p
siswa tersebut, maka hal ini perlu untuk
0+ ∑ jxj
diperhatikan. Oleh karena itu perlu suatu metode e j=1
statistik yang dapat digunakan untuk mengukur 1− (x)= 1− p
seberapa besar keakuratan penjurusan SMA 0+ ∑ jxj

j=1
Negeri 8 Samarinda. Beberapa metode statistik 1+e
yang dapat digunakan untuk mengukur seberapa p p
besar keakuratan penjurusan SMA Negeri 8 0+ ∑ jxj 0+ ∑ jxj
Samarinda yaitu analisis regresi logistik dan 1+e j=1

−e j=1
= p
analisis diskriminan kuadratik. 0+ ∑ jxj
Dari beberapa penelitian sebelumnya telah 1+e j=1
dilakukan penelitian untuk membandingkan

1
metode klasifikasi diantaranya, Satriya (2011) = p
membandingkan Regresi Logistik dan Analisis 0+ ∑ jxj

j=1
Jaringan Syaraf Tiruan, Firmansyah (2010) 1+e
membandingkan Analisis Diskriminan dan Sehingga  ( x) sebagai berikut:
Analisis Jaringan Syaraf Tiruan. Berdasarkan 1   ( x)
latar belakang tersebut, maka penulis tertarik 0    j x j
p
 ( x)
untuk membandingkan metode klasifikasi  e j 1
menggunakan regresi logistik dan analisis 1   ( x)
diskriminan kuadratik. Jadi, persamaan logistiknya adalah:
  ( x) 
g ( x)  ln  
Regresi Logistik 1   ( x) 
Regresi logistik merupakan salah satu metode p
klasifikasi yang sering digunakan. Regresi

0   jxj
 ln e j 1
logistik merupakan suatu teknik analisis data p

dalam statistika yang bertujuan untuk mengetahui  0    j x j
hubungan antara beberapa variabel dimana j 1
(2)
variabel responnya adalah bersifat kategorik, baik
nominal maupun ordinal dengan variabel Uji Signifikansi Parameter
prediktornya dapat bersifat kategorik atau Pengujian keberartian parameter atau
kontinu. Regresi logistik biner digunakan saat signifikansi parameter dalam regresi penting
variabel respon merupakan variabel dikotomus untuk dilakukan.Hal ini dikarenakan pengujian
(kategorik dengan dua macam kategori), tersebut digunakan untuk menentukan apakah
sedangkan regresi logistik multinomial digunakan pengaruh variabel prediktor dalam model
saat variabel respon adalah variabel kategorik signifikan terhadap variabel respon.Pengujian
dengan lebih dari dua kategori. Pada regresi dapat dilakukan secara simultan dan parsial.
logistik jika variabel responnya terdiri dari dua
kategori misalnya Y=1 menyatakan hasil yang
diperoleh “sukses” dan Y=0 menyatakan hasil
180 Program Studi Statistika FMIPA Universitas Mulawarman

1. Pengujian Secara Simultan subjek dengan Ck kombinasi

Bertujuan untuk mengetahui pengaruh variabel prediktor
variabel prediktor secara simultan terhadap H0 ditolak jika nilai Cˆ   (2 ,db) atau
variabel respon. Hipotesis yang digunakan adalah
p value  
sebagai berikut:
H0:β1 = β2 = … = βp = 0
Analisis Diskriminan
H1 :Paling sedikit ada satu βj tidak sama dengan
Analisis diskriminan merupakan teknik
nol, dengan j=1 , 2, …, p
multivariat yang berkaitan dengan pemisahan
Statistik uji yang digunakan adalah uji G
objek dalam kelompok yang berbeda dan
(Likelihood Ratio Test). H0 ditolak jika nilai
mengalokasikan objek tersebut ke dalam suatu
G   2( ,db) atau p  value   kelompok yang telah ditetapkan
sebelumnya.Tujuan dari analisis diskriminan
2. Pengujian Secara Parsial adalah untuk mengetahui sejauh mana perbedaan
Hasil pengujian secara individual akan dari beberapa populasi atau kelompok (Johnson
menunjukkan apakah suatu variabel prediktor dan Wichern, 2002).
layak untuk masuk dalam model atau tidak.
Hipotesis yang digunakan adalah sebagai berikut: Asumsi Analisis Diskriminan
H0 : βj = 0 Asumsi pada analisis diskriminan menurut
H1 : βj ≠ 0 Supranto (2004) adalah variabel independen
Statistik uji yang digunakan adalah uji Wald (bebas) harus berdistribusi normal (multivariate
dengan rumus sebagai berikut: normality) dan matriks peragam dari semua
ˆ j variabel independen (bebas) adalah sama.
W
SE ( ˆ j ) 1. Distribusi Normal Multivariat
(4)
H0 ditolak jika nilai W  z  / 2 atau Seperti pada banyak metode statistik lainnya,
analisis diskriminanjuga mensyaratkan data
p  value  
berdistribusi normal.Jika data berdistribusi tidak
normal, hasil analisis dikhawatirkan menjadi bias.
Uji Kecocokan Model
Menurut Johnson dan Wichern (2002), pengujian
Setelah penaksiran model dilakukan, maka
data berdistribusi multivariat normal dengan
langkah berikutnya adalah menentukan seberapa
membuat Q-Q plot. Untuk menguji multivariat
baik model tersebut cocok terhadap data atau
normal dengan menggunakan hipotesis sebagai
seberapa dekat nilai-nilai dari model dengan nilai
berikut:
observasinya. Hipotesis yang digunakan adalah
sebagai berikut: H0 : Data berdistribusi multinormal
H1 : Data tidak berdistribusi multinormal
H0 : Tidak ada perbedaan antara
hasilpengamatan dengan nilai dugaan. Pengujian data berdistribusi multivariat
H1 :Ada perbedaan antara hasil pengamatan normal dengan membuat Q-Q plot dari nilai
dengan nilai dugaan. sebagai berikut:
Statistik uji yang digunakan adalah uji Uji d i2  ( x i  x ) ' S 1 ( x i  x ) (6)
Hosmer dan Lemeshow dengan rumus sebagai dimana:
berikut:
di2 = jarakMahalanobis d-square
g
(O  n' k  k ) 2
Cˆ   k x = skor nilai pengamatan
k 1 n' k  k (1   k )
(5) x = rata-rata nilai pengamatan
dengan: S-1 = matriks invers varian-kovarian
g = Jumlah grup (kombinasi dalam model
serentak) H0 ditolak jika nilai di2   (2 ,db) , dan nilai
n' k = Jumlah pengamatan pada grup ke-k d i2   (2 ,db) yang diharapkan kurang dari atau
Ck = Jumlah kombinasi variabel prediktor sama dengan 50% dari jumlah data dengan db =
Ck p, dimana p adalah jumlah variabel prediktor.
Ok   y j =jumlah nilai variabel respon
j 1
2. Kesamaan Matriks Varians Kovarian
pada Ck kombinasi variabel Analisis diskriminan linier mengasumsikan
prediktor bahwa matriks varians kovarians dari dua
Ck
m j ˆ ( x j ) = rata-rata taksiran probabilitas
k   '
kelompok adalah sama. Pelanggaran pada asumsi
j 1 nk ini akan mempengaruhi pengujian signifikansi
dimana mj adalah banyaknya dan hasil klasifikasi. Jika asumsi kesamaan
matriks varians kovarians ditolak, dapat

digunakan fungsi diskriminan kuadratik untuk pengelompokkannya dengan mengalokasikan x ke

fungsi klasifikasi (Sharma, 1996). Uji yang dalam kelompok k jika,
digunakan untuk mengetahui kesamaan matriks
varians kovarians adalah uji Box’s M. Prosedur Q k ( x )  maks (Q1 ( x ), Q 2 ( x ),..., Q g ( x ))
(11)
pada uji Box’M yaitu menggunakan pendekatan Dua pendekatan umum yang dapat digunakan
sebaran Chi-kuadrat dengan derajat bebas untuk mengestimasi probabilitas anggota pi yaitu:
1
(k 1) p( p 1) . Hipotesis matriks varians 1
2 pi  (12)
g
kovarians adalah sebagai berikut :
yang mana pi diasumsikan sama untuk semua
H0 : Σ1 = Σ2 = … = Σk
kelompok, dan untuk setiap kelompok dengan pi
H1 : sedikitnya ada sepasang kelompok matriks
diestimasi sebagai frekuensi relatif dari observasi
varians kovarians yang berbeda antar
pada setiap kelompok maka digunakan rumus
kelompok
sebagai berikut:
Statistik uji:
ni
C  (1  u ) M pi  (13)
k k n
 (1 u) (ni 1) ln S   (ni 1) ln S i
i 1 i 1 (7) Evaluasi Fungsi Klasifikasi
dengan: Evaluasi fungsi klasifikasi baik analisis
diskriminan kuadratik maupun regresi logistik
k 1 1   2 p 2  3 p 1 
u    k  
dapat dilakukan dengan menghitung peluang
 i 1 (ni  1)  (ni  1)   6( p  1)(k  1)  (8) kesalahan klasifikasi. Ukuran yang dapat
 i 1  digunakan adalah Apparent Error Rate (APER).
Nilai APER menyatakan fraksi atau proporsi
Analisis Diskriminan Kuadratik sampel yang salah diklasifikasikan oleh fungsi
Analisis diskriminan bertujuan untuk klasifikasi (Johnson dan Wichern, 2002).
membentuk fungsi diskriminan yang mampu Evaluasi fungsi klasifikasidilakukan dengan
membedakan kelompok. Analisis ini dilakukan cara membuat tabulasi antara actual group dan
berdasarkan suatu perhitungan statistik terhadap predicted group yang diperoleh dari fungsi
objek-objek yang telah diketahui dengan jelas klasifikasi dari analisis diskriminan kuadratik dan
pengelompokannya. Pada analisis diskriminan, regresi logistik. Selanjutnya dihitung proporsi
ada asumsi yang harus dipenuhi yaitu data pengamatan yang salah diklasifikasikan.
berdistribusi normal dan matriks varian kovarian Diharapkan proporsi pengamatan yang salah
dari populasi adalah sama. Namun terkadang diklasifikasikan tersebut bisa sekecil
ditemukan matriks varian kovarians tidak sama. mungkin.Untuk menghitung nilai APER dapat
Jika asumsi kesamaan matriks varians kovarian dilakukan melalui tabel klasifikasi sebagai
ditolak, dapat digunakan fungsi diskriminan berikut:
kuadratik untuk fungsi klasifikasi (Sharma, 1996). Tabel 1. Tabel Klasifikasi
Skor diskriminan kuadratik didefinisikan Predicted
sebagai, Actual membership Total
membership
1 1
Q(x)  ln pi  ln | Σi |  (x μi )T Σi1(x μi ) ̂ 1 ̂ 2
(2.41)
2 2 (9) 1 n11 n12 A
dimana, 2 n21 n22 B
μi = rataan populasi ke-i , i = 1, 2,..,g
Total C D E
pi = peluang prior
|Σi| = panjang matriks varians kovarians
kelompok ke-i Keterangan :
Dalam penerapannya digunakan komponen n11 = jumlah obyek dari 1 tepat
sampel yaitu xi vektor rataan sampel dan Si diklasifikasikan sebagai ̂ 1
matriks kovarians sampel,sehingga dapat n12 = jumlah obyek dari 1 salah
dibentuk fungsi diskriminan kuadratik yang
didefinisikan: diklasifikasikan sebagai ̂ 2
1 1 n21 = jumlah obyek dari 2 salah
Qi (x)  lnpi  ln| Si |  (xxi )T Si1(xxi )(10)
2 2 diklasifikasikan sebagai ̂ 1
n22 = jumlah obyek dari  2 tepat
Dari fungsi diskriminan kuadratik pada
Persamaan (10) dapat dibentuk aturan diklasifikasikan sebagai ̂ 2

n12  n21 besar adalah rata-rata nilai pelajaran IPS pada

APER  rapor semester 1 (X3) yaitu sebesar 76,75
n (14) .Selanjutnya untuk rata-ratanilai pelajaran yang
memiliki nilai maksimum terkecil adalah rata-rata
Metodologi Penelitian nilai pelajaran IPA pada rapor semester 1 (X1)
Data yang digunakan dalam penelitian ini yaitu sebesar 85,25.
merupakan data rata-rata nilai pelajaran IPA dan
IPS pada rapor semester 1 dan semester 2 siswa Tabel 2. Analisis Statistika Deskriptif
kleas X SMA Negeri 8 Samarinda (sebanyak 190 Rata-
Deskriptif Minimum Maksimum
siswa). Hasil analisis regresi logistik dengan rata
bantuan software SPSS 16 dan hasil analisis X1 78,33 71,75 85,25
diskriminan kuadratik dengan bantuan software X2 79,13 67 87
X3 81,17 76,75 87,75
Macro Minitab, SPSS 16 dan SAS 9.1.3 Variabel
X4 81,86 67 90
dalam penelitian ini meliputi:
1 = IPA
Analisis Regresi Logistik
Y = Akreditasi Sekolah
Kontruksi Model Regresi Logistik
= 2 = IPS
Dengan bantuan software SPSS diperoleh
X1 = rata-rata nilai pelajaran IPA pada rapor
taksiran model regresi logistik sebagai berikut:
semester 1 kelas X
X2 = rata-rata nilai pelajaran IPA pada rapor Tabel 3. Hasil Penaksiran Parameter untuk
semester 2 kelas X Variabel Prediktor
X3 = rata-rata nilai pelajaran IPS pada rapor Variabel Prediktor β S.E
semester 1 kelas X X1 0,271 0,106
X4 = rata-rata nilai pelajaran IPS pada rapor X2 -0,767 0,162
semester 2 kelas X X3 0,224 0,107
Adapun teknik analisis data dalam penelitian X4 -0,246 0,102
ini adalah : Konstan 40,409 12,916
1. Analisis statistika deskriptif.
Berdasarkan Tabel 3 maka diperoleh hasil
2. Langkah-langkah yang dilakukan dalam
penaksiran model regresi logistik sebagai berikut:
regresi logistik:
a. Membentuk model awal regresi logistik. e 40, 4090, 271 X1 0,767 X 2 0, 224 X 3 0, 246 X 4
 (X ) 
b. Melakukan pengujian parameter regresi 1  e 40, 4090, 271 X1 0,767 X 2 0, 224 X 3 0, 246 X 4
logistik.
c. Melakukan pengujian kesesuian model.
d. Melakukan proses klasifikasi. Uji Signifikansi Parameter
3. Langkah-langkah yang dilakukan dalam 1. Uji Simultan
analisis diskriminan kuadratik: Uji simultan dilakukan untuk mengetahui
a. Melakukan pengujian asumsi. signifikansi parameter dari β terhadap variabel
b. Menentukan fungsi diskriminan respon yaitu secara bersama-sama (serentak).
kuadratik. Tabel 4. Uji Simultan
c. Melakukan proses klasifikasi.
G Df -2 Log-likelihood
4. Evaluasi fungsi klasifikasi.
120,62 4 129,485
Hasil dan Pembahasan
Berdasarkan Tabel 4 dan Persamaan 3 maka
Analisis Deskriptif
diperoleh nilai G adalah 120,62 dimana nilai nilai
Data yang digunakan yaitu pada Lampiran 1
G (120,62)>χ2(0.05,4) (9,488) maka dapat
diperoleh dari SMA Negeri 8 Samarinda yang
disimpulkan bahwa minimal ada satu variabel
merupakan data Nilai Rata-rata rapor Siswa SMA
prediktor yang berpengaruh terhadap variabel
Negeri 8 Samarinda kelas X Semester 1 dan
respon.
semester 2 tahun ajaran 2014/2015. Data pada
penelitian ini sebanyak 190 data, terdiri dari 4
2. Uji Parsial
Variabel Penjelas yaitu nilai rata-rata tiap
Uji parsial berfungsi untuk mengetahui
semester dan 2 Variabel respon yaitu penjurusan
apakah ada pengaruh dari variabel prediktor
IPA dan IPS. Penjurusan IPA sebanyak 120 data
terhadap variabel respon secara individu.Uji ini
dan IPS sebanyak 70 data. Nilai-nilai tersebut
menggunakan statistik uji dari Wald sehingga bisa
ditunjukkan pada Tabel 2.
juga disebut sebagai uji Wald.
Berdasarkan Tabel 2, diketahui bahwa nilai
rata-rata pelajaran IPS pada rapor semester 2
kelas X memiliki rata-rata tertinggi (X4) yaitu
sebesar 81,86. Kemudian untuk rata-rata nilai
pelajaran yang memiliki nilai minimum paling

Tabel 5. Uji Parsial Variabel X dengan Tabel 7. Hasil Klasifikasi dengan Regresi
Variabel Y Logistik
Variabel
Prediktor
β Wald
P-
Value
Keputusan No Nilai ˆ(x) Jurusan
Awal
Hasil
Klasifikasi
X1 0,271 6,489 0,011 H0 ditolak 1 0,04988 IPA IPA
X2 -0,767 22,495 0,000 H0 ditolak 2 0,05121 IPA IPA
X3 0,224 4,389 0,036 H0 ditolak 3 0,01162 IPA IPA
X4 -0,246 5,819 0,016 H0 ditolak 4 0,00609 IPA IPA
Konstan 40,409 9,788 0,002 5 0,06413 IPA IPA
6 0,01093 IPA IPA
Berdasarkan Tabel 5 menunjukkan bahwa 7 0,20821 IPA IPA
semua variabel prediktor memiliki nilai 8 0,02554 IPA IPA
probabilitas (p-value) lebih kecil dari α, maka 9 0,02883 IPA IPA
variabel prediktor berpengaruh terhadap variabel 10 0,00682 IPA IPA
respon. Sehingga model regresi logistik terbaik
untuk memprediksi pengklasifikasian jurusan Analisis Diskriminan
dengan menggunakan analisis regresi logistik Uji Asumsi
adalah Sebelum dilakukan analisis diskriminan data
harus memenuhi asumsi distribusi normal
e 40, 4090, 271 X1 0,767 X 2 0, 224 X 3 0, 246 X 4
 (X )  multivariat dan homogenitas matriks kovarians
1  e 40, 4090, 271 X1 0,767 X 2 0, 224 X 3 0, 246 X 4 (15) sebagai berikut:
1. Uji Normal Multivariat
Uji Kecocokan Model Uji normal multivariat digunakan untuk
Uji ini berfungsi untuk menilai kesesuaian
mengetahui apakah data keempat variabel
model regresi logistik dengan membandingkan
prediktor berdistribusi normal multivariat atau
hasil pengamatan dengan nilai dugaan.Statistik uji
tidak.
yang digunakan untuk menentukan kecocokan
model disebut juga sebagai statistik kecocokan
model (Goodness of Fit).
Tabel 6. Uji Kecocokan Model
Chi-square Df p-value
14,191 8 0,077
Berdasarkan Tabel 6dapat diketahui bahwa
nilai Cˆ  14,191   (20 , 05 ,8 )  15,507 dan nilai
p-value sebesar 0,077 >α (0,05) maka diputuskan Gambar 1.Plot uji multinormal data
H0 gagal ditolak. Sehingga dapat disimpulkan
bahwa tidak ada perbedaan antara hasil Hasil uji normal multivariat dengan
pengamatan dengan nilai dugaan atau model menggunakan software Minitab 16 diperoleh
regresi logistik tersebut layak untuk digunakan. bahwa ada lebih dari 50%, yaitu 59,4737%
dengan nilai  (20 , 5 , 4 )  3,36 yang berarti bahwa
Proses Klasifikasi
Setelah diperoleh model regresi logistik pada data telah memenuhi asumsi kenormalan
Persamaan (15) maka dapat dilakukan proses (multinormal). Selain itu, dapat pula dilihat
klasifikasi. Misalkan untuk siswa pertama dengan berdasarkan Q-Q plot pada Gambar 1, terlihat
nilai yaituX1=77,25, X2=81,25, X3=81,25, dan X4=82. bahwa plot cenderung membentuk garis lurus,
Selanjutnya nilai tersebut disubtitusikan ke dalam sehingga dapat disimpulkan bahwa data
model regresi logistik, apabila nilai regresi logistik berdistribusi multinormal.
lebih besar dari nilai cut-off 0,5 atau ˆ (x)  0,5 ,
maka siswa tersebut masuk ke dalam kelompok IPS 2. Uji Kesamaan Matriks Varians Kovarian
sedangkan apabila nilai regresi logistik lebih kecil Uji Kesamaan matriks varians kovarians
dari nilai cut-off 0,5 atau ˆ ( x)  0,5 , maka siswa antara kelompok 1 dan kelompok 2 dilakukan
tersebut masuk ke dalam kelompok IPA.Pada Tabel 7 menggunakan SPSS yaitu dengan menggunakan
diberikan contoh 10 siswa pertama yang statistic Box-M.
diklasifikasikan untuk masing-masing kelompok.
Tabel 8. Uji Kesamaan Matriks Varians Kovarian
Box’s M p-value
19,972 0,035

Evaluasi Fungsi Klasifikasi

Evaluasi fungsi klasifikasi baik analisis
Berdasarkan Tabel 8 diketahui bahwa nilai
diskriminan kuadratik maupun regresi logistik
C  19,972   (20,05,10)  18,3070 atau
nilai p- dapat dilakukan dengan menghitung peluang
value 0,035 ≤α (0,05)maka H0 ditolak. Sehingga kesalahan klasifikasi.Ukuran yang dapat
dapat disimpulkan bahwa matriks varians digunakan adalah Apparent Error Rate (APER)
kovarians antar kelompok adalah berbeda. berdasarkan Persamaan (14).Dari masing-masing
bagian tersebut dihitung nilai APER-nya sehingga
Fungsi Diskriminan Kuadratik diperoleh ketepatan klasifikasinya.
Nilai peluang awal dalam analisis
diskriminan kuadratik akan digunakan dalam 1. Ketepatan Klasifikasi Regresi Logistik
pembentukan fungsi diskriminan kuadratik untuk Pada Tabel 10 diberikan jumlah obyek yang
mengklasifikasikan siswa/i ke dalam kelompok tepat diklasifikasikan dan yang salah untuk
jurusan yang sudah ada yaitu IPA dan IPS. masing-masing kelompok.
Berdasarkan Persamaan (13) maka diperoleh nilai Tabel 10 Klasifikasi Analisis Regresi Logistik
peluang awal (prior probabilities) masing-masing Jurusan yang
kelompok sebesar 0,632 untuk kelompok IPA dan diprediksi oleh
0,368 untuk kelompok IPS. Berdasarkan model Total
Persamaan (10) maka fungsi diskriminan
IPA IPS
kuadratik yang terbentuk yaitu,
1 1 IPA 107 13* 120
QIPS (x) = ln 0,368 − ln855, 5− (x − x IPS )T S−1IPS (x − x IPS ) Jurusan
IPS 19* 51 70
2 2
1 1 Total 126 64 190
QIPA (x) = ln 0, 632 − ln347, 93− (x − x IPA )T S−1IPA (x − x IPA )
2 2 Setelah diketahui ketepatan klasifikasi untuk
Setelah terbentuknya fungsi diskriminan tiap-tiap kelompok maka ketepatan hasil
kuadratik, maka dapat dihitung skor diskriminan klasifikasi secara totaldapat diketahui dengan
kuadratik untuk masing-masing siswa. Skor menghitung nilai APER. Berdasarkan Persamaan
diskriminan kuadratik akan digunakan dalam (14) maka diperoleh nilai APER sebagai berikut :
mengklasifikasikan siswa ke dalam kelompok
13  19 32
IPA atau IPS. APER    0,1684
190 190
Proses Klasifikasi
Setelah diperoleh fungsi diskriminan maka Berdasarkan nilai APER tersebut, dapat
dapat dilakukan proses klasifikasi dengan fungsi dijelaskan bahwa dengan fungsi diskriminan
diskriminan kuadratik. Misalkan untuk siswa kuadratik dihasilkan proporsi salah klasifikasi
pertama dengan nilai X1 = 77,25, X2 = 81,25, X3 = sebesar 16,84% sehingga ketepatan klasifikasi
81,25, danX4 = 82. Selanjutnya nilai tersebut yang dihasilkan adalah 83,16%.
disubtitusikan ke dalam fungsi diskriminan
kuadratik, apabila nilai QIPA  QIPS , maka siswa 2. Ketepatan Klasifikasi Analisis
Diskriminan Kuadratik
tersebut masuk ke dalam kelompok IPA Pada Tabel 11 diberikan jumlah obyek yang
sedangkan apabila nilai QIPA  QIPS , maka siswa tepat diklasifikasikan dan yang salah untuk
tersebut masuk ke dalam kelompok IPS. Hasil masing-masing kelompok. Setelah diketahui
klasifikasi terdapat pada Tabel 9. ketepatan klasifikasi untuk tiap-tiap kelompok
maka ketepatan hasil klasifikasi secara totaldapat
Tabel 9 Hasil Klasifikasi Dengan Analisis diketahui dengan menghitung nilai APER.
Diskriminan Kuadratik Berdasarkan Persamaan (14) maka diperoleh nilai
APER sebagai berikut :
No QIPA QIPS Jurusan Awal
Hasil
Klasifikasi 12  18 30
APER    0,1579
1 -4,98 -8,6 IPA IPA 190 190
2 -4,14 -7,84 IPA IPA Berdasarkan nilai APER tersebut, dapat
3 -4,19 -8,72 IPA IPA dijelaskan bahwa dengan fungsi diskriminan
4 -4,76 -10,1 IPA IPA kuadratik dihasilkan proporsi salah klasifikasi
5 -4,62 -8,3 IPA IPA sebesar 15,79% sehingga ketepatan klasifikasi
6 -4,3 -9,01 IPA IPA yang dihasilkan adalah 84,21%.
7 -4,46 -6,6 IPA IPA
8 -5,76 -8,57 IPA IPA
9 -3,99 -8,05 IPA IPA
10 -4,21 -9,09 IPA IPA

Tabel 11 Klasifikasi Analisis Diskriminan jurusan IPS dan sisanya 18 siswa tidak tepat
Kuadratik diklasifikasikan ke Jurusan IPS.
Jurusan yang 3. Dengan menggunakan regresi logistik dan
diprediksi oleh analisis diskriminan kuadratik diperoleh
model Total ketepatan klasifikasi masing-masing teknik
IPA IPS analisis sebesar 83,16% dan 84,21%.
120 Berdasarkan ketepatan klasifikasi kedua
IPA 108 12*
Jurusan teknik analisis, dapat disimpulkan bahwa
IPS 18* 52 70
analisis diskriminan kuadratik lebih baik
Total 126 64 190
daripada regresi logistik dalam
menyelesaikan masalah pengklasifikasian
jurusan di SMA Negeri 8 Samarinda.
Perbandingan Hasil Klasifikasi
Berdasarkan analisis data yang telah
Daftar Pustaka
dilakukan maka perbandingan ketepatan
Firmansyah, Yudhi. 2010. Perbandingan Analisis
klasifikasi antara analisis regresi logistik dan
Diskriminan Mahalanobis dan Analisis
analisis diskriminan kuadratik diberikan pada
Jaringan Syaraf Tiruan Dalam
Tabel 12.
Menyelesaikan Masalah Pengelompokkan.
Tabel 12. Ketepatan Klasifikasi Kedua Metode Skripsi tidak diterbitkan. Samarinda: Jurusan
Analisis Regresi Analisis Statistika Fakultas MIPA Universitas
Logistik Diskriminan Mulawarman.
Kuadratik Fractal. 2003. Comparative Analysis of
APER 16,84 % 15,79 % Classification Techniques, A Fractal White
Ketepatan 83,16 % 84,21 % Paper.
Berdasarkan nilai ketepatan klasifikasi, pada Hair, Jr. F. J., W. C Black, B. J Barry, dan R. E
analisis diskriminan kuadratik mempunyai Anderson. 2010. Multivariate Data Analysis,
ketepatan yang lebih tinggi. Dengan demikian 7th edn. New York: Pearson.
metode analisis diskriminan kuadratik merupakan Hosmer D.W, dan S. Lemeshow.2000.Applied
metode terbaik dalam pengklasifikasian jurusan di Logistic Regression. New York: John Wiley
SMA Negeri 8 Samarinda. & Sons, Inc.
Johnson, R. A., dan D. W Winchern. 2002.
Kesimpulan Applied Multivariate Statistical Analysis.
Berdasarkan hasil penelitian yang diperoleh, New Jersey: Prentice Hall.
maka penulis dapat menarik kesimpulan sebagai Kurt, I., M. Ture, dan A. T Kurum. 2006.
berikut : Comparing Performances of Logistic
1. Hasil pengklasifikasian jurusan SMA Negeri Regression Classification and Regression
8 Samarinda tahun ajaran 2014/2015 dengan Tree, and Neural Network for Predicting
menggunakan regresi logistik diperoleh hasil Coronary Artery Disease, Expert Systems
yaitu, untuk pengklasifikasian IPA dari 120 with Applications Vol 34, No. 1.
siswa yang diklasifikasikanke Jurusan IPA, Rachmatin, D dan K. Sawitri. 2010. Penerapan
107 siswa tepat diklasifikasikan ke jurusan Prosedur Lachenbruch Pada Kasus Quadratic
IPA dan sisanya 13 siswa tidak tepat Discriminant Analysis, Bandung.
diklasifikasikan ke Jurusan IPA.Sedangkan Satriya, Andi M. Ade. 2011. Perbandingan Hasil
untuk pengklasifikasian IPS dari 70 siswa Klasifikasi Regresi Logistik dengan Analisis
yang diklasifikasikanke Jurusan IPS, 51 Jaringan Syaraf Tiruan Pada Kasus
siswa tepat diklasifikasikan ke jurusan IPS Pengklasifikasian Jurusan Di SMA Negeri 5
dan sisanya 19 siswa tidak tepat Samarinda Tahun Ajaran 2010/2011. Skripsi
diklasifikasikan ke Jurusan IPS. tidak diterbitkan. Samarinda: Jurusan
2. Hasil pengklasifikasian jurusan SMA Negeri Statistika Fakultas MIPA Universitas
8 Samarinda tahun ajaran 2014/2015 dengan Mulawarman.
menggunakananalisis diskriminan kuadratik Sharma, S. 1996. Applied Multivariate
diperoleh hasil yaitu, untuk pengklasifikasian Techniques. New York:John Wiley & Sons,
IPA dari 120 siswa yang diklasifikasikan ke Inc.
Jurusan IPA, 108 siswa tepat diklasifikasikan Supranto, J. 2004. Analisis Multivariat Arti dan
ke jurusan IPA dan sisanya 12 siswa tidak Interprestasi. Jakarta : PT. Rineka Cipta.
tepat diklasifikasikan ke Jurusan
IPA.Sedangkan untuk pengklasifikasian IPS
dari 70 siswa yang diklasifikasikanke Jurusan
IPS, 52 siswa tepat diklasifikasikan ke

Comparison of Classification Results by Using Logistic Regression and Quadratic Discriminant Analysis in Classifying Programs at SMA Negeri 8 Samarinda Academic Year 2014/2015

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Comparison of Classification Results by Using Logistic Regression and Quadratic Discriminant Analysis in Classifying Programs at SMA Negeri 8 Samarinda Academic Year 2014/2015

Uploaded by

Copyright:

Available Formats

Jurnal EKSPONENSIAL Volume 7, Nomor 2, Nopember 2016 ISSN 2085-7829

Perbandingan Hasil Klasifikasi Menggunakan Regresi logistik dan Analisis Diskriminan

Comparison of Classification Results by Using Logistic Regression and Quadratic Discriminant

Cristine Uli Artha1, Yuki Novia N2, Ika Purnamasari3

Keywords:Quadratic discriminant, classification, classification accuracy, logistic regression.

Pendahuluan setidaknya pada saat ada variabel prediktor

Program Studi Statistika FMIPA Universitas Mulawarman 179

pengetahuan, dan kompetensi keterampilan siswa  ( x)  p

sesuai dengan minat, bakat atau kemampuan 0   jxj

statistik yang dapat digunakan untuk mengukur 1− (x)= 1− p

seberapa besar keakuratan penjurusan SMA 0+ ∑ jxj

besar keakuratan penjurusan SMA Negeri 8 0+ ∑ jxj 0+ ∑ jxj

Samarinda yaitu analisis regresi logistik dan 1+e j=1

dilakukan penelitian untuk membandingkan

membandingkan Regresi Logistik dan Analisis 0+ ∑ jxj

klasifikasi yang sering digunakan. Regresi

logistik merupakan suatu teknik analisis data p

180 Program Studi Statistika FMIPA Universitas Mulawarman

1. Pengujian Secara Simultan subjek dengan Ck kombinasi

Program Studi Statistika FMIPA Universitas Mulawarman 181

digunakan fungsi diskriminan kuadratik untuk pengelompokkannya dengan mengalokasikan x ke

182 Program Studi Statistika FMIPA Universitas Mulawarman

n12  n21 besar adalah rata-rata nilai pelajaran IPS pada

Program Studi Statistika FMIPA Universitas Mulawarman 183

184 Program Studi Statistika FMIPA Universitas Mulawarman

Evaluasi Fungsi Klasifikasi

Program Studi Statistika FMIPA Universitas Mulawarman 185

186 Program Studi Statistika FMIPA Universitas Mulawarman

You might also like