Professional Documents
Culture Documents
MIM : 10751000260
Jur/Lok : TIF/ VI D
B.study : Data mining
Permasalahan
Berdasarkan latar belakang diatas salah satu pokok permasalahan yang
diangkat adalah memperoleh pengetahuan dan mengidentifikasi mahasisiwa
baru yang akan diterima disebuah universitas sehingga akan memberikan
kemudahan bagi pihak universitas untuk menentukan siapa saja yang berhak
masuk atau diterima berdasarkan kriteria tertentu dalam hal ini nilai SPMB,
nilai UAN (Ujian Akhir Nasional) dan nilai psikotest. Metode atau cara
yang digunakan adalah membentuk pohon keputusan dengan algoritma
Iterative Dichotomicer 3 (ID3).
=Entropy(S)–
= 0,8454 – (4/11)0,8113 – (3/11) 0,9183
= 0,8454 – 0,2950 – 0,2950 – 0,25044
= 0,0049
Values( UAN) = Bagus, Cukup, Kurang
SBagus = [ 3+, 0- ] , | SBagus | = 3
SCukup = [ 4+, 1- ] , | SCukup | = 5
SKurang = [ 1+, 2- ] , | SKurang | = 3
Entropy (SBagus) = (-3/3) log2 (3/3) - (0/3) log2 (0/3)
=0
menunjukkan entropy minimum karena jumlah sampel pada salah satu kelas
adalah = 0 (keberagaman data minimum).
Entropy (SCukup) = (-4/5) log2 (4/5) - (1/5) log2 (1/5) = 0,72192
Entropy (SKurang) = (-1/3) log2 (1/3) - (2/3) log2 (2/3) = 0,91829
IG (S, UAN) = Entropy ( S) –
= 0,8454 – 0 – (5/11) 0,7219 – (3/11) 0,9183
= 0,8454 – 0,32814 – 0,25044
= 0,26682
SBaik = [ 6+, 0- ] , | SBaik | = 6
SBuruk = [ 2+, 3- ] , | SBuruk | = 5
Entropy (SBaik) = (-6/6) log2 (6/6) – (0/6) log2 (0/0)
= 0 ( kebergaman data minimum )
Entropy (SBuruk) = (-2/5) log2 (2/5) – (3/5) log2 (3/5)
= 0,97094
IG ( S, Psikotest ) = 0,8454 – 0 – (5/11) 0,97094
= 0,8454 – 0,44134
= 0,40406
Dari perhitugan diatas didapat nilai Information Gain dari ketiga atribut (
Nil.SPMB, UAN, dan Psikotest )
IG ( S, Nil.SPMB) = 0,0049
IG ( S, UAN) = 0,26682
IG ( S, Psikotest) = 0,40406
Dari ketiga nilai Information Gain diatas Gain ( S, Psikotest ) adalah yang
terbesar sehingga atribut Psikotest merupakan the best classifier dan harus
diletakkan sebagai root.
Rekursi Level O iterasi ke-1
Memanggil fungsi ID3 dengan kumpulan sampel berupa semua sampel data
= [ 8+ , 3- ];
Atribut target = „Diterima” dan kumpulan atribut [nil.SPMB, UAN,
Psikotest]
Hitung entropy dan Information Gain untuk menentukan the best classifier
dan meletakkannya sebagai root.
Dari penjelasan sebelumnya didapat nilai Information Gain (S, Psikotest )
sebgai the best classifier karena IG nya terbesar. Setelah mendapat the best
classifier langkah selanjutnya adalah setiap nilai pada atribut Psikotest akan
di cek apakah perlu dibuat subtree di level berikutnya atau tidak.. atribut
Psikotest, ada 2 sampel ( baik dan buruk ). Untuk nilai „Baik” terdapat 6
sampel, berarti sampel baik tidak kosong. Sehingga perlu memanggil fungsi
ID3 dengan kumpulan sampel berupa sampel baik = [6+, 0-] , atribut target
=“Diterima” dan kumpulan atribut ={ nil.SPMB, Psikotest }
Rekursi level 1 iterasi ke 1
Memanggil fungsi ID3 dengan kumpulan sampel berupa sampel baik [6+, 0-]
atribut target = „Diterima” dan kumpulan atribut (nil.SPMB, UAN). Semua
sampel baik termasuk dalam kelas “ya” maka fungsi ini akan berhenti dan
mengembalikan satu simpul tunggal Root dengan label „ya” .
Rekursi level 0 , Itersi ke 2
Kasus :
Untuk memudahkan penjelasan mengenai algoritma C4.5 berikut ini
disertakan contoh kasus yang dituangkan dalam Tabel
Dalam kasus yang tertera pada Tabel 3.1, akan dibuat pohon keputusan untuk
menentukan main tenis atau tidak dengan melihat keadaan cuaca, temperatur,
kelembaban dan keadaan angin.
Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah
sebagai berikut:
Dari hasil pada Tabel 3.2 dapat diketahui bahwa atribut dengan Gain
tertinggi adalah HUMIDITY yaitu sebesar 0.37. Dengan demikian
HUMIDITY dapat menjadi node akar. Ada 2 nilai atribut dari
HUMIDITY yaitu HIGH dan NORMAL. Dari kedua nilai atribut
tersebut, nilai atribut NORMAL sudah mengklasifikasikan kasus menjadi
1 yaitu keputusan-nya Yes, sehingga tidak perlu dilakukan perhitungan
lebih lanjut, tetapi untuk nilai atribut HIGH masih perlu dilakukan
perhitungan lagi. Dari hasil tersebut dapat digambarkan pohon keputusan
sementara-nya tampak seperti Gambar 3.1
1.
Pohon keputusan yang terbentuk sampai tahap ini ditunjukkan pada Gambar
3.3.
Dengan memperhatikan pohon keputusan pada Gambar 3.3, diketahui bahwa
semua kasus sudah masuk dalam kelas. Dengan demikian, pohon keputusan
pada Gambar 3.3 merupakan pohon keputusan terakhir yang terbentuk.
3. Metode C5.0
Algoritme C5.0
j =1 s
s1 j +.. + smj
s adalah jumlah subset j yang dibagi dengan jumlah sampel pada S,
maka untuk mendapatkan nilai gain, selanjutnya digunakan formula
Gain(A)=I(s1,s2,...,sm)–E(A) (2.3)
C5.0 memiliki fitur penting yang membuat algoritme ini menjadi lebih
unggul dibandingkan dengan algoritme terdahulunya dan mengurangi
kelemahan yang ada pada algoritme decision tree sebelumnya. Fitur tersebut
adalah (Quinlan, 2004) :
1. C5.0 telah dirancang untuk dapat menganalisis basis data subtansial yang
berisi puluhan sampai ratusan record dan satuan hingga ratusan field
numerik dan nominal.
2. untuk memaksimumkan tingkat penafsiran pengguna terhadap hasil yang
disajikan, maka klasifikasi C5.0 disajikan dalam dua bentuk, menggunakan
pohon keputusan dan sekumpulan aturan IF-then yang lebih mudah untuk
dimengerti dibandingkan neural network.
3. C5.0 mudah digunakan dan tidak membutuhkan pengetahuan tinggi
tentang statistik atau machine learning.
- - - - - - - - - -
- - ++ - - - +- ++ - - + -
++
- - + - x + - x +
+
- x + + - + - + +
Gambar 4. Ilustrasi 1-, 2-, 3-nearest neighbor terhadap data baru (x)
Untuk mendefinisikan jarak antara dua titik yaitu titik pada data training
(x) dan titik pada data testing (y) maka digunakan rumus Euclidean,
n
2
d ( x, y ) = ( xi yi ) (2.4)
i =1
dengan d adalah jarak antara titik pada data training x dan titik data testing
y yang akan diklasifikasi, dimana x=x1,x2,…,xi dan y=y1,y2,…,yi dan I
merepresentasikan nilai atribut serta n merupakan dimensi atribut (Han &
Kamber, 2001). Sebagai ilustrasi, pada Tabel 1 berikut ini disajikan contoh
penerapan rumus Euclidean, pada empat data klasifikasi kualitas baik dan tidak
baik sebuah kertas tisu yang dinilai berdasarkan daya tahan kertas tersebut dan
fungsinya. Sebanyak tiga data yang sudah terklasifikasi yaitu data no 1,2, dan 3
masing-masing data dihitung jaraknya ke data no 4 untuk mendapatkan
kelas yang sesuai bagi data no 4 maka k=1 (Teknomo, 2006).
d 3 , 4 = (3 1) 2 + ( 4 + 4 ) 2 = 22 +02 = 4 =2
Dari hasil perhitungan di atas diperoleh jarak antara data no tiga dan data
no empat adalah jarak yang terdekat maka kelas data no empat adalah
baik.
Teknik ini akan diujicobakan terhadap dataset akademik yang
belum terklasifikasi atau data yang belum dikenal, untuk menemukan
kelas yang sesuai dengan berdasarkan pada data tetangga terdekatnya
yang sudah terklasifikasi. Tingkat ketepatan klasifikasi terhadap data dari
kedua algoritma yang digunakan menjadi titik fokus analisa dalam
penelitian.
- Confusion matrix
Predicted Class
Yes No
Actual Yes
True Positive False Negative
Class
No False Positive True Negative
Record 2 dan record 5 pada tabel di atas berisi data yang sama, maka
dikatakan record tersebut redundant.
Metode
Kerangka Pemikiran
Sebagai langkah awal maka perlu adanya identifikasi masalah
berkenaan dengan masalah yang di bahas. Kemudian dilakukan
pengumpulan data berkaitan dengan permasalahan yang akan diteliti dan
studi literatur untuk menentukan metode data mining untuk pengolahan
data dan penentuan alternatif solusi. Selanjutnya dilakukan pengumpulan
data untuk menentukan parameter-parameter yang menyebabkan
berkurangnya jumlah mahasiswa FIK-UPNVJ dalam hampir tiap
semesternya. Kerangka pemikiran dalam pengembangan model sistem
pada penelitian ini dapat digambarkan dalam suatu diagram alir
penelitian seperti pada Gambar 5.
Mulai
Identifikasi Masalah
Data Praproses
Feature Selection
Dataset KNN
C5.0
2. Studi Literatur
Kegiatan mempelajari dan memahami fungsi-fungsi data mining,
teknik-teknik dan algoritma yang digunakan dalam data mining.
Adapun literatur yang digunakan berasal dari buku-buku data mining
dan jurnal penelitian bidang data mining untuk teknik klasifikasi
dengan algoritma C5.0 dan K-Nearest Neighbor. Penelitian yang
dilakukan sebelumnya oleh Moertini, Beikzadeh dan Phon
menggunakan C5.0 & KNN menunjukkan bahwa kedua algoritma ini
dapat melakukan klasifikasi data di atas 80%.
3. Pengumpulan data
Tahap pengumpulan data untuk mendapatkan sejumlah informasi yang
dibutuhkan dengan mengambil data akademik mahasiswa pada Sistem
Informasi Akademik FIK-UPNVJ. Maka diperolehlah dataset mahasiswa
dan dataset IPK untuk digunakan dalam penelitian karena kedua dataset
ini sudah mewakili informasi yang dibutuhkan.
4. Data Praproses
Adalah tahap seleksi data bertujuan untuk mendapatkan data yang
bersih dan siap untuk digunakan dalam penelitian. Tahapan yang
dikerjakan adalah dengan melakukan perubahan terhadap beberapa
tipe data pada atribut dataset dengan tujuan untuk mempermudah
pemahaman terhadap isi record, juga melakukan seleksi dengan
memperhatikan konsistensi data, missing value, dan redundant pada
data. Beberapa atribut yang bertipe numeric diubah menjadi string,
dan atribut Tgllhr yang bertipe data date menjadi numeric. Untuk atribut
Tgllhr selanjutnya berubah nama menjadi Usia. Atribut Anakke dan Dari
digabung dengan nama Anakke dan tipe data string. Sebanyak 6 atribut
terpilih yang berasal dari 64 atribut dataset mahasiswa dan 7 atribut
dataset IPK.
5. Feature Selection
Adalah tahapan seleksi atribut, dimana atribut-atribut yang
diperoleh dari tahap praproses selanjutnya diseleksi lagi menggunakan
formula Information Gain yang menghasilkan nilai Gain dari seluruh
atribut dalam dataset yang mana formula ini terdapat dalam algoritma
C5.0 dengan fungsinya untuk mendapatkan atribut yang berfungsi
sebagai root atau akar pada decision tree, node dan leaf .
7. Dataset
Tahap seleksi atribut menghasilkan himpunan data akhir yang
digunakan untuk tahap klasifikasi data berupa dataset akademik. Dataset
akademik adalah data yang sudah tidak lagi mengandung data dengan
missing value dan redundant. Dengan menggunakan teknik 3-fold cross
validation, data dibagi menjadi dua bagian sebagai data training dan satu
bagian sebagai data testing, yang mana training dan testing dilakukan
sebanyak 3 kali.
8. Hasil
Klasifikasi dengan algoritma C5.0 memberikan hasil berupa
aturan-aturan klasifikasi dalam bentuk if-then dan dalam bentuk pohon
keputusan (decision tree) serta menunjukkan karakteristik data yang
diklasifikasi, sedangkan KNN hanya memberikan hasil berupa jumlah
ketepatan dan ketidaktepatan data yang diklasifikasi namun tidak dapat
menunjukkan karakterisitk dari data yang di klasifikasi. Sehingga dapat
dikatakan bahwa telah diperoleh sebanyak dua model yang berasal dari
kedua penerapan algoritma yang dipilih.
9. Evaluasi
Analisis terhadap hasil klasifikasi yang diperoleh dengan
menggunakan kedua algoritma menunjukkan bahwa rata-rata lama waktu
yang dibutuhkan sangat singkat yaitu 0.01 seconds. Dilakukan pula
analisis dengan beberapa alat evaluasi yang lain dengan menggunakan
tabel confusion matrix, yaitu hasil klasifikasi dengan proporsi positif dan
negatif yang diperoleh akan dievaluasi sehingga diperoleh persentase
kelas positif dalam lift chart, persentase jumlah proporsi positif dan
negatif dalam ROC, dan nilai rata-rata keberhasilan klasifikasi ke dalam
kelas yang sesuai dalam overall success rate.
Tata Laksana
Praproses Data
Tabel 9. Contoh instances dengan atribut yang akan dirubah tipe datanya
Tipe data atribut TglLhr yang semula adalah date diubah menjadi atribut
Usia dengan tipe data numeric, sehingga tidak lagi berisi tanggal lahir
mahasiswa melainkan berisi usia mahasiswa pada saat awal kuliah pada
semester satu. Tipe data JenisSLA, PkOrtu, Anakke dan Dari diubah menjadi
bertipe data string, sehingga dapat lebih mudah dipahami isi atribut yang
dikandung dan tipe data ini dan sesuai dengan tipe data yang digunakan dalam
algoritma decision tree. Atribut Anakke dan atribut Dari dijadikan dalam satu
atribut baru bernama Anakke yang berisi informasi kategori urutan anak dalam
keluarga.
Beberapa atribut pada tabel di atas masih berisi data dalam bentuk kode
angka, seperti nampak pada atribut PkOrtu dan JenisSLA. Berikut ini pada Tabel
10 disajikan keterangan kode pada kedua atribut tersebut.
Setelah perubahan tipe data dan pemberian nama baru dilakukan kepada
beberapa atribut maka isi dari atribut yang bersangkutanpun berubah. Berikut ini
tampak pada Tabel 11 adalah contoh instances dengan tipe data dan nama atribut
yang baru.
Tabel 11. Contoh instances dengan tipe data dan nama atribut yang baru
b. Alamat
Merupakan atribut yang berisi alamat tinggal mahasiswa pada saat
melakukan registrasi ulang. Untuk selanjutnya atribut ini dikelompokkan
dalam enam kategori kota wilayah tinggal yaitu Jakarta, Bogor, Depok,
Tangerang, Bekasi, dan Lainnya. Kategori kota lainnya memberikan arti
bahwa kota yang dimaksud adalah kota wilayah selain dari lima kota
wilayah yang sudah disebutkan tadi.
c. PkOrtu
Merupakan atribut yang menjelaskan jenis pekerjaan orang tua dari
mahasiswa, yang kemudian dikelompokkan dalam empat kategori yaitu
Purnawirawan, Swasta, TNI (yang maksud adalah anggota Tentara
Nasional Indonesia), dan PNS (Pegawai Negeri Sipil). Pengelompokkan ini
didasarkan kepada data sumber tentang jenis pekerjaan orang tua yang
dimiliki oleh FIK-UPNVJ.
d. JenisSLA
Merupakan atribut yang menjelaskan kelompok sekolah lanjutan asal
mahasiswa yang dikelompokkan ke dalam jenis sekolah kejuruan (SMK),
sekolah menengah umum (SMU), dan sekolah lanjutan atas keagamaan
(MA/Madrasah Aliyah).
e. WilSMU
Berisi alamat wilayah kota sekolah lanjutan asal mahasiswa. Kategori yang
dibuat untuk atribut ini adalah sama dengan kategori yang ada pada atribut
sebelumnya yaitu alamat, yaitu Jakarta, Bogor, Depok, Tangerang, Bekasi,
dan Lainnya.
f. Anakke
Merupakan atribut yang menjelaskan urutan anak dalam keluarga. Kategori
yang dibuat berdasarkan kepada informasi yang ada pada atribut Anakke
dan Dari, dengan menganalisa isi terhadap keduanya sehingga atribut yang
dihasilkan terbagi ke dalam empat kategori yaitu sulung, tengah, bungsu, dan
tunggal.
g. IPK
Merupakan atribut yang berisi nilai prestasi kumulatif mulai dari semester satu
hingga akhir semester yang di tempuh oleh mahasiswa. Terdapat lima kategori
IPK yang diberlakukan pada FIK-UPNVJ yaitu IPK < 1.50, 1.50 – 1.99, 2.00 –
2.49, 2.50 – 2.99, dan >= 3.00.
Hasil yang di peroleh dari tahap seleksi atribut di atas telah menghasilkan
sejumlah 7 atribut baru dan 1.175 record data dengan isi data yang tidak lagi
redundant, tidak missing value dan data yang digunakan adalah data yang konsisten.
Untuk selanjutnya dataset tersebut disebut dengan nama dataset akademik. Tahapan
yang akan dikerjakan kemudian adalah transformasi data, yang akan dijelaskan pada
sub bahasan selanjutnya.
Data Mining
Tabel 13. Kombinasi dataset hasil pemisahan dengan metode 3-fold cross validation
Data Training Data Testing
Tabel 14. Contoh data dengan kelas mahasiswa aktif dan tidak aktif berdasarkan
atribut JnsSLA
= 0,739
Jika dalam satu set hanya terdiri dari satu kelas maka entropinya = 0. Jika
perbandingan dua kelas rasionya sama maka nilai entropinya=1. Dengan
menggunakan formula yang sama dilakukan pemilihan atribut, dimana akan dihitung
rasio nilai kelas aktif dan tidak aktif dari seluruh atribut. Salah satu contoh
penerapan formula tersebut untuk pemilihan atribut (atribut JnsSLA) adalah sebagai
berikut,
JnsSLA = SMU,
801 801 219 219
I (801,219)= 1020 log2 1020 1020 log2 1020 = 0,75
JnsSLA = SMK,
104
I (104,23)= log 104 23 log 23 = 0,682
2 2
127 127 127 127
JnsSLA = MA,
8
20 8
20
I (20,8)= log 2
log = 0.862
2
28 28 28 28
Maka total entropi atribut JnsSLA :
1020 127 28
E( JnsSLA)= 1175 (0,75)+1175 (0,682)+1175 (0,862)=
0,745
Tabel 15. Nilai gain seluruh atribut pada kelompok data training dan data testing
Pada Tabel 15 diatas tampak bahwa atribut IPK memiliki nilai Gain
tertinggi, sehingga atribut ini menjadi atribut root pada decision tree, kemudian
dilanjutkan dengan atribut Alamat dan WilSMU yang berfungsi sebagai child
node, dan diakhiri oleh label kelas aktif dan tidak aktif yang berfungsi sebagai
leaf. Maka dapat dikatakan bahwa parameter penentu pertama seorang
mahasiswa berpotensi untuk aktif atau tidak aktif pada waktu yang akan datang
dilihat dari IPK yang diperoleh mahasiswa yang bersangkutan, kemudia Alamat
tinggal dan WilSMU mahasiswa tersebut. Atribut Usia, PkOrtu, JnsSLA dan
Anakke rata-rata nilai gain yang diperoleh sangat kecil jika dibandingkan
dengan atribut Alamat, WilSMU dan IPK, sehingga dapat disimpulkan bahwa
dukungan informasi yang terkandung dalam atribut tersebut terhadap output
yang dicapai sangat kecil. Maka atribut akhir yang terpilih hanya terdiri dari
atribut IPK, Alamat, dan WilSMU. Dengan menggunakan tiga atribut terakhir
tadi maka diperoleh dengan jelas karakteristik mahasiswa aktif dan tidak aktif
beserta aturan yang mengklasifikasikan data tersebut.
Pada Gambar 6 berikut ini disajikan hasil klasifikasi pada data testing 3
dengan menggunakan tiga atribut terakhir tadi.
Gambar 6. Gambar hasil klasifikasi data testing 3 menggunakan weka
classifier
Salah satu hasil klasifikasi decision tree seperti pada Gambar 6 diatas
menggunakan beberapa parameter yang tersedia pada weka classifier untuk
klasifikasi menggunakan algoritma C5.0 ( atau J48 pada weka ) yaitu :
- binary splits= false, jika bernilai true maka setiap level hanya terdiri dari dua
cabang (pada setiap atribut hanya terdiri dari dua kategori, kategori lain
dianggap sebagai kategori pada atibut lain)
- confidencefactor = 0.25, atribut dengan nilai gain sama dengan 0.25 atau
lebih tinggi maka terpilih sebagai atribut untuk decision tree, sedangkan
atribut dengan nilai lebih kecil dari 0.25 akan dipangkas (pruned) dan tidak
terpilih sebagai atribut untuk decision tree.
- debug = false, jika bernilai true maka classifier akan memberikan informasi
yang akan ditampilkan pada layar console.
- minnumObj = 2, jumlah minimum instances per leaf.
- numfolds=3, data yang akan diklasifikasi dibagi menjadi 3 bagian yaitu 1
bagian data digunakan untuk proses pruning sedangkan 2 bagian data yang
lainnya digunakan untuk membentuk decision tree berdasarkan hasil dari
bagian data sebelumnya .
- reducederrorpruning = false,tidak dilakukan prosedur pruning yang lain
- save instance data = false, tidak dilakukan penyimpanan data training untuk
visualisasi
- seed = 1, digunakan untuk mengacak data saat reduksi error pruning
dilakukan
- subtreeraising = true, memeriksa posisi subtree pada saat proses pruning
dilakukan
- unpruned = false, jika bernilai true maka proses pruning tidak dikerjakan.
- uselaplace = false,dengan menggunakan metode Laplace akan dihitung
jumlah true classified dan missclassified.
Dan bentuk Gambar 7 diatas dapat pula dilihat dalam bentuk decision
tree yang dihasilkan, seperti pada Gambar 8 berikut ini :
Evaluasi
Seperti yang sudah dijelaskan pada bahasan sebelumnya, pada tahap ini
akan dilakukan evaluasi terhadap kedua algoritma yang dipakai pada dataset
akademik dengan memperhatikan beberapa parameter evaluasi yaitu correctly
classified, incorrectly classified, yang mana kedua parameter ini diwakili oleh
parameter overall success rate yang terdapat pada confusion matrix. Persentase
klasifikasi sesuai dengan kelasnya dan klasifikasi yang tidak sesuai dengan
kelasnya diukur menggunakan lift chart dan recall precision sehingga diperoleh
informasi yang tersembunyi di dalamnya. Untuk lebih mempermudah
pemahaman dalam menganalisa hasil klasifikasi yang disajikan, dilampirkan
pula beberapa visualisasi hasil tersebut dalam bentuk grafik yang akan disajikan
setelah tabel persentase hasil klasifikasi.
Berikut ini pada Tabel 16 disajikan persentase hasil klasifikasi data
sesuai dengan kelasnya berdasarkan alat ukur evaluasi berupa confusion matrix
yang terdiri dari overall success rate, lift chart, dan recall precision pada C5.0
dan KNN terhadap data training dan data testing.
Tabel 16. Persentase hasil klasifikasi berdasarkan alat ukur evaluasi confusion
matrix (overall success rate, lift chart, dan recall precision)
Gambar 10. Grafik Overall Success Rate pada dataset akademik menggunakan metode decision
tree (C5.0) dan KNN
Pada grafik di atas terlihat bahwa keberhasilan klasifikasi yang mencapai nilai hampir
100% menunjukkan bahwa KNN dengan k=1 menjadi lebih baik dibandingkan C5.0, namun
keberhasilan tersebut tidak terulang pada saat jumlah k diberikan nilai yang lebih besar. Maka
dapat disimpulkan bahwa klasifikasi metode KNN dengan k=1 adalah model terbaik.
100
90
80
70
nilai % )
training
60
(
50 testing
40
30
20
10
0
c5.0 knn=1 knn=2 knn=3
lift chart
Gambar 11. Grafik Lift Chart pada dataset akademik menggunakan metode decision tree (5.0)
dan KNN
Pada Gambar 11 di atas, kecenderungan hasil yang sama yaitu jumlah kelas positif pada
kedua algoritma terjadi pada saat klasifikasi dilakukan dengan
menggunakan data training dan testing. Rata-rata jumlah data yang terklasifikasi ke dalam
kelas positif mencapai 40% dari seluruh data yang diklasifikasi.\
57
100
90
80
70
nilai (%)
60
Training
50 Testing
40
30
20
10
0
C5.0 knn=1 knn=3 knn=5
recall precision
Gambar 12. Grafik Recall Precision pada dataset akademik menggunakan metode decision tree
(5.0) dan KNN
Pada grafik di atas data yang di klasifikasi dan sesuai dengan kelasnya rata-rata mencapai
nilai hingga 80% lebih, yang menyatakan bahwa seluruh data yang di klasifikasi dapat dikenali
dengan sangat baik oleh kedua algoritma. Hal ini dapat disebabkan oleh karena dilakukannya
tahap seleksi data dan atribut sebelum dilakukan kegiatan klasifikasi, sehingga seluruh data yang
diolah hanyalah data yang bersih dari missing value dan redudancy. Sementara itu sejumlah data
yang diklasifikasi namun tidak sesuai dengan kelasnya (missclassified) sebanyak 5%, dan berikut
ini pada Gambar 13 disajikan grafik persentase klasifikasi sesuai dengan kelasnya (true
classified) dan klasifikasi tidak sesuai dengan kelasnya (missclassified).
ketepatan klasifikasi
100
90
80
70
nilai (%)
60 true classified
50 missclassified
40
30
20
10
0
C5.0 knn=1 knn=3 knn=5
Hasil yang diperoleh dalam penelitian ini dengan menggunakan algoritma C5.0 dan KNN
menunjukkan bahwa decision tree dengan algoritma C5.0 tetap dinilai lebih baik ini
dibandingkan dengan KNN, karena decision tree memberikan output berupa karakteristik data
58
yang terklasifikasi, baik untuk kelas aktif maupun kelas tidak aktif. Sedangkan knn tidak dapat
memberikan karakteristik tersebut sehingga tidak diperoleh informasi karakteristik data yang
dibutuhkan, melainkan hanya memberikan informasi jumlah data yang dapat terklasifikasi dan
tidak terklasifikasi saja.
4. Metode Clustering
d ( x, y) = ( x1 − y1 ) 2 + ( x2 − y2 ) 2 + ... + ( x p − y p ) 2
Atau :
59
1/ 2
p
d ( x, y ) = ∑ | xi − yi 2
|
i =1
Metode Clustering pada dasarnya mengoptimumkan pusat cluster(centroid) atau
mengoptimalkan lebar antar cluster.
Macam-macam metode clustering :
• Berbasis Metode Statistikk
a. Hirarchical clustering method : pada kasus untuk jumlah kelompok belum
ditentukan terlebih dulu, contoh data-data hasil survey kuisioner
Macam-metode jenis ini: Single Lingkage,Complete Linkage,Average Linkage dll.
b. Non Hirarchical clustering method: Jumlah kelompok telah ditentukan terlebih
dulu.Metode yang digunakan : K-Means.
• Berbasis Fuzzy : Fuzzy C-Means
• Berbasis Neural Network : Kohonen SOM, LVQ
• Metode lain untuk optimasi centroid atau lebar cluster : Genetik Algoritma (GA)
60
Pertama akan kita bahas dulu metode cluster secara statistic untuk non hirachical method
yaitu: K-Means Clustering
Algoritma:
1. Partisi item menjadi K initial cluster
2. Lakukan proses perhitungan dari daftar item, tandai item untuk kelompok yang mana
berdasarkan pusat(mean) yang terdekat (dengan menggunakan distance dapat
digunakan Euclidean distance).Hitung kembali pusat centroid untuk item baru yang
diterima pada cluster tersebut dari cluster yang kehilangan item.
3. Ulangi step 2 hingga tidak ada lagi tempat yang akan ditandai sebagai cluster baru.
Contoh :
Dikethui data sebagai berikut:
Item Observasi
X1 X2
A 5 3
B -1 1
C 1 -2
D -3 -2
• Langkah kedua :
Lakukan perhitungan jarak dengan eclidean dari masing-masing item dari
centroid(pusat) cluster dan tandai kembali setiap item berdasarkan kedekatan
group.Jika item bergerak dari initial configuration, Centroid(pusat/means) cluster
harus diupdate sebelum diproses.Kita hitung kwadrat jarak(squared distance) sbb:
61
d 2 ( A, ( AB)) = (5 − 2)2 + (3 − 2)2 = 10
d 2 ( A, (CD)) = (5 + 1)2 + (3 + 2)2 = 61
Sejak A dekat pada cluster (AB) dibandingkan pada cluster (CD), maka tidak perlu
ditandai.Lanjutkab perhitungan :
Sehingga B akan ditandi kembali menjadi anggota baru pada cluster (CD), sehingga
membentuk cluster baru (BCD) maka koordinat dari pusat cluster terupdate sebagai berikut :
Selanjutnya lakukn chek untuk setiap item untuk ditandai kembali. Perhitungan kwadrat
jarak(squared distances) dibarikan sbb:
62
Kita lihat setiap item yang baru telah ditandai untuk cluster berdasarkan centroid(pusat)
terdekat maka proses telah dihentikan.Sehingga dengan K=2 cluster maka terbentuk cluster
sebagai berikut : A dan (BCD).
63