Professional Documents
Culture Documents
DISUSUN OLEH: KELOMPOK C.23 ARIF RAKHMANTO (08 522 200) CATUR HERMAWANTO (08 522 210)
LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA 2010
ABSTRAKS
Analisis cluster merupakan salah satu teknik multivariat dalam data mining yang bertujuan untuk mengidentifikasi sekelompok obyek dengan kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek yang berada dalam kelompok yang sama relatif lebih homogen (sama) daripada obyek yang berada pada kelompok yang berbeda. Metode yang digunakan dalam peneliatian ini adalah metode hirarki. Dan dari hasil penelitian yang dilakukan terbentuk 3 cluster dan 1 outlier. Keyword : Analisis Cluster, Metode Hirarki, Dendogram
BAB I PENDAHULUAN
1.1 Latar Belakang masalah Laboratorium Data Mining merupakan salah satu lab. yang dibuat oleh UII yang ditujukan kepada mahasiswa jurusan teknik industri. Namun mahasiswa biasanya datang ke laboratorium hanya untuk melaksanakan praktikum saja. Padahal laboratorium tersebut dibuat tidak hanya untuk keperluan praktikum. Maka dengan penelitian yang dilakukan akan diketahui profilisasi mahasiswa yang berkunjung ke laboratorium data mining. Profilisasi tersebut berisi jenis kelamin, usia, angkatan, intensitas, dan durasi atau berapa lama biasanya responden tersebut berada di laboratorium.
1.2 Rumusan Masalah 1. Berapa cluster yang terbentuk dari penelitian yang dilakukan ? 2. Bagaimana hasil profilisasi customer berdasarkan penelitian ?
1.3 Batasan Masalah 1. Penelitian dikhususkan pada mahasiswa Teknik Industri. 2. Obyek lokasi penelitian adalah Laboratorium Data Mining.
1.4 Tujuan penelitian 1. Untuk mengetahui berapa banyak cluster yang akan terbentuk dari penelitian yang dilakukan. 2. Untuk mengetahui hasil profilisasi customer berdasarkan penelitian.
1.5 Manfaat Penelitian Penelitian ini bermafaat untuk mengetahui apakah laboratorium data mining perlu meningkatkan pelayanan, mengatur ulang tata letak dan menambah fasilitas atau tidak. Manfaat lainnya adalah untuk mengetahui presentase angkatan berapa yang rata rata mengambil praktikum data mining.
3.3 Metode Pengumpulan Data 1. Data Primer Data primer merupakan data yang didapatkan oleh peneliti langsung dari objeknya. Yang menjadi data primer dalam penelitian ini adalah data yang berasal dari kuisioner yang diisi langsung oleh para responden. 2. Data Sekunder Data sekunder adalah data yang didapatkan setelah dilakukan proses analisa dan interpretasi terhadap data data primer atau data data yang telah ada sebelumnya sesuai dengan tujuan penelitian.. Yang merupakan data sekunder pada penelitian ini adalah data data yang telah diclustering menggunakan metode hirarki dan memakai software SPSS.
Mulai
Rumusan Masalah
Input Data
Profilisasi Customer
Selesai
3.5. Langkah Software Kuisioner Tingkat Kepuasan 1. 2. 3. 4. 5. 6. 7. 8. 9. Input data yang diperoleh ke software Pilih analyze klik Clasify lalu pilih Hirarchical Cluster Variabel : Letakkan semua Variabel X yang valid Label case by : Letakkan nama responden Cluster : Case Display : statistic, plot Statistik : agglomeration schedule Plots : klik Dendogram I ccicle : none
10. Method : Cluster Method Pilih nearest neighbor measure Interval pilih Squared Euqliden Distance 11. Klik save Cluster membership : none
Kuisioner Profilisasi Customer 1. Input data yang diperoleh ke software 2. Pilih analyze klik Descriptive Statistics lalu pilih Crosstabs 3. Row : Letakkan semua variable Y yang valid 4. Column : Letakkan Cluster Member 5. Exact : Asymptotic only 6. Statistics : Correlations 7. Cells : Counts klik observed, Noninteger Weights klik Round Cells Counts 8. Format : Row Order klik Ascending 9. Klik OK
No. 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
Nama Wanda Trisno Rizki D.K. Himawan Omiyabi Laskar Kesatria Ibnu Herlino Chanifa Yunani Tomy Safri Halimi Rozaq Lenny Octaviani Nurul Luklu Abdul Hafith Syarif Novi Kidhut Vivialita Arfiana Maya Karen Didit Tasya Tyas Jusman Bieber Galih
Jenis Kelamin 1 1 1 1 1 1 1 2 1 1 1 2 2 1 1 2 1 2 2 2 2 1 2 2 1 1
Usia 3 3 3 3 3 3 3 2 3 3 3 2 3 3 3 2 3 3 3 3 3 3 3 3 3 3
Angkatan Intensitas 1 2 1 1 1 1 2 3 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 4 4 1 2 2 2 3 4 2 4 1 3 3 1 2 3 1 3 4 2 4 3 3 4 2 3
Durasi 1 1 3 4 3 3 4 3 2 1 4 3 4 4 3 3 4 3 3 2 1 3 1 2 4 2
Hasil Rekapitulasi Kuesioner Tingkat Kepuasan Tabel 4.2 Rekapitulasi Kuesioner Tingkat Kepuasan No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Sekar Hendia V. R Huda Annisa Fitra Fandi Maro Ikhsan Aya' Mabok Richo Atlit Digdoyo Sigit Anestia Ayu Ryan Fauzi Dika Oki Hendi Kristin Farikh Adit Nunuk Wanda Trisno Rizki D.K. Himawan Omiyabi Nama Fasilitas 3 3 3 2 3 2 2 2 2 2 2 3 2 2 2 1 2 2 1 2 1 2 2 2 2 1 2 2 2 Pelayanan 3 2 3 3 3 2 2 2 3 2 3 3 3 2 3 2 2 2 2 2 2 1 2 2 3 2 3 3 3 Tata Letak 4 3 4 3 3 2 2 3 3 2 2 4 2 3 3 1 3 1 2 3 1 2 2 3 3 2 2 2 2 Kenyamanan 3 4 4 3 2 1 2 2 2 2 2 4 2 3 2 3 3 3 3 3 3 3 1 2 3 1 3 2 1
No 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
Nama Laskar Kesatria Ibnu Herlino Chanifa Yunani Tomy Safri Halimi Rozaq Lenny Octaviani Nurul Luklu Abdul Hafith Syarif Novi Kidhut Vivialita Arfiana Maya Karen Didit Tasya Tyas Jusman Bieber Galih
Fasilitas 2 2 2 2 2 1 3 2 2 2 2 1 3 3 3 3 3 2 3 2 2
Pelayanan 3 2 2 2 2 2 2 2 3 2 2 1 4 3 2 3 3 2 2 3 2
Tata Letak 2 2 2 3 2 3 3 2 1 2 2 1 3 3 3 3 3 4 2 3 2
Kenyamanan 2 2 2 2 2 1 2 2 1 2 2 1 3 3 2 3 2 4 2 3 1
4.2. Pengolahan Data 4.2.1. Metode Hirarki a. Stage Tabel 4.3 Agglomeration Schedule Cluster Combined Stage Cluster 1 Cluster 2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 25 5 43 36 39 37 34 32 24 31 10 28 13 4 8 6 16 17 14 9 11 50 49 46 45 44 40 39 37 34 33 32 31 30 28 25 24 23 21 20 17 15 13 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 Coefficients Cluster 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Cluster 2 0 0 0 0 0 0 6 7 8 0 9 11 0 13 2 10 1 0 0 19 0 14 17 15 42 26 25 7 8 9 11 16 12 24 14 22 32 29 33 34 20 36 38 31 Stage Cluster First Appears Next Stage
Cluster Combined Stage Cluster 1 Cluster 2 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 3 7 36 42 1 29 8 26 11 4 6 16 16 8 7 8 7 6 4 1 1 1 1 1 1 12 10 48 43 42 38 36 35 29 27 26 19 18 14 11 9 8 7 6 5 4 3 47 41 22 .000 .000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 2.000 2.000 2.000 Coefficients
c. Cluster Tabel 4.4 Cluster Cluster 1 Adit Galih Fandi Trisno Rozaq Syarif Novi Nurul Luklu Safri Halimi Chanifa Ibnu Herlino Mabok Maro Himawan Laskar Kesatria Digdiyo Richo Omiyabi Abdul Hafit Aya Anestia Ryan Hendi Sigit Nunuk Tomy Ikhsan Lenny Oktaviani Maya Cluster 2 Tasya Kidhut Farikh Cluster 3 Ayu Kristin Dika Oki Fauzi Cluster 4 (outlier) Hendia V.
Cluster 1 Tyas Wanda Jusman Beiber Annisa Rizki D Didit Arfiana Karen Vivialita Sekar Huda Atlit
Cluster 2
Cluster 3
Cluster 4 (outlier)
Tabel 4.5 Jenis Kelamin * Cluster Member Cluster Member 1 Jenis Kelamin Laki - laki Count 27 2 2 4.0% 1 2.0% 3 6.0% 3 2 4.0% 2 4.0% 4 8.0% 4 0 .0% 1 2.0% 1 2.0% Total 31 62.0% 19 38.0% 50 100.0%
Tabel 4.6 Usia * Cluster Member Cluster Member 1 Usia 17 - 19 tahun Count 7 2 1 2.0% 2 4.0% 3 6.0% 3 0 .0% 4 8.0% 4 8.0% 4 0 .0% 1 2.0% 1 2.0% Total 8 16.0% 42 84.0% 50 100.0%
Tabel 4.7 Angkatan * Cluster Member Cluster Member 1 Angkatan <= 2007 Count 8 2 0 .0% 2 4.0% 1 2.0% 3 6.0% 3 1 2.0% 3 6.0% 0 .0% 4 8.0% 4 0 .0% 1 2.0% 0 .0% 1 2.0% Total 9 18.0% 37 74.0% 4 8.0% 50 100.0%
% of Total 84.0%
Tabel 4.8 Intensitas * Cluster Member Cluster Member 1 Intensitas Sangat Sering Count 5 2 1 2.0% 0 .0% 1 2.0% 1 2.0% 3 6.0% 3 3 6.0% 1 2.0% 0 .0% 0 .0% 4 8.0% 4 0 .0% 1 2.0% 0 .0% 0 .0% 1 2.0% Total 9 18.0% 12 24.0% 14 28.0% 15 30.0% 50 100.0%
Tabel 4.9 Durasi * Cluster Member Cluster Member 1 Durasi <= 15 menit Count 9 2 2 4.0% 0 .0% 0 .0% 1 2.0% 3 6.0% 3 1 2.0% 0 .0% 0 .0% 3 6.0% 4 8.0% 4 0 .0% 0 .0% 1 2.0% 0 .0% 1 2.0% Total 12 24.0% 8 16.0% 14 28.0% 16 32.0% 50 100.0%
BAB V PEMBAHASAN
5.1. Clustering Teknik yang digunakan dalam penelitian in adalah Teknik hirarki (hierarchical methods) adalah teknik clustering membentuk kontruksi hirarki atau berdasarkan tingkatan tertentu seperti struktur pohon (struktur pertandingan). Dengan demikian proses pengelompokkannya dilakukan secara bertingkat atau bertahap. Hasil dari pengelompokan ini dapat disajikan dalam bentuk dendogram. Metode dalam teknik hirarki yang digunakan dalam penelitian ini adalah Agglomerative Methods. Dari pengolahan data dengan menggunakan metode herarki maka terbentuklah 4 cluster yang dimana cluster 1 terdiri dari 42 responden, cluster 2 terdiri dari 3 responden, dan cluster 3 terdiri dari 4 responden. Cluster 4 tidak memiliki kelompok yang relative homogen, sehingga cluster 4 dikatakan outlier. Cluster 4 terdiri dari 1 responden.
5.2. Profilisasi Customer Kuisioner 1 merupakan profilisasi dari customer. Ada 5 variabel yang terdapat pada kuisioner 1, yaitu Jenis Kelamin, Usia, Angkatan, Intensitas, dan Durasi. Berikut penjabaran dari crosstab masing masing variable. Jenis Kelamin Cluster 1 Laki laki : 27 Perempuan : 15 Total : 42 Cluster 2 Laki laki : 2 Perempuan : 1 Total : 3 Cluster 3 Laki laki : 2 Perempuan : 2 Total : 4 Cluster 4 Laki laki : 0 Perempuan : 1 Total : 1
Usia Cluster 1 17 19 tahun : 7 20 22 tahun : 35 Total : 42 Cluster 2 17 19 tahun : 1 20 22 tahun : 2 Total : 3 Cluster 3 17 19 tahun : 0 20 22 tahun : 4 Total : 4 Cluster 4 17 19 tahun : 0 20 22 tahun : 1 Total : 1
Angkatan Cluster 1 2007 : 8 2008 : 31 2009 : 3 Total : 42 Cluster 2 2007 : 0 2008 : 2 2009 : 1 Total : 3 Cluster 3 2007 : 1 2008 : 3 2009 : 0 Total : 4 Cluster 4 2007 : 0 2008 : 1 2009 : 0 Total : 1
Intensitas Cluster 1 Sangat Sering : 5 Sering : 10 Sedang : 13 Jarang : 14 Total : 42 Cluster 2 Sangat Sering : 1 Sering : 0 Sedang : 1 Jarang : 1 Total : 3 Cluster 3 Sangat Sering : 3 Sering : 1 Sedang : 0 Jarang : 0 Total : 4
Durasi Cluster 1 15 menit : 9 16 30 menit : 8 30 60 menit : 13 60 menit : 12 Total : 42 Cluster 2 15 menit : 2 16 30 menit : 0 30 60 menit : 0 60 menit : 1 Total : 3 Cluster 3 15 menit : 1 16 30 menit : 0 30 60 menit : 0 60 menit : 3 Total : 4 Cluster 4 15 menit : 0 16 30 menit : 0 30 60 menit : 1 60 menit : 0 Total : 1
6.1. Kesimpulan Berdasarkan hasil dari pembahasan pada bab V, maka didapatkan beberapa kesimpulan : 1. Cluster yang terbentuk sebanyak 3 cluster dan 1 outlier. Cluster 1 terdiri dari 42 responden, cluster 2 terdiri dari 3 responden, dan cluster 3 terdiri dari 4 responden. Cluster 4 tidak memiliki kelompok yang relative homogen, sehingga cluster 4 dikatakan outlier. Cluster 4 terdiri dari 1 responden. 2. Mahasiswa Teknik Industri yang berkunjung ke laboratorium Data Mining dominan berjenis kelamin laki-laki dengan rata-rata usia 20 22 tahun dan merupakan angkatan 2008 dengan intensitas kunjungan yang jarang dan durasi atau lama berkunjung responden 60 menit .
6.2. Saran Berdasarkan kesimpulan diatas maka disarankan kepada Laboratorium Data Mining agar lebih gencar dalam mempromosikan kepada mahasiswa Teknik Industri dan mengadakan kegiatan yang bersifat rutin selain praktikum agar intensitas kunjungan mahasiswa ke Laboratorium dapat bertambah.
DAFTAR PUSTAKA
Modul II Analisis Cluster Praktikum Data Mining Han, Jiawei. Data Mining Concept and Technique. Presentation. http://www.cse.msu.edu/~cse980 Bertalya, Konsep Data Mining. Universitas Gunadarma, 2009. Walpole, Ronald E. Probability and Statistics for Engineers and Scientists.
LAMPIRAN
Cluster
Case Processing Summary Cases Valid N 50 Percent 100.0 N 0 Missing Percent .0 N 50 Total Percent 100.0
a,b
Single Linkage
Agglomeration Schedule Cluster Combined Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Cluster 1 23 25 5 43 36 39 37 34 32 24 31 10 28 13 4 8 Cluster 2 50 49 46 45 44 40 39 37 34 33 32 31 30 28 25 24 Coefficients .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 Stage Cluster First Appears Cluster 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Cluster 2 0 0 0 0 0 0 6 7 8 0 9 11 0 13 2 10 Next Stage 17 15 42 26 25 7 8 9 11 16 12 24 14 22 32 29
Cluster Combined Stage 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 Cluster 1 6 16 17 14 9 11 3 7 36 42 1 29 8 26 11 4 6 16 16 8 7 8 7 6 4 1 1 1 1 1 1 1 1 Cluster 2 23 21 20 17 15 13 12 10 48 43 42 38 36 35 29 27 26 19 18 14 11 9 8 7 6 5 4 3 47 41 22 16 2 Coefficients .000 .000 .000 .000 .000 .000 .000 .000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 2.000 2.000 2.000 2.000 2.000
Dendrogram
* * * * * * H I E R A R C H I C A L Dendrogram using Single Linkage Rescaled Distance Cluster Combine C A S E Label Num Adit Galih Fandi Trisno Rozaq Syarif Novi Nurul Lu Safri Ha Chanifa Ibnu Her Mabok Maro Himawan Laskar K Digdoyo Richo Omiyabi Abdul Ha Aya' Anestia Ryan Hendi Sigit Nunuk Tomy Ikhsan Lenny Oc Maya Tyas Wanda Jusman B Annisa Rizki D. Fitra Didit Arfiana Karen Vivialit Sekar Huda Atlit Tasya Kidhut Farikh Ayu Kristin Dika Oki Fauzi Hendia V 23 50 6 26 35 39 40 37 34 32 31 10 7 28 30 13 11 29 38 9 15 17 20 14 24 33 8 36 44 48 25 49 4 27 5 46 43 45 42 1 3 12 47 41 22 16 21 19 18 2 0 5 10 15 20 25 +---------+---------+---------+---------+---------+ C L U S T E R A N A L Y S I S * * * *
Crosstabs
Case Processing Summary Cases Valid N Jenis Kelamin * Cluster Member Usia * Cluster Member Angkatan * Cluster Member Intensitas * Cluster Member Durasi * Cluster Member 50 50 50 50 50 Percent 100.0% 100.0% 100.0% 100.0% 100.0% N 0 0 0 0 0 Missing Percent .0% .0% .0% .0% .0% N 50 50 50 50 50 Total Percent 100.0% 100.0% 100.0% 100.0% 100.0%
Symmetric Measures Asymp. Std. Value Interval by Interval Ordinal by Ordinal N of Valid Cases a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Based on normal approximation. Pearson's R Spearman Correlation .159 .121 50 Errora .141 .146 Approx. Tb 1.117 .844 Approx. Sig. .270 .403
c c
Symmetric Measures Asymp. Std. Value Interval by Interval Ordinal by Ordinal N of Valid Cases a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Based on normal approximation. Pearson's R Spearman Correlation .097 .056 50 Error
a
Approx. Approx. T
b
Sig. .501
c
.078 .119
.679 .391
.698c
Symmetric Measures Asymp. Std. Value Interval by Interval Ordinal by Ordinal N of Valid Cases a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Based on normal approximation. Pearson's R Spearman Correlation .023 .071 50 Error
a
.160 .495
.623c
Symmetric Measures Asymp. Std. Value Interval by Interval Pearson's R Ordinal by Ordinal Spearman Correlation N of Valid Cases a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Based on normal approximation. -.368 -.334 50 Errora .107 .129 Approx. Tb -2.739 -2.459 Approx. Sig. .009c .018c
Symmetric Measures Asymp. Std. Value Interval by Interval Ordinal by Ordinal N of Valid Cases a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Based on normal approximation. Pearson's R Spearman Correlation .087 .065 50 Error
a
Approx. Approx. T
b
.137 .162
.603 .452
DISUSUN OLEH: KELOMPOK C.23 ARIF RAKHMANTO (08 522 200) CATUR HERMAWANTO (08 522 210)
LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA 2010
ABSTRAKS
Regresi merupakan salah satu metode yang dapat digunakan untuk memprediksi penjualan pada suatu perusahaan. Dalam penelitian ini, analisis regresi berganda digunakan untuk memprediksi total penjualan dari butik THE UNIQUE CULTURE. Metode yang digunakan dalam penelitian ini adalah Analisis Linier Berganda yang merupakan suatu metode statistik umum yang digunakan untuk meneliti hubungan antara sebuah variable dependent dengan beberapa variable independent. Tujuan analisis regresi linier berganda adalah menggunakan variable independent yang diketahui, untuk meramalkan variable dependent. Keyword : Regresi, Regresi Linear Berganda, THE UNIQUE CULTURE
BAB I PENDAHULUAN
1.4 Latar Belakang masalah THE UNIQUE CULTURE merupakan sebuah butik Batik dengan etnik modern yang sedang berkembang di kalangan menengah atas masyarakat Indonesia. Dalam beberapa bulan terakhir, THE UNIQUE CULTURE gencar mempromosikan batik dengan segala jenis varian barunya yang dijualnya dengan membuka outlet-outlet di 50 daerah. Dalam rangka memperluas jaringan pasar, THE UNIQUE CULTURE menambah 5 kota untuk membuka outletnya, yakni Purworejo, Purwodadi, Waykambas, Musi dan Tarakan. Oleh sebab itu, THE UNIQUE CULTURE membutuhkan prediksi penjualan pada lima kota tersebut.
1.5 Rumusan Masalah 1. Bagaimana hasil uji normalitas? 2. Bagaimana hasil uji signifikansi persamaan regresi? 3. Bagaimana persamaan regresi yang terbentuk? 4. Bagaimana hasil uji multikolineritas? 5. Bagaimana korelasi antara variable dependent dengan variabel
1.6 Tujuan penelitian 3. Untuk mengetahui hasil uji normalitas. 4. Untuk mengetahui hasil uji signifikansi persamaan regresi. 5. Untuk mengetahui persamaan regresi yang terbentuk. 6. Untuk mengetahui uji multikolineritas. 7. Untuk mengetahui hubungan antara variable dependent dengan variable independentnya. 8. Untuk mengetahui hasil prediksi penjualan pada lima kota.
1.7 Manfaat Penelitian Penelitian ini bermafaat untuk mengetahui persamaan regresi yang didapatkan dari data historis butik THE UNIQUE CULTURE untuk memprediksi total penjualan yang didapatkan pada 5 kota.
ya TIDAK
Selesai
3.5. Langkah Software 12. Input data yang diperoleh ke software independent(X) yang valid
16. Case labels : Letakkan nama 13. Pilih analyze klik Regression lalu pilih Linear daerah
17. Statistik : Regression Coefficient lalu klik estimates, model fit, descriptives, collinearity diagnostics lalu klik continue
18. Plots : Y = dependent, X = *adjpred, klik histogram dan probability plot, klik continue
19. Save : predicted values, klik unstandardized, include the convariance matrix, continue.
20. Option : klik Probability of F, include constant in equation, exclude cases listwise, continue.
21. Klik OK
Banyak penelitian yang bertujuan mencari dasar-dasar untuk mengadakan prediksi suatu variabel dari informasi-informasi yang diperoleh dari variabel tersebut. Misalnya, apakah keadaan cuaca dapat diramalkan dari suhu, tekanan udara, kelembaban udara, dan kecepatan angin; Apakah prestasi belajar anak dapat diprediksikan dari angka kecerdasan dan perbendaharaan bahasa (kosa kata); Apakah prestasi pemain sepak bola dapat dipresiksi dari keahliannya dan umur pemain tersebut; dan sebagainya. Maka diperlukan metoda untuk dapat memecahkan semua masalah yang ada untuk memudahkan dalam pengambilan keputusan. Salah satu tool atau metoda untuk memprediksi adalah Regresi. Dalam kehidupan sehari-hari kita sering melihat suatu peristiwa atau keadaan yang terjadi akibat peristiwa yang lain. Untuk mengetahui hubungan antara kejadian tersebut, terutama untuk menelusuri pola hubungan yang modelnya belum diketahui maka analisis regresi dapat dijadikan alat untuk membantu menganalisis hubungan tersebut. Analisis regresi memiliki 3 kegunaan yaitu, deskripsi, kendali, dan prediksi (peramalan). Tetapi manfaat utama dari kebanyakan penyelidikan statistik dalam dunia bisnis dan ekonomi adalah mengadakan prediksi atau peramalan. Dalam analisis regresi dikenal dua macam variabel atau peubah yaitu variabel bebas (independent variabel) adalah dan variabel tidak bebas (dependent variabel). Variabel bebas (independent variabel) adalah suatau variabel yang nilainya telah diketahui, sedangkan variabel tidak bebas (dependent variabel) adalah variabel yang nialainya belum diketahui dan yang akan diramalkan. Suatu variabel dapat diramalkan dari variabel lain apabila antara variabel yang diramalakan (dependent variabel) dengan variabel yang nilainya diketahui (independent variabel) terdapat hubungan atau korelasi yang signifikan. Misalnya, jika antara tinggi badan dan berat badan pada umur-umur tertentu terdapat korelasi yang signifikan, maka berat badan orang pada umur tersebut akan dapat diramalkan dari tinggi badannya. Korelasi antara independent variable dengan dependent variabel dapat dilukiskan dalam suatu garis. Garis ini disebut garis regresi. Garis regresi mungkin merupakan garis lurus (linier) disebut regresi linier, mungkin juga merupakan garis lengkung (parabolik, hiperbolik,
dan sebagainya) yang disebut regresi non linier. Namun berdasarkan dari data yang ada, maka analisis yang akan digunakan adalah analisis regresi linear berganda. Regresi linier berganda mengamati pengaruh lebih dari satu variabel bebas (independent variable) terhadap variabel tidak bebas (dependent variable), minimal ada dua buah variabel bebas (independent variable). Analisis Linier Berganda adalah suatu metode statistik umum yang digunakan untuk meneliti hubungan antara sebuah variable dependent dengan beberapa variable independent. Tujuan analisis regresi linier berganda adalah menggunakan variable independent yang diketahui, untuk meramalkan variable dependent. Misalnya : penjualan sebuah produk dapat dipengaruhi oleh biaya promosi, biaya produksi, biaya transportasi, gaji karyawan dan lain-lain. Jumlah pengeluaran rumah tangga dipengaruhi oleh pendapatan, jumlah keluarga. Secara matematis regresi linier berganda dapat dituliskan dalam persamaan berikut : = a + b1X1 + b2X2 + b3X3 + + bnXn dimana : Y = variabel yang diramalkan (dependent variable) X1, X2, X3, , Xn = variabel yang diketahui (independent variable) b1, b2, b3,, bn = koefisien regresi
Tabel 3.1 Data historis butik THE UNIQUE CULTURE Biaya Periklanan 50 17 18 25 15 35 21 40 34 44 24 26 15 26 11 44 29 23 29 35 23 45 Laju Pertumbuhan Penduduk 2.55 2.15 1.99 1.76 2.3 2.69 2.56 3 1.65 1.9 1.46 1.57 1.87 1.76 1.98 1.28 1.76 2.23 2.21 2.66 1.69 2.56 Luas Outlet 55 46 53 45 64 54 76 56 67 68 40 61 65 55 41 59 41 65 52 53 54 65 Jumlah Pesaing 35 30 25 33 14 5 10 7 12 9 5 4 7 9 12 53 27 40 25 12 11 9
No.
Daerah
Penjualan
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
Jakarta Pusat Jakarta Barat Jakarta Selatan Bandung Bogor Cirebon Aceh Medan Riau Batam Bengkulu Jambi Banten Cilegon Purwakarta Yogyakarta Semarang Pekalongan Solo Bekasi Tangerang Denpasar
231 135 187 276 233 345 267 163 321 337 333 235 234 169 179 245 100 256 139 157 212 365
No.
Daerah
Penjualan
Biaya Periklanan 24 19 24 29 22 23 33 13 31 26 32 21 18 21 22 21 21 23 15 40 19 27 18 39 39 16 9 39
Laju Pertumbuhan Penduduk 2.39 1.54 2.88 1.99 1.79 2.89 2.68 1.79 1.78 1.46 2.7 1.65 1.9 1 2.76 2.14 2.01 1.87 1.67 2.24 2.58 1.65 2.34 2.21 2.24 1.98 1.22 2.54
Luas Outlet 61 51 75 58 64 68 60 78 45 51 49 54 65 40 50 47 87 43 53 74 64 70 45 88 65 43 46 90
Jumlah Pesaing 17 19 7 6 19 6 8 7 3 5 2 4 9 4 9 8 6 9 5 4 8 8 9 8 9 5 7 9
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
Dumai Bontang Surabaya Kediri Malang Banjarmasin Padang Pekanbaru Manado Jayapura Martapura Sorong Makasar Ambon Bukit Tinggi Purwokerto Tuban Jombang Bangka Belitung Lampung Mataram Depok Gorontalo Metro Madiun Magelang Palangka Raya
250 198 284 247 210 290 342 214 320 300 349 209 217 89 225 135 218 175 211 374 256 234 223 264 319 126 110 390
3.1.2 Data yang Akan Diprediksi Tabel 3.2 Data yang akan diprediksi dari butik THE UNIQUE CULTURE Biaya NO Daerah Periklanan (juta) Laju pertumbuhan penduduk (%) 2.12 1.91 1.88 1.69 2.23 Luas outlet (m2)
Jumlah pesaing
22 27 17 19 23
39 78 37 49 72
5 3 6 3 4
Gambar 3.1
Gambar 3.2
3.2.2 Tabel Model Summary Tabel 3.3 Model Summaryb Model 1 R .663a R Square .440 Adjusted R Square .390 Std. Error of the Estimate 58.90304
3.2.3 Uji Linearitas Tabel 3.4 ANOVAb Model 1 Regression Residual Total Sum of Squares 122477.380 156130.540 278607.920 df 4 45 49 Mean Square 30619.345 3469.568 F Sig.
8.825 .000a
3.2.4 Uji Multikolinieritas dan Persamaan Regresi Tabel 3.5 Coefficientsa Unstandardized Coefficients Model B 1 (Constant) Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing 36.481 3.520 12.587 1.765 -1.631 Std. Error 50.393 .959 19.314 .718 .824 Beta .724 .451 3.670 .079 .652 .473 .001 .518 .018 .054 .826 .844 .858 .925 1.211 1.185 1.165 1.081 Standardized Coefficients t Sig. Tolerance VIF Collinearity Statistics
3.2.5 Nilai Korelasi antara Variable Dependent dengan Variable Independent Tabel 3.6 Correlations Laju Biaya Pertumbuhan Luas Outlet .467 .266 .301 1.000 -.118 .000 .031 .017 . .208 50 50 50 50 50 Jumlah Pesaing -.193 .176 -.101 -.118 1.000 .089 .111 .242 .208 . 50 50 50 50 50
Penjualan Periklanan Penduduk Pearson Correlation Penjualan Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing Sig. (1-tailed) Penjualan Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing N Penjualan Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing 1.000 .513 .326 .467 -.193 . .000 .010 .000 .089 50 50 50 50 50 .513 1.000 .299 .266 .176 .000 . .017 .031 .111 50 50 50 50 50 .326 .299 1.000 .301 -.101 .010 .017 . .017 .242 50 50 50 50 50
3.2.6 Prediksi Berdasarkan table koefisien, maka dapat diperoleh informasi bahwa nilai : a = 36,481 b1 = 3,52 b2 = 12,587 b3 = 1,765 b4 = -1,631 sehingga dapat diperoleh persamaan regresi sebagai berikut :
Y = 36,481 + 3,52 X1 + 12,587 X2 + 1,765 X3 - 1,631 X4 Maka prediksi penjualan pada lima kota adalah sebagai berikut : YPurworejo = 36,481 + 3,52 (22) + 12,587 (2,12) + 1,765 (39) - 1,631 (5) = 201,29 YPurwodadi YWaykambas = 36,481 + 3,52 (27) + 12,587 (1,91) + 1,765 (78) - 1,631 (3) = 288,34 = 36,481 + 3,52 (17) + 12,587 (1,88) + 1,765 (37) - 1,631 (6) = 175,5 YMusi YTarakan = 36,481 + 3,52 (19) + 12,587 (1,69) + 1,765 (49) - 1,631 (3) = 206,23 = 36,481 + 3,52 (23) + 12,587 (2,23) + 1,765 (72) - 1,631 (4) = 266,07
BAB IV PEMBAHASAN
4.1 Uji Normalitas Berdasarkan histogram yang diperoleh dari output SPSS, maka dapat dilihat bahwa pola histogram relatif membentuk lonceng terbalik. Hal tersebut menunjukkan bahwa data bersifat normal. Selain itu, berdasarkan scater plot juga dapa terlihat bahwa pola distribusi data relatif membentuk linier.
4.2 Tabel Model Summary Dari hasil pengolahan data diperoleh nilai R-square yaitu sebesar 0.440, yang artinya besarnya keragaman antara variabel dependent dengan variabel independent yang terdapat pada persamaan regresi sebesar 0.440, semakin besar nilai R-square semakin baik persamaan regresi tersebut dalam menjelaskan keragaman data.
4.3 Uji Linearitas Hipotesis: Ho: Biaya periklanan, laju pertumbuhan penduduk, luas outlet, dan jumlah pesaing tidak berpengaruh pada penjualan. H1: Biaya periklanan, laju pertumbuhan penduduk, luas outlet, dan jumlah pesaing berpengaruh pada penjualan. Tingkat signifikansi Level signifikansi = 0.000 Ftabel = 5,56 Fhitung = 8,825 Daerah kritis Jika Fhitung Ftabel maka Ho ditolak Jika Fhitung Ftabel maka Ho diterima F hitung > F table maka H0 ditolak sehingga persamaan signifikan (ada pengauh yang signifikan antara variable independent terhadap variable dependent. df1 = k = 4 df2 = n k 1 = 45
4.4 Uji Multikolinieritas dan Persamaan Regresi 4.4.1 Uji Multikolinieritas Dengan uji multikolinieritas maka didapat hasil VIF sebagai berikut: VIF Nilai biaya periklanan VIF Nilai laju pertumbuhan penduduk VIF Nilai luas outlet VIF Nilai jumlah pesaing = 1.211 = 1.185 = 1.165 = 1.081
Karena 4 nilai VIF < 2, maka artinya variabel biaya periklanan, laju pertumbuhan penduduk, luas outlet dan jumlah pesaing tidak saling berkorelasi atau tidak terjadi multikolinieritas.
4.4.2 Persamaan Regresi Dari hasil pengolahan data didapat hasil sebagai berikut; a = 36,481 b1 = 3,52 b2 = 12,587 b3 = 1,765 b4 = -1,631 dengan; Y1 = penjualan X1 = biaya periklanan X2 = laju pertumbuhan penduduk X3 = luas outlet X4 = jumlah pesaing sehingga dapat diperoleh persamaan regresi sebagai berikut : Y = 36,481 + 3,52 X1 + 12,587 X2 + 1,765 X3 - 1,631 X4
4.5 Nilai Korelasi antara Variable Dependent dengan Variable Independent Dari hasil pengolahan data diperoleh hubungan korelasi sebagai berikut: 1. Hubungan korelasi antara Y X1 2. Hubungan korelasi antara Y X2 3. Hubungan korelasi antara Y X3 4. Hubungan korelasi antara Y X4 5. Hubungan korelasi antara X1 X2 6. Hubungan korelasi antara X1 X3 7. Hubungan korelasi antara X1 X4 8. Hubungan korelasi antara X2 X3 9. Hubungan korelasi antara X2 X4 10.Hubungan korelasi antara X3 X4 = 0.513 berarti positif kuat. = 0.326 berarti positif lemah = 0.467 berarti positif lemah. = - 0.193 berarti negatif lemah. = 0.299 berarti positif lemah. = 0.266 berarti positif lemah. = 0.176 berarti positif lemah. = 0.301 berarti positif lemah. = - 0.101 berarti negatif lemah. = - 0.118 berarti negatif lemah.
4.6 Prediksi Dari hasil penghitungan dengan menggunakan persamaaan regeresi dapat diketahui prediksi besar insentif karyawan yang akan diterima sebagai berikut: 1. Di kota Purworejo besar penjualan adalah 201.29 2. Di kota Purwodadi besar penjualan adalah 288.34 3. Di kota Waykambas besar penjualan adalah 175.5 4. Di kota Musi besar penjualan adalah 206.23 5. Di kota Tarakan besar penjualan adalah 266.07
6.1. Kesimpulan 1. Berdasarkan hasil uji normalitas diketahui bahwa data bersifat normal 2. Berdasarkan hasil uji signifikansi persamaan regresi, maka : Ftabel = 5,56 Fhitung = 8,825 F hitung > F table maka H0 ditolak sehingga persamaan signifikan (ada pengauh yang signifikan antara variable independent terhadap variable dependent. 3. Persamaan regresi yang terbentuk adalah sebagai berikut : Y = 36,481 + 3,52 X1 + 12,587 X2 + 1,765 X3 - 1,631 X4 4. Berdasarkan uji multikolineritas, maka dapat disimpulkan bahwa variabel biaya periklanan, laju pertumbuhan penduduk, luas outlet dan jumlah pesaing tidak saling berkorelasi atau tidak terjadi multikolinieritas karena 4 nilai VIF < 2. 5. Yang memiliki hubungan positif kuat adalah : Y X1 Yang memiliki hubungan positif lemah adalah : Y X2, Y X3, X1 X2, X1 X3, X1 X4, X2 X3 Yang memiliki hubungan negatif lemah : Y X4, X2 X4, X3 X4 6. Hasil prediksi penjualan pada lima kota : 1. Di kota Purworejo besar penjualan adalah 201.29 2. Di kota Purwodadi besar penjualan adalah 288.34 3. Di kota Waykambas besar penjualan adalah 175.5 4. Di kota Musi besar penjualan adalah 206.23 5. Di kota Tarakan besar penjualan adalah 266.07
6.2. Saran 1. Jumlah variabel independent hendaknya lebih banyak lagi untuk mendapatkan hasil prediksi yang lebih akurat. 2. Berdasarkan dari hasil prediksi, maka disarankan pada Butik THE UNIQUE CULTURE agar membuka outlet baru dengan prioritas sebagai berikut : Di kota Purwodadi besar penjualan adalah 288.34 Di kota Tarakan besar penjualan adalah 266.07 Di kota Musi besar penjualan adalah 206.23 Di kota Purworejo besar penjualan adalah 201.29 Di kota Waykambas besar penjualan adalah 175.5
DAFTAR PUSTAKA
Modul III PREDIKSI Praktikum Data Mining
1. Han, Jiawei. Data Mining Concept and Technique. Presentation. http://www.cse.msu.edu/~cse980 2. Bertalya, Konsep Data Mining. Universitas Gunadarma, 2009. 3. Walpole, Ronald E. Probability and Statistics for Engineers and Scientists.
LAMPIRAN Regression
Descriptive Statistics Mean Penjualan Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing 237,9600 26,2600 2,0694 58,3800 12,2800 Std. Deviation 75,40475 9,65488 ,47433 12,65216 10,61966 N 50 50 50 50 50
Correlations
Penjualan Pearson Correlation Penjualan Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing Sig. (1-tailed) Penjualan Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing N Penjualan Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing 1,000 ,513 ,326 ,467 -,193 . ,000 ,010 ,000 ,089 50 50 50 50 50
Biaya Periklanan ,513 1,000 ,299 ,266 ,176 ,000 . ,017 ,031 ,111 50 50 50 50 50
Laju Pertumbuhan Penduduk ,326 ,299 1,000 ,301 -,101 ,010 ,017 . ,017 ,242 50 50 50 50 50
Luas Outlet ,467 ,266 ,301 1,000 -,118 ,000 ,031 ,017 . ,208 50 50 50 50 50
Jumlah Pesaing -,193 ,176 -,101 -,118 1,000 ,089 ,111 ,242 ,208 . 50 50 50 50 50
Variables Entered/Removed(b) Variables Entered Jumlah Pesaing, Laju Pertumbuha n Penduduk, Luas Outlet, Biaya Periklanan( a) Variables Removed
Model 1
Method
Enter
Model Summary(b) Adjusted R Square ,390 Std. Error of the Estimate 58,90304
Model 1
R ,663(a)
R Square ,440
a Predictors: (Constant), Jumlah Pesaing, Laju Pertumbuhan Penduduk, Luas Outlet, Biaya Periklanan b Dependent Variable: Penjualan
Model 1
df 4 45 49
F 8,825
Sig. ,000(a)
a Predictors: (Constant), Jumlah Pesaing, Laju Pertumbuhan Penduduk, Luas Outlet, Biaya Periklanan b Dependent Variable: Penjualan
Coefficients(a)
Model
Standardized Coefficients
Sig.
B 1 (Constant) Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing a Dependent Variable: Penjualan 36,481 3,520 12,587 1,765 -1,631
Beta
-,230
Collinearity Diagnostics(a)
Condition Index Biaya Periklanan 1,000 3,464 7,664 11,745 15,522 Laju Pertumbuhan Penduduk ,00 ,00 ,04 ,00 ,96
Variance ProportionsLuas Outlet ,00 ,00 ,98 ,00 ,01 Jumlah Pesaing ,00 ,01 ,03 ,72 ,25 Biaya Periklan an ,01 ,88 ,02 ,00 ,09
Residuals Statistics(a)
Minimum Predicted Value Std. Predicted Value Standard Error of Predicted Value Adjusted Predicted Value Residual Std. Residual Stud. Residual Deleted Residual Stud. Deleted Residual Mahal. Distance Cook's Distance Centered Leverage Value a Dependent Variable: Penjualan 152,9086 -1,701 10,798 150,0846 139,44339 -2,367 -2,558 162,80220 -2,736 ,667 ,000 ,014
Maximum 349,8795 2,239 38,091 358,2657 131,23038 2,228 2,354 146,55676 2,486 19,511 ,219 ,398
Mean 237,9600 ,000 17,972 237,9812 ,00000 ,000 ,000 -,02123 -,004 3,920 ,027 ,080
Std. Deviation 49,99538 1,000 4,947 51,31624 56,44765 ,958 1,018 63,74182 1,043 3,089 ,043 ,063
N 50 50 50 50 50 50 50 50 50 50 50 50
Histogram
15
Frequency
10
0 -3 -2 -1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0
Scatterplot
Bengkulu Bandung 100 Purwakarta Pekalongan Manado Martapura Padang Jayapura Cirebon
-100
Belitung Denpasar Depok Yogyakarta Lampung Metro Riau Banten Palangka Raya Bontang Aceh Banjarmasin Jakarta Selatan Dumai Kediri Batam Surabaya Bangka Bogor Malang Makasar Jakarta Barat Tangerang Mataram Sorong Jombang Jambi Pekanbaru Madiun Tuban Purwokerto Magelang Gorontalo Cilegon Jakarta Pusat Semarang Ambon Solo Bekasi Medan
LAPORAN RESMI PRAKTIKUM DATA MINING ASSOCIATION RULE - MARKET BASKET ANALYSIS
LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA 2010
ABSTRAK
Association Rule merupakan salah satu metode dalam Market Basket Analysis yang dapat digunakan untuk mengetahui aturan asosiasi antara himpunan item dalam suatu basisdata transaksi. Aturan asosiasi tersebut sangat bermanfaat bagi perencanaan promosi dan penjualan, strategi pemasaran serta tata letak toko. Dalam penelitian ini, studi Market Basket Analysis dilakukan terhadap toko Indomart Cabang Nogotirto/ 004 untuk menganalisa Association Rule yang terbentuk sehingga dapat diperoleh usulan tata letak toko yang lebih baik. Hasil penelitian menunjukkan bahwa departemen satu memiliki hubungan yang sangat kuat dengan departemen tiga. Sedangkan departemen 2, 4, 5, 6 memiliki hubungan yang sedang dengan departemen 3. Keyword : Association Rule, Market Basket Analysis, Activity Relationship Chart
BAB I PENDAHULUAN
1.1 Latar Belakang Indomart merupakan salah satu toko retail di Indonesia yang berkembang dengan cara franchise, sehingga banyak investor yang membuka cabang di berbagai daerah, salah satunya adalah di daerah Nogotirto, Kecamatan Gamping, Kabupaten Sleman, DIY. Dalam mencatat setiap transaksi pembelian, Indomart menggunakan sistem basis data transaksi yang dapat mencatat setiap transaksi penjualan yang nantinya dapat digunakan untuk kepentingan perencanaan promosi, penjualan, strategi pemasaran dan perencanaan tata letak toko. Transaksi yang tercatat tersebut dapat dipelajari melalui sebuah studi Market Basket Analysis dengan metode Association Rule untuk mengetahui aturan asosiasi diantara himpunan besar data item dalam basisdata transaksi. Tingkat kedatangan dan transaksi konsumen yang relatif tinggi merupakan salah satu faktor pendorong untuk melakukan analisa kelayakan tata letak toko terkait efektifitas dan efisiensi. Oleh sebab itu maka dilakukan analisa terkait perencanaan tata letak toko menggunakan studi Market Basket Analysis dengan metode Association Rule.
1.2 Rumusan Masalah 1. Bagaimanakah Association Rule yang terbentuk berdasarkan hasil penelitian? 2. Bagaimanakah Activity Relationship Chart (ARC) yang diperoleh? 3. Bagaimanakah usulan alternatif tata letak toko yang baru? 1.3 Batasan Masalah 1. Jumlah struk yang digunakan sebagai bahan penelitian dibatasi sejumlah 50 buah struk. 2. Association Rule dan ARC yang diperoleh dari penelitian sebatas dipergunakan untuk merencanakan usulan tata letak toko yang lebih baik. 3. Usulan tata letak toko hanya sebatas per departemen.
1.4 Tujuan Penelitian 1. Untuk mengetahui Association Rule yang terbentuk. 2. Untuk mengetahui Activity Relationship Chart (ARC) yang terbentuk. 3. Untuk mendapatkan alternatif tata letak toko yang lebih menunjang proses transaksi. 1.5 Manfaat Penelitian Penelitian ini bermanfaat untuk mengetahui tingkat efektifitas tata letak toko dalam mengakomodir aktivitas belanja konsumen melalui analisa Association Rule yang nantinya akan digunakan sebagai pertimbangan dalam merencanakan tata letak toko yang lebih baik.
Asociation dalam data mining adalah pekerjaan untuk menentukan mana atribut yang akan didapatkan bersamaan. Dalam dunia bisnis lazim dikenal istilah affinity analysis. Tugas dari asociation rule adalah mencari aturan yang tidak mengcover untuk mengukur hubungan antara dua atau lebih atribut. Association Rule adalah bentuk jika kejadian sebelumnya kemudian konsekuensinya. (IF antecedent, THEN consequent). Bersamaan dengan
perhitungan aturan support dan confidence. Pola asosiasi menjadi salah satu fungsionalitas yang paling menarik dalam penggalian data (Kumar dan Wahidabanu, 2007). Association Rule adalah teknik data mining untuk menemukan aturan assosiatif antara suatu kombinasi item. Contoh dari Association Rule dari analisa pembelian di suatu pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang pembeli membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut Pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu (Wiwin, 2008). Menurut Leo Susanto (2003) penggalian kaidah asosiasi mempunyai peranan penting dalam proses pengambilan keputusan. Salah satu contoh penerapan Association Rule adalah Market Basket Analysis. Association Rule menjadi terkenal karena aplikasinya untuk menganalisa isi keranjang belanja di pasar swalayan, sehingga Association Rule juga sering disebut dengan istilah Market Basket Analysis. Association Rule juga dikenal sebagai salah satu teknik data mining yang menjadi dasar dari berbagai teknik data mining lainnya. Market Basket Analysis merupakan salah satu contoh penerapan Association Rule. Untuk menyampaikan ide mendasar dari Market Basket Analysis, dimulai dengan melihat gambar keranjangan belanjaan pada gambar 3.1 yang berisi bermacam-macam barang-barang yang dibeli oleh seseorang disebuah supermarket. Keranjang ini berisi bermacam-macam barang-barang seperti roti, susu, sereal, telur, mentega, gula, dan sebagainya. Sebuah keranjang memberitahukan kepada kita tentang apa saja yang dibeli oleh seorang konsumen dalam satu waktu. Sebuah daftar
belanjaan yang lengkap yang diperoleh dari semua konsumen memberikan kita informasi yang sangat banyak, dan ini dapat menjelaskan barang-barang apa saja yang paling penting dari bisnis penjualan yaitu apa barang yang dibeli oleh konsumen dan kapan. Setiap konsumen membeli seperangkat barang-barang yang berbeda, dalam jumlah yang berbeda, dan dalam waktu yang berbeda. Market Basket Analysis menggunakan informasi apa yang dibeli oleh konsumen-konsumen untuk
menyediakan tanda/informasi yaitu siapa mereka dan mengapa mereka melakukan pembelian tersebut?. Market Basket Analysis menyediakan pengertian tentang barang dagangan dengan memberitahukan kepada kita produk-produk mana yang memungkinkan untuk dibeli secara bersamaan dan produk mana yang lebih disetujui untuk di promosikan. Karena dalam Market Basket Analysis tidak hanya memahami kuantitas dari item yang dibeli dalam keranjang itu, tapi bagaimana item yang dibeli dalam hubungannya satu dengan yang lain.
3.1 Lokasi Penelitian Indomart Cabang Nogotirto/ 004 Jalan Godean km. 4 Nogotirto, Gamping, Sleman, Daerah Istimewa Yogyakarta
3.2 Objek Penelitian Outlet Indomart Cabang Nogotirto/ 004 beserta pelanggan dan struk transaksi pembeliannya.
3.3 Metode Pengumpulan Data 3.3.1 Data Primer Data primer dalam penelitian ini berupa struk belanja konsumen yang dikumpulkan melalui proses kolektif di lapangan. 3.3.2 Data Sekunder Data sekunder dalam penelitian ini merupakan data yang telah diproses dari data primer menjadi data yang siap untuk diolah lebih lanjut. Data sekunder dalam penelitian ini meliputi data pembelian, data transformasi, dan data tabulasi yang selanjutnya siap diolah menggunakan software.
Mulai
Input Data
Data Tabulasi
Association Rule
Selesai
1.6 Langkah Software 1.6.1 Input Data 1. Pre Processing Data a. Data Integrasi a.1 Edit click Find
b. Data Transformasi Change data department to matrix binary 1 = item dibeli, 0 = item tidak dibeli
c. Data Range: Block matrix binary click enter (name of department enclosed).
g. Ok
Tabel 4.1 Data Transaksi No. 1 Clear Dettol NU 2 Indomie Green Tea 3 4 Buavita Susu Ultra Nescafe Fruit Tea Glade Fresh Sosro 5 Clear Paseo Teh Kotak Kacang Iyes Susu Bendera Teh Sosro Kacang Mayasi Nescafe Uticon Stk Item Yang Dibeli
No. 6 Keripik Jagung Paseo Tong Tji Jasmine Susu Ultra Spons Sabut Vitalis Blossom Enzim 10 Attack Pasta Gigi NU 11 Indomie Indomie Buavita Yakult Green Tea 12 Shampo Clear Dettol Sapu Buavita Indomie Indomie Aneka Sagon Koko Crunch Lem ALL Attack Sikat Gigi Paramex Susu Ultra Enervon C
Susu Ultra
Susu Ultra
Susu Ultra
Shampo o Dove
No Enzim 13 Paseo Sunlight Dettol Vaseline Pasta Gigi Indomil k Coklat Roti 15 Susu Bendera NU Green Tea Paseo Aqua Lumbu ng Straw 16 Attack Hemaviton Gery Salute Sabut Pop Corn Stainles s Indomilk Vanilla Sabut Spons Cap
14
Sensitif Strip
Nice Yoghurt
Stre psil Vit C Gilette Razor Neozep Forte Sikat Gigi Clear Walls Almond Walls Royal
17
18
No Aneka 19 Tales Gurih NU Green Tea Delfi Wafer Coklat Cap Botan Lang Gulaku NU Apel Fuji Green Tea
Item Yang Dibeli Swiss Roll Choco Kraft Keju Cake Swiss Roll Panda n
Okky Jelly
Nesc afe
20
Paseo
21
Nescafe
NU Green Tea
Koko Crunch Charm Chitato Indomie Body Fit Pronas Corned Mie Sedap
23
Paseo
Coffemix 3in1
Sardines ABC
Zinc
Pantene
24
Bimoli Special
Teh Bubuk
No Charm Body Fit Nice Yogurt Koko Crunch Cap 28 Lang Kayu Putih 29 30 Sensitif Strip Indomie Paseo Teh Sosro Nice Yoghurt Brand Gold Malt Pop Corn Keset Aqua Madu Nusantara Ultra Kacang Hijau Susu Ultra Charm Body Fit Susu Indomilk
25
26
27
Kiranti
31
Indomie
Sensitif Strip
No Nice Yoghurt Cap Lang Kayu Putih Swiss Roll Pandan Tissue Klenex Sari Roti Max 36 Gulaku Lemon Tea 37 Susu Ultra Mizone Qtela Kripik Lifebuoy Men Lifebuoy Men Nice Yoghurt Chitato Enzim Pasta Gigi Sensitif Strip Swiss Roll Choco
32
33
NU Green Tea
34
35
Charmant
Nescafe
38
Chitato
Blaster
No Indomart 39 Air Mineral Gillette Razor Susu Carefree Kotex Maxi Pantene Spray Dry Hemaviton Nice Yoghurt Sari Roti Aqua
40
Paseo
Susu Ultra
Susu Ultra
Susu Ultra
Indomie
Indocafe Cappucino
41
Sambal
Indofood Indomilk Choco Crispy Nice Yoghurt CD-R Birdy Kopi Susu
Mizone
42
43
Sari Roti Coklat Sardines ABC Bihun Instan Birdy Kopi Susu Ultra Slim Kispr ay Bluis
44
Paseo
Clear
No Jeruk Mandarin Walls Vanilla Susu Indomilk Sari Roti Susu Indomilk Brand Gold Teh Susu Indomilk Brand Gold Malt Fino Sosis Sapi Koko Crunch Clear Keset
Item Yang Dibeli Sandal Swallow Uticon Stk Carefree Spray Dry Lifebuoy Men
46
Susu Ultra
Pantene
47
48
49
Susu Ultra
Susu Ultra
Birdy Kopi Gilette Susu Roti Lumbung Razor Roti Lumbung Lifebuo y Men Lux White
50
Ayam Negri
Madu Nusantara
Indomie
b. Data Departemen Tabel 4.2 Data Departemen Dep 1 Dep 2 Dep 3 Dep 4 Dep 5 Dep 6 Dep 7 Dep 8 Makanan Ringan, Snack, Cemilan Makanan Mentah, Bahan Makanan, Bumbu Dapur Minuman Siap Saji, Soft Drink, Ice Cream, Bahan Minuman Peralatan Rumah Tangga Peralatan Mandi Kosmetik, Obat-obatan, Perawatan Tubuh Buah-buahan Pakaian Dalam
c. Minimum Support dan Confidence Minimum support yang digunakan adalah 8. Sedangkan minimum confidence (%) yang digunakan adalah 80.
4.2 Pengolahan Data 4.2.1 Preprocessing Data 1. Data Integrasi Hasil integrasi data Tabel 4.3 Data Integrasi No. 1 Dep Dep 5 5 Dep 3 Dep 4 Item Yang Dibeli
Dep Dep 2 3
Dep Dep 3 3
Dep Dep 5 4
No. 6 Dep Dep 1 3 Dep 1 Dep 1 Dep 4 Dep 5 Dep 3 Dep 3 Dep 4 Dep 5 Dep 3 Dep 4 Dep 1 Dep 4 Dep 4 Dep 3 Dep 1 Dep 6 Dep 5 Dep 5 Dep 6 Dep 2 Dep 3 Dep 3 Dep 6 Dep 2 Dep 3
Dep Dep 4 3
Dep Dep 5 5
Dep 3
Dep Dep 4 6
10
Dep Dep 5 5
11
Dep Dep 2 2
Dep 3
Dep 3
Dep 5
12
Dep Dep 5 5
13
Dep Dep 4 4
Dep 6
Dep 6
Dep Dep 1 3
14
Dep Dep 6 3
15
Dep Dep 3 3
Dep 1
Dep 6
Dep 3
16
Dep Dep 5 6
17
Dep Dep 4 1
18
Dep Dep 1 3 Dep 3 Dep 7 Dep 3 Dep 3 Dep 3 Dep Dep Dep 1 1 1
19
Dep Dep 1 2
20
Dep Dep 4 3
22
Dep Dep 3 1 Dep 1 Dep 2 Dep 2 Dep 2 Dep 6 Dep 1 Dep 2 Dep 6 Dep 5 Dep 5
23
Dep Dep 4 3
24
Dep Dep 2 3
25
Dep Dep 6 3
26
27
Dep Dep 1 6
28
29
Dep Dep 6 4
30
31
Dep Dep 2 3
32
Dep Dep 3 6
33
Dep Dep 3 1
34
35
Dep Dep 3 1
No. 36 Dep Dep 2 3 Dep 5 Dep 3 Dep 1 Dep 8 Dep 3 Dep 1 Dep 5 Dep 1
37
Dep Dep 3 3
38
Dep Dep 1 1
39
Dep Dep 3 3 Dep 6 Dep 6 Dep 5 Dep 3 Dep 4 Dep 1 Dep 3 Dep 1 Dep 3 Dep 3 Dep Dep Dep Dep Dep 3 3 2 3 3 Dep 2
40
Dep Dep 4 6
41
Dep Dep 2 3
42
Dep Dep 1 9 Dep 2 Dep 5 Dep 5 Dep 3 Dep 3 Dep 1 Dep 3 Dep 2 Dep 3 Dep 3 Dep 3 Dep 3 Dep 1 Dep 2 Dep 3 Dep 2 Dep Dep 3 6 Dep 2 Dep 1 Dep 4 Dep 5 Dep 4 Dep 4 Dep 4 Dep 5 Dep 5 Dep 6 Dep 1 Dep 2 Dep 2 Dep 3 Dep 3 Dep 4
43
Dep Dep 3 3
44
Dep Dep 4 5
45
Dep Dep 3 5
46
Dep Dep 7 3
47
Dep Dep 6 3
48
Dep Dep 2 3
49
Dep Dep 4 1
50
Dep Dep 2 3
2. Data Transformasi Hasil transformasi data Tabel 4.4 Data Transformasi No. Dep 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 0 0 0 1 0 1 1 0 0 0 0 0 1 0 1 1 1 1 1 0 1 1 1 1 0 0 1 0 Dep 2 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 1 1 0 0 0 1 Dep 3 1 1 1 1 1 1 1 1 0 1 1 0 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 0 Dep 4 1 0 0 1 1 0 1 1 1 0 0 1 1 0 1 0 1 0 0 1 0 0 1 0 0 0 0 0 Dep 5 1 0 0 0 1 0 0 1 1 1 1 1 1 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 Dep 6 0 0 0 0 0 0 0 0 1 0 0 0 1 1 1 1 0 0 0 0 1 0 1 1 1 0 1 1 Dep 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 Dep 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Dep 9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
No. Dep 1 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 0 0 1 0 1 0 1 0 1 1 0 0 1 1 1 0 0 0 1 1 1 1
Dep 2 0 1 1 0 0 0 0 1 0 0 0 1 1 0 1 1 0 1 0 1 0 1
Dep 3 1 1 1 1 1 0 1 1 1 0 1 1 1 0 1 1 1 1 1 1 1 1
Dep 4 1 0 1 0 0 1 0 0 0 0 0 1 0 0 0 1 0 1 1 0 1 0
Dep 5 0 0 0 0 0 0 1 1 0 0 0 1 0 0 0 1 1 1 1 0 0 1
Dep 6 1 0 1 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 1 0 1 0
Dep 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
Dep 8 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Dep 9 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0
4.2.2 Association Rule Tabel 4.5 Association Rules Data Input Data Data Format Minimum Support Minimum Confidence % # Rules Overall Time (secs) Tabular!$B$5:$J$55 Binary Matrix 8 80 11 1
Tabel 4.6 Output Rule # 1 2 3 4 5 6 7 8 9 10 11 Conf. % 100 100 94.12 90.91 88.89 88.89 84.62 84.21 83.33 83.33 80 Antecedent (a) Dep 1, Dep 2=> Dep 2, Dep 5=> Dep 2=> Dep 1, Dep 6=> Dep 1, Dep 4=> Dep 4, Dep 6=> Dep 1=> Dep 5=> Dep 6=> Dep 4, Dep 5=> Dep 4=> Consequen t (c) Dep 3 Dep 3 Dep 3 Dep 3 Dep 3 Dep 3 Dep 3 Dep 3 Dep 3 Dep 3 Dep 3 Support (a) 8 8 17 11 9 9 26 19 18 12 20 Support (c) 42 42 42 42 42 42 42 42 42 42 42 Support (a U c) 8 8 16 10 8 8 22 16 15 10 16 Lift Ratio 1.190476 1.190476 1.120448 1.082251 1.058201 1.058201 1.007326 1.002506 0.992063 0.992063 0.952381
Dept 1
Dept 2
Dept 3
Dept 4
Dept 5
Dept 6
Dept 7
Dept 8
D E P T 2
D E P T 4
D E P T 5
D E P T 6
D E P T 7
D E P T 8
DEPT 3
D E P T
DEPT 1
KASIR
BAB V PEMBAHASAN
5.1 Association Rule Rule 1 Jika membeli {Dep1 dan Dep2} maka mungkin membeli {Dep3}, dengan nilai (support = 8, confidence = 100%). Berarti seseorang yang membeli produk pada Dep1 dan Dep2 memiliki kemungkinan sebesar 100% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 8.
Rule 2 Jika membeli {Dep2 dan Dep5} maka mungkin membeli {Dep3}, dengan nilai (support = 8, confidence = 100%). Berarti seseorang yang membeli produk pada Dep2 dan Dep5 memiliki kemungkinan sebesar 100% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 8.
Rule 3 Jika membeli {Dep2} maka mungkin membeli {Dep3}, dengan nilai (support = 16, confidence = 94.12%). Berarti seseorang yang membeli produk pada Dep2 memiliki kemungkinan sebesar 94.12% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 16.
Rule 4 Jika membeli {Dep1 dan Dep6} maka mungkin membeli {Dep3}, dengan nilai (support = 10, confidence = 90.91%) berarti seseorang yang membeli produk pada Dep1 dan Dep6 memiliki kemungkinan sebesar 90.91% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 10.
Rule 5 Jika membeli {Dep1 dan Dep4} maka mungkin membeli {Dep3}, dengan nilai (support = 8, confidence = 88.89%). Berarti seseorang yang membeli produk pada
Dep1 dan Dep4 memiliki kemungkinan sebesar 88.89% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 8.
Rule 6 Jika membeli {Dep4 dan Dep6} maka mungkin membeli {Dep3}, dengan nilai (support = 8, confidence = 88.89%). Berarti seseorang yang membeli produk pada Dep4 dan Dep6 memiliki kemungkinan sebesar 88.89% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 8.
Rule 7 Jika membeli {Dep1} maka mungkin membeli {Dep3}, dengan nilai (support = 22, confidence = 84.62%). Berarti seseorang yang membeli produk pada Dep1 memiliki kemungkinan sebesar 84.62% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 22.
Rule 8 Jika membeli {Dep5} maka mungkin membeli {Dep3}, dengan nilai (support = 16, confidence = 84.21%). Berarti seseorang yang membeli produk pada Dep5 memiliki kemungkinan sebesar 84.21% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 16.
Rule 9 Jika membeli {Dep6} maka mungkin membeli {Dep3}, dengan nilai (support = 15, confidence = 83.33%). Berarti seseorang yang membeli produk pada Dep6 memiliki kemungkinan sebesar 83.33% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 15.
Rule 10 Jika membeli {Dep4 dan Dep5} maka mungkin membeli {Dep3}, dengan nilai (support = 10, confidence = 83.33%). Berarti seseorang yang membeli produk pada Dep4 dan Dep5 memiliki kemungkinan sebesar 83.33% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 10.
Rule 11 Jika membeli {Dep4} maka mungkin membeli {Dep3}, dengan nilai (support = 16, confidence = 80%). Berarti seseorang yang membeli produk pada Dep4 memiliki kemungkinan sebesar 80% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 16.
5.2 Activity Relationship Chart Diagram ARC (Activity Relationship Chart) adalah peta yang menggambarkan hubungan antar departemen berdasarkan support dari rule yang terbentuk. Hubungan setiap department dapat bernilai kuat, sedang dan lemah. Setiap jenis hubungan digambarkan dengan simbol yang berbeda-beda. ARC dibuat berdasarkan nilai a U c dan dibagi menjadi tiga hubungan yaitu : hubungan kuat disimbolkan dengan hubungan sedang disimbolkan dengan hubungan lemah disimbolkan dengan dengan nilai a U c 17.4 < x < 22 dengan nilai a U c 8.3 x < 11.6 dengan nilai a U c 5 x < 8.3
Range didapatkan dari nilai a U c tertinggi(22) dikurangi nilai a U c terendah(8). Kemudian dibagi 3 berdasarkan dari 3 hubungan tersebut, yaitu kuat, sedang dan lemah. Maka hasilnya adalah 4,7. Dengan hasil tersebut maka range pun dapat dibuat. Dan karena ada beberapa departemen yang memiliki penempatan yang sama, maka yang dipilih untuk dimasukkan pa ARC adalah yang memiliki nilai yang tertinggi. Dan penjelasan dari ARC yang telah dibuat adalah sebagai berikut : Dept1 dan dept3 memiliki hubungan yang kuat dengan nilai a U c sebesar 22. Dept2 dan dept3 memiliki hubungan yang sedang dengan nilai a U c sebesar 16. Dept4 dan dept3 memiliki hubungan yang sedang dengan nilai a U c sebesar 16. Dept5 dan dept3 memiliki hubungan yang sedang dengan nilai a U c sebesar 16. Dept6 dan dept3 memiliki hubungan yang sedang dengan nilai a U c sebesar 15.
5.3 Layout Usulan Berdasarkan hubungan departemen yang dejelaskan melalui ARC, maka dapat diperoleh usulan layout atau tata letak toko dimana : Dept 1 dengan dept 3 ditata secara berdekatan (mutlak) Dept 2, 4, 5 dan 6 ditata agak dekat dengan Dept 3 dengan tingkat prioritas yang tidak mutlak. Sedangkan Dept 7, 8 dan 9 tidak terikat dengan Dept 3, sehingga dapat diletakkan secara bebas atau menempati posisi yang masih kosong.
6.1 Kesimpulan Berdasarkan hasil pembahasan, maka dapat disimpulkan bahwa : 1. Melalui analisa Association Rule diperoleh 11 aturan yang merepresentasikan hubungan antara masing-masing departemen. 2. Melalui Activity Relationship Chart (ARC) dapat diketahui prioritas hubungan antara masing-masing departemen dimana departemen 1 dan departemen 3 memiliki hubungan yang sangat kuat, sehingga dalam menata ulang layout, departemen 1 dan departemen 3 menjadi prioritas dalam penataan ulang. 3. Outlet Indomart/ 004 Nogotirto membutuhkan penataan ualng layout dengan prioritas utama adalah mendekatkan Departemen 1 dengan Departemen 3. Sedangkan Departemen 2, 4, 5, 6 dengan 3 memiliki hubungan yang bersifat sedang.
6.2 Saran Berdasarkan hasil pembahasan dan kesimpulan dari penelitian, maka disarankan kepada Indomart/ 004 Nogotirto untuk melakukan penataan ulang layout outlet untuk lebih mendukung aktivitas transaksi konsumen.
DAFTAR PUSTAKA
1. Gkoulalas, Aris & Verykios S Vassilios, Association Rule Hidding for Datamining, 2010. 2. Marc Adamo Jean, Datamining for Association Rules and Sequential Patterns, 2003. 3. Han, Jiawei and Kamber, Micheline, Datamining Concept and Techniques, 2006.
LAMPIRAN
DISUSUN OLEH: KELOMPOK C.23 ARIF RAKHMANTO (08 522 200) CATUR HERMAWANTO (08 522 210)
LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA 2010
ABSTRAKSI
Klasifikasi merupakan sebuah proses untuk menemukan model yang membedakan konsep atau kelas data dengan tujuan untuk memperkiraan kelas dari suatu obyek yang kelasnya tidak diketahui. Di dalam klasifikasi diberikan sejumlah record yang dinamakan training set yang terdiri dari beberapa atribut. Salah satu manfaat klasifikasi adalah untuk membantu proses pengambilan keputusan dalam proses pemberian kredit. BMT AL-AMIN merupakan sebuah perusahaan penyedia kredit yang menggunakan metode klasifikasi untuk menekan resiko kredit macet. Dari hasil penelitian yang telah dilakukan subjek 1 akan menerima kredit dengan jumlah pembiayaan besar dengan jumlah anak sedang dan dalam jangka waktu pembiayaan satu tahun diprediksikan status kreditnya akan macet, subjek 2 akan menerima kredit dengan jumlah pembiayaan besar dengan jumlah anak banyak dan dalam jangka waktu pembiayaan dua tahun diprediksikan status kreditnya akan macet, subjek 3 akan menerima kredit dengan jumlah pembiayaan besar dengan jumlah anak banyak dan dalam jangka waktu pembiayaan satu tahun diprediksikan status kreditnya akan macet, subjek 4 akan menerima kredit dengan jumlah pembiayaan sedang dengan jumlah anak sedikit dan dalam jangka waktu pembiayaan dua tahun diprediksikan status kreditnya akan tidak macet, subjek 5 akan menerima kredit dengan jumlah pembiayaan kecil dengan jumlah anak sedang dan dalam jangka waktu pembiayaan dua tahun diprediksikan statu kreditnyaakan tidak macet.
BAB I PENDAHULUAN
1.1 Latar Belakang masalah Dalam pelaksanaan kegiatan perkreditan selama ini, banyak kredit yang tidak dikembalikan sesuai dengan jadwal yang telah ditentukan. Dengan kata lain telah terjadi kredit macet. Adanya kredit macet ini menimbulkan kerugian pada lembaga keuangan yang bersangkutan. Dalam pembiayaan, tingkat pembiayaan yang semakin tinggi juga diiringi dengan adanya resiko kredit macet yang besar pula. Resiko kredit ini harus diminimalisir agar badan keuangan dapat mempertahankan kelangsungan usahanya, sehingga penawaran produk
pembiayaan dilakukan kepada debitur yang tepat sasaran. Menghadapi kenyataan sebagaimana diuraikan di atas, maka perlu dilakukan prediksi status kredit kepada calon debitur agar tidak terjadi kredit macet. Prediksi status kredit merupakan upaya yang ditempuh suatu lembaga keuangan dalam usahanya untuk menghindari kemungkinan terjadinya kredit macet atau tunggakan bagi kredit yang telah sampai jatuh temponya. Sehingga prediksi status kredit macet berguna untuk memperkecil risiko terjadinya kredit macet agar dapat meminimumkan resiko kredit macet.
1.2 Rumusan Masalah 1. Bagaimana rule yang terbentuk? 2. Bagaimana hasil dari chi-square? 3. Bagaimana hasil prediksi ?
1.3 Batasan Masalah 1. Obyek penelitian dikhususkan pada BMT AL-AMIN 2. Permasalahan yang dianalisa adalah masalah pengambilan keputusan pemberian kredit.
1.4 Tujuan penelitian 1. Untuk mengetahui rule yang terbentuk. 2. Untuk menghitung chi-square penelitian.
1.5 Manfaat Penelitian 1. Mahasiswa dapat mengetahui dan memahami metode klasifikasi, khususnya teknik decision tree serta dapat membaca rule yang terbentuk. 2. Dapat mengetahui dan memahami metode tes kebebasan atau interdependency test chi-square. 3. Dapat mengetahui dan memahami cara mendapatkan keputusan untuk kasuskasus yang dapat dianalisa menggunakan meode klasifikasi.
2.1 Tujuan Klasifikasi Tujuan dari klasifikasi adalah untuk : 1. Menemukan model dari training set yang membedakan record kedalam kategori atau kelas yang sesuai, model tersebut kemudian digunakan untuk mengklasifikasikan record yang kelasnya belum diketahui sebelumnya pada test set.
2. Mengambil keputusan dengan memprediksikan suatu kasus, berdasarkan hasil klasifikasi yang diperoleh.
2.2 Konsep Pembuatan Model Dalam Klasifikasi Untuk mendapatkan model, kita harus melakukan analisis terhadap data latih (training set). Sedangkan data uji (test set) digunakan untuk mengetahui tingkat akurasi dari model yang telah dihasilkan. Klasifikasi dapat digunakan untuk memprediksi nama atau nilai kelas dari suatu obyek data. Proses klasifikasi data dapat dibedakan dalam 2 tahap, yaitu : a. Pembelajaran / Pembangunan Model Tiap tiap record pada data latih dianalisis berdasarkan nilai nilai atributnya, dengan menggunakan suatu algoritma klasifikasi untuk mendapatkan model. b. Klasifikasi Pada tahap ini, data uji digunakan untuk mengetahui tingkat akurasi dari model yang dihasilkan. Jika tingkat akurasi yang diperoleh sesuai dengan nilai yang ditentukan, maka model tersebut dapat digunakan untuk mengklasifikasikan record record data baru yang belum pernah dilatihkan atau diujikan sebelumnya. Untuk meningkatkan akurasi dan efisiensi proses klasifikasi, terdapat beberapa langkah pemrosesan terhadap data, yaitu : a. Data Cleaning Data cleaning merupakan suatu pemrosesan terhadap data untuk menghilangkan noise dan penanganan terhadap missing value pada suatu record. b. Analisis Relevansi Pada tahap ini, dilakukan penghapusan terhadap atribut atribut yang redundant ataupun kurang berkaitan dengan proses klasifikasi yang akan dilakukan. Analisis relevansi dapat meningkatkan efisiensi klasifikasi karena waktu yang diperlukan untuk pembelajaran lebih sedikit daripada proses pembelajaran terhadap data data dengan atribut yang masih lengkap (masih terdapat redundansi).
c. Transformasi Data Pada data dapat dilakukan generalisasi menjadi data dengan level yang lebih tinggi. Misalnya dengan melakukan diskretisasi terhadap atribut degan nilai kontinyu. Pembelajaran terhadap data hasil generalisasi dapat mengurangi kompleksitas pembelajaran yang harus dilakukan karena ukuran data yang harus diproses lebih kecil.
Pembuatan model menguraikan sebuah set dari penentuan kelas-kelas sebagai: 1. Setiap tuple diasumsikan sudah mempunyai kelas yang dikenal seperti ditentukanoleh label kelas atribut, 2. Kumpulan tuple yang digunakan untuk membuat model disebut kumpulan pelatihan (training set), 3. Model direpresentasikan sebagai classification rules, decision tree atau formula matematika. Penggunaan model menguraikan pengklasifikasian masa yang akan datang atau obyek yang belum ketahui, yaitu taksiran keakuratan dari model yang terdiri dari: 1. Label yang telah diketahui dari contoh tes dibandingkan dengan hasil klasifikasi dari model, 2. Nilai keakuratan adalah prosentase dari kumpulan contoh tes yang
3. 4. Jika akurasi diterima, gunakan model untuk mengklasifikasikan data tuple yang label kelasnya belum diketahui.
Untuk mengevaluasi performansi sebuah model yang dibangun oleh algoritma klasifikasi dapat dilakukan dengan menghitung jumlah dari test record yang di prediksi secara benar (akurasi) atau salah ( error rate) oleh model tersebut. Akurasi dan error rate didefinisikan sebagai berikut. Jumlah prdiksi benar Akurasi = Jumlah total prediksi
Error rate =
Algoritma klasifikasi berusaha untuk mencari model yang mempunyai akurasi yang tinggi atau error rate yang rendah ketika model diterapkan pada test set.
2.3 Teknik Klasifikasi Didalam Klasifikasi sebagaimana telah dijelaskan, ada beberapa teknik klasifikasi yang digunakan, anatara lain: pohon keputusan, rule based, neural network, support vector machine, naive bayes, dan nearest neighbour. Dan pada praktikum ini akan menggunakan teknik pohon keputusan, karena beberapa alasan: 1. Dibandingkan dengan classifier JST atau bayesian, sebuah pohon keputusan mudah diinterpretasi/ ditangani oleh manusia. 2. Sementara training JST dapat menghabiskan banyak waktu dan ribuan iterasi, pohon keputusan efisien dan sesuai untuk himpunan data besar. 3. Algoritma dengan pohon keputusan tidak memerlukan informasi tambahan selain yang terkandung dalam data training (yaitu, pengetahuan domain dari distribusi-distribusi pada data atau kelas-kelas). 4. Pohon keputusan menunjukkan akurasi klasifikasi yang baik dibandingkan dengan teknikteknik yang lainnya.
2.4 Decision Tree Salah satu metoda Data Mining yang umum digunakan adalah decision tree. Decision tree adalah struktur flowchart yang menyerupai tree (pohon), dimana setiap simpul internal menandakan suatu tes pada atribut, setiap cabang merepresentasikan hasil tes, dan simpul daun merepresentasikan kelas atau distribusi kelas. Alur pada decision tree di telusuri dari simpul akar ke simpul daun yang memegang prediksi kelas untuk contoh tersebut . Decision tree mudah untuk dikonversi ke aturan klasifikasi (Zalilia, 2007) .
2.4.1 Konsep Decision Tree Mengubah data menjadi pohon keputusan (decision tree) dan aturan-aturan keputusan (rule).
2.4.2 Tipe Simpul Pada Tree Tree 1. Simpul akar dimana tidak ada masukan edge dan 0 atau lebih keluaran edge 2. Simpul internal, masing-masing 1 masukan edge dan 2 atau lebih edge
3. Simpul daun atau simpul akhir, masing-masing 1 masukan edge dan tidak ada edge Pada decision tree setiap simpul daun menandai label kelas. Simpul yang bukan simpul akhir terdiri dari akar dan simpul internal yang terdiri dari kondisi tes atribut pada sebagian record yang mempunyai karakteristik yang berbeda. Simpul akar dan simpul internal ditandai dengan bentuk oval dan simpul daun ditandai dengan bentuk segi empat.
2.4.3 Konsep Data Dalam Decision Tree 1. Data dinyatakan dalam bentuk tabel dengan atribut dan record. 2. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan tree. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin dan temperatur. Salah satu atribut merupakan atribut yang menyatakan data solusi per-item data yang disebut dengan target atribut. 3. Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca mempunyai instance berupa cerah, berawan dan hujan.
d. Proses Dalam Decision Tree 1. Proses Mengubah Data Menjadi Tree a). Ukuran untuk Memilih Split Terbaik Dalam membangun sebuah decision tree secara top-down (dari atas ke bawah), dimulai dengan pertanyaan atribut mana yang pertama kali harus diletakkan pada root node? Pertanyaan ini dijawab dengan mengevaluasi semua atribut yang ada menggunakan suatu ukuran statistik (yang banyak digunakan adalah information gain) untuk mengukur efektifitas suatu atribut dalam mengklasifikasikan suatu kumpulan sampel data. Semua atribut
adalah bersifat kategori yang bernilai diskrit. Atribut dengan nilai continuous harus didiskritkan (Zalilia, 2007). Terlebih dahulu kita harus mencari nilai informasi dari data yang merupakan nilai yang diperlukan untuk mengklasifikasikan keputusan akhir. b) Entropi Definisi Entrophy (Basuki, 2003): 1. Entropy (S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample S. 2. Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. Semakin kecil nilai Entropy maka semakin baik untuk digunakan dalam mengekstraksi suatu kelas. 3. Entropi adalah suatu parameter untuk mengukur heterogenitas dari suatu data 4. Panjang kode untuk menyatakan informasi secara optimal adalah p bits untuk messages yang mempunyai probabilitas p. Untuk menghitung information gain,terlebih dahulu kita harus memahami suatu ukuran lain yang disebut Entropy. Entropi biasa digunakan sebagai sautu parameter untuk mengukur heterogenitas (keberagaman) dari suatu kumpulan sampel data. Jika kumpulan sampel data semakin heterogen, maka nilai entropy-nya semakin besar. Nilai maksimum entropy adalah 1, yaitu saat jumlah semua sampel kelas data adalah sama (keberagaman data yang maksimum). Nilai minimum entropy adalah 0, yaitu saat jumlah salah satu kelas adalah 0 (keberagaman data yang minimum). c) Information Gain Setelah kita mendapatkan nilai entropy untuk suatu kumpulan sampel data, maka kita dapat mengukur efektifitas suatu atribut dalam mengklasifikasikan data. Ukuran efektifitas ini disebut Information Gain. Dengan kata lain, Gain(A) adalah reduksi yang diharapkan dalam entropy yang disebabkan oleh pengetahuan nilai pada atribut A. Algoritma menghitung information gain pada setiap atribut. Atribut dengan nilai gain terbesar dipilih sebagai tes
atribut (simpul akar). Simpul A dibuat dan dilabelkan dengan atribut, cabang dibuat untuk setiap nilai atribut. Klasifikasi pada umumnya digunakan untuk kasus-kasus pada kelas-kelas keputusan yang bernilai diskrit dengan keputusan seperti diterima = ya atau tidak. Namun jika kita menemukan kasus yang mempunyai nilai keputusan kontinyu cara yang sedikit untuk menyelesaikannya adalah dengan mengubah nilai-nilai continyu menjadi nilai-nilai diskrit dengan cara mempartisi nilai kontinyu ke dalam intervalinterval bernilai diskrit.
3.2 Objek Penelitian Obyek penelitian adalah debitur BMT AL-AMIN yang mengajukan permintaan kredit.
3.3 Metode Pengumpulan Data 1. Data Primer Data primer dalam penelitian ini adalah data-data yang diperoleh dari debitur atau pemohon kredit. Dalam kasus ini yang merupakan data primer adalah training set yang berisi atribut jumlah pembiayaan, jumlah anak, jangka waktu pembiayaan dan status kredit. 2. Data Sekunder Data sekunder dalam penelitian ini adalah data-data yang diperoleh dari pengolahan data-data primer. Dalam kasus ini yang merupakan data sekunder adalah entropy, nilai informasi, information gain serta chi-square.
Mulai
Training Data
Decision Tree
Ho diterima/ Ditolak
Prediksi
Selesai
3.5. Langkah Software Software yang digunakan dalam klasifikasi adalah Weka. Langkah
pengerjaannnya adalah sebagai berikut : 1. Menginput data training di Ms. Excel kemudian menyimpannya dalam format .csv 2. Membuka Weka, kemudian explorer, Open file 3. File tersebut disave as dalam format .arrf 4. Pilih classify, pada classifier-choose-trees-j48 5. Test option dipilih use training set, kemudian klik start 6. Pada result list, klik kanan pilih visualize tree
No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 21 22 23
Status Kredit Macet Macet Macet Macet Tidak Macet Tidak Macet Tidak Macet Macet Macet Tidak Macet Tidak Macet Macet Macet Macet Macet Macet Macet Macet Tidak Macet Tidak Macet Tidak Macet Macet
No 24 25 26 27 28 29 30
Jangka Waktu Pembiayaan Satu Tahun Satu Tahun Dua Tahun Dua Tahun Satu Tahun Dua Tahun Satu Tahun
Status Kredit Macet Macet Tidak Macet Macet Macet Tidak Macet Macet
4.1.2 Data yang akan diprediksi Tabel 4.2 Data Status Kredit yang akan diprediksi No 1 2 3 4 5 Jumlah Pembiayaan Besar Besar Besar Sedang Kecil Jumlah Anak Sedang Banyak Banyak Sedikit Sedang Jangka Waktu Pembiayaan Satu Tahun Dua Tahun Satu Tahun Dua Tahun Dua Tahun Status Kredit Macet Macet Macet Tidak Macet Tidak Macet
4.2 Pengolahan Data 4.2.1 Perhitungan Root Node 1. Atribut Jumlah Pembiayan Tabel 4.3 Jumlah Pembiayan Jumlah Pembiayaan Kecil Tidak Macet Sedang Macet Tidak Macet Macet Besar Tidak Macet Total 8 8 3 11 0 30 11 0.00 11 0.85 0.31 0.95 0.64 Status Kredit Macet Jumlah 0 8 0.00 Total Instence Q Entropi Nilai Informasi Information Gain
2. Atribut Jumlah Anak Tabel 4.4 Jumlah Anak Jumlah Anak Sedikit Tidak Macet Sedang Macet Tidak Macet Macet Banyak Tidak Macet Total 4 4 4 13 3 30 16 0.70 8 1.00 0.82 0.95 0.13 Status Kredit Macet Jumlah 2 6 0.92 Total Instence Q Entropi Nilai Informasi Information Gain
3. Atribut Jangka Waktu Pembiayaan Tabel 4.5 Jangka Waktu Pembiayaan Waktu Pembiayaan Status Kredit Macet Satu Tahun Tidak Macet Macet Dua Tahun Tidak Macet Total Jumlah 13 16 3 0.83 6 14 8 30 0.99 0.95 0.12 0.70 Total Instence Q Entropi Nilai Informasi Information Gain
Dipilih atribut Jumlah Pembiayaan sebagai Root Node karena memiliki information gain terbesar yaitu 0.64
4.2.2 Perhitungan Internal Node 1. Internal Node 1 A. Atribut Jumlah Anak Tabel 4.6 Jumlah Anak Jumlah Anak Sedikit Status Kredit Jumlah Macet Tidak Macet Sedang Macet Tidak Macet Macet Tidak Macet Total 0 1 0 2 8 0 11 2 0 0 0.85 0.85 Total Instence 1 Q Entropi Nilai Informasi Information Gain
Banyak
B. Atribut Jangka waktu Pembiayaan Tabel 4.7 Kondisi Buku Jangka Waktu Pembiayaan Status Kredit Macet Satu Tahun Tidak Macet Macet Dua Tahun Tidak Macet Total Total Instence Nilai Informasi Information Gain
Jumlah
Entropi
Dipilih atribut Jumlah Anak sebagai Root Node karena memiliki information gain terbesar yaitu 0.85
Langkah 3. Klik kanan di result list klik visualize tree Print Screen Weka
4.2.4 Classification Rule Awal 1. If Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK MACET 2. If Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET 3. If Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Banyak THEN Status Kreditnya = MACET 4. If Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Sedang THEN Status Kreditnya = TIDAK MACET 5. If Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Sedikit THEN Status Kreditnya = TIDAK MACET
4.2.5 Penyerderhanaan Rule (chi square) 1. Uji Independensi Atribut Kondisi dan Keadaan Buku dengan Distribusi Chi Square Tabel 4.8 Frekuensi Jumlah Pembiayaan Kredit Macet Tidak Macet total Kecil 0 8 8 Sedang 8 3 11 Besar 11 0 11 total 19 11 30
Tabel 4.9 Frekuensi Diharapkan Jumlah Pembiayaan Kredit Macet Tidak Macet total Kecil 5.07 2.93 8 Sedang 6.97 4.03 11 Besar 6.97 4.03 11 total 19 11 30
A. Hipotesis HO : Atribut Jumlah Pembiayaan mempunyai hubungan dengan keputusan HI : Atribut Jumlah Pembiayaan tidak mempunyai hubungan dengan keputusan
B. Tingkat Signifikasi dan Derajat Kebebasan Tingkat signifikansi : = 0.05 Derajat Kebebasan : (r-1).(k-1) = (3-1).(2-1) = 2.1 = 2
C. Kriteria Pengujian X2(0,05;2) = 5.991464547 Ho diterima apabila X2 5.991464547 Ho ditolak apabila X2 5.991464547
Ditolak
5.991464547
20.6046107
Gambar 4.6 Kurva daerah penolakan atribut kondisi dan keadaan buku
20.6046107
, 5.991464547maka Ho
2. Uji Independensi Atribut Penilaian Peminjaman dengan Distribusi Chi Square Tabel 4.10 Frekuensi Jumlah Anak Kredit Macet Tidak Macet total Sedikit 2 4 6 Sedang 4 4 8 Besar 13 3 16 total 19 11 30
Tabel 4.11 Frekuensi Diharapkan Jumlah Anak Kredit Macet Tidak Macet Total Sedikit 3.80 2.20 6 Sedang 5.07 2.93 8 Besar 10.13 5.87 16 total 19 11 30
A. Hipotesis HO : H1 : Atribut Jumlah Anak mempunyai keputusan Atribut Jumlah Anak tidak mempunyai hubungan hubungan dengan
dengan keputusan
B. Tingkat Signifikasi dan Derajat Kebebasan Tingkat signifikansi : = 0.05 Derajat Kebebasan : (r-1).(k-1) = (2-1).(3-1) = 1.2 = 2
C. Kriteria Pengujian X2(0,05;2) = 5.991464547 Ho diterima apabila X2 5.991464547 Ho ditolak apabila X2 5.991464547
Ditolak
5.149521531
5.991464547
diterima yang berarti atribut Jumlah Anak tidak mempunyai hubungan dengan keputusan.
3. Uji Independensi Atribut Intensitas Dipinjam dengan Distribusi Chi Square Tabel 4.12 Frekuensi Jangka waktu Pembiayaan Kredit Macet Tidak Macet total Satu Tahun 13 3 16 Dua Tahun 6 8 14 total 19 11 30
Tabel 4.13 Frekuensi Jangka Waktu Pembiayaan Kredit Macet Tidak Macet total Satu Tahun 10.13 5.87 16 Dua Tahun 8.87 5.13 14 Total 19 11 30
A. Hipotesis HO : Atribut Jangka Waktu Pembiayaan mempunyai hubungan dengan keputusan H1 : Atribut Jangka Waktu Pembiayaan tidak mempunyai hubungan dengan keputusan
B. Tingkat Signifikasi dan Derajat Kebebasan Tingkat signifikansi : = 0.05 Derajat Kebebasan : (r-1).(k-1) = (2-1).(2-1) = 1.1= 1
C. Kriteria Pengujian X2(0,05;1) = 3.841459149 Ho diterima apabila X2 3.841459149 Ho ditolak apabila X2 3.841459149
Ditolak
3.841459149
4.739405332
Gambar 2.2 Kurva daerah penolakan penilaian peminjaman D. Kesimpulan Karena X2hitung X2(0,05;2) , 16.31054131 4.739405332, maka Ho
ditolak yang berarti atribut Jangka Waktu Pembiayaan mempunyai hubungan dengan keputusan.
2.2.6 Rule Akhir Karean Jumlah Anak Tidak mempunyai hubungan terhadap keputusan sehingga bentuk diagram pohonnya sebagai berikut: Tabel 4.14 Kondisi Buku Jangka Waktu Pembiayaan Macet Satu Tahun Tidak Macet Macet Dua Tahun Tidak Macet Total 3 11 0 0.29501 0.845351 1 4 0.811278124 0.55034071 7 7 0 Status Kredit Jumlah
Total Instence
Entropi
Nilai Informasi
Information Gain
Jumlah Pembiayaan
Kecil
Sedang
Besar
Tidak Macet
Macet
2 Tahun
1 Tahun
Tidak Macet
Macet
1. If Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK MACET 2. If Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET 3. If Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Satu tahun THEN Status Kreditnya = MACET 4. If Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Dua tahun THEN Status Kreditnya = Tidak MACET
4.2.7 Prediksi Tabel 4.15 Data Prediksi NO 1 2 3 4 5 JUMLAH PEMBIAYAAN Besar Besar Besar Sedang Kecil JUMLAH ANAK Sedang Banyak Banyak Sedikit Sedang JANGKA WAKTU PEMBIAYAAN Satu Tahun Dua Tahun Satu Tahun Dua Tahun Dua Tahun STATUS KREDIT Macet Macet Macet Tidak Macet Tidak Macet
BAB V PEMBAHASAN
5.1 Decision Tree Dari hasil pengklasifikasian didapat decision tree sebagai berikut: 1. Pada root node dipilih atribut jumlah pembiayaan karena memiliki nilai information gain terbesar yaitu 0.64 2. Pada internal node 1 dipilih atribut Jumlah Anak yang diletakkan pada instance sedang karena memiliki nilai information gain terbesar yaitu 0.85. Terdiri dari banyak, sedang dan Sedikit 3. Pada internal node 2 atau atribut yang terakhir adalah atribut jangka waktu pembiayaan yang berada pada instance sedang. Tediri dari jangka waktu pembiayaan satu tahun dan dua tahun.
5.2 Classification Rule Awal Rule merupakan model yang terbentuk dari training set dimana sample dalam data dibedakan kedalam kategori atau kelas yang sesuai. Model tersebut kemudian akan digunakan untuk mengklasifikasikan record atau data yang kelasnya belum diketahui sebelumnya. Dari hasil study kasus ini didapat 5 rule awal. Adapun rule tersebut adalah sebagai berikut : 1. IF Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK MACET 2. IF Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET 3. IF Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Banyak THEN Status Kreditnya = MACET 4. IF Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Sedang THEN Status Kreditnya = TIDAK MACET 5. IF Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Sedikit THEN Status Kreditnya = TIDAK MACET
5.3 Penyerderhanaan Rule Untuk menyederhanakan rule yang telah ditetapkan, digunakan uji distribusi Chi Square. Setelah didapat rule awal kemudian dilakukan uji independensi terhadap masing-masing atribut. Jika nilai X2 hitung untuk atribut lebih besar dari pada X2 tabel maka atribut bersifat dependen yang artinya atribut tersebut tetap dipakai dalam rule. Namun . Jika nilai X2 hitung untuk atribut lebih kecil dari pada X2 tabel maka atribut bersifat independen, sehingga atribut tersebut dapat dihilangkan dari rule. Atau dengan kata lain rule akan disederhanakan.
5.4 Rule Akhir Masing-masing atribut yang ada akan diuji apakah atribut tersebut bersifat dependent atau independent. Pengujian dilakukan melalui uji independensi dengan distribusi Chi Square. Pengujian ini bertujuan untuk melihat apakah suatu atribut mempunyai keterikatan dengan atribut lain atau atribut tersebut berdiri sendiri. Jika atribut tersebut bersifat dependent atau terikat maka atribut tersebut tetap dipakai dalam rule. Namun jika atribut tersebut bersifat independent atau berdiri sendiri maka atribut tersebut dapat dihilangkan dari rule. Atau dengan kata lain rule akan disederhanakan. Dalam studi kasus ini, setelah dilakukan pengujian dengan uji Chi Square dapat diketahui bahwa atribut Jumlah Pembiayaan dan Jangka Waktu pembiayaan bersifat dependent, sedangkan atribut Jumlah Anak bersifat independent. Sehingga atribut Jumlah Anak dihilangkan dari rule awal. Didapat rule akhir sebagai berikut : 1. IF Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK MACET 2. IF Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET 3. IF Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Satu tahun THEN Status Kreditnya = MACET 4. IF Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Dua tahun THEN Status Kreditnya = Tidak MACET
5.5 Prediksi Rule akhir yang terbentuk akan digunakan untuk melakukan prediksi terhadap Penerima Kredit lain diluar database yang telah dimiliki. Dalam study kasus ini dilakukan prediksi terhadap subjek baru yang belum diketahui kelas atau kategorinya. Dari 5 subjek baru, 3 subjek baru diprediksi status kredinya adalah MACET. Sedangkan 2 subjek baru lainnya status Kreditnya adalah TIDAK MACET. Adapun hasil prediksi tersebut adalah sebagai berikut : 1. Subjek 1 yang akan menerima kredit dengan jumlah pembiayaanya besar, jumlah anaknya sedang dan jangka waktu pembiayaan satu tahun diprediksi status kredinya akan Macet. 2. Subjek 2 yang akan menerima kredit dengan jumlah pembiayaanya besar, jumlah anaknya Banyak dan jangka waktu pembiayaan dua tahun diprediksi status kredinya akan Macet 3. Subjek 3 yang akan menerima kredit dengan jumlah pembiayaanya besar, jumlah anaknya Banyak dan jangka waktu pembiayaan satu tahun diprediksi status kredinya akan Macet 4. Subjek 4 yang akan menerima kredit dengan jumlah pembiayaanya sedang, jumlah anaknya Sedikit dan jangka waktu pembiayaan dua tahun diprediksi status kredinya akan Tidak Macet 5. Subjek 5 yang akan menerima kredit dengan jumlah pembiayaanya kecil, jumlah anaknya sedang dan jangka waktu pembiayaan dua tahun diprediksi status kredinya akan Tidak Macet
2. Hasil Penyerderhanaan rule a. IF Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK MACET b. IF Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET c. IF Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Satu tahun THEN Status Kreditnya = MACET d. IF Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Dua tahun THEN Status Kreditnya = Tidak MACET
3. Hasil Prediksi a. Subjek 1 yang akan menerima kredit dengan jumlah pembiayaanya besar, jumlah anaknya sedang dan jangka waktu pembiayaan satu tahun diprediksi status kreditnya akan Macet. b. Subjek 2 yang akan menerima kredit dengan jumlah pembiayaanya besar, jumlah anaknya Banyak dan jangka waktu pembiayaan dua tahun diprediksi status kreditnya akan Macet
c. Subjek 3 yang akan menerima kredit dengan jumlah pembiayaanya besar, jumlah anaknya Banyak dan jangka waktu pembiayaan satu tahun diprediksi status kreditnya akan Macet d. Subjek 4 yang akan menerima kredit dengan jumlah pembiayaanya sedang, jumlah anaknya Sedikit dan jangka waktu pembiayaan dua tahun diprediksi status kreditnya akan Tidak Macet e. Subjek 5 yang akan menerima kredit dengan jumlah pembiayaanya kecil, jumlah anaknya sedang dan jangka waktu pembiayaan dua tahun diprediksi status kreditnya akan Tidak Macet
4.2 Saran Mengingat berbagai keterbatasan yang dialami penulis dan berdasarkan hasil praktikum yang telah dilakukan, maka penulis menyarankan untuk pengembangan dimasa yang akan datang sebagai berikut: 1. Bagian bank sebaiknya melakukan identifikasi yang lebih baik lagi dalam pemberian kredit 2. Tentukan hal hal apa saja yang dibutuhkan oleh penerima kredit. 3. Menentukan hal hal apa saja yang akan diberikan dan di bebankan kepada penerima kredit.
DAFTAR PUSTAKA
Bertalya, Konsep Data Mining. Universitas Gunadarma,2009 Chaerudin, Mochamad, IMPLEMENTASI DAN ANALISA ALGORITMA
SPRINT SEBAGAI SEBUAH CLASSIFIER POHON KEPUTUSAN YANG SCALABLE PADA DATA MINING, Tugas Akhir, Jurusan Teknik Informatika, STT TELKOM, 2005. http://www.stttelkom.ac.id/staf/MAB/TAPA-list.htm Ismaya, Agny, ANALISIS DAN IMPLEMENTASI OPTIMAL BRAIN SURGEON (OBS) UNTUK KLASIFIKASI PADA DATA MINING, Tugas Akhir, Jurusan Teknik Informatika, STT TELKOM, 2005. http://www.stttelkom.ac.id/staf/MAB/TA-PA-list.htm Han,Jiawei. Data Mining Concept and Techniques. Presentation. http://www.cs.sfu.ca/~han/dmbook Pang-Ning Tan, Michael Steinbach, and Vipin Kumar. Introduction to Data Mining. 2004. http://www.cse.msu.edu/~cse980 Zalilia, Lia, PENERAPAN DATA MINING UNTUK IDS , Tugas Akhir, Jurusan Teknik Elektro, ITB, 2007 www.dtreg.com www.dbminer.com