Laporan Praktikum Data Mining

LAPORAN RESMI PRAKTIKUM DATA MINING CLUSTERING
DISUSUN OLEH: KELOMPOK C.23 ARIF RAKHMANTO (08 522 200) CATUR HERMAWANTO (08 522 210)
LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA 2010
ABSTRAKS
Analisis cluster merupakan salah satu teknik multivariat dalam data mining yang bertujuan untuk mengidentifikasi sekelompok obyek dengan kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek yang berada dalam kelompok yang sama relatif lebih homogen (sama) daripada obyek yang berada pada kelompok yang berbeda. Metode yang digunakan dalam peneliatian ini adalah metode hirarki. Dan dari hasil penelitian yang dilakukan terbentuk 3 cluster dan 1 outlier. Keyword : Analisis Cluster, Metode Hirarki, Dendogram
BAB I PENDAHULUAN
1.1 Latar Belakang masalah Laboratorium Data Mining merupakan salah satu lab. yang dibuat oleh UII yang ditujukan kepada mahasiswa jurusan teknik industri. Namun mahasiswa biasanya datang ke laboratorium hanya untuk melaksanakan praktikum saja. Padahal laboratorium tersebut dibuat tidak hanya untuk keperluan praktikum. Maka dengan penelitian yang dilakukan akan diketahui profilisasi mahasiswa yang berkunjung ke laboratorium data mining. Profilisasi tersebut berisi jenis kelamin, usia, angkatan, intensitas, dan durasi atau berapa lama biasanya responden tersebut berada di laboratorium.
1.2 Rumusan Masalah 1. Berapa cluster yang terbentuk dari penelitian yang dilakukan ? 2. Bagaimana hasil profilisasi customer berdasarkan penelitian ?
1.3 Batasan Masalah 1. Penelitian dikhususkan pada mahasiswa Teknik Industri. 2. Obyek lokasi penelitian adalah Laboratorium Data Mining.
1.4 Tujuan penelitian 1. Untuk mengetahui berapa banyak cluster yang akan terbentuk dari penelitian yang dilakukan. 2. Untuk mengetahui hasil profilisasi customer berdasarkan penelitian.
1.5 Manfaat Penelitian Penelitian ini bermafaat untuk mengetahui apakah laboratorium data mining perlu meningkatkan pelayanan, mengatur ulang tata letak dan menambah fasilitas atau tidak. Manfaat lainnya adalah untuk mengetahui presentase angkatan berapa yang rata rata mengambil praktikum data mining.
BAB II LANDASAN TEORI

Analisis cluster merupakan salah satu teknik multivariat yang digunakan dalam data mining yang bertujuan untuk mengidentifikasi sekelompok obyek yang mempunyai kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek yang berada dalam kelompok yang sama relatif lebih homogen (sama) daripada obyek yang berada pada kelompok yang berbeda. Jumlah kelompok yang dapat diidentifikasi tergantung pada banyak dan variasi data obyek. Tujuan dari pembentukan cluster ini adalah untuk analisis dan interpretasi lebih lanjut sesuai dengan tujuan penelitian yang dilakukan. Solusi cluster secara keseluruhan bergantung pada variabel-variabel yang digunakan sebagai dasar untuk menilai kesamaan. Penambahan atau pengurangan variabel-variabel yang relevan dapat mempengaruhi substansi hasil analisis cluster. Analisis cluster dapat diterapkan pada bidang apa saja. Namun pemakaian teknik ini lebih familiar pada bidang pemasaran karena memang salah satu kegiatan yang dilakukan dalam pemasaran adalah pengelompokan, yang disebut segmentasi pasar. Penerapan analisis cluster di dalam pemasaran adalah sebagai berikut : 1. Membuat segmen pasar (segmenting the market) Pelanggan atau pembeli sering diklasterkan berdasarkan manfaat atau keuntungan yang diperoleh dari pembelian barang. Setiap cluster akan terdiri dari pelanggan/pembeli yang relatif homogen, dinyatakan dalam manfaat yang dicari. 2. Memahami perilaku pembeli Analisis cluster digunakan untuk mengenali/mengidentifikasi kelompok pembeli yang homogen/relatif homogen. Kemudian perilaku dalam untuk setiap kelompok perlu dikaji secara terpisah. Responden (pembeli) dikelompokkan didasarkan pada self-reported importance yang terkait pada setiap faktor pilihan yang digunakan untuk memilih toko atau mall di mana para pembeli membeli barang yang dibutuhkan. 3. Mengenali peluang produk baru Dengan mengklasterkan merk dan produk, competitive set di dalam pasar bisa ditentukan. Merek di dalam klaster yang sama bersaing sengit satu sama lain, daripada merek dari klaster lain.
BAB III METODOLOGI PENELITIAN

3.1 Lokasi Penelitian Laboratorium Data Mining Teknik Industri FTI UII
3.2 Objek Penelitian Mahasiswa teknik industri UII
3.3 Metode Pengumpulan Data 1. Data Primer Data primer merupakan data yang didapatkan oleh peneliti langsung dari objeknya. Yang menjadi data primer dalam penelitian ini adalah data yang berasal dari kuisioner yang diisi langsung oleh para responden. 2. Data Sekunder Data sekunder adalah data yang didapatkan setelah dilakukan proses analisa dan interpretasi terhadap data data primer atau data data yang telah ada sebelumnya sesuai dengan tujuan penelitian.. Yang merupakan data sekunder pada penelitian ini adalah data data yang telah diclustering menggunakan metode hirarki dan memakai software SPSS.
3.4. Flowchart Penelitian
Mulai
Rumusan Masalah
Input Data
Clustering Metode Hirarki
Profilisasi Customer
Selesai
Gambar 3.1 Flowchart Penelitian
3.5. Langkah Software Kuisioner Tingkat Kepuasan 1. 2. 3. 4. 5. 6. 7. 8. 9. Input data yang diperoleh ke software Pilih analyze klik Clasify lalu pilih Hirarchical Cluster Variabel : Letakkan semua Variabel X yang valid Label case by : Letakkan nama responden Cluster : Case Display : statistic, plot Statistik : agglomeration schedule Plots : klik Dendogram I ccicle : none
10. Method : Cluster Method Pilih nearest neighbor measure Interval pilih Squared Euqliden Distance 11. Klik save Cluster membership : none
Kuisioner Profilisasi Customer 1. Input data yang diperoleh ke software 2. Pilih analyze klik Descriptive Statistics lalu pilih Crosstabs 3. Row : Letakkan semua variable Y yang valid 4. Column : Letakkan Cluster Member 5. Exact : Asymptotic only 6. Statistics : Correlations 7. Cells : Counts klik observed, Noninteger Weights klik Round Cells Counts 8. Format : Row Order klik Ascending 9. Klik OK
BAB IV PENGUMPULAN DAN PENGOLAHAN DATA

4.1. Pengumpulan Data Hasil Rekapitulasi Kuesioner Profilisasi Customer Tabel 4.1 Rekapitulasi Kuesioner Profilisasi Customer No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Sekar Hendia V. R Huda Annisa Fitra Fandi Maro Ikhsan Aya' Mabok Richo Atlit Digdoyo Sigit Anestia Ayu Ryan Fauzi Dika Oki Hendi Kristin Farikh Adit Nunuk Nama Jenis Kelamin 2 2 1 2 1 1 2 1 2 1 1 2 1 1 2 2 1 1 1 1 2 1 1 1 Usia 3 3 2 3 3 2 2 3 3 3 3 3 2 3 3 3 3 3 3 3 3 2 3 3 Angkatan Intensitas 2 2 2 2 2 2 2 2 2 2 3 2 3 2 2 2 2 2 1 2 2 3 1 1 3 2 4 4 4 3 3 3 4 3 4 3 4 2 2 1 1 1 2 2 1 4 1 4 Durasi 4 3 3 2 2 2 2 3 1 4 1 3 1 4 4 4 4 4 1 1 4 1 4 1
No. 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
Nama Wanda Trisno Rizki D.K. Himawan Omiyabi Laskar Kesatria Ibnu Herlino Chanifa Yunani Tomy Safri Halimi Rozaq Lenny Octaviani Nurul Luklu Abdul Hafith Syarif Novi Kidhut Vivialita Arfiana Maya Karen Didit Tasya Tyas Jusman Bieber Galih
Jenis Kelamin 1 1 1 1 1 1 1 2 1 1 1 2 2 1 1 2 1 2 2 2 2 1 2 2 1 1
Usia 3 3 3 3 3 3 3 2 3 3 3 2 3 3 3 2 3 3 3 3 3 3 3 3 3 3
Angkatan Intensitas 1 2 1 1 1 1 2 3 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 4 4 1 2 2 2 3 4 2 4 1 3 3 1 2 3 1 3 4 2 4 3 3 4 2 3
Durasi 1 1 3 4 3 3 4 3 2 1 4 3 4 4 3 3 4 3 3 2 1 3 1 2 4 2
Hasil Rekapitulasi Kuesioner Tingkat Kepuasan Tabel 4.2 Rekapitulasi Kuesioner Tingkat Kepuasan No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Sekar Hendia V. R Huda Annisa Fitra Fandi Maro Ikhsan Aya' Mabok Richo Atlit Digdoyo Sigit Anestia Ayu Ryan Fauzi Dika Oki Hendi Kristin Farikh Adit Nunuk Wanda Trisno Rizki D.K. Himawan Omiyabi Nama Fasilitas 3 3 3 2 3 2 2 2 2 2 2 3 2 2 2 1 2 2 1 2 1 2 2 2 2 1 2 2 2 Pelayanan 3 2 3 3 3 2 2 2 3 2 3 3 3 2 3 2 2 2 2 2 2 1 2 2 3 2 3 3 3 Tata Letak 4 3 4 3 3 2 2 3 3 2 2 4 2 3 3 1 3 1 2 3 1 2 2 3 3 2 2 2 2 Kenyamanan 3 4 4 3 2 1 2 2 2 2 2 4 2 3 2 3 3 3 3 3 3 3 1 2 3 1 3 2 1
No 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
Nama Laskar Kesatria Ibnu Herlino Chanifa Yunani Tomy Safri Halimi Rozaq Lenny Octaviani Nurul Luklu Abdul Hafith Syarif Novi Kidhut Vivialita Arfiana Maya Karen Didit Tasya Tyas Jusman Bieber Galih
Fasilitas 2 2 2 2 2 1 3 2 2 2 2 1 3 3 3 3 3 2 3 2 2
Pelayanan 3 2 2 2 2 2 2 2 3 2 2 1 4 3 2 3 3 2 2 3 2
Tata Letak 2 2 2 3 2 3 3 2 1 2 2 1 3 3 3 3 3 4 2 3 2
Kenyamanan 2 2 2 2 2 1 2 2 1 2 2 1 3 3 2 3 2 4 2 3 1
4.2. Pengolahan Data 4.2.1. Metode Hirarki a. Stage Tabel 4.3 Agglomeration Schedule Cluster Combined Stage Cluster 1 Cluster 2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 25 5 43 36 39 37 34 32 24 31 10 28 13 4 8 6 16 17 14 9 11 50 49 46 45 44 40 39 37 34 33 32 31 30 28 25 24 23 21 20 17 15 13 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 Coefficients Cluster 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Cluster 2 0 0 0 0 0 0 6 7 8 0 9 11 0 13 2 10 1 0 0 19 0 14 17 15 42 26 25 7 8 9 11 16 12 24 14 22 32 29 33 34 20 36 38 31 Stage Cluster First Appears Next Stage
Cluster Combined Stage Cluster 1 Cluster 2 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 3 7 36 42 1 29 8 26 11 4 6 16 16 8 7 8 7 6 4 1 1 1 1 1 1 12 10 48 43 42 38 36 35 29 27 26 19 18 14 11 9 8 7 6 5 4 3 47 41 22 .000 .000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 2.000 2.000 2.000 Coefficients
Stage Cluster First Appears Next Stage Cluster 1 0 0 5 0 0 0 16 0 22 15 17 18 34 29 24 36 37 33 32 27 42 43 44 45 46 Cluster 2 0 12 0 4 26 0 25 0 28 0 30 0 0 20 31 21 38 39 40 3 41 23 0 0 0 44 37 29 27 42 31 36 33 37 41 40 35 48 38 39 39 40 41 43 43 44 45 46 47 48
Cluster Combined Stage Cluster 1 Cluster 2 48 49 1 1 16 2 2.000 2.000 Coefficients
Stage Cluster First Appears Next Stage Cluster 1 47 48 Cluster 2 35 0 49 0
b. Dendogram Dendrogram using Single Linkage

Rescaled Distance Cluster Combine C A S E Label Num Adit Galih Fandi Trisno Rozaq Syarif Novi Nurul Lu Safri Ha Chanifa Ibnu Her Mabok Maro Himawan Laskar K Digdoyo Richo Omiyabi Abdul Ha Aya' Anestia Ryan Hendi Sigit Nunuk Tomy Ikhsan Lenny Oc Maya Tyas Wanda Jusman B Annisa Rizki D. Fitra Didit Arfiana Karen Vivialit Sekar Huda Atlit Tasya Kidhut Farikh Ayu Kristin Dika Oki Fauzi Hendia V 23 50 6 26 35 39 40 37 34 32 31 10 7 28 30 13 11 29 38 9 15 17 20 14 24 33 8 36 44 48 25 49 4 27 5 46 43 45 42 1 3 12 47 41 22 16 21 19 18 2 0 5 10 15 20 25 +---------+---------+---------+---------+---------+
Gambar 4.1 Dendogram
c. Cluster Tabel 4.4 Cluster Cluster 1 Adit Galih Fandi Trisno Rozaq Syarif Novi Nurul Luklu Safri Halimi Chanifa Ibnu Herlino Mabok Maro Himawan Laskar Kesatria Digdiyo Richo Omiyabi Abdul Hafit Aya Anestia Ryan Hendi Sigit Nunuk Tomy Ikhsan Lenny Oktaviani Maya Cluster 2 Tasya Kidhut Farikh Cluster 3 Ayu Kristin Dika Oki Fauzi Cluster 4 (outlier) Hendia V.
Cluster 1 Tyas Wanda Jusman Beiber Annisa Rizki D Didit Arfiana Karen Vivialita Sekar Huda Atlit
Cluster 2
Cluster 3
Cluster 4 (outlier)
4.2.2. Profilisasi Customer
Tabel 4.5 Jenis Kelamin * Cluster Member Cluster Member 1 Jenis Kelamin Laki - laki Count 27 2 2 4.0% 1 2.0% 3 6.0% 3 2 4.0% 2 4.0% 4 8.0% 4 0 .0% 1 2.0% 1 2.0% Total 31 62.0% 19 38.0% 50 100.0%
% of Total 54.0% Perempuan Count 15
% of Total 30.0% Total Count 42 % of Total 84.0%
Tabel 4.6 Usia * Cluster Member Cluster Member 1 Usia 17 - 19 tahun Count 7 2 1 2.0% 2 4.0% 3 6.0% 3 0 .0% 4 8.0% 4 8.0% 4 0 .0% 1 2.0% 1 2.0% Total 8 16.0% 42 84.0% 50 100.0%
% of Total 14.0% 20 -22 tahun Count 35
Tabel 4.7 Angkatan * Cluster Member Cluster Member 1 Angkatan <= 2007 Count 8 2 0 .0% 2 4.0% 1 2.0% 3 6.0% 3 1 2.0% 3 6.0% 0 .0% 4 8.0% 4 0 .0% 1 2.0% 0 .0% 1 2.0% Total 9 18.0% 37 74.0% 4 8.0% 50 100.0%
% of Total 16.0% 2008 Count 31
% of Total 62.0% 2009 Count % of Total Total Count 3 6.0% 42
% of Total 84.0%
Tabel 4.8 Intensitas * Cluster Member Cluster Member 1 Intensitas Sangat Sering Count 5 2 1 2.0% 0 .0% 1 2.0% 1 2.0% 3 6.0% 3 3 6.0% 1 2.0% 0 .0% 0 .0% 4 8.0% 4 0 .0% 1 2.0% 0 .0% 0 .0% 1 2.0% Total 9 18.0% 12 24.0% 14 28.0% 15 30.0% 50 100.0%
% of Total 10.0% Sering Count 10
% of Total 20.0% Sedang Count 13
% of Total 26.0% Jarang Count 14
Tabel 4.9 Durasi * Cluster Member Cluster Member 1 Durasi <= 15 menit Count 9 2 2 4.0% 0 .0% 0 .0% 1 2.0% 3 6.0% 3 1 2.0% 0 .0% 0 .0% 3 6.0% 4 8.0% 4 0 .0% 0 .0% 1 2.0% 0 .0% 1 2.0% Total 12 24.0% 8 16.0% 14 28.0% 16 32.0% 50 100.0%
% of Total 18.0% 16 - 30 menit Count 8
% of Total 16.0% 30 - 60 menit Count 13
% of Total 26.0% >= 60 menit Count 12
BAB V PEMBAHASAN
5.1. Clustering Teknik yang digunakan dalam penelitian in adalah Teknik hirarki (hierarchical methods) adalah teknik clustering membentuk kontruksi hirarki atau berdasarkan tingkatan tertentu seperti struktur pohon (struktur pertandingan). Dengan demikian proses pengelompokkannya dilakukan secara bertingkat atau bertahap. Hasil dari pengelompokan ini dapat disajikan dalam bentuk dendogram. Metode dalam teknik hirarki yang digunakan dalam penelitian ini adalah Agglomerative Methods. Dari pengolahan data dengan menggunakan metode herarki maka terbentuklah 4 cluster yang dimana cluster 1 terdiri dari 42 responden, cluster 2 terdiri dari 3 responden, dan cluster 3 terdiri dari 4 responden. Cluster 4 tidak memiliki kelompok yang relative homogen, sehingga cluster 4 dikatakan outlier. Cluster 4 terdiri dari 1 responden.
5.2. Profilisasi Customer Kuisioner 1 merupakan profilisasi dari customer. Ada 5 variabel yang terdapat pada kuisioner 1, yaitu Jenis Kelamin, Usia, Angkatan, Intensitas, dan Durasi. Berikut penjabaran dari crosstab masing masing variable. Jenis Kelamin Cluster 1 Laki laki : 27 Perempuan : 15 Total : 42 Cluster 2 Laki laki : 2 Perempuan : 1 Total : 3 Cluster 3 Laki laki : 2 Perempuan : 2 Total : 4 Cluster 4 Laki laki : 0 Perempuan : 1 Total : 1
Usia Cluster 1 17 19 tahun : 7 20 22 tahun : 35 Total : 42 Cluster 2 17 19 tahun : 1 20 22 tahun : 2 Total : 3 Cluster 3 17 19 tahun : 0 20 22 tahun : 4 Total : 4 Cluster 4 17 19 tahun : 0 20 22 tahun : 1 Total : 1
Angkatan Cluster 1 2007 : 8 2008 : 31 2009 : 3 Total : 42 Cluster 2 2007 : 0 2008 : 2 2009 : 1 Total : 3 Cluster 3 2007 : 1 2008 : 3 2009 : 0 Total : 4 Cluster 4 2007 : 0 2008 : 1 2009 : 0 Total : 1
Intensitas Cluster 1 Sangat Sering : 5 Sering : 10 Sedang : 13 Jarang : 14 Total : 42 Cluster 2 Sangat Sering : 1 Sering : 0 Sedang : 1 Jarang : 1 Total : 3 Cluster 3 Sangat Sering : 3 Sering : 1 Sedang : 0 Jarang : 0 Total : 4
Cluster 4 Sangat Sering : 0 Sering : 1
Sedang : 0 Jarang : 0 Total : 1
Durasi Cluster 1 15 menit : 9 16 30 menit : 8 30 60 menit : 13 60 menit : 12 Total : 42 Cluster 2 15 menit : 2 16 30 menit : 0 30 60 menit : 0 60 menit : 1 Total : 3 Cluster 3 15 menit : 1 16 30 menit : 0 30 60 menit : 0 60 menit : 3 Total : 4 Cluster 4 15 menit : 0 16 30 menit : 0 30 60 menit : 1 60 menit : 0 Total : 1
BAB VI KESIMPULAN DAN SARAN
6.1. Kesimpulan Berdasarkan hasil dari pembahasan pada bab V, maka didapatkan beberapa kesimpulan : 1. Cluster yang terbentuk sebanyak 3 cluster dan 1 outlier. Cluster 1 terdiri dari 42 responden, cluster 2 terdiri dari 3 responden, dan cluster 3 terdiri dari 4 responden. Cluster 4 tidak memiliki kelompok yang relative homogen, sehingga cluster 4 dikatakan outlier. Cluster 4 terdiri dari 1 responden. 2. Mahasiswa Teknik Industri yang berkunjung ke laboratorium Data Mining dominan berjenis kelamin laki-laki dengan rata-rata usia 20 22 tahun dan merupakan angkatan 2008 dengan intensitas kunjungan yang jarang dan durasi atau lama berkunjung responden 60 menit .
6.2. Saran Berdasarkan kesimpulan diatas maka disarankan kepada Laboratorium Data Mining agar lebih gencar dalam mempromosikan kepada mahasiswa Teknik Industri dan mengadakan kegiatan yang bersifat rutin selain praktikum agar intensitas kunjungan mahasiswa ke Laboratorium dapat bertambah.
DAFTAR PUSTAKA
Modul II Analisis Cluster Praktikum Data Mining Han, Jiawei. Data Mining Concept and Technique. Presentation. http://www.cse.msu.edu/~cse980 Bertalya, Konsep Data Mining. Universitas Gunadarma, 2009. Walpole, Ronald E. Probability and Statistics for Engineers and Scientists.
LAMPIRAN
Cluster
Case Processing Summary Cases Valid N 50 Percent 100.0 N 0 Missing Percent .0 N 50 Total Percent 100.0
a,b
a. Squared Euclidean Distance used b. Single Linkage
Single Linkage
Agglomeration Schedule Cluster Combined Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Cluster 1 23 25 5 43 36 39 37 34 32 24 31 10 28 13 4 8 Cluster 2 50 49 46 45 44 40 39 37 34 33 32 31 30 28 25 24 Coefficients .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 Stage Cluster First Appears Cluster 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Cluster 2 0 0 0 0 0 0 6 7 8 0 9 11 0 13 2 10 Next Stage 17 15 42 26 25 7 8 9 11 16 12 24 14 22 32 29
Cluster Combined Stage 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 Cluster 1 6 16 17 14 9 11 3 7 36 42 1 29 8 26 11 4 6 16 16 8 7 8 7 6 4 1 1 1 1 1 1 1 1 Cluster 2 23 21 20 17 15 13 12 10 48 43 42 38 36 35 29 27 26 19 18 14 11 9 8 7 6 5 4 3 47 41 22 16 2 Coefficients .000 .000 .000 .000 .000 .000 .000 .000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 2.000 2.000 2.000 2.000 2.000
Stage Cluster First Appears Cluster 1 0 0 0 0 0 0 0 0 5 0 0 0 16 0 22 15 17 18 34 29 24 36 37 33 32 27 42 43 44 45 46 47 48 Cluster 2 1 0 0 19 0 14 0 12 0 4 26 0 25 0 28 0 30 0 0 20 31 21 38 39 40 3 41 23 0 0 0 35 0 Next Stage 33 34 20 36 38 31 44 37 29 27 42 31 36 33 37 41 40 35 48 38 39 39 40 41 43 43 44 45 46 47 48 49 0
Dendrogram
* * * * * * H I E R A R C H I C A L Dendrogram using Single Linkage Rescaled Distance Cluster Combine C A S E Label Num Adit Galih Fandi Trisno Rozaq Syarif Novi Nurul Lu Safri Ha Chanifa Ibnu Her Mabok Maro Himawan Laskar K Digdoyo Richo Omiyabi Abdul Ha Aya' Anestia Ryan Hendi Sigit Nunuk Tomy Ikhsan Lenny Oc Maya Tyas Wanda Jusman B Annisa Rizki D. Fitra Didit Arfiana Karen Vivialit Sekar Huda Atlit Tasya Kidhut Farikh Ayu Kristin Dika Oki Fauzi Hendia V 23 50 6 26 35 39 40 37 34 32 31 10 7 28 30 13 11 29 38 9 15 17 20 14 24 33 8 36 44 48 25 49 4 27 5 46 43 45 42 1 3 12 47 41 22 16 21 19 18 2 0 5 10 15 20 25 +---------+---------+---------+---------+---------+ C L U S T E R A N A L Y S I S * * * *
Crosstabs
Case Processing Summary Cases Valid N Jenis Kelamin * Cluster Member Usia * Cluster Member Angkatan * Cluster Member Intensitas * Cluster Member Durasi * Cluster Member 50 50 50 50 50 Percent 100.0% 100.0% 100.0% 100.0% 100.0% N 0 0 0 0 0 Missing Percent .0% .0% .0% .0% .0% N 50 50 50 50 50 Total Percent 100.0% 100.0% 100.0% 100.0% 100.0%
Jenis Kelamin * Cluster Member

Crosstab Cluster Member 1 Jenis Kelamin Laki - laki Count % of Total Perempuan Count % of Total Total Count % of Total 27 54.0% 15 30.0% 42 84.0% 2 2 4.0% 1 2.0% 3 6.0% 3 2 4.0% 2 4.0% 4 8.0% 4 0 .0% 1 2.0% 1 2.0% Total 31 62.0% 19 38.0% 50 100.0%
Symmetric Measures Asymp. Std. Value Interval by Interval Ordinal by Ordinal N of Valid Cases a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Based on normal approximation. Pearson's R Spearman Correlation .159 .121 50 Errora .141 .146 Approx. Tb 1.117 .844 Approx. Sig. .270 .403
c c
Usia * Cluster Member

Crosstab Cluster Member 1 Usia 17 - 19 tahun Count % of Total 20 -22 tahun Count % of Total Total Count % of Total 7 14.0% 35 70.0% 42 84.0% 2 1 2.0% 2 4.0% 3 6.0% 3 0 .0% 4 8.0% 4 8.0% 4 0 .0% 1 2.0% 1 2.0% Total 8 16.0% 42 84.0% 50 100.0%
Symmetric Measures Asymp. Std. Value Interval by Interval Ordinal by Ordinal N of Valid Cases a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Based on normal approximation. Pearson's R Spearman Correlation .097 .056 50 Error
a
Approx. Approx. T
b
Sig. .501
c
.078 .119
.679 .391
.698c
Angkatan * Cluster Member

Crosstab Cluster Member 1 Angkatan <= 2007 Count % of Total 2008 Count % of Total 2009 Count % of Total Total Count % of Total 8 16.0% 31 62.0% 3 6.0% 42 84.0% 2 0 .0% 2 4.0% 1 2.0% 3 6.0% 3 1 2.0% 3 6.0% 0 .0% 4 8.0% 4 0 .0% 1 2.0% 0 .0% 1 2.0% Total 9 18.0% 37 74.0% 4 8.0% 50 100.0%
a
Approx. T .116 .135
Approx. Sig. .874

c
.160 .495
.623c
Intensitas * Cluster Member

Crosstab Cluster Member 1 Intensitas Sangat Sering Count % of Total Sering Count % of Total Sedang Count % of Total Jarang Count % of Total Total Count % of Total 5 10.0% 10 20.0% 13 26.0% 14 28.0% 42 84.0% 2 1 2.0% 0 .0% 1 2.0% 1 2.0% 3 6.0% 3 3 6.0% 1 2.0% 0 .0% 0 .0% 4 8.0% 4 0 .0% 1 2.0% 0 .0% 0 .0% 1 2.0% Total 9 18.0% 12 24.0% 14 28.0% 15 30.0% 50 100.0%
Symmetric Measures Asymp. Std. Value Interval by Interval Pearson's R Ordinal by Ordinal Spearman Correlation N of Valid Cases a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Based on normal approximation. -.368 -.334 50 Errora .107 .129 Approx. Tb -2.739 -2.459 Approx. Sig. .009c .018c
Durasi * Cluster Member

Crosstab Cluster Member 1 Durasi <= 15 menit Count % of Total 16 - 30 menit Count % of Total 30 - 60 menit Count % of Total >= 60 menit Count % of Total Total Count % of Total 9 18.0% 8 16.0% 13 26.0% 12 24.0% 42 84.0% 2 2 4.0% 0 .0% 0 .0% 1 2.0% 3 6.0% 3 1 2.0% 0 .0% 0 .0% 3 6.0% 4 8.0% 4 0 .0% 0 .0% 1 2.0% 0 .0% 1 2.0% Total 12 24.0% 8 16.0% 14 28.0% 16 32.0% 50 100.0%
a
Approx. Approx. T
b
Sig. .549c .653c
.137 .162
.603 .452
LAPORAN RESMI PRAKTIKUM DATA MINING REGRESI
ABSTRAKS
Regresi merupakan salah satu metode yang dapat digunakan untuk memprediksi penjualan pada suatu perusahaan. Dalam penelitian ini, analisis regresi berganda digunakan untuk memprediksi total penjualan dari butik THE UNIQUE CULTURE. Metode yang digunakan dalam penelitian ini adalah Analisis Linier Berganda yang merupakan suatu metode statistik umum yang digunakan untuk meneliti hubungan antara sebuah variable dependent dengan beberapa variable independent. Tujuan analisis regresi linier berganda adalah menggunakan variable independent yang diketahui, untuk meramalkan variable dependent. Keyword : Regresi, Regresi Linear Berganda, THE UNIQUE CULTURE
BAB I PENDAHULUAN
1.4 Latar Belakang masalah THE UNIQUE CULTURE merupakan sebuah butik Batik dengan etnik modern yang sedang berkembang di kalangan menengah atas masyarakat Indonesia. Dalam beberapa bulan terakhir, THE UNIQUE CULTURE gencar mempromosikan batik dengan segala jenis varian barunya yang dijualnya dengan membuka outlet-outlet di 50 daerah. Dalam rangka memperluas jaringan pasar, THE UNIQUE CULTURE menambah 5 kota untuk membuka outletnya, yakni Purworejo, Purwodadi, Waykambas, Musi dan Tarakan. Oleh sebab itu, THE UNIQUE CULTURE membutuhkan prediksi penjualan pada lima kota tersebut.
1.5 Rumusan Masalah 1. Bagaimana hasil uji normalitas? 2. Bagaimana hasil uji signifikansi persamaan regresi? 3. Bagaimana persamaan regresi yang terbentuk? 4. Bagaimana hasil uji multikolineritas? 5. Bagaimana korelasi antara variable dependent dengan variabel
independentnya? 6. Bagaimana hasil prediksi penjualan pada lima kota?
1.6 Tujuan penelitian 3. Untuk mengetahui hasil uji normalitas. 4. Untuk mengetahui hasil uji signifikansi persamaan regresi. 5. Untuk mengetahui persamaan regresi yang terbentuk. 6. Untuk mengetahui uji multikolineritas. 7. Untuk mengetahui hubungan antara variable dependent dengan variable independentnya. 8. Untuk mengetahui hasil prediksi penjualan pada lima kota.
1.7 Manfaat Penelitian Penelitian ini bermafaat untuk mengetahui persamaan regresi yang didapatkan dari data historis butik THE UNIQUE CULTURE untuk memprediksi total penjualan yang didapatkan pada 5 kota.
1.5 Flowchart Mulai
Pengumpulan Data MasaPengumpulal ah TIDAK Uji Normalitas TIDAK
ya TIDAK
Uji Linearitas Sig 0.05 atau Fhitung > Ftabel ya
Uji MultiKolinearitas VIF < 2
ya Menentukan Persamaan Regresi
Menentukan Nilai R Square
Menentukan Koefisien Korelasi
Selesai
Gambar 1.1 Flowchart
3.5. Langkah Software 12. Input data yang diperoleh ke software independent(X) yang valid
16. Case labels : Letakkan nama 13. Pilih analyze klik Regression lalu pilih Linear daerah
14. Dependent : Letakkan Variabel dependent (Y) yang valid
17. Statistik : Regression Coefficient lalu klik estimates, model fit, descriptives, collinearity diagnostics lalu klik continue
15. Independent(s) : Letakkan semua Variabel
18. Plots : Y = dependent, X = *adjpred, klik histogram dan probability plot, klik continue
19. Save : predicted values, klik unstandardized, include the convariance matrix, continue.
20. Option : klik Probability of F, include constant in equation, exclude cases listwise, continue.
21. Klik OK
Banyak penelitian yang bertujuan mencari dasar-dasar untuk mengadakan prediksi suatu variabel dari informasi-informasi yang diperoleh dari variabel tersebut. Misalnya, apakah keadaan cuaca dapat diramalkan dari suhu, tekanan udara, kelembaban udara, dan kecepatan angin; Apakah prestasi belajar anak dapat diprediksikan dari angka kecerdasan dan perbendaharaan bahasa (kosa kata); Apakah prestasi pemain sepak bola dapat dipresiksi dari keahliannya dan umur pemain tersebut; dan sebagainya. Maka diperlukan metoda untuk dapat memecahkan semua masalah yang ada untuk memudahkan dalam pengambilan keputusan. Salah satu tool atau metoda untuk memprediksi adalah Regresi. Dalam kehidupan sehari-hari kita sering melihat suatu peristiwa atau keadaan yang terjadi akibat peristiwa yang lain. Untuk mengetahui hubungan antara kejadian tersebut, terutama untuk menelusuri pola hubungan yang modelnya belum diketahui maka analisis regresi dapat dijadikan alat untuk membantu menganalisis hubungan tersebut. Analisis regresi memiliki 3 kegunaan yaitu, deskripsi, kendali, dan prediksi (peramalan). Tetapi manfaat utama dari kebanyakan penyelidikan statistik dalam dunia bisnis dan ekonomi adalah mengadakan prediksi atau peramalan. Dalam analisis regresi dikenal dua macam variabel atau peubah yaitu variabel bebas (independent variabel) adalah dan variabel tidak bebas (dependent variabel). Variabel bebas (independent variabel) adalah suatau variabel yang nilainya telah diketahui, sedangkan variabel tidak bebas (dependent variabel) adalah variabel yang nialainya belum diketahui dan yang akan diramalkan. Suatu variabel dapat diramalkan dari variabel lain apabila antara variabel yang diramalakan (dependent variabel) dengan variabel yang nilainya diketahui (independent variabel) terdapat hubungan atau korelasi yang signifikan. Misalnya, jika antara tinggi badan dan berat badan pada umur-umur tertentu terdapat korelasi yang signifikan, maka berat badan orang pada umur tersebut akan dapat diramalkan dari tinggi badannya. Korelasi antara independent variable dengan dependent variabel dapat dilukiskan dalam suatu garis. Garis ini disebut garis regresi. Garis regresi mungkin merupakan garis lurus (linier) disebut regresi linier, mungkin juga merupakan garis lengkung (parabolik, hiperbolik,
dan sebagainya) yang disebut regresi non linier. Namun berdasarkan dari data yang ada, maka analisis yang akan digunakan adalah analisis regresi linear berganda. Regresi linier berganda mengamati pengaruh lebih dari satu variabel bebas (independent variable) terhadap variabel tidak bebas (dependent variable), minimal ada dua buah variabel bebas (independent variable). Analisis Linier Berganda adalah suatu metode statistik umum yang digunakan untuk meneliti hubungan antara sebuah variable dependent dengan beberapa variable independent. Tujuan analisis regresi linier berganda adalah menggunakan variable independent yang diketahui, untuk meramalkan variable dependent. Misalnya : penjualan sebuah produk dapat dipengaruhi oleh biaya promosi, biaya produksi, biaya transportasi, gaji karyawan dan lain-lain. Jumlah pengeluaran rumah tangga dipengaruhi oleh pendapatan, jumlah keluarga. Secara matematis regresi linier berganda dapat dituliskan dalam persamaan berikut : = a + b1X1 + b2X2 + b3X3 + + bnXn dimana : Y = variabel yang diramalkan (dependent variable) X1, X2, X3, , Xn = variabel yang diketahui (independent variable) b1, b2, b3,, bn = koefisien regresi
BAB III PENGUMPULAN DAN PENGOLAHAN DATA

3.1 Pengumpulan Data 3.1.1 Data Historis butik THE UNIQUE CULTURE
Tabel 3.1 Data historis butik THE UNIQUE CULTURE Biaya Periklanan 50 17 18 25 15 35 21 40 34 44 24 26 15 26 11 44 29 23 29 35 23 45 Laju Pertumbuhan Penduduk 2.55 2.15 1.99 1.76 2.3 2.69 2.56 3 1.65 1.9 1.46 1.57 1.87 1.76 1.98 1.28 1.76 2.23 2.21 2.66 1.69 2.56 Luas Outlet 55 46 53 45 64 54 76 56 67 68 40 61 65 55 41 59 41 65 52 53 54 65 Jumlah Pesaing 35 30 25 33 14 5 10 7 12 9 5 4 7 9 12 53 27 40 25 12 11 9
No.
Daerah
Penjualan
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
Jakarta Pusat Jakarta Barat Jakarta Selatan Bandung Bogor Cirebon Aceh Medan Riau Batam Bengkulu Jambi Banten Cilegon Purwakarta Yogyakarta Semarang Pekalongan Solo Bekasi Tangerang Denpasar
231 135 187 276 233 345 267 163 321 337 333 235 234 169 179 245 100 256 139 157 212 365
No.
Daerah
Penjualan
Biaya Periklanan 24 19 24 29 22 23 33 13 31 26 32 21 18 21 22 21 21 23 15 40 19 27 18 39 39 16 9 39
Laju Pertumbuhan Penduduk 2.39 1.54 2.88 1.99 1.79 2.89 2.68 1.79 1.78 1.46 2.7 1.65 1.9 1 2.76 2.14 2.01 1.87 1.67 2.24 2.58 1.65 2.34 2.21 2.24 1.98 1.22 2.54
Luas Outlet 61 51 75 58 64 68 60 78 45 51 49 54 65 40 50 47 87 43 53 74 64 70 45 88 65 43 46 90
Jumlah Pesaing 17 19 7 6 19 6 8 7 3 5 2 4 9 4 9 8 6 9 5 4 8 8 9 8 9 5 7 9
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
Dumai Bontang Surabaya Kediri Malang Banjarmasin Padang Pekanbaru Manado Jayapura Martapura Sorong Makasar Ambon Bukit Tinggi Purwokerto Tuban Jombang Bangka Belitung Lampung Mataram Depok Gorontalo Metro Madiun Magelang Palangka Raya
250 198 284 247 210 290 342 214 320 300 349 209 217 89 225 135 218 175 211 374 256 234 223 264 319 126 110 390
3.1.2 Data yang Akan Diprediksi Tabel 3.2 Data yang akan diprediksi dari butik THE UNIQUE CULTURE Biaya NO Daerah Periklanan (juta) Laju pertumbuhan penduduk (%) 2.12 1.91 1.88 1.69 2.23 Luas outlet (m2)
Jumlah pesaing
1 Purworejo 2 Purwodadi 3 Waykambas 4 Musi 5 Tarakan
22 27 17 19 23
39 78 37 49 72
5 3 6 3 4
3.2 Pengolahan Data 3.2.1 Uji Normalitas
Gambar 3.1
Gambar 3.2
3.2.2 Tabel Model Summary Tabel 3.3 Model Summaryb Model 1 R .663a R Square .440 Adjusted R Square .390 Std. Error of the Estimate 58.90304
3.2.3 Uji Linearitas Tabel 3.4 ANOVAb Model 1 Regression Residual Total Sum of Squares 122477.380 156130.540 278607.920 df 4 45 49 Mean Square 30619.345 3469.568 F Sig.
8.825 .000a
3.2.4 Uji Multikolinieritas dan Persamaan Regresi Tabel 3.5 Coefficientsa Unstandardized Coefficients Model B 1 (Constant) Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing 36.481 3.520 12.587 1.765 -1.631 Std. Error 50.393 .959 19.314 .718 .824 Beta .724 .451 3.670 .079 .652 .473 .001 .518 .018 .054 .826 .844 .858 .925 1.211 1.185 1.165 1.081 Standardized Coefficients t Sig. Tolerance VIF Collinearity Statistics
.296 2.458 -.230 -1.979
3.2.5 Nilai Korelasi antara Variable Dependent dengan Variable Independent Tabel 3.6 Correlations Laju Biaya Pertumbuhan Luas Outlet .467 .266 .301 1.000 -.118 .000 .031 .017 . .208 50 50 50 50 50 Jumlah Pesaing -.193 .176 -.101 -.118 1.000 .089 .111 .242 .208 . 50 50 50 50 50
Penjualan Periklanan Penduduk Pearson Correlation Penjualan Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing Sig. (1-tailed) Penjualan Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing N Penjualan Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing 1.000 .513 .326 .467 -.193 . .000 .010 .000 .089 50 50 50 50 50 .513 1.000 .299 .266 .176 .000 . .017 .031 .111 50 50 50 50 50 .326 .299 1.000 .301 -.101 .010 .017 . .017 .242 50 50 50 50 50
3.2.6 Prediksi Berdasarkan table koefisien, maka dapat diperoleh informasi bahwa nilai : a = 36,481 b1 = 3,52 b2 = 12,587 b3 = 1,765 b4 = -1,631 sehingga dapat diperoleh persamaan regresi sebagai berikut :
Y = 36,481 + 3,52 X1 + 12,587 X2 + 1,765 X3 - 1,631 X4 Maka prediksi penjualan pada lima kota adalah sebagai berikut : YPurworejo = 36,481 + 3,52 (22) + 12,587 (2,12) + 1,765 (39) - 1,631 (5) = 201,29 YPurwodadi YWaykambas = 36,481 + 3,52 (27) + 12,587 (1,91) + 1,765 (78) - 1,631 (3) = 288,34 = 36,481 + 3,52 (17) + 12,587 (1,88) + 1,765 (37) - 1,631 (6) = 175,5 YMusi YTarakan = 36,481 + 3,52 (19) + 12,587 (1,69) + 1,765 (49) - 1,631 (3) = 206,23 = 36,481 + 3,52 (23) + 12,587 (2,23) + 1,765 (72) - 1,631 (4) = 266,07
BAB IV PEMBAHASAN
4.1 Uji Normalitas Berdasarkan histogram yang diperoleh dari output SPSS, maka dapat dilihat bahwa pola histogram relatif membentuk lonceng terbalik. Hal tersebut menunjukkan bahwa data bersifat normal. Selain itu, berdasarkan scater plot juga dapa terlihat bahwa pola distribusi data relatif membentuk linier.
4.2 Tabel Model Summary Dari hasil pengolahan data diperoleh nilai R-square yaitu sebesar 0.440, yang artinya besarnya keragaman antara variabel dependent dengan variabel independent yang terdapat pada persamaan regresi sebesar 0.440, semakin besar nilai R-square semakin baik persamaan regresi tersebut dalam menjelaskan keragaman data.
4.3 Uji Linearitas Hipotesis: Ho: Biaya periklanan, laju pertumbuhan penduduk, luas outlet, dan jumlah pesaing tidak berpengaruh pada penjualan. H1: Biaya periklanan, laju pertumbuhan penduduk, luas outlet, dan jumlah pesaing berpengaruh pada penjualan. Tingkat signifikansi Level signifikansi = 0.000 Ftabel = 5,56 Fhitung = 8,825 Daerah kritis Jika Fhitung Ftabel maka Ho ditolak Jika Fhitung Ftabel maka Ho diterima F hitung > F table maka H0 ditolak sehingga persamaan signifikan (ada pengauh yang signifikan antara variable independent terhadap variable dependent. df1 = k = 4 df2 = n k 1 = 45
4.4 Uji Multikolinieritas dan Persamaan Regresi 4.4.1 Uji Multikolinieritas Dengan uji multikolinieritas maka didapat hasil VIF sebagai berikut: VIF Nilai biaya periklanan VIF Nilai laju pertumbuhan penduduk VIF Nilai luas outlet VIF Nilai jumlah pesaing = 1.211 = 1.185 = 1.165 = 1.081
Karena 4 nilai VIF < 2, maka artinya variabel biaya periklanan, laju pertumbuhan penduduk, luas outlet dan jumlah pesaing tidak saling berkorelasi atau tidak terjadi multikolinieritas.
4.4.2 Persamaan Regresi Dari hasil pengolahan data didapat hasil sebagai berikut; a = 36,481 b1 = 3,52 b2 = 12,587 b3 = 1,765 b4 = -1,631 dengan; Y1 = penjualan X1 = biaya periklanan X2 = laju pertumbuhan penduduk X3 = luas outlet X4 = jumlah pesaing sehingga dapat diperoleh persamaan regresi sebagai berikut : Y = 36,481 + 3,52 X1 + 12,587 X2 + 1,765 X3 - 1,631 X4
4.5 Nilai Korelasi antara Variable Dependent dengan Variable Independent Dari hasil pengolahan data diperoleh hubungan korelasi sebagai berikut: 1. Hubungan korelasi antara Y X1 2. Hubungan korelasi antara Y X2 3. Hubungan korelasi antara Y X3 4. Hubungan korelasi antara Y X4 5. Hubungan korelasi antara X1 X2 6. Hubungan korelasi antara X1 X3 7. Hubungan korelasi antara X1 X4 8. Hubungan korelasi antara X2 X3 9. Hubungan korelasi antara X2 X4 10.Hubungan korelasi antara X3 X4 = 0.513 berarti positif kuat. = 0.326 berarti positif lemah = 0.467 berarti positif lemah. = - 0.193 berarti negatif lemah. = 0.299 berarti positif lemah. = 0.266 berarti positif lemah. = 0.176 berarti positif lemah. = 0.301 berarti positif lemah. = - 0.101 berarti negatif lemah. = - 0.118 berarti negatif lemah.
4.6 Prediksi Dari hasil penghitungan dengan menggunakan persamaaan regeresi dapat diketahui prediksi besar insentif karyawan yang akan diterima sebagai berikut: 1. Di kota Purworejo besar penjualan adalah 201.29 2. Di kota Purwodadi besar penjualan adalah 288.34 3. Di kota Waykambas besar penjualan adalah 175.5 4. Di kota Musi besar penjualan adalah 206.23 5. Di kota Tarakan besar penjualan adalah 266.07
BAB V KESIMPULAN DAN SARAN
6.1. Kesimpulan 1. Berdasarkan hasil uji normalitas diketahui bahwa data bersifat normal 2. Berdasarkan hasil uji signifikansi persamaan regresi, maka : Ftabel = 5,56 Fhitung = 8,825 F hitung > F table maka H0 ditolak sehingga persamaan signifikan (ada pengauh yang signifikan antara variable independent terhadap variable dependent. 3. Persamaan regresi yang terbentuk adalah sebagai berikut : Y = 36,481 + 3,52 X1 + 12,587 X2 + 1,765 X3 - 1,631 X4 4. Berdasarkan uji multikolineritas, maka dapat disimpulkan bahwa variabel biaya periklanan, laju pertumbuhan penduduk, luas outlet dan jumlah pesaing tidak saling berkorelasi atau tidak terjadi multikolinieritas karena 4 nilai VIF < 2. 5. Yang memiliki hubungan positif kuat adalah : Y X1 Yang memiliki hubungan positif lemah adalah : Y X2, Y X3, X1 X2, X1 X3, X1 X4, X2 X3 Yang memiliki hubungan negatif lemah : Y X4, X2 X4, X3 X4 6. Hasil prediksi penjualan pada lima kota : 1. Di kota Purworejo besar penjualan adalah 201.29 2. Di kota Purwodadi besar penjualan adalah 288.34 3. Di kota Waykambas besar penjualan adalah 175.5 4. Di kota Musi besar penjualan adalah 206.23 5. Di kota Tarakan besar penjualan adalah 266.07
6.2. Saran 1. Jumlah variabel independent hendaknya lebih banyak lagi untuk mendapatkan hasil prediksi yang lebih akurat. 2. Berdasarkan dari hasil prediksi, maka disarankan pada Butik THE UNIQUE CULTURE agar membuka outlet baru dengan prioritas sebagai berikut : Di kota Purwodadi besar penjualan adalah 288.34 Di kota Tarakan besar penjualan adalah 266.07 Di kota Musi besar penjualan adalah 206.23 Di kota Purworejo besar penjualan adalah 201.29 Di kota Waykambas besar penjualan adalah 175.5
DAFTAR PUSTAKA
Modul III PREDIKSI Praktikum Data Mining
1. Han, Jiawei. Data Mining Concept and Technique. Presentation. http://www.cse.msu.edu/~cse980 2. Bertalya, Konsep Data Mining. Universitas Gunadarma, 2009. 3. Walpole, Ronald E. Probability and Statistics for Engineers and Scientists.
LAMPIRAN Regression
Descriptive Statistics Mean Penjualan Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing 237,9600 26,2600 2,0694 58,3800 12,2800 Std. Deviation 75,40475 9,65488 ,47433 12,65216 10,61966 N 50 50 50 50 50
Correlations
Penjualan Pearson Correlation Penjualan Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing Sig. (1-tailed) Penjualan Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing N Penjualan Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing 1,000 ,513 ,326 ,467 -,193 . ,000 ,010 ,000 ,089 50 50 50 50 50
Biaya Periklanan ,513 1,000 ,299 ,266 ,176 ,000 . ,017 ,031 ,111 50 50 50 50 50
Laju Pertumbuhan Penduduk ,326 ,299 1,000 ,301 -,101 ,010 ,017 . ,017 ,242 50 50 50 50 50
Luas Outlet ,467 ,266 ,301 1,000 -,118 ,000 ,031 ,017 . ,208 50 50 50 50 50
Jumlah Pesaing -,193 ,176 -,101 -,118 1,000 ,089 ,111 ,242 ,208 . 50 50 50 50 50
Variables Entered/Removed(b) Variables Entered Jumlah Pesaing, Laju Pertumbuha n Penduduk, Luas Outlet, Biaya Periklanan( a) Variables Removed
Model 1
Method
Enter
a All requested variables entered. b Dependent Variable: Penjualan
Model Summary(b) Adjusted R Square ,390 Std. Error of the Estimate 58,90304
Model 1
R ,663(a)
R Square ,440
a Predictors: (Constant), Jumlah Pesaing, Laju Pertumbuhan Penduduk, Luas Outlet, Biaya Periklanan b Dependent Variable: Penjualan
ANOVA(b) Sum of Squares Regression Residual Total 122477,38 0 156130,54 0 278607,92 0
Model 1
df 4 45 49
Mean Square 30619,345 3469,568
F 8,825
Sig. ,000(a)
a Predictors: (Constant), Jumlah Pesaing, Laju Pertumbuhan Penduduk, Luas Outlet, Biaya Periklanan b Dependent Variable: Penjualan
Coefficients(a)
Model
Unstandardized Coefficients Std. Error 50,393 ,959 19,314 ,718 ,824
Standardized Coefficients
Sig.
Collinearity Statistics Std. Error
B 1 (Constant) Biaya Periklanan Laju Pertumbuhan Penduduk Luas Outlet Jumlah Pesaing a Dependent Variable: Penjualan 36,481 3,520 12,587 1,765 -1,631
Beta
Tolerance ,724 ,451 ,079 ,296 3,670 ,652 2,458 -1,979
VIF ,473 ,001 ,518 ,018 ,054
,826 ,844 ,858 ,925
1,211 1,185 1,165 1,081
-,230
Collinearity Diagnostics(a)
Eigenvalue Model Dimension (Constant) 1 1 2 3 4 5 4,497 ,375 ,077 ,033 ,019
Condition Index Biaya Periklanan 1,000 3,464 7,664 11,745 15,522 Laju Pertumbuhan Penduduk ,00 ,00 ,04 ,00 ,96
Variance ProportionsLuas Outlet ,00 ,00 ,98 ,00 ,01 Jumlah Pesaing ,00 ,01 ,03 ,72 ,25 Biaya Periklan an ,01 ,88 ,02 ,00 ,09
(Constant) ,00 ,01 ,04 ,50 ,46
a Dependent Variable: Penjualan
Residuals Statistics(a)
Minimum Predicted Value Std. Predicted Value Standard Error of Predicted Value Adjusted Predicted Value Residual Std. Residual Stud. Residual Deleted Residual Stud. Deleted Residual Mahal. Distance Cook's Distance Centered Leverage Value a Dependent Variable: Penjualan 152,9086 -1,701 10,798 150,0846 139,44339 -2,367 -2,558 162,80220 -2,736 ,667 ,000 ,014
Maximum 349,8795 2,239 38,091 358,2657 131,23038 2,228 2,354 146,55676 2,486 19,511 ,219 ,398
Mean 237,9600 ,000 17,972 237,9812 ,00000 ,000 ,000 -,02123 -,004 3,920 ,027 ,080
Std. Deviation 49,99538 1,000 4,947 51,31624 56,44765 ,958 1,018 63,74182 1,043 3,089 ,043 ,063
N 50 50 50 50 50 50 50 50 50 50 50 50
Histogram
Dependent Variable: Penjualan

20
15
Frequency
10
0 -3 -2 -1 0 1 2 3
Mean =-1.63E-16 Std. Dev. =0.958 N =50
Regression Standardized Residual
Normal P-P Plot of Regression Standardized Residual

Bengkulu Bandung Martapura Jayapura Manado Padang Cirebon Pekalongan Belitung Palangka Raya Riau Depok Yogyakarta Bogor Denpasar Purwakarta Bontang Banten Banjarmasin Bangka Dumai Surabaya MetroBatam Lampung Bukit Tinggi Aceh Jakarta Selatan Tangerang Sorong Kediri Jambi MalangMakasar Jakarta Barat Pekanbaru Jombang Mataram Magelang Madiun Tuban Jakarta Pusat Solo CilegonPurwokerto Medan Ambon Bekasi Gorontalo Semarang 0.0 0.2 0.4 0.6 0.8 1.0
1.0
Expected Cum Prob
0.8
0.6
0.4
0.2
0.0
Observed Cum Prob
Scatterplot

200
Regression Deleted (Press) Residual
Bengkulu Bandung 100 Purwakarta Pekalongan Manado Martapura Padang Jayapura Cirebon
-100
Belitung Denpasar Depok Yogyakarta Lampung Metro Riau Banten Palangka Raya Bontang Aceh Banjarmasin Jakarta Selatan Dumai Kediri Batam Surabaya Bangka Bogor Malang Makasar Jakarta Barat Tangerang Mataram Sorong Jombang Jambi Pekanbaru Madiun Tuban Purwokerto Magelang Gorontalo Cilegon Jakarta Pusat Semarang Ambon Solo Bekasi Medan
-200 150 200 250 300 350 400
Regression Adjusted (Press) Predicted Value
LAPORAN RESMI PRAKTIKUM DATA MINING ASSOCIATION RULE - MARKET BASKET ANALYSIS
DISUSUN OLEH: KELOMPOK C.23 ARIF RAKHMANTO (08 522 200)
CATUR HERMAWANTO (08 522 210)
ABSTRAK
Association Rule merupakan salah satu metode dalam Market Basket Analysis yang dapat digunakan untuk mengetahui aturan asosiasi antara himpunan item dalam suatu basisdata transaksi. Aturan asosiasi tersebut sangat bermanfaat bagi perencanaan promosi dan penjualan, strategi pemasaran serta tata letak toko. Dalam penelitian ini, studi Market Basket Analysis dilakukan terhadap toko Indomart Cabang Nogotirto/ 004 untuk menganalisa Association Rule yang terbentuk sehingga dapat diperoleh usulan tata letak toko yang lebih baik. Hasil penelitian menunjukkan bahwa departemen satu memiliki hubungan yang sangat kuat dengan departemen tiga. Sedangkan departemen 2, 4, 5, 6 memiliki hubungan yang sedang dengan departemen 3. Keyword : Association Rule, Market Basket Analysis, Activity Relationship Chart
BAB I PENDAHULUAN
1.1 Latar Belakang Indomart merupakan salah satu toko retail di Indonesia yang berkembang dengan cara franchise, sehingga banyak investor yang membuka cabang di berbagai daerah, salah satunya adalah di daerah Nogotirto, Kecamatan Gamping, Kabupaten Sleman, DIY. Dalam mencatat setiap transaksi pembelian, Indomart menggunakan sistem basis data transaksi yang dapat mencatat setiap transaksi penjualan yang nantinya dapat digunakan untuk kepentingan perencanaan promosi, penjualan, strategi pemasaran dan perencanaan tata letak toko. Transaksi yang tercatat tersebut dapat dipelajari melalui sebuah studi Market Basket Analysis dengan metode Association Rule untuk mengetahui aturan asosiasi diantara himpunan besar data item dalam basisdata transaksi. Tingkat kedatangan dan transaksi konsumen yang relatif tinggi merupakan salah satu faktor pendorong untuk melakukan analisa kelayakan tata letak toko terkait efektifitas dan efisiensi. Oleh sebab itu maka dilakukan analisa terkait perencanaan tata letak toko menggunakan studi Market Basket Analysis dengan metode Association Rule.
1.2 Rumusan Masalah 1. Bagaimanakah Association Rule yang terbentuk berdasarkan hasil penelitian? 2. Bagaimanakah Activity Relationship Chart (ARC) yang diperoleh? 3. Bagaimanakah usulan alternatif tata letak toko yang baru? 1.3 Batasan Masalah 1. Jumlah struk yang digunakan sebagai bahan penelitian dibatasi sejumlah 50 buah struk. 2. Association Rule dan ARC yang diperoleh dari penelitian sebatas dipergunakan untuk merencanakan usulan tata letak toko yang lebih baik. 3. Usulan tata letak toko hanya sebatas per departemen.
1.4 Tujuan Penelitian 1. Untuk mengetahui Association Rule yang terbentuk. 2. Untuk mengetahui Activity Relationship Chart (ARC) yang terbentuk. 3. Untuk mendapatkan alternatif tata letak toko yang lebih menunjang proses transaksi. 1.5 Manfaat Penelitian Penelitian ini bermanfaat untuk mengetahui tingkat efektifitas tata letak toko dalam mengakomodir aktivitas belanja konsumen melalui analisa Association Rule yang nantinya akan digunakan sebagai pertimbangan dalam merencanakan tata letak toko yang lebih baik.
Asociation dalam data mining adalah pekerjaan untuk menentukan mana atribut yang akan didapatkan bersamaan. Dalam dunia bisnis lazim dikenal istilah affinity analysis. Tugas dari asociation rule adalah mencari aturan yang tidak mengcover untuk mengukur hubungan antara dua atau lebih atribut. Association Rule adalah bentuk jika kejadian sebelumnya kemudian konsekuensinya. (IF antecedent, THEN consequent). Bersamaan dengan
perhitungan aturan support dan confidence. Pola asosiasi menjadi salah satu fungsionalitas yang paling menarik dalam penggalian data (Kumar dan Wahidabanu, 2007). Association Rule adalah teknik data mining untuk menemukan aturan assosiatif antara suatu kombinasi item. Contoh dari Association Rule dari analisa pembelian di suatu pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang pembeli membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut Pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu (Wiwin, 2008). Menurut Leo Susanto (2003) penggalian kaidah asosiasi mempunyai peranan penting dalam proses pengambilan keputusan. Salah satu contoh penerapan Association Rule adalah Market Basket Analysis. Association Rule menjadi terkenal karena aplikasinya untuk menganalisa isi keranjang belanja di pasar swalayan, sehingga Association Rule juga sering disebut dengan istilah Market Basket Analysis. Association Rule juga dikenal sebagai salah satu teknik data mining yang menjadi dasar dari berbagai teknik data mining lainnya. Market Basket Analysis merupakan salah satu contoh penerapan Association Rule. Untuk menyampaikan ide mendasar dari Market Basket Analysis, dimulai dengan melihat gambar keranjangan belanjaan pada gambar 3.1 yang berisi bermacam-macam barang-barang yang dibeli oleh seseorang disebuah supermarket. Keranjang ini berisi bermacam-macam barang-barang seperti roti, susu, sereal, telur, mentega, gula, dan sebagainya. Sebuah keranjang memberitahukan kepada kita tentang apa saja yang dibeli oleh seorang konsumen dalam satu waktu. Sebuah daftar
belanjaan yang lengkap yang diperoleh dari semua konsumen memberikan kita informasi yang sangat banyak, dan ini dapat menjelaskan barang-barang apa saja yang paling penting dari bisnis penjualan yaitu apa barang yang dibeli oleh konsumen dan kapan. Setiap konsumen membeli seperangkat barang-barang yang berbeda, dalam jumlah yang berbeda, dan dalam waktu yang berbeda. Market Basket Analysis menggunakan informasi apa yang dibeli oleh konsumen-konsumen untuk
menyediakan tanda/informasi yaitu siapa mereka dan mengapa mereka melakukan pembelian tersebut?. Market Basket Analysis menyediakan pengertian tentang barang dagangan dengan memberitahukan kepada kita produk-produk mana yang memungkinkan untuk dibeli secara bersamaan dan produk mana yang lebih disetujui untuk di promosikan. Karena dalam Market Basket Analysis tidak hanya memahami kuantitas dari item yang dibeli dalam keranjang itu, tapi bagaimana item yang dibeli dalam hubungannya satu dengan yang lain.
3.1 Lokasi Penelitian Indomart Cabang Nogotirto/ 004 Jalan Godean km. 4 Nogotirto, Gamping, Sleman, Daerah Istimewa Yogyakarta
3.2 Objek Penelitian Outlet Indomart Cabang Nogotirto/ 004 beserta pelanggan dan struk transaksi pembeliannya.
3.3 Metode Pengumpulan Data 3.3.1 Data Primer Data primer dalam penelitian ini berupa struk belanja konsumen yang dikumpulkan melalui proses kolektif di lapangan. 3.3.2 Data Sekunder Data sekunder dalam penelitian ini merupakan data yang telah diproses dari data primer menjadi data yang siap untuk diolah lebih lanjut. Data sekunder dalam penelitian ini meliputi data pembelian, data transformasi, dan data tabulasi yang selanjutnya siap diolah menggunakan software.
1.4 Flow Chart Penelitian
Mulai
Input Data
Pre processing data 1. Data integrasi 2. Data transformasi
Data Tabulasi
Association Rule
Activity Relationship Chart
Selesai
Gambar 1.1 Flowchart
1.6 Langkah Software 1.6.1 Input Data 1. Pre Processing Data a. Data Integrasi a.1 Edit click Find
a.2 Find click name of item
a.3 Replace click Name of department
a.4 Replace all
b. Data Transformasi Change data department to matrix binary 1 = item dibeli, 0 = item tidak dibeli
1.6.2 Association Rule a. Open sheet binary
b. XLminer click affinity click association rule
c. Data Range: Block matrix binary click enter (name of department enclosed).
d. Check list: first row contains header
e. Input data format click Data in binary matrix format
f. Parameter: Min support .(in total) Min Confidence (in %)
g. Ok
4.1 Pengumpulan Data a. Data Transaksi
Tabel 4.1 Data Transaksi No. 1 Clear Dettol NU 2 Indomie Green Tea 3 4 Buavita Susu Ultra Nescafe Fruit Tea Glade Fresh Sosro 5 Clear Paseo Teh Kotak Kacang Iyes Susu Bendera Teh Sosro Kacang Mayasi Nescafe Uticon Stk Item Yang Dibeli
No. 6 Keripik Jagung Paseo Tong Tji Jasmine Susu Ultra Spons Sabut Vitalis Blossom Enzim 10 Attack Pasta Gigi NU 11 Indomie Indomie Buavita Yakult Green Tea 12 Shampo Clear Dettol Sapu Buavita Indomie Indomie Aneka Sagon Koko Crunch Lem ALL Attack Sikat Gigi Paramex Susu Ultra Enervon C
Item Yang Dibeli
Sunlight Kiwi Black
Susu Ultra
Susu Ultra
Susu Ultra
Shampo o Dove
No Enzim 13 Paseo Sunlight Dettol Vaseline Pasta Gigi Indomil k Coklat Roti 15 Susu Bendera NU Green Tea Paseo Aqua Lumbu ng Straw 16 Attack Hemaviton Gery Salute Sabut Pop Corn Stainles s Indomilk Vanilla Sabut Spons Cap
Item Yang Dibeli Pon ds Whit e Kacang Garuda Walls Magnu m
Lang Kayu Putih
14
Sensitif Strip
Nice Yoghurt
Roti Lumbun g Nanas
Stre psil Vit C Gilette Razor Neozep Forte Sikat Gigi Clear Walls Almond Walls Royal
17
Philips Tornado Koko Crunch
18
No Aneka 19 Tales Gurih NU Green Tea Delfi Wafer Coklat Cap Botan Lang Gulaku NU Apel Fuji Green Tea
Item Yang Dibeli Swiss Roll Choco Kraft Keju Cake Swiss Roll Panda n
Okky Jelly
Tong Tji Jasmine
Nesc afe
20
Paseo
21
Nescafe
NU Green Tea
Mackerel Kayu Putih
Birdy 22 Kopi Susu
Koko Crunch Charm Chitato Indomie Body Fit Pronas Corned Mie Sedap
23
Paseo
Coffemix 3in1
Sardines ABC
Zinc
Pantene
24
Bimoli Special
Teh Bubuk
Cashew Sensitif Crunch Strip
No Charm Body Fit Nice Yogurt Koko Crunch Cap 28 Lang Kayu Putih 29 30 Sensitif Strip Indomie Paseo Teh Sosro Nice Yoghurt Brand Gold Malt Pop Corn Keset Aqua Madu Nusantara Ultra Kacang Hijau Susu Ultra Charm Body Fit Susu Indomilk
Item Yang Dibeli
25
26
27
Kiranti
31
Indomie
Sensitif Strip
No Nice Yoghurt Cap Lang Kayu Putih Swiss Roll Pandan Tissue Klenex Sari Roti Max 36 Gulaku Lemon Tea 37 Susu Ultra Mizone Qtela Kripik Lifebuoy Men Lifebuoy Men Nice Yoghurt Chitato Enzim Pasta Gigi Sensitif Strip Swiss Roll Choco
Item Yang Dibeli
32
33
NU Green Tea
34
Paseo Birdy Kopi Susu
35
Charmant
Sikat Gigi Formula Koko Crunch
Nescafe
38
Chitato
Blaster
No Indomart 39 Air Mineral Gillette Razor Susu Carefree Kotex Maxi Pantene Spray Dry Hemaviton Nice Yoghurt Sari Roti Aqua
Item Yang Dibeli
40
Paseo
Susu Ultra Koko Crunch
Susu Ultra
Susu Ultra
Susu Ultra
Indomie
Indocafe Cappucino
Tong tji Jasmine
Fino Sosis Sapi
41
Sambal
Indofood Indomilk Choco Crispy Nice Yoghurt CD-R Birdy Kopi Susu
Mizone
42
43
Pop Bihun Ayam Lifebuoy Men
Sari Roti Coklat Sardines ABC Bihun Instan Birdy Kopi Susu Ultra Slim Kispr ay Bluis
44
Paseo
Clear
NU 45 Green Tea Pantene
Sikat Gigi Oral B
No Jeruk Mandarin Walls Vanilla Susu Indomilk Sari Roti Susu Indomilk Brand Gold Teh Susu Indomilk Brand Gold Malt Fino Sosis Sapi Koko Crunch Clear Keset
Item Yang Dibeli Sandal Swallow Uticon Stk Carefree Spray Dry Lifebuoy Men
46
Susu Ultra
Pantene
47
Hemaviton Sardines ABC Paseo Telur
Nice Yoghurt Diamond Juice Gery Choco NU Green Tea
Rexona Deo Men
48
49
Susu Ultra
Meiji Panda Sambal Indofood
Susu Ultra
Birdy Kopi Gilette Susu Roti Lumbung Razor Roti Lumbung Lifebuo y Men Lux White
50
Ayam Negri
Madu Nusantara
Indomie
b. Data Departemen Tabel 4.2 Data Departemen Dep 1 Dep 2 Dep 3 Dep 4 Dep 5 Dep 6 Dep 7 Dep 8 Makanan Ringan, Snack, Cemilan Makanan Mentah, Bahan Makanan, Bumbu Dapur Minuman Siap Saji, Soft Drink, Ice Cream, Bahan Minuman Peralatan Rumah Tangga Peralatan Mandi Kosmetik, Obat-obatan, Perawatan Tubuh Buah-buahan Pakaian Dalam
c. Minimum Support dan Confidence Minimum support yang digunakan adalah 8. Sedangkan minimum confidence (%) yang digunakan adalah 80.
4.2 Pengolahan Data 4.2.1 Preprocessing Data 1. Data Integrasi Hasil integrasi data Tabel 4.3 Data Integrasi No. 1 Dep Dep 5 5 Dep 3 Dep 4 Item Yang Dibeli
Dep Dep 2 3
Dep Dep 3 3 Dep 4 Dep 3 Dep 1 Dep 3 Dep 3 Dep 1
Dep Dep 3 3
Dep Dep 5 4
No. 6 Dep Dep 1 3 Dep 1 Dep 1 Dep 4 Dep 5 Dep 3 Dep 3 Dep 4 Dep 5 Dep 3 Dep 4 Dep 1 Dep 4 Dep 4 Dep 3 Dep 1 Dep 6 Dep 5 Dep 5 Dep 6 Dep 2 Dep 3 Dep 3 Dep 6 Dep 2 Dep 3
Item Yang Dibeli
Dep Dep 4 3
Dep Dep 5 5
Dep 3
Dep Dep 4 6
10
Dep Dep 5 5
11
Dep Dep 2 2
Dep 3
Dep 3
Dep 5
12
Dep Dep 5 5
13
Dep Dep 4 4
Dep 6
Dep 6
Dep Dep 1 3
14
Dep Dep 6 3
15
Dep Dep 3 3
Dep 1
Dep 6
Dep Dep Dep Dep Dep 6 6 5 5 3
Dep 3
16
Dep Dep 5 6
17
Dep Dep 4 1
18
Dep Dep 1 3 Dep 3 Dep 7 Dep 3 Dep 3 Dep 3 Dep Dep Dep 1 1 1
19
Dep Dep 1 2
20
Dep Dep 4 3
No. 21 Dep Dep 3 3 Dep 1 Dep 6 Dep 6
Item Yang Dibeli
22
Dep Dep 3 1 Dep 1 Dep 2 Dep 2 Dep 2 Dep 6 Dep 1 Dep 2 Dep 6 Dep 5 Dep 5
23
Dep Dep 4 3
24
Dep Dep 2 3
25
Dep Dep 6 3
26
Dep Dep 3 3 Dep 3 Dep 3
27
Dep Dep 1 6
28
Dep Dep 6 2 Dep 3
29
Dep Dep 6 4
30
Dep Dep 2 3 Dep 3 Dep 6 Dep 1 Dep 1 Dep 4 Dep 6
31
Dep Dep 2 3
32
Dep Dep 3 6
33
Dep Dep 3 1
34
Dep Dep 4 4 Dep 5 Dep 5
35
Dep Dep 3 1
No. 36 Dep Dep 2 3 Dep 5 Dep 3 Dep 1 Dep 8 Dep 3 Dep 1 Dep 5 Dep 1
Item Yang Dibeli
37
Dep Dep 3 3
38
Dep Dep 1 1
39
Dep Dep 3 3 Dep 6 Dep 6 Dep 5 Dep 3 Dep 4 Dep 1 Dep 3 Dep 1 Dep 3 Dep 3 Dep Dep Dep Dep Dep 3 3 2 3 3 Dep 2
40
Dep Dep 4 6
41
Dep Dep 2 3
42
Dep Dep 1 9 Dep 2 Dep 5 Dep 5 Dep 3 Dep 3 Dep 1 Dep 3 Dep 2 Dep 3 Dep 3 Dep 3 Dep 3 Dep 1 Dep 2 Dep 3 Dep 2 Dep Dep 3 6 Dep 2 Dep 1 Dep 4 Dep 5 Dep 4 Dep 4 Dep 4 Dep 5 Dep 5 Dep 6 Dep 1 Dep 2 Dep 2 Dep 3 Dep 3 Dep 4
43
Dep Dep 3 3
44
Dep Dep 4 5
45
Dep Dep 3 5
46
Dep Dep 7 3
47
Dep Dep 6 3
48
Dep Dep 2 3
49
Dep Dep 4 1
50
Dep Dep 2 3
Dep Dep Dep Dep 1 1 5 5
2. Data Transformasi Hasil transformasi data Tabel 4.4 Data Transformasi No. Dep 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 0 0 0 1 0 1 1 0 0 0 0 0 1 0 1 1 1 1 1 0 1 1 1 1 0 0 1 0 Dep 2 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 1 1 0 0 0 1 Dep 3 1 1 1 1 1 1 1 1 0 1 1 0 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 0 Dep 4 1 0 0 1 1 0 1 1 1 0 0 1 1 0 1 0 1 0 0 1 0 0 1 0 0 0 0 0 Dep 5 1 0 0 0 1 0 0 1 1 1 1 1 1 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 Dep 6 0 0 0 0 0 0 0 0 1 0 0 0 1 1 1 1 0 0 0 0 1 0 1 1 1 0 1 1 Dep 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 Dep 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Dep 9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
No. Dep 1 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 0 0 1 0 1 0 1 0 1 1 0 0 1 1 1 0 0 0 1 1 1 1
Dep 2 0 1 1 0 0 0 0 1 0 0 0 1 1 0 1 1 0 1 0 1 0 1
Dep 3 1 1 1 1 1 0 1 1 1 0 1 1 1 0 1 1 1 1 1 1 1 1
Dep 4 1 0 1 0 0 1 0 0 0 0 0 1 0 0 0 1 0 1 1 0 1 0
Dep 5 0 0 0 0 0 0 1 1 0 0 0 1 0 0 0 1 1 1 1 0 0 1
Dep 6 1 0 1 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 1 0 1 0
Dep 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
Dep 8 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Dep 9 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0
Keterangan : 1 = item terbeli 0 = item tidak terbeli
4.2.2 Association Rule Tabel 4.5 Association Rules Data Input Data Data Format Minimum Support Minimum Confidence % # Rules Overall Time (secs) Tabular!$B$5:$J$55 Binary Matrix 8 80 11 1
Tabel 4.6 Output Rule # 1 2 3 4 5 6 7 8 9 10 11 Conf. % 100 100 94.12 90.91 88.89 88.89 84.62 84.21 83.33 83.33 80 Antecedent (a) Dep 1, Dep 2=> Dep 2, Dep 5=> Dep 2=> Dep 1, Dep 6=> Dep 1, Dep 4=> Dep 4, Dep 6=> Dep 1=> Dep 5=> Dep 6=> Dep 4, Dep 5=> Dep 4=> Consequen t (c) Dep 3 Dep 3 Dep 3 Dep 3 Dep 3 Dep 3 Dep 3 Dep 3 Dep 3 Dep 3 Dep 3 Support (a) 8 8 17 11 9 9 26 19 18 12 20 Support (c) 42 42 42 42 42 42 42 42 42 42 42 Support (a U c) 8 8 16 10 8 8 22 16 15 10 16 Lift Ratio 1.190476 1.190476 1.120448 1.082251 1.058201 1.058201 1.007326 1.002506 0.992063 0.992063 0.952381
4.2.3 Activity Relationship Chart
Dept 1
Dept 2
Dept 3
Dept 4
Dept 5
Dept 6
Dept 7
Dept 8
Gambar 4.1 Activity Relationship Chart
Keterangan : : Hubungan Sangat Kuat : Hubungan Kuat
4.2.4 Rekomendasi layout
D E P T 2
D E P T 4
D E P T 5
D E P T 6
D E P T 7
D E P T 8
DEPT 3
D E P T
DEPT 1
KASIR
Gambar 4.2 Rekomendasi Tata Letak Toko
BAB V PEMBAHASAN
5.1 Association Rule Rule 1 Jika membeli {Dep1 dan Dep2} maka mungkin membeli {Dep3}, dengan nilai (support = 8, confidence = 100%). Berarti seseorang yang membeli produk pada Dep1 dan Dep2 memiliki kemungkinan sebesar 100% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 8.
Rule 2 Jika membeli {Dep2 dan Dep5} maka mungkin membeli {Dep3}, dengan nilai (support = 8, confidence = 100%). Berarti seseorang yang membeli produk pada Dep2 dan Dep5 memiliki kemungkinan sebesar 100% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 8.
Rule 3 Jika membeli {Dep2} maka mungkin membeli {Dep3}, dengan nilai (support = 16, confidence = 94.12%). Berarti seseorang yang membeli produk pada Dep2 memiliki kemungkinan sebesar 94.12% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 16.
Rule 4 Jika membeli {Dep1 dan Dep6} maka mungkin membeli {Dep3}, dengan nilai (support = 10, confidence = 90.91%) berarti seseorang yang membeli produk pada Dep1 dan Dep6 memiliki kemungkinan sebesar 90.91% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 10.
Rule 5 Jika membeli {Dep1 dan Dep4} maka mungkin membeli {Dep3}, dengan nilai (support = 8, confidence = 88.89%). Berarti seseorang yang membeli produk pada
Dep1 dan Dep4 memiliki kemungkinan sebesar 88.89% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 8.
Rule 6 Jika membeli {Dep4 dan Dep6} maka mungkin membeli {Dep3}, dengan nilai (support = 8, confidence = 88.89%). Berarti seseorang yang membeli produk pada Dep4 dan Dep6 memiliki kemungkinan sebesar 88.89% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 8.
Rule 10 Jika membeli {Dep4 dan Dep5} maka mungkin membeli {Dep3}, dengan nilai (support = 10, confidence = 83.33%). Berarti seseorang yang membeli produk pada Dep4 dan Dep5 memiliki kemungkinan sebesar 83.33% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 10.
Rule 11 Jika membeli {Dep4} maka mungkin membeli {Dep3}, dengan nilai (support = 16, confidence = 80%). Berarti seseorang yang membeli produk pada Dep4 memiliki kemungkinan sebesar 80% untuk membeli produk pada Dep3. Jumlah transaksi yang memuat kejadian tersebut sebanyak 16.
5.2 Activity Relationship Chart Diagram ARC (Activity Relationship Chart) adalah peta yang menggambarkan hubungan antar departemen berdasarkan support dari rule yang terbentuk. Hubungan setiap department dapat bernilai kuat, sedang dan lemah. Setiap jenis hubungan digambarkan dengan simbol yang berbeda-beda. ARC dibuat berdasarkan nilai a U c dan dibagi menjadi tiga hubungan yaitu : hubungan kuat disimbolkan dengan hubungan sedang disimbolkan dengan hubungan lemah disimbolkan dengan dengan nilai a U c 17.4 < x < 22 dengan nilai a U c 8.3 x < 11.6 dengan nilai a U c 5 x < 8.3
Range didapatkan dari nilai a U c tertinggi(22) dikurangi nilai a U c terendah(8). Kemudian dibagi 3 berdasarkan dari 3 hubungan tersebut, yaitu kuat, sedang dan lemah. Maka hasilnya adalah 4,7. Dengan hasil tersebut maka range pun dapat dibuat. Dan karena ada beberapa departemen yang memiliki penempatan yang sama, maka yang dipilih untuk dimasukkan pa ARC adalah yang memiliki nilai yang tertinggi. Dan penjelasan dari ARC yang telah dibuat adalah sebagai berikut : Dept1 dan dept3 memiliki hubungan yang kuat dengan nilai a U c sebesar 22. Dept2 dan dept3 memiliki hubungan yang sedang dengan nilai a U c sebesar 16. Dept4 dan dept3 memiliki hubungan yang sedang dengan nilai a U c sebesar 16. Dept5 dan dept3 memiliki hubungan yang sedang dengan nilai a U c sebesar 16. Dept6 dan dept3 memiliki hubungan yang sedang dengan nilai a U c sebesar 15.
5.3 Layout Usulan Berdasarkan hubungan departemen yang dejelaskan melalui ARC, maka dapat diperoleh usulan layout atau tata letak toko dimana : Dept 1 dengan dept 3 ditata secara berdekatan (mutlak) Dept 2, 4, 5 dan 6 ditata agak dekat dengan Dept 3 dengan tingkat prioritas yang tidak mutlak. Sedangkan Dept 7, 8 dan 9 tidak terikat dengan Dept 3, sehingga dapat diletakkan secara bebas atau menempati posisi yang masih kosong.
6.1 Kesimpulan Berdasarkan hasil pembahasan, maka dapat disimpulkan bahwa : 1. Melalui analisa Association Rule diperoleh 11 aturan yang merepresentasikan hubungan antara masing-masing departemen. 2. Melalui Activity Relationship Chart (ARC) dapat diketahui prioritas hubungan antara masing-masing departemen dimana departemen 1 dan departemen 3 memiliki hubungan yang sangat kuat, sehingga dalam menata ulang layout, departemen 1 dan departemen 3 menjadi prioritas dalam penataan ulang. 3. Outlet Indomart/ 004 Nogotirto membutuhkan penataan ualng layout dengan prioritas utama adalah mendekatkan Departemen 1 dengan Departemen 3. Sedangkan Departemen 2, 4, 5, 6 dengan 3 memiliki hubungan yang bersifat sedang.
6.2 Saran Berdasarkan hasil pembahasan dan kesimpulan dari penelitian, maka disarankan kepada Indomart/ 004 Nogotirto untuk melakukan penataan ulang layout outlet untuk lebih mendukung aktivitas transaksi konsumen.
DAFTAR PUSTAKA
1. Gkoulalas, Aris & Verykios S Vassilios, Association Rule Hidding for Datamining, 2010. 2. Marc Adamo Jean, Datamining for Association Rules and Sequential Patterns, 2003. 3. Han, Jiawei and Kamber, Micheline, Datamining Concept and Techniques, 2006.
LAMPIRAN
LAPORAN RESMI PRAKTIKUM DATA MINING KLASIFIKASI
ABSTRAKSI
Klasifikasi merupakan sebuah proses untuk menemukan model yang membedakan konsep atau kelas data dengan tujuan untuk memperkiraan kelas dari suatu obyek yang kelasnya tidak diketahui. Di dalam klasifikasi diberikan sejumlah record yang dinamakan training set yang terdiri dari beberapa atribut. Salah satu manfaat klasifikasi adalah untuk membantu proses pengambilan keputusan dalam proses pemberian kredit. BMT AL-AMIN merupakan sebuah perusahaan penyedia kredit yang menggunakan metode klasifikasi untuk menekan resiko kredit macet. Dari hasil penelitian yang telah dilakukan subjek 1 akan menerima kredit dengan jumlah pembiayaan besar dengan jumlah anak sedang dan dalam jangka waktu pembiayaan satu tahun diprediksikan status kreditnya akan macet, subjek 2 akan menerima kredit dengan jumlah pembiayaan besar dengan jumlah anak banyak dan dalam jangka waktu pembiayaan dua tahun diprediksikan status kreditnya akan macet, subjek 3 akan menerima kredit dengan jumlah pembiayaan besar dengan jumlah anak banyak dan dalam jangka waktu pembiayaan satu tahun diprediksikan status kreditnya akan macet, subjek 4 akan menerima kredit dengan jumlah pembiayaan sedang dengan jumlah anak sedikit dan dalam jangka waktu pembiayaan dua tahun diprediksikan status kreditnya akan tidak macet, subjek 5 akan menerima kredit dengan jumlah pembiayaan kecil dengan jumlah anak sedang dan dalam jangka waktu pembiayaan dua tahun diprediksikan statu kreditnyaakan tidak macet.
Keywords : Klasifikasi, Decision Tree, Chi Square
BAB I PENDAHULUAN
1.1 Latar Belakang masalah Dalam pelaksanaan kegiatan perkreditan selama ini, banyak kredit yang tidak dikembalikan sesuai dengan jadwal yang telah ditentukan. Dengan kata lain telah terjadi kredit macet. Adanya kredit macet ini menimbulkan kerugian pada lembaga keuangan yang bersangkutan. Dalam pembiayaan, tingkat pembiayaan yang semakin tinggi juga diiringi dengan adanya resiko kredit macet yang besar pula. Resiko kredit ini harus diminimalisir agar badan keuangan dapat mempertahankan kelangsungan usahanya, sehingga penawaran produk
pembiayaan dilakukan kepada debitur yang tepat sasaran. Menghadapi kenyataan sebagaimana diuraikan di atas, maka perlu dilakukan prediksi status kredit kepada calon debitur agar tidak terjadi kredit macet. Prediksi status kredit merupakan upaya yang ditempuh suatu lembaga keuangan dalam usahanya untuk menghindari kemungkinan terjadinya kredit macet atau tunggakan bagi kredit yang telah sampai jatuh temponya. Sehingga prediksi status kredit macet berguna untuk memperkecil risiko terjadinya kredit macet agar dapat meminimumkan resiko kredit macet.
1.2 Rumusan Masalah 1. Bagaimana rule yang terbentuk? 2. Bagaimana hasil dari chi-square? 3. Bagaimana hasil prediksi ?
1.3 Batasan Masalah 1. Obyek penelitian dikhususkan pada BMT AL-AMIN 2. Permasalahan yang dianalisa adalah masalah pengambilan keputusan pemberian kredit.
1.4 Tujuan penelitian 1. Untuk mengetahui rule yang terbentuk. 2. Untuk menghitung chi-square penelitian.
3. Untuk mengetahui hasil prediksi pemberian kredit.
1.5 Manfaat Penelitian 1. Mahasiswa dapat mengetahui dan memahami metode klasifikasi, khususnya teknik decision tree serta dapat membaca rule yang terbentuk. 2. Dapat mengetahui dan memahami metode tes kebebasan atau interdependency test chi-square. 3. Dapat mengetahui dan memahami cara mendapatkan keputusan untuk kasuskasus yang dapat dianalisa menggunakan meode klasifikasi.

Klasifikasi merupakan proses untuk menemukan sekumpulan model yang menjelaskan dan membedakan kelas-kelas data, sehingga model tersebut dapat digunakan untuk memprediksi nilai suatu kelas yang belum diketahui pada sebuah objek (Agny Ismaya, 2005). Klasifikasi adalah sebuah proses untuk menemukan model yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang kelasnya tidak diketahui (Pang-Ning Tan, 2004). Di dalam klasifikasi diberikan sejumlah record yang dinamakan training set, yang terdiri dari beberapa atribut, atribut dapat berupa kontinyu ataupun kategoris, salah satu atribut menunjukkan kelas untuk record. Model dalam Klasifikasi (Bertalya, 2009) : a) Pemodelan Deskriptif Sebagai alat penggambaran yang bersifat menjelaskan untuk membedakan objek2 dari kelas yang berbeda. b) Pemodelan Prediktif Pemodelan prediktif digunakan untuk memprediksi label kelas untuk record yang belum diketahui. Klasifikasi dapat diaplikasikan dalam beberapa bidang antara lain kesehatan, perbankan, ritel, dll. Masing-masing memiliki atribut yang sesuai dengan kasus masingmasing. Misalnya dalam ritel, kasus yang biasanya digunakan adalah pemberian diskon/bonus.
2.1 Tujuan Klasifikasi Tujuan dari klasifikasi adalah untuk : 1. Menemukan model dari training set yang membedakan record kedalam kategori atau kelas yang sesuai, model tersebut kemudian digunakan untuk mengklasifikasikan record yang kelasnya belum diketahui sebelumnya pada test set.
2. Mengambil keputusan dengan memprediksikan suatu kasus, berdasarkan hasil klasifikasi yang diperoleh.
2.2 Konsep Pembuatan Model Dalam Klasifikasi Untuk mendapatkan model, kita harus melakukan analisis terhadap data latih (training set). Sedangkan data uji (test set) digunakan untuk mengetahui tingkat akurasi dari model yang telah dihasilkan. Klasifikasi dapat digunakan untuk memprediksi nama atau nilai kelas dari suatu obyek data. Proses klasifikasi data dapat dibedakan dalam 2 tahap, yaitu : a. Pembelajaran / Pembangunan Model Tiap tiap record pada data latih dianalisis berdasarkan nilai nilai atributnya, dengan menggunakan suatu algoritma klasifikasi untuk mendapatkan model. b. Klasifikasi Pada tahap ini, data uji digunakan untuk mengetahui tingkat akurasi dari model yang dihasilkan. Jika tingkat akurasi yang diperoleh sesuai dengan nilai yang ditentukan, maka model tersebut dapat digunakan untuk mengklasifikasikan record record data baru yang belum pernah dilatihkan atau diujikan sebelumnya. Untuk meningkatkan akurasi dan efisiensi proses klasifikasi, terdapat beberapa langkah pemrosesan terhadap data, yaitu : a. Data Cleaning Data cleaning merupakan suatu pemrosesan terhadap data untuk menghilangkan noise dan penanganan terhadap missing value pada suatu record. b. Analisis Relevansi Pada tahap ini, dilakukan penghapusan terhadap atribut atribut yang redundant ataupun kurang berkaitan dengan proses klasifikasi yang akan dilakukan. Analisis relevansi dapat meningkatkan efisiensi klasifikasi karena waktu yang diperlukan untuk pembelajaran lebih sedikit daripada proses pembelajaran terhadap data data dengan atribut yang masih lengkap (masih terdapat redundansi).
c. Transformasi Data Pada data dapat dilakukan generalisasi menjadi data dengan level yang lebih tinggi. Misalnya dengan melakukan diskretisasi terhadap atribut degan nilai kontinyu. Pembelajaran terhadap data hasil generalisasi dapat mengurangi kompleksitas pembelajaran yang harus dilakukan karena ukuran data yang harus diproses lebih kecil.
Pembuatan model menguraikan sebuah set dari penentuan kelas-kelas sebagai: 1. Setiap tuple diasumsikan sudah mempunyai kelas yang dikenal seperti ditentukanoleh label kelas atribut, 2. Kumpulan tuple yang digunakan untuk membuat model disebut kumpulan pelatihan (training set), 3. Model direpresentasikan sebagai classification rules, decision tree atau formula matematika. Penggunaan model menguraikan pengklasifikasian masa yang akan datang atau obyek yang belum ketahui, yaitu taksiran keakuratan dari model yang terdiri dari: 1. Label yang telah diketahui dari contoh tes dibandingkan dengan hasil klasifikasi dari model, 2. Nilai keakuratan adalah prosentase dari kumpulan contoh tes yang
3. 4. Jika akurasi diterima, gunakan model untuk mengklasifikasikan data tuple yang label kelasnya belum diketahui.
Untuk mengevaluasi performansi sebuah model yang dibangun oleh algoritma klasifikasi dapat dilakukan dengan menghitung jumlah dari test record yang di prediksi secara benar (akurasi) atau salah ( error rate) oleh model tersebut. Akurasi dan error rate didefinisikan sebagai berikut. Jumlah prdiksi benar Akurasi = Jumlah total prediksi
Error rate =
Jumlah prediksi salah Jumlah total prediksi
Algoritma klasifikasi berusaha untuk mencari model yang mempunyai akurasi yang tinggi atau error rate yang rendah ketika model diterapkan pada test set.
2.3 Teknik Klasifikasi Didalam Klasifikasi sebagaimana telah dijelaskan, ada beberapa teknik klasifikasi yang digunakan, anatara lain: pohon keputusan, rule based, neural network, support vector machine, naive bayes, dan nearest neighbour. Dan pada praktikum ini akan menggunakan teknik pohon keputusan, karena beberapa alasan: 1. Dibandingkan dengan classifier JST atau bayesian, sebuah pohon keputusan mudah diinterpretasi/ ditangani oleh manusia. 2. Sementara training JST dapat menghabiskan banyak waktu dan ribuan iterasi, pohon keputusan efisien dan sesuai untuk himpunan data besar. 3. Algoritma dengan pohon keputusan tidak memerlukan informasi tambahan selain yang terkandung dalam data training (yaitu, pengetahuan domain dari distribusi-distribusi pada data atau kelas-kelas). 4. Pohon keputusan menunjukkan akurasi klasifikasi yang baik dibandingkan dengan teknikteknik yang lainnya.
2.4 Decision Tree Salah satu metoda Data Mining yang umum digunakan adalah decision tree. Decision tree adalah struktur flowchart yang menyerupai tree (pohon), dimana setiap simpul internal menandakan suatu tes pada atribut, setiap cabang merepresentasikan hasil tes, dan simpul daun merepresentasikan kelas atau distribusi kelas. Alur pada decision tree di telusuri dari simpul akar ke simpul daun yang memegang prediksi kelas untuk contoh tersebut . Decision tree mudah untuk dikonversi ke aturan klasifikasi (Zalilia, 2007) .
2.4.1 Konsep Decision Tree Mengubah data menjadi pohon keputusan (decision tree) dan aturan-aturan keputusan (rule).
2.4.2 Tipe Simpul Pada Tree Tree 1. Simpul akar dimana tidak ada masukan edge dan 0 atau lebih keluaran edge 2. Simpul internal, masing-masing 1 masukan edge dan 2 atau lebih edge
3. Simpul daun atau simpul akhir, masing-masing 1 masukan edge dan tidak ada edge Pada decision tree setiap simpul daun menandai label kelas. Simpul yang bukan simpul akhir terdiri dari akar dan simpul internal yang terdiri dari kondisi tes atribut pada sebagian record yang mempunyai karakteristik yang berbeda. Simpul akar dan simpul internal ditandai dengan bentuk oval dan simpul daun ditandai dengan bentuk segi empat.
2.4.3 Konsep Data Dalam Decision Tree 1. Data dinyatakan dalam bentuk tabel dengan atribut dan record. 2. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan tree. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin dan temperatur. Salah satu atribut merupakan atribut yang menyatakan data solusi per-item data yang disebut dengan target atribut. 3. Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca mempunyai instance berupa cerah, berawan dan hujan.
d. Proses Dalam Decision Tree 1. Proses Mengubah Data Menjadi Tree a). Ukuran untuk Memilih Split Terbaik Dalam membangun sebuah decision tree secara top-down (dari atas ke bawah), dimulai dengan pertanyaan atribut mana yang pertama kali harus diletakkan pada root node? Pertanyaan ini dijawab dengan mengevaluasi semua atribut yang ada menggunakan suatu ukuran statistik (yang banyak digunakan adalah information gain) untuk mengukur efektifitas suatu atribut dalam mengklasifikasikan suatu kumpulan sampel data. Semua atribut
adalah bersifat kategori yang bernilai diskrit. Atribut dengan nilai continuous harus didiskritkan (Zalilia, 2007). Terlebih dahulu kita harus mencari nilai informasi dari data yang merupakan nilai yang diperlukan untuk mengklasifikasikan keputusan akhir. b) Entropi Definisi Entrophy (Basuki, 2003): 1. Entropy (S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample S. 2. Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. Semakin kecil nilai Entropy maka semakin baik untuk digunakan dalam mengekstraksi suatu kelas. 3. Entropi adalah suatu parameter untuk mengukur heterogenitas dari suatu data 4. Panjang kode untuk menyatakan informasi secara optimal adalah p bits untuk messages yang mempunyai probabilitas p. Untuk menghitung information gain,terlebih dahulu kita harus memahami suatu ukuran lain yang disebut Entropy. Entropi biasa digunakan sebagai sautu parameter untuk mengukur heterogenitas (keberagaman) dari suatu kumpulan sampel data. Jika kumpulan sampel data semakin heterogen, maka nilai entropy-nya semakin besar. Nilai maksimum entropy adalah 1, yaitu saat jumlah semua sampel kelas data adalah sama (keberagaman data yang maksimum). Nilai minimum entropy adalah 0, yaitu saat jumlah salah satu kelas adalah 0 (keberagaman data yang minimum). c) Information Gain Setelah kita mendapatkan nilai entropy untuk suatu kumpulan sampel data, maka kita dapat mengukur efektifitas suatu atribut dalam mengklasifikasikan data. Ukuran efektifitas ini disebut Information Gain. Dengan kata lain, Gain(A) adalah reduksi yang diharapkan dalam entropy yang disebabkan oleh pengetahuan nilai pada atribut A. Algoritma menghitung information gain pada setiap atribut. Atribut dengan nilai gain terbesar dipilih sebagai tes
atribut (simpul akar). Simpul A dibuat dan dilabelkan dengan atribut, cabang dibuat untuk setiap nilai atribut. Klasifikasi pada umumnya digunakan untuk kasus-kasus pada kelas-kelas keputusan yang bernilai diskrit dengan keputusan seperti diterima = ya atau tidak. Namun jika kita menemukan kasus yang mempunyai nilai keputusan kontinyu cara yang sedikit untuk menyelesaikannya adalah dengan mengubah nilai-nilai continyu menjadi nilai-nilai diskrit dengan cara mempartisi nilai kontinyu ke dalam intervalinterval bernilai diskrit.

3.1 Lokasi Penelitian Lokasi penelitian adalah di BMT AL-AMIN
3.2 Objek Penelitian Obyek penelitian adalah debitur BMT AL-AMIN yang mengajukan permintaan kredit.
3.3 Metode Pengumpulan Data 1. Data Primer Data primer dalam penelitian ini adalah data-data yang diperoleh dari debitur atau pemohon kredit. Dalam kasus ini yang merupakan data primer adalah training set yang berisi atribut jumlah pembiayaan, jumlah anak, jangka waktu pembiayaan dan status kredit. 2. Data Sekunder Data sekunder dalam penelitian ini adalah data-data yang diperoleh dari pengolahan data-data primer. Dalam kasus ini yang merupakan data sekunder adalah entropy, nilai informasi, information gain serta chi-square.
3.4. Flowchart Penelitian
Mulai
Training Data
Decision Tree
Classification Rule Awal
Penyederhanaan Rule (Chi-square)
Ho diterima/ Ditolak
Atribut tidak dapat dihilangkan
Atribut dapat dihilangkan
Classification Rule Akhir
Prediksi
Selesai
3.5. Langkah Software Software yang digunakan dalam klasifikasi adalah Weka. Langkah
pengerjaannnya adalah sebagai berikut : 1. Menginput data training di Ms. Excel kemudian menyimpannya dalam format .csv 2. Membuka Weka, kemudian explorer, Open file 3. File tersebut disave as dalam format .arrf 4. Pilih classify, pada classifier-choose-trees-j48 5. Test option dipilih use training set, kemudian klik start 6. Pada result list, klik kanan pilih visualize tree

4.1 Pengumpulan Data 4.1.1 Data Historis Tabel 4.1 Data Status Kredit Pada BMT AL-AMIN Jumlah Pembiayaan Sedang Besar Besar Sedang Sedang Kecil Kecil Besar Sedang Kecil Kecil Sedang Besar Besar Besar Sedang Besar Besar Kecil Kecil Kecil Besar Jumlah anak Banyak Sedang Banyak Banyak Sedikit Sedikit Banyak Banyak Banyak Sedang Banyak Banyak Sedang Banyak Sedang Banyak Banyak Sedang Sedikit Sedang Sedikit Sedikit Jangka Waktu Pembiayaan Satu Tahun Dua Tahun Dua Tahun Satu Tahun Dua Tahun Satu Tahun Dua Tahun Dua Tahun Satu Tahun Dua Tahun Dua Tahun Satu Tahun Satu Tahun Satu Tahun Satu Tahun Dua Tahun Dua Tahun Satu Tahun Satu Tahun Satu Tahun Dua Tahun Satu Tahun
No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 21 22 23
Status Kredit Macet Macet Macet Macet Tidak Macet Tidak Macet Tidak Macet Macet Macet Tidak Macet Tidak Macet Macet Macet Macet Macet Macet Macet Macet Tidak Macet Tidak Macet Tidak Macet Macet
No 24 25 26 27 28 29 30
Jumlah Pembiayaan Sedang Sedang Sedang Besar Sedang Sedang Besar
Jumlah anak Banyak Banyak Sedang Banyak Banyak Sedang Sedikit
Jangka Waktu Pembiayaan Satu Tahun Satu Tahun Dua Tahun Dua Tahun Satu Tahun Dua Tahun Satu Tahun
Status Kredit Macet Macet Tidak Macet Macet Macet Tidak Macet Macet
4.1.2 Data yang akan diprediksi Tabel 4.2 Data Status Kredit yang akan diprediksi No 1 2 3 4 5 Jumlah Pembiayaan Besar Besar Besar Sedang Kecil Jumlah Anak Sedang Banyak Banyak Sedikit Sedang Jangka Waktu Pembiayaan Satu Tahun Dua Tahun Satu Tahun Dua Tahun Dua Tahun Status Kredit Macet Macet Macet Tidak Macet Tidak Macet
4.2 Pengolahan Data 4.2.1 Perhitungan Root Node 1. Atribut Jumlah Pembiayan Tabel 4.3 Jumlah Pembiayan Jumlah Pembiayaan Kecil Tidak Macet Sedang Macet Tidak Macet Macet Besar Tidak Macet Total 8 8 3 11 0 30 11 0.00 11 0.85 0.31 0.95 0.64 Status Kredit Macet Jumlah 0 8 0.00 Total Instence Q Entropi Nilai Informasi Information Gain
2. Atribut Jumlah Anak Tabel 4.4 Jumlah Anak Jumlah Anak Sedikit Tidak Macet Sedang Macet Tidak Macet Macet Banyak Tidak Macet Total 4 4 4 13 3 30 16 0.70 8 1.00 0.82 0.95 0.13 Status Kredit Macet Jumlah 2 6 0.92 Total Instence Q Entropi Nilai Informasi Information Gain
3. Atribut Jangka Waktu Pembiayaan Tabel 4.5 Jangka Waktu Pembiayaan Waktu Pembiayaan Status Kredit Macet Satu Tahun Tidak Macet Macet Dua Tahun Tidak Macet Total Jumlah 13 16 3 0.83 6 14 8 30 0.99 0.95 0.12 0.70 Total Instence Q Entropi Nilai Informasi Information Gain
Dipilih atribut Jumlah Pembiayaan sebagai Root Node karena memiliki information gain terbesar yaitu 0.64
4.2.2 Perhitungan Internal Node 1. Internal Node 1 A. Atribut Jumlah Anak Tabel 4.6 Jumlah Anak Jumlah Anak Sedikit Status Kredit Jumlah Macet Tidak Macet Sedang Macet Tidak Macet Macet Tidak Macet Total 0 1 0 2 8 0 11 2 0 0 0.85 0.85 Total Instence 1 Q Entropi Nilai Informasi Information Gain
Banyak
B. Atribut Jangka waktu Pembiayaan Tabel 4.7 Kondisi Buku Jangka Waktu Pembiayaan Status Kredit Macet Satu Tahun Tidak Macet Macet Dua Tahun Tidak Macet Total Total Instence Nilai Informasi Information Gain
Jumlah
Entropi
7 7 0 0.30 1 4 3 11 0.81 0.85 0.55 0.00
Dipilih atribut Jumlah Anak sebagai Root Node karena memiliki information gain terbesar yaitu 0.85
4.2.3 Decision Tree Langkah software
Gambar 4.1 Software Weka
Gambar 4.2 Weka Eksplorer
Langkah 1. Klik open file, lalu buka file .csv
Gambar 4.3 Weka Classify
Langkah 2. Klik Classify, choose klik tree dan pilih J48
Gambar 4.4 Weka Classify
Langkah 3. Klik kanan di result list klik visualize tree Print Screen Weka
Gambar 4.5 Print screen Weka
4.2.4 Classification Rule Awal 1. If Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK MACET 2. If Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET 3. If Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Banyak THEN Status Kreditnya = MACET 4. If Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Sedang THEN Status Kreditnya = TIDAK MACET 5. If Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Sedikit THEN Status Kreditnya = TIDAK MACET
4.2.5 Penyerderhanaan Rule (chi square) 1. Uji Independensi Atribut Kondisi dan Keadaan Buku dengan Distribusi Chi Square Tabel 4.8 Frekuensi Jumlah Pembiayaan Kredit Macet Tidak Macet total Kecil 0 8 8 Sedang 8 3 11 Besar 11 0 11 total 19 11 30
Tabel 4.9 Frekuensi Diharapkan Jumlah Pembiayaan Kredit Macet Tidak Macet total Kecil 5.07 2.93 8 Sedang 6.97 4.03 11 Besar 6.97 4.03 11 total 19 11 30
A. Hipotesis HO : Atribut Jumlah Pembiayaan mempunyai hubungan dengan keputusan HI : Atribut Jumlah Pembiayaan tidak mempunyai hubungan dengan keputusan
B. Tingkat Signifikasi dan Derajat Kebebasan Tingkat signifikansi : = 0.05 Derajat Kebebasan : (r-1).(k-1) = (3-1).(2-1) = 2.1 = 2
C. Kriteria Pengujian X2(0,05;2) = 5.991464547 Ho diterima apabila X2 5.991464547 Ho ditolak apabila X2 5.991464547
Ditolak
5.991464547
20.6046107
Gambar 4.6 Kurva daerah penolakan atribut kondisi dan keadaan buku
D. Kesimpulan Karena X2hitung X2(0,05;2)

=
20.6046107
, 5.991464547maka Ho
ditolak yang berarti atribut Jumlah Pembiayaan hubungan dengan keputusan.
2. Uji Independensi Atribut Penilaian Peminjaman dengan Distribusi Chi Square Tabel 4.10 Frekuensi Jumlah Anak Kredit Macet Tidak Macet total Sedikit 2 4 6 Sedang 4 4 8 Besar 13 3 16 total 19 11 30
Tabel 4.11 Frekuensi Diharapkan Jumlah Anak Kredit Macet Tidak Macet Total Sedikit 3.80 2.20 6 Sedang 5.07 2.93 8 Besar 10.13 5.87 16 total 19 11 30
A. Hipotesis HO : H1 : Atribut Jumlah Anak mempunyai keputusan Atribut Jumlah Anak tidak mempunyai hubungan hubungan dengan
dengan keputusan
B. Tingkat Signifikasi dan Derajat Kebebasan Tingkat signifikansi : = 0.05 Derajat Kebebasan : (r-1).(k-1) = (2-1).(3-1) = 1.2 = 2
Ditolak
5.149521531
5.991464547
Gambar 4.7 Kurva daerah penolakan penilaian peminjaman
D. Kesimpulan Karena X2hitung X2(0,05;2) , 5.149521531 5.991464547, maka Ho
diterima yang berarti atribut Jumlah Anak tidak mempunyai hubungan dengan keputusan.
3. Uji Independensi Atribut Intensitas Dipinjam dengan Distribusi Chi Square Tabel 4.12 Frekuensi Jangka waktu Pembiayaan Kredit Macet Tidak Macet total Satu Tahun 13 3 16 Dua Tahun 6 8 14 total 19 11 30
Tabel 4.13 Frekuensi Jangka Waktu Pembiayaan Kredit Macet Tidak Macet total Satu Tahun 10.13 5.87 16 Dua Tahun 8.87 5.13 14 Total 19 11 30
A. Hipotesis HO : Atribut Jangka Waktu Pembiayaan mempunyai hubungan dengan keputusan H1 : Atribut Jangka Waktu Pembiayaan tidak mempunyai hubungan dengan keputusan
B. Tingkat Signifikasi dan Derajat Kebebasan Tingkat signifikansi : = 0.05 Derajat Kebebasan : (r-1).(k-1) = (2-1).(2-1) = 1.1= 1
Ditolak
3.841459149
4.739405332
Gambar 2.2 Kurva daerah penolakan penilaian peminjaman D. Kesimpulan Karena X2hitung X2(0,05;2) , 16.31054131 4.739405332, maka Ho
ditolak yang berarti atribut Jangka Waktu Pembiayaan mempunyai hubungan dengan keputusan.
2.2.6 Rule Akhir Karean Jumlah Anak Tidak mempunyai hubungan terhadap keputusan sehingga bentuk diagram pohonnya sebagai berikut: Tabel 4.14 Kondisi Buku Jangka Waktu Pembiayaan Macet Satu Tahun Tidak Macet Macet Dua Tahun Tidak Macet Total 3 11 0 0.29501 0.845351 1 4 0.811278124 0.55034071 7 7 0 Status Kredit Jumlah
Total Instence
Entropi
Nilai Informasi
Information Gain
Jumlah Pembiayaan
Kecil
Sedang
Besar
Tidak Macet
Jangka Waktu Pembiayaan
Macet
2 Tahun
1 Tahun
Tidak Macet
Macet
1. If Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK MACET 2. If Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET 3. If Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Satu tahun THEN Status Kreditnya = MACET 4. If Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Dua tahun THEN Status Kreditnya = Tidak MACET
4.2.7 Prediksi Tabel 4.15 Data Prediksi NO 1 2 3 4 5 JUMLAH PEMBIAYAAN Besar Besar Besar Sedang Kecil JUMLAH ANAK Sedang Banyak Banyak Sedikit Sedang JANGKA WAKTU PEMBIAYAAN Satu Tahun Dua Tahun Satu Tahun Dua Tahun Dua Tahun STATUS KREDIT Macet Macet Macet Tidak Macet Tidak Macet
BAB V PEMBAHASAN
5.1 Decision Tree Dari hasil pengklasifikasian didapat decision tree sebagai berikut: 1. Pada root node dipilih atribut jumlah pembiayaan karena memiliki nilai information gain terbesar yaitu 0.64 2. Pada internal node 1 dipilih atribut Jumlah Anak yang diletakkan pada instance sedang karena memiliki nilai information gain terbesar yaitu 0.85. Terdiri dari banyak, sedang dan Sedikit 3. Pada internal node 2 atau atribut yang terakhir adalah atribut jangka waktu pembiayaan yang berada pada instance sedang. Tediri dari jangka waktu pembiayaan satu tahun dan dua tahun.
5.2 Classification Rule Awal Rule merupakan model yang terbentuk dari training set dimana sample dalam data dibedakan kedalam kategori atau kelas yang sesuai. Model tersebut kemudian akan digunakan untuk mengklasifikasikan record atau data yang kelasnya belum diketahui sebelumnya. Dari hasil study kasus ini didapat 5 rule awal. Adapun rule tersebut adalah sebagai berikut : 1. IF Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK MACET 2. IF Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET 3. IF Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Banyak THEN Status Kreditnya = MACET 4. IF Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Sedang THEN Status Kreditnya = TIDAK MACET 5. IF Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Sedikit THEN Status Kreditnya = TIDAK MACET
5.3 Penyerderhanaan Rule Untuk menyederhanakan rule yang telah ditetapkan, digunakan uji distribusi Chi Square. Setelah didapat rule awal kemudian dilakukan uji independensi terhadap masing-masing atribut. Jika nilai X2 hitung untuk atribut lebih besar dari pada X2 tabel maka atribut bersifat dependen yang artinya atribut tersebut tetap dipakai dalam rule. Namun . Jika nilai X2 hitung untuk atribut lebih kecil dari pada X2 tabel maka atribut bersifat independen, sehingga atribut tersebut dapat dihilangkan dari rule. Atau dengan kata lain rule akan disederhanakan.
5.4 Rule Akhir Masing-masing atribut yang ada akan diuji apakah atribut tersebut bersifat dependent atau independent. Pengujian dilakukan melalui uji independensi dengan distribusi Chi Square. Pengujian ini bertujuan untuk melihat apakah suatu atribut mempunyai keterikatan dengan atribut lain atau atribut tersebut berdiri sendiri. Jika atribut tersebut bersifat dependent atau terikat maka atribut tersebut tetap dipakai dalam rule. Namun jika atribut tersebut bersifat independent atau berdiri sendiri maka atribut tersebut dapat dihilangkan dari rule. Atau dengan kata lain rule akan disederhanakan. Dalam studi kasus ini, setelah dilakukan pengujian dengan uji Chi Square dapat diketahui bahwa atribut Jumlah Pembiayaan dan Jangka Waktu pembiayaan bersifat dependent, sedangkan atribut Jumlah Anak bersifat independent. Sehingga atribut Jumlah Anak dihilangkan dari rule awal. Didapat rule akhir sebagai berikut : 1. IF Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK MACET 2. IF Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET 3. IF Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Satu tahun THEN Status Kreditnya = MACET 4. IF Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Dua tahun THEN Status Kreditnya = Tidak MACET
5.5 Prediksi Rule akhir yang terbentuk akan digunakan untuk melakukan prediksi terhadap Penerima Kredit lain diluar database yang telah dimiliki. Dalam study kasus ini dilakukan prediksi terhadap subjek baru yang belum diketahui kelas atau kategorinya. Dari 5 subjek baru, 3 subjek baru diprediksi status kredinya adalah MACET. Sedangkan 2 subjek baru lainnya status Kreditnya adalah TIDAK MACET. Adapun hasil prediksi tersebut adalah sebagai berikut : 1. Subjek 1 yang akan menerima kredit dengan jumlah pembiayaanya besar, jumlah anaknya sedang dan jangka waktu pembiayaan satu tahun diprediksi status kredinya akan Macet. 2. Subjek 2 yang akan menerima kredit dengan jumlah pembiayaanya besar, jumlah anaknya Banyak dan jangka waktu pembiayaan dua tahun diprediksi status kredinya akan Macet 3. Subjek 3 yang akan menerima kredit dengan jumlah pembiayaanya besar, jumlah anaknya Banyak dan jangka waktu pembiayaan satu tahun diprediksi status kredinya akan Macet 4. Subjek 4 yang akan menerima kredit dengan jumlah pembiayaanya sedang, jumlah anaknya Sedikit dan jangka waktu pembiayaan dua tahun diprediksi status kredinya akan Tidak Macet 5. Subjek 5 yang akan menerima kredit dengan jumlah pembiayaanya kecil, jumlah anaknya sedang dan jangka waktu pembiayaan dua tahun diprediksi status kredinya akan Tidak Macet

6.1 Kesimpulan 1. Rule yang terbentuk a. IF Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK MACET b. IF Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET c. IF Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Banyak THEN Status Kreditnya = MACET d. IF Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Sedang THEN Status Kreditnya = TIDAK MACET e. IF Jumlah Pembiayaannya = sedang ^ Jumlah Anaknya = Sedikit THEN Status Kreditnya = TIDAK MACET
2. Hasil Penyerderhanaan rule a. IF Jumlah Pembiayaannya = kecil THEN Status Kreditnya= TIDAK MACET b. IF Jumlah Pembiayaannya = besar THEN Status Kreditnya = MACET c. IF Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Satu tahun THEN Status Kreditnya = MACET d. IF Jumlah Pembiayaannya = sedang ^ Jangka Waktu Pembiayaan = Dua tahun THEN Status Kreditnya = Tidak MACET
3. Hasil Prediksi a. Subjek 1 yang akan menerima kredit dengan jumlah pembiayaanya besar, jumlah anaknya sedang dan jangka waktu pembiayaan satu tahun diprediksi status kreditnya akan Macet. b. Subjek 2 yang akan menerima kredit dengan jumlah pembiayaanya besar, jumlah anaknya Banyak dan jangka waktu pembiayaan dua tahun diprediksi status kreditnya akan Macet
c. Subjek 3 yang akan menerima kredit dengan jumlah pembiayaanya besar, jumlah anaknya Banyak dan jangka waktu pembiayaan satu tahun diprediksi status kreditnya akan Macet d. Subjek 4 yang akan menerima kredit dengan jumlah pembiayaanya sedang, jumlah anaknya Sedikit dan jangka waktu pembiayaan dua tahun diprediksi status kreditnya akan Tidak Macet e. Subjek 5 yang akan menerima kredit dengan jumlah pembiayaanya kecil, jumlah anaknya sedang dan jangka waktu pembiayaan dua tahun diprediksi status kreditnya akan Tidak Macet
4.2 Saran Mengingat berbagai keterbatasan yang dialami penulis dan berdasarkan hasil praktikum yang telah dilakukan, maka penulis menyarankan untuk pengembangan dimasa yang akan datang sebagai berikut: 1. Bagian bank sebaiknya melakukan identifikasi yang lebih baik lagi dalam pemberian kredit 2. Tentukan hal hal apa saja yang dibutuhkan oleh penerima kredit. 3. Menentukan hal hal apa saja yang akan diberikan dan di bebankan kepada penerima kredit.
DAFTAR PUSTAKA
Bertalya, Konsep Data Mining. Universitas Gunadarma,2009 Chaerudin, Mochamad, IMPLEMENTASI DAN ANALISA ALGORITMA
SPRINT SEBAGAI SEBUAH CLASSIFIER POHON KEPUTUSAN YANG SCALABLE PADA DATA MINING, Tugas Akhir, Jurusan Teknik Informatika, STT TELKOM, 2005. http://www.stttelkom.ac.id/staf/MAB/TAPA-list.htm Ismaya, Agny, ANALISIS DAN IMPLEMENTASI OPTIMAL BRAIN SURGEON (OBS) UNTUK KLASIFIKASI PADA DATA MINING, Tugas Akhir, Jurusan Teknik Informatika, STT TELKOM, 2005. http://www.stttelkom.ac.id/staf/MAB/TA-PA-list.htm Han,Jiawei. Data Mining Concept and Techniques. Presentation. http://www.cs.sfu.ca/~han/dmbook Pang-Ning Tan, Michael Steinbach, and Vipin Kumar. Introduction to Data Mining. 2004. http://www.cse.msu.edu/~cse980 Zalilia, Lia, PENERAPAN DATA MINING UNTUK IDS , Tugas Akhir, Jurusan Teknik Elektro, ITB, 2007 www.dtreg.com www.dbminer.com

Laporan Praktikum Data Mining

Uploaded by

Document Information

Copyright

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Laporan Praktikum Data Mining

Uploaded by

Copyright:

LAPORAN RESMI PRAKTIKUM DATA MINING CLUSTERING

BAB II LANDASAN TEORI

BAB III METODOLOGI PENELITIAN

3.2 Objek Penelitian Mahasiswa teknik industri UII

3.4. Flowchart Penelitian

Clustering Metode Hirarki

Gambar 3.1 Flowchart Penelitian

BAB IV PENGUMPULAN DAN PENGOLAHAN DATA

Stage Cluster First Appears Next Stage Cluster 1 0 0 5 0 0 0 16 0 22 15 17 18 34 29 24 36 37 33 32 27 42 43 44 45 46 Cluster 2 0 12 0 4 26 0 25 0 28 0 30 0 0 20 31 21 38 39 40 3 41 23 0 0 0 44 37 29 27 42 31 36 33 37 41 40 35 48 38 39 39 40 41 43 43 44 45 46 47 48

Cluster Combined Stage Cluster 1 Cluster 2 48 49 1 1 16 2 2.000 2.000 Coefficients

Stage Cluster First Appears Next Stage Cluster 1 47 48 Cluster 2 35 0 49 0

b. Dendogram Dendrogram using Single Linkage

Gambar 4.1 Dendogram

4.2.2. Profilisasi Customer

% of Total 54.0% Perempuan Count 15

% of Total 30.0% Total Count 42 % of Total 84.0%

% of Total 14.0% 20 -22 tahun Count 35

% of Total 70.0% Total Count 42 % of Total 84.0%

% of Total 16.0% 2008 Count 31

% of Total 62.0% 2009 Count % of Total Total Count 3 6.0% 42

% of Total 10.0% Sering Count 10

% of Total 20.0% Sedang Count 13

% of Total 26.0% Jarang Count 14

% of Total 28.0% Total Count 42 % of Total 84.0%

% of Total 18.0% 16 - 30 menit Count 8

% of Total 16.0% 30 - 60 menit Count 13

% of Total 26.0% >= 60 menit Count 12

% of Total 24.0% Total Count 42 % of Total 84.0%

Cluster 4 Sangat Sering : 0 Sering : 1

Sedang : 0 Jarang : 0 Total : 1

BAB VI KESIMPULAN DAN SARAN

a. Squared Euclidean Distance used b. Single Linkage

Jenis Kelamin * Cluster Member

Usia * Cluster Member

Angkatan * Cluster Member

Approx. T .116 .135

Approx. Sig. .874

Intensitas * Cluster Member

Durasi * Cluster Member

Sig. .549c .653c

LAPORAN RESMI PRAKTIKUM DATA MINING REGRESI

independentnya? 6. Bagaimana hasil prediksi penjualan pada lima kota?

1.5 Flowchart Mulai

Pengumpulan Data MasaPengumpulal ah TIDAK Uji Normalitas TIDAK

Uji Linearitas Sig 0.05 atau Fhitung > Ftabel ya

Uji MultiKolinearitas VIF < 2

ya Menentukan Persamaan Regresi

Menentukan Nilai R Square

Menentukan Koefisien Korelasi

Gambar 1.1 Flowchart

14. Dependent : Letakkan Variabel dependent (Y) yang valid

15. Independent(s) : Letakkan semua Variabel

BAB II LANDASAN TEORI

BAB III PENGUMPULAN DAN PENGOLAHAN DATA

1 Purworejo 2 Purwodadi 3 Waykambas 4 Musi 5 Tarakan

3.2 Pengolahan Data 3.2.1 Uji Normalitas

.296 2.458 -.230 -1.979

BAB V KESIMPULAN DAN SARAN

a All requested variables entered. b Dependent Variable: Penjualan

ANOVA(b) Sum of Squares Regression Residual Total 122477,38 0 156130,54 0 278607,92 0

Mean Square 30619,345 3469,568

Unstandardized Coefficients Std. Error 50,393 ,959 19,314 ,718 ,824

Collinearity Statistics Std. Error

Tolerance ,724 ,451 ,079 ,296 3,670 ,652 2,458 -1,979

VIF ,473 ,001 ,518 ,018 ,054

,826 ,844 ,858 ,925

1,211 1,185 1,165 1,081