Klasifikasi Berdasarkan Aturan Asosiasi An

KLASIFIKASI BERDASARKAN ATURAN ASOSIASI PERTAMBANGAN-
TEKNIK: Sebuah SURVEY UMUM DAN EMPIRIS PERBANDINGAN

EVALUASI
ABSTRAK
Dalam klasifikasi ini kertas dan algoritma pertambangan aturan asosiasi yang dibahas dan
menunjukkan. Khususnya, masalah association rule mining, dan investigasi dan perbandingan
algoritma populer aturan asosiasi. Masalah klasik dari klasifikasi dalam data mining juga akan
dibahas. Makalah ini juga mempertimbangkan penggunaan association rule mining dalam
pendekatan klasifikasi di mana algoritma yang diusulkan baru-baru ini ditunjukkan untuk tujuan
ini. Akhirnya, sebuah studi eksperimental yang komprehensif terhadap 13 data set UCI disajikan
untuk mengevaluasi dan membandingkan tradisional dan asosiasi teknik klasifikasi berdasarkan
aturan berkaitan dengan akurasi klasifikasi, jumlah aturan yang diturunkan, fitur aturan dan
waktu pemrosesan.

1. Pendahuluan
Membangun pengklasifikasi cepat dan akurat untuk set data yang besar adalah tugas
penting dalam data mining dan penemuan pengetahuan. Ada bukti yang berkembang
bahwa penggabungan klasifikasi dan pertambangan asosiasi aturan bersama-sama dapat
menghasilkan sistem klasifikasi yang lebih efisien dan akurat daripada teknik klasifikasi
tradisional [26]. Dalam makalah ini, baru-baru ini diusulkan
klasifikasi algoritma [37] akan dibahas secara rinci.

lasifikasi merupakan salah satu tugas yang paling penting dalam data mining. Ada banyak
pendekatan klasifikasi untuk mengekstraksi pengetahuan dari data seperti statistik [21],
membagi-dan-menaklukkan [15] dan meliputi
[6] pendekatan. Sejumlah algoritma telah diturunkan dari pendekatan ini, seperti Naiave Bayes
[21], See5 [34], C4.5 [30], BAGIAN [14], Prism [6] dan
IREP [16]. Namun klasifikasi, tradisional
teknik sering menghasilkan subset kecil dari aturan, dan karena itu biasanya ketinggalan aturan
rinci yang mungkin memainkan peran penting dalam beberapa kasus [29].

Tugas lain yang penting dalam data mining adalah penemuan aturan asosiasi di data set yang
lulus pengguna kendala tertentu [1, 2]. klasifikasi dan
aturan asosiasi penemuan serupa kecuali bahwa
klasifikasi melibatkan prediksi dari satu atribut, yaitu,
kelas, sementara aturan asosiasi penemuan dapat memprediksi
setiap atribut dalam kumpulan data. Dalam beberapa tahun terakhir, baru
pendekatan yang mengintegrasikan association rule mining dengan
klasifikasi telah muncul [26, 37, 22]. sedikit akurat
dan pengklasifikasi efektif berdasarkan asosiatif
pendekatan klasifikasi telah disajikan baru-baru,
seperti CPAR [39], CMAR [22], MMAC [37] dan
CBA [26]. Banyak penelitian eksperimental [26, 39, 37] menunjukkan bahwa klasifikasi
berdasarkan aturan asosiasi
pertambangan adalah pendekatan potensi tinggi yang membangun sistem klasifikasi yang lebih
prediktif dan akurat daripada metode klasifikasi tradisional seperti pohon keputusan [30, 34].
Selain itu, banyak aturan ditemukan oleh metode klasifikasi asosiatif tidak dapat ditemukan
dengan teknik klasifikasi tradisional.
Dalam tulisan ini, rincian yang diusulkan baru-baru ini
klasifikasi berdasarkan teknik asosiasi aturan adalah
disurvei dan dibahas, yang memperluas ide dasar dari
Aturan asosiasi [1] dan terintegrasi dengan klasifikasi
untuk menghasilkan subset dari aturan yang efektif. usulan ini
menggunakan pendekatan asosiasi aturan pertambangan di
kerangka klasifikasi. Ini telah dinamakan multi-kelas
klasifikasi berdasarkan aturan asosiasi [37]. Ini menggunakan
sebuah teknik yang efisien untuk menemukan itemset yang sering
dan menggunakan metode aturan peringkat untuk memastikan bahwa
aturan umum dan rinci dengan keyakinan yang tinggi merupakan bagian
dari sistem klasifikasi.

Kontribusi utama dari makalah ini adalah bahwa
beberapa yang populer asosiasi aturan-teknik pertambangan
secara teoritis dibandingkan dalam hal sejumlah kriteria.
Selanjutnya, perbandingan beberapa klasifikasi
algoritma dilakukan. Selain itu, integrasi
asosiasi aturan pertambangan dengan klasifikasi juga
diselidiki, untuk itu algoritma baru yang diusulkan
(algoritma MMAC) dirancang dan diimplementasikan.
Akhirnya, sebuah studi eksperimental untuk membandingkan MMAC dengan
lima set algoritma klasifikasi populer dan
MMAC algoritma dilakukan dengan menggunakan sekelompok nyata
dan buatan patokan UCI dataset. lebih
khusus, testbed kami melibatkan 13 dataset buatan
dan 10 dataset dunia nyata aplikasi.
Temuan-temuan utama dari makalah ini adalah:
Kinerja dari beberapa klasifikasi sederhana
algoritma seperti penipuan cukup baik pada data aplikasi dunia nyata, bahkan jika mereka
melakukan yang buruk pada set data buatan.
Ada konsistensi pada akurasi klasifikasi
dan jumlah peraturan yang dihasilkan oleh pohon keputusan C.45
dan algoritma BAGIAN.
Naif Bayes dan algoritma penipuan adalah tercepat
yang untuk membangun sistem klasifikasi karena yang
kesederhanaan metode tersebut dalam membangun aturan.
ripper di sisi lain, adalah algoritma paling lambat
dalam membangun sistem klasifikasi karena
tahap optimasi ini mempekerjakan untuk menyimpulkan ukuran
aturan yang ditetapkan.
Dalam hal akurasi, algoritma MMAC adalah
terbaik, mungkin karena jumlah yang relatif besar
aturan itu dapat mengidentifikasi.

2. Asosiasi Pertambangan Peraturan
Karena presentasi dari association rule mining oleh Agrawal, Imielinski dan Swami dalam
makalah mereka "Pertambangan aturan hubungan antara set item dalam database besar" pada
tahun 1993 [1], daerah ini tetap menjadi salah satu daerah penelitian yang paling aktif dalam
pembelajaran mesin dan penemuan pengetahuan .

Saat ini, asosiasi aturan pertambangan adalah salah satu
yang paling penting tugas dalam data mining. Hal ini dianggap sebagai
kuat alat untuk analisis pasar keranjang yang bertujuan untuk
menyelidiki perilaku belanja pelanggan di
berharap untuk menemukan keteraturan [1]. Dalam menemukan asosiasi
aturan, seseorang berusaha untuk menemukan kelompok item yang sering
dijual bersama-sama dalam rangka untuk menyimpulkan item dari kehadiran
item lain dalam keranjang belanja pelanggan. untuk
Misalnya, aturan asosiasi mungkin menyatakan bahwa "80% dari
pelanggan yang membeli popok dan es juga membeli sereal ".
Informasi seperti ini mungkin bermanfaat dan dapat
digunakan untuk keputusan strategis seperti item, target rak
pemasaran promosi penjualan, dan strategi diskon.

Aturan asosiasi adalah alat berharga yang telah
telah digunakan secara luas dalam berbagai industri seperti
supermarket, memesan mail, telemarketing, asuransi
penipuan, dan aplikasi lain di mana menemukan
keteraturan ditargetkan. Tugas asosiasi aturan
pertambangan atas keranjang pasar telah dijelaskan dalam [1],
formal, misalkan D menjadi database transaksi penjualan, dan
biarkan I = {i1, i2, ..., im} adalah sebuah himpunan biner disebut literal
item. T transaksi di D berisi satu set item
itemset yang disebut, seperti bahwa T _ I. Secara umum, jumlah
item dalam suatu itemset disebut panjang suatu itemset.
Itemset yang memiliki panjang k dilambangkan oleh k-itemset.
Itemset masing-masing terkait dengan ambang statistik
bernama dukungan. Dukungan dari itemset adalah jumlah
transaksi di D yang berisi itemset tersebut. sebuah
aturan asosiasi adalah ekspresi X Y, dimana X, Y
_ Aku adalah dua set item dan X Y = |. X disebut
yg, dan Y disebut konsekuen dari
asosiasi aturan. Aturan asosiasi X Y memiliki
ukuran kepercayaan bernama kebaikan, yang dapat didefinisikan sebagai, probabilitas transaksi
berisi Y mengingat bahwa itu mengandung X, dan diberikan sebagai dukungan (XY) / support (X).

Mengingat database transaksional D,
Masalah association rule adalah untuk menemukan semua aturan yang memiliki
dukungan dan kepercayaan yang lebih besar dari pengguna tertentu
ambang yang ditentukan, dilambangkan dengan minsupp dan minconf,
masing-masing.

Masalah menghasilkan semua aturan asosiasi dari database transaksional dapat didekomposisi
menjadi dua submasalah [1].
Gambar/

1. Generasi dari semua itemset dengan dukungan yang lebih besar
dari minsupp tersebut. Itemset ini sering disebut
itemset. Semua itemset lainnya disebut jarang terjadi.
2. Untuk setiap itemset yang sering dihasilkan dalam Langkah 1, menghasilkan
semua aturan yang lolos ambang batas minconf. Sebagai contoh jika
Item XYZ sering, maka kita mungkin mengevaluasi
kepercayaan dari aturan Z XY, XZ Y dan
YZ X

Untuk kejelasan, pertimbangkan misalnya database ditampilkan
bawah pada Tabel 1, dan biarkan minsupp dan minconf menjadi 0,70
dan 1,0, masing-masing. Para sering itemset pada Tabel 1
adalah {roti}, {susu}, {jus}, {roti, susu} dan {roti,
jus}. Asosiasi aturan yang lulus minconf antara
itemset tersebut sering adalah susu roti dan
jus roti

Sedangkan langkah kedua asosiasi pemerintahan
Penemuan yang melibatkan generasi aturan adalah
jauh masalah langsung mengingat bahwa
itemset sering dan dukungan mereka dikenal [1, 2, 18,
23]. Langkah pertama untuk menemukan itemset sering adalah
masalah yang relatif memakan sumber daya yang memerlukan
perhitungan luas dan kapasitas sumber daya besar
terutama jika ukuran database dan itemset yang
besar [1, 28, 4]. Umumnya, untuk sejumlah yang berbeda
m item dalam transaksi database pelanggan D, ada
Mungkin 2m jumlah itemset. Pertimbangkan misalnya
toko kelontong yang berisi 2100 item yang berbeda berbeda.
Maka ada 22100 kemungkinan kombinasi yang berbeda
potensial sering itemset, yang dikenal oleh calon
itemset, di mana beberapa dari mereka tidak muncul bahkan
sekali dalam database, dan dengan demikian biasanya hanya kecil
subset dari sejumlah besar calon itemset
sering. Masalah ini telah secara ekstensif yang
diteliti dalam dekade terakhir untuk tujuan
meningkatkan kinerja kandidat itemsets
generasi [4, 28, 17, 23, 25, 40]. Dalam makalah ini, kami hanya
mempertimbangkan sejumlah association rule terkenal
pertambangan algoritma yang memberikan kontribusi perbaikan pada
kinerja pada langkah pertama dari proses pertambangan. para
Langkah kedua, bagaimanapun, tidak dipertimbangkan dalam makalah ini.

Salah satu algoritma pertama yang memiliki signifikan
perbaikan atas aturan asosiasi sebelumnya
algoritma adalah algoritma Apriori [2]. para Apriori
algoritma menyajikan properti kunci baru bernama
"Bawah-penutupan" dari dukungan, yang menyatakan bahwa jika
itemset yang melewati minsupp maka semua subset yang harus
juga lulus minsupp tersebut. Ini berarti bahwa setiap subset dari
itemset yang sering harus sering,, mana lagi ada

superset dari itemset jarang harus jarang terjadi. sebagian besar
dari algoritma asosiasi aturan klasik yang telah dikembangkan setelah algoritma Apriori seperti
[28, 4] telah menggunakan properti ini dalam langkah pertama dari asosiasi aturan penemuan.
Mereka algoritma yang disebut sebagai algoritma Apriori seperti atau teknik.

Apriori-like techniques such as [28, 4, 25] can
successfully achieve good level of performance whenever the size of the candidate
itemsets is small. However, in circumstances with large candidate itemsets size, low
minimum support threshold and long patterns, these techniques may still suffer from the
following costs [17]:

+ Memegang sejumlah besar kandidat itemsets. untuk
Misalnya, untuk menemukan itemset sering ukuran 50, salah satu
perlu untuk memperoleh lebih dari 250 kandidat itemsets. ini
signifikan adalah mahal di runtime dan penggunaan memori
terlepas dari metode pelaksanaan yang digunakan.
+ Saat melintasi database beberapa kali untuk memeriksa
besar jumlah calon itemset oleh pola
pencocokan. Para apriori-seperti algoritma memerlukan
lengkap melewati database untuk menemukan kandidat
item pada setiap tingkat. Jadi, untuk menemukan kandidat potensial
itemset ukuran n +1, gabungan dari semua kemungkinan
kombinasi itemset sering ukuran n dan
lengkap scan database untuk memperbarui
frekuensi terjadinya calon itemset ukuran
n +1 akan dilakukan. Proses berulang-ulang
memindai database pada setiap tingkat secara signifikan mahal
dalam waktu pemrosesan.
+ Langka item dengan keyakinan yang tinggi dan dukungan yang rendah di
database akan pada dasarnya diabaikan.

3. Klasifikasi data dipertambangan
3.1 Sastra Tinjauan
Klasifikasi saat ini dianggap sebagai salah satu
tugas pertambangan yang paling umum data [14, 24, 30, 39].
Klasifikasi contoh dunia nyata adalah hal yang umum
siapa pun praktek melalui hidupnya. Satu dapat mengklasifikasikan
umat manusia berdasarkan ras atau dapat mengkategorikan
produk di supermarket berdasarkan konsumen
belanja pilihan. Secara umum, klasifikasi melibatkan
memeriksa fitur dari objek baru dan mencoba untuk
menetapkan ke salah satu set standar kelas [38].
Mengingat koleksi catatan dalam satu set data, catatan masing-masing
terdiri dari kelompok atribut, salah satu atribut yang
kelas. Tujuan klasifikasi adalah untuk membangun sebuah model
dari benda-benda diklasifikasikan dalam rangka mengklasifikasikan sebelumnya
benda gaib seakurat mungkin.

Ada pendekatan klasifikasi banyak
penggalian pengetahuan dari data seperti membagi-dan-
menaklukkan [31], yang terpisah-dan-menaklukkan [15], yang meliputi dan
pendekatan statistik [24, 6]. Yang membagi-dan-menaklukkan
Pendekatan dimulai dengan memilih atribut sebagai node root,
dan kemudian membuat cabang untuk setiap tingkat kemungkinan
atribut itu. Hal ini akan membagi contoh pelatihan ke
himpunan bagian, satu untuk setiap nilai kemungkinan atribut. para
proses yang sama akan diulang sampai semua kasus yang jatuh
dalam satu cabang memiliki klasifikasi yang sama atau
kasus yang tersisa tidak dapat dibagi lebih lanjut. para
terpisah-dan-menaklukkan pendekatan, di sisi lain,
dimulai dengan membangun aturan dalam mode rakus (satu per
satu). Setelah aturan ditemukan, semua kasus yang dicakup oleh
aturan akan dihapus. Proses yang sama diulang sampai
aturan terbaik yang ditemukan memiliki tingkat kesalahan yang besar. statistik
pendekatan seperti Bayes Sederhana [21] menggunakan langkah-langkah probabilistik,
kemungkinan yaitu, untuk mengklasifikasikan benda uji. Akhirnya, pendekatan yang meliputi [6]
memilih masing-masing
tersedia kelas pada gilirannya, dan mencari cara untuk menutupi sebagian besar objek pelatihan
ke kelas bahwa dalam rangka untuk datang dengan aturan akurasi maksimum.

Sejumlah Algoritma Telah diturunkan Dari
pendekatan ini, seperti pohon keputusan [32, 30],
BAGIAN [14], Ripper [7] murah Prism [6] Sementara label Klasifikasi tunggal, Yang
memberikan setiap Aturan Dalam, pengklasifikasi UNTUK label Yang pagar Jelas, Telah
BANYAK diteliti [30, 14, 7, 6, 19, 21]. , Sedikit kerja Telah dilakukan PADA multi-
Klasifikasi label. Sebagian Besar Penelitian sebelumnya UNTUK Tanggal PADA multi-label
Klasifikasi Terkait DENGAN kategorisasi Teks [20]. Dalam, Tulisan ini, Hanya tradisional
Klasifikasi Algoritma Yang Aturan-Aturan menghasilkan DENGAN kelas tunggal Akan
dipertimbangkan.

3.2 Klasifikasi Masalah
Sebagian besar penelitian yang dilakukan pada
klasifikasi dalam data mining telah dikhususkan untuk tunggal
masalah label. Masalah klasifikasi tradisional dapat
didefinisikan sebagai berikut: misalkan D melambangkan domain
contoh pelatihan mungkin dan Y daftar label kelas,
biarkan H melambangkan set pengklasifikasi untuk D Y, masing-masing
Misalnya d e D adalah ditugaskan y kelas tunggal yang dimiliki Y. Tujuannya adalah
untuk menemukan h classifier e H yang
memaksimalkan probabilitas bahwa h (d) = y untuk setiap kasus uji (d, y). Dalam multi-
label masalah, bagaimanapun, masing-masing
Misalnya d e D dapat ditugaskan beberapa label y1, y2, ..., yk untuk yi y e, dan diwakili
sebagai pasangan (d, (y1, y2, ..., yk)) di mana (y1, y2, ..., yk) adalah daftar dari label
kelas peringkat dari y berhubungan dengan d contoh dalam data pelatihan. Dalam karya
ini, kita hanya mempertimbangkan masalah klasifikasi kelas tunggal tradisional.

4. Klasifikasi asosiatif
Umumnya, dalam aturan asosiasi pertambangan, item apapun
yang lewat minsupp dikenal sebagai itemset sering. Jika
item yang sering hanya terdiri dari atribut tunggal
nilai, dikatakan menjadi satu item-sering. Sebagai contoh,
dengan minsupp = 20%, yang sering satu item dalam Tabel 4
adalah <(AT1, z1)>, <(AT1, z2)>, <(AT2, w1)>, <(AT2, w2)>
dan <(AT2, w3)>. Saat ini klasifikasi asosiatif
teknik menghasilkan barang sering dengan membuat lebih
dari satu memindai melalui set data pelatihan. Pada scan pertama,
mereka menemukan dukungan dari satu item, dan kemudian di masing-masing
memindai berikutnya, mereka mulai dengan item ditemukan
sering di scan sebelumnya dalam rangka untuk menghasilkan baru
item yang sering melibatkan nilai atribut yang mungkin lebih.
Dengan kata lain, item tunggal sering digunakan untuk
Penemuan sering dua item, dan sering dua-item
adalah input untuk penemuan sering tiga-item dan
sebagainya.

Ketika barang-barang yang sering telah ditemukan, klasifikasi berdasarkan algoritma asosiasi
aturan mengekstrak set lengkap kelas-asosiasi-aturan (CAR) untuk barang-barang yang sering
yang lulus minconf.

Gambar

5. KLASIFIKASI BERDASARKAN ASOSIASI
ATURAN MASALAH
Salah satu algoritma pertama untuk menggabungkan klasifikasi dengan aturan asosiasi
diusulkan pada [22]. Pendekatan klasifikasi terdiri dari dua fase utama; fase satu
mengimplementasikan algoritma apriori yang terkenal [2] dalam rangka untuk
menemukan item sering. Tahap kedua melibatkan pembangunan pengklasifikasi tersebut.
Hasil eksperimen menunjukkan bahwa pendekatan yang dikembangkan di [26] aturan
diproduksi yang kompetitif untuk metode pembelajaran populer seperti pohon keputusan
[34].

gambar

Misalkan T menjadi data pelatihan himpunan dengan m atribut AT1,, AT2 ..., ATM dan | T |
baris. Misalkan P daftar label kelas. Item didefinisikan oleh asosiasi atribut dan nilainya (ATI,
ai), atau kombinasi dari
antara 1 dan m yang berbeda nilai-nilai atribut. Sebuah r aturan untuk
klasifikasi direpresentasikan dalam bentuk:
(AT = x) . (AT = x) . . (AT = x)
i1 i1 i2 i1 i2 di dalam
dimana anteseden aturan adalah item dan akibatnya adalah sebuah kelas.

unculnya aturan dalam kumpulan data
(Appr) dari r aturan di T adalah jumlah kali
anteseden dari aturan tersebut telah muncul di T.
dukungan frekuensi (SuppFreq) dari r adalah jumlah
kasus di T yang cocok yg r, dan milik
kelas pi. Sebuah aturan r melewati ambang batas dukungan minimal
(minsupp) jika untuk r, SuppFreq (r) / | T | minsupp,
di mana | T | adalah jumlah contoh di T. Sebuah r aturan
melewati ambang batas minimal kepercayaan (minconf) jika
SuppFreq (r) / appr (r) minconf.
Setiap item dalam T yang melewati minsupp yang dikatakan item yang sering

Pertimbangkan misalnya data pelatihan set ditunjukkan pada Tabel 3 dan menganggap minsupp
yang diatur untuk 0,2
dan minconf adalah 0,50. Dukungan dari aturan
< (AT 1, z 1) > p 1 adalah 0,30, yang memenuhi
minsupp ambang batas. Kepercayaan dari aturan
< (AT 1, z 1) > p 1 adalah 0,60, dan dengan demikian aturan ini juga
memenuhi ambang minconf dan karena itu adalah aturan potensi tinggi dalam sistem klasifikasi.

6. Terkait berkerja

7.

Klasifikasi Berdasarkan Aturan Asosiasi An

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Klasifikasi Berdasarkan Aturan Asosiasi An

Uploaded by

Copyright:

Available Formats

KLASIFIKASI BERDASARKAN ATURAN ASOSIASI PERTAMBANGAN-

TEKNIK: Sebuah SURVEY UMUM DAN EMPIRIS PERBANDINGAN

You might also like