Lecture Notes For Chapter 5 Dan 6: Data Mining Analisis Asosiasi: Konsep Dasar Dan Algoritma

Data Mining
Analisis Asosiasi: Konsep Dasar Dan Algoritma
Lecture Notes for Chapter 5 dan 6

Introduction to Data Mining
by
Tan, Steinbach, Kumar
Tan,Steinbach, Kumar
4/18/2004
Penambangan Aturan Asosiasi

Terdapat sejumlah transaksi, carilah aturan yang akan memprediksikan
kejadian barang berdasarkan kejadian dari barang lainnya dalan suatu
transaksi.
Transaksi dalam keranjang belanja

TID
Items
Bread, Milk
2
3
4
5
Bread, Diaper, Beer, Eggs

Milk, Diaper, Beer, Coke
Bread, Milk, Diaper, Beer
Bread, Milk, Diaper, Coke
Contoh aturan asosiasi

{Diaper} {Beer},
{Milk, Bread} {Eggs,Coke},
{Beer, Bread} {Milk},
Implikasi berarti kejadian yang

menyertainya, bukan akibat.
4/18/2004
Definition: Frequent Itemset
Itemset
Kumpulan dari satu barang atau lebih dalam transaksi
Contoh: {Milk, Bread, Diaper}
TID
Items
k-itemset
Bread, Milk
Itemset yang memuat k item
Support count
Frekuensi kemunculan itemset.
E.g. ({Milk, Bread,Diaper}) = 2
2
3
4
5

Support
potongan transaksi yang memuat itemset.
E.g. s({Milk, Bread, Diaper}) = 2/5
Frequent Itemset
Itemset yang support-nya lebih besar atau sama dengan batasan minimum
support dari itemset.
4/18/2004
4/18/2004
Association Rule Mining Task

Terdapat sejumlah transaksi T, tujuan penambangan aturan asosiasi untuk
mencari aturan atau pola dengan syarat berikut.
support minsup threshold
confidence minconf threshold
Metode Brute-force:
Membuat daftar kemungkinan aturan asosiasi.
Menghitung support dan confidence dari setiap aturan.
Prune rules that fail the minsup and minconf thresholds Hilangkan aturan yang
tidak memenuhi batasan minsup dan mins confidence.
4/18/2004
Mining Association Rules

Contoh aturan:
TID
Items
Bread, Milk
2
3
4
5

{Milk,Diaper} {Beer} (s=0.4, c=0.67)

{Milk,Beer} {Diaper} (s=0.4, c=1.0)
{Diaper,Beer} {Milk} (s=0.4, c=0.67)
{Beer} {Milk,Diaper} (s=0.4, c=0.67)
{Diaper} {Milk,Beer} (s=0.4, c=0.5)
{Milk} {Diaper,Beer} (s=0.4, c=0.5)
Observasi:
Semua aturan di atas merupakan potongan binari dari itemset yang sama:
{Milk, Diaper, Beer}
Aturan yang berasal dari itemset yang sama memiliki support yang identik tetapi dapat
memiliki confidence yang berbeda.
Maka, kita harus memisahkan kebutuhan support dan confidence.
4/18/2004
Mining Association Rules

2 langkah yang dilakaukan dalam mencari aturan penambangan assosiasi.:
Menghasilkan Frequent Itemset

Menghasilkan itemset dengan support
minsup
Menghasilkan Aturan
Menghasilkan aturan dengan confidence yang tinggi dari setiap frequent itemset,
dimana setiap baris adalah partisi dari frequent itemset.
Menghasilkan frequent itemset masih mahal komputasinya.
4/18/2004
Frequent Itemset Generation

null
AB
AC
AD
AE
BC
BD
BE
CD
CE
DE
ABC
ABD
ABE
ACD
ACE
ADE
BCD
BCE
BDE
CDE
ABCD
ABCE
ABDE
ACDE
ABCDE
BCDE
Given d items, there

are 2d possible
candidate itemsets
4/18/2004
Menghasilkan Frequent Itemset

Metode Brute-force:
Setiap itemset dalam bab merupakan kandidat frequent itemset
Transactions
Hitung support setiap kandidat dengan men-scan basisdata
TID
1
2
3
4
5
Items
Bread, Milk
List of
Candidates
w
Cocokkan setiap transaksi terhadap setiap kandidat.
d
Kompleksitas ~ O(NMw) => Expensive since M = 2 !!!
4/18/2004
4/18/2004
Strategi Menghasilkan Frequent Itemset

Mengurangi jumlah kandidat (M)
d
Melengkapi : M=2
Menggunakan teknik prunning untuk mengurangi M.
Mengurangi jumlah transaksi(N)
Mengurangi ukuran N sebagai ukuran peningkatan itemset.
Menggunakan DHP dan algoritma vertikal berbasis mining.
Mengurangi jumlah perbandingan(NM)
Menggunakan struktur data yang efisien untuk menyimpan kandidat atau
transaksi
Tidak perlu untuk mencocokkan setiap calon terhadap setiap transaksi
4/18/2004
4/18/2004
Ilustrasi Prinsip Apriori

null
Ditemukan
tidak
frequent
AB
AC
AD
AE
BC
BD
BE
CD
CE
DE
ABC
ABD
ABE
ACD
ACE
ADE
BCD
BCE
BDE
CDE
ABCD
ABCE
Pemangkasan
turuan itemset
ABDE
ACDE
BCDE
ABCDE
4/18/2004
Ilustrasi Prinsip Apriori

Item
Bread
Coke
Milk
Beer
Diaper
Eggs
Count
4
2
4
3
4
1
Items (1-itemsets)
Minimum Support = 3
Itemset
{Bread,Milk}
{Bread,Beer}
{Bread,Diaper}
{Milk,Beer}
{Milk,Diaper}
{Beer,Diaper}
Pairs (2-itemsets)
(Tidak perlu menghasilkan
kandidate yang melibatkan
Coke atau Eggs)
Triplets (3-itemsets)
Jika Setiap subset ditentukan,

6C + 6C + 6C = 41
1
2
3
Dengan support berbasis pemangkasan,
6 + 6 + 1 = 13
Count
3
2
3
2
3
3
Itemset
{Bread,Milk,Diaper}
Count
3
4/18/2004
Algoritma Apriori
Metode:
Terdapat k=1.
Menghasilkan frequent itemset dengan panjang 1.
Mengulangi sampai tidak ada frequent itemset baru yang teridentifikasi.
Menghasilkan kandidat itemset dg panjang (k+1) dari panjang frequent

itemsets k
Pangkas kandidat itemset yang memuat subset dari panjang k yang tidak
frequent.
Menghitung dukungan dari masing-masing kandidat dengan memindai DB.
Menghilangkan calon yang tidak frequent, hanya menyisakan itemset yang

frequent.
4/18/2004
Reducing Number of Comparisons

Candidate counting:
Scan the database of transactions to determine the support of each candidate itemset
To reduce the number of comparisons, store the candidates in a hash structure
Instead of matching each transaction against every candidate, match it against

candidates contained in the hashed buckets
Transactions
TID
1
2
3
4
5
Hash Structure
Items
Bread, Milk
Buckets
4/18/2004
Menghasilkan Aturan
Terdapatt itemset frequent L,menemukan semua subset tidak kosong dari f
L jika f L f memenuhi kebutuhan minimum confidence.
Jika {A,B,C,D} adalah frequent itemset, kandidata aturan:
ABC D,
ABD C,
ACD B,
BCD A,
A BCD, B ACD,
C ABD,
D ABC
AB CD, AC BD, AD BC, BC AD,
BD AC,
CD AB,
k
Jika |L| = k, maka ada kandidat aturan asosiasi 2 2 (tanpat

memperhatikan L
dan
L)
4/18/2004
Menghasilkan Aturan
Bagaimana menghasilkan aturan dari frequent itemset secara efisien?
Secara umum, confidence tidak memiliki properti anti-monotone

c(ABC
D)dapat lebih besar atau lebih kecil dari c(AB
D)
Tapi confidence aturan yang dihasilkan dari itemset yang sama memiliki
properti anti-monotone.
contoh, L = {A,B,C,D}:
c(ABC
D)
c(AB
CD)
c(A
BCD)
4/18/2004
Metode Apriori
Lattice of rules
Confidence
dg nilai
rendah
CD=>AB
ABCD=>{ }
BCD=>A
ACD=>B
BD=>AC
D=>ABC
BC=>AD
C=>ABD
ABD=>C
AD=>BC
B=>ACD
ABC=>D
AC=>BD
AB=>CD
A=>BCD
Pruned
Rules
4/18/2004
Metode Apriori
Kandidat aturan dihasilkan dengan menggabungkan dua aturan yang berbagi awalan
yang sama
dalam aturan konsekuen.
CD=>AB
join(CD=>AB,BD=>AC)
akan menghasilkan aturan
D => ABC
BD=>AC
Pangkas aturan D=>ABC jika

subsetnya AD=>BC tidak memiliki
confidence yang tinggi
D=>ABC
4/18/2004
4/18/2004
4/18/2004
4/18/2004
4/18/2004
4/18/2004
4/18/2004
4/18/2004
4/18/2004

Lecture Notes For Chapter 5 Dan 6: Data Mining Analisis Asosiasi: Konsep Dasar Dan Algoritma

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Lecture Notes For Chapter 5 Dan 6: Data Mining Analisis Asosiasi: Konsep Dasar Dan Algoritma

Uploaded by

Copyright:

Available Formats

Data Mining

Analisis Asosiasi: Konsep Dasar Dan Algoritma

Lecture Notes for Chapter 5 dan 6

Introduction to Data Mining

Penambangan Aturan Asosiasi

Transaksi dalam keranjang belanja

Bread, Diaper, Beer, Eggs

Introduction to Data Mining

Contoh aturan asosiasi

Implikasi berarti kejadian yang

Definition: Frequent Itemset

Kumpulan dari satu barang atau lebih dalam transaksi

Contoh: {Milk, Bread, Diaper}

Itemset yang memuat k item

Frekuensi kemunculan itemset.

E.g. ({Milk, Bread,Diaper}) = 2

Bread, Diaper, Beer, Eggs

potongan transaksi yang memuat itemset.

E.g. s({Milk, Bread, Diaper}) = 2/5

Introduction to Data Mining

Introduction to Data Mining

Association Rule Mining Task

Introduction to Data Mining

Mining Association Rules

Bread, Diaper, Beer, Eggs

{Milk,Diaper} {Beer} (s=0.4, c=0.67)

Introduction to Data Mining

Mining Association Rules

Menghasilkan Frequent Itemset

Introduction to Data Mining

Frequent Itemset Generation

Introduction to Data Mining

Given d items, there

Menghasilkan Frequent Itemset

Hitung support setiap kandidat dengan men-scan basisdata

Introduction to Data Mining

Introduction to Data Mining

Strategi Menghasilkan Frequent Itemset

Tidak perlu untuk mencocokkan setiap calon terhadap setiap transaksi

Introduction to Data Mining

Introduction to Data Mining

Ilustrasi Prinsip Apriori

Introduction to Data Mining

Ilustrasi Prinsip Apriori

Jika Setiap subset ditentukan,

Introduction to Data Mining

Menghasilkan frequent itemset dengan panjang 1.

Mengulangi sampai tidak ada frequent itemset baru yang teridentifikasi.

Menghasilkan kandidat itemset dg panjang (k+1) dari panjang frequent

Menghitung dukungan dari masing-masing kandidat dengan memindai DB.

Menghilangkan calon yang tidak frequent, hanya menyisakan itemset yang

Introduction to Data Mining

Reducing Number of Comparisons

Instead of matching each transaction against every candidate, match it against

Introduction to Data Mining

Jika |L| = k, maka ada kandidat aturan asosiasi 2 2 (tanpat

Introduction to Data Mining

Secara umum, confidence tidak memiliki properti anti-monotone

D)dapat lebih besar atau lebih kecil dari c(AB

Introduction to Data Mining

Introduction to Data Mining

Pangkas aturan D=>ABC jika

Introduction to Data Mining