You are on page 1of 28

Data Mining

Analisis Asosiasi: Konsep Dasar Dan Algoritma

Lecture Notes for Chapter 5 dan 6


Introduction to Data Mining
by
Tan, Steinbach, Kumar

Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Penambangan Aturan Asosiasi


Terdapat sejumlah transaksi, carilah aturan yang akan memprediksikan
kejadian barang berdasarkan kejadian dari barang lainnya dalan suatu
transaksi.

Transaksi dalam keranjang belanja


TID

Items

Bread, Milk

2
3
4
5

Bread, Diaper, Beer, Eggs


Milk, Diaper, Beer, Coke
Bread, Milk, Diaper, Beer
Bread, Milk, Diaper, Coke

Tan,Steinbach, Kumar

Introduction to Data Mining

Contoh aturan asosiasi


{Diaper} {Beer},
{Milk, Bread} {Eggs,Coke},
{Beer, Bread} {Milk},

Implikasi berarti kejadian yang


menyertainya, bukan akibat.

4/18/2004

Definition: Frequent Itemset

Itemset

Kumpulan dari satu barang atau lebih dalam transaksi

Contoh: {Milk, Bread, Diaper}

TID

Items

k-itemset

Bread, Milk

Itemset yang memuat k item

Support count

Frekuensi kemunculan itemset.

E.g. ({Milk, Bread,Diaper}) = 2

2
3
4
5

Bread, Diaper, Beer, Eggs


Milk, Diaper, Beer, Coke
Bread, Milk, Diaper, Beer
Bread, Milk, Diaper, Coke

Support

potongan transaksi yang memuat itemset.

E.g. s({Milk, Bread, Diaper}) = 2/5

Frequent Itemset

Itemset yang support-nya lebih besar atau sama dengan batasan minimum
support dari itemset.
Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Association Rule Mining Task


Terdapat sejumlah transaksi T, tujuan penambangan aturan asosiasi untuk
mencari aturan atau pola dengan syarat berikut.
support minsup threshold
confidence minconf threshold
Metode Brute-force:
Membuat daftar kemungkinan aturan asosiasi.
Menghitung support dan confidence dari setiap aturan.
Prune rules that fail the minsup and minconf thresholds Hilangkan aturan yang
tidak memenuhi batasan minsup dan mins confidence.

Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Mining Association Rules


Contoh aturan:

TID

Items

Bread, Milk

2
3
4
5

Bread, Diaper, Beer, Eggs


Milk, Diaper, Beer, Coke
Bread, Milk, Diaper, Beer
Bread, Milk, Diaper, Coke

{Milk,Diaper} {Beer} (s=0.4, c=0.67)


{Milk,Beer} {Diaper} (s=0.4, c=1.0)
{Diaper,Beer} {Milk} (s=0.4, c=0.67)
{Beer} {Milk,Diaper} (s=0.4, c=0.67)
{Diaper} {Milk,Beer} (s=0.4, c=0.5)
{Milk} {Diaper,Beer} (s=0.4, c=0.5)

Observasi:
Semua aturan di atas merupakan potongan binari dari itemset yang sama:
{Milk, Diaper, Beer}
Aturan yang berasal dari itemset yang sama memiliki support yang identik tetapi dapat
memiliki confidence yang berbeda.
Maka, kita harus memisahkan kebutuhan support dan confidence.

Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Mining Association Rules


2 langkah yang dilakaukan dalam mencari aturan penambangan assosiasi.:

Menghasilkan Frequent Itemset


Menghasilkan itemset dengan support

minsup

Menghasilkan Aturan
Menghasilkan aturan dengan confidence yang tinggi dari setiap frequent itemset,
dimana setiap baris adalah partisi dari frequent itemset.
Menghasilkan frequent itemset masih mahal komputasinya.

Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Frequent Itemset Generation


null

AB

AC

AD

AE

BC

BD

BE

CD

CE

DE

ABC

ABD

ABE

ACD

ACE

ADE

BCD

BCE

BDE

CDE

ABCD

ABCE

ABDE

ACDE

ABCDE

Tan,Steinbach, Kumar

Introduction to Data Mining

BCDE

Given d items, there


are 2d possible
candidate itemsets
4/18/2004

Menghasilkan Frequent Itemset


Metode Brute-force:
Setiap itemset dalam bab merupakan kandidat frequent itemset

Transactions

Hitung support setiap kandidat dengan men-scan basisdata

TID
1
2
3
4
5

Items
Bread, Milk
Bread, Diaper, Beer, Eggs
Milk, Diaper, Beer, Coke
Bread, Milk, Diaper, Beer
Bread, Milk, Diaper, Coke

List of
Candidates

w
Cocokkan setiap transaksi terhadap setiap kandidat.
d
Kompleksitas ~ O(NMw) => Expensive since M = 2 !!!

Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Strategi Menghasilkan Frequent Itemset


Mengurangi jumlah kandidat (M)
d
Melengkapi : M=2
Menggunakan teknik prunning untuk mengurangi M.
Mengurangi jumlah transaksi(N)
Mengurangi ukuran N sebagai ukuran peningkatan itemset.
Menggunakan DHP dan algoritma vertikal berbasis mining.
Mengurangi jumlah perbandingan(NM)
Menggunakan struktur data yang efisien untuk menyimpan kandidat atau
transaksi

Tidak perlu untuk mencocokkan setiap calon terhadap setiap transaksi

Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Ilustrasi Prinsip Apriori


null

Ditemukan
tidak
frequent

AB

AC

AD

AE

BC

BD

BE

CD

CE

DE

ABC

ABD

ABE

ACD

ACE

ADE

BCD

BCE

BDE

CDE

ABCD

ABCE

Pemangkasan
turuan itemset
Tan,Steinbach, Kumar

Introduction to Data Mining

ABDE

ACDE

BCDE

ABCDE

4/18/2004

Ilustrasi Prinsip Apriori


Item
Bread
Coke
Milk
Beer
Diaper
Eggs

Count
4
2
4
3
4
1

Items (1-itemsets)

Minimum Support = 3

Itemset
{Bread,Milk}
{Bread,Beer}
{Bread,Diaper}
{Milk,Beer}
{Milk,Diaper}
{Beer,Diaper}

Pairs (2-itemsets)
(Tidak perlu menghasilkan
kandidate yang melibatkan
Coke atau Eggs)

Triplets (3-itemsets)

Jika Setiap subset ditentukan,


6C + 6C + 6C = 41
1
2
3
Dengan support berbasis pemangkasan,
6 + 6 + 1 = 13

Tan,Steinbach, Kumar

Count
3
2
3
2
3
3

Introduction to Data Mining

Itemset
{Bread,Milk,Diaper}

Count
3

4/18/2004

Algoritma Apriori
Metode:

Terdapat k=1.

Menghasilkan frequent itemset dengan panjang 1.

Mengulangi sampai tidak ada frequent itemset baru yang teridentifikasi.

Menghasilkan kandidat itemset dg panjang (k+1) dari panjang frequent


itemsets k

Pangkas kandidat itemset yang memuat subset dari panjang k yang tidak
frequent.

Menghitung dukungan dari masing-masing kandidat dengan memindai DB.

Menghilangkan calon yang tidak frequent, hanya menyisakan itemset yang


frequent.

Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Reducing Number of Comparisons


Candidate counting:
Scan the database of transactions to determine the support of each candidate itemset
To reduce the number of comparisons, store the candidates in a hash structure

Instead of matching each transaction against every candidate, match it against


candidates contained in the hashed buckets

Transactions

TID
1
2
3
4
5

Hash Structure

Items
Bread, Milk
Bread, Diaper, Beer, Eggs
Milk, Diaper, Beer, Coke
Bread, Milk, Diaper, Beer
Bread, Milk, Diaper, Coke

Buckets
Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Menghasilkan Aturan
Terdapatt itemset frequent L,menemukan semua subset tidak kosong dari f
L jika f L f memenuhi kebutuhan minimum confidence.
Jika {A,B,C,D} adalah frequent itemset, kandidata aturan:
ABC D,
ABD C,
ACD B,
BCD A,
A BCD, B ACD,
C ABD,
D ABC
AB CD, AC BD, AD BC, BC AD,
BD AC,
CD AB,
k

Jika |L| = k, maka ada kandidat aturan asosiasi 2 2 (tanpat


memperhatikan L
dan
L)

Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Menghasilkan Aturan
Bagaimana menghasilkan aturan dari frequent itemset secara efisien?

Secara umum, confidence tidak memiliki properti anti-monotone


c(ABC

D)dapat lebih besar atau lebih kecil dari c(AB

D)

Tapi confidence aturan yang dihasilkan dari itemset yang sama memiliki
properti anti-monotone.
contoh, L = {A,B,C,D}:
c(ABC

Tan,Steinbach, Kumar

D)

c(AB

CD)

c(A

Introduction to Data Mining

BCD)

4/18/2004

Metode Apriori

Lattice of rules
Confidence
dg nilai
rendah

CD=>AB

ABCD=>{ }

BCD=>A

ACD=>B

BD=>AC

D=>ABC

BC=>AD

C=>ABD

ABD=>C

AD=>BC

B=>ACD

ABC=>D

AC=>BD

AB=>CD

A=>BCD

Pruned
Rules
Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Metode Apriori

Kandidat aturan dihasilkan dengan menggabungkan dua aturan yang berbagi awalan
yang sama
dalam aturan konsekuen.

CD=>AB

join(CD=>AB,BD=>AC)
akan menghasilkan aturan
D => ABC

BD=>AC

Pangkas aturan D=>ABC jika


subsetnya AD=>BC tidak memiliki
confidence yang tinggi

D=>ABC

Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

You might also like