Professional Documents
Culture Documents
Tan,Steinbach, Kumar
4/18/2004
Items
Bread, Milk
2
3
4
5
Tan,Steinbach, Kumar
4/18/2004
Itemset
TID
Items
k-itemset
Bread, Milk
Support count
2
3
4
5
Support
Frequent Itemset
Itemset yang support-nya lebih besar atau sama dengan batasan minimum
support dari itemset.
Tan,Steinbach, Kumar
4/18/2004
Tan,Steinbach, Kumar
4/18/2004
Tan,Steinbach, Kumar
4/18/2004
TID
Items
Bread, Milk
2
3
4
5
Observasi:
Semua aturan di atas merupakan potongan binari dari itemset yang sama:
{Milk, Diaper, Beer}
Aturan yang berasal dari itemset yang sama memiliki support yang identik tetapi dapat
memiliki confidence yang berbeda.
Maka, kita harus memisahkan kebutuhan support dan confidence.
Tan,Steinbach, Kumar
4/18/2004
minsup
Menghasilkan Aturan
Menghasilkan aturan dengan confidence yang tinggi dari setiap frequent itemset,
dimana setiap baris adalah partisi dari frequent itemset.
Menghasilkan frequent itemset masih mahal komputasinya.
Tan,Steinbach, Kumar
4/18/2004
AB
AC
AD
AE
BC
BD
BE
CD
CE
DE
ABC
ABD
ABE
ACD
ACE
ADE
BCD
BCE
BDE
CDE
ABCD
ABCE
ABDE
ACDE
ABCDE
Tan,Steinbach, Kumar
BCDE
Transactions
TID
1
2
3
4
5
Items
Bread, Milk
Bread, Diaper, Beer, Eggs
Milk, Diaper, Beer, Coke
Bread, Milk, Diaper, Beer
Bread, Milk, Diaper, Coke
List of
Candidates
w
Cocokkan setiap transaksi terhadap setiap kandidat.
d
Kompleksitas ~ O(NMw) => Expensive since M = 2 !!!
Tan,Steinbach, Kumar
4/18/2004
Tan,Steinbach, Kumar
4/18/2004
Tan,Steinbach, Kumar
4/18/2004
Tan,Steinbach, Kumar
4/18/2004
Ditemukan
tidak
frequent
AB
AC
AD
AE
BC
BD
BE
CD
CE
DE
ABC
ABD
ABE
ACD
ACE
ADE
BCD
BCE
BDE
CDE
ABCD
ABCE
Pemangkasan
turuan itemset
Tan,Steinbach, Kumar
ABDE
ACDE
BCDE
ABCDE
4/18/2004
Count
4
2
4
3
4
1
Items (1-itemsets)
Minimum Support = 3
Itemset
{Bread,Milk}
{Bread,Beer}
{Bread,Diaper}
{Milk,Beer}
{Milk,Diaper}
{Beer,Diaper}
Pairs (2-itemsets)
(Tidak perlu menghasilkan
kandidate yang melibatkan
Coke atau Eggs)
Triplets (3-itemsets)
Tan,Steinbach, Kumar
Count
3
2
3
2
3
3
Itemset
{Bread,Milk,Diaper}
Count
3
4/18/2004
Algoritma Apriori
Metode:
Terdapat k=1.
Pangkas kandidat itemset yang memuat subset dari panjang k yang tidak
frequent.
Tan,Steinbach, Kumar
4/18/2004
Transactions
TID
1
2
3
4
5
Hash Structure
Items
Bread, Milk
Bread, Diaper, Beer, Eggs
Milk, Diaper, Beer, Coke
Bread, Milk, Diaper, Beer
Bread, Milk, Diaper, Coke
Buckets
Tan,Steinbach, Kumar
4/18/2004
Menghasilkan Aturan
Terdapatt itemset frequent L,menemukan semua subset tidak kosong dari f
L jika f L f memenuhi kebutuhan minimum confidence.
Jika {A,B,C,D} adalah frequent itemset, kandidata aturan:
ABC D,
ABD C,
ACD B,
BCD A,
A BCD, B ACD,
C ABD,
D ABC
AB CD, AC BD, AD BC, BC AD,
BD AC,
CD AB,
k
Tan,Steinbach, Kumar
4/18/2004
Menghasilkan Aturan
Bagaimana menghasilkan aturan dari frequent itemset secara efisien?
D)
Tapi confidence aturan yang dihasilkan dari itemset yang sama memiliki
properti anti-monotone.
contoh, L = {A,B,C,D}:
c(ABC
Tan,Steinbach, Kumar
D)
c(AB
CD)
c(A
BCD)
4/18/2004
Metode Apriori
Lattice of rules
Confidence
dg nilai
rendah
CD=>AB
ABCD=>{ }
BCD=>A
ACD=>B
BD=>AC
D=>ABC
BC=>AD
C=>ABD
ABD=>C
AD=>BC
B=>ACD
ABC=>D
AC=>BD
AB=>CD
A=>BCD
Pruned
Rules
Tan,Steinbach, Kumar
4/18/2004
Metode Apriori
Kandidat aturan dihasilkan dengan menggabungkan dua aturan yang berbagi awalan
yang sama
dalam aturan konsekuen.
CD=>AB
join(CD=>AB,BD=>AC)
akan menghasilkan aturan
D => ABC
BD=>AC
D=>ABC
Tan,Steinbach, Kumar
4/18/2004
Tan,Steinbach, Kumar
4/18/2004
Tan,Steinbach, Kumar
4/18/2004
Tan,Steinbach, Kumar
4/18/2004
Tan,Steinbach, Kumar
4/18/2004
Tan,Steinbach, Kumar
4/18/2004
Tan,Steinbach, Kumar
4/18/2004
Tan,Steinbach, Kumar
4/18/2004
Tan,Steinbach, Kumar
4/18/2004