Professional Documents
Culture Documents
5.asocijativna Analiza
5.asocijativna Analiza
Asocijativno pravilo
je implikacija oblika
X → Y, gdje su X i Y
itemsetovi i X ∩ Y =
Ø
Support za X → Y,
s(X → Y) = s(X + Y)
Confidence za X →
Y, c(X → Y) = s(X +
Y) / s(X)
Zadatak asocijativne analize
A B C D E
AB AC AD AE BC BD BE CD CE DE
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
Apriori princip
Ako je za neki itemset support > minsup, tada i za svaki
njegov podskup važi support > minsup
Apriori princip je zasnovan na svojstvu
antimonotonosti za support mjeru
X , Y : ( X Y ) s( X ) s(Y )
Apriori princip, primjer
null
A B C D E
AB AC AD AE BC BD BE CD CE DE
Nije
frequent
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
Siječenje
ABCDE
Apriori princip, primjer 2
Item Count 1-itemsets
Bread 4
Coke 2
Milk 4 Itemset Count 2-itemsetovi
Beer 3 {Bread,Milk} 3
Diaper 4
{Bread,Beer} 2 (ne generišemo kandidate
Eggs 1
{Bread,Diaper} 3 koji sadrže Coke i Eggs)
{Milk,Beer} 2
{Milk,Diaper} 3
{Beer,Diaper} 3
Minimum Support = 3
3-itemsetovi
Bez Apriori principa broj kandiadta je: Itemset Count
6C + 6C + 6C = 41
1 2 3 {Bread,Milk,Diaper} 3
Sa Apriori principom:
6 + 6 + 1 = 13
Apriori algoritam
Siječenje:
acde se briše jer ade nije u L3
C4={abcd}
Smanjenje broja poređenja
1,4,7 3,6,9
2,5,8
234
567
145 136
345 356 367
Hash on
357 368
1, 4 or 7
124 159 689
125
457 458
Kreiranje heš stabla 3
Hash Function
Candidate Hash Tree
1,4,7 3,6,9
2,5,8
234
567
145 136
345 356 367
Hash on
357 368
2, 5 or 8
124 159 689
125
457 458
Kreiranje heš stabla 4
Hash Function
Candidate Hash Tree
1,4,7 3,6,9
2,5,8
234
567
145 136
345 356 367
Hash on
357 368
3, 6 or 9
124 159 689
125
457 458
Mapiranje transakcija na heš stablo
Level 1
1 2 3 5 6 2 3 5 6 3 5 6
Level 2
12 3 5 6 13 5 6 15 6 23 5 6 25 6 35 6
123
135 235
125 156 256 356
136 236
126
1+ 2356
2+ 356 1,4,7 3,6,9
2,5,8
3+ 56
234
567
145 136
345 356 367
357 368
124 159 689
125
457 458
Mapiranje transakcija na heš stablo 2
Heš funkcija
1 2 3 5 6 transakcija
1+ 2356
2+ 356 1,4,7 3,6,9
12+ 356 2,5,8
3+ 56
13+ 56
234
15+ 6
567
145 136
345 356 367
357 368
124 159 689
125
457 458
Mapiranje transakcija na heš stablo 3
Heš funkcija
1 2 3 5 6 transakcija
1+ 2356
2+ 356 1,4,7 3,6,9
12+ 356 2,5,8
3+ 56
13+ 56
Transakija se
234 upoređuje sa 9
15+ 6 umjesto sa 15
567
kandidata
145 136
345 356 367
357 368
124 159 689
125
457 458
Glavni faktori koji utiču na složenost
10
Ukupan broj frequent itemsetova 3
10
k
k 1
Maximal
A B C D E
itemsetovi
AB AC AD AE BC BD BE CD CE DE
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
12 2 24 4 4 2 3 4
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
2 4
ABCD ABCE ABDE ACDE BCDE
Podrška je 0
ABCDE
Maximal vs Closed itemsets 2
minsup = 2 null
Closed ALI
NE maximal
124 123 1234 245 345
A B C D E
Closed I
maximal
12 124 24 4 123 2 3 24 34 45
AB AC AD AE BC BD BE CD CE DE
12 2 24 4 4 2 3 4
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
2 4
ABCD ABCE ABDE ACDE BCDE # Closed = 9
# Maximal = 4
ABCDE
Maximal vs Closed itemsets 3
Frequent
Itemsets
Closed
Frequent
Itemsets
Maximal
Frequent
Itemsets
Predstavljanje baze transakcija
Horizontal
Data Layout Vertical Data Layout
TID Items A B C D E
1 A,B,E 1 1 2 2 1
2 B,C,D 4 2 3 4 3
3 C,E 5 5 4 5 6
4 A,C,D 6 7 8 9
5 A,B,C,D 7 8 9
6 A,E 8 10
7 A,B 9
8 A,B,C
9 A,C,D
10 B
FP-Growth algoritam
p:2 m:1
Prednosti pattern growth pristupa
{} Prefiks putevi za m:
Header Table fca:2, fcab:1
Item support f:4 c:1
f 4 Frequent itemsetovi
{} koji sadrže m
c 4 c:3 b:1 b:1
m,
a 3
b 3 a:3 p:1 f:3 fm, cm, am,
m 3 fcm, fam, cam,
p 3 m:2 b:1 c:3 fcam
c:3
f:3
Uslovno FP-stablo za am
c:3 {}
Prefiks putevi za “cm”: (f:3)
a:3 f:3
Uslovno FP-stablo za m
Uslovno FP-stablo za cm
{}
{}
Svi frequent itemsetovi
koji sadrže m
f:3 m,
c:3 fm, cm, am,
fcm, fam, cam,
a:3
fcam
Uslovno FP-stablo za M
Osnovni princip za FP-Growth algoritam
90 D1 FP-grow th runtime
D1 Apriori runtime
80
70
Run time(sec.)
60
30
20
10
0
0 0.5 1 1.5 2 2.5 3
Support threshold(%)
Generisanje asocijativnih pravila
Coffee Coffee
Tea 15 5 20
Tea 75 5 80
90 10 100